Puuttuvan tiedon käsittely analyyseissä. Eija Räikkönen, JY Jari Westerholm, NMI Asko Tolvanen, JY

Samankaltaiset tiedostot
pitkittäisaineistoissa

pitkittäisaineistoissa

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

Mitä IHMEttä on MIXTURE -mallintaminen?

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

SEM1, työpaja 2 ( )

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Perusnäkymä yksisuuntaiseen ANOVAaan

Harjoitus 7: NCSS - Tilastollinen analyysi

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Mat Tilastollisen analyysin perusteet, kevät 2007

TUTKIMUSOPAS. SPSS-opas

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa


SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

Puuttuvan tiedon ongelmat pitkittäistutkimuksissa

Capacity Utilization

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Osa 2: Otokset, otosjakaumat ja estimointi

2. Aineiston kuvailua

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Kvantitatiiviset tutkimusmenetelmät maantieteessä

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

ATH-aineiston tilastolliset analyysit SPSS/PASW SPSS analyysit / Risto Sippola 1

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Väliestimointi (jatkoa) Heliövaara 1

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Kvantitatiiviset menetelmät

Graph. COMPUTE x=rv.normal(0,0.04). COMPUTE y=rv.normal(0,0.04). execute.

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

VIIKON VINKKI: Kannattaa tutustua ensin koko tehtävänantoon ja tehdä tehtävä vasta sitten.

Testejä suhdeasteikollisille muuttujille

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Other approaches to restrict multipliers

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Efficiency change over time

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Kandidaatintutkielman aineistonhankinta ja analyysi

Frequencies. Frequency Table

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Sovellettu todennäköisyyslaskenta B

Tilastolliset ohjelmistot A. Pinja Pikkuhookana

Gap-filling methods for CH 4 data

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

I. Principles of Pointer Year Analysis

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Regressioanalyysi. Vilkkumaa / Kuusinen 1

16. Allocation Models

HAVAITUT JA ODOTETUT FREKVENSSIT

Todennäköisyyden ominaisuuksia

LATVUSMASSAN KOSTEUDEN MÄÄRITYS METSÄKULJETUKSEN YHTEYDESSÄ

Muuttujien määrittely

SPSS OPAS. Metropolia Liiketalous

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Parametrin estimointi ja bootstrap-otanta

A250A0050 Ekonometrian perusteet Tentti

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Kvantitatiiviset menetelmät

MTTTP5, luento Luottamusväli, määritelmä

Health 2000/2011 Surveys. Statistical Analysis using SAS and SAS-Callable SUDAAN Packages Esa Virtala.

The CCR Model and Production Correspondence

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Matemaatikot ja tilastotieteilijät

2. Keskiarvojen vartailua

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

805306A Johdatus monimuuttujamenetelmiin, 5 op

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

SPSS ohje. Metropolia Business School/ Pepe Vilpas

voidaan hylätä, pienempi vai suurempi kuin 1 %?

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä

Tutkimustiedonhallinnan peruskurssi

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Capacity utilization

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Kemometriasta. Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi

Regressioanalyysi. Kuusinen/Heliövaara 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

11. laskuharjoituskierros, vko 15, ratkaisut

Mat Tilastollisen analyysin perusteet, kevät 2007

Transkriptio:

Puuttuvan tiedon käsittely analyyseissä Eija Räikkönen, JY Jari Westerholm, NMI Asko Tolvanen, JY

Esityksen rakenne Puuttuvan tiedon teoriaa Mitä puuttuva tieto on? Olennaiset käsitteet Tyypillisiä tapoja käsitellä puuttuvaa tietoa ja niistä aiheutuvat ongelmat Suositeltavat tavat puuttuvan tiedon käsittelyyn

Esityksen rakenne Esimerkkejä SPSS-ohjelmalla Esimerkkejä Mplus-ohjelmalla

The optimal solution to the problem of missing data is not to have any (Allison 2002)

Jelicic, Phelps, & Lerner: Developmental Psychology (2009) 100 artikkelia kolmesta kehityspsykologian alan lehdestä: Child Development (IF = 4.718) Developmental Psychology (IF = 3.214) Journal of Research on Adolescence (IF = 1.989) 57 artikkelissa raportoitiin puuttuvan tiedon olemassa olo 82 % näistä artikkeleista puuttuva tieto käsiteltiin listwise- tai pairwise-menetelmällä

Puuttuva tieto Havaintoyksiköiltä puuttuu tieto käytettävästä muuttujasta Syitä puuttuvan tiedon olemassa oloon Vastaajaa ei tavoiteta alun alkaenkaan (unit nonresponse) Vastaajaa ei enää tavoitettu (attrition, dropout) Vastaaja ei osallistu tiettyyn tiedonkeruuvaiheeseen (wave non-response) Vastaaja jättää vastaamatta osaan kysymyksistä (item non-response) Virhe koodauksessa Jne.

Puuttuvan tiedon luonne Rubin (1976), Little & Rubin (1987/2002) esittelivät nykyäänkin käytössä olevan puuttuvan tiedon luokittelusysteemin Satunnaista A. Täysin satunnaista (MCAR) B. Satunnaista (MAR) Systemaattista C. (MNAR) => Puuttuvan tiedon luonne määrittää, kuinka puuttuva tieto tulisi huomioida analyyseissa.

MCAR (Missing Completely at Random) Puuttuvat havainnot satunnaisesti jakautuneita kaikkien havaintojen kesken Voidaan testata SPSS-ohjelmistossa jos MCAR tosi, voidaan käyttää listwise- tai pairwise-metodia jos MCAR epätosi MAR tai NMAR

MAR (Missing at Random) Puuttuva tieto Z (onko tietoa muuttujasta Y vai ei) saa riippua mistä tahansa muista muuttujista, mutta Y ei saa korreloida estimoitavan mallin ulkopuolella olevien, puuttuvaan tietoon (Z) yhteydessä olevien muuttujien kanssa. Estimoitavan mallin ulkopuoliset, puuttuvaan tietoon yhteydessä olevat muuttujat on kontrolloitava estimoitavassa mallissa! Ongelma: MAR-ominaisuutta ei voida mitenkään vahvistaa esim. testillä MAR-tilanteessa käytettävä FIML-estimointia tai puuttuvat tiedot on paikattava moni-imputoinnilla.

Y Kiinnostava muuttuja Z Onko tutkittavalla tieto Y:stä vai ei? X Aineiston muu muuttuja Aineiston ulkopuolinen tieto

Kuvitteellisessa populaatiossa on naisia ja miehiä yhtä paljon. Naisten tulot ovat keskimäärin 2000e ja miesten tulot 3000e. Poimitaan otos, jossa on 100 miestä ja 100 naista. Otoksessa tulojen keskiarvoksi tulee 2499.79e, kun se populaatiossa on 2500e. Kuvitellaan tilanne, että otoksessa puolet miehistä on jättänyt vastaamatta satunnaisesti (ei riipu tulotasosta). Tulojen puuttuvan tiedon indikaattori (muuttuja Z) korreloi tulojen kanssa voimakkaasti (r =.59).

MODEL RESULTS Two-Tailed Estimate S.E. Est./S.E. P-Value Means TULOT 2331.016 38.411 60.687 0.000 MODEL: [tulot]; tulot; OUTPUT: MODEL RESULTS Two-Tailed Estimate S.E. Est./S.E. P-Value TULOT WITH SP 246.717 3.157 78.141 0.000 Means SP 1.500 0.035 42.426 0.000 TULOT 2499.910 35.458 70.504 0.000 MODEL: [tulot]; tulot WITH sp; OUTPUT:

MNAR (NMAR) (Missing Not at Random/ Not Missing at Random) Puuttuva tieto riippuu siitä muuttujasta Y, josta itse arvotkin puuttuvat (Enders, 2010). Esiintymisen todennäköisyyttä ei voida ennustaa estimoitavan mallin muuttujilla käytetään joskus myös nimeä NIGN (Non-ignorable) Tätäkään ominaisuutta ei voida testata! MNAR-datalle kehitetty omia menetelmiä (ks. esim. Enders, 2010) Selection models Pattern-mixture models Diskussiossa huomioitava, keihin tulokset voidaan yleistää!

Tyypillisiä tapoja käsitellä puuttuvaa tietoa ja niiden ongelmat 1/2 Dataa poistavat menetelmät Listwise havainto poistetaan analyysista, jos yhdessäkin mallin muuttujassa on puuttuvaa tietoa Pairwise (exclude analysis by analysis) Esim. parittaisia korrelaatioita laskettaessa mukaan analyysiin otetaan kaikki ne tutkittavat, joilta löytyy havainnot ko. muuttujaparista N vaihtelee muuttujapareittain edellyttävät datalta MCAR-oletusta Jos MCAR ei toteudu, estimaatit ovat harhaisia!

Tyypillisiä tapoja käsitellä puuttuvaa tietoa ja niiden ongelmat 2/2 Dataa paikkaavat menetelmät Single imputation -menetelmä tuottaa yhden uuden tiedon kunkin puuttuvan paikalle Keskiarvomenetelmä Puuttuvat arvot muuttujassa Y paikataan muuttujan Y keskiarvolla Last Observation Carried Forward (LOCF; pitkittäisaineisto) Muuttujan Y toistomittauksissa esiintyvät puuttuvat tiedot paikataan viimeisimmällä Y:n havaitulla arvolla Regressiomenetelmä Muuttujassa Y esiintyvä puuttuva tieto paikataan regressiomallin tuottamalla ennusteella. EM (Expectation Maximization) -algoritmi Korvaa puuttuvan tiedon muuttujassa Y monimuuttujaisen todennäköisyysjakauman perusteella todennäköisimmällä arvolla. Ongelmia Osa menetelmistä tuottaa harhaisia estimaatteja Kaikki menetelmät pienentävät keskivirhettä virheellisesti luottamusvälit liian kapeita

Suositeltavia tapoja käsitellä puuttuvaa tietoa 1/2 Full Information Maximum Likelihood Estimation (FIML) Oletuksena MAR Perustuu kaikista estimoitavan mallin muuttujista ja havainnoista muodostettuun todennäköisyyksien tiheysfunktioon SPSS ei kykene FIML-estimointiin. Ei varsinaisesti korvaa puuttuvia tietoja vaan estimoi suurimman uskottavuuden estimaatit mallin parametreille perustuen koko havaittuun dataan harhattomat estimaatit ja keskivirheet

Suositeltavia tapoja käsitellä puuttuvaa tietoa 2/2 Moni-imputointi (multiple imputation, MI) Oletuksena MAR Paikkaa puuttuvaa tietoa Muodostetaan useita paikattuja datoja (min. 20) Paikattu arvo = ennuste + satunnainen virhe paikattu arvo vaihtelee datoittain Imputoiduista datoista lasketut estimaatit yhdistetään (engl. pool) lopullisiksi tuloksiksi. Mahdollista useissa ohjelmistoissa, esim. Mplus, SAS, STATA SPSS tietyin rajoittein

m d d m 1 ˆ 1 m V V V V B B W T m d W SE d m V 1 2 1 m d d B m V 1 2 ) ˆ ( 1 1 V T SE Parametrin estimaatti ja sitä vastaava keskivirhe lasketaan käyttäen imputoitujen datojen (m kappaletta) analyyseistä saatuja parametrin estimaatteja ja niiden keskivirheitä Enders, 2010 SE = Standard error of mean T = Total sampling variance W = Within-imputation variance B = Between-imputation variance

SPSS ja puuttuvan tiedon käsittely

Tietoa puuttuu mitä sitten? Epäilys tai tieto että datassa on puuttuvaa tietoa Jos puuttuvaa tietoa muuttujassa vähän (< 5%) ja voidaan olettaa/tietää että tieto puuttuu täysin satunnaisesti (MCAR) listwise/pairwise deletion tuottaa kohtuullisen turvallisen datan + Pääsee nopeasti analysoimaan - Otoskoko putoaa - Testien voimakkuus laskee Varmista puuttuvan tiedon tilanne tekemällä SPSS:ssä puuttuvan tiedon analyysi (MVA) Little s MCAR testi Jos data ei ole MCAR, paikkaa data MI tai FILM metodeilla

Data: Esimerkki 1 (listwise) Matematiikan testin tulokset peräkkäisistä mittauksista math4 ja math5 (max n= 237)

Data: Esimerkki 1 (pairwise) Pairwisen avulla käytettävissä olevien havaintojen määrät yleensä kasvavat

Regressio: Kuinka math4 ennustaa math5 tuloksia? Listwise tulos N=212 SPSS oletus Listwise Pairwise tulos Pairwise Molemmissa analyyseissa malli sopii aineistoon hyvin R 2 =.594 ANOVAN p-arvo <.001 Huom! Onko data MCAR?

Puuttuvan tiedon analyysi (MVA) Missing Value Analysis Analyze Missing Value Analysis Valitse tutkittavat muuttujat Valitse EM koska tästä tulostuu Little s MCAR testi selvitetään voiko listwise/pairwise tuloksiin luottaa

MVA: EM Käytä EM-optiota ainoastaan MCAR testaukseen! Valitse Variables Oletuksena käyttää kaikkia kvantitatiivisia muuttujia Valitse EM Vain scale muuttujille Little s MCAR testi Oletuksena normaalijakautunut data

MVA Results: EM EM keskiarvot, korrelaatiot ja kovarianssit Little s MCAR testitulos p>.05 eli MCAR oletus voimassa! listwise ja pairwise data käyttökelpoisia ja edellä tehtyjen regressioiden tulokset uskottavia

Poistetaan enemmän dataa Aineistoa manipuloidaan siten, että kun math3 20, henkilön math4 mittauksen arvot ovat puuttuvia. Lisäksi kun math3 28, math5 arvot puuttuvat. Manipuloinnin johdosta listwise otoskoko putoaa reilusti

Poistetaan enemmän dataa (2) Aineistoa manipuloidaan siten, että kun math3 20, henkilön math4 mittauksen arvot ovat puuttuvia. Lisäksi kun math3 28, math5 arvot puuttuvat. Originaali data

Puuttuvan tiedon analyysi (MVA) Missing Value Analysis Analyze Missing Value Analysis Valitse tutkittavat muuttujat Nyt mukana math3 Valitse EM koska tästä tulostuu Little s MCAR testi Valitse nyt myös Patterns ja Descriptives lisätietoa muuttujista

MVA: Patterns, Descriptives Patterns Taulukossa puuttuvien tietojen mallit Puuttuvan tiedon kriteeriraja 0% Descriptives Muuttujakohtaiset tiedot T-testit ja p-arvot Jos mukana kategorisia muuttujia, pyydä niistäkin taulukot

MVA Results: EM Ei konvergoidu oletusarvolla 25 iteraatiota Lisätään iteraatioita ( nyt 100) Little s MCAR testin p-arvo <.05, jolloin MCAR oletus hylätään listwise, pairwise tulokset harhaisia! data on MNAR (/MAR) Seuraus tehdystä manipuloinnista Siirry käyttämään MI (tai FIML) menetelmiä, joka korjaa tilanteeksi MAR

MVA Results: Separate Variance t- Tests Math5_man ja math3 keskiarvot eroavat tilastollisesti (p<.001)verrattaessa math4_man testissä mukana olleita ja puuttuneita Vastaavat tulokset myös math5_man testissä mukana olleiden ja puuttuneiden välillä Merkitsevä ero vahvistaa MCAR oletuksen hylkäämisen, kun verrataan math5_man ja math3 keskiarvoja math4_man ja math5_man muuttujassa havaittujen ja puuttuvien havaintojen ryhmiä

MVA Results: Tabulated Patterns Puuttuvan tiedon mallit 88 havaintoa joilla kaikki tiedot 63 joilta math4_man havainto puuttuu 5 joilta puuttuu tieto math5_man ja math4_man muuttujista 16 joilta puuttuu tieto kaikista kolmesta muuttujasta

SPSS ja Multiple Imputation (MI) Toinen tapa tehdä puuttuvan tiedon analyysi SPSS:ssä Analyze Patterns Visuaalisempi Yksinkertaisempi

MI Missing Patterns: Results Yleiskuva Muuttujatasolla Kaikissa puuttuu tietoa Koehenkilötasolla 149 koehenkilöllä puuttuvaa tietoa Mittausarvojen tasolla 190 arvoa puuttuu Kuvailevat tiedot Muuttujakohtaisia Järjestetty puuttuvan tiedon mukaisesti

MI Missing Patterns: Patterns Pattern 1 ->ei puuttuvaa tietoa Pattern 2 ->tietoa puuttuu vain math3 muuttujassa Pattern 3 -> tietoa puuttuu vain math5_man muuttujassa jne. Kaikkiaan 2 3 = 8 teoreettista puuttuvan tiedon mallia Muuttujat järjestetty vasemmalta oikealle puuttuvien tietojen suuruusjärjestyksessä 37%:lla (88) havaintoyksiköistä ei ole puuttuvia arvoja (Pattern 1) Pattern 4 löytyy 27%:lla (63) havaintoyksiköistä Pattern 3 on 21%:lla (49) havaintoyksikköistä

Impute Missing Data Values: Variables Manipuloitujen muuttujien puuttuvat tiedot on paikattava Valitaan imputoitavan mallin muuttujat Lisämuuttuja math3 MAR Imputointien lukumääräksi suositellaan 20 Tallennetaan imputoitu data omaksi tiedostoksi siirry Method välilehdelle

Method Valitse Custom Mahdollista lisätä iteraatioiden lukumäärää siirry Constraints-välilehdelle Scan Data Roolit Vain imputointi Vain ennustaja Imputoi ja ennusta Määrittele rajoitteet Vältä älyttömät arvot Teoreettiset min, max Pyöristys (10,1,.25,.1,.01) siirry Output

Output Pyydetään tulostusta imputointimallista Kuvailevat tiedot imputoiduista muuttujista Iteraatiohistoria tallennetaan prosessin onnistumisen arvioimiseksi kaikki valmista OK HUOM! Kategorisilla muuttujilla imputointimalli olisi ollut logistinen regressio

MI: Results Imputoidut arvot määriteltyjen rajojen sisällä (min,max) Imputoidut math4_man keskiarvot selkeästi pienempiä kuin original (=listwise). Keskihajonnat suurempia kuin listwise Imputointiprosessin on tarkoitus tuoda lisää satunnaisvaihtelua Vastaavat taulut kaikille imputoiduille muuttujille Iterointihistoriasta lisätietoa

MI: Tarkista iterointi ja imputointi Tarkistetaan FCS konvergointi Valitaan FCS_MI Graph Chart Builder Tavoitellaan stabiileja janoja

MI: Tarkista iterointi ja imputointi Math5_man vähän vähemmän hajontaa sekä keskiarvoissa että -hajonnoissa Tulkittavissa stabiiliksi Jos stabiliutta ei tavoiteta 1. koita ensin lisätä iterointikertoja (10->100/200) 2. Tarkista jakaumat

MI: Imputoitun datan käyttö Imputoidussa datatiedostossa ensimmäisenä muuttujana imputointi-indeksi Yksinkertainen regressio, ennustetaan math5_man tuloksia math4_man arvoilla Voidaan käyttää imputoitua dataa ja tulostaa pooled estimaatteja

MI: Vaikutus muuttujiin Original data = listwise Math4_man ja Math5_man keskiarvot pienenevät otoskoon kasvaessa MI:n vaikutuksesta Korrelaatio kasvaa selkeästi -> selitysaste (R 2 ) Pooled estimates eivät tulostu kaikissa tulostuvissa osissa!! Esim. regression yhteydessä ei pooled tuloksia Model Summary ANOVA-taulukko Kuitenkin kaikki 1-20 iterointitulosta tulostetaan

MI: Regression tulos Listwise MCAR Referenssinä Listwise MCAR tulos (n=212) ilman manipulointia 0 Original data listwise tulos (n=100) Harhainen koska MI datalla MCAR ei toteudu Varsinainen imputoidun datan tulos Pooled Math4_man regressiokerroin pienentynyt, keskivirheet kasvaneet (vrt. MCAR) Vakio on kasvanut ja sen keskivirhe myös (vrt. MCAR) Relative Effiency: vertailuluku, jossa verrataan suoritetun imputointimäärän (tässä 20) vaikutusta teoreettisesti äärettömään määrään imputointeja.

Regressiotulosten yhteenveto data menetelmä Math4 (n) Math4 miss% Math4 (χ ) Math4 (SE) Math5 (n) Math5 miss% Math5 (χ ) Math5 (SE) korrelaatio R 2 vakio vakio (SE) Math4 (B) Math4 (B) SE esim.1 (MCAR) listwise 212 11 28.778.482 212 11 40.887.536.771.594 16.201 1.450.858.049 esim.1 (MCAR) pairwise 212 11 28.778.482 216 9 40.935.582.771.594 16.393 1.442.853.049 esim.2 MI data MI 221 0 (7) 28.171 221 0 (7) 40.491.743.552 19.570 2.553.724.086 Ulkopuolisen muuttujan Math3 ja mallin muuttujien avulla imputoitiin 121 havainnon puuttuvat tiedot (121%) MI datalla estimoidun mallin (regression) estimaattien keskivirheet oikean suuntaiset SPSS ei tulosta MI datalla poolattua selitysastetta (R 2 ) regressiossa Tämä estimaatti saatu korrelaatiotaulusta MI mallin selitysaste kasvoi originaalista (listwise).343.552 MI Original tulos harhainen koska MCAR ei toteutunut MI pooled otoskoko n=221, koska Math5_man ja Math4_man sekä Math3 muuttujilla on 16 havaintoa, jotka puuttuivat kaikilta kolmelta. MI ei imputoi täysin puuttuvia arvoja (toisin kuin EM)

MI:Replikointi Iteratiivisessa prosessissa usein oletusarvoisesti käytetään satunnaista siemenlukua (seed) -> uusi prosessi alkaa aina uudella alkuarvolla -> tulokset poikkeavat aina edellisestä Replikoitaessa käytetään ennakkoon määriteltyä siemenlukua -> tulokset toistuvat täsmälleen samoina iteroinnista huolimatta

MVA Results: Descriptives (EM) Pairwise estimaatit EM-valinta tulostaa automaattisesti myös pairwise estimaatit. Lisäksi pyydettäessä mm. listwise estimaatit All values = pairwise Ei juurikaan eroja keskiarvoissa ja -hajonnoissa, mutta keskivirheet pieniä n listwise = 212 n pairwise = 212/216 n EM = 237 EM keskivirheet pienemmät SE= sd n EM p-arvot pienentyvät Ylläoleva lähinnä osoittaa miksi EM keskivirhe tulee liian pieneksi.

Suositeltavia lähteitä: IBM SPSS. (2011). Missing Values 20. Retrieved from ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/en/cli ent/manuals/ibm_spss_missing_values.pdf Schafer, J. L., & Graham, J. W. (2002). Missing data: Our view of the state of the art. Psychological Methods, 7(2), 147-177. Enders, C. K. (2010). Applied missing data analysis The Guilford Press. Little and Rubin, 2002 R.J.A. Little and D.B. Rubin, Statistical analysis with missing data (2nd Ed.), Wiley, Hoboken, NJ (2002). Rubin, D. B. (1987). Multiple Imputation for nonresponse in surveys, New York : Wiley. Graham, J. W. (2009). Missing data analysis: Making it work in the real world. Annual Review of Psychology, 60, 549-576. Bodner, T. E. (2008). What improves with increased missing data imputations? Structural Equation Modeling: A Multidisciplinary Journal, 15(4), 651-675. Horppu, I. (2008). Analysis and evaluation of cell imputation. Jyväskylä: University of Jyväskylä. 31.1.2011 Jari Westerholm NMI

Mplus ja puuttuva tieto

Alkuperäisen datan ja manipuloidun muuttujan kuvailevia tietoja 1 1

Alkuperäisen datan ja manipuloidun muuttujan kuvailevia tietoja 1 1

Alkuperäisen datan ja manipuloidun muuttujan kuvailevia tietoja

Alkuperäisen datan ja manipuloidun muuttujan kuvailevia tietoja

Alkuperäisen datan ja manipuloidun muuttujan kuvailevia tietoja

ANALYSIS: ESTIMATOR=MLR; MODEL: math5 ON math4; [math4 math5]; OUTPUT: STDYX; Estimoitava malli math4 math5 ANALYSIS: ESTIMATOR=MLR; MODEL: math5man ON math4man; [math4man math5man]; OUTPUT: STDYX;

Alkuperäiset math4 ja math5 muuttujat PROPORTION OF DATA PRESENT N=216 Covariance Coverage MATH5 MATH4 MATH5 1.000 MATH4 0.981 0.981 Manipuloidut math4man ja math5man muuttujat PROPORTION OF DATA PRESENT N=216 Covariance Coverage MATH5MAN MATH4MAN MATH5MAN 0.773 MATH4MAN 0.463 0.690

MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH4 0.854 0.049 17.582 0.000 Means MATH4 28.812 0.476 60.477 0.000 Intercepts MATH5 16.337 1.439 11.352 0.000 Variances MATH4 48.649 4.697 10.358 0.000 Residual Variances MATH5 24.546 2.374 10.341 0.000 STDYX Standardization MATH5 ON MATH4 0.769 0.028 27.502 0.000 MODEL RESULTS (manipuloitu) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN 0.766 0.109 7.036 0.000 Means MATH4MAN 30.223 0.481 62.841 0.000 Intercepts MATH5MAN 16.961 3.079 5.508 0.000 Variances MATH4MAN 34.135 4.074 8.378 0.000 Residual Variances MATH5MAN 33.532 4.866 6.891 0.000 STDYX Standardization MATH5MAN ON MATH4MAN 0.611 0.075 8.120 0.000

MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH4 0.854 0.049 17.582 0.000 Means MATH4 28.812 0.476 60.477 0.000 Intercepts MATH5 16.337 1.439 11.352 0.000 Variances MATH4 48.649 4.697 10.358 0.000 Residual Variances MATH5 24.546 2.374 10.341 0.000 STDYX Standardization MATH5 ON MATH4 0.769 0.028 27.502 0.000 MODEL RESULTS (manipuloitu) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN 0.766 0.109 7.036 0.000 Means MATH4MAN 30.223 0.481 62.841 0.000 Intercepts MATH5MAN 16.961 3.079 5.508 0.000 Variances MATH4MAN 34.135 4.074 8.378 0.000 Residual Variances MATH5MAN 33.532 4.866 6.891 0.000 STDYX Standardization MATH5MAN ON MATH4MAN 0.611 0.075 8.120 0.000

MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH4 0.854 0.049 17.582 0.000 Means MATH4 28.812 0.476 60.477 0.000 Intercepts MATH5 16.337 1.439 11.352 0.000 Variances MATH4 48.649 4.697 10.358 0.000 Residual Variances MATH5 24.546 2.374 10.341 0.000 STDYX Standardization MATH5 ON MATH4 0.769 0.028 27.502 0.000 MODEL RESULTS (manipuloitu) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN 0.766 0.109 7.036 0.000 Means MATH4MAN 30.223 0.481 62.841 0.000 Intercepts MATH5MAN 16.961 3.079 5.508 0.000 Variances MATH4MAN 34.135 4.074 8.378 0.000 Residual Variances MATH5MAN 33.532 4.866 6.891 0.000 STDYX Standardization MATH5MAN ON MATH4MAN 0.611 0.075 8.120 0.000

MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH4 0.854 0.049 17.582 0.000 Means MATH4 28.812 0.476 60.477 0.000 Intercepts MATH5 16.337 1.439 11.352 0.000 Variances MATH4 48.649 4.697 10.358 0.000 Residual Variances MATH5 24.546 2.374 10.341 0.000 STDYX Standardization MATH5 ON MATH4 0.769 0.028 27.502 0.000 MODEL RESULTS (manipuloitu) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN 0.766 0.109 7.036 0.000 Means MATH4MAN 30.223 0.481 62.841 0.000 Intercepts MATH5MAN 16.961 3.079 5.508 0.000 Variances MATH4MAN 34.135 4.074 8.378 0.000 Residual Variances MATH5MAN 33.532 4.866 6.891 0.000 STDYX Standardization MATH5MAN ON MATH4MAN 0.611 0.075 8.120 0.000

MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH4 0.854 0.049 17.582 0.000 Means MATH4 28.812 0.476 60.477 0.000 Intercepts MATH5 16.337 1.439 11.352 0.000 Variances MATH4 48.649 4.697 10.358 0.000 Residual Variances MATH5 24.546 2.374 10.341 0.000 STDYX Standardization MATH5 ON MATH4 0.769 0.028 27.502 0.000 MODEL RESULTS (manipuloitu) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN 0.766 0.109 7.036 0.000 Means MATH4MAN 30.223 0.481 62.841 0.000 Intercepts MATH5MAN 16.961 3.079 5.508 0.000 Variances MATH4MAN 34.135 4.074 8.378 0.000 Residual Variances MATH5MAN 33.532 4.866 6.891 0.000 STDYX Standardization MATH5MAN ON MATH4MAN 0.611 0.075 8.120 0.000

MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH4 0.854 0.049 17.582 0.000 Means MATH4 28.812 0.476 60.477 0.000 Intercepts MATH5 16.337 1.439 11.352 0.000 Variances MATH4 48.649 4.697 10.358 0.000 Residual Variances MATH5 24.546 2.374 10.341 0.000 STDYX Standardization MATH5 ON MATH4 0.769 0.028 27.502 0.000 R 2 =.59 MODEL RESULTS (manipuloitu) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN 0.766 0.109 7.036 0.000 Means MATH4MAN 30.223 0.481 62.841 0.000 Intercepts MATH5MAN 16.961 3.079 5.508 0.000 Variances MATH4MAN 34.135 4.074 8.378 0.000 Residual Variances MATH5MAN 33.532 4.866 6.891 0.000 STDYX Standardization MATH5MAN ON MATH4MAN 0.611 0.075 8.120 0.000 R 2 =.37

Estimoitava malli math4man math5man math3 math3 korreloi mallin muuttujiin ja ennustaa puuttuvaa tietoa! Tilanne NMAR -> tulokset eivät ole luotettavia

Estimoitava malli math4man math5 math3 math3 korreloi mallin muuttujiin ja ennustaa puuttuvaa tietoa! MODEL: math5man ON math4man; [math4man math5man]; math3 WITH math4man math5man; OUTPUT: STDYX;

MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH4 0.854 0.049 17.582 0.000 Means MATH4 28.812 0.476 60.477 0.000 Intercepts MATH5 16.337 1.439 11.352 0.000 Variances MATH4 48.649 4.697 10.358 0.000 Residual Variances MATH5 24.546 2.374 10.341 0.000 STDYX Standardization MATH5 ON MATH4 0.769 0.028 27.502 0.000 MODEL RESULTS (math3 MUKANA FIML) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN 0.756 0.082 9.243 0.000 Means MATH4MAN 28.247 0.640 44.118 0.000 Intercepts MATH5MAN 19.148 2.419 7.916 0.000 Variances MATH4MAN 54.071 8.643 6.256 0.000 Residual Variances MATH5MAN 25.132 3.155 7.967 0.000 STDYX Standardization MATH5MAN ON MATH4MAN 0.742 0.040 18.754 0.000

MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH4 0.854 0.049 17.582 0.000 Means MATH4 28.812 0.476 60.477 0.000 Intercepts MATH5 16.337 1.439 11.352 0.000 Variances MATH4 48.649 4.697 10.358 0.000 Residual Variances MATH5 24.546 2.374 10.341 0.000 STDYX Standardization MATH5 ON MATH4 0.769 0.028 27.502 0.000 MODEL RESULTS (math3 MUKANA FIML) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN 0.756 0.082 9.243 0.000 Means MATH4MAN 28.247 0.640 44.118 0.000 Intercepts MATH5MAN 19.148 2.419 7.916 0.000 Variances MATH4MAN 54.071 8.643 6.256 0.000 Residual Variances MATH5MAN 25.132 3.155 7.967 0.000 STDYX Standardization MATH5MAN ON MATH4MAN 0.742 0.040 18.754 0.000

MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH4 0.854 0.049 17.582 0.000 Means MATH4 28.812 0.476 60.477 0.000 Intercepts MATH5 16.337 1.439 11.352 0.000 Variances MATH4 48.649 4.697 10.358 0.000 Residual Variances MATH5 24.546 2.374 10.341 0.000 STDYX Standardization MATH5 ON MATH4 0.769 0.028 27.502 0.000 16.337+0.854*28.812= 40.94 MODEL RESULTS (math3 MUKANA FIML) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN 0.756 0.082 9.243 0.000 Means MATH4MAN 28.247 0.640 44.118 0.000 Intercepts MATH5MAN 19.148 2.419 7.916 0.000 Variances MATH4MAN 54.071 8.643 6.256 0.000 Residual Variances MATH5MAN 25.132 3.155 7.967 0.000 STDYX Standardization MATH5MAN ON MATH4MAN 0.742 0.040 18.754 0.000 19.148+0.756*28.247= 40.50

MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH4 0.854 0.049 17.582 0.000 Means MATH4 28.812 0.476 60.477 0.000 Intercepts MATH5 16.337 1.439 11.352 0.000 Variances MATH4 48.649 4.697 10.358 0.000 Residual Variances MATH5 24.546 2.374 10.341 0.000 STDYX Standardization MATH5 ON MATH4 0.769 0.028 27.502 0.000 MODEL RESULTS (math3 MUKANA FIML) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN 0.756 0.082 9.243 0.000 Means MATH4MAN 28.247 0.640 44.118 0.000 Intercepts MATH5MAN 19.148 2.419 7.916 0.000 Variances MATH4MAN 54.071 8.643 6.256 0.000 Residual Variances MATH5MAN 25.132 3.155 7.967 0.000 STDYX Standardization MATH5MAN ON MATH4MAN 0.742 0.040 18.754 0.000

MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH4 0.854 0.049 17.582 0.000 Means MATH4 28.812 0.476 60.477 0.000 Intercepts MATH5 16.337 1.439 11.352 0.000 Variances MATH4 48.649 4.697 10.358 0.000 Residual Variances MATH5 24.546 2.374 10.341 0.000 STDYX Standardization MATH5 ON MATH4 0.769 0.028 27.502 0.000 MODEL RESULTS (math3 MUKANA FIML) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN 0.756 0.082 9.243 0.000 Means MATH4MAN 28.247 0.640 44.118 0.000 Intercepts MATH5MAN 19.148 2.419 7.916 0.000 Variances MATH4MAN 54.071 8.643 6.256 0.000 Residual Variances MATH5MAN 25.132 3.155 7.967 0.000 STDYX Standardization MATH5MAN ON MATH4MAN 0.742 0.040 18.754 0.000

MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH4 0.854 0.049 17.582 0.000 Means MATH4 28.812 0.476 60.477 0.000 Intercepts MATH5 16.337 1.439 11.352 0.000 Variances MATH4 48.649 4.697 10.358 0.000 Residual Variances MATH5 24.546 2.374 10.341 0.000 STDYX Standardization MATH5 ON MATH4 0.769 0.028 27.502 0.000 R 2 =.59 MODEL RESULTS (math3 MUKANA FIML) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN 0.756 0.082 9.243 0.000 Means MATH4MAN 28.247 0.640 44.118 0.000 Intercepts MATH5MAN 19.148 2.419 7.916 0.000 Variances MATH4MAN 54.071 8.643 6.256 0.000 Residual Variances MATH5MAN 25.132 3.155 7.967 0.000 STDYX Standardization MATH5MAN ON MATH4MAN 0.742 0.040 18.754 0.000 R 2 =.55

Moni-imputointi Mplussalla TITLE: imputoidaan dataa R=20 DATA: FILE = manipuloitu_math5.dat; VARIABLE: NAMES = math3 math4man math4 math5; USEVARIABLES ARE math3 math4man math5man; MISSING = ALL(-999); DATA IMPUTATION: IMPUTE math4man math5man; NDATASETS = 20; SAVE = NMARIMP*.DAT; ANALYSIS: TYPE = BASIC;

Moni-imputointi Mplussalla TITLE: imputoidaan dataa R=20 DATA: FILE = manipuloitu_math5.dat; VARIABLE: NAMES = math3 math4man math4 math5; USEVARIABLES ARE math3 math4man math5man; MISSING = ALL(-999); DATA IMPUTATION: IMPUTE math4man math5man; NDATASETS = 20; SAVE = NMARIMP*.DAT; ANALYSIS: TYPE = BASIC;

Moni-imputointi Mplussalla TITLE: imputoidaan dataa R=20 DATA: FILE = manipuloitu_math5.dat; VARIABLE: NAMES = math3 math4man math4 math5; USEVARIABLES ARE math3 math4man math5man; MISSING = ALL(-999); DATA IMPUTATION: IMPUTE math4man math5man; NDATASETS = 20; SAVE = NMARIMP*.DAT; ANALYSIS: TYPE = BASIC;

Moni-imputointi Mplussalla TITLE: imputoidaan dataa R=20 DATA: FILE = manipuloitu_math5.dat; VARIABLE: NAMES = math3 math4man math4 math5; USEVARIABLES ARE math3 math4man math5man; MISSING = ALL(-999); DATA IMPUTATION: IMPUTE math4man math5man; NDATASETS = 20; SAVE = NMARIMP*.DAT; ANALYSIS: TYPE = BASIC;

Moni-imputointi Mplussalla TITLE: imputoidaan dataa R=20 DATA: FILE = manipuloitu_math5.dat; VARIABLE: NAMES = math3 math4man math4 math5; USEVARIABLES ARE math3 math4man math5man; MISSING = ALL(-999); DATA IMPUTATION: IMPUTE math4man math5man; NDATASETS = 20; SAVE = NMARIMP*.DAT; ANALYSIS: TYPE = BASIC;

Moni-imputointi Mplussalla TITLE: imputoidaan dataa R=20 DATA: FILE = manipuloitu_math5.dat; VARIABLE: NAMES = math3 math4man math4 math5; USEVARIABLES ARE math3 math4man math5man; MISSING = ALL(-999); DATA IMPUTATION: IMPUTE math4man math5man; NDATASETS = 20; SAVE = NMARIMP*.DAT; ANALYSIS: TYPE = BASIC;

Tuloksena 20 dataa, joissa puuttuvaa Tietoa korvattu

TITLE: Imputoitujen datojen analyysi ; DATA: FILE IS NMARIMPlist.dat; TYPE IS IMPUTATION; VARIABLE: NAMES ARE MATH3 MATH4MAN MATH5MAN; USEVARIABLES ARE MATH4MAN MATH5MAN; MISSING = *; ANALYSIS: estimator = MLR; MODEL: MATH5MAN ON MATH4MAN; [MATH5MAN MATH4MAN]; OUTPUT: TECH1 TECH4;

MODEL RESULTS (math3 MUKANA FIML) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN 0.756 0.082 9.243 0.000 Means MATH4MAN 28.247 0.640 44.118 0.000 Intercepts MATH5MAN 19.148 2.419 7.916 0.000 Variances MATH4MAN 54.071 8.643 6.256 0.000 Residual Variances MATH5MAN 25.132 3.155 7.967 0.000 STDYX Standardization MATH5MAN ON MATH4MAN 0.742 0.040 18.754 0.000 R 2 =.55 MODEL RESULTS (MONI-IMPUTOIDUN DATAN ANALYYSI N=221) Two-Tailed Rate of Estimate S.E. Est./S.E. P-Value Missing MATH5MAN ON MATH4MAN 0.743 0.083 8.952 0.000 0.743 Means MATH4MAN 28.147 0.649 43.343 0.000 28.147 Intercepts MATH5MAN 19.597 2.423 8.089 0.000 19.597 Variances MATH4MAN 56.331 9.102 6.189 0.000 56.331 Residual Variances MATH5MAN 25.377 3.391 7.484 0.000 25.377 STDYX Standardizat MATH5MAN ON MATH4MAN 0.739 0.045 16.393 0.000 0.304 R 2 =.55

Muthén, L.K. and Muthén, B.O. (1998-2012). Mplus User s Guide. Seventh Edition. Los Angeles, CA: Muthén & Muthén Mplus provides multiple imputation of missing data using Bayesian analysis (Rubin, 1987; Schafer, 1997). Both the unrestricted H1 model and a restricted H0 model can be used for imputation. Multiple data sets generated using multiple imputation can be analyzed using a special feature of Mplus. Parameter estimates are averaged over the set of analyses, and standard errors are computed using the average of the standard errors over the set of analyses and the between analysis parameter estimate variation (Rubin, 1987; Schafer, 1997). A chi-square test of overall model fit is provided (Asparouhov & Muthén, 2008c; Enders, 2010).

Kiitos