Puuttuvan tiedon käsittely analyyseissä. Eija Räikkönen, JY Jari Westerholm, NMI Asko Tolvanen, JY

Transkriptio

1 Puuttuvan tiedon käsittely analyyseissä Eija Räikkönen, JY Jari Westerholm, NMI Asko Tolvanen, JY

2 Esityksen rakenne Puuttuvan tiedon teoriaa Mitä puuttuva tieto on? Olennaiset käsitteet Tyypillisiä tapoja käsitellä puuttuvaa tietoa ja niistä aiheutuvat ongelmat Suositeltavat tavat puuttuvan tiedon käsittelyyn

3 Esityksen rakenne Esimerkkejä SPSS-ohjelmalla Esimerkkejä Mplus-ohjelmalla

4 The optimal solution to the problem of missing data is not to have any (Allison 2002)

5 Jelicic, Phelps, & Lerner: Developmental Psychology (2009) 100 artikkelia kolmesta kehityspsykologian alan lehdestä: Child Development (IF = 4.718) Developmental Psychology (IF = 3.214) Journal of Research on Adolescence (IF = 1.989) 57 artikkelissa raportoitiin puuttuvan tiedon olemassa olo 82 % näistä artikkeleista puuttuva tieto käsiteltiin listwise- tai pairwise-menetelmällä

6 Puuttuva tieto Havaintoyksiköiltä puuttuu tieto käytettävästä muuttujasta Syitä puuttuvan tiedon olemassa oloon Vastaajaa ei tavoiteta alun alkaenkaan (unit nonresponse) Vastaajaa ei enää tavoitettu (attrition, dropout) Vastaaja ei osallistu tiettyyn tiedonkeruuvaiheeseen (wave non-response) Vastaaja jättää vastaamatta osaan kysymyksistä (item non-response) Virhe koodauksessa Jne.

7 Puuttuvan tiedon luonne Rubin (1976), Little & Rubin (1987/2002) esittelivät nykyäänkin käytössä olevan puuttuvan tiedon luokittelusysteemin Satunnaista A. Täysin satunnaista (MCAR) B. Satunnaista (MAR) Systemaattista C. (MNAR) => Puuttuvan tiedon luonne määrittää, kuinka puuttuva tieto tulisi huomioida analyyseissa.

8 MCAR (Missing Completely at Random) Puuttuvat havainnot satunnaisesti jakautuneita kaikkien havaintojen kesken Voidaan testata SPSS-ohjelmistossa jos MCAR tosi, voidaan käyttää listwise- tai pairwise-metodia jos MCAR epätosi MAR tai NMAR

9 MAR (Missing at Random) Puuttuva tieto Z (onko tietoa muuttujasta Y vai ei) saa riippua mistä tahansa muista muuttujista, mutta Y ei saa korreloida estimoitavan mallin ulkopuolella olevien, puuttuvaan tietoon (Z) yhteydessä olevien muuttujien kanssa. Estimoitavan mallin ulkopuoliset, puuttuvaan tietoon yhteydessä olevat muuttujat on kontrolloitava estimoitavassa mallissa! Ongelma: MAR-ominaisuutta ei voida mitenkään vahvistaa esim. testillä MAR-tilanteessa käytettävä FIML-estimointia tai puuttuvat tiedot on paikattava moni-imputoinnilla.

10 Y Kiinnostava muuttuja Z Onko tutkittavalla tieto Y:stä vai ei? X Aineiston muu muuttuja Aineiston ulkopuolinen tieto

11 Kuvitteellisessa populaatiossa on naisia ja miehiä yhtä paljon. Naisten tulot ovat keskimäärin 2000e ja miesten tulot 3000e. Poimitaan otos, jossa on 100 miestä ja 100 naista. Otoksessa tulojen keskiarvoksi tulee e, kun se populaatiossa on 2500e. Kuvitellaan tilanne, että otoksessa puolet miehistä on jättänyt vastaamatta satunnaisesti (ei riipu tulotasosta). Tulojen puuttuvan tiedon indikaattori (muuttuja Z) korreloi tulojen kanssa voimakkaasti (r =.59).

12 MODEL RESULTS Two-Tailed Estimate S.E. Est./S.E. P-Value Means TULOT MODEL: [tulot]; tulot; OUTPUT: MODEL RESULTS Two-Tailed Estimate S.E. Est./S.E. P-Value TULOT WITH SP Means SP TULOT MODEL: [tulot]; tulot WITH sp; OUTPUT:

13 MNAR (NMAR) (Missing Not at Random/ Not Missing at Random) Puuttuva tieto riippuu siitä muuttujasta Y, josta itse arvotkin puuttuvat (Enders, 2010). Esiintymisen todennäköisyyttä ei voida ennustaa estimoitavan mallin muuttujilla käytetään joskus myös nimeä NIGN (Non-ignorable) Tätäkään ominaisuutta ei voida testata! MNAR-datalle kehitetty omia menetelmiä (ks. esim. Enders, 2010) Selection models Pattern-mixture models Diskussiossa huomioitava, keihin tulokset voidaan yleistää!

14 Tyypillisiä tapoja käsitellä puuttuvaa tietoa ja niiden ongelmat 1/2 Dataa poistavat menetelmät Listwise havainto poistetaan analyysista, jos yhdessäkin mallin muuttujassa on puuttuvaa tietoa Pairwise (exclude analysis by analysis) Esim. parittaisia korrelaatioita laskettaessa mukaan analyysiin otetaan kaikki ne tutkittavat, joilta löytyy havainnot ko. muuttujaparista N vaihtelee muuttujapareittain edellyttävät datalta MCAR-oletusta Jos MCAR ei toteudu, estimaatit ovat harhaisia!

15 Tyypillisiä tapoja käsitellä puuttuvaa tietoa ja niiden ongelmat 2/2 Dataa paikkaavat menetelmät Single imputation -menetelmä tuottaa yhden uuden tiedon kunkin puuttuvan paikalle Keskiarvomenetelmä Puuttuvat arvot muuttujassa Y paikataan muuttujan Y keskiarvolla Last Observation Carried Forward (LOCF; pitkittäisaineisto) Muuttujan Y toistomittauksissa esiintyvät puuttuvat tiedot paikataan viimeisimmällä Y:n havaitulla arvolla Regressiomenetelmä Muuttujassa Y esiintyvä puuttuva tieto paikataan regressiomallin tuottamalla ennusteella. EM (Expectation Maximization) -algoritmi Korvaa puuttuvan tiedon muuttujassa Y monimuuttujaisen todennäköisyysjakauman perusteella todennäköisimmällä arvolla. Ongelmia Osa menetelmistä tuottaa harhaisia estimaatteja Kaikki menetelmät pienentävät keskivirhettä virheellisesti luottamusvälit liian kapeita

16 Suositeltavia tapoja käsitellä puuttuvaa tietoa 1/2 Full Information Maximum Likelihood Estimation (FIML) Oletuksena MAR Perustuu kaikista estimoitavan mallin muuttujista ja havainnoista muodostettuun todennäköisyyksien tiheysfunktioon SPSS ei kykene FIML-estimointiin. Ei varsinaisesti korvaa puuttuvia tietoja vaan estimoi suurimman uskottavuuden estimaatit mallin parametreille perustuen koko havaittuun dataan harhattomat estimaatit ja keskivirheet

17 Suositeltavia tapoja käsitellä puuttuvaa tietoa 2/2 Moni-imputointi (multiple imputation, MI) Oletuksena MAR Paikkaa puuttuvaa tietoa Muodostetaan useita paikattuja datoja (min. 20) Paikattu arvo = ennuste + satunnainen virhe paikattu arvo vaihtelee datoittain Imputoiduista datoista lasketut estimaatit yhdistetään (engl. pool) lopullisiksi tuloksiksi. Mahdollista useissa ohjelmistoissa, esim. Mplus, SAS, STATA SPSS tietyin rajoittein

18 m d d m 1 ˆ 1 m V V V V B B W T m d W SE d m V m d d B m V 1 2 ) ˆ ( 1 1 V T SE Parametrin estimaatti ja sitä vastaava keskivirhe lasketaan käyttäen imputoitujen datojen (m kappaletta) analyyseistä saatuja parametrin estimaatteja ja niiden keskivirheitä Enders, 2010 SE = Standard error of mean T = Total sampling variance W = Within-imputation variance B = Between-imputation variance

19 SPSS ja puuttuvan tiedon käsittely

20 Tietoa puuttuu mitä sitten? Epäilys tai tieto että datassa on puuttuvaa tietoa Jos puuttuvaa tietoa muuttujassa vähän (< 5%) ja voidaan olettaa/tietää että tieto puuttuu täysin satunnaisesti (MCAR) listwise/pairwise deletion tuottaa kohtuullisen turvallisen datan + Pääsee nopeasti analysoimaan - Otoskoko putoaa - Testien voimakkuus laskee Varmista puuttuvan tiedon tilanne tekemällä SPSS:ssä puuttuvan tiedon analyysi (MVA) Little s MCAR testi Jos data ei ole MCAR, paikkaa data MI tai FILM metodeilla

21 Data: Esimerkki 1 (listwise) Matematiikan testin tulokset peräkkäisistä mittauksista math4 ja math5 (max n= 237)

22 Data: Esimerkki 1 (pairwise) Pairwisen avulla käytettävissä olevien havaintojen määrät yleensä kasvavat

23 Regressio: Kuinka math4 ennustaa math5 tuloksia? Listwise tulos N=212 SPSS oletus Listwise Pairwise tulos Pairwise Molemmissa analyyseissa malli sopii aineistoon hyvin R 2 =.594 ANOVAN p-arvo <.001 Huom! Onko data MCAR?

24 Puuttuvan tiedon analyysi (MVA) Missing Value Analysis Analyze Missing Value Analysis Valitse tutkittavat muuttujat Valitse EM koska tästä tulostuu Little s MCAR testi selvitetään voiko listwise/pairwise tuloksiin luottaa

25 MVA: EM Käytä EM-optiota ainoastaan MCAR testaukseen! Valitse Variables Oletuksena käyttää kaikkia kvantitatiivisia muuttujia Valitse EM Vain scale muuttujille Little s MCAR testi Oletuksena normaalijakautunut data

26 MVA Results: EM EM keskiarvot, korrelaatiot ja kovarianssit Little s MCAR testitulos p>.05 eli MCAR oletus voimassa! listwise ja pairwise data käyttökelpoisia ja edellä tehtyjen regressioiden tulokset uskottavia

27 Poistetaan enemmän dataa Aineistoa manipuloidaan siten, että kun math3 20, henkilön math4 mittauksen arvot ovat puuttuvia. Lisäksi kun math3 28, math5 arvot puuttuvat. Manipuloinnin johdosta listwise otoskoko putoaa reilusti

28 Poistetaan enemmän dataa (2) Aineistoa manipuloidaan siten, että kun math3 20, henkilön math4 mittauksen arvot ovat puuttuvia. Lisäksi kun math3 28, math5 arvot puuttuvat. Originaali data

29 Puuttuvan tiedon analyysi (MVA) Missing Value Analysis Analyze Missing Value Analysis Valitse tutkittavat muuttujat Nyt mukana math3 Valitse EM koska tästä tulostuu Little s MCAR testi Valitse nyt myös Patterns ja Descriptives lisätietoa muuttujista

30 MVA: Patterns, Descriptives Patterns Taulukossa puuttuvien tietojen mallit Puuttuvan tiedon kriteeriraja 0% Descriptives Muuttujakohtaiset tiedot T-testit ja p-arvot Jos mukana kategorisia muuttujia, pyydä niistäkin taulukot

31 MVA Results: EM Ei konvergoidu oletusarvolla 25 iteraatiota Lisätään iteraatioita ( nyt 100) Little s MCAR testin p-arvo <.05, jolloin MCAR oletus hylätään listwise, pairwise tulokset harhaisia! data on MNAR (/MAR) Seuraus tehdystä manipuloinnista Siirry käyttämään MI (tai FIML) menetelmiä, joka korjaa tilanteeksi MAR

32 MVA Results: Separate Variance t- Tests Math5_man ja math3 keskiarvot eroavat tilastollisesti (p<.001)verrattaessa math4_man testissä mukana olleita ja puuttuneita Vastaavat tulokset myös math5_man testissä mukana olleiden ja puuttuneiden välillä Merkitsevä ero vahvistaa MCAR oletuksen hylkäämisen, kun verrataan math5_man ja math3 keskiarvoja math4_man ja math5_man muuttujassa havaittujen ja puuttuvien havaintojen ryhmiä

33 MVA Results: Tabulated Patterns Puuttuvan tiedon mallit 88 havaintoa joilla kaikki tiedot 63 joilta math4_man havainto puuttuu 5 joilta puuttuu tieto math5_man ja math4_man muuttujista 16 joilta puuttuu tieto kaikista kolmesta muuttujasta

34 SPSS ja Multiple Imputation (MI) Toinen tapa tehdä puuttuvan tiedon analyysi SPSS:ssä Analyze Patterns Visuaalisempi Yksinkertaisempi

35 MI Missing Patterns: Results Yleiskuva Muuttujatasolla Kaikissa puuttuu tietoa Koehenkilötasolla 149 koehenkilöllä puuttuvaa tietoa Mittausarvojen tasolla 190 arvoa puuttuu Kuvailevat tiedot Muuttujakohtaisia Järjestetty puuttuvan tiedon mukaisesti

36 MI Missing Patterns: Patterns Pattern 1 ->ei puuttuvaa tietoa Pattern 2 ->tietoa puuttuu vain math3 muuttujassa Pattern 3 -> tietoa puuttuu vain math5_man muuttujassa jne. Kaikkiaan 2 3 = 8 teoreettista puuttuvan tiedon mallia Muuttujat järjestetty vasemmalta oikealle puuttuvien tietojen suuruusjärjestyksessä 37%:lla (88) havaintoyksiköistä ei ole puuttuvia arvoja (Pattern 1) Pattern 4 löytyy 27%:lla (63) havaintoyksiköistä Pattern 3 on 21%:lla (49) havaintoyksikköistä

37 Impute Missing Data Values: Variables Manipuloitujen muuttujien puuttuvat tiedot on paikattava Valitaan imputoitavan mallin muuttujat Lisämuuttuja math3 MAR Imputointien lukumääräksi suositellaan 20 Tallennetaan imputoitu data omaksi tiedostoksi siirry Method välilehdelle

38 Method Valitse Custom Mahdollista lisätä iteraatioiden lukumäärää siirry Constraints-välilehdelle Scan Data Roolit Vain imputointi Vain ennustaja Imputoi ja ennusta Määrittele rajoitteet Vältä älyttömät arvot Teoreettiset min, max Pyöristys (10,1,.25,.1,.01) siirry Output

39 Output Pyydetään tulostusta imputointimallista Kuvailevat tiedot imputoiduista muuttujista Iteraatiohistoria tallennetaan prosessin onnistumisen arvioimiseksi kaikki valmista OK HUOM! Kategorisilla muuttujilla imputointimalli olisi ollut logistinen regressio

40 MI: Results Imputoidut arvot määriteltyjen rajojen sisällä (min,max) Imputoidut math4_man keskiarvot selkeästi pienempiä kuin original (=listwise). Keskihajonnat suurempia kuin listwise Imputointiprosessin on tarkoitus tuoda lisää satunnaisvaihtelua Vastaavat taulut kaikille imputoiduille muuttujille Iterointihistoriasta lisätietoa

41 MI: Tarkista iterointi ja imputointi Tarkistetaan FCS konvergointi Valitaan FCS_MI Graph Chart Builder Tavoitellaan stabiileja janoja

42 MI: Tarkista iterointi ja imputointi Math5_man vähän vähemmän hajontaa sekä keskiarvoissa että -hajonnoissa Tulkittavissa stabiiliksi Jos stabiliutta ei tavoiteta 1. koita ensin lisätä iterointikertoja (10->100/200) 2. Tarkista jakaumat

43 MI: Imputoitun datan käyttö Imputoidussa datatiedostossa ensimmäisenä muuttujana imputointi-indeksi Yksinkertainen regressio, ennustetaan math5_man tuloksia math4_man arvoilla Voidaan käyttää imputoitua dataa ja tulostaa pooled estimaatteja

44 MI: Vaikutus muuttujiin Original data = listwise Math4_man ja Math5_man keskiarvot pienenevät otoskoon kasvaessa MI:n vaikutuksesta Korrelaatio kasvaa selkeästi -> selitysaste (R 2 ) Pooled estimates eivät tulostu kaikissa tulostuvissa osissa!! Esim. regression yhteydessä ei pooled tuloksia Model Summary ANOVA-taulukko Kuitenkin kaikki 1-20 iterointitulosta tulostetaan

45 MI: Regression tulos Listwise MCAR Referenssinä Listwise MCAR tulos (n=212) ilman manipulointia 0 Original data listwise tulos (n=100) Harhainen koska MI datalla MCAR ei toteudu Varsinainen imputoidun datan tulos Pooled Math4_man regressiokerroin pienentynyt, keskivirheet kasvaneet (vrt. MCAR) Vakio on kasvanut ja sen keskivirhe myös (vrt. MCAR) Relative Effiency: vertailuluku, jossa verrataan suoritetun imputointimäärän (tässä 20) vaikutusta teoreettisesti äärettömään määrään imputointeja.

46 Regressiotulosten yhteenveto data menetelmä Math4 (n) Math4 miss% Math4 (χ ) Math4 (SE) Math5 (n) Math5 miss% Math5 (χ ) Math5 (SE) korrelaatio R 2 vakio vakio (SE) Math4 (B) Math4 (B) SE esim.1 (MCAR) listwise esim.1 (MCAR) pairwise esim.2 MI data MI (7) (7) Ulkopuolisen muuttujan Math3 ja mallin muuttujien avulla imputoitiin 121 havainnon puuttuvat tiedot (121%) MI datalla estimoidun mallin (regression) estimaattien keskivirheet oikean suuntaiset SPSS ei tulosta MI datalla poolattua selitysastetta (R 2 ) regressiossa Tämä estimaatti saatu korrelaatiotaulusta MI mallin selitysaste kasvoi originaalista (listwise) MI Original tulos harhainen koska MCAR ei toteutunut MI pooled otoskoko n=221, koska Math5_man ja Math4_man sekä Math3 muuttujilla on 16 havaintoa, jotka puuttuivat kaikilta kolmelta. MI ei imputoi täysin puuttuvia arvoja (toisin kuin EM)

47 MI:Replikointi Iteratiivisessa prosessissa usein oletusarvoisesti käytetään satunnaista siemenlukua (seed) -> uusi prosessi alkaa aina uudella alkuarvolla -> tulokset poikkeavat aina edellisestä Replikoitaessa käytetään ennakkoon määriteltyä siemenlukua -> tulokset toistuvat täsmälleen samoina iteroinnista huolimatta

48 MVA Results: Descriptives (EM) Pairwise estimaatit EM-valinta tulostaa automaattisesti myös pairwise estimaatit. Lisäksi pyydettäessä mm. listwise estimaatit All values = pairwise Ei juurikaan eroja keskiarvoissa ja -hajonnoissa, mutta keskivirheet pieniä n listwise = 212 n pairwise = 212/216 n EM = 237 EM keskivirheet pienemmät SE= sd n EM p-arvot pienentyvät Ylläoleva lähinnä osoittaa miksi EM keskivirhe tulee liian pieneksi.

49 Suositeltavia lähteitä: IBM SPSS. (2011). Missing Values 20. Retrieved from ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/en/cli ent/manuals/ibm_spss_missing_values.pdf Schafer, J. L., & Graham, J. W. (2002). Missing data: Our view of the state of the art. Psychological Methods, 7(2), Enders, C. K. (2010). Applied missing data analysis The Guilford Press. Little and Rubin, 2002 R.J.A. Little and D.B. Rubin, Statistical analysis with missing data (2nd Ed.), Wiley, Hoboken, NJ (2002). Rubin, D. B. (1987). Multiple Imputation for nonresponse in surveys, New York : Wiley. Graham, J. W. (2009). Missing data analysis: Making it work in the real world. Annual Review of Psychology, 60, Bodner, T. E. (2008). What improves with increased missing data imputations? Structural Equation Modeling: A Multidisciplinary Journal, 15(4), Horppu, I. (2008). Analysis and evaluation of cell imputation. Jyväskylä: University of Jyväskylä Jari Westerholm NMI

50 Mplus ja puuttuva tieto

51 Alkuperäisen datan ja manipuloidun muuttujan kuvailevia tietoja 1 1

52 Alkuperäisen datan ja manipuloidun muuttujan kuvailevia tietoja 1 1

53 Alkuperäisen datan ja manipuloidun muuttujan kuvailevia tietoja

56 ANALYSIS: ESTIMATOR=MLR; MODEL: math5 ON math4; [math4 math5]; OUTPUT: STDYX; Estimoitava malli math4 math5 ANALYSIS: ESTIMATOR=MLR; MODEL: math5man ON math4man; [math4man math5man]; OUTPUT: STDYX;

57 Alkuperäiset math4 ja math5 muuttujat PROPORTION OF DATA PRESENT N=216 Covariance Coverage MATH5 MATH4 MATH MATH Manipuloidut math4man ja math5man muuttujat PROPORTION OF DATA PRESENT N=216 Covariance Coverage MATH5MAN MATH4MAN MATH5MAN MATH4MAN

58 MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH Means MATH Intercepts MATH Variances MATH Residual Variances MATH STDYX Standardization MATH5 ON MATH MODEL RESULTS (manipuloitu) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN

63 MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH Means MATH Intercepts MATH Variances MATH Residual Variances MATH STDYX Standardization MATH5 ON MATH R 2 =.59 MODEL RESULTS (manipuloitu) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN R 2 =.37

64 Estimoitava malli math4man math5man math3 math3 korreloi mallin muuttujiin ja ennustaa puuttuvaa tietoa! Tilanne NMAR -> tulokset eivät ole luotettavia

65 Estimoitava malli math4man math5 math3 math3 korreloi mallin muuttujiin ja ennustaa puuttuvaa tietoa! MODEL: math5man ON math4man; [math4man math5man]; math3 WITH math4man math5man; OUTPUT: STDYX;

66 MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH Means MATH Intercepts MATH Variances MATH Residual Variances MATH STDYX Standardization MATH5 ON MATH MODEL RESULTS (math3 MUKANA FIML) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN

68 MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH Means MATH Intercepts MATH Variances MATH Residual Variances MATH STDYX Standardization MATH5 ON MATH *28.812= MODEL RESULTS (math3 MUKANA FIML) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN *28.247= 40.50

71 MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH Means MATH Intercepts MATH Variances MATH Residual Variances MATH STDYX Standardization MATH5 ON MATH R 2 =.59 MODEL RESULTS (math3 MUKANA FIML) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN R 2 =.55

72 Moni-imputointi Mplussalla TITLE: imputoidaan dataa R=20 DATA: FILE = manipuloitu_math5.dat; VARIABLE: NAMES = math3 math4man math4 math5; USEVARIABLES ARE math3 math4man math5man; MISSING = ALL(-999); DATA IMPUTATION: IMPUTE math4man math5man; NDATASETS = 20; SAVE = NMARIMP*.DAT; ANALYSIS: TYPE = BASIC;

78 Tuloksena 20 dataa, joissa puuttuvaa Tietoa korvattu

79 TITLE: Imputoitujen datojen analyysi ; DATA: FILE IS NMARIMPlist.dat; TYPE IS IMPUTATION; VARIABLE: NAMES ARE MATH3 MATH4MAN MATH5MAN; USEVARIABLES ARE MATH4MAN MATH5MAN; MISSING = *; ANALYSIS: estimator = MLR; MODEL: MATH5MAN ON MATH4MAN; [MATH5MAN MATH4MAN]; OUTPUT: TECH1 TECH4;

80 MODEL RESULTS (math3 MUKANA FIML) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN R 2 =.55 MODEL RESULTS (MONI-IMPUTOIDUN DATAN ANALYYSI N=221) Two-Tailed Rate of Estimate S.E. Est./S.E. P-Value Missing MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardizat MATH5MAN ON MATH4MAN R 2 =.55

81 Muthén, L.K. and Muthén, B.O. ( ). Mplus User s Guide. Seventh Edition. Los Angeles, CA: Muthén & Muthén Mplus provides multiple imputation of missing data using Bayesian analysis (Rubin, 1987; Schafer, 1997). Both the unrestricted H1 model and a restricted H0 model can be used for imputation. Multiple data sets generated using multiple imputation can be analyzed using a special feature of Mplus. Parameter estimates are averaged over the set of analyses, and standard errors are computed using the average of the standard errors over the set of analyses and the between analysis parameter estimate variation (Rubin, 1987; Schafer, 1997). A chi-square test of overall model fit is provided (Asparouhov & Muthén, 2008c; Enders, 2010).

82 Kiitos