Puuttuvan tiedon käsittely analyyseissä. Eija Räikkönen, JY Jari Westerholm, NMI Asko Tolvanen, JY
|
|
- Maria Jurkka
- 7 vuotta sitten
- Katselukertoja:
Transkriptio
1 Puuttuvan tiedon käsittely analyyseissä Eija Räikkönen, JY Jari Westerholm, NMI Asko Tolvanen, JY
2 Esityksen rakenne Puuttuvan tiedon teoriaa Mitä puuttuva tieto on? Olennaiset käsitteet Tyypillisiä tapoja käsitellä puuttuvaa tietoa ja niistä aiheutuvat ongelmat Suositeltavat tavat puuttuvan tiedon käsittelyyn
3 Esityksen rakenne Esimerkkejä SPSS-ohjelmalla Esimerkkejä Mplus-ohjelmalla
4 The optimal solution to the problem of missing data is not to have any (Allison 2002)
5 Jelicic, Phelps, & Lerner: Developmental Psychology (2009) 100 artikkelia kolmesta kehityspsykologian alan lehdestä: Child Development (IF = 4.718) Developmental Psychology (IF = 3.214) Journal of Research on Adolescence (IF = 1.989) 57 artikkelissa raportoitiin puuttuvan tiedon olemassa olo 82 % näistä artikkeleista puuttuva tieto käsiteltiin listwise- tai pairwise-menetelmällä
6 Puuttuva tieto Havaintoyksiköiltä puuttuu tieto käytettävästä muuttujasta Syitä puuttuvan tiedon olemassa oloon Vastaajaa ei tavoiteta alun alkaenkaan (unit nonresponse) Vastaajaa ei enää tavoitettu (attrition, dropout) Vastaaja ei osallistu tiettyyn tiedonkeruuvaiheeseen (wave non-response) Vastaaja jättää vastaamatta osaan kysymyksistä (item non-response) Virhe koodauksessa Jne.
7 Puuttuvan tiedon luonne Rubin (1976), Little & Rubin (1987/2002) esittelivät nykyäänkin käytössä olevan puuttuvan tiedon luokittelusysteemin Satunnaista A. Täysin satunnaista (MCAR) B. Satunnaista (MAR) Systemaattista C. (MNAR) => Puuttuvan tiedon luonne määrittää, kuinka puuttuva tieto tulisi huomioida analyyseissa.
8 MCAR (Missing Completely at Random) Puuttuvat havainnot satunnaisesti jakautuneita kaikkien havaintojen kesken Voidaan testata SPSS-ohjelmistossa jos MCAR tosi, voidaan käyttää listwise- tai pairwise-metodia jos MCAR epätosi MAR tai NMAR
9 MAR (Missing at Random) Puuttuva tieto Z (onko tietoa muuttujasta Y vai ei) saa riippua mistä tahansa muista muuttujista, mutta Y ei saa korreloida estimoitavan mallin ulkopuolella olevien, puuttuvaan tietoon (Z) yhteydessä olevien muuttujien kanssa. Estimoitavan mallin ulkopuoliset, puuttuvaan tietoon yhteydessä olevat muuttujat on kontrolloitava estimoitavassa mallissa! Ongelma: MAR-ominaisuutta ei voida mitenkään vahvistaa esim. testillä MAR-tilanteessa käytettävä FIML-estimointia tai puuttuvat tiedot on paikattava moni-imputoinnilla.
10 Y Kiinnostava muuttuja Z Onko tutkittavalla tieto Y:stä vai ei? X Aineiston muu muuttuja Aineiston ulkopuolinen tieto
11 Kuvitteellisessa populaatiossa on naisia ja miehiä yhtä paljon. Naisten tulot ovat keskimäärin 2000e ja miesten tulot 3000e. Poimitaan otos, jossa on 100 miestä ja 100 naista. Otoksessa tulojen keskiarvoksi tulee e, kun se populaatiossa on 2500e. Kuvitellaan tilanne, että otoksessa puolet miehistä on jättänyt vastaamatta satunnaisesti (ei riipu tulotasosta). Tulojen puuttuvan tiedon indikaattori (muuttuja Z) korreloi tulojen kanssa voimakkaasti (r =.59).
12 MODEL RESULTS Two-Tailed Estimate S.E. Est./S.E. P-Value Means TULOT MODEL: [tulot]; tulot; OUTPUT: MODEL RESULTS Two-Tailed Estimate S.E. Est./S.E. P-Value TULOT WITH SP Means SP TULOT MODEL: [tulot]; tulot WITH sp; OUTPUT:
13 MNAR (NMAR) (Missing Not at Random/ Not Missing at Random) Puuttuva tieto riippuu siitä muuttujasta Y, josta itse arvotkin puuttuvat (Enders, 2010). Esiintymisen todennäköisyyttä ei voida ennustaa estimoitavan mallin muuttujilla käytetään joskus myös nimeä NIGN (Non-ignorable) Tätäkään ominaisuutta ei voida testata! MNAR-datalle kehitetty omia menetelmiä (ks. esim. Enders, 2010) Selection models Pattern-mixture models Diskussiossa huomioitava, keihin tulokset voidaan yleistää!
14 Tyypillisiä tapoja käsitellä puuttuvaa tietoa ja niiden ongelmat 1/2 Dataa poistavat menetelmät Listwise havainto poistetaan analyysista, jos yhdessäkin mallin muuttujassa on puuttuvaa tietoa Pairwise (exclude analysis by analysis) Esim. parittaisia korrelaatioita laskettaessa mukaan analyysiin otetaan kaikki ne tutkittavat, joilta löytyy havainnot ko. muuttujaparista N vaihtelee muuttujapareittain edellyttävät datalta MCAR-oletusta Jos MCAR ei toteudu, estimaatit ovat harhaisia!
15 Tyypillisiä tapoja käsitellä puuttuvaa tietoa ja niiden ongelmat 2/2 Dataa paikkaavat menetelmät Single imputation -menetelmä tuottaa yhden uuden tiedon kunkin puuttuvan paikalle Keskiarvomenetelmä Puuttuvat arvot muuttujassa Y paikataan muuttujan Y keskiarvolla Last Observation Carried Forward (LOCF; pitkittäisaineisto) Muuttujan Y toistomittauksissa esiintyvät puuttuvat tiedot paikataan viimeisimmällä Y:n havaitulla arvolla Regressiomenetelmä Muuttujassa Y esiintyvä puuttuva tieto paikataan regressiomallin tuottamalla ennusteella. EM (Expectation Maximization) -algoritmi Korvaa puuttuvan tiedon muuttujassa Y monimuuttujaisen todennäköisyysjakauman perusteella todennäköisimmällä arvolla. Ongelmia Osa menetelmistä tuottaa harhaisia estimaatteja Kaikki menetelmät pienentävät keskivirhettä virheellisesti luottamusvälit liian kapeita
16 Suositeltavia tapoja käsitellä puuttuvaa tietoa 1/2 Full Information Maximum Likelihood Estimation (FIML) Oletuksena MAR Perustuu kaikista estimoitavan mallin muuttujista ja havainnoista muodostettuun todennäköisyyksien tiheysfunktioon SPSS ei kykene FIML-estimointiin. Ei varsinaisesti korvaa puuttuvia tietoja vaan estimoi suurimman uskottavuuden estimaatit mallin parametreille perustuen koko havaittuun dataan harhattomat estimaatit ja keskivirheet
17 Suositeltavia tapoja käsitellä puuttuvaa tietoa 2/2 Moni-imputointi (multiple imputation, MI) Oletuksena MAR Paikkaa puuttuvaa tietoa Muodostetaan useita paikattuja datoja (min. 20) Paikattu arvo = ennuste + satunnainen virhe paikattu arvo vaihtelee datoittain Imputoiduista datoista lasketut estimaatit yhdistetään (engl. pool) lopullisiksi tuloksiksi. Mahdollista useissa ohjelmistoissa, esim. Mplus, SAS, STATA SPSS tietyin rajoittein
18 m d d m 1 ˆ 1 m V V V V B B W T m d W SE d m V m d d B m V 1 2 ) ˆ ( 1 1 V T SE Parametrin estimaatti ja sitä vastaava keskivirhe lasketaan käyttäen imputoitujen datojen (m kappaletta) analyyseistä saatuja parametrin estimaatteja ja niiden keskivirheitä Enders, 2010 SE = Standard error of mean T = Total sampling variance W = Within-imputation variance B = Between-imputation variance
19 SPSS ja puuttuvan tiedon käsittely
20 Tietoa puuttuu mitä sitten? Epäilys tai tieto että datassa on puuttuvaa tietoa Jos puuttuvaa tietoa muuttujassa vähän (< 5%) ja voidaan olettaa/tietää että tieto puuttuu täysin satunnaisesti (MCAR) listwise/pairwise deletion tuottaa kohtuullisen turvallisen datan + Pääsee nopeasti analysoimaan - Otoskoko putoaa - Testien voimakkuus laskee Varmista puuttuvan tiedon tilanne tekemällä SPSS:ssä puuttuvan tiedon analyysi (MVA) Little s MCAR testi Jos data ei ole MCAR, paikkaa data MI tai FILM metodeilla
21 Data: Esimerkki 1 (listwise) Matematiikan testin tulokset peräkkäisistä mittauksista math4 ja math5 (max n= 237)
22 Data: Esimerkki 1 (pairwise) Pairwisen avulla käytettävissä olevien havaintojen määrät yleensä kasvavat
23 Regressio: Kuinka math4 ennustaa math5 tuloksia? Listwise tulos N=212 SPSS oletus Listwise Pairwise tulos Pairwise Molemmissa analyyseissa malli sopii aineistoon hyvin R 2 =.594 ANOVAN p-arvo <.001 Huom! Onko data MCAR?
24 Puuttuvan tiedon analyysi (MVA) Missing Value Analysis Analyze Missing Value Analysis Valitse tutkittavat muuttujat Valitse EM koska tästä tulostuu Little s MCAR testi selvitetään voiko listwise/pairwise tuloksiin luottaa
25 MVA: EM Käytä EM-optiota ainoastaan MCAR testaukseen! Valitse Variables Oletuksena käyttää kaikkia kvantitatiivisia muuttujia Valitse EM Vain scale muuttujille Little s MCAR testi Oletuksena normaalijakautunut data
26 MVA Results: EM EM keskiarvot, korrelaatiot ja kovarianssit Little s MCAR testitulos p>.05 eli MCAR oletus voimassa! listwise ja pairwise data käyttökelpoisia ja edellä tehtyjen regressioiden tulokset uskottavia
27 Poistetaan enemmän dataa Aineistoa manipuloidaan siten, että kun math3 20, henkilön math4 mittauksen arvot ovat puuttuvia. Lisäksi kun math3 28, math5 arvot puuttuvat. Manipuloinnin johdosta listwise otoskoko putoaa reilusti
28 Poistetaan enemmän dataa (2) Aineistoa manipuloidaan siten, että kun math3 20, henkilön math4 mittauksen arvot ovat puuttuvia. Lisäksi kun math3 28, math5 arvot puuttuvat. Originaali data
29 Puuttuvan tiedon analyysi (MVA) Missing Value Analysis Analyze Missing Value Analysis Valitse tutkittavat muuttujat Nyt mukana math3 Valitse EM koska tästä tulostuu Little s MCAR testi Valitse nyt myös Patterns ja Descriptives lisätietoa muuttujista
30 MVA: Patterns, Descriptives Patterns Taulukossa puuttuvien tietojen mallit Puuttuvan tiedon kriteeriraja 0% Descriptives Muuttujakohtaiset tiedot T-testit ja p-arvot Jos mukana kategorisia muuttujia, pyydä niistäkin taulukot
31 MVA Results: EM Ei konvergoidu oletusarvolla 25 iteraatiota Lisätään iteraatioita ( nyt 100) Little s MCAR testin p-arvo <.05, jolloin MCAR oletus hylätään listwise, pairwise tulokset harhaisia! data on MNAR (/MAR) Seuraus tehdystä manipuloinnista Siirry käyttämään MI (tai FIML) menetelmiä, joka korjaa tilanteeksi MAR
32 MVA Results: Separate Variance t- Tests Math5_man ja math3 keskiarvot eroavat tilastollisesti (p<.001)verrattaessa math4_man testissä mukana olleita ja puuttuneita Vastaavat tulokset myös math5_man testissä mukana olleiden ja puuttuneiden välillä Merkitsevä ero vahvistaa MCAR oletuksen hylkäämisen, kun verrataan math5_man ja math3 keskiarvoja math4_man ja math5_man muuttujassa havaittujen ja puuttuvien havaintojen ryhmiä
33 MVA Results: Tabulated Patterns Puuttuvan tiedon mallit 88 havaintoa joilla kaikki tiedot 63 joilta math4_man havainto puuttuu 5 joilta puuttuu tieto math5_man ja math4_man muuttujista 16 joilta puuttuu tieto kaikista kolmesta muuttujasta
34 SPSS ja Multiple Imputation (MI) Toinen tapa tehdä puuttuvan tiedon analyysi SPSS:ssä Analyze Patterns Visuaalisempi Yksinkertaisempi
35 MI Missing Patterns: Results Yleiskuva Muuttujatasolla Kaikissa puuttuu tietoa Koehenkilötasolla 149 koehenkilöllä puuttuvaa tietoa Mittausarvojen tasolla 190 arvoa puuttuu Kuvailevat tiedot Muuttujakohtaisia Järjestetty puuttuvan tiedon mukaisesti
36 MI Missing Patterns: Patterns Pattern 1 ->ei puuttuvaa tietoa Pattern 2 ->tietoa puuttuu vain math3 muuttujassa Pattern 3 -> tietoa puuttuu vain math5_man muuttujassa jne. Kaikkiaan 2 3 = 8 teoreettista puuttuvan tiedon mallia Muuttujat järjestetty vasemmalta oikealle puuttuvien tietojen suuruusjärjestyksessä 37%:lla (88) havaintoyksiköistä ei ole puuttuvia arvoja (Pattern 1) Pattern 4 löytyy 27%:lla (63) havaintoyksiköistä Pattern 3 on 21%:lla (49) havaintoyksikköistä
37 Impute Missing Data Values: Variables Manipuloitujen muuttujien puuttuvat tiedot on paikattava Valitaan imputoitavan mallin muuttujat Lisämuuttuja math3 MAR Imputointien lukumääräksi suositellaan 20 Tallennetaan imputoitu data omaksi tiedostoksi siirry Method välilehdelle
38 Method Valitse Custom Mahdollista lisätä iteraatioiden lukumäärää siirry Constraints-välilehdelle Scan Data Roolit Vain imputointi Vain ennustaja Imputoi ja ennusta Määrittele rajoitteet Vältä älyttömät arvot Teoreettiset min, max Pyöristys (10,1,.25,.1,.01) siirry Output
39 Output Pyydetään tulostusta imputointimallista Kuvailevat tiedot imputoiduista muuttujista Iteraatiohistoria tallennetaan prosessin onnistumisen arvioimiseksi kaikki valmista OK HUOM! Kategorisilla muuttujilla imputointimalli olisi ollut logistinen regressio
40 MI: Results Imputoidut arvot määriteltyjen rajojen sisällä (min,max) Imputoidut math4_man keskiarvot selkeästi pienempiä kuin original (=listwise). Keskihajonnat suurempia kuin listwise Imputointiprosessin on tarkoitus tuoda lisää satunnaisvaihtelua Vastaavat taulut kaikille imputoiduille muuttujille Iterointihistoriasta lisätietoa
41 MI: Tarkista iterointi ja imputointi Tarkistetaan FCS konvergointi Valitaan FCS_MI Graph Chart Builder Tavoitellaan stabiileja janoja
42 MI: Tarkista iterointi ja imputointi Math5_man vähän vähemmän hajontaa sekä keskiarvoissa että -hajonnoissa Tulkittavissa stabiiliksi Jos stabiliutta ei tavoiteta 1. koita ensin lisätä iterointikertoja (10->100/200) 2. Tarkista jakaumat
43 MI: Imputoitun datan käyttö Imputoidussa datatiedostossa ensimmäisenä muuttujana imputointi-indeksi Yksinkertainen regressio, ennustetaan math5_man tuloksia math4_man arvoilla Voidaan käyttää imputoitua dataa ja tulostaa pooled estimaatteja
44 MI: Vaikutus muuttujiin Original data = listwise Math4_man ja Math5_man keskiarvot pienenevät otoskoon kasvaessa MI:n vaikutuksesta Korrelaatio kasvaa selkeästi -> selitysaste (R 2 ) Pooled estimates eivät tulostu kaikissa tulostuvissa osissa!! Esim. regression yhteydessä ei pooled tuloksia Model Summary ANOVA-taulukko Kuitenkin kaikki 1-20 iterointitulosta tulostetaan
45 MI: Regression tulos Listwise MCAR Referenssinä Listwise MCAR tulos (n=212) ilman manipulointia 0 Original data listwise tulos (n=100) Harhainen koska MI datalla MCAR ei toteudu Varsinainen imputoidun datan tulos Pooled Math4_man regressiokerroin pienentynyt, keskivirheet kasvaneet (vrt. MCAR) Vakio on kasvanut ja sen keskivirhe myös (vrt. MCAR) Relative Effiency: vertailuluku, jossa verrataan suoritetun imputointimäärän (tässä 20) vaikutusta teoreettisesti äärettömään määrään imputointeja.
46 Regressiotulosten yhteenveto data menetelmä Math4 (n) Math4 miss% Math4 (χ ) Math4 (SE) Math5 (n) Math5 miss% Math5 (χ ) Math5 (SE) korrelaatio R 2 vakio vakio (SE) Math4 (B) Math4 (B) SE esim.1 (MCAR) listwise esim.1 (MCAR) pairwise esim.2 MI data MI (7) (7) Ulkopuolisen muuttujan Math3 ja mallin muuttujien avulla imputoitiin 121 havainnon puuttuvat tiedot (121%) MI datalla estimoidun mallin (regression) estimaattien keskivirheet oikean suuntaiset SPSS ei tulosta MI datalla poolattua selitysastetta (R 2 ) regressiossa Tämä estimaatti saatu korrelaatiotaulusta MI mallin selitysaste kasvoi originaalista (listwise) MI Original tulos harhainen koska MCAR ei toteutunut MI pooled otoskoko n=221, koska Math5_man ja Math4_man sekä Math3 muuttujilla on 16 havaintoa, jotka puuttuivat kaikilta kolmelta. MI ei imputoi täysin puuttuvia arvoja (toisin kuin EM)
47 MI:Replikointi Iteratiivisessa prosessissa usein oletusarvoisesti käytetään satunnaista siemenlukua (seed) -> uusi prosessi alkaa aina uudella alkuarvolla -> tulokset poikkeavat aina edellisestä Replikoitaessa käytetään ennakkoon määriteltyä siemenlukua -> tulokset toistuvat täsmälleen samoina iteroinnista huolimatta
48 MVA Results: Descriptives (EM) Pairwise estimaatit EM-valinta tulostaa automaattisesti myös pairwise estimaatit. Lisäksi pyydettäessä mm. listwise estimaatit All values = pairwise Ei juurikaan eroja keskiarvoissa ja -hajonnoissa, mutta keskivirheet pieniä n listwise = 212 n pairwise = 212/216 n EM = 237 EM keskivirheet pienemmät SE= sd n EM p-arvot pienentyvät Ylläoleva lähinnä osoittaa miksi EM keskivirhe tulee liian pieneksi.
49 Suositeltavia lähteitä: IBM SPSS. (2011). Missing Values 20. Retrieved from ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/20.0/en/cli ent/manuals/ibm_spss_missing_values.pdf Schafer, J. L., & Graham, J. W. (2002). Missing data: Our view of the state of the art. Psychological Methods, 7(2), Enders, C. K. (2010). Applied missing data analysis The Guilford Press. Little and Rubin, 2002 R.J.A. Little and D.B. Rubin, Statistical analysis with missing data (2nd Ed.), Wiley, Hoboken, NJ (2002). Rubin, D. B. (1987). Multiple Imputation for nonresponse in surveys, New York : Wiley. Graham, J. W. (2009). Missing data analysis: Making it work in the real world. Annual Review of Psychology, 60, Bodner, T. E. (2008). What improves with increased missing data imputations? Structural Equation Modeling: A Multidisciplinary Journal, 15(4), Horppu, I. (2008). Analysis and evaluation of cell imputation. Jyväskylä: University of Jyväskylä Jari Westerholm NMI
50 Mplus ja puuttuva tieto
51 Alkuperäisen datan ja manipuloidun muuttujan kuvailevia tietoja 1 1
52 Alkuperäisen datan ja manipuloidun muuttujan kuvailevia tietoja 1 1
53 Alkuperäisen datan ja manipuloidun muuttujan kuvailevia tietoja
54 Alkuperäisen datan ja manipuloidun muuttujan kuvailevia tietoja
55 Alkuperäisen datan ja manipuloidun muuttujan kuvailevia tietoja
56 ANALYSIS: ESTIMATOR=MLR; MODEL: math5 ON math4; [math4 math5]; OUTPUT: STDYX; Estimoitava malli math4 math5 ANALYSIS: ESTIMATOR=MLR; MODEL: math5man ON math4man; [math4man math5man]; OUTPUT: STDYX;
57 Alkuperäiset math4 ja math5 muuttujat PROPORTION OF DATA PRESENT N=216 Covariance Coverage MATH5 MATH4 MATH MATH Manipuloidut math4man ja math5man muuttujat PROPORTION OF DATA PRESENT N=216 Covariance Coverage MATH5MAN MATH4MAN MATH5MAN MATH4MAN
58 MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH Means MATH Intercepts MATH Variances MATH Residual Variances MATH STDYX Standardization MATH5 ON MATH MODEL RESULTS (manipuloitu) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN
59 MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH Means MATH Intercepts MATH Variances MATH Residual Variances MATH STDYX Standardization MATH5 ON MATH MODEL RESULTS (manipuloitu) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN
60 MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH Means MATH Intercepts MATH Variances MATH Residual Variances MATH STDYX Standardization MATH5 ON MATH MODEL RESULTS (manipuloitu) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN
61 MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH Means MATH Intercepts MATH Variances MATH Residual Variances MATH STDYX Standardization MATH5 ON MATH MODEL RESULTS (manipuloitu) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN
62 MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH Means MATH Intercepts MATH Variances MATH Residual Variances MATH STDYX Standardization MATH5 ON MATH MODEL RESULTS (manipuloitu) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN
63 MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH Means MATH Intercepts MATH Variances MATH Residual Variances MATH STDYX Standardization MATH5 ON MATH R 2 =.59 MODEL RESULTS (manipuloitu) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN R 2 =.37
64 Estimoitava malli math4man math5man math3 math3 korreloi mallin muuttujiin ja ennustaa puuttuvaa tietoa! Tilanne NMAR -> tulokset eivät ole luotettavia
65 Estimoitava malli math4man math5 math3 math3 korreloi mallin muuttujiin ja ennustaa puuttuvaa tietoa! MODEL: math5man ON math4man; [math4man math5man]; math3 WITH math4man math5man; OUTPUT: STDYX;
66 MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH Means MATH Intercepts MATH Variances MATH Residual Variances MATH STDYX Standardization MATH5 ON MATH MODEL RESULTS (math3 MUKANA FIML) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN
67 MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH Means MATH Intercepts MATH Variances MATH Residual Variances MATH STDYX Standardization MATH5 ON MATH MODEL RESULTS (math3 MUKANA FIML) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN
68 MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH Means MATH Intercepts MATH Variances MATH Residual Variances MATH STDYX Standardization MATH5 ON MATH *28.812= MODEL RESULTS (math3 MUKANA FIML) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN *28.247= 40.50
69 MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH Means MATH Intercepts MATH Variances MATH Residual Variances MATH STDYX Standardization MATH5 ON MATH MODEL RESULTS (math3 MUKANA FIML) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN
70 MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH Means MATH Intercepts MATH Variances MATH Residual Variances MATH STDYX Standardization MATH5 ON MATH MODEL RESULTS (math3 MUKANA FIML) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN
71 MODEL RESULTS (alkuperäinen) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5 ON MATH Means MATH Intercepts MATH Variances MATH Residual Variances MATH STDYX Standardization MATH5 ON MATH R 2 =.59 MODEL RESULTS (math3 MUKANA FIML) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN R 2 =.55
72 Moni-imputointi Mplussalla TITLE: imputoidaan dataa R=20 DATA: FILE = manipuloitu_math5.dat; VARIABLE: NAMES = math3 math4man math4 math5; USEVARIABLES ARE math3 math4man math5man; MISSING = ALL(-999); DATA IMPUTATION: IMPUTE math4man math5man; NDATASETS = 20; SAVE = NMARIMP*.DAT; ANALYSIS: TYPE = BASIC;
73 Moni-imputointi Mplussalla TITLE: imputoidaan dataa R=20 DATA: FILE = manipuloitu_math5.dat; VARIABLE: NAMES = math3 math4man math4 math5; USEVARIABLES ARE math3 math4man math5man; MISSING = ALL(-999); DATA IMPUTATION: IMPUTE math4man math5man; NDATASETS = 20; SAVE = NMARIMP*.DAT; ANALYSIS: TYPE = BASIC;
74 Moni-imputointi Mplussalla TITLE: imputoidaan dataa R=20 DATA: FILE = manipuloitu_math5.dat; VARIABLE: NAMES = math3 math4man math4 math5; USEVARIABLES ARE math3 math4man math5man; MISSING = ALL(-999); DATA IMPUTATION: IMPUTE math4man math5man; NDATASETS = 20; SAVE = NMARIMP*.DAT; ANALYSIS: TYPE = BASIC;
75 Moni-imputointi Mplussalla TITLE: imputoidaan dataa R=20 DATA: FILE = manipuloitu_math5.dat; VARIABLE: NAMES = math3 math4man math4 math5; USEVARIABLES ARE math3 math4man math5man; MISSING = ALL(-999); DATA IMPUTATION: IMPUTE math4man math5man; NDATASETS = 20; SAVE = NMARIMP*.DAT; ANALYSIS: TYPE = BASIC;
76 Moni-imputointi Mplussalla TITLE: imputoidaan dataa R=20 DATA: FILE = manipuloitu_math5.dat; VARIABLE: NAMES = math3 math4man math4 math5; USEVARIABLES ARE math3 math4man math5man; MISSING = ALL(-999); DATA IMPUTATION: IMPUTE math4man math5man; NDATASETS = 20; SAVE = NMARIMP*.DAT; ANALYSIS: TYPE = BASIC;
77 Moni-imputointi Mplussalla TITLE: imputoidaan dataa R=20 DATA: FILE = manipuloitu_math5.dat; VARIABLE: NAMES = math3 math4man math4 math5; USEVARIABLES ARE math3 math4man math5man; MISSING = ALL(-999); DATA IMPUTATION: IMPUTE math4man math5man; NDATASETS = 20; SAVE = NMARIMP*.DAT; ANALYSIS: TYPE = BASIC;
78 Tuloksena 20 dataa, joissa puuttuvaa Tietoa korvattu
79 TITLE: Imputoitujen datojen analyysi ; DATA: FILE IS NMARIMPlist.dat; TYPE IS IMPUTATION; VARIABLE: NAMES ARE MATH3 MATH4MAN MATH5MAN; USEVARIABLES ARE MATH4MAN MATH5MAN; MISSING = *; ANALYSIS: estimator = MLR; MODEL: MATH5MAN ON MATH4MAN; [MATH5MAN MATH4MAN]; OUTPUT: TECH1 TECH4;
80 MODEL RESULTS (math3 MUKANA FIML) Two-Tailed Estimate S.E. Est./S.E. P-Value MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardization MATH5MAN ON MATH4MAN R 2 =.55 MODEL RESULTS (MONI-IMPUTOIDUN DATAN ANALYYSI N=221) Two-Tailed Rate of Estimate S.E. Est./S.E. P-Value Missing MATH5MAN ON MATH4MAN Means MATH4MAN Intercepts MATH5MAN Variances MATH4MAN Residual Variances MATH5MAN STDYX Standardizat MATH5MAN ON MATH4MAN R 2 =.55
81 Muthén, L.K. and Muthén, B.O. ( ). Mplus User s Guide. Seventh Edition. Los Angeles, CA: Muthén & Muthén Mplus provides multiple imputation of missing data using Bayesian analysis (Rubin, 1987; Schafer, 1997). Both the unrestricted H1 model and a restricted H0 model can be used for imputation. Multiple data sets generated using multiple imputation can be analyzed using a special feature of Mplus. Parameter estimates are averaged over the set of analyses, and standard errors are computed using the average of the standard errors over the set of analyses and the between analysis parameter estimate variation (Rubin, 1987; Schafer, 1997). A chi-square test of overall model fit is provided (Asparouhov & Muthén, 2008c; Enders, 2010).
82 Kiitos
pitkittäisaineistoissa
Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon
LisätiedotPienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto
Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto Luennon sisältö Pienten otoskokojen haasteista Pieni otoskoko Suositeltuja metodeja
LisätiedotMitä IHMEttä on MIXTURE -mallintaminen?
JYVÄSKYLÄN YLIOPISTO Matematiikan ja tilastotieteen laitos Esko Leskinen 28.5.2009 Mitä IHMEttä on MIXTURE -mallintaminen? A-L Lyyra 2009 2 1. Taustaa mixture sekoitus (mikstuura) sekoitetut jakaumat sekoitetut
LisätiedotOngelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?
Yhden otoksen suhteellisen osuuden testaus Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta? Hypoteesit H 0 : p = p 0 H 1 : p p 0 tai H 1 : p > p 0 tai H 1 : p < p 0 Suhteellinen osuus
LisätiedotSEM1, työpaja 2 (12.10.2011)
SEM1, työpaja 2 (12.10.2011) Rakenneyhtälömallitus Mplus-ohjelmalla POLKUMALLIT Tarvittavat tiedostot voit ladata osoitteesta: http://users.utu.fi/eerlaa/mplus Esimerkki: Planned behavior Ajzen, I. (1985):
LisätiedotTUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas Itse arvioidun terveydentilan ja sukupuolen välinen riippuvuustarkastelu. Jyväskyläläiset 75-vuotiaat miehet ja naiset vuonna 1989.
LisätiedotPerusnäkymä yksisuuntaiseen ANOVAaan
Metsämuuronen 2006. TTP Tutkimuksen tekemisen perusteet ihmistieteissä Taulukko.51.1 Analyysiin mukaan tulevat muuttujat Mja selite Merkitys mallissa F1 Ensimmäinen faktoripistemuuttuja Selitettävä muuttuja
LisätiedotHarjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
Lisätiedot54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):
Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita
LisätiedotTUTKIMUSOPAS. SPSS-opas
TUTKIMUSOPAS SPSS-opas Johdanto Tässä oppaassa esitetään SPSS-tilasto-ohjelman alkeita, kuten Excel-tiedoston avaaminen, tunnuslukujen laskeminen ja uusien muuttujien muodostaminen. Lisäksi esitetään esimerkkien
LisätiedotOtanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita
Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita risto.lehtonen@helsinki.fi OHC Survey Tilastollinen analyysi Kysymys: Millä
LisätiedotOHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3
OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 3 Tutkimussuunnitelman rakenne-ehdotus Otsikko 1. Motivaatio/tausta 2. Tutkimusaihe/ -tavoitteet ja kysymykset
LisätiedotTilastollisten menetelmien käyttö Kelan tutkimustoiminnassa
Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa Risto Lehtonen Helsingin yliopisto Kela 1 Tilastokeskuksen SAS-seminaari 16.11.2009 Aiheita Kelan tutkimustoiminta SAS-sovellukset vaativien
Lisätiedot[MTTTA] TILASTOMENETELMIEN PERUSTEET, KEVÄT 209 https://coursepages.uta.fi/mttta/kevat-209/ HARJOITUS 5 viikko 8 RYHMÄT: ke 2.5 3.45 ls. C6 Leppälä to 08.30 0.00 ls. C6 Korhonen to 2.5 3.45 ls. C6 Korhonen
LisätiedotSPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö
SPSS-pikaohje Jukka Jauhiainen OAMK / Tekniikan yksikkö SPSS on ohjelmisto tilastollisten aineistojen analysointiin. Hyvinvointiteknologian ATK-luokassa on asennettuna SPSS versio 13.. Huom! Ainakin joissakin
LisätiedotJY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT
JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT SPSS-ohjelmiston Complex Samples- toiminto otoksen poiminnassa ja estimaattien laskennassa Mauno Keto, lehtori Mikkelin AMK / Liiketalouden laitos
LisätiedotPuuttuvan tiedon ongelmat pitkittäistutkimuksissa
1/27 Puuttuvan tiedon ongelmat pitkittäistutkimuksissa Jaakko Nevalainen Tampereen yliopisto Sosiaalilääketieteen päivät 3.-4.11.2014 2/27 Sisältö 1 Johdanto ja peruskäsitteet 2 Mallintamiseen pohjautuvat
LisätiedotCapacity Utilization
Capacity Utilization Tim Schöneberg 28th November Agenda Introduction Fixed and variable input ressources Technical capacity utilization Price based capacity utilization measure Long run and short run
LisätiedotEstimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio
17.11.2015/1 MTTTP5, luento 17.11.2015 Luku 5 Parametrien estimointi 5.1 Piste-estimointi Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla
LisätiedotOsa 2: Otokset, otosjakaumat ja estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
Lisätiedot2. Aineiston kuvailua
2. Aineiston kuvailua Avaa (File/Open/Data ) aineistoikkunaan tiedosto tilp150.sav. Aineisto on koottu Tilastomenetelmien peruskurssilla olleilta. Tiedot osallistumisesta demoihin, tenttipisteet, tenttien
LisätiedotTilastollinen testaus. Vilkkumaa / Kuusinen 1
Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää
LisätiedotEstimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman
LisätiedotVARIANSSIANALYYSI ANALYSIS OF VARIANCE
VARIANSSIANALYYSI ANALYSIS OF VARIANCE 1 Suomalaisten aikuisten pituusjakauma:.8.7.6.5.4.3.2.1 14 15 16 17 18 19 2 21 Jakauma ei ole normaali, sen olettaminen sellaiseksi johtaa virheellisiin päätelmiin.
LisätiedotKvantitatiiviset tutkimusmenetelmät maantieteessä
Kvantitatiiviset tutkimusmenetelmät maantieteessä Harjoitukset: 2 Muuttujan normaaliuden testaaminen, merkitsevyys tasot ja yhden otoksen testit FT Joni Vainikka, Yliopisto-opettaja, GO218, joni.vainikka@oulu.fi
LisätiedotA130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala
Kaavakokoelma, testinvalintakaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu. Tehtävä 1 a) Konepajan on hyväksyttävä alihankkijalta saatu tavaraerä, mikäli viallisten komponenttien
LisätiedotIlkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
LisätiedotJohdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:
LisätiedotATH-aineiston tilastolliset analyysit SPSS/PASW SPSS analyysit / Risto Sippola 1
ATH-aineiston tilastolliset analyysit SPSS/PASW 16.2.2011 SPSS analyysit / Risto Sippola 1 Aineiston avaaminen Aineisto on saatu SPSS-muotoon ja tallennettu koneelle sijaintiin, josta sitä voidaan käyttää
LisätiedotTilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä
Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi Esimerkit laskettu JMP:llä Antti Hyttinen Tampereen teknillinen yliopisto 29.12.2003 ii Ohjelmien
LisätiedotKaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.
Ka6710000 TILASTOLLISEN ANALYYSIN PERUSTEET 2. VÄLIKOE 9.5.2007 / Anssi Tarkiainen Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu. Tehtävä 1. a) Gallupissa
LisätiedotTilastotieteen kertaus. Vilkkumaa / Kuusinen 1
Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen
LisätiedotFoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 9. luento Pertti Palo 22.11.2012 Käytännön asioita Eihän kukaan paikallaolijoista tee 3 op kurssia? 2. seminaarin ilmoittautuminen. 2. harjoitustyön
LisätiedotVäliestimointi (jatkoa) Heliövaara 1
Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).
LisätiedotTässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)
R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n
LisätiedotLisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?
MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo
LisätiedotKvantitatiiviset menetelmät
Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina.. klo 6-8 V ls. Uusintamahdollisuus on rästitentissä.. ke 6 PR sali. Siihen tulee ilmoittautua WebOodissa 9. 8.. välisenä aikana. Soveltuvan
LisätiedotGraph. COMPUTE x=rv.normal(0,0.04). COMPUTE y=rv.normal(0,0.04). execute.
COMPUTE x=rv.ormal(0,0.04). COMPUTE y=rv.ormal(0,0.04). execute. compute hplib_man_r = hplib_man + x. compute arvokons_man_r = arvokons_man + y. GRAPH /SCATTERPLOT(BIVAR)=hplib_man_r WITH arvokons_man_r
LisätiedotData-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]
Data-analyysi II [Type the document subtitle] Simo Kolppo 26.3.2014 Sisällysluettelo Johdanto... 1 Tutkimuskysymykset... 1 Aineistojen esikäsittely... 1 Economic Freedom... 1 Nuorisobarometri... 2 Aineistojen
Lisätiedot1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi
Mat-2.2104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yhteensopivuuden ja homogeenisuden testaaminen Bowmanin ja Shentonin testi, Hypoteesi, 2 -homogeenisuustesti, 2 -yhteensopivuustesti,
LisätiedotVIIKON VINKKI: Kannattaa tutustua ensin koko tehtävänantoon ja tehdä tehtävä vasta sitten.
Tilastollinen tietojenkäsittely / SPSS Harjoitus 1 VIIKON VINKKI: Kannattaa tutustua ensin koko tehtävänantoon ja tehdä tehtävä vasta sitten. 1. Avaa SPSS-ohjelma. Tarkoitus olisi muodostaa tämän sivun
LisätiedotTestejä suhdeasteikollisille muuttujille
Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman
LisätiedotABHELSINKI UNIVERSITY OF TECHNOLOGY
Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai
LisätiedotOther approaches to restrict multipliers
Other approaches to restrict multipliers Heikki Tikanmäki Optimointiopin seminaari 10.10.2007 Contents Short revision (6.2) Another Assurance Region Model (6.3) Cone-Ratio Method (6.4) An Application of
LisätiedotTavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.
Mat-.04 Tilastollisen analyysin perusteet Mat-.04 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Testit suhdeasteikollisille muuttujille Hypoteesi, Kahden riippumattoman otoksen t-testit,
LisätiedotTilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),
LisätiedotMS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi
LisätiedotEfficiency change over time
Efficiency change over time Heikki Tikanmäki Optimointiopin seminaari 14.11.2007 Contents Introduction (11.1) Window analysis (11.2) Example, application, analysis Malmquist index (11.3) Dealing with panel
LisätiedotMTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)
21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.
Lisätiedotr = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.
A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät
LisätiedotKandidaatintutkielman aineistonhankinta ja analyysi
Kandidaatintutkielman aineistonhankinta ja analyysi Anna-Kaisa Ylitalo M 315, anna-kaisa.ylitalo@jyu.fi Musiikin, taiteen ja kulttuurin tutkimuksen laitos Jyväskylän yliopisto 2018 2 Havaintomatriisi Havaintomatriisi
LisätiedotFrequencies. Frequency Table
GET FILE='C:\Documents and Settings\haukkala\My Documents\kvanti\kvanti_harjo'+ '_label.sav'. DATASET NAME DataSet WINDOW=FRONT. FREQUENCIES VARIABLES=koulv paino /ORDER= ANALYSIS. Frequencies [DataSet]
LisätiedotTeema 3: Tilastollisia kuvia ja tunnuslukuja
Teema 3: Tilastollisia kuvia ja tunnuslukuja Tilastoaineiston peruselementit: havainnot ja muuttujat havainto: yhtä havaintoyksikköä koskevat tiedot esim. henkilön vastaukset kyselylomakkeen kysymyksiin
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut
LisätiedotTilastolliset ohjelmistot 805340A. Pinja Pikkuhookana
Tilastolliset ohjelmistot 805340A Pinja Pikkuhookana Sisältö 1 SPSS 1.1 Yleistä 1.2 Aineiston syöttäminen 1.3 Aineistoon tutustuminen 1.4 Kuvien piirtäminen 1.5 Kuvien muokkaaminen 1.6 Aineistojen muokkaaminen
LisätiedotGap-filling methods for CH 4 data
Gap-filling methods for CH 4 data Sigrid Dengel University of Helsinki Outline - Ecosystems known for CH 4 emissions; - Why is gap-filling of CH 4 data not as easy and straight forward as CO 2 ; - Gap-filling
Lisätiedot1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA
Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Päättely yhden selittäjän lineaarisesta regressiomallista Ennustaminen, Ennuste, Ennusteen luottamusväli, Estimaatti, Estimaattori,
LisätiedotTilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta
Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman
LisätiedotI. Principles of Pointer Year Analysis
I. Principles of Pointer Year Analysis Fig 1. Maximum (red) and minimum (blue) pointer years. 1 Fig 2. Principle of pointer year calculation. Fig 3. Skeleton plot graph created by Kinsys/Kigraph programme.
LisätiedotTUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)
LisätiedotRegressioanalyysi. Vilkkumaa / Kuusinen 1
Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen
Lisätiedot16. Allocation Models
16. Allocation Models Juha Saloheimo 17.1.27 S steemianalsin Optimointiopin seminaari - Sks 27 Content Introduction Overall Efficienc with common prices and costs Cost Efficienc S steemianalsin Revenue
LisätiedotHAVAITUT JA ODOTETUT FREKVENSSIT
HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies
LisätiedotTodennäköisyyden ominaisuuksia
Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset
LisätiedotLATVUSMASSAN KOSTEUDEN MÄÄRITYS METSÄKULJETUKSEN YHTEYDESSÄ
LATVUSMASSAN KOSTEUDEN MÄÄRITYS METSÄKULJETUKSEN YHTEYDESSÄ Metsä- ja puuteknologia Pro gradu -tutkielman tulokset Kevät 2010 Petri Ronkainen petri.ronkainen@joensuu.fi 0505623455 Metsäntutkimuslaitos
LisätiedotMuuttujien määrittely
Tarja Heikkilä Muuttujien määrittely Määrittele muuttujat SPSS-ohjelmaan lomakkeen kysymyksistä. Harjoitusta varten lomakkeeseen on muokattu kysymyksiä kahdesta opiskelijoiden tekemästä Joupiskan rinneravintolaa
LisätiedotSPSS OPAS. Metropolia Liiketalous
1 Metropolia Liiketalous SPSS OPAS Aihe sivu 1. Ohjelman periaate 2 2. Aineistoikkuna 3 3. Frekvenssit 4 4. Muuttujien arvojen luokittelu 5 5. Tunnusluvut 6 6. Ristiintaulukointi 7 7. Hajontakaavio 8 8.Korrelaatio
Lisätiedotxi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =
1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista
Lisätiedot1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset
TA7, Ekonometrian johdantokurssi HARJOITUS 7 RATKAISUEHDOTUKSET 16.3.2015 1. Tutkitaan regressiomallia Y i = β 0 + X i + u i ja oletetaan, että tavanomaiset regressiomallin oletukset pätevät (Key Concept
LisätiedotParametrin estimointi ja bootstrap-otanta
Parametrin estimointi ja bootstrap-otanta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 1/27 Kevät 2003 Käytännön asioista
LisätiedotA250A0050 Ekonometrian perusteet Tentti
A250A0050 Ekonometrian perusteet Tentti 28.9.2016 Tentissä ei saa käyttää laskinta. Tentistä saa max 80 pistettä. Hyväksytysti suoritetusta harjoitustyöstä saa max 20 pistettä. Huom. Merkitse vastauspaperin
Lisätiedot(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.
2. VÄLIKOE vuodelta -14 1. Liitteessä 1 on esitetty R-ohjelmalla saatuja tuloksia aineistosta, johon on talletettu kahdenkymmenen satunnaisesti valitun miehen paino (kg), vyötärön ympärysmitta (cm) ja
LisätiedotKvantitatiiviset menetelmät
Kvantitatiiviset menetelmät HUOM! Tentti pidetään tiistaina.. klo 6-8 Vuorikadulla V0 ls Muuttujien muunnokset Usein empiirisen analyysin yhteydessä tulee tarve muuttaa aineiston muuttujia Esim. syntymävuoden
LisätiedotMTTTP5, luento Luottamusväli, määritelmä
23.11.2017/1 MTTTP5, luento 23.11.2017 Luottamusväli, määritelmä Olkoot A ja B satunnaisotoksen perusteella määriteltyjä satunnaismuuttujia. Väli (A, B) on parametrin 100(1 - ) %:n luottamusväli, jos P(A
LisätiedotHealth 2000/2011 Surveys. Statistical Analysis using SAS and SAS-Callable SUDAAN Packages 17.6.2013. Esa Virtala. etunimi.sukunimi@thl.
Health 2000/2011 Surveys Statistical Analysis using SAS and SAS-Callable SUDAAN Packages 17.6.2013 Esa Virtala etunimi.sukunimi@thl.fi Terveyden ja hyvinvoinnin laitos (THL) PL 30 00271 Helsinki Puhelin:
LisätiedotThe CCR Model and Production Correspondence
The CCR Model and Production Correspondence Tim Schöneberg The 19th of September Agenda Introduction Definitions Production Possiblity Set CCR Model and the Dual Problem Input excesses and output shortfalls
LisätiedotTilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit
Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit s t ja t kahden Sisältö t ja t t ja t kahden kahden t ja t kahden t ja t Tällä luennolla käsitellään epäparametrisia eli
LisätiedotMatemaatikot ja tilastotieteilijät
Matemaatikot ja tilastotieteilijät Matematiikka/tilastotiede ammattina Tilastotiede on matematiikan osa-alue, lähinnä todennäköisyyslaskentaa, mutta se on myös itsenäinen tieteenala. Tilastotieteen tutkijat
Lisätiedot2. Keskiarvojen vartailua
2. Keskiarvojen vartailua Esimerkki 2.1: Oheiset mittaukset liittyvät Portland Sementin sidoslujuuteen (kgf/cm 2 ). Mittaukset y 1 ovat nykyisestä seoksesta ja mittaukset y 2 uudesta seoksesta, jossa lisäaineena
LisätiedotHarjoitukset 3 : Monimuuttujaregressio 2 (Palautus )
31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus 7.2.2017) Tämän harjoituskerran tehtävät
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
LisätiedotTUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas Ilman Ruotsia: r = 0.862 N Engl J Med 2012; 367:1562-1564. POIKKEAVAN HAVAINNON VAIKUTUS PAIRWISE VAI LISTWISE? Kun aineistossa on muuttujia, joilla
LisätiedotHarjoitukset 2 : Monimuuttujaregressio (Palautus )
31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 2 : Monimuuttujaregressio (Palautus 24.1.2017) Tämän harjoituskerran tarkoitus
LisätiedotJohdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1
Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden
LisätiedotSPSS ohje. Metropolia Business School/ Pepe Vilpas
1 SPSS ohje Page 1. Perusteita 2 2. Frekvenssijakaumat 3 3. Muuttujan luokittelu 4 4. Kaaviot 5 5. Tunnusluvut 6 6. Tunnuslukujen vertailu ryhmissä 7 9. Ristiintaulukointi ja Chi-testi 8 10. Hajontakaavio
Lisätiedotvoidaan hylätä, pienempi vai suurempi kuin 1 %?
[TILTP1] TILASTOTIETEEN JOHDANTOKURSSI, Syksy 2011 http://www.uta.fi/~strale/tiltp1/index.html 30.9.2011 klo 13:07:54 HARJOITUS 5 viikko 41 Ryhmät ke 08.30 10.00 ls. C8 Leppälä to 12.15 13.45 ls. A2a Laine
LisätiedotSAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä 16.11.2009
SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä Antti Suoperä 16.11.2009 SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä: Matriisi ja vektori laskennan ohjelmisto edellyttää
LisätiedotTutkimustiedonhallinnan peruskurssi
Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,
LisätiedotMTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu
5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017
LisätiedotCapacity utilization
Mat-2.4142 Seminar on optimization Capacity utilization 12.12.2007 Contents Summary of chapter 14 Related DEA-solver models Illustrative examples Measure of technical capacity utilization Price-based measure
Lisätiedot031021P Tilastomatematiikka (5 op) kertausta 2. vk:een
031021P Tilastomatematiikka (5 op) kertausta 2. vk:een Jukka Kemppainen Mathematics Division 2. välikokeeseen Toinen välikoe on la 5.4.2014 klo. 9.00-12.00 saleissa L1,L3 Koealue: luentojen luvut 7-11
LisätiedotKemometriasta. Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi Http://www.abo.fi/~mhotokka
Kemometriasta Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi Http://www.abo.fi/~mhotokka Mistä puhutaan? Määritelmiä Määritys, rinnakkaismääritys Mittaustuloksen luotettavuus Kalibrointi Mittausten
LisätiedotRegressioanalyysi. Kuusinen/Heliövaara 1
Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6A Tilastolliset luottamusvälit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,
LisätiedotMTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)
MTTTP5, luento 7.12.2017 7.12.2017/1 6.1.3 Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta) y = lepopulssi x = sukupuoli y = musikaalisuus x = sukupuoli
Lisätiedot11. laskuharjoituskierros, vko 15, ratkaisut
11. laskuharjoituskierros vko 15 ratkaisut D1. Geiger-mittari laskee radioaktiivisen aineen emissioiden lukumääriä. Emissioiden lukumäärä on lyhyellä aikavälillä satunnaismuuttuja jonka voidaan olettaa
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen
Lisätiedot