Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

Samankaltaiset tiedostot
Hierarkkisen aineiston mallintaminen ja otanta/pre-kurssi

(78143) Syksy 2009 TEEMAT 3 & 4. Risto Lehtonen Teema 3 ERITYISKYSYMYKSIÄ. Risto Lehtonen 2

Otanta-aineistojen analyysi Kevät 2010 TEEMA 5: Tilastollinen mallinnus II Mallit, analyysimenetelmiä ja ohjelmia, PISA-esimerkki

Otanta-aineistojen analyysi

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 4: Asetelmaperusteinen monimuuttuja-analyysi

Otanta-aineistojen analyysi

Health 2000/2011 Surveys. Statistical Analysis using SAS and SAS-Callable SUDAAN Packages Esa Virtala.

Perusestimointi 5 Analyysiä survey-datalla Tee Suomen datalla jokin oma kokeilu käyttäen tätä mallia Esimerkki PISA 2006:sta SAS:lla

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

ATH-koulutus: Stata 11 THL ATH-koulutus / Tommi Härkänen 1

Tommi Härkänen, Teppo Juntunen, Eero Lilja Analyysiohjeita Maahanmuuttajien terveys- ja hyvinvointitutkimusaineiston käsittelemiseksi.

Otanta-aineistojen analyysi

Otanta-aineistojen analyysi

Pienalue-estimointi (78189) Kevät Risto Lehtonen Helsingin yliopisto

Liite artikkeliin Intohimo tasa-arvoon

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

Otantamenetelmät. Syksy

ATH-aineiston tilastolliset analyysit SPSS/PASW SPSS analyysit / Risto Sippola 1

pitkittäisaineistoissa

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Otantamenetelmät (78143) Syksy 2008 OSA 2: Malliavusteinen estimointi. Risto Lehtonen

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Tilastotieteen aihehakemisto

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

Monitasomallit koulututkimuksessa

Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Englannin kielen ja viestinnän ja ammattiaineiden integrointiyhteistyö insinöörikoulutuksessa

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?

Supplementary Table S1. Material list (a) Parameters Sal to Str

Laskelmia puoluekannatuksesta Seppo

ATH-koulutus THL ATH-koulutus / Tommi Härkänen 1

BOOTSTRAPPING? Jukka Nyblom Jyväskylän yliopisto. Metodifestivaali

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Spatiaalinen metsää kuvaava malli ja sen soveltaminen metsäninventointiin

Otoskoon arviointi. Tero Vahlberg

Statistical design. Tuomas Selander

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Viherseinien efekti Tilastoanalyysi

OPINTOJAKSOJA KOSKEVAT MUUTOKSET/MATEMATIIKAn JA FYSIIKAN LAITOS LUKUVUOSI

Helsingin yliopisto Sosiaalitieteiden laitos Seppo Tammikuu 2013 Surveymetodiikan koe

SAS ja R yhteiskäyttö

OPINTOJAKSOJA KOSKEVAT MUUTOKSET/MATEMATIIKAN JA FYSIIKAN LAITOS/ LUKUVUOSI

ELEC-C5210 Satunnaisprosessit tietoliikenteessä

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Mat Tilastollisen analyysin perusteet, kevät 2007

Estimaattoreiden asetelmaperusteinen

TILASTOLLISTEN MENETELMIEN KIRJO JA KÄYTTÖ LÄÄKETIETEEN TUTKIMUSJULKAISUISSA. Pentti Nieminen

Harha mallin arvioinnissa

TUTKIMUSOPAS. SPSS-opas

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä

Talouskriisit, työhyvinvointi ja työurat -hanke ( )

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Otantamenetelmät. (78143) Syksy 2010 TEEMA 1. Risto Lehtonen

Puuttuvan tiedon ongelmat pitkittäistutkimuksissa

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

Logistiikkaketjun tilastollinen mallinnus Suomen vaatetuonnissa

Simulation and modeling for quality and reliability (valmiin työn esittely) Aleksi Seppänen

monitavoitteisissa päätöspuissa (Valmiin työn esittely) Mio Parmi Ohjaaja: Prof. Kai Virtanen Valvoja: Prof.

pitkittäisaineistoissa

Perusnäkymä yksisuuntaiseen ANOVAaan

Kandidaatintutkielman aineistonhankinta ja analyysi

Epävarmuuden hallinta bootstrap-menetelmillä

DATA-vaiheen ohjelmoijan yleissivistys helposti unohtuvia asioita

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

EU-rikosuhritutkimus (Turvallisuus Suomessa) - pilottitutkimus. Vastauskato ja painotus Jenni Nikula

Harjoitus 7 : Aikasarja-analyysi (Palautus )

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

Harjoitus 7: NCSS - Tilastollinen analyysi

KLIINISTEN TUTKIMUSTEN SUUNNITTELU JA KOEASETELMAT. Vesa Kiviniemi (FL) Itä-Suomen yliopisto

Kysyminen ja vastaaminen kommunikaationa. Petri Godenhjelm Metodifestivaalit 2015

Timo Hurme Maa- ja elintarviketalouden tutkimuskeskus MTT

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Tutkimustiedonhallinnan peruskurssi

MAT INVESTOINTITEORIA. (5 op) Kevät Ville Brummer / Pekka Mild / Ahti Salo

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

SAS-ohjelmiston perusteet 2010

OPPIMINEN ja SEN TUKEMINEN Supporting learning for understanding

Efficiency change over time

Viestinnän mentelmät I: sisällön erittely. Sisällönanalyysi/sisällön erittely. Sisällön erittely. Juha Herkman

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari

Tekijä(t) Vuosi Nro. Arviointikriteeri K E? NA

Bachelor level exams by date in Otaniemi

Bachelor level exams by subject in Otaniemi

Testit laatueroasteikollisille muuttujille

2. Aineiston kuvailua

5 Osa 5: Ohjelmointikielen perusteita

1 Aineiston rakenne ja erikoisvaatimukset

A250A0050 Ekonometrian perusteet Tentti

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Epätäydellisen preferenssi-informaation huomioon ottavien päätöksenteon tukimenetelmien vertailu (aihe-esittely)

Yksinkertaista estimointia 1

Epävarmuus ja riskinarviointi: tiedon paloja, näytön synteesiä

Aineiston analysointi. Edutool gradutapaaminen

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

Transkriptio:

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita risto.lehtonen@helsinki.fi OHC Survey Tilastollinen analyysi Kysymys: Millä vaihtoehtoisilla tavoilla voidaan reagoida tilastollisen analyysin yhteydessä OHC-tutkimuksen otantaasetelman ominaisuuksiin? Ositettu kaksiasteinen ryväsotanta Painotus - painomuuttuja - OHC-datassa painot = 1 Ositus - ositusmuuttuja OSITE Ryvästyminen - ryväsmuuttuja RYVAS 2 1

OHC Survey Tilastollinen analyysi Tarkastellaan esimerkinomaisesti kahta vaihtoehtoista lähestymistapaa Asetelmaperusteinen (Design-based) tilastollinen analyysi Binäärinen vaste: Logistinen kiinteiden tekijöiden malli (logit ANCOVA) Malliperusteinen (Model-based) tilastollinen analyysi Binäärinen vaste: Logistinen sekamalli (logit ANCOVA) 3 Asetelmaperusteinen (design-based) analyysi Ryväsotanta-aineistojen analyysi Aineiston analyysissa luovutaan havaintojen riippumattomuusoletuksesta (iid-oletus) Sallitaan, että havainnot voivat korreloida keskenään (rypäiden sisällä) Korreloituneisuuteen reagoidaan asetelmaperusteisilla menetelmillä - Asetelmaperusteiset piste-estimaatit ja keskivirheet - Asetelmaperusteiset tilastolliset testit - Asetelmakerroin (Design effect, deff) - Sisäkorrelaatio (Intra-cluster correlation) 4 2

Asetelmaperusteinen analyysi Asetelmaperusteinen metodiikka on suositus monissa isoissa tutkimuksissa Terveys 2000 tutkimus PISA-tutkimukset Kirjallisuutta Chambers R.L. and Skinner C.J. (Eds.) (2004). Analysis of Survey Data. Chichester: h Wiley. Lehtonen R. and Pahkinen E. (2004). Practical Methods for Design and Analysis of Complex Surveys. Second Edition. Chichester: Wiley. Luvut 5, 7-8 5 Asetelmaperusteinen analyysi Ohjelmistot SAS: SURVEY-proseduurit SURVEYMEANS, SURVEYFREQ SURVEYREG, SURVEYLOGISTIC SPSS Complex Samples -moduli Stata SVY-proseduurit Muut R-funktioita 6 3

Malliperusteinen (model-based) analyysi Mutkikkaan otanta-asetelman ominaisuuksien mallinnus Luovutaan iid-oletuksesta Rypäiden sisäkorreloituneisuuteen reagoidaan mallintamalla Kiinteiden tekijöiden mallit ja GEE-estimointi (Generalized Estimating Equations) Sekamallit (Mixed models) Monitasomallit (Multilevel models) Hierarkkiset mallit (Hierarchical models) 7 Malliperusteinen analyysi Kirjallisuutta Demidenko E. (2004). Mixed Models. Theory and Applications. New York: Wiley. Diggle P. J., Liang, K.-Y. & Zeger, S. L. (1994). Analysis of Longitudinal Data. Oxford: Oxford University Press. Goldstein H. (2003). Multilevel Statistical Models. 3rd edition. London: Arnold; New York: John Wiley & Sons. 8 4

Malliperusteinen analyysi Ohjelmistot SAS GENMOD MIXED GLIMMIX SPSS ja Stata Vastaavat mallinnusproseduurit Muut R-funktioita, LISREL, Mplus 9 Analyysimenetelmiä ja työkaluja Tilastollinen kuvailu Kaksiulotteisten frekvenssitaulujen testit SAS-proseduureja Keskiarvot, osuudet - SURVEYMEANS (Asetelmaperusteinen) - MEANS (SRS-oletus) Frekvenssitaulut, testit - SURVEYFREQ (asetelmaperusteinen) - FREQ (SRS-oletus) Esimerkki Lehtonen & Pahkinen (2004), Example 7.3 VLISS Training Key 250 10 5

Esimerkki: PROC SURVEYFREQ (1)Metodisesti pätevä analyysi Asetelmaperusteinen, ryväsotanta proc surveyfreq data=ohc; tables phys*psych3 / chisq; strata osite; cluster ryvas; (2) Ei-pätevä versio (SRS-oletus) proc surveyfreq data=ohc; tables phys*psych3 / chisq; 11 (1) Asetelmaperusteinen analyysi Table of PHYS by PSYCH3 Std Err of PHYS PSYCH3 Frequency Percent Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 0 1 1785 22.7650 0.6850 2 1716 21.8850 0.7019 3 1629 20.7754 0.7435 Total 5130 65.4253 1.4385 ------------------------------------------------------ 1 1 910 11.6057 0.6078 2 821 10.4706 0.5323 3 980 12.4984 0.6330 Total 2711 34.5747 1.4385 ------------------------------------------------------ Total 1 2695 34.3706 0.7140 2 2537 32.3556 0.5863 3 2609 33.2738 0.6751 Total 7841 100.000 12 6

(2) SRS-perusteinen analyysi Table of PHYS by PSYCH3 Std Err of PHYS PSYCH3 Frequency Percent Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 0 1 1785 22.7650 0.4736 2 1716 21.8850 0.4670 3 1629 20.7754 0.4582 Total 5130 65.4253 0.5371 ------------------------------------------------------ 1 1 910 11.6057 0.3617 2 821 10.4706 0.3458 3 980 12.4984 0.3735 Total 2711 34.5747 0.5371 ------------------------------------------------------ Total 1 2695 34.3706 0.5364 2 2537 32.3556 0.5284 3 2609 33.2738 0.5322 Total 7841 100.000 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 13 (1) Metodisesti pätevä asetelmaperusteinen testi Wald Chi-Square Test Chi-Square 13.2280 F Value 6.6140 Num DF 2 Den DF 245 Pr > F 0.0016 Adj F Value 6.5870 Num DF 2 Den DF 244 Pr > Adj F 0.0016 Sample Size = 7841 (2) SRS-perusteinen eipätevä testi Wald Chi-Square Test Chi-Square 16.3635 F Value 8.1818 Num DF 2 Den DF 7840 Pr > F 0.0003 Adj F Value 8.1807 Num DF 2 Den DF 7839 Pr > Adj F 0.0003 Sample Size = 7841 14 7

SAS-sovellukset Kaksiulotteisten frekvenssitaulujen testit Teema 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita (PDF-materiaali) SAS-sovellus Kaksiulotteisten frekvenssitaulujen testit PROC SURVEYFREQ Overview Getting Started Syntax Details Details (SAS Help) 15 Kirjallisuutta Chambers R.L. and Skinner C.J. (Eds.) (2004). Analysis of Survey Data. Chichester: Wiley. Demidenko E. (2004). Mixed Models. Theory and Applications. New York: Wiley. Diggle, P. J., Liang, K.-Y. & Zeger, S. L. (1994). Analysis of Longitudinal Data. Oxford: Oxford University Press. Goldstein, H. (2003). Multilevel Statistical Models. 3rd Edition. London: Edward Arnold. http://www.cmm.bristol.ac.uk/mlwin/index.shtml Lehtonen R. and Pahkinen E. (2004). Practical Methods for Design and Analysis of Complex Surveys. Second Edition. Chichester: Wiley. OECD (2002a). PISA 2000 Technical Report. Paris: OECD. http://www.pisa.oecd.org/ Snijders, T. and Bosker, R. (2002). Multilevel Analysis. An Introduction to Basic and Advanced Multilevel Modeling. London: Sage Publications. 16 8