Hierarkkisen aineiston mallintaminen ja otanta/pre-kurssi

Samankaltaiset tiedostot
Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 4: Asetelmaperusteinen monimuuttuja-analyysi

(78143) Syksy 2009 TEEMAT 3 & 4. Risto Lehtonen Teema 3 ERITYISKYSYMYKSIÄ. Risto Lehtonen 2

Otanta-aineistojen analyysi

Otanta-aineistojen analyysi Kevät 2010 TEEMA 5: Tilastollinen mallinnus II Mallit, analyysimenetelmiä ja ohjelmia, PISA-esimerkki

Otanta-aineistojen analyysi

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Otanta-aineistojen analyysi

Monitasomallit koulututkimuksessa

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

ATH-aineiston tilastolliset analyysit SPSS/PASW SPSS analyysit / Risto Sippola 1

Otanta-aineistojen analyysi

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Otantamenetelmät. Syksy

Health 2000/2011 Surveys. Statistical Analysis using SAS and SAS-Callable SUDAAN Packages Esa Virtala.

Tommi Härkänen, Teppo Juntunen, Eero Lilja Analyysiohjeita Maahanmuuttajien terveys- ja hyvinvointitutkimusaineiston käsittelemiseksi.

tilastotieteen kertaus

Perusestimointi 5 Analyysiä survey-datalla Tee Suomen datalla jokin oma kokeilu käyttäen tätä mallia Esimerkki PISA 2006:sta SAS:lla

Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Tilastotieteen aihehakemisto

Otantamenetelmät (78143) Syksy 2008 OSA 2: Malliavusteinen estimointi. Risto Lehtonen

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?

Harha mallin arvioinnissa

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Epävarmuuden hallinta bootstrap-menetelmillä

Tilastollinen aineisto Luottamusväli

ATH-koulutus: Stata 11 THL ATH-koulutus / Tommi Härkänen 1

Parametrin estimointi ja bootstrap-otanta

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

Yleistetyistä lineaarisista malleista

Liite artikkeliin Intohimo tasa-arvoon

805306A Johdatus monimuuttujamenetelmiin, 5 op

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä

Pienalue-estimointi (78189) Kevät Risto Lehtonen Helsingin yliopisto

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Teema 8: Parametrien estimointi ja luottamusvälit

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Estimaattoreiden asetelmaperusteinen

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

A250A0050 Ekonometrian perusteet Tentti

Sovellettu todennäköisyyslaskenta B

Harjoitus 9: Excel - Tilastollinen analyysi

Testit laatueroasteikollisille muuttujille

pitkittäisaineistoissa

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Load

KLIINISTEN TUTKIMUSTEN SUUNNITTELU JA KOEASETELMAT. Vesa Kiviniemi (FL) Itä-Suomen yliopisto

Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen


Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Johdatus regressioanalyysiin. Heliövaara 1

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

ATH-koulutus THL ATH-koulutus / Tommi Härkänen 1

Identifiointiprosessi

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

2. Uskottavuus ja informaatio

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Osa 2: Otokset, otosjakaumat ja estimointi

BOOTSTRAPPING? Jukka Nyblom Jyväskylän yliopisto. Metodifestivaali

Väliestimointi (jatkoa) Heliövaara 1

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Estimointi. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

HAVAITUT JA ODOTETUT FREKVENSSIT

Perhevapaiden palkkavaikutukset

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

Tutkimustiedonhallinnan peruskurssi

Otoskoon arviointi. Tero Vahlberg

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

Identifiointiprosessi

TUTKIMUSOPAS. SPSS-opas

Perusnäkymä yksisuuntaiseen ANOVAaan

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

1. Tilastollinen malli??

Logistinen regressio, separoivat hypertasot

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Transkriptio:

Hierarkkisen aineiston mallintaminen ja otanta/pre-kurssi Risto Lehtonen, Helsingin yliopisto Metodifestivaali Jyväskylän yliopisto 27.5.2009 Keskiviikko 27.5 10-12 Hierarkkisuus otanta- asetelmaperusteisessa analyysissa 12-13 Lounastauko 13-14 Esimerkkianalyyseja 14-14.30 Kahvitauko 14.30-16 PC-harjoitukset SAS- ja R-ohjelmistoilla JY Metodifestivaali Risto Lehtonen 27.5.2009 2 1

Hierarkkisen aineiston mallintaminen ja otanta/pre-kurssi Kurssilla käsitellään hierarkkisen (tai monitasoisen) tutkimusaineiston tilastollista mallintamista ja otantaa. Kun tutkimusaineistossa on havaintoyksiköitä ryhmittelevä luonnollinen rakenne eikä havaintoyksiköiden riippumattomuusoletus ole voimassa, on tämä otettava huomioon tilastollisessa mallintamisessa. Muuten vaarana on, että analyysitulokset sekä niistä tehtävät sisällölliset tulkinnat ja johtopäätökset ovat virheellisiä. JY Metodifestivaali Risto Lehtonen 27.5.2009 3 Hierarkkisen aineiston mallintaminen ja otanta/pre-kurssi Monitasomalli sisältää sekä aineiston rakenteen että havaintoyksiköiden keskinäisen riippuvuuden. Monitasomalli voi sisältää sekä ryhmä- että yksilötason selittäjiä. Kurssin suoritus: luennot, harjoitukset ja erikseen sovittava tehtävä JY Metodifestivaali Risto Lehtonen 27.5.2009 4 2

Käsiteltäviä asioita Terminologiaa Havaintojen keskinäisen riippuvuuden lähteitä Korreloituneisuuteen reagointi analyysissa Tilastollisen analyysin tyylilajit Analyysimenetelmiä, ja sovelluksia Huomioita tilastollisista ohjelmistoista JY Metodifestivaali Risto Lehtonen 27.5.2009 5 Terminologiaa Hierarkkisesti rakentunut aineisto Havaintojen korreloituneisuus Correlated data, Dependent data Clustered data, Cluster correlated data Autokorrelaatio Aikadimensio Spatiaalinen korrelaatio Tiladimensio Sisäkorrelaatio Ryhmän sisäinen korrelaatio Hierarkkinen malli Hierarchical model Monitasomalli Multilevel model Sekamalli Mixed model 3

OHC Survey Kaksitasoinen hierarkkinen rakenne Kaksiasteinen ryväsotanta: Perusjoukot Toimipaikka TMP-PJ 1 Toimipaikka 2 Toimipaikka M Työntekijä 11 Työntekijä 21 Työntekijä M1 Työntekijä 12 Työntekijä 22 Työntekijä M2 HENKILÖ- PJ Työntekijä 2j.Työntekijä Mj JY Metodifestivaali Risto Lehtonen 27.5.2009 7 OHC Survey Kaksitasoinen hierarkkinen rakenne Kaksiasteinen ryväsotanta: Poimittu otos TMP- OTOS Toimipaikka 2 Toimipaikka M Työntekijä 22 Työntekijä M2 Työntekijä 2j.Työntekijä Mj HENKILÖ- OTOS JY Metodifestivaali Risto Lehtonen 27.5.2009 8 4

Havaintojen korreloituneisuuden lähteitä: Tutkimusasetelma ja otanta-asetelma 1. Alkiotason otanta Tutkimusasetelma a. Poikkileikkaus b. Pitkittäisasetelma asetelma 2. Ryväsotanta JY Metodifestivaali Risto Lehtonen 27.5.2009 9 Havaintojen korreloituneisuuden lähteitä: Tutkimusasetelma ja otanta-asetelma Otantaasetelma Tutkimusasetelma Otanta a. Poikkileikkaus b. Pitkittäisasetelma asetelma asetelma 1. Alkiotason otanta 1a. Ei havaintojen korreloituneisuutta 2. Ryväsotanta JY Metodifestivaali Risto Lehtonen 27.5.2009 10 5

Havaintojen korreloituneisuuden lähteitä: Tutkimusasetelma ja otanta-asetelma 2. Ryväsotanta 2a. Positiivinen rypäänsisäinen korrelaatio JY Metodifestivaali Risto Lehtonen 27.5.2009 11 Havaintojen korreloituneisuuden lähteitä: Tutkimusasetelma ja otanta-asetelma Tutkimusasetelma Otanta a. Poikkileikkaus b. Pitkittäisasetelma asetelma asetelma 1. Alkiotason otanta 1a. Ei havaintojen korreloituneisuutta Tutkimusasetelma Otanta a. Poikkileikkaus b. Pitkittäisasetelma asetelma asetelma 1. Alkiotason otanta 1a. Ei havaintojen korreloituneisuutta 1b. Positiivinen autokorrelaatio 2. Ryväsotanta 2a. Positiivinen rypäänsisäinen korrelaatio JY Metodifestivaali Risto Lehtonen 27.5.2009 12 6

Havaintojen korreloituneisuuden lähteitä: Tutkimusasetelma ja otanta-asetelma 2. Ryväsotanta 2a. Positiivinen rypäänsisäinen korrelaatio 2b. Ristikkäinen autokorrelaatio ja ryväskorrelaatio äk JY Metodifestivaali Risto Lehtonen 27.5.2009 13 Esimerkkejä hierarkkisesti rakentuneista tutkimusaineistoista Terveys 2000 PISA Terveyskeskuspiiri Poikkileikkaus 2-asteinen ositettu ryväsotanta 1-asteinen ositettu ryväsotanta ECHP Paneeli 1-asteinen ositettu tt ryväsotanta OHC Survey 2-asteinen ositettu ryväsotanta Poikkileikkaus Koulu tai opetusryhmä Koti- talous Tutkimusasetelma Otanta a. Poikkileikkaus b. Pitkittäisasetelma asetelma asetelma 1. Alkiotason otanta 1a. Ei havaintojen korreloituneisuutta 1b. Positiivinen autokorrelaatio Tutkimusaineisto Tutkimusasetelma Otantaasetelma Ryväsrakenne Havaintoyksikkö Henkilö Oppilas Koti- talouden jäsen Poikkileikkaus Toimipaikka Työntekijä JY Metodifestivaali Risto Lehtonen 27.5.2009 14 7

Esimerkkiaineisto: Työterveyshuoltotutkimus Occupational Health Care Survey OHC Survey Tutkimusasetelma: Poikkileikkaustutkimus Otanta-asetelma Ositettu yksi- ja kaksiasteinen ryväsotanta Toimipaikat rypäinä Ositus rypään koon ja toimialan mukaan Pienet toimipaikat: Yksiasteinen otanta Suuret toimipaikat: Kaksiasteinen otanta Henkilötasolla itsepainottuva (self-weighting) otos Havaintojen riippuvuus: Rypäiden positiivinen sisäkorrelaatio JY Metodifestivaali Risto Lehtonen 27.5.2009 15 Esimerkkiaineisto: Työterveyshuoltotutkimus Occupational Health Care Survey OHC Survey Demonstraatioaineisto SAS-data OHCjy Rajaus Toimipaikat, joissa vähintään 10 työntekijää H = 5 ositetta (strata) m = 250 toimipaikkaa (ryvästä, clusters) ) n = 7841 henkilöä Vaihteleva määrä otosrypäitä per osite JY Metodifestivaali Risto Lehtonen 27.5.2009 16 8

OHC Survey SAS data OHCjy: Muuttujaluettelo Variables in Creation Order # Variable Type Len Label 1 OSITE Num 8 Stratum identifier 2 RYVAS Num 8 Cluster identifier 3 ID Num 8 Element identifier 4 SEX Num 8 Gender 5 AGE Num 8 Age in years 6 AGE2 Num 8 Age under/over 45 7 PHYS Num 8 Physical health hazards of work 8 CHRON Num 8 Chronic morbidity 9 PSYCH Num 8 Psychic strain - 1st princomp 10 PSYCH2 Num 8 Psychic strain - dichotomy JY Metodifestivaali Risto Lehtonen 27.5.2009 17 OHC Survey SAS-data OHCjy OHCjy 7841 henkilöä 10 muuttujaa 5 ositetta 250 otosryvästä Rypäinä toimipaikat JY Metodifestivaali Risto Lehtonen 27.5.2009 18 9

Rypäiden positiivisen sisäkorrelaation vaikutukset analyysin kannalta Vastaavankokoiseen alkiotasoiseen otanta- aineistoon verrattuna ryväsotanta-aineistossa: aineistossa: Tehokas otoskoko pienenee Tunnuslukujen keskivirheet kasvavat Luottamusvälit (virhemarginaalit) suurenevat Testisuureiden tilastollinen merkitsevyys heikkenee JY Metodifestivaali Risto Lehtonen 27.5.2009 19 Asetelmakerroin Deff ja sisäkorrelaatio Asetelmakerroin (Design effect, deff) mittaa otanta-asetelman ryvästymisen vaikutusta estimaattorin varianssiin Esimerkiksi osuustunnusluvun (suhteellisen osuuden) estimoitu asetelmakerroin on: v ˆ ˆ clu( p) vclu( p) deff ( pˆ ) = = = 1 + ( n 1) ˆ ρint v ( ˆ) ˆ(1 ˆ srs p p p)/ n missä ˆp on estimoitu osuustunnusluku ˆ ρ int on sisäkorrelaatio (intra-cluster correlation) n on rypäiden keskimääräinen otoskoko v clu on ryväsotanta-asetelman mukainen otosvarianssi srs v on yksinkertaiseen satunnaisotantaan perustuva otosvarianssi (tässä binominen varianssilauseke) JY Metodifestivaali Risto Lehtonen 27.5.2009 20 10

SAS data OHCjy: Deff-estimaatit (Lehtonen&Pahkinen 2004) Table 5.8 Averages of design-effect estimates of proportion estimates of selected groups of binary response variables in the OHC Survey data set (number of variables in parentheses). Study variable Mean deff Physical working conditions (12) 6.5 Psycho-social working conditions (11) 3.3 Psychosomatic symptoms (8) 2.0 Psychic symptoms (9) 1.8 JY Metodifestivaali Risto Lehtonen 27.5.2009 21 Asetelmakerroin, sisäkorrelaatio ja tehokas otoskoko Asetelmakerroin ja sisäkorrelaatio ˆ ρ int deff ( p ˆ ) 1 = n 1 Tehokas otoskoko (efficient sample size): n eff n n = = deff ( pˆ ) 1 + ( n 1) ˆ ρint missä n on alkiotason otoskoko n on rypäiden keskimääräinen otoskoko JY Metodifestivaali Risto Lehtonen 27.5.2009 22 11

Tehokas otoskoko ja sisäkorrelaatio SAS data OHCjy: Fysikaaliset työolot Asetelmakerroin deff = 6.5 Sisäkorrelaatio rho = 0.181 Otoskoko n = 7841 henkilöä Tehokas otoskoko n(eff) = 7841/6.5 = 1206 henkilöä JY Metodifestivaali Risto Lehtonen 27.5.2009 23 Tehokas otoskoko ja sisäkorrelaatio SAS data OHCjy: Psyykkiset oireet Asetelmakerroin deff = 1.8 Sisäkorrelaatio rho = 0.026 Otoskoko n = 7841 henkilöä Tehokas otoskoko n(eff) = 7841/1.8 = 4356 henkilöä JY Metodifestivaali Risto Lehtonen 27.5.2009 24 12

OHC Survey Tilastollinen analyysi Kysymys: Millä vaihtoehtoisilla tavoilla voidaan reagoida tilastollisen analyysin yhteydessä OHCtutkimuksen otanta-asetelman ominaisuuksiin? Ositettu kaksiasteinen ryväsotanta Painotus - painomuuttuja: Tässä painot = 1 Ositus - ositusmuuttuja OSITE Ryvästyminen - ryväsmuuttuja RYVAS JY Metodifestivaali Risto Lehtonen 27.5.2009 25 OHC Survey Tilastollinen analyysi Tarkastellaan esimerkinomaisesti kahta vaihtoehtoista lähestymistapaa Asetelmaperusteinen (Design-based) tilastollinen analyysi Binäärinen vaste: Logistinen kiinteiden tekijöiden malli (logit ANCOVA) Malliperusteinen (Model-based) tilastollinen analyysi Binäärinen vaste: Logistinen sekamalli (logit ANCOVA) JY Metodifestivaali Risto Lehtonen 27.5.2009 26 13

Asetelmaperusteinen (design-based) analyysi Perinteinen lähestymistapa mutkikkaiden otantaasetelmien tilanteissa Aineiston tilastollisessa analyysissa luovutaan oletuksesta, että havainnot olisivat toisistaan riippumattomia Luovutaan iid-oletuksesta (independent identically distributed) Sallitaan, että havainnot voivat korreloida keskenään rypäiden sisällä Korreloituneisuuteen reagoidaan asetelmaperusteisilla menetelmillä Asetelmaperusteiset piste-estimaatit ja keskivirheet Asetelmaperusteiset tilastolliset testit JY Metodifestivaali Risto Lehtonen 27.5.2009 27 Asetelmaperusteinen (design-based) analyysi Ohjelmistot SAS: SURVEY-proseduurit SURVEYMEANS, SURVEYFREQ, SURVEYREG, SURVEYLOGISTIC SPSS: Complex Samples -moduli Stata: SVY-proseduurit Muut: R-funktioita, LISREL, Mplus JY Metodifestivaali Risto Lehtonen 27.5.2009 28 14

Asetelmaperusteinen (design-based) analyysi Kirjallisuutta Chambers R.L. and Skinner C.J. (Eds.) (2004). Analysis of Survey Data. Chichester: Wiley. Lehtonen R. and Pahkinen E. (2004). Practical Methods for Design and Analysis of Complex Surveys. Second Edition. Chichester: Wiley. Luvut 5, 7-9 JY Metodifestivaali Risto Lehtonen 27.5.2009 29 Malliperusteinen (model-based) analyysi Mutkikkaan otanta-asetelman ominaisuuksien i i mallinnus Luovutaan iid-oletuksesta Rypäiden sisäkorreloituneisuuteen reagoidaan mallintamalla Kiinteiden tekijöiden mallit ja GEE-estimointi (Generalized Estimating Equations) SAS GENMOD Sekamallit (Mixed models) / Monitasomallit (Multilevel models) SAS (MIXED, GLIMMIX), MLwiN, SPSS/ MIXED, LISREL, Mplus, R function lme, JY Metodifestivaali Risto Lehtonen 27.5.2009 30 15

Malliperusteinen (model-based) analyysi Kirjallisuutta Demidenko E. (2004). Mixed Models. Theory and Applications. New York: Wiley. Diggle P. J., Liang, K.-Y. & Zeger, S. L. (1994). Analysis of Longitudinal Data. Oxford: Oxford University Press. Goldstein H. (2003). Multilevel Statistical Models. 3rd edition. London: Arnold; New York: John Wiley & Sons. JY Metodifestivaali Risto Lehtonen 27.5.2009 31 OHC-survey: Frekvenssiaineisto (Lehtonen&Pahkinen 2004) Logit-ANOVA Table 8.2 Proportion p of persons in the upper psychic strain group, with standard error estimates s.e and design-effect estimates deff of the proportions, and ddomain sample sizes n and dthe number of sample clusters m (the OHC Survey). Domain SEX AGE PHYS p s.e deff n m 1 Males 44 0 0.419 0.0128 1.16 1734 230 2 1 0.472 0.0145 1.33 1578 198 3 45 0 0.461 0.0178 0.88 690 186 4 1 0.520 0.0247 1.18 483 138 5 Females 44 0 0.541 0.0125 1.23 1966 240 6 1 0.620 0.0270 1.38 447 152 7 45 0 0.532 0.0236 1.65 740 185 8 1 0.700 0.0391 1.48 203 101 All 0.500 0.0073 1.69 7841 250 JY Metodifestivaali Risto Lehtonen 27.5.2009 32 16

Asetelmaperusteinen analyysi logitmalleilla SAS-proseduuri SURVEYLOGISTIC Logistinen malli: Yleistettyjen lineaaristen mallien perheen jäsen Binäärinen (0 / 1) tulosmuuttuja Moniluokkainen tulosmuuttuja Otanta-asetelman ominaisuudet voidaan ottaa huomioon Ositus STRATA-lause Ryvästys CLUSTER-lause Painotus WEIGHT-lause JY Metodifestivaali Risto Lehtonen 27.5.2009 33 Logit ANCOVA, tilastometodinen kuvaus Lehtonen&Pahkinen (2004) 8.4 LOGISTIC AND LINEAR REGRESSION Design-based and Binomial PML Methods Logistic Regression Example 8.2 JY Metodifestivaali Risto Lehtonen 27.5.2009 34 17

TILASTOLLINEN MALLI Logitmalli (logistinen malli) Tulosmuuttuja y alkiolle y k : y k = 1 jos tutkittava ilmiö tapahtuu y = 0 muulloin k Tilastollinen malli: exp( x kβ) Em( yk) = P{ yk = 1} = 1+ exp( x β) k missä x k = (1, x1 k,, x pk) on selittävien muuttujien arvojen vektori alkiolle k β ( β, β,, β ) on estimoitavien parametrien vektori = 0 1 p JY Metodifestivaali Risto Lehtonen 27.5.2009 35 ESIMERKKI Kiinteiden tekijöiden logitmalli y k logit( yk) = log = x kβ = β0 + β1x1 k 1 yk missä β 0 on mallin kiinteä vakiotermi (intercept) β on kulmakerroin (slope) 1 Monitasomalli (sekamalli) y k logit( yk u) = log = β0 + u0d + β1x1 k 1 yk missä u 0d on satunnainen vakiotermi (random intercept) JY Metodifestivaali Risto Lehtonen 27.5.2009 36 18

Logitmallin parametrien asetelmaperusteinen estimointi GWLS-estimointi ei-iteratiivinen menetelmä Painotettu PNS Generalized weighted least squares PML-estimointi yleisimmin käytetty menetelmä Pseudo-uskottavuus Pseudo maximum likelihood Iteratiivinen menetelmä SAS/SURVEYLOGISTIC, GENMOD, ym. GEE-estimointi vaihtoehto PML-menetelmälle Yleistetyt estimointiyhtälöt Generalized estimating equations SAS/GENMOD (malliperusteinen) REML-estimointi Sekamalli Restricted (residual) maximum likelihood SAS/ MIXED, R funktio lme, ym. JY Metodifestivaali Risto Lehtonen 27.5.2009 37 Asetelmaperusteinen Waldin testisuure ˆ 2 β 2 j Χ des ( β j ) =, j = 1,, p + 1 v ( ˆ β ) des j 2 joka on asymptoottisesti χ -jakautunut vapausastein df=1 Termi ˆj β on estimoitu logit-regressiokerroin (esim. PML) Termi v ( βˆ ) on asetelmaperusteisesti estimoitu varianssi des j (esim. linearisointimenetelmä, jackknife, bootstrap) ˆ β j Vastaava t-testisuure t des( β j ) = s.e ( ˆ des β j ) on Waldin testisuureen merkkinen neliöjuuri JY Metodifestivaali Risto Lehtonen 27.5.2009 38 19

ESIMERKKI Lehtonen&Pahkinen (2004) Example 8.2 Asetelmaperusteinen logistinen ANCOVA OHC Survey Ositettu ryväsotanta-asetelma H= 5 ositetta m= 250 toimipaikkaa (otosryvästä) n = 7841 otoshenkilöä JY Metodifestivaali Risto Lehtonen 27.5.2009 39 Muuttujat Binäärinen tulosmuuttuja: PSYCH2 Psyykkinen rasittuneisuus 0: Lievä (alle mediaanin) 1: Vakava (yli mediaanin) Diskreetti selittäjä Sukupuoli SEX (M/F) Jatkuvat selittäjät Ikä AGE (vuosina) Työn fysikaaliset haitat: PHYS (0/1) Pitkäaikaissairastavuus: CHRON (0/1) JY Metodifestivaali Risto Lehtonen 27.5.2009 40 20

Tilastollinen malli Logit-ANCOVA-malli logit(p) = INTERCEPT + SEX + AGE + PHYS + CHRON + SEX*AGE + SEX*PHYS + SEX*CHRON missä P = Prob(Psych2 = 1 X) Tuntematon osuusparametri Todennäköisyys kuulua vakavamman psyykkisen rasittuneisuuden luokkaan JY Metodifestivaali Risto Lehtonen 27.5.2009 41 Mallin sovittaminen asetelmaperusteisesti Mallin parametrivektorin estimointi PML-estimointi Pseudolikelihood SAS/SURVEYLOGISTIC Lopullinen redusoitu malli: logit(p) = INTERCEPT + SEX + AGE + PHYS + CHRON + SEX*AGE JY Metodifestivaali Risto Lehtonen 27.5.2009 42 21

SAS Procedure SURVEYLOGISTIC proc surveylogistic data=ohcjy; title1 "Asetelmaperusteinen: Ryväsotanta-asetelma"; title2 "Sallitaan havaintojen riippuvuus"; strata osite; cluster ryvas; class sex / param=ref; model psych2(event=last)=sex age phys chron sex*age / link=logit rsquare; run; JY Metodifestivaali Risto Lehtonen 27.5.2009 43 Lehtonen & Pahkinen (2004) Table 8.8 JY Metodifestivaali Risto Lehtonen 27.5.2009 44 22

Suhteellinen riski Odds Ratio OR Sukupuoli-ikävakioitu suhteellinen riski Odds Ratio, OR (asetelmaperusteinen 95% luottamusväli): OR(PHYS) = 1.32 (1.17, 1.48) OR(CHRON) = 1.76 (1.57, 1.97) JY Metodifestivaali Risto Lehtonen 27.5.2009 45 JY Metodifestivaali Risto Lehtonen 27.5.2009 46 23

SAS-demot klo 14:30-16 SAS-koodi: SAS_Demo Asetelmaperusteinen analyysi SAS Procedure SURVEYLOGISTIC Malliperusteinen analyysi SAS Procedure GENMOD SAS Procedure GLIMMIX JY Metodifestivaali Risto Lehtonen 27.5.2009 47 VLISS-Virtual Laboratory in Survey Sampling Risto Lehtonen and Erkki Pahkinen (2004). Practical Methods for Design and Analysis of Complex Surveys. Chichester: Wiley. TRAINING KEY 288: Logistic ANCOVA In Training Key 288, logistic analysis of covariance (ANCOVA) is demonstrated for a binary response variable and the results of Example 8.2 are reproduced. Pseudolikelihood (PML) estimation is used for the OHC Survey data set, accounting for the sampling complexities. An option is provided for a detailed examination of the role of interaction effects in a logistic ANCOVA model. JY Metodifestivaali Risto Lehtonen 27.5.2009 46 24

Tilastolliset ohjelmistot: Korreloituneiden aineistojen analyysi Hierarkkisesti rakentunut aineisto Ryväsrakenne Ositerakenne Asetelmaperusteinen analyysi Painomuuttuja Ositusmuuttuja Ryväsmuuttuja Malliperusteinen analyysi Painomuuttuja Ryväsmuuttuja JY Metodifestivaali Risto Lehtonen 27.5.2009 49 Tilastollinen ohjelmisto: SAS Asetelmaperusteinen analyysi SURVEY-proseduurit (SAS versio 9) SURVEYMEANS Keskiarvot SURVEYFREQ Ristiintaulukointi Asetelmaperusteiset testit SURVEYREG Lineaarinen regressioanalyysi, ANOVA, ANCOVA SURVEYLOGISTIC Logistiset mallit JY Metodifestivaali Risto Lehtonen 27.5.2009 50 25

Tilastollinen ohjelmisto: SAS Malliperusteinen analyysi Monitasomallien (sekamallien) sovittaminen MIXED - Esimerkki Lineaariset sekamallit GLIMMIX - Esimerkki Yleistetyt lineaariset sekamallit NLMIXED Epälineaariset sekamallit JY Metodifestivaali Risto Lehtonen 27.5.2009 51 Tilastollinen ohjelmisto: SPSS Complex samples (SPSS versio 16) Hierarkkinen data Ositettu ryväsotanta Asetelmaperusteinen analyysi Asetelmapainot tai analyysipainot Ositusmuuttuja Ryväsmuuttuja Modulit CSPLAN ja CSSELECT Otoksen poiminta CSDESCRIPTIVES Kuvailevat tunnusluvut CSTABULATE Ristiintaulukointi ja testit CSGLM, CSLOGISTIC Lineaariset ja logistiset mallit 26

Tilastollinen ohjelmisto: STATA STATA (versio 10) Hierarkkinen data Ositettu ryväsotanta Asetelmaperusteinen analyysi Analyysipainot Ositusmuuttuja Ryväsmuuttuja SVY-optiot (SurVeY data) Kuvailevat tunnusluvut ja testisuureet Yleistetyt lineaariset mallit Biometrian menetelmiä ja malleja Ekonometrian menetelmiä ja malleja Tilastollinen ohjelmisto: LISREL LISREL 8.7 Win Hierarkkinen data Ositettu ryväsotanta Asetelmaperusteinen analyysi Analyysipainot Ositusmuuttuja tt Ryväsmuuttuja Menetelmät, esimerkiksi: Yleistetyt lineaariset mallit Lineaariset sekamallit 27

Tilastollinen ohjelmisto: Mplus Mplus Hierarkkinen data Ositettu ryväsotanta Asetelmaperusteinen analyysi Analyysipainot Ositusmuuttuja tt Ryväsmuuttuja Menetelmät, esimerkiksi: Yleistetyt lineaariset mallit Yleistetyt lineaariset sekamallit 28