Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 4: Asetelmaperusteinen monimuuttuja-analyysi

Samankaltaiset tiedostot
Hierarkkisen aineiston mallintaminen ja otanta/pre-kurssi

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

Otanta-aineistojen analyysi

Otanta-aineistojen analyysi

(78143) Syksy 2009 TEEMAT 3 & 4. Risto Lehtonen Teema 3 ERITYISKYSYMYKSIÄ. Risto Lehtonen 2

Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Otanta-aineistojen analyysi Kevät 2010 TEEMA 5: Tilastollinen mallinnus II Mallit, analyysimenetelmiä ja ohjelmia, PISA-esimerkki

Otantamenetelmät. Syksy

Otantamenetelmät (78143) Syksy 2008 OSA 2: Malliavusteinen estimointi. Risto Lehtonen

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Otanta-aineistojen analyysi

Health 2000/2011 Surveys. Statistical Analysis using SAS and SAS-Callable SUDAAN Packages Esa Virtala.

Perusestimointi 5 Analyysiä survey-datalla Tee Suomen datalla jokin oma kokeilu käyttäen tätä mallia Esimerkki PISA 2006:sta SAS:lla

Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Load

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Otanta-aineistojen analyysi

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?

ATH-aineiston tilastolliset analyysit SPSS/PASW SPSS analyysit / Risto Sippola 1

LISÄTIEDON KÄYTTÖ ESTIMOINTIASETELMASSA: MALLIAVUSTEINEN ESTIMOINTI

ATH-koulutus: Stata 11 THL ATH-koulutus / Tommi Härkänen 1


Estimaattoreiden asetelmaperusteinen

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tilastotieteen aihehakemisto

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

Liite artikkeliin Intohimo tasa-arvoon

A250A0050 Ekonometrian perusteet Tentti

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Harha mallin arvioinnissa

Tommi Härkänen, Teppo Juntunen, Eero Lilja Analyysiohjeita Maahanmuuttajien terveys- ja hyvinvointitutkimusaineiston käsittelemiseksi.

Mat Tilastollisen analyysin perusteet, kevät 2007

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Pienalue-estimointi (78189) Kevät Risto Lehtonen Helsingin yliopisto

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

Yleistetyistä lineaarisista malleista

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

Identifiointiprosessi

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä

9.1 Hierarkiset asetelmat (Nested Designs)

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs)

Regressioanalyysi. Kuusinen/Heliövaara 1

TILASTOLLISTEN MENETELMIEN KIRJO JA KÄYTTÖ LÄÄKETIETEEN TUTKIMUSJULKAISUISSA. Pentti Nieminen

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Sovellettu todennäköisyyslaskenta B

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Logistiikkaketjun tilastollinen mallinnus Suomen vaatetuonnissa

5.7 Uskottavuusfunktioon perustuvia testejä II

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Epävarmuuden hallinta bootstrap-menetelmillä

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Otoskoon arviointi. Tero Vahlberg

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

SAS:n käyttö Työterveyslaitoksessa. Pertti Mutanen

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Yleistetyn lineaarisen mallin perusteita

9. Muita koeasetelmia. Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9.1 Hierarkiset asetelmat (Nested Designs)

Perusnäkymä yksisuuntaiseen ANOVAaan

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

Statistical design. Tuomas Selander

SÄÄTÖJÄRJESTELMIEN SUUNNITTELU

MTTTP5, luento Luottamusväli, määritelmä

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Identifiointiprosessi

Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

TKMS7a-f/LRS20a-f/MAS2/KVS2/TMS82a-f/JOM/TJM/YRM Monimuuttujamenetelmien soveltaminen taloustieteissä. Tentti

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Jarkko Isotalo. Johdatus yleistettyihin lineaarisiin malleihin

Graph. COMPUTE x=rv.normal(0,0.04). COMPUTE y=rv.normal(0,0.04). execute.

Parametrin estimointi ja bootstrap-otanta

ABHELSINKI UNIVERSITY OF TECHNOLOGY

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

KLIINISTEN TUTKIMUSTEN SUUNNITTELU JA KOEASETELMAT. Vesa Kiviniemi (FL) Itä-Suomen yliopisto


UEF Statistics Teaching Bulletin, Fall 2017

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

Logistinen regressio, separoivat hypertasot

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Yleinen lineaarinen malli

Harjoitus 3: Regressiomallit (Matlab)

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

E80. Data Uncertainty, Data Fitting, Error Propagation. Jan. 23, 2014 Jon Roberts. Experimental Engineering

Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). tulee katettua (complete replicate). Havaintojen

Viherseinien efekti Tilastoanalyysi

Frequencies. Frequency Table

Transkriptio:

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 4: Asetelmaperusteinen monimuuttuja-analyysi Risto Lehtonen risto.lehtonen@helsini.fi Analyysimenetelmiä ja työaluja Lineaariset mallit Regressioanalyysi Varianssianalyysi ANOVA (Analysis of Variance) Kovarianssianalyysi ANCOVA Yleistetyt lineaariset mallit Logistiset mallit Poisson-mallit YHTEENVETOTAULUKKO Risto Lehtonen 2 1

ESIMERKKI Moniulotteisten frevenssitaulujen analyysi Asetelmaperusteinen logit-anova Moniulotteinen i frevenssitaulu Usean muuttujan avulla muodostettu moniulotteinen frevenssitaulu: Epäsymmetrinen tilanne Ysi disreetti tulosmuuttuja - Binäärinen (0 / 1) - Moniluoainen i (>2 luoaa) Useita disreettejä selittäjiä Tulosmuuttujan ja selittäjien riippuvuusraenteen mallintaminen logististen mallien avulla Risto Lehtonen 3 Asetelmaperusteinen analyysi logitmalleilla SAS-proseduuri SURVEYLOGISTIC Logistinen malli: Yleistettyjen lineaaristen mallien perheen jäsen Generalized linear models Binäärinen (0 / 1) tulosmuuttuja Moniluoainen tulosmuuttuja - Nominaalinen (laatueroasteio) (A / B / C / ) - Odi Ordinaalinen (jäj (järjestysasteio) )(1/2/3/ / / ) Otanta-asetelman ominaisuudet Ositus STRATA-lause Ryvästys CLUSTER-lause Painotus WEIGHT-lause Risto Lehtonen 4 2

Logit-ANOVA-mallit Logit-ANOVA-mallit Ysinertaisin tilanne Binäärinen (0/1) tulosmuuttuja ESIMERKKI: OHC-aineisto Tulosmuuttuja y: PSYCH2 1 - esimääräistä vaavampi psyyinen rasittuneisuus 0 - esimääräistä lievempi psyyinen rasittuneisuus Risto Lehtonen 5 Logit-ANOVA-mallit Disreetit selittäjät (x-muuttujat): Suupuoli SEX (M/F) Iä AGE2 (-44/45-) Työn fysiaaliset haitat PHYS (0/1) Table 8.2 Lehtonen&Pahinen (2004) Tauluossa on 8 osajouoa Tavoite: Tutitaan, missä määrin ja miten tulosmuuttujan tt PSYCH2 osuudet vaihtelevat t selittäjämuuttujien muaan Table 8.4 Lehtonen and Pahinen (2004) Tuloset Risto Lehtonen 6 3

OHC-survey: Frevenssiaineisto (Lehtonen&Pahinen 2004) Logit-ANOVA Table 8.2 Proportion p of persons in the upper psychic strain group, with standard error estimates s.e and design-effect estimates deff of the proportions, and domain sample sizes n and the number of sample clusters m (the OHC Survey). Domain SEX AGE PHYS p s.e deff n m 1 Males 44 0 0.419 0.0128 1.16 1734 230 2 1 0.472 0.0145 1.33 1578 198 3 45 0 0.461 0.0178 0.88 690 186 4 1 0.520 0.0247 1.18 483 138 5 Females 44 0 0.541 0.0125 1.23 1966 240 6 1 0.620 0.0270 1.38 447 152 7 45 0 0.532 0.0236 1.65 740 185 8 1 0.700 0.0391 1.48 203 101 All 0.500 0.0073 1.69 7841 250 Risto Lehtonen 7 Risto Lehtonen 8 4

Tilastollinen malli Logitmalli (logistinen malli) Tulosmuuttuja y aliolle y : y = 1 jos tutittava ilmiö tapahtuu y = 0 muulloin Tilastollinen malli: exp( x β) Em( y) = P{ y = 1} = 1+ exp( x β) missä x = (1, x1,..., x p) on selittävien muuttujien arvojen vetori aliolle = 0 1 β ( β, β,..., β ) on estimoitavien parametrien vetori p Risto Lehtonen 9 Tilastollinen malli Logitmalli (logistinen malli) Logitmalli Vaihtoehtoinen muoto Ysinertainen tilanne: Ysi selittävä muuttuja x y logit( y ) = log = x β = β + β x 1 0 1 1 y missä β 0 on mallin vaiotermi (intercept) β on ulmaerroin (slope) 1 Risto Lehtonen 10 5

ESIMERKKI Kiinteiden teijöiden logitmalli y logit( y) = log = x β = β0 + β1x1 1 y missä β 0 on mallin iinteä vaiotermi (intercept) β on ulmaerroin (slope) 1 Monitasomalli (seamalli) y logit( y u) = log = β0 + u0d + β1x1 1 y missä u 0d on satunnainen vaiotermi (random intercept) Risto Lehtonen 11 Logitmallin parametrien asetelmaperusteinen estimointi GWLS-estimointi ei-iteratiivinen menetelmä Painotettu PNS Generalized weighted least squares PML-estimointi yleisimmin äytetty menetelmä Pseudo-usottavuus Pseudo maximum lielihood Iteratiivinen menetelmä SAS/SURVEYLOGISTIC, GENMOD, ym. Risto Lehtonen 12 6

Logitmallin parametrien asetelmaperusteinen estimointi GEE-estimointi vaihtoehto PML- menetelmälle Yleistetyt estimointiyhtälöt Generalized estimating equations SAS/GENMOD (malliperusteinen) Risto Lehtonen 13 Asetelmaperusteinen Waldin testisuure ˆ 2 β 2 j Χ des( β j ) =, j = 1,..., p + 1 ( ˆ β ) v des j 2 joa on asymptoottisesti χ -jaautunut vapausastein df=1 Termi ˆj β on estimoitu logit-regressioerroin (esim. PML) Termi v ( βˆ ) on asetelmaperusteisesti estimoitu varianssi des j (esim. linearisointimenetelmä, jacnife, bootstrap) βˆ β j Vastaava t-testisuure t des( β j ) = s.e ( ˆ des β j ) on Waldin testisuureen merinen neliöjuuri Risto Lehtonen 14 7

Logit ANOVA: Teninen tarastelu Logitmallin parametrien estimointimenetelmät GWLS PML GEE Lasentatyöalut SAS / IML SAS / SURVEYLOGISTIC EXAMPLE 8.1 (Lehtonen-Pahinen 2004) Diat 5b Risto Lehtonen 15 Logit ANOVA, tilastometodinen uvaus Lehtonen&Pahinen (2004) 8.3 ANALYSIS OF CATEGORICAL DATA Design-based GWLS Estimation Goodness of Fit and Related Tests Unstable Situations Residual Analysis Design Effect Estimation Example 8.1 Risto Lehtonen 16 8

Logit ANCOVA, tilastometodinen uvaus Lehtonen&Pahinen (2004) 8.4 LOGISTIC AND LINEAR REGRESSION Design-based and Binomial PML Methods Logistic Regression Example 8.2 Risto Lehtonen 17 ESIMERKKI Lehtonen&Pahinen (2004) Example 8.2 Asetelmaperusteinen logistinen ANCOVA OHC Survey Ositettu ryväsotanta-asetelma H= 5 ositetta m= 250 toimipaiaa (otosryvästä) n = 7841 otoshenilöä Risto Lehtonen 18 9

Asetelmaperusteinen logistinen ANCOVA Binäärinen tulosmuuttuja: PSYCH2 Psyyinen rasittuneisuus 0: Lievä (alle mediaanin) 1: Vaava (yli mediaanin) Disreetti selittäjä Suupuoli SEX (M/F) Jatuva selittäjä Iä AGE (vuosina) Binääriset selittäjät Työn fysiaaliset haitat: PHYS (0/1) Pitäaiaissairastavuus: CHRON (0/1) Risto Lehtonen 19 Tilastollinen malli Logit-ANCOVA-malli logit(p) = INTERCEPT + SEX + AGE + PHYS + CHRON + SEX*AGE + SEX*PHYS + SEX*CHRON missä P = Prob(Psych2 = 1 X) Tuntematon osuusparametri Todennäöisyys uulua vaavamman psyyisen rasittuneisuuden luoaan Risto Lehtonen 20 10

Tilastollinen malli Mallin parametrivetorin estimointi PML-estimointi Pseudolielihood SAS/SURVEYLOGISTIC Lopullinen redusoitu malli: logit(p) = INTERCEPT + SEX + AGE + PHYS + CHRON + SEX*AGE Risto Lehtonen 21 SAS Procedure SURVEYLOGISTIC proc surveylogistic data=ohc; strata stratum; cluster ryvas; class sex / param=ref; model psych2(event=last) = sex age phys chron sex*age / lin=logit rsquare; run; Risto Lehtonen 22 11

Lehtonen & Pahinen (2004) Table 8.8 Risto Lehtonen 23 Suhteellinen risi Odds Ratio OR Suupuoli-iävaioitu suhteellinen risi Odds Ratio, OR (asetelmaperusteinen 95% luottamusväli): OR(PHYS) = 1.32 (1.17, 1.48) OR(CHRON) = 1.76 (1.57, 1.97) Risto Lehtonen 24 12

Risto Lehtonen 25 VLISS Virtual Laboratory in Survey Sampling Practical Methods for Design and Analysis of Complex Surveys. Risto Lehtonen and Eri Pahinen TRAINING KEY 288: Logistic ANCOVA In Training Key 288, logistic analysis of covariance (ANCOVA) is demonstrated for a binary response variable and the results of Example 8.2 are reproduced. Pseudolielihood (PML) estimation is used for the OHC Survey data set, accounting for the sampling complexities. An option is provided for a detailed examination of the role of interaction effects in a logistic ANCOVA model. 26 21.10.2008 Risto Lehtone 13