Oulun yliopiston matemaattisten tieteiden tutkimusyksikkö/tilastotiede 805306A JOHDATUS MONIMUUTTUJAMENETELMIIN, sl 2017 (Jari Päkkilä) Harjoitus 3, viikko 47 (19.20.11.): kotitehtävät Ratkaisuja 1. Floridan monimurhasyyteaineisto. Merkitään 1, syytetty on saanut kuolemantuomion Y = 0, syytetty ei ole saanut kuolemantuomiota (a) Vedonlyöntikerroin ω tapahtumalle Y = 1 on ω = π, missä π = P (Y = 1). 1 π Todennäköisyys tapahtumalle Y = 1 : π = P (Y = 1) = 68/674 0.1009. Vedonlyöntikerroin tapahtumalle Y = 1 : ω = π 1 π = 68/674 1 68/674 0.1122. (b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa. Syytetyn ihonväri valkoinen: Vedonlyöntikerroin tapahtumalle Y = 1 : ω 0 = π 0 1 π 0 = 53/(467+16) 1 53/(467+16) 0.1233. Syytetyn ihonväri musta: Vedonlyöntikerroin tapahtumalle Y = 1 : ω 1 = π 1 1 π 1 = (11+4)/(48+143) 1 (11+4)/(48+143) 0.0852. Vedonlyöntikertoimien suhde OR = ω 1 ω 0 0.0852 0.1233 0.691. Aineistosta laskettu OR-tunnusluvun arvo (piste-estimaatti) on pienempi kuin yksi, joka viittaa siihen, että mustaihoisilla syytetyillä on pienempi riski kuolemantuomion saamiselle kuin valkoihoisilla. Tulos on etukäteisodotukseen nähden yllättävä? Ero ryhmien välillä ei näyttäisi olevan kuitenkaan tilastollisesti merkitsevä, koska OR:n 95 %:n luottamusväli (0.380, 1.259) pitää sisällään ykkösen. (c) Mallissa ln ( π 1 π) = β0 + β 1 X 1, missä X 1 = syytetyn ihonväri, e β 1 kuvaa vastetapahtumaan Y = 1 liittyvien vedonlyöntikertoimien suhdetta eli OR:ää tilanteiden syytetty mustaihoinen ja syytetty valkoihoinen välillä. Nyt e β 1 0.691 β 1 ln(0.691) 0.370. (d) Estimaatti kuolemantuomion saamiselle, kun syytetyn ihonväri on valkoinen. P (Y = e β 0 + β 1 X 1 1 X 1 = 0) = 1 + e β 0 + β 1 X 1 = e 2.094 0.370 0 1 + e 2.094 0.370 0 = e 2.094 1 + e 2.094 0.110. Huom.: Havaintoaineistossa valkoihoisen syytetyn tapauksissa ( n = 483) kuolemantuomio annettiin 53 kertaa: 53/483 0.110. Lasketut kaksi lukua ovat siis yhtä suuret!
2. R:n logistinen regressio: > malli <- glm(tuomio ~ uhri, family=binomial(link=logit)) > round(ci.lin(malli, Exp=TRUE),4) Estimate StdErr z P exp(est.) 2.5% 97.5% (Intercept) -1.953 0.1336-14.618 0.0000 0.1419 0.1092 0.1844 uhri musta -1.704 0.5237-3.255 0.0011 0.1819 0.0652 0.5076 (a) Regressiokertoimen β 1 estimaatti on -1.704 ja OR:n estimaatti on 0.1819. OR kuvaa vastetapahtumaan Y = 1 liittyvien vedonlyöntikertoimien suhdetta eli OR:ää tilanteiden uhri mustaihoinen ja uhri valkoihoinen välillä. Piste-estimaattien perusteella kuolemantuomion saamisen riski näyttäisi olevan suurempi uhrin ollessa valkoihoinen kuin uhrin ollessa mustaihoinen. OR:n 95 %:n luottamusväli on (0.0652, 0.5076). Vertailuryhmien välinen ero on aineiston perusteella tilastollisesti merkitsevä, sillä ykkönen jää selvästi luottamusvälin ulkopuolelle. Tulos on etukäteisodotuksen mukainen. (b) Riskisuhde RR. RR = P (Y = 1 X = 1) P (Y = 1 X = 0) = 4/(16 + 143) (53 + 11)/(467 + 48) 0.2024. OR ja RR ovat nyt suhteellisen lähellä toisiaan, koska vastetapahtuma Y = 1 on kohtalaisen harvinainen kummassakin vertailuryhmässä. (c) Estimaatti kuolemantuomion saamiselle, kun uhrin ihonväri on musta. P (Y = e β 0 + β 1 X 1 1 X 1 = 1) = 1 + e β 0 + β 1 X 1 = e 1.953 1.704 1 1 + e 1.953 1.704 1 = e 1.953 1.704 1 + e 1.953 1.704 0.025. Havaintoaineistossa mustaihoisen uhrin tapauksissa (n = 159) kuolemantuomio annettiin neljä kertaa: 4/159 0.025. Lasketut kaksi lukua ovat siis yhtä suuret! 3. Logistinen regressioanalyysi ln ( π 1 π) = β0 + β 1 X 1 + β 2 X 2, missä X 1 = syytetyn ihonväri ja X 2 = uhrin ihonväri. > malli2 <- glm(tuomio ~ syytetty + uhri, family=binomial(link=logit)) > round(ci.lin(malli2, Exp=FALSE),4) Estimate StdErr z P 2.5% 97.5% (Intercept) -2.0595 0.1458-14.121 0.0000-2.3453-1.774 syytetty musta 0.8678 0.3671 2.364 0.0181 0.1483 1.587 uhri musta -2.4044 0.6006-4.003 0.0001-3.5816-1.227 (a) e 0.8678 2.382 ja e 2.4044 0.0903
e 0.8678 :n tulkinta: Kuolemantuomion saamisen vedonlyöntikerroin on noin 2.4-kertainen tilanteessa, jossa syytetyn ihonväri on musta verrattuna tilanteeseen, jossa syytetyn ihonväri on valkoinen. Ryhmien vertailu on vakioitu uhrin ihonvärin suhteen. e 2.4044 :n tulkinta: Kuolemantuomion saamisen vedonlyöntikerroin on noin 0.09-kertainen tilanteessa, jossa uhrin ihonväri on musta verrattuna tilanteeseen, jossa uhrin ihonväri on valkoinen. Ryhmien vertailu on vakioitu syytetyn ihonvärin suhteen. (b) Kertoimen β 1 95 %:n luottamusväli on (0.1483, 1.587) ja kertoimen β 2 luottamusväli on ( 3.5816, 1.227). Kumpikaan luottamusväli ei sisällä nollaa, joten kumpikin selittäjä on tilastollisesti merkitsevä selittäjä vasteelle. Kertoimiin liittyvien OR-tunnuslukujen 95 % luottamusvälit ovat puolestaan (e 0.1483, e 1.587 ) = (1.16, 4.89) ja (e 3.5816, e 1.227 ) = (0.028, 0.29) eli ne eivät sisällä ykköstä. Kahden selittäjän mallin perusteella tehtävät johtopäätökset ovat nyt erilaiset kuin marginaalimallien eli yhden selittäjän mallien perusteella tehdyt johtopäätökset. Kahden selittäjän malli antaa realistisemman kuvan todellisesta tilanteesta. 4. Suomalaisten 318 vuotiaiden liikuntatutkimus. > str(liikunta) 'data.frame': 5505 obs. of 4 variables: $ runsasliikunta: Factor w/ 2 levels " Ei"," Kyllä": 1 1 1 1 1 1 1 1 1 1... $ laani : Factor w/ 5 levels " Etelä-Suomi",..: 3 2 5 2 1 1 1 2 1 5... $ ika : num 3 8 5 8 16 3 7 5 4 8... $ sukup : Factor w/ 2 levels " Tyttö"," Poika": 2 2 1 1 2 1 2 1 1 1... > summary(liikunta) runsasliikunta laani ika sukup Ei :3823 Etelä-Suomi:2232 Min. : 3.0 Tyttö:2749 Kyllä:1187 Länsi-Suomi:1980 1st Qu.: 7.0 Poika:2756 NA's : 495 Itä-Suomi : 600 Median :11.0 Oulun lääni: 483 Mean :10.8 Lapin lääni: 200 3rd Qu.:15.0 NA's : 10 Max. :18.0 (a) Aineistoon on sovitettu logistinen regressiomalli, jossa vasteena on ollut runsas liikunnan harrastaminen (vähintään 6 krt viikossa) ja selittäjinä 318 -vuotiaan asuinlääni, sukupuoli ja ikä. Mallissa ikä on jatkuva muuttuja, kun taas lääni ja sukupuoli ovat faktoroituja muuttujia. Faktorimuuttujia varten käytössä ova seuraavat dummy-muuttujat: Lääni: 1, kun kotilääni on Etelä-Suomen lääni X 10 = 0, kun kotilääni ei ole Etelä-Suomen lääni 1, kun kotilääni on Länsi-Suomen lääni X 11 = 0, kun kotilääni ei ole Länsi-Suomen lääni 1, kun kotilääni on Itä-Suomen lääni X 12 = 0, kun kotilääni ei ole Itä-Suomen lääni
1, kun kotilääni on Oulun lääni X 13 = 0, kun kotilääni ei ole Oulun lääni 1, kun kotilääni on Lapin lääni X 14 = 0, kun kotilääni ei ole Lapin lääni Mallituksessa näistä muuttujista käytetään selittäjinä muuttujia X 11, X 12, X 13 ja X 14 Etelä-Suomen toimiessa tämän muuttujan kohdalla vertailuluokkana. Sukupuoli: 1, kun sukupuoli on tyttö X 20 = 0, kun sukupuoli ei ole tyttö 1, kun sukupuoli on poika X 21 = 0, kun sukupuoli ei ole poika Mallituksessa näistä muuttujista käytetään selittäjinä muuttujaa X 21 tyttöjen toimiessa vertailuluokkana. (b) Analyysin tulokset: > malli3 <- glm(runsasliikunta ~ laani + sukup + ika, family=binomial(link=logit)) > round(ci.lin(malli3, Exp=TRUE),4) Estimate StdErr z P exp(est.) 2.5% 97.5% (Intercept) -0.5428 0.0996-5.4521 0.0000 0.5811 0.4781 0.7063 laani Länsi-Suomi 0.0255 0.0773 0.3293 0.7419 1.0258 0.8816 1.1936 laani Itä-Suomi 0.1069 0.1155 0.9255 0.3547 1.1128 0.8874 1.3954 laani Oulun lääni 0.1206 0.1238 0.9742 0.3299 1.1282 0.8851 1.4380 laani Lapin lääni 0.2724 0.1749 1.5574 0.1194 1.3131 0.9320 1.8499 sukup Poika 0.2447 0.0674 3.6287 0.0003 1.2773 1.1191 1.4578 ika -0.0761 0.0078-9.8101 0.0000 0.9268 0.9128 0.9410 Voidaanko mallituksen tulosten perusteella sanoa runsaan liikunnan harrastuksen olevan yhtä yleistä (b1) maan eri osien (vanhojen läänien) välillä? Mallissa muiden läänien tilannetta vertaillaan Etelä-Suomeen. Kaikissa parittaisissa vertailuissa (Länsi-Suomi vs. Etelä-Suomi, Itä-Suomi vs. Etelä-Suomi jne.) OR:en 95 % luottamusvälit pitävät sisällään ykkösen, joten eroa ei näyttäisi olevan. (b2) eri sukupuolten välillä? Mallissa poikien tilannetta vertaillaan tyttöjen tilanteeseen. OR:n estimaatti on 1.28 ja 95 % luottamusväli on (1.12, 1.46). Pojat näyttäisivät siis harrastavan runsasta liikuntaa tyttöjä useammin. (b3) eri ikäisten välillä? Ikään liittyvä OR:n piste-estimaatti on 0.93 ja 95 % luottamusväli on (0.91, 0.94). Runsaan liikunnan harrastaminen näyttäisi siis vähenevän iän lisääntymisen myötä.
(c) Estimaatti runsaan liikunnan harrastamisen todennäköisyydelle, kun vasteen kohtaamisen todennäköisyyttä ennustetaan (c1) entisessä Etelä-Suomen läänissä asuvalle 13-vuotiaalle tytölle: P (Y e β 0 + β 3 X 3 = 1 X) = 1 + e β 0 + β 3 X 3 = e 0.5428 0.0761 13 1 + e 0.5428 0.0761 13 = 0.178. (c2) entisessä Oulun läänissä asuvalle 10-vuotiaalle pojalle: P (Y e β 0 + β 13 X 13 + β 21 X 21 + β 3 X 3 = 1 X) = 1 + e β 0 + β 13 X 13 + β 21 X 21 + β 3 X 3 = e 0.5428+0.1206 1+0.2447 1 0.0761 10 1 + e 0.5428+0.1206 1+0.2447 1 0.0761 10 = 0.281