(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

Samankaltaiset tiedostot
805306A Johdatus monimuuttujamenetelmiin, 5 op

pisteet Frekvenssi frekvenssi Yhteensä

Opiskelija viipymisaika pistemäärä

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Suhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Kansallinen LIIKUNTATUTKIMUS

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

805306A Johdatus monimuuttujamenetelmiin, 5 op

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Harjoitukset 4 : Paneelidata (Palautus )

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Kvantitatiiviset menetelmät

Hirsitaloasukkaiden terveys ja

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Facebookin käyttäjien iän, sukupuolen ja asuinpaikan vaikutus. matkailumotivaatioihin ja aktiviteetteihin Juho Pesonen

Miten se meitä liikuttaa? Suomalaisten liikunta- ja urheiluharrastukset Päivi Berg

Viherseinien efekti Tilastoanalyysi


Yleistetyistä lineaarisista malleista

Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

Mat Tilastollisen analyysin perusteet, kevät 2007

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet

Hyvinvointikysely 2017 Yläkoulu ja toinen aste Joensuun kaupunki

Käsityön Tutkimushanke Vanhempien käsityksiä 7.-luokkalaisten käsityön opiskelusta

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Turvaa tulevaisuutesi liikkumalla Tapaturmapäivä

Alakoululaisten hyvinvointikysely 2017 Joensuun kaupunki

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

805306A Johdatus monimuuttujamenetelmiin, 5 op

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Logistinen regressio, separoivat hypertasot

1. Tietokoneharjoitukset

Liito-oravan elinympäristöjen mallittaminen Tampereen seudulla

MITÄ VOIMME OPPIA KANSALAISKYSELYSTÄ?

ENNUSTAVATKO MOTORISET TAIDOT JA LIIKUNNALLISET LEIKIT LAPSUUDESSA LIIKUNTA-AKTIIVISUUTTA JA KESTÄVYYSKUNTOA NUORUUDESSA?

Kuvio 1. Matematiikan seuranta-arvioinnin kaikkien tehtävien yhteenlaskkettu pistejakauma

SHKY Laske+elijatutkimus. Toukokuu 2016

Tilastollisen tutkimuksen vaiheet

Päivähoidon asiakaskysely 2017 Joensuun kaupunki

Taulukko 87b/1. Tarve käyttää rahaa pelaamiseen yhä enemmän opiskelun keston, opiskelupaikkakunnan ja koulutusalan mukaan (%) (YO)

ALAKOULUN VIIDENNEN LUOKAN OPPILAIDEN HYVINVOINTI LÄNSI- JA KESKI-UUDENMAAN NELJÄSSÄ KUNNASSA SYYSLUKUKAUDELLA 2010

Regressioanalyysi. Vilkkumaa / Kuusinen 1

MONISTE 2 Kirjoittanut Elina Katainen

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

Usean selittävän muuttujan regressioanalyysi

, c) x = 0 tai x = 2. = x 3. 9 = 2 3, = eli kun x = 5 tai x = 1. Näistä

Tutkimustiedonhallinnan peruskurssi

Harjoitus 3: Regressiomallit (Matlab)

Harjoitus 7: NCSS - Tilastollinen analyysi

Kyselytutkimus suomalaisten näkemyksistä uhanalaisiin kaloihin, särkikaloihin ja kalan ympäristösertifiointiin

Johdatus regressioanalyysiin. Heliövaara 1

Ulkona liikkumista houkuttelevien ja estävien ympäristötekijöiden yhteydet kävelymodifikaatioihin kotona-asuvilla iäkkäillä ihmisillä

Hyväksyttekö, että lehdellä on julkihomo tai -lesbo päätoimittaja?

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

1. Tässä tehtävässä päätellään kaksilapsisen perheen lapsiin liittyviä todennäköisyyksiä.

Segregaation eri ilmenemismuodot ja sukupuolten palkkaerot

Suosituimmat liikuntalajit Suomessa vuosina vuotiaiden harrastajien lukumäärät

Harjoitus 3: Regressiomallit (Matlab)

Tilastollisia peruskäsitteitä ja Monte Carlo

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä

Dynaamiset regressiomallit

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

SHKY Laske+elijatutkimus. Toukokuu 2016

PISA 2012 ENSITULOKSIA Pekka Kupari Jouni Välijärvi Koulutuksen tutkimuslaitos Jyväskylän yliopisto

805305A JOHDATUS REGRESSIO- JA VARIANSSIANALYYSIIN, sl 2017

TAPAUS-VERROKKITUTKIMUS

Todennäköisyyden ominaisuuksia

Liikuntajärjestöjen rooli terveyden edistämisessä ja lihavuuden ehkäisyssä

Kansallispuistojen luokitus

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Esimerkki 1: auringonkukan kasvun kuvailu

Taulukko 122b/1. Omien lasten lukumäärä opiskelun keston, opiskelupaikkakunnan ja koulutusalan mukaan (%) (YO)

Helsinkiläisten toimeentulotuen asiakkaiden terveyspalvelujen käyttö v. 2014

kaupungit <- read.table(" header=true)

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Nuorten aikuisten suhde uskontoon muuttuu entistä herkemmin

Harjoitus 9: Excel - Tilastollinen analyysi

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

(b) Testaa valmistajan väitettä komponenttien keskimääräisestä 40 viikon elinajasta normaalijakaumamallin puitteissa (yhden otoksen t-testi).

Korrelaatiokertoinen määrittely 165

Kouluyhteisö liikunnallisuuden turvaajana. Minna Paajanen valtion liikuntaneuvoston pääsihteeri

Epävarmuuden hallinta bootstrap-menetelmillä

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

LASTEN JA NUORTEN VAPAA-AIKATUTKIMUS 2018:

Transkriptio:

Oulun yliopiston matemaattisten tieteiden tutkimusyksikkö/tilastotiede 805306A JOHDATUS MONIMUUTTUJAMENETELMIIN, sl 2017 (Jari Päkkilä) Harjoitus 3, viikko 47 (19.20.11.): kotitehtävät Ratkaisuja 1. Floridan monimurhasyyteaineisto. Merkitään 1, syytetty on saanut kuolemantuomion Y = 0, syytetty ei ole saanut kuolemantuomiota (a) Vedonlyöntikerroin ω tapahtumalle Y = 1 on ω = π, missä π = P (Y = 1). 1 π Todennäköisyys tapahtumalle Y = 1 : π = P (Y = 1) = 68/674 0.1009. Vedonlyöntikerroin tapahtumalle Y = 1 : ω = π 1 π = 68/674 1 68/674 0.1122. (b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa. Syytetyn ihonväri valkoinen: Vedonlyöntikerroin tapahtumalle Y = 1 : ω 0 = π 0 1 π 0 = 53/(467+16) 1 53/(467+16) 0.1233. Syytetyn ihonväri musta: Vedonlyöntikerroin tapahtumalle Y = 1 : ω 1 = π 1 1 π 1 = (11+4)/(48+143) 1 (11+4)/(48+143) 0.0852. Vedonlyöntikertoimien suhde OR = ω 1 ω 0 0.0852 0.1233 0.691. Aineistosta laskettu OR-tunnusluvun arvo (piste-estimaatti) on pienempi kuin yksi, joka viittaa siihen, että mustaihoisilla syytetyillä on pienempi riski kuolemantuomion saamiselle kuin valkoihoisilla. Tulos on etukäteisodotukseen nähden yllättävä? Ero ryhmien välillä ei näyttäisi olevan kuitenkaan tilastollisesti merkitsevä, koska OR:n 95 %:n luottamusväli (0.380, 1.259) pitää sisällään ykkösen. (c) Mallissa ln ( π 1 π) = β0 + β 1 X 1, missä X 1 = syytetyn ihonväri, e β 1 kuvaa vastetapahtumaan Y = 1 liittyvien vedonlyöntikertoimien suhdetta eli OR:ää tilanteiden syytetty mustaihoinen ja syytetty valkoihoinen välillä. Nyt e β 1 0.691 β 1 ln(0.691) 0.370. (d) Estimaatti kuolemantuomion saamiselle, kun syytetyn ihonväri on valkoinen. P (Y = e β 0 + β 1 X 1 1 X 1 = 0) = 1 + e β 0 + β 1 X 1 = e 2.094 0.370 0 1 + e 2.094 0.370 0 = e 2.094 1 + e 2.094 0.110. Huom.: Havaintoaineistossa valkoihoisen syytetyn tapauksissa ( n = 483) kuolemantuomio annettiin 53 kertaa: 53/483 0.110. Lasketut kaksi lukua ovat siis yhtä suuret!

2. R:n logistinen regressio: > malli <- glm(tuomio ~ uhri, family=binomial(link=logit)) > round(ci.lin(malli, Exp=TRUE),4) Estimate StdErr z P exp(est.) 2.5% 97.5% (Intercept) -1.953 0.1336-14.618 0.0000 0.1419 0.1092 0.1844 uhri musta -1.704 0.5237-3.255 0.0011 0.1819 0.0652 0.5076 (a) Regressiokertoimen β 1 estimaatti on -1.704 ja OR:n estimaatti on 0.1819. OR kuvaa vastetapahtumaan Y = 1 liittyvien vedonlyöntikertoimien suhdetta eli OR:ää tilanteiden uhri mustaihoinen ja uhri valkoihoinen välillä. Piste-estimaattien perusteella kuolemantuomion saamisen riski näyttäisi olevan suurempi uhrin ollessa valkoihoinen kuin uhrin ollessa mustaihoinen. OR:n 95 %:n luottamusväli on (0.0652, 0.5076). Vertailuryhmien välinen ero on aineiston perusteella tilastollisesti merkitsevä, sillä ykkönen jää selvästi luottamusvälin ulkopuolelle. Tulos on etukäteisodotuksen mukainen. (b) Riskisuhde RR. RR = P (Y = 1 X = 1) P (Y = 1 X = 0) = 4/(16 + 143) (53 + 11)/(467 + 48) 0.2024. OR ja RR ovat nyt suhteellisen lähellä toisiaan, koska vastetapahtuma Y = 1 on kohtalaisen harvinainen kummassakin vertailuryhmässä. (c) Estimaatti kuolemantuomion saamiselle, kun uhrin ihonväri on musta. P (Y = e β 0 + β 1 X 1 1 X 1 = 1) = 1 + e β 0 + β 1 X 1 = e 1.953 1.704 1 1 + e 1.953 1.704 1 = e 1.953 1.704 1 + e 1.953 1.704 0.025. Havaintoaineistossa mustaihoisen uhrin tapauksissa (n = 159) kuolemantuomio annettiin neljä kertaa: 4/159 0.025. Lasketut kaksi lukua ovat siis yhtä suuret! 3. Logistinen regressioanalyysi ln ( π 1 π) = β0 + β 1 X 1 + β 2 X 2, missä X 1 = syytetyn ihonväri ja X 2 = uhrin ihonväri. > malli2 <- glm(tuomio ~ syytetty + uhri, family=binomial(link=logit)) > round(ci.lin(malli2, Exp=FALSE),4) Estimate StdErr z P 2.5% 97.5% (Intercept) -2.0595 0.1458-14.121 0.0000-2.3453-1.774 syytetty musta 0.8678 0.3671 2.364 0.0181 0.1483 1.587 uhri musta -2.4044 0.6006-4.003 0.0001-3.5816-1.227 (a) e 0.8678 2.382 ja e 2.4044 0.0903

e 0.8678 :n tulkinta: Kuolemantuomion saamisen vedonlyöntikerroin on noin 2.4-kertainen tilanteessa, jossa syytetyn ihonväri on musta verrattuna tilanteeseen, jossa syytetyn ihonväri on valkoinen. Ryhmien vertailu on vakioitu uhrin ihonvärin suhteen. e 2.4044 :n tulkinta: Kuolemantuomion saamisen vedonlyöntikerroin on noin 0.09-kertainen tilanteessa, jossa uhrin ihonväri on musta verrattuna tilanteeseen, jossa uhrin ihonväri on valkoinen. Ryhmien vertailu on vakioitu syytetyn ihonvärin suhteen. (b) Kertoimen β 1 95 %:n luottamusväli on (0.1483, 1.587) ja kertoimen β 2 luottamusväli on ( 3.5816, 1.227). Kumpikaan luottamusväli ei sisällä nollaa, joten kumpikin selittäjä on tilastollisesti merkitsevä selittäjä vasteelle. Kertoimiin liittyvien OR-tunnuslukujen 95 % luottamusvälit ovat puolestaan (e 0.1483, e 1.587 ) = (1.16, 4.89) ja (e 3.5816, e 1.227 ) = (0.028, 0.29) eli ne eivät sisällä ykköstä. Kahden selittäjän mallin perusteella tehtävät johtopäätökset ovat nyt erilaiset kuin marginaalimallien eli yhden selittäjän mallien perusteella tehdyt johtopäätökset. Kahden selittäjän malli antaa realistisemman kuvan todellisesta tilanteesta. 4. Suomalaisten 318 vuotiaiden liikuntatutkimus. > str(liikunta) 'data.frame': 5505 obs. of 4 variables: $ runsasliikunta: Factor w/ 2 levels " Ei"," Kyllä": 1 1 1 1 1 1 1 1 1 1... $ laani : Factor w/ 5 levels " Etelä-Suomi",..: 3 2 5 2 1 1 1 2 1 5... $ ika : num 3 8 5 8 16 3 7 5 4 8... $ sukup : Factor w/ 2 levels " Tyttö"," Poika": 2 2 1 1 2 1 2 1 1 1... > summary(liikunta) runsasliikunta laani ika sukup Ei :3823 Etelä-Suomi:2232 Min. : 3.0 Tyttö:2749 Kyllä:1187 Länsi-Suomi:1980 1st Qu.: 7.0 Poika:2756 NA's : 495 Itä-Suomi : 600 Median :11.0 Oulun lääni: 483 Mean :10.8 Lapin lääni: 200 3rd Qu.:15.0 NA's : 10 Max. :18.0 (a) Aineistoon on sovitettu logistinen regressiomalli, jossa vasteena on ollut runsas liikunnan harrastaminen (vähintään 6 krt viikossa) ja selittäjinä 318 -vuotiaan asuinlääni, sukupuoli ja ikä. Mallissa ikä on jatkuva muuttuja, kun taas lääni ja sukupuoli ovat faktoroituja muuttujia. Faktorimuuttujia varten käytössä ova seuraavat dummy-muuttujat: Lääni: 1, kun kotilääni on Etelä-Suomen lääni X 10 = 0, kun kotilääni ei ole Etelä-Suomen lääni 1, kun kotilääni on Länsi-Suomen lääni X 11 = 0, kun kotilääni ei ole Länsi-Suomen lääni 1, kun kotilääni on Itä-Suomen lääni X 12 = 0, kun kotilääni ei ole Itä-Suomen lääni

1, kun kotilääni on Oulun lääni X 13 = 0, kun kotilääni ei ole Oulun lääni 1, kun kotilääni on Lapin lääni X 14 = 0, kun kotilääni ei ole Lapin lääni Mallituksessa näistä muuttujista käytetään selittäjinä muuttujia X 11, X 12, X 13 ja X 14 Etelä-Suomen toimiessa tämän muuttujan kohdalla vertailuluokkana. Sukupuoli: 1, kun sukupuoli on tyttö X 20 = 0, kun sukupuoli ei ole tyttö 1, kun sukupuoli on poika X 21 = 0, kun sukupuoli ei ole poika Mallituksessa näistä muuttujista käytetään selittäjinä muuttujaa X 21 tyttöjen toimiessa vertailuluokkana. (b) Analyysin tulokset: > malli3 <- glm(runsasliikunta ~ laani + sukup + ika, family=binomial(link=logit)) > round(ci.lin(malli3, Exp=TRUE),4) Estimate StdErr z P exp(est.) 2.5% 97.5% (Intercept) -0.5428 0.0996-5.4521 0.0000 0.5811 0.4781 0.7063 laani Länsi-Suomi 0.0255 0.0773 0.3293 0.7419 1.0258 0.8816 1.1936 laani Itä-Suomi 0.1069 0.1155 0.9255 0.3547 1.1128 0.8874 1.3954 laani Oulun lääni 0.1206 0.1238 0.9742 0.3299 1.1282 0.8851 1.4380 laani Lapin lääni 0.2724 0.1749 1.5574 0.1194 1.3131 0.9320 1.8499 sukup Poika 0.2447 0.0674 3.6287 0.0003 1.2773 1.1191 1.4578 ika -0.0761 0.0078-9.8101 0.0000 0.9268 0.9128 0.9410 Voidaanko mallituksen tulosten perusteella sanoa runsaan liikunnan harrastuksen olevan yhtä yleistä (b1) maan eri osien (vanhojen läänien) välillä? Mallissa muiden läänien tilannetta vertaillaan Etelä-Suomeen. Kaikissa parittaisissa vertailuissa (Länsi-Suomi vs. Etelä-Suomi, Itä-Suomi vs. Etelä-Suomi jne.) OR:en 95 % luottamusvälit pitävät sisällään ykkösen, joten eroa ei näyttäisi olevan. (b2) eri sukupuolten välillä? Mallissa poikien tilannetta vertaillaan tyttöjen tilanteeseen. OR:n estimaatti on 1.28 ja 95 % luottamusväli on (1.12, 1.46). Pojat näyttäisivät siis harrastavan runsasta liikuntaa tyttöjä useammin. (b3) eri ikäisten välillä? Ikään liittyvä OR:n piste-estimaatti on 0.93 ja 95 % luottamusväli on (0.91, 0.94). Runsaan liikunnan harrastaminen näyttäisi siis vähenevän iän lisääntymisen myötä.

(c) Estimaatti runsaan liikunnan harrastamisen todennäköisyydelle, kun vasteen kohtaamisen todennäköisyyttä ennustetaan (c1) entisessä Etelä-Suomen läänissä asuvalle 13-vuotiaalle tytölle: P (Y e β 0 + β 3 X 3 = 1 X) = 1 + e β 0 + β 3 X 3 = e 0.5428 0.0761 13 1 + e 0.5428 0.0761 13 = 0.178. (c2) entisessä Oulun läänissä asuvalle 10-vuotiaalle pojalle: P (Y e β 0 + β 13 X 13 + β 21 X 21 + β 3 X 3 = 1 X) = 1 + e β 0 + β 13 X 13 + β 21 X 21 + β 3 X 3 = e 0.5428+0.1206 1+0.2447 1 0.0761 10 1 + e 0.5428+0.1206 1+0.2447 1 0.0761 10 = 0.281