805306A Johdatus monimuuttujamenetelmiin, 5 op

Samankaltaiset tiedostot
(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op

1. Tilastollinen malli??

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Regressioanalyysi. Vilkkumaa / Kuusinen 1

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Sovellettu todennäköisyyslaskenta B

Yleistetyistä lineaarisista malleista

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

805306A Johdatus monimuuttujamenetelmiin, 5 op

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. Tutkitaan tavallista kahden selittäjän regressiomallia

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Dynaamiset regressiomallit

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

pisteet Frekvenssi frekvenssi Yhteensä

2. Uskottavuus ja informaatio

Mallipohjainen klusterointi

Maximum likelihood-estimointi Alkeet

Todennäköisyyden ominaisuuksia

ABHELSINKI UNIVERSITY OF TECHNOLOGY

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Väliestimointi (jatkoa) Heliövaara 1

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

Tilastollinen päättely, 10 op, 4 ov

Sovellettu todennäköisyyslaskenta B

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Tilastollisen analyysin perusteet, kevät 2007

1. TILASTOLLINEN HAHMONTUNNISTUS

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Sovellettu todennäköisyyslaskenta B

Mervi Virtanen Taustatekijöiden vaikutus mielipaikkaan liittyvien elpymistuntemusten kokemiseen, kumulatiivinen logistinen regressio

Harjoitus 7: NCSS - Tilastollinen analyysi

T Luonnollisten kielten tilastollinen käsittely

Load

Harjoitukset 4 : Paneelidata (Palautus )

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

5.7 Uskottavuusfunktioon perustuvia testejä II

Uskottavuusperusteisten luottamusvälien korjaaminen bootstrap-menetelmällä Pro gradu -esitelmä

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Logistinen regressio, separoivat hypertasot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Johdatus regressioanalyysiin. Heliövaara 1

HAVAITUT JA ODOTETUT FREKVENSSIT

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Jarkko Isotalo. Johdatus yleistettyihin lineaarisiin malleihin

805306A Johdatus monimuuttujamenetelmiin, 5 op

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

S Laskennallinen systeemibiologia

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Estimointi. Vilkkumaa / Kuusinen 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Korrelaatiokertoinen määrittely 165

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

Mikko Hietala Vakioitavien tekijöiden valinta lonkkamurtumapotilaiden hoitokäytäntöjen vertailussa

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Harjoitus 9: Excel - Tilastollinen analyysi

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

3.6 Su-estimaattorien asymptotiikka

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

10. laskuharjoituskierros, vko 14, ratkaisut

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

Transkriptio:

monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos

Logistinen regressioanalyysi Vastemuuttuja Y on luokiteltu muuttuja Pyritään mallittamaan havaintoyksikön todennäköisyyttä kuulua vastemuuttujan Y luokkaan k (luokkien lkm 2) Selittäjä(t) voivat olla joko luokiteltuja tai jatkuvia muuttujia Esimerkkejä dikotomisista eli kaksiarvoisista vasteista: Henkilöllä joko on tai ei ole luottohäiriömerkintä Laite joko vikaantuu tai ei vikaannu takuuaikana Henkilö joko sairastaa tai ei sairasta tautia A Oletetaan, että vastemuuttuja Y on dikotominen mahdollisina arvoinaan 0 ja 1 ja että P(Y = 1) = π, joten P(Y = 0) = 1 P(Y = 1) = 1 π monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 2 / 20

Ns. vedonlyöntikerroin ω, lyhyemmin veto (odds), tapahtumalle Y = 1 (tai tapahtuman puolesta) on: ω = P(Y = 1) P(Y = 1) = P(Y = 0) 1 P(Y = 1) = π 1 π Vedonlyöntikertoimen määritelmän perusteella tapahtuman Y = 1 todennäköisyys π voidaan esittää muodossa: ω = π 1 π π = ω ω + 1 Muuttujan Y mallituksen kannalta sekä P(Y = 1) että ω ovat jossain määrin ongelmallisia vaihteluväliensä takia. monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 3 / 20

Mallia rakennettaessa vasteena kannattaakin käyttää vedonlyöntikertoimen logaritmia ( ) π λ = ln(ω) = ln 1 π Ko. muunnos on nimeltään logit-muunnos (tai log-odds) ja tapahtuman Y = 1 todennäköisyys voidaan lausua muodossa π = eλ 1 + e λ = 1 = expit(λ) 1 + e λ Funktio expit: R ]0, 1[ on ns. logistisen jakauman kertymäfunktio. Kaksiarvoisen vasteen Y käsittelyssä on käyty edellä läpi seuraavat vaihtoehdot vasteen muotoilemiseksi: Muunnos Vaihteluväli Todennäköisyys P(Y = 1) (0, 1) π Vedonlyöntikerroin ( 1 π ) (0, ) π Logit-muunnos ln 1 π (, ) monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 4 / 20

Seuraava kuva havainnollistaa todennäköisyyden P(Y = 1) ja logit-muunnoksen välistä suhdetta: 4 ln(p(y=1) / (1 P(Y=1)) 2 0 2 4 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 P(Y=1) Logit-muunnos käyttäytyy siis mm. seuraavasti: kun π = 0.5 ω = 1 ln(ω) = 0 π < 0.5 ω < 1 ln(ω) < 0 π > 0.5 ω > 1 ln(ω) > 0 monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 5 / 20

Esimerkiksi, kun P(Y = 1) = 0.2, ω = π 1 π = 0.2 = 0.2 = 1 = 0.25 ja 1 0.2 0.8 4 ln(ω) = ln(0.25) 1.39 P(Y = 1) = 0.8, ω = π 1 π = 0.8 = 0.8 = 4.00 ja 1 0.8 0.2 ln(ω) = ln(4.00) 1.39 Huomaa, että yllä jälkimmäisessä tapauksessa vasteen välttämisen todennäköisyys P(Y = 0) on yhtä suuri kuin ensimmäisessä tapauksessa vasteen kohtaamisen todennäköisyys P(Y = 1). monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 6 / 20

Yhden selittäjän logistinen regressio Muodostetaan seuraavaksi logit-muunnokselle yhden selittävän muuttujan lineaarinen regressiomalli, joka on muotoa ( ) π ln = β 0 + β 1 X 1 π Tässä mallissa π = P(Y = 1 X ) eli parametrin π arvo riippuu selittäjästä X siten, että P(Y = 1 X ) = eβ 0+β 1 X 1 + e β 0+β 1 X Kertoimet β 0 ja β 1 ovat tuntemattomia ja ne täytyy estimoida havaintoaineiston perusteella. Estimointi tehdään suurimman uskottavuuden menetelmällä (engl. maximum likelihood). monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 7 / 20

Menetelmän perusideana on etsiä sellaiset tuntemattomien kertoimien (parametrien) arvot, jotka tuottavat suurimmalla tiheydellä (todennäköisyydellä) juuri ne muuttujan arvot, jotka todellisuudessa on havaittu. Tämä perusidea voidaan esittää ns. uskottavuusfunktion (engl. likelihood function) avulla: l(β 0, β 1 ) = i:y i =1 p(x i ) (1 p(xi )) i :y i =0 Kertoimien estimaatit β 0 and β 1 valitaan siten, että ne maksimoivat uskottavuusfunktion arvon. Tällä kurssilla suurimman uskottavuuden menetelmän matemaattisia ominaisuuksia ei käsitellä tarkemmin ja tuntemattomat kertoimet (parametrit) estimoidaan R-ohjelmalla. monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 8 / 20

Esimerkki yhden selittäjän mallista Eräässä lääkekokeessa tutkittiin uuden lääkeaineen vaikutusta kivun lievityksessä. Kokeeseen osallistui kaikkiaan 70 potilasta, joista 35 sai kivunlievitykseen uutta lääkettä loppujen 35 potilaan saadessa lumelääkettä. Kokeen lopputulokset olivat seuraavat: Lääkeryhmä Kivunlievitys Uusi lääke Lume Yhteensä Kyllä 22 15 37 Ei 13 20 33 Yhteensä 35 35 70 Toimiiko uusi lääke lumelääkettä paremmin kivunlievityksessä? monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 9 / 20

Määritellään aluksi vaste Y ja selittäjä X { 1, kun potilaan kipu lievittyi Y = 0, kun potilaan kipu ei lievittynyt ja X = { 1, kun potilaalla uusi lääkitys 0, kun potilaalla lumelääkitys Lasketaan analyysin aluksi lääke- ja lumeryhmissä laskettujen vedonlyöntikertoimien suhteen (odds ratio) OR arvo annetun ristiintaulukon perusteella. OR = ω 1 P(Y = 1 X = 1) / P(Y = 0 X = 1) = ω 0 P(Y = 1 X = 0) / P(Y = 0 X = 0) monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 10 / 20

Lääkeryhmä Kivunlievitys Uusi lääke Lume Yhteensä Kyllä 22 15 37 Ei 13 20 33 Yhteensä 35 35 70 OR = ω 1 ω 0 ω 1 = ω 0 = P(Y =1 X =1) P(Y =0 X =1) = 22/35 = 22 1.692 ja 13/35 13 P(Y =1 X =0) P(Y =0 X =0) = 15/35 20/35 = 15 20 = 0.750 OR 1.692/0.750 2.26 Lääkeryhmässä kivunlievityksen saamiselle on noin 2.26-kertainen vedonlyöntikerroin lumeryhmän vedonlyöntikertoimeen verrattuna monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 11 / 20

Jos kivunlievityksen saamisen todennäköisyys (π 1 ja π 0 ) olisi kummassakin ryhmässä pieni, pätisi likimain OR P(Y = 1 X = 1) P(Y = 1 X = 0) = π 1 π 0 = RR Tällöin OR voitaisiin tulkita samaan tapaan kuin ns. riskisuhde RR (= π 1 /π 0, risk ratio) Nyt riskisuhteen arvo RR = π 1 P(Y = 1 X = 1) = π 0 P(Y = 1 X = 0) = 22/35 15/35 1.47 poikkeaa melko paljon OR:stä, koska kummassakin ryhmässä vaste on yleinen. monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 12 / 20

Sovitetaan aineistoon seuraavaksi logistinen regressiomalli, joka on muotoa ( ) P(Y = 1 X ) ln = β 0 + β 1 X P(Y = 0 X ) Nyt ( ) Lääkeryhmässä X = 1: ln P(Y =1 X =1) P(Y =0 X=1) = β 0 + β 1 ( ) Lumeryhmässä X = 0: ln P(Y =1 X =0) P(Y =0 X=0) = β 0 ( ) ( ) P(Y = 1 X = 1) P(Y = 1 X = 0) ln ln = β 1 P(Y = 0 X = 1) P(Y = 0 X = 0) } {{ } =ω 1 ln( ω1 ω 0 ) = β 1 ω1 ω 0 = e β1 } {{ } =ω 0 Parametrin β 1 eksponentti e β 1 kuvaa siis vedonlyöntikertoimien suhdetta (odds ratio, OR) lääke- ja lumeryhmän välillä. monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 13 / 20

R:llä logistinen regressiomalli sovitetaan aineistoon glm()-funktion (=generalized linear models) avulla ja tarvittava komento on muotoa: ma1 <- glm(lievitys laake, family=binomial(link=logit)) Mallituksen tulokset on talletettu edellä malliobjektiin ma1, josta mallituksen keskeisimpiä tuloksia voidaan tulostaa esimerkiksi Epi-paketin funktiolla ci.lin ci.lin(ma1, Exp=TRUE) Kertoimien estimaatit ovat: β 0 = 0.288 ja β 1 = 0.814 ja edellä laskettu OR:n estimaatti on siis e β 1 = 2.26 monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 14 / 20

Edellisellä kalvolla esitetystä taulukosta löytyy myös tilastolliseen päättelyyn liittyvien suureiden arvoja. Logistisessa regressiossa (eräin yleisin ehdoin) testisuuretta Z = β j β 0 j SE( β j ) likim. N(0, 1) voidaan käyttää nollahypoteesin H 0 : β j = β 0 j testaamiseen. Edellä esitettyyn jakaumautulokseen nojaten kertoimien 100(1 γ) %:n likimääräiset luottamusvälit voidaan laskea kaavalla: β j ± z 1 γ/2 SE( β j ) monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 15 / 20

Jos esimerkissämme vertailtavien ryhmien (lääke- vs. lumeryhmä) välillä ei ole eroa, parametri β 1 = 0 ja siten OR = 1. Hypoteesin H 0 : β 1 = 0 testaus löytyy R:n tulostuksesta: Z = β j βj 0 SE( β j ) = 0.814 0 1.66 0.489 Vastaava P-arvo = P( Z 1.66 H 0 ) 0.096. Parametrin β 1 95 % likimääräinen luottamusväli on puolestaan 0.814 ± 1.96 0.489 ( 0.144, 1.772) monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 16 / 20

Saatujen tulosten perusteella (P-arvo=0.096 ja luottamusväli sisältää nollan) näyttäisi siis siltä, että kokeen perustella ei ole saatu tilastollisesti merkitsevää näyttöä lääkkeen toimivuudesta kivunlievityksessä. β 1 :n tulkinnassa usein käytettävä OR-näkökulma (OR = e β 1 ) saatiin R:n tulostukseen mukaan ci.lin()-funktioon lisämäärellä Exp=TRUE. ci.lin(ma1, Exp=TRUE) monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 17 / 20

OR:n estimaatiksi saadaan 2.26 ja 95 %:n likimääräiseksi luottamusväliksi (0.865, 5.88). Luottamusvälin rajat saataisiin laskettua parametrin β 1 vastaavasta luottamusvälistä ottamalla luottamusvälin rajoista e:n potenssit (e 0.144, e 1.772 ) (0.87, 5.88) Kivunlievityksen saamisen todennäköisyydet kummassakin ryhmässä voidaan nyt estimoida korvaamalla kaavassa π = P(Y = 1 X ) = eβ 0+β 1 X 1 + e β 0+β 1 X esiintyvät parametrit β 0 ja β 1 estimaateillaan. monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 18 / 20

Tällöin kivunlievityksen saamisen todennäköisyyden estimaatti lääkeryhmässä on e β 0 + β 1 x P(Y = 1 X = 1) = 1 + e β 0 + β 1 x e 0.288+0.814 1 = 0.629 1 + e 0.288+0.814 1 lumeryhmässä on e β 0 + β 1 x P(Y = 1 X = 0) = 1 + e β 0 + β 1 x = e 0.288+0.814 0 1 + e 0.288+0.814 0 = e 0.288 0.428 1 + e 0.288 Edellä lasketut estimaatit vastaavat kivunlievitystä saaneiden suhteellisia osuuksia lääke- ja lumeryhmissä, jotka ovat 22/35 ja 15/35. monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 19 / 20

Kertoimien tulkinnasta Huom: Edellä tarkasteltiin tilannetta, jossa kaksiarvoista vastetta selitettiin kaksiarvoisella selittäjällä. Analyysin taustalla on siis 2x2 -taulu ja tällöin OR (ja RR) on luonteva riippuvuuden mittari: e β 1 tulkittiin selittäjän ryhmien X = 1 ja X = 0 vedonlyöntikertoimien suhteena eli OR:nä. Jos selittävä muuttuja X on jatkuva, e β 1 :n tulkinta muuttuu jonkin verran: vasteen kohtaamisen todennäköisyys suhteessa vasteen välttämisen todennäköisyyteen (eli vedonlyöntikerroin) on e β 1 -kertainen selittäjän arvolla x+1 verrattuna tilanteeseen, jossa selittäjän arvo on x. (luentoesimerkki) Kertoimen β 0 tulkinta ei ole yleensä kiinnostava, sillä ko. parametri toimii mallissa eräänlaisena skaalaparametrina. Kerroin määrittelee mallin sellaiseksi, että mallin antama keskimääräinen estimaatti tapahtuman Y = 1 todennäköisyydelle vastaa havaintoaineistosta laskettua ykkösten suhteellista osuutta muuttujalla Y. monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 20 / 20