805306A Johdatus monimuuttujamenetelmiin, 5 op

monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos

Logistinen regressioanalyysi Vastemuuttuja Y on luokiteltu muuttuja Pyritään mallittamaan havaintoyksikön todennäköisyyttä kuulua vastemuuttujan Y luokkaan k (luokkien lkm 2) Selittäjä(t) voivat olla joko luokiteltuja tai jatkuvia muuttujia Esimerkkejä dikotomisista eli kaksiarvoisista vasteista: Henkilöllä joko on tai ei ole luottohäiriömerkintä Laite joko vikaantuu tai ei vikaannu takuuaikana Henkilö joko sairastaa tai ei sairasta tautia A Oletetaan, että vastemuuttuja Y on dikotominen mahdollisina arvoinaan 0 ja 1 ja että P(Y = 1) = π, joten P(Y = 0) = 1 P(Y = 1) = 1 π monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 2 / 20

Ns. vedonlyöntikerroin ω, lyhyemmin veto (odds), tapahtumalle Y = 1 (tai tapahtuman puolesta) on: ω = P(Y = 1) P(Y = 1) = P(Y = 0) 1 P(Y = 1) = π 1 π Vedonlyöntikertoimen määritelmän perusteella tapahtuman Y = 1 todennäköisyys π voidaan esittää muodossa: ω = π 1 π π = ω ω + 1 Muuttujan Y mallituksen kannalta sekä P(Y = 1) että ω ovat jossain määrin ongelmallisia vaihteluväliensä takia. monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 3 / 20

Mallia rakennettaessa vasteena kannattaakin käyttää vedonlyöntikertoimen logaritmia ( ) π λ = ln(ω) = ln 1 π Ko. muunnos on nimeltään logit-muunnos (tai log-odds) ja tapahtuman Y = 1 todennäköisyys voidaan lausua muodossa π = eλ 1 + e λ = 1 = expit(λ) 1 + e λ Funktio expit: R ]0, 1[ on ns. logistisen jakauman kertymäfunktio. Kaksiarvoisen vasteen Y käsittelyssä on käyty edellä läpi seuraavat vaihtoehdot vasteen muotoilemiseksi: Muunnos Vaihteluväli Todennäköisyys P(Y = 1) (0, 1) π Vedonlyöntikerroin ( 1 π ) (0, ) π Logit-muunnos ln 1 π (, ) monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 4 / 20

Seuraava kuva havainnollistaa todennäköisyyden P(Y = 1) ja logit-muunnoksen välistä suhdetta: 4 ln(p(y=1) / (1 P(Y=1)) 2 0 2 4 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 P(Y=1) Logit-muunnos käyttäytyy siis mm. seuraavasti: kun π = 0.5 ω = 1 ln(ω) = 0 π < 0.5 ω < 1 ln(ω) < 0 π > 0.5 ω > 1 ln(ω) > 0 monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 5 / 20

Esimerkiksi, kun P(Y = 1) = 0.2, ω = π 1 π = 0.2 = 0.2 = 1 = 0.25 ja 1 0.2 0.8 4 ln(ω) = ln(0.25) 1.39 P(Y = 1) = 0.8, ω = π 1 π = 0.8 = 0.8 = 4.00 ja 1 0.8 0.2 ln(ω) = ln(4.00) 1.39 Huomaa, että yllä jälkimmäisessä tapauksessa vasteen välttämisen todennäköisyys P(Y = 0) on yhtä suuri kuin ensimmäisessä tapauksessa vasteen kohtaamisen todennäköisyys P(Y = 1). monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 6 / 20

Yhden selittäjän logistinen regressio Muodostetaan seuraavaksi logit-muunnokselle yhden selittävän muuttujan lineaarinen regressiomalli, joka on muotoa ( ) π ln = β 0 + β 1 X 1 π Tässä mallissa π = P(Y = 1 X ) eli parametrin π arvo riippuu selittäjästä X siten, että P(Y = 1 X ) = eβ 0+β 1 X 1 + e β 0+β 1 X Kertoimet β 0 ja β 1 ovat tuntemattomia ja ne täytyy estimoida havaintoaineiston perusteella. Estimointi tehdään suurimman uskottavuuden menetelmällä (engl. maximum likelihood). monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 7 / 20

Menetelmän perusideana on etsiä sellaiset tuntemattomien kertoimien (parametrien) arvot, jotka tuottavat suurimmalla tiheydellä (todennäköisyydellä) juuri ne muuttujan arvot, jotka todellisuudessa on havaittu. Tämä perusidea voidaan esittää ns. uskottavuusfunktion (engl. likelihood function) avulla: l(β 0, β 1 ) = i:y i =1 p(x i ) (1 p(xi )) i :y i =0 Kertoimien estimaatit β 0 and β 1 valitaan siten, että ne maksimoivat uskottavuusfunktion arvon. Tällä kurssilla suurimman uskottavuuden menetelmän matemaattisia ominaisuuksia ei käsitellä tarkemmin ja tuntemattomat kertoimet (parametrit) estimoidaan R-ohjelmalla. monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 8 / 20

Esimerkki yhden selittäjän mallista Eräässä lääkekokeessa tutkittiin uuden lääkeaineen vaikutusta kivun lievityksessä. Kokeeseen osallistui kaikkiaan 70 potilasta, joista 35 sai kivunlievitykseen uutta lääkettä loppujen 35 potilaan saadessa lumelääkettä. Kokeen lopputulokset olivat seuraavat: Lääkeryhmä Kivunlievitys Uusi lääke Lume Yhteensä Kyllä 22 15 37 Ei 13 20 33 Yhteensä 35 35 70 Toimiiko uusi lääke lumelääkettä paremmin kivunlievityksessä? monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 9 / 20

Määritellään aluksi vaste Y ja selittäjä X { 1, kun potilaan kipu lievittyi Y = 0, kun potilaan kipu ei lievittynyt ja X = { 1, kun potilaalla uusi lääkitys 0, kun potilaalla lumelääkitys Lasketaan analyysin aluksi lääke- ja lumeryhmissä laskettujen vedonlyöntikertoimien suhteen (odds ratio) OR arvo annetun ristiintaulukon perusteella. OR = ω 1 P(Y = 1 X = 1) / P(Y = 0 X = 1) = ω 0 P(Y = 1 X = 0) / P(Y = 0 X = 0) monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 10 / 20

Lääkeryhmä Kivunlievitys Uusi lääke Lume Yhteensä Kyllä 22 15 37 Ei 13 20 33 Yhteensä 35 35 70 OR = ω 1 ω 0 ω 1 = ω 0 = P(Y =1 X =1) P(Y =0 X =1) = 22/35 = 22 1.692 ja 13/35 13 P(Y =1 X =0) P(Y =0 X =0) = 15/35 20/35 = 15 20 = 0.750 OR 1.692/0.750 2.26 Lääkeryhmässä kivunlievityksen saamiselle on noin 2.26-kertainen vedonlyöntikerroin lumeryhmän vedonlyöntikertoimeen verrattuna monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 11 / 20

Jos kivunlievityksen saamisen todennäköisyys (π 1 ja π 0 ) olisi kummassakin ryhmässä pieni, pätisi likimain OR P(Y = 1 X = 1) P(Y = 1 X = 0) = π 1 π 0 = RR Tällöin OR voitaisiin tulkita samaan tapaan kuin ns. riskisuhde RR (= π 1 /π 0, risk ratio) Nyt riskisuhteen arvo RR = π 1 P(Y = 1 X = 1) = π 0 P(Y = 1 X = 0) = 22/35 15/35 1.47 poikkeaa melko paljon OR:stä, koska kummassakin ryhmässä vaste on yleinen. monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 12 / 20

Sovitetaan aineistoon seuraavaksi logistinen regressiomalli, joka on muotoa ( ) P(Y = 1 X ) ln = β 0 + β 1 X P(Y = 0 X ) Nyt ( ) Lääkeryhmässä X = 1: ln P(Y =1 X =1) P(Y =0 X=1) = β 0 + β 1 ( ) Lumeryhmässä X = 0: ln P(Y =1 X =0) P(Y =0 X=0) = β 0 ( ) ( ) P(Y = 1 X = 1) P(Y = 1 X = 0) ln ln = β 1 P(Y = 0 X = 1) P(Y = 0 X = 0) } {{ } =ω 1 ln( ω1 ω 0 ) = β 1 ω1 ω 0 = e β1 } {{ } =ω 0 Parametrin β 1 eksponentti e β 1 kuvaa siis vedonlyöntikertoimien suhdetta (odds ratio, OR) lääke- ja lumeryhmän välillä. monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 13 / 20

R:llä logistinen regressiomalli sovitetaan aineistoon glm()-funktion (=generalized linear models) avulla ja tarvittava komento on muotoa: ma1 <- glm(lievitys laake, family=binomial(link=logit)) Mallituksen tulokset on talletettu edellä malliobjektiin ma1, josta mallituksen keskeisimpiä tuloksia voidaan tulostaa esimerkiksi Epi-paketin funktiolla ci.lin ci.lin(ma1, Exp=TRUE) Kertoimien estimaatit ovat: β 0 = 0.288 ja β 1 = 0.814 ja edellä laskettu OR:n estimaatti on siis e β 1 = 2.26 monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 14 / 20

Edellisellä kalvolla esitetystä taulukosta löytyy myös tilastolliseen päättelyyn liittyvien suureiden arvoja. Logistisessa regressiossa (eräin yleisin ehdoin) testisuuretta Z = β j β 0 j SE( β j ) likim. N(0, 1) voidaan käyttää nollahypoteesin H 0 : β j = β 0 j testaamiseen. Edellä esitettyyn jakaumautulokseen nojaten kertoimien 100(1 γ) %:n likimääräiset luottamusvälit voidaan laskea kaavalla: β j ± z 1 γ/2 SE( β j ) monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 15 / 20

Jos esimerkissämme vertailtavien ryhmien (lääke- vs. lumeryhmä) välillä ei ole eroa, parametri β 1 = 0 ja siten OR = 1. Hypoteesin H 0 : β 1 = 0 testaus löytyy R:n tulostuksesta: Z = β j βj 0 SE( β j ) = 0.814 0 1.66 0.489 Vastaava P-arvo = P( Z 1.66 H 0 ) 0.096. Parametrin β 1 95 % likimääräinen luottamusväli on puolestaan 0.814 ± 1.96 0.489 ( 0.144, 1.772) monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 16 / 20

Saatujen tulosten perusteella (P-arvo=0.096 ja luottamusväli sisältää nollan) näyttäisi siis siltä, että kokeen perustella ei ole saatu tilastollisesti merkitsevää näyttöä lääkkeen toimivuudesta kivunlievityksessä. β 1 :n tulkinnassa usein käytettävä OR-näkökulma (OR = e β 1 ) saatiin R:n tulostukseen mukaan ci.lin()-funktioon lisämäärellä Exp=TRUE. ci.lin(ma1, Exp=TRUE) monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 17 / 20

OR:n estimaatiksi saadaan 2.26 ja 95 %:n likimääräiseksi luottamusväliksi (0.865, 5.88). Luottamusvälin rajat saataisiin laskettua parametrin β 1 vastaavasta luottamusvälistä ottamalla luottamusvälin rajoista e:n potenssit (e 0.144, e 1.772 ) (0.87, 5.88) Kivunlievityksen saamisen todennäköisyydet kummassakin ryhmässä voidaan nyt estimoida korvaamalla kaavassa π = P(Y = 1 X ) = eβ 0+β 1 X 1 + e β 0+β 1 X esiintyvät parametrit β 0 ja β 1 estimaateillaan. monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 18 / 20

Tällöin kivunlievityksen saamisen todennäköisyyden estimaatti lääkeryhmässä on e β 0 + β 1 x P(Y = 1 X = 1) = 1 + e β 0 + β 1 x e 0.288+0.814 1 = 0.629 1 + e 0.288+0.814 1 lumeryhmässä on e β 0 + β 1 x P(Y = 1 X = 0) = 1 + e β 0 + β 1 x = e 0.288+0.814 0 1 + e 0.288+0.814 0 = e 0.288 0.428 1 + e 0.288 Edellä lasketut estimaatit vastaavat kivunlievitystä saaneiden suhteellisia osuuksia lääke- ja lumeryhmissä, jotka ovat 22/35 ja 15/35. monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 19 / 20

Kertoimien tulkinnasta Huom: Edellä tarkasteltiin tilannetta, jossa kaksiarvoista vastetta selitettiin kaksiarvoisella selittäjällä. Analyysin taustalla on siis 2x2 -taulu ja tällöin OR (ja RR) on luonteva riippuvuuden mittari: e β 1 tulkittiin selittäjän ryhmien X = 1 ja X = 0 vedonlyöntikertoimien suhteena eli OR:nä. Jos selittävä muuttuja X on jatkuva, e β 1 :n tulkinta muuttuu jonkin verran: vasteen kohtaamisen todennäköisyys suhteessa vasteen välttämisen todennäköisyyteen (eli vedonlyöntikerroin) on e β 1 -kertainen selittäjän arvolla x+1 verrattuna tilanteeseen, jossa selittäjän arvo on x. (luentoesimerkki) Kertoimen β 0 tulkinta ei ole yleensä kiinnostava, sillä ko. parametri toimii mallissa eräänlaisena skaalaparametrina. Kerroin määrittelee mallin sellaiseksi, että mallin antama keskimääräinen estimaatti tapahtuman Y = 1 todennäköisyydelle vastaa havaintoaineistosta laskettua ykkösten suhteellista osuutta muuttujalla Y. monimuuttujamenetelmiin, 5 op 31. lokakuuta 2018 20 / 20