Viime kerralla Normaalijakauma-approksimaatio - moodi - havaittu informaatio Suurten otosten teoria - asymptoottinen normaalius ja konsistenttisuus Slide 1 - vastaesimerkkejä Bayesilaisen päättelyn frekvenssiarviointi Luento 6 Johdatus hierarkisiin malleihin Vaihtokelpoisuus Slide 2
Hierarkinen malli Esimerkki: sydäntautien hoidon tehokkuus - sairaalassa j henkiinjäämistodennäköisyys θ j - voisi olla järkevää olettaa, että θ j :den välillä on yhteys - luonnollista ajatella, että θ j :t tulevat yhteisestä populaatiojakaumasta - θ j :stä ei suoraan havaintoja ja populaatiojakauma tuntematon Slide 3 - havaintoina y i j, eli potilaan i selviäminen sairaalassa j Hierarkinen malli: Taso 1: havainnot ehdolla parametrit p(y i j θ j, M) Taso 2: parametrit ehdolla hyperparametrit p(θ j τ, M) Yhteisposteriorijakauma p(θ, τ y) p(y i j, θ j M)p(τ M) = p(y i j θ j, M)p(θ j τ, M)p(τ M) Hierarkinen malli Esimerkki: kasvainriski rotilla - ennen ihmistestejä lääkkeitä yleisesti testataan jyrsijöillä - estimoidaan kasvaimen todennäköisyys θ tyyppiä F344 olevilla naarasrotilla jotka saavat nolla-annoksen lääkettä (vertailuryhmä) - data: 4/14 rotalle tuli kohtuun kasvain (endometrial stromal polyps) Slide 4 - oletetaan binominen malli ja konjugaattipriori - priorin parametrit? - kasvaimien todennäköisyys θ vaihtelee rotissa ja koejärjestelyissä olevien erojen vuoksi
Hierarkinen malli Aiemmat kokeet y 1,..., y 70 0/20 0/20 0/20 0/20 0/20 0/20 0/20 0/19 0/19 0/19 0/19 0/18 0/18 0/17 1/20 1/20 1/20 1/20 1/19 1/19 1/18 1/18 2/25 2/24 2/23 2/20 2/20 2/20 2/20 2/20 2/20 1/10 5/49 2/19 5/46 3/27 2/17 7/49 7/47 3/20 Slide 5 3/20 2/13 9/48 10/50 4/20 4/20 4/20 4/20 4/20 4/20 4/20 10/48 4/19 4/19 4/19 5/22 11/46 12/49 5/20 5/20 6/23 5/19 6/22 6/20 6/20 6/20 16/52 15/46 15/47 9/24 Uusi koe y 71 4/14 Aiemmin opittu kuinka laskettaisiin jos malli olisi p(y j θ), missä θ yhteinen kaikille kokeille Nyt malli onkin p(y j θ j ), eli joka kokeessa eri θ j Hierarkinen malli Uusi koe y 71 = 4, n 71 = 14 Uniformi priori ilman historiallista dataa (α, β) = (1, 1) - ˆθ 71 0.31 ± 0.22 Informatiivinen priori jonka parametrit approksimoidaan historallisesta datasta Slide 6 - oletetaan, että θ 1,..., θ 70 yhteisestä jakaumasta (eli oletetaan kokeet vaihtokelpoisiksi) - asetetaan Beta-priorin parametrit aiemmin havaittujen 70 arvon y j /n j otoskeskiarvon 0.136 ja hajonnan 0.103 mukaan (s. 582, liite A) (α, β) = (1.4, 8.6) - ˆθ 71 0.22 ± 0.08 - tässä unohdetaan epävarmuus parametreista θ 1,..., θ 70 - jos oletetaan, että uusi koe poikkeaa historiallisesta vähäsen, voitaisiin historiaan perustuvaa priorijakaumaa levittää kasvattamalla historiallista varianssia
Hierarkinen malli Kuinka huomioida epävarmuus parametreista θ 1,..., θ 70 - yhteisjakauma Kuinka estoimoida yhtäaikaa kaikki θ 1,..., θ 71 - kaikki erikseenkö? Slide 7 Ajatuskoe - kokeissa 26 ja 27 kumassakin havaittiin 2 kasvainta 20 rotalla - ensin oletetaan priorijakauma jonka keskittynyt arvon 0.15 ympärille - data-analyysin jälkeen kerrotaan, että itse asiassa θ 26 = 0.1 tarkasti - vaikuttaako uusi tieto arvioosi θ 27 :sta? Ratkaisu on käyttää hierarkista mallia y j n j, θ j Bin(y j n j, θ j ) θ j α, β Beta(θ j α, β) Vaihtokelpoisuus Joukko kokeita j = 1,..., J Kokeeseen j liittyy havainnot y j, parametri θ j ja likelihood p(y j θ j ) Osa parametreista voi olla yhteisiä kaikille kokeille - esimerkiksi hierarkisessa normaalijakaumamalissa voi olla θ j = (µ j, σ 2 ), jolloin oletetaan, että eri kokeissa on sama varianssi Slide 8 Jos mitään muuta informaatiota kuin data y ei ole saatavilla erottamaan θ j :ta toisistaan ja parametreja ei voida järjestää tai ryhmitellä, voidaan olettaa paramterien välinen symmetria niiden priorijakaumassa Tämä symmetria voidaan esittää vaihtokelpoisuudella Parametrit θ 1,..., θ J ovat vaihtokelpoisia yhteisjakaumassaan jos p(θ 1,..., θ J ) on invariantti indeksien (1,..., J ) permutaatioille
Vaihtokelpoisuus Parametrit θ 1,..., θ J ovat vaihtokelpoisia yhteisjakaumassaan jos p(θ 1,..., θ J ) on invariantti indeksien (1,..., J ) permutaatioille Slide 9 Esimerkiksi rottakokeessa ei muuta informatioita kuin n j joiden ei oleteta liittyvän θ j :n; joten voidaan olettaa vaihtokelpoisuus - kokeet voidaan numeroida 1,..., 71 - jos kokeet numeroidaan uudelleen ja koe 17 vaihtuu kokeeksi 44, vaikuttaako tämä oletukseen priori-informaatiosta? - jos ei, niin kokeet ovat vaihtokelpoisia Huomaa, että tämä ei tarkoita etteivätkö kokeiden tulokset voisi olla erilaisia - esim. jos tiedämme, että kokeet on tehty kahdessa eri laboratoriossa, joista toisessa tiedetään olevan rotilla paremmat olot, mutta emme tiedä mitkä kokeet on tehty missä laboratoriossa - a priori kokeet edelleen vaihtokelpoisia Vaihtokelpoisuus Vaihtokelpoisuuden yksinkertaisin muoto (ei ainoa) on riippumattomat näytteet priori- tai populaatiojakaumasta J p(θ φ) = p(θ j φ) j=1 Slide 10 Yleensä φ tuntematon ja halutaan θ:n marginaalijakauma J p(θ) = p(θ j φ) p(φ)dφ j=1 Tämä muoto on riippumattomien identtisten jakaumien sekamalli (mixture of iid distributions) de Finettin lauseen mukaan, kun J, kaikki hyvin käyttäytyvät (θ 1,..., θ J ):n vaihtokelpoiset jakaumat voidaan kirjoittaa tässä muodossa - formaalisti ei päde kun J äärellinen
Vaihtokelpoisuus Esimerkki: Noppa jonka sivujen todennäköisyydet θ 1,..., θ 6 - ilman muuta tietoa θ 1,..., θ 6 vaihtokelpoisia - lisärajoitteen 6 j=1 θ j vuoksi eivät riippumattomia ja siten ei voida mallittaa riippumattomien identtisten jakaumien sekamallina Slide 11 Vaihtokelpoisuus Esimerkki: 8 USA:n osavaltion erojen määrä per 1000 asukasta vuonna 1981 - ilman muuta tietoa y 1,..., y 8 vaihtokelpoisia Seitsemän ensimmäisen erojen määrät ovat 5.6, 6.6, 7.8, 5.6, 7.0, 7.2, 5.4 - vaihtokelpoisia ja y 8 :lle voidaan laskea posterioriprediktiivinen jakauma Slide 12 Vaihtoehtoisesti tiedossa, että 8 osavaltiota ovat Arizona, Colorado, Idaho, Montana, Nevada, New Mexico, Utah, Wyoming, mutta järjestystä ei tiedetä - ennen datan näkemistä edelleen y 1,..., y 8 vaihtokelpoisia, mutta priorijakauma voisi ottaa huomioon, että Utahissa asuu paljon mormoneja ja Nevadassa on helppo saada ero; priori voisi olla multimodaalinenkin Vaihtoehtoisesti tiedossa, että y 8 on Nevada - jopa ennen datan näkemistä, y 1,..., y 8 eivät enää vaihtokelpoisia, koska on informaatiota joka erottaa y 8 :n muista - a posteriori voisi voisi olettaa, että p(y 8 > max(y 1,..., y 7 )) suuri - Nevadassa eroja 13.9 per 1000 asukasta
Vaihtokelpoisuus ja lisäinformaatio yksiköistä Slide 13 Esimerkki: jos olisi tiedossa eroluku x j osavaltiossa j edellisenä vuotena - y j :t eivät vaihtokelpoisia - (x j, y j ):t vaihtokelpoisia - yleisesti voidaan tehdä vaihtokelpoinen malli ehdolla lisäinformaatio J p(θ 1,..., θ J x 1,..., x J ) = p(θ j φ, x j ) p(φ x 1,..., x J )dφ j=1 - x j :stä käyteään termiä covariate, joka viittaa siihen, että sen arvo vaihtelee yhdessä y j :n kanssa Tällä tavalla vaihtokelpoisuusmalleista tulee hyvin yleiskäyttöisiä, koska lisäinformaatio joka erottelisi yksiköt voidaan sisällyttää muuttujiin x ja y Vaihtokelpoisuus ja lisäinformaatio yksiköistä Esimerkki: myrkyllisyyskoe - x i pitoisuus - y i kuolleiden eläimien määrä - (x i, y i ) vaihtokelpoisia ja käytettiin logistista regressiomallia Slide 14 n p(α, β y, n, x) p(y i α, β, n i, x i )p(α, β) i=1
Vaihtokelpoisuus ja ehdollinen mallintaminen* (s. 354) Yhteismalli vaihtokelpoisille (x i, y i ) p(x, y ϕ, θ) = p(x ϕ)p(y x, θ) Oletetaan ϕ ja θ a priori riippumatomiksi, eli p(ϕ, θ) = p(ϕ)p(θ), jolloin yhteisposteriorijakauma Slide 15 p(ϕ, θ x, y) = p(ϕ x)p(θ x, y) Voimme tutkia termiä p(θ x, y) yksinään p(θ x, y) p(y x, θ)p(θ) Jos x valittu esim. koejärjestelyssä, p(x) tunnettu ja ei ole parametreja ϕ Hierarkinen malli Parametrit θ ja hyperparametrit φ Yhteispriorijakauma p(φ, θ) = p(φ)p(θ φ) Yhteisposteriorijakauma Slide 16 p(φ, θ y) p(φ, θ)p(y φ, θ) = p(φ, θ)p(y θ) - missä φ tipahtaa pois likelihoodista, koska likelihood riippuu vain θ:sta - φ vaikuttaa y:hyn vain θ:n kautta
Hierarkinen malli - Posterioriprediktiivinen jakauma Posterioriprediktiivinen jakauma tulevalle havainnolle ỹ joka liityy johonkin nykyiseen θ j :hin - esim. rottakokeessa lisärottia nykyisessä kokeessa - poimitaan ỹ annettuna näytteitä θ j :n posteriorijakaumasta Slide 17 Posterioriprediktiivinen jakauma tulevalle havainnolle ỹ joka liityy johonkin tulevaan θ j :hin jota voidaan merkit θ - esim. rottakokeessa tuloksia uudesta kokeesta - poimitaan ensin θ populaatiojakaumasta ja sitten ỹ annettuna θ Hierarkinen malli - laskenta Helpoille malleille laskenta käy esimerkiksi näin 1. muodosta p(θ, φ y) p(y θ)p(θ φ)p(φ) 2. laske analyyttisesti ehdollinen jakauma p(θ φ, y) 3. laske marginaalijakauma p(φ y) Slide 18-3. askel voidaan laskea integorimalla numeerisesti p(φ y) = p(θ, φ y)dθ - monelle standardimallille voidaan myös laskea p(φ y) = p(θ, φ y) p(θ φ, y) missä pitää olla huolellinen normalisointitermien kanssa
Hierarkinen malli - laskenta Edellisen kalvon mukaisen laskennan perusteella voidaan vetää näytteitä posteriorijakaumasta seuraavasti 1. poimitaan näytteitä φ jakaumasta p(φ y) 2. poimitaan näytteitä θ jakaumasta p(θ φ, y) 3. tarvittaessa poimitaan näytteitä ỹ prediktiivisestä jakaumasta p(y θ) Slide 19 - toista L kertaa Hierarkinen malli - esimerkki Kirjassa esimerkki rottakokeiden hierarkisesta mallista (s. 127) - ei kuulu luettavaan alueeseen - ei käsitellä luennolla tämän enempää - voitte lukaista läpi, koska sisältää kommentteja priorin valinnasta ja voitte myös verrata laskennan ongelmia myöhemmin esiteltäviin MCMC-menetelmiin Slide 20
Hierarkinen normaalijakaumamalli J koetta, tuntemattomat θ j ja tunnettu σ 2 y i j θ j N(θ j, σ 2 ), i = 1,..., n j ; j = 1,..., J Ryhmän j otoskeskiarvo ja otosvarianssi Slide 21 ȳ. j = 1 n j n j σ 2 j = σ 2 n j i=1 y i j Vaihdetaan malliksi ȳ. j θ j N(θ j, σ 2 j ) tämä malli voidaan yleistää myös niin, että σj 2 :t voivat poiketa toisistaan myös muusta syystä kuin n j :n takia Hierarkinen normaalijakaumamalli Mallia ȳ. j θ j N(θ j, σ 2 j ) - voidaan käyttää myös silloin jos oletetaan, että keskiarvot ȳ. j ovat lähes normaalijakautuneita, vaikka itse data y i j ei ole Slide 22 Semikonjugaattinen priori J p(θ 1,..., θ J µ, τ) = N(θ j µ, τ 2 ) j=1 - θ j :t ovat a priori riippumattomia annettuna (µ, τ) - jos τ, sama kuin jos erillismalli (separate model), eli jokainen θ j estimoidaan erikseen ei-informatiivisella priorilla - jos τ 0, sama kuin jos yhteismalli (pooled model), eli θ j = µ ja ȳ. j µ N(µ, σ 2 j )
Hierarkinen normaalijakaumamalli Malli ȳ. j θ j N(θ j, σ 2 j ) Semi-konjugaattinen priori Slide 23 J p(θ 1,..., θ J µ, τ) = N(θ j µ, τ 2 ) j=1 Hyperpiori p(µ, τ) = p(µ τ)p(τ) p(τ) - uniformi priori µ:lle ok - τ :n priori valittava huolella jotta saadaan aito posteriori - p(τ) 1/τ tuottaisi epäaidon posteriorin - Gelman et al. käyttävät prioria p(τ) 1 Hierarkinen normaalijakaumamalli Parametrien ehdollinen posteriorijakauma θ j µ, τ, y N( ˆθ j, V j ) missä ˆθ j ja V j aivan kuten J :lle toisistaan riippumattomalle normaalijakaumalle, eli tarkkuuksilla painotettu keskiarvo datasta ja priorista Slide 24
Hierarkinen normaalijakaumamalli Hyperparametrien marginaaliposteriorijakauma J p(µ, τ y) p(µ, τ) N(ȳ. j µ, σj 2 + τ 2 ) j=1 Edellistä voitaisiin käyttää suoraan, mutta normaalimallille yksinkertaistuu Slide 25 missä p(µ, τ y) = p(µ τ, y)p(τ y) p(µ τ, y) = N( ˆµ, V µ ) missä ˆµ on tarkkuuksilla painotettu keskiarvo ȳ. j :sta ja V µ on kokonaistarkkuus Jäljelle jää vielä p(τ y) = p(µ, τ y) p(µ τ, y) jota ei saada suljettuun muotoon, mutta yksiulotteisena jakaumana siitä on helppo poimia näytteitä Hierarkinen normaalijakaumamalli Helppo poimia näytteitä kun posteriorijakauma faktoroitu edellä mainittuihin osiin p(θ, µ, τ y) p(τ y)p(µ τ, y)p(θ µ, τ, y) Tehtävä 5.1 Slide 26
Hierarkinen normaalijakaumamalli Esimerkki: valmennuskurssien tehon arviointi - USA:ssa käytössä SAT (Scholastic Aptitude Test) jonka suunnitellussa on pyritty siihen, että lyhyen ajan harjoittelulla ei pysty parantamaan tulosta - kouluilla silti pikavalmennuskursseja - tutkittiin onko valmennuksesta apua Slide 27 SAT - standardisoitu monivalintatesti - pistekeskiarvo n. 500 ja hajonta n. 100 - pisteet pääasiassa 200:n ja 800:n välillä - eri aihealueita kuten V=Verbal, M=Mathematics - esitesti PSAT Hierarkinen normaalijakaumamalli Valmennuskurssien tehon arviointi - opiskelijat olivat jo suorittaneet esitestit PSAT-M ja PSAT-V - osa opiskelijoista sai valmennusta - lineaarinen regressio, josta arvioitiin valmennusefektit y j ja varianssit σj 2 (näillä sama rooli kuin aiemmin ȳ. j ja σj 2 ) Slide 28 - y j suunnilleen normaalijakautuneita, suunnilleen tunnetuilla variansseilla perustuen noin 30 oppilaan tulokseen per koulu - 8 pistettä testissä lisää on noin yksi vastaus lisää oikein Data: Koulu A B C D E F G H y j 28 8-3 7-1 1 18 12 σ j 15 10 16 11 9 22 20 28
Valmennuskurssien tehon arviointi Erillismalli - todennäköisyydellä 0.5 A:n todellinen valmennusefekti on suurempi kuin 28 Yhteismalli - (µ, σ ) = (7.9, 4.2) - odotusarvoiset järjestetyt statistiikat (26, 19, 14, 10, 6, 2, -3, -9) Slide 29 - todennäköisyydellä 0.5, A:n todellinen valmennusefekti on pienempi kuin 7.9 Hierarkinen malli - ks. kirja - todennäköisyydellä 0.93, A:n todellinen valmennusefekti on pienempi kuin 28 Meta-analyysi Meta-analyyissa yhdistetään ja analysoidaan useiden samaa aihetta tutkivien analyysien tuloksia - erityisesti lääketieteessä usein pineiä kokeita järjestetään eri puolilla maapalloa (yksittäisen instanssin resurssit riittävät vain pieneen kokeeseen) - usein pienen testin tuloksissa liikaa epävarmuutta - meta-anlyysilla yhdistetään julkaistut tulokset epävarmuuden vähentämiseksi Slide 30 - meta-analyysi hoituu luontevasti hierarkisella mallilla Kiinnostuneet voivat lukea esimerkin kirjasta (s. 145)
Yhteenveto Johdatus hierarkisiin malleihin Vaihtokelpoisuus Ensi kerralla esitellään MCMC-menetelmiä, jotka helpottavat hierarkisten mallien käyttöä huomattavasti Slide 31