Luento 6 Johdatus hierarkkisiin malleihin - joskus myös termillä multilevel model Vaihtokelpoisuus (exchangeability) Slide 1 Hierarkkinen malli Esimerkki: sydäntautien hoidon tehokkuus - sairaalassa j henkiinjäämistodennäköisyys θ j - havaintoina y i j, eli potilaan i selviäminen sairaalassa j θ 1 θ 2 θ n Slide 2 y i1 y i2 y in - voisi olla järkevää olettaa, että θ j :den välillä on yhteys τ θ 1 θ 2 θ n y i1 y i2 y in - luonnollista ajatella, että θ j :t tulevat yhteisestä populaatiojakaumasta - θ j :stä ei suoraan havaintoja ja populaatiojakauma tuntematon
Hierarkkinen malli: kasvainriski rotilla Esimerkki: kasvainriski rotilla - ennen ihmistestejä lääkkeitä yleisesti testataan jyrsijöillä - estimoidaan kasvaimen todennäköisyys θ tyyppiä F344 olevilla naarasrotilla jotka saavat nolla-annoksen lääkettä (vertailuryhmä) - data: 4/14 rotalle tuli kohtuun kasvain (endometrial stromal polyps) Slide 3 - oletetaan binominen malli ja konjugaattipriori - priorin parametrit? Hierarkkinen malli: kasvainriski rotilla Aiemmat kokeet y 1,..., y 70 0/20 0/20 0/20 0/20 0/20 0/20 0/20 0/19 0/19 0/19 0/19 0/18 0/18 0/17 1/20 1/20 1/20 1/20 1/19 1/19 1/18 1/18 2/25 2/24 2/23 2/20 2/20 2/20 2/20 2/20 2/20 1/10 5/49 2/19 5/46 3/27 2/17 7/49 7/47 3/20 3/20 2/13 9/48 10/50 4/20 4/20 4/20 4/20 4/20 4/20 Slide 4 4/20 10/48 4/19 4/19 4/19 5/22 11/46 12/49 5/20 5/20 6/23 5/19 6/22 6/20 6/20 6/20 16/52 15/46 15/47 9/24 Uusi koe y 71 : 4/14 Aiemmalla luennolla käsitelty malli p(y j θ), missä θ yhteinen kaikille kokeille Nyt malli onkin p(y j θ j ), eli joka kokeessa eri θ j - kasvaimien todennäköisyys θ j vaihtelee rotissa ja koejärjestelyissä olevien erojen vuoksi
Hierarkkinen malli: kasvainriski rotilla Kuinka huomioida, että θ 1,..., θ 71 todennäköisesti samankaltaisia yhteinen populaatiopriori, mutta mistä populaatipriorin parametrit? Ratkaisu on käyttää hierarkkista mallia α β Slide 5 θ j α, β Beta(θ j α, β) θ j n j y j n j, θ j Bin(y j n j, θ j ) y j j Yhteisposteriori p(θ 1,...,θ J, α, β y) - moniparametrinen malli - faktorointi J j=1 p(θ j α, β, y)p(α, β y) Hierarkkinen malli: termejä Hierarkkinen malli: Taso 1: havainnot ehdolla parametrit p(y i j θ j, M) Taso 2: parametrit ehdolla hyperparametrit p(θ j τ, M) p(τ M) τ hyperparametri Slide 6 p(θ j τ, M) θ 1 θ 2 θ n parametrit p(y i j θ j, M) y i1 y i2 y in havainnot Yhteisposteriorijakauma p(θ, τ y) p(y θ, τ, M)p(θ, τ M) p(y θ, M)p(θ τ, M)p(τ M)
Hierarkkinen malli: kasvainriski rotilla Populaatiopriori Beta(θ j α, β) Hyperpriori p(α, β)? Slide 7 - Beta-jakauman parametrisoinissa α, β molemmat vaikuttavat jakauman paikkaan ja leveyteen - Gelman et al ehdottavat prioria p(α, β) (α + β) 5/2 diffuusi priorijakauman lokaatiolle ja leveydelle (ks. s. 128) Esim6_1.m - hierarkkinen malli olettaa, että θ j ovat samankaltaisia, mutta eivät sama Hierarkkinen malli - Ennustava jakauma Ennustava jakauma tulevalle havainnolle ỹ joka liittyy johonkin nykyiseen θ j :hin - esim. rottakokeessa lisärottia nykyisessä kokeessa - poimitaan ỹ annettuna näytteitä θ j :n posteriorijakaumasta Ennustava jakauma tulevalle havainnolle ỹ joka liittyy johonkin tulevaan θ j :hin jota voidaan merkit θ Slide 8 - esim. rottakokeessa tuloksia uudesta kokeesta - poimitaan ensin θ populaatiojakaumasta ja sitten ỹ annettuna θ
Hierarkkinen malli - laskenta Faktoroidusta posteriorijakaumasta voidaan vetää näytteitä seuraavasti 1. poimitaan näytteitä φ jakaumasta p(φ y) 2. poimitaan näytteitä θ jakaumasta p(θ φ, y) 3. tarvittaessa poimitaan näytteitä ỹ prediktiivisestä jakaumasta p(y θ) - toista L kertaa Slide 9 Hierarkkinen normaalijakaumamalli - ÄO-esimerkki Aiemmin - populaatio θ j N(100, 15 2 ) ja mittaus y i j θ j N(θ j, 10 2 ) Hierarkkisella mallilla - populaatiojakauma voi olla myös tuntematon µ P σp 2 Slide 10 θ j µ P, σ 2 P N(µ P, σ 2 P ) θ j 10 2 y i j θ j N(θ j, 10 2 ) y i j i j Hierarkkisella mallilla tekemällä koe usealle henkilölle saadaan samalla selville populaatiojakauma joka taas vaikuttaa saman tien jokaiselle henkilölle laskettuun jakaumaan θ j :lle Mittausvarianssi voidaan käsitellä vastaavasti
Hierarkkinen normaalijakaumamalli - tehdas-esimerkki Tehtaassa 6 konetta joiden laatua halutaan arvioida Oletetaan hierarkkinen malli - jokaisella koneella oma laatuarvo θ j ja yhteinen varianssi σ 2 µ P σ 2 P Slide 11 θ j µ P, σ 2 P N(µ P, σ 2 P ) θ j σ 2 y i j θ j N(θ j, σ 2 j ) y i j i j Voidaan ennustaa jokaisen koneen tuleva laatu ja uuden vastaavan koneen tuleva laatu Gibbs-poiminta-tehtävä luennon 7 jälkeen Hierarkkinen normaalijakaumamalli - tehdas-esimerkki Tehtaassa 6 konetta joiden laatua halutaan arvioida Oletetaan hierarkkinen malli - jokaisella koneella oma laatuarvo θ j ja oma varianssi σ 2 j µ P σ 2 P σ 2 0 ν 0 Slide 12 θ j θ j µ P, σ 2 P N(µ P, σ 2 P ) σ 2 j σ 2 0, ν 0 Inv-χ 2 (σ 2 0, ν 0) σ 2 j y i j θ j N(θ j, σ 2 j ) y i j i j Voidaan ennustaa jokaisen koneen tuleva laatu ja uuden vastaavan koneen tuleva laatu Gibbs-poiminta-tehtävän lisäpisteet
Hierarkkinen normaalijakaumamalli - SAT-esimerkki Esimerkki: valmennuskurssien tehon arviointi (tehtävä 5.1*) - USA:ssa käytössä SAT (Scholastic Aptitude Test) jonka suunnittelussa on pyritty siihen, että lyhyen ajan harjoittelulla ei pysty parantamaan tulosta - kouluilla silti pikavalmennuskursseja - tutkittiin onko valmennuksesta apua Slide 13 SAT - standardisoitu monivalintatesti - pistekeskiarvo n. 500 ja hajonta n. 100 - pisteet pääasiassa 200:n ja 800:n välillä - eri aihealueita kuten V=Verbal, M=Mathematics - esitesti PSAT Hierarkkinen normaalijakaumamalli - SAT-esimerkki Valmennuskurssien tehon arviointi - opiskelijat olivat jo suorittaneet esitestit PSAT-M ja PSAT-V - osa opiskelijoista sai valmennusta, osa ei - lineaarinen regressio, josta arvioitiin valmennusefektit y j (voidaan merkitä myös ȳ. j ) ja varianssit σ 2 j Slide 14 - y j suunnilleen normaalijakautuneita, suunnilleen tunnetuilla variansseilla perustuen noin 30 oppilaan tulokseen per koulu - datana ryhmien keskiarvot ja varianssit (ei yksilötulokset) Data: Koulu A B C D E F G H y j 28 8-3 7-1 1 18 12 σ j 15 10 16 11 9 22 20 28-8 pistettä testissä lisää on noin yksi vastaus lisää oikein
Hierarkkinen normaalijakaumamalli ryhmien keskiarvoille J koetta, tuntemattomat θ j ja tunnettu σ 2 y i j θ j N(θ j, σ 2 ), i = 1,...,n j ; j = 1,..., J Ryhmän j otoskeskiarvo ja otosvarianssi Slide 15 ȳ. j = 1 n j n j σ 2 j = σ 2 n j i=1 y i j Vaihdetaan malliksi ȳ. j θ j N(θ j, σ 2 j ) tämä malli voidaan yleistää myös niin, että σj 2 :t voivat poiketa toisistaan myös muusta syystä kuin n j :n takia Hierarkkinen normaalijakaumamalli ryhmien keskiarvoille µ τ θ j µ, τ N(µ, τ) θ j σ 2 j ȳ. j θ j N(θ j, σ 2 j ) ȳ. j j Slide 16
Hierarkkinen normaalijakaumamalli ryhmien keskiarvoille Mallia ȳ. j θ j N(θ j, σ 2 j ) - voidaan käyttää myös silloin jos oletetaan, että keskiarvot ȳ. j ovat lähes normaalijakautuneita, vaikka itse data y i j ei ole Slide 17 Hierarkkinen normaalijakaumamalli - priori Semikonjugaattinen priori J p(θ 1,..., θ J µ, τ) = N(θ j µ, τ 2 ) j=1 Slide 18 - jos τ, sama kuin jos erillismalli (separate model), eli jokainen θ j estimoidaan erikseen ei-informatiivisella priorilla - jos τ 0, sama kuin jos yhteismalli (pooled model), eli θ j = µ ja ȳ. j µ N(µ, σ 2 j )
Hierarkkinen normaalijakaumamalli - hyperpriori Malli ȳ. j θ j N(θ j, σ 2 j ) Semi-konjugaattinen priori Slide 19 Hyperpiori J p(θ 1,..., θ J µ, τ) = N(θ j µ, τ 2 ) j=1 p(µ, τ) = p(µ τ)p(τ) p(τ) - uniformi priori µ:lle ok - τ :n priori valittava huolella, jotta saadaan aito posteriori - p(τ) 1/τ tuottaisi ei-aidon posteriorin - jos J > 4, p(τ) 1 hyvä ei-informatiivinen priori - jos J 4 half-cauchy hyvä priori (Gelman, 2005) * Hierarkkinen normaalijakaumamalli - laskenta faktoroimallla Faktoroidaan yhteisposteriorijakauma p(θ, µ, τ y) p(θ µ, τ, y)p(µ, τ y) Parametrien θ j ehdollinen posteriorijakauma θ j µ, τ, y N(ˆθ j, V j ) Slide 20 missä ˆθ j ja V j aivan kuten J :lle toisistaan riippumattomalle normaalijakaumalle annettuna informatiivinen konjugaattipriori - eli tarkkuuksilla painotettu keskiarvo datasta ja priorista
Hierarkkinen normaalijakaumamalli - laskenta faktoroimallla Hyperparametrien marginaaliposteriorijakauma J p(µ, τ y) p(µ, τ) N(ȳ. j µ, σj 2 + τ 2 ) j=1 Edellistä voitaisiin käyttää suoraan, mutta normaalimallille faktoroituu edelleen Slide 21 missä p(µ, τ y) = p(µ τ, y)p(τ y) p(µ τ, y) = N( ˆµ, V µ ) missä ˆµ on tarkkuuksilla painotettu keskiarvo ȳ. j :sta ja V µ on kokonaistarkkuus Jäljelle jää vielä p(τ y) = p(µ, τ y) p(µ τ, y) jota ei saada suljettuun muotoon, mutta koska yksiulotteinen on siitä helppo poimia näytteitä (esim. inverse-cdf) Hierarkkinen normaalijakaumamalli - laskenta faktoroimallla Helppo poimia näytteitä kun posteriorijakauma faktoroitu edellä mainittuihin osiin p(θ, µ, τ y) p(τ y)p(µ τ, y)p(θ µ, τ, y) Tehtävä 5.1* - ks. "Computation" s. 137 Slide 22
Valmennuskurssien tehon arviointi Esim6_2.m Erillismalli - todennäköisyydellä 0.5 A:n todellinen valmennusefekti on pienempi kuin 28 Yhteismalli - (µ, σ) = (7.9, 4.2) Slide 23 - todennäköisyydellä 0.5, A:n todellinen valmennusefekti on pienempi kuin 7.9 - ei todennäköisyyttä sille, että A>B Hierarkkinen malli (ks. kirja) - todennäköisyydellä 0.93, A:n todellinen valmennusefekti on pienempi kuin 28 Meta-analyysi Meta-analyyissa yhdistetään ja analysoidaan useiden samaa aihetta tutkivien analyysien tuloksia - erityisesti lääketieteessä usein pieniä kokeita järjestetään eri puolilla maapalloa (yksittäisen instanssin resurssit riittävät vain pieneen kokeeseen) - usein pienen testin tuloksissa liikaa epävarmuutta - meta-anlyysilla yhdistetään julkaistut tulokset epävarmuuden vähentämiseksi Slide 24 - meta-analyysi hoituu luontevasti hierarkkisella mallilla Kiinnostuneet voivat lukea esimerkin kirjasta (s. 145)
Vaihtokelpoisuus Perustelu miksi voidaan käyttää - datalle yhteistä mallia - parametreille yhteistä prioria Lievempi ehto kuin riippumattomuus "Ignorance implies exchangeability" Slide 25 Vaihtokelpoisuus Joukko kokeita j = 1,..., J Kokeeseen j liittyy havainnot y j, parametri θ j ja likelihood p(y j θ j ) Osa parametreista voi olla yhteisiä kaikille kokeille - esimerkiksi hierarkkisessa normaalijakaumamallissa voi olla θ j = (µ j, σ 2 ), jolloin oletetaan, että eri kokeissa on sama varianssi Slide 26
Vaihtokelpoisuus Vaihtokelpoisuus voidaan määritellä kahdella tavalla 1. Jos mitään muuta informaatiota kuin data y ei ole saatavilla erottamaan θ j :ta toisistaan ja parametreja ei voida järjestää tai ryhmitellä, voidaan olettaa parametrien välinen symmetria niiden priorijakaumassa - tämä symmetria voidaan esittää vaihtokelpoisuudella Slide 27 2. Parametrit θ 1,..., θ J ovat vaihtokelpoisia yhteisjakaumassaan jos p(θ 1,..., θ J ) on invariantti indeksien (1,..., J) permutaatioille Esimerkiksi rottakokeessa 1. ei muuta informatioita kuin n j joiden ei oleteta liittyvän θ j :n; joten voidaan olettaa vaihtokelpoisuus 2. jos kokeet numeroidaan uudelleen ja koe 17 vaihtuu kokeeksi 44, tämä ei vaikuta oletukseen priori-informaatiosta, joten voidaan olettaa vaihtokelpoisuus Vaihtokelpoisuus Vaihtokelpoisuus ei tarkoita etteivätkö kokeiden tulokset voisi olla erilaisia - esim. jos tiedämme, että kokeet on tehty kahdessa eri laboratoriossa, joista toisessa tiedetään olevan rotilla paremmat olot, mutta emme tiedä mitkä kokeet on tehty missä laboratoriossa - a priori kokeet edelleen vaihtokelpoisia Slide 28 - mallissa voisi olla tuntemattomana parametrina mistä laboratoriosta rotta tulee, ja ehdollisesti samasta paikasta tuleville yhteinen priori (klusterointimalli)
Vaihtokelpoisuus Vaihtokelpoisuuden yksinkertaisin muoto (ei ainoa) parametreille θ on riippumattomat näytteet priori- tai populaatiojakaumasta J p(θ φ) = p(θ j φ) j=1 Slide 29 Yleensä φ tuntematon ja halutaan θ:n marginaalijakauma J p(θ) = p(θ j φ) p(φ)dφ j=1 Tämä muoto on riippumattomien identtisten jakaumien sekamalli (mixture of iid distributions) de Finettin lauseen mukaan, kun J, kaikki hyvin käyttäytyvät (θ 1,..., θ J ):n vaihtokelpoiset jakaumat voidaan kirjoittaa tässä muodossa - formaalisti ei päde kun J äärellinen, mutta usein riittävästi Vaihtokelpoisuus Esimerkki: Noppa jonka sivujen todennäköisyydet θ 1,...,θ 6 - ilman muuta tietoa θ 1,...,θ 6 vaihtokelpoisia - lisärajoitteen 6 j=1 θ j vuoksi eivät riippumattomia ja siten ei voida mallittaa riippumattomien identtisten jakaumien sekamallina Slide 30
Vaihtokelpoisuus 1) tiedetään, että laatikossa on 1 musta ja 1 valkoinen pallo, nostetaan ensin yksi pallo y 1, laitetaan se takaisin, sekoitetaan ja nostetaan toinen pallo y 2 - ovatko havainnot y 1 ja y 2 vaihtokelpoisia? - ovatko havainnot y 1 ja y 2 riippumattomia? 2) tiedetään, että laatikossa on 1 musta ja 1 valkoinen pallo, nostetaan ensin yksi Slide 31 pallo y 1, ei laiteta sitä takaisin, ja nostetaan toinen pallo y 2 - ovatko havainnot y 1 ja y 2 vaihtokelpoisia? - ovatko havainnot y 1 ja y 2 riippumattomia? 3) tiedetään, että laatikossa on 10000 mustaa ja 10000 valkoista palloa, nostetaan ensin yksi pallo y 1, ei laiteta sitä takaisin, ja nostetaan toinen pallo y 2 - ovatko havainnot y 1 ja y 2 vaihtokelpoisia? - ovatko havainnot y 1 ja y 2 riippumattomia? - voidaanko toimia aivan kuin jos havainnot olisivat riippumattomia? Vaihtokelpoisuus 4) tiedetään, että laatikossa on muutamia (n tunnettu) mustia ja valkoisia palloja (suhdetta ei tunneta), nostetaan ensin yksi pallo y 1, laitetaan se takaisin, sekoitetaan ja nostetaan toinen pallo y 2 Slide 32 - ovatko havainnot y 1 ja y 2 vaihtokelpoisia? - ovatko havainnot y 1 ja y 2 riippumattomia? - voidaanko toimia aivan kuin jos havainnot olisivat riippumattomia? 5) tiedetään, että laatikossa on muutamia (n tunnettu) mustia ja valkoisia palloja (suhdetta ei tunneta), nostetaan ensin yksi pallo y 1, ei laiteta sitä takaisin, ja nostetaan toinen pallo y 2 - ovatko havainnot y 1 ja y 2 vaihtokelpoisia? - ovatko havainnot y 1 ja y 2 riippumattomia? - voidaanko toimia aivan kuin jos havainnot olisivat riippumattomia?
Vaihtokelpoisuus 6) tiedetään, että laatikossa on paljon (n voi olla tunnettu) mustia ja valkoisia palloja (suhdetta ei tunneta), nostetaan ensin yksi pallo y 1, ei laiteta sitä takaisin, ja nostetaan toinen pallo y 2 - ovatko havainnot y 1 ja y 2 vaihtokelpoisia? - ovatko havainnot y 1 ja y 2 riippumattomia? Slide 33 - voidaanko toimia aivan kuin jos havainnot olisivat riippumattomia? Vaihtokelpoisuus Esimerkki: 8 USA:n osavaltion erojen määrä per 1000 asukasta vuonna 1981 - ilman muuta tietoa y 1,..., y 8 vaihtokelpoisia Seitsemän ensimmäisen erojen määrät ovat 5.6, 6.6, 7.8, 5.6, 7.0, 7.2, 5.4 - y 1,..., y 8 vaihtokelpoisia Slide 34 Vaihtoehtoisesti tiedossa, että 8 osavaltiota ovat Arizona, Colorado, Idaho, Montana, Nevada, New Mexico, Utah, Wyoming, mutta järjestystä ei tiedetä - ennen datan näkemistä edelleen y 1,..., y 8 vaihtokelpoisia, mutta priorijakauma voisi ottaa huomioon, että Utahissa asuu paljon mormoneja ja Nevadassa on helppo saada ero; priori voisi olla multimodaalinenkin Vaihtoehtoisesti tiedossa, että y 8 on Nevada - jopa ennen datan näkemistä, y 1,..., y 8 eivät enää vaihtokelpoisia, koska on informaatiota joka erottaa y 8 :n muista - voisi olettaa, että p(y 8 > max(y 1,..., y 7 )) suuri - Nevadassa eroja 13.9 per 1000 asukasta
Vaihtokelpoisuus ja lisäinformaatio yksiköistä Slide 35 Esimerkki: jos olisi tiedossa eroluku x j osavaltiossa j edellisenä vuotena - y j :t eivät vaihtokelpoisia - (x j, y j ):t vaihtokelpoisia - yleisesti voidaan tehdä vaihtokelpoinen malli ehdolla lisäinformaatio J p(θ 1,..., θ J x 1,..., x J ) = p(θ j φ, x j ) p(φ x 1,..., x J )dφ j=1 - x j :stä käyteään termiä covariate, joka viittaa siihen, että sen arvo vaihtelee yhdessä y j :n kanssa Tällä tavalla vaihtokelpoisuusmalleista tulee hyvin yleiskäyttöisiä, koska lisäinformaatio joka erottelisi yksiköt voidaan sisällyttää muuttujiin x ja y Kommentit6.pdf sisältää lisäesimerkkejä Vaihtokelpoisuus ja lisäinformaatio yksiköistä Esimerkki: myrkyllisyyskoe - x i pitoisuus - y i kuolleiden eläimien määrä - (x i, y i ) vaihtokelpoisia ja käytettiin logistista regressiomallia Slide 36 n p(α, β y, n, x) p(y i α, β, n i, x i )p(α, β) i=1
Vaihtokelpoisuus ja ehdollinen mallintaminen* (s. 354) Yhteismalli vaihtokelpoisille (x i, y i ) p(x, y ϕ, θ) = p(x ϕ)p(y x, θ) Oletetaan ϕ ja θ a priori riippumattomiksi, eli p(ϕ, θ) = p(ϕ)p(θ), jolloin yhteisposteriorijakauma Slide 37 p(ϕ, θ x, y) = p(ϕ x)p(θ x, y) Voimme tutkia termiä p(θ x, y) yksinään p(θ x, y) p(y x, θ)p(θ) Jos x valittu esim. koejärjestelyssä, p(x) tunnettu ja ei ole parametreja ϕ Hierarkkinen vaihtokelpoisuus Esimerkki: sydäntautien hoidon tehokkuus - kaikki potilaat eivät keskenään vaihtokelpoisia - yksittäisissä sairaaloissa potilaat keskenään vaihtokelpoisia - sairaalat keskenään vaihtokelpoisia - hierarkkinen malli Slide 38
Osittainen tai ehdollinen vaihtokelpoisuus Usein havinnot eivät ole täysin vaihtokelpoisia Osittainen (partial) vaihtokelpoisuus Slide 39 - jos datapisteet ovat ryhmiteltävissä ryhmiksi voidaan tehdä hierarkkinen malli, jossa jokainen ryhmä mallitetaan erikseen mutta ryhmien ominaisuudet ovat tuntemattomia ja jos oletetaan että ryhmien ominaisuudet ovat vaihtokelpoisia voidaan ryhmien ominaisuuksille käyttää yhteistä prioria. Ehdollinen vaihtokelpoisuus - jos y i :hin liitty joku muu tieto x i, jonka vuoksi y i :t eivät vaihtokelpoisia, mutta (y i, x i ) vaihtokelpoisia voidaan tehdä yhteismalli tai ehdollinen malli (y i x i ). Vaihtokelpoisuus - kertaus Havainnot y 1,..., y n ovat vaihtokelpoisia yhteisjakaumassaan jos p(y 1,..., y n ) on invariantti indeksien (1,...,n) permutaatioille Parametrit θ 1,...,θ J ovat vaihtokelpoisia yhteisjakaumassaan jos p(θ 1,...,θ J ) on invariantti indeksien (1,..., J) permutaatioille Vaihtokelpoisuuden yksinkertaisin muoto (ei ainoa) on riippumattomat näytteet Slide 40 n J p(y θ) = p(y i θ j ) tai p(θ φ) = p(θ j φ) i=1 j=1