Markov-ketju Monte Carlo - konvergenssidiagnostiikka (convergence diagnostics) - odotettu hyöty tai kustannus (expected utility or cost)

Viime kerralla Markov-ketju Monte Carlo - konvergenssidiagnostiikka (convergence diagnostics) - kuinka monta riippuvaa simulaationäytettä tarvitaan - joitakin perus-mcmc-menetelmien parannuksia Slide 1 Päätösanalyysi - hyöty- ja kustannusfunktiot (utility and cost functions) - odotettu hyöty tai kustannus (expected utility or cost) Bayesilainen päätöksenteko Mahdolliset päätökset d (decision) Mahdolliset seuraamukset x Seuraamuksien todennäköisyysjakaumat annettuna päätökset p(x d) Hyötyfunktio U(x) (utility function) kuvaa seuraamuksen reaaliluvuksi Slide 2 Hyödyn todennäköisyysjakauma p(u(x) d) Odotettu hyöty E(U(x) d) (expected utility) Valitaan päätös d, joka maksimoi odotetun hyödyn E(U(x) d)

Yhteys mallien arviointiin ja valintaan Mikä on odotettu hyöty jos käytämme mallia ennustamiseen ja päätöksentekoon tulevaisuudessa - mallin odotettu hyöty - voidaan arvioida onko mallista käytännön hyötyä - voidaan vertailla mallien odotettuja hyötyjä Slide 3 Luento 9 Mallin tarkistus - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn? Mallin herkkyysanalyysi - kuinka paljon päättely muuttuu jos mallioletuksia muutetaan? Mallien vertailu ja valinta Slide 4 - posterioritodennäköisyys ja Bayes factor - prediktiivinen tarkkkuus

Onko mallin tuloksissa järkeä? Käytännön ongelmissa on usein tietämystä, jota ei ole formaalisti sisällytetty malliin (likelihood ja priori) - jos mallin tulokset ristiriidassa muun tietämyksen kanssa, on syytä miettiä mallin formaalit oletukset uudestaan Slide 5 Ulkoinen validointi (external validation) Verrataan mallin ennusteita uusiin havaintoihin - paras tapa - yleisesti tieteen tekemisessä käytetty tapa - jos mahdollista, ennustetaan jotkain mitä ei aiemmin mitattu vertaa esim. suhteellisuuteorian ennusteet Slide 6 - pahimmat mallin heikkoudet mahdollista havaita ilman ulkoista validointiakin

Posterioriprediktiivinen tarkistus Onko malli johdonmukainen? - mallin posterioriprediktiivisestä jakaumasta pomittujen näytteiden pitäisi muistuttaa alkuperäistä dataa - poimitaan posterioriprediktiivisiä näytteitä ja verrataan dataan systemaattiset poikkeamat viittavat puuteisiin mallissa Slide 7 - matkii ulkoista validointia tuottamalla uudet havainnot mallin avulla ongelmana datan käyttö kahteen kertaan paljastaa pahimmat ongelmat Gelmanin et al. posterioriprediktiivinen tarkistus on pragmaattinen menetelmä, ei formaali Posterioriprediktiivinen tarkistus - Esimerkki Newcombin valonnopeusmittaukset - malli y N(µ, σ 2 ) - priori (µ, log σ ) 1 Matlab9_1.m Slide 8

Posterioriprediktiivinen tarkistus Data y Parametrit θ Slide 9 Toistettu (replicated) data y rep - oletetaan, että havaitun datan generoi prosessi jota kuvaa hyvin malli M parametreilla θ - toistettu data havaittaisiin jos koe toistettaisiin - korvataan "oikea" generoiva prosessi mallilla ja parametreilla θ p(y rep y) = p(y rep θ)p(θ y)dθ Testisuure (test quantity) tai poikkeavuusmitta (discrepancy measure) T (y, θ) - yhteenvetoluku jota käytetään vertaamaan dataa ja prediktiivisiä näytteitä Posterioriprediktiivinen tarkistus Posterioriprediktiivinen p-arvo p = Pr(T (y rep, θ) T (y, θ) y) = I T (y rep,θ) T (y,θ) p(y rep θ)p(θ y)dy rep dθ Slide 10 missä I on indikaattorifunktio - jos näytteitä (y rep l, θ l ) posterioriprediktiivisestä jakaumasta, voidaan tämä laskea helposti laskemalla suhde kuinka moni näyte toteuttaa T (y rep l, θ l ) T (y, θ l ), l = 1,..., L

Posterioriprediktiivinen tarkistus - Esimerkki Riippumattomuus binomikokeissa - malli y N(µ, σ 2 ) - priori (µ, log σ ) 1 Havainnot järjestyksessä 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0 Slide 11 T = vaihtojen määrä sarjassa - havaittu T (y) = 3 Matlab9_2.m Posterioriprediktiivinen tarkistus Testisuureiden valinta - mallin parametreja vastaavia ominaisuuksia ei kannata testa, koska ne ovat sovittuneet dataan - testattava ominaisuuksia, jotka eivät mallin paramtereina - eri testeillä voi olla suuret erot Slide 12 Matlab9_3.m

Posterioriprediktiivinen tarkistus Monikäyttöiset (omnibus) testit - χ 2 -poikkeama (discrepancy) T (y, θ) = i (y i E(Y i θ)) 2 var(y i θ) - deviance Slide 13 T (y, θ) = 2 log p(y θ) = 2 i log p(y i θ) missä 2 johtuu historiallisesta syystä ja normaalijakaumasta Kumpikaan näistä ei huomaa mitään vikaa valonnopeusdatassa, koska ongelmallisia havaintoja on vain 2/66 - voitaisiin tutkia myös max i ( 2 log p(y i θ)) Matlab9_4.m Posterioriprediktiivinen tarkistus Posterioriprediktiivisten p-arvojen tulkinta - jos p-arvo lähes 0 tai 1 viittaa siihen, että malli ei mallinna hvyin tätä datan ominaisuutta - jos p-arvo hyvin lähellä 0:a tai 1:ä, ei tarkemmalla arvolla ole väliä - tarkoitus ei ole arvioida onko malli "oikea", vaan verrata mallin ja datan eroavaisuuksia ja arvioida voisivatko erot olla sattumaa annettuna Slide 14 mallioletukset

Posterioriprediktiivinen tarkistus Useat vertailut - jos tehdään monta testiä kasvaa mahdollisuus, että joku testeistä tuotaa sattumalta p-arvon joka lähellä 0:a tai 1:ä Slide 15 - on olemassa "usean vertailun" korjaustermejä, mutta Gelman et al: tarkoitus ei ole hyväksyä tai hylätä mallia vaan ymmärtää sen rajoituksia realistisissa sovelluksissa Vehtari: koska eri testisuureiden riippuvuudet eivät ole tiedossa, ei korjaustermiä voida laskea kuitenkaan Posterioriprediktiivinen tarkistus Hyvin pieni tai iso p-arvo - kuinka mallia voisi parantaa? - esim. valonnopeusesimerkissä sekamalli jossa oma komponetti poikkeaville mittauksille Keskikokoinen p-arvo Slide 16 - kuinka mallin sopivuutta voisi arvioida lisää? - esim. valmennuskurssiesimerkissä yhteismallia ei voi datan perusteella hylätä, mutta hierarkisen mallin kanssa oleelliset johtopäätökset muuttuvat paljon

Herkkysanalyysi (sensitivity analysis) Kuinka paljon erilaiset mallissa ja priorissa olevat fiksatut asiat vaikuttavat päättelyyn? - testaa vaihtoehtoisia malleja ja prioreja Slide 17 - vaihtoehtoiset mallit tai priorit voi mahdollisesti muuttaa yhdeksi malliksi, jossa hyperparametrin avulla jatkumo eri mallien välillä esim. hierarkinen malli erillis- ja yhteismallin sijaan esim. t-jakauma fiksatun pitkähäntäisen ja normaalijakauman sijaan - robustit mallit hyviä testaamaan herkkyyttä poikkeaville havainnoille esim. t-jakauma normaalijakauman sijaan Vertaa oleellisten päättelyn tuloksia - äärikvantiilit herkempiä kuin keskiarvot tai mediaanit - extrapolointi herkempää kuin interpolointi Mallien vertailu ja valinta Mallin valinnan lähtökohta on mallien vertailu Mallin valinta voidaan korvata - integroimalla yli diskreetin mallijoukon - korvaamalla diskreetti joukko malleja jatkuvalla malliperheellä Teoriassa integrointi on parempi vaihtoehto Slide 18 - integrointi ottaa huomioon epävarmuuden mallissa Käytännössä - priorijakaumien valinta vaikeutuu mallien määrän kasvaessa tai malliperheiden monimutkaistuessa - rajallinen kohinainen data aiheuttaa ongelmia - tarve tehdä mallista helpommin tulkittava - tarve vähentää mittauskustannuksia - tarve vähentää laskenta-aikaa

Mallien vertailu ja valinta Usein mallien vertailu jaetaan kahteen tapaukseen - sisäkkäiset (nested) laajempi malli sisältää kaikki pienemmät mallit mallin valinnassa kyse sopivan kompleksisuustason valinnasta - ei-sisäkkäiset (nonnested) mallien oletukset voivat olla hyvinkin erilaisia Slide 19 Tällä jaolla pääasiassa historiallista merkitystä (eräät todistukset olettavat sisäkkäisyyden) Mallin posterioritodennäköisyys ja Bayes factor Kaksi vaihtoehtoista mallia M 1 ja M 2 ja muu taustatieto I, joka sisältää mallivaihtoehtojen prioritodennäköisyydet Mallin M 1 posterioritodennäköisyys p(m 1 y, I) = p(y M 1, I)p(M 1 I) p(y I) Slide 20 kun lasketaan suhteita, normalisointitermi p(y I) kumoutuu pois p(m 1 y, I) p(y M 1, I)p(M 1 I) lasketaan suhde ja jätetään vielä I merkitsemättä p(m 2 y) p(m 1 y) = p(y M 2) p(m 2 ) p(y M 1 ) p(m 1 )

Mallin posterioritodennäköisyys ja Bayes factor Mallien posterioritodennäköisyyksien suhde p(m 2 y) p(m 1 y) = p(y M 2) p(m 2 ) p(y M 1 ) p(m 1 ) Slide 21 p(m 2 )/p(m 1 ) määräytyy priorista ja p(y M 2 )/p(y M 1 ) määräytyy likelihoodien kautta datasta p(y M 2 ) p(y M 1 ) = BF(M 2; M 1 ) Bayes factorin termit ovat tuttuja Bayesin kaavasta eli p(θ 1 y, M 1 ) = p(y θ 1, M 1 )p(θ 1 M 1 ) p(y M 1 ) p(y M 1 ) = p(y θ 1, M 1 )p(θ 1 M 1 )dθ 1 tätä termiä kutsutaan usein mallin evidenssiksi (evidence) Mallin posterioritodennäköisyys ja Bayes factor Evidenssitermien laskeminen usein hyvin vaikeaa p(y M 1 ) = p(y θ 1, M 1 )p(θ 1 M 1 )dθ 1 Joitakin vaihtoehtoja - analyyttinen ratkaisu vain suljettua muotoa oleville posteriorijakaumille Slide 22 - normaalijakauma-approksimaatio - variaatiolaskenta - MCMC-menetelmät Evidenssitermin arvioiminen MCMC:llä huomattavasti vaikeampaa kuin vain posteriorijakaumasta näytteiden poimiminen - tällä hetkellä suosituin tapa on käyttää trans-dimensionaalisia MCMC-menetelmiä (esim. RJMCMC)

Mallin posterioritodennäköisyys ja Bayes factor Mallien posterioritodennäköisyyksiä voidaan käyttää intergoimaan yli eri mallivaihtoehtojen (Bayesian model averaging (BMA)) - BMA ei eroa tavallisesta mallin parametrien yli integroinnista vaikka sille on erillinen termi keksitty - jos mahdollista usein järkevämpää laajentaa erilliset mallit jatkuvaksi malliperheeksi Slide 23 - esim. valmennuskurssiesimerkissä voitaisiin integroida yli erillis- ja yhteismallin, mutta hierarkinen malli sisältää molemmat ja jatkuvuuden niiden välillä Mallin posterioritodennäköisyys ja Bayes factor Mallien posterioritodennäköisyyksiä voidaan käyttää valitsemaan todennäköisin malli - todennäköisimmän mallin valinta vastaa marginaalisen posterioritiheyden maksimointia - toimii hyvin jos mallissa ei parametreja Slide 24 - mitä enemmän mallissa on dataan sovitettavia parametreja sitä huonommin Bayes factor toimii

Mallin posterioritodennäköisyys ja Bayes factor Esim. geeni-esimerkki kirjan luvussa 1 - ainoana parametrina oli onko äiti kantaja - vaihtoehtoisesti voidaan ajatella olevan kaksi mallia: M 1 äiti on kantaja, M 2 äiti ei kantaja - laskut samat kuin ennenkin Slide 25 Mallin posterioritodennäköisyys ja Bayes factor Bayes factorin prioriherkkyys johtuu priorijakauman yli integroinnista p(y M 1 ) = p(y θ 1, M 1 )p(θ 1 M 1 )dθ 1 - jos p(θ 1 M 1 ) ei aito, BF ei määritelty - vaikka p(θ 1 M 1 ) aito, termi silti herkkä priorille Slide 26 - ongelma pahenee θ:n ulottuvuuksien määrän kasvaessa - ongelma pahenee jos priori-informaatio ei tarkkaa Bayes factorin prioriherkkyyttä voi hahmottaa myös ketjusäännön avulla p(y M 1 ) = p(y 1 M 1 )p(y 2 y 1, M 1 ),..., p(y n y 1,..., y n 1, M 1 ) tässä tulossa ensimmäiset termit ovat herkkiä priorille Jos dataa paljon suhteessa mallin kompleksisuuteen, Bayes factor toimii ok

Prediktiivinen tarkkuus ja mallin odotettu hyöty Prediktiivinen tarkkuus - minkä mallin ennusteet ovat ovat tarkimmat? - onko mallien ennusteissa eroa? Mallin odotettu hyöty - minkä mallin odotettu hyöty on suurin? Slide 27 - onko mallien odotetuissa hyödyissä käytännön eroa? Prediktiivinen tarkkuus ja mallin odotettu hyöty - prediktiivistä tarkkuutta voidaan mitata sopivilla hyötyfunktioilla Prediktiivinen tarkkuus ja mallin odotettu hyöty Slide 28 Annettuna - data D = {(x (i), y (i) ); i = 1, 2,..., n}, missä x (i) kovariaatteja - malli M - tuleva havainto x (n+1) - posterioriprediktiivinen jakauma p(y (n+1) x (n+1), D, M) hyötyfunktio u vertaa prediktiivistä jakaumaa havaintoon (x (n+1), y (n+1) ) Esim: yleiskäyttöinen hyötyfunktio - prediktiivinen likelihood u = p(y (n+1) x (n+1), D, M) (prediktiivisen jakauman tiheys pisteessä y (n+1) ) Mallin odotettu hyötyy saadaan laskemalla odotuasrvo ū = E (x (n+1),y (n+1) ) [ ] u(y (n+1), x (n+1), D, M)

Prediktiivinen tarkkuus ja mallin odotettu hyöty Mallin odotettu hyötyy saadaan laskemalla odotuasrvo ū = E (x (n+1),y (n+1) ) [ ] u(y (n+1), x (n+1), D, M) Slide 29 Jakauma p(x (n+1), y (n+1) ) tuntematon - jos havainto (x (n+1), y (n+1) ) olisi käytettävissä, olisi kyseessä ulkoinen validointi Mallin odotettu hyöty voidaan approksimoida - posteriorivalidointi - osavalidointi - ristiinvalidointi - asymptoottiset approksimaatiot Ristiinvalidointi (cross-validation (CV))* Mallin odotettu hyöty ū = E (x (n+1),y (n+1) ) [ ] u(y (n+1), x (n+1), D, M) Jakauma p(x (n+1), y (n+1) ) estoimidaan käyttäen havaintoja (x (i), y (i) ) ja prediktiiviset jakaumat korvataan CV-prediktiivisten jakaumien joukolla Slide 30 {p(y (i) x (i), D (\i), M); i = 1, 2,..., n} missä D (\i) on D:n kaikki alkiot paitsi (x (i), y (i) ) CV-prediktiivisiä jakaumia verrataan havaittuihin y (i) :hin hyötyfunktion u avulla ja otetaan odotusarvo i:n yli mikä on harhaton estimaatti ] ū CV = E i [u(y (i), x (i), D (\i), M)

Mallin odotettu hyöty Mallin odotettu hyötyä arvioitaessa voidaan käyttää vapaavalintaista hyötyfunktiota Sovelluskohtaiset hyötyfunktiot tärkeitä Slide 31 Jos kiinnostuksen kohteena on prediktiivisen jakauman yleinen tarkkuus tai sovelluskohtaista hyötyfunktiota ei ole tiedossa, sopiva hyötyfunktio on prediktiivinen likelihood Ristiinvalidointi* Jos p(x (n+1), y (n+1) ):n jakauman oletetaan poikkeavan havaintojen (x (i), y (i) ) jakaumasta, voidaan havaintoja painottaa sopivasti - hyödyllistä esimerkiksi jos x i valittu koesuunnittelussa Perusoletuksena oli, että (x (i), y (i) ) vaihtokelpoisia Slide 32 - sopivilla muutoksilla voidaan ristiinvalidointia käyttää myös jos havainnoilla hierarkinen vaihtokelpoisuus tai muu riittävän rajoitettu riippuvuusrakenne Perusmuodossa laskenta vaatii n kertaa posteriorijakauman laskemisen - yksinkertaisille malleille nopeata analyyttisilla ratkaisuilla - monimutkaisille malleille voidaan laskennallista raskautta vähentää painotuspoimintaristiinvalidoinnilla k-kertaisella ristiinvalidoinnilla

Posteriorivalidointi* Posteriorivalidointi - jos dataa paljon verrattuna efektiiviseen parametrien määrään verrattuna, ristiinvalidointiprediktiiviset jakaumat {p(y (i) x (i), D (\i), M); i = 1, 2,..., n} voidaan approksimoida posterioriprediktiivisillä jakaumilla Slide 33 {p(y (i) x (i), D, M); i = 1, 2,..., n} missä merkintäsyistä joudutaan merkitsemään D, joka on datan D täsmällinen kopio - tällöin yksi posteriorijakauman estimointi riittää - kun käytetään virhefunktiota, tunnetaan tämä estimaatti myös nimellä "opetusvirhe" Efektiivinen parametrien määrä* Kun hyötyfunktiona log-likelihood kertaa n L( θ) = i log p(y (i) x (i), θ, D, M) Slide 34 posterioriprediktiivisen estimaatin ja ristiinvalidointiprediktiivisen estimaatin välinen ero on efektiivinen parametrien määrä p eff,cv = i [ ] log p(y (i) x (i), D, M) i [ ] log p(y (i) x (i), D (\i), M) = L PO L CV Efektiiviiseen parametrien määrään vaikuttaa - priorin vaikutus - parametrien välinen riippuvuus - havaintojen määrä (p eff n) - epävarmuuden määrä ja allaolevan ilmiön kompleksisuus - eli kuinka paljon parametrit ovat sovittuneet dataan

Osavalidointi* Osavalidointi - jos dataa paljon, voidaan data jakaa kahtia ja käyttää toista osaa ulkoisen validoinnin tavoin {p(y (i) x (i), D (1,..., j), M); i = j + 1,..., n} missä esim. j = n/2 Slide 35 - tätä voidaan kutsua partial predictive arvioinniksi Informaatiokriteerit Odotettu hyöty ū = E (x (n+1),y (n+1) ) [ ] u(y (n+1), x (n+1), D, M) Oikea prediktiivinen jakauma korvataan jakaumalla, jossa parametrien integroinnin sijaan käytetään parametrien piste-estimaattia θ Slide 36 p(y (n+1) x (n+1), θ, D, M) Taylorin sarjakehitelmällä (asymptoottinen approksimaatio) saadaan odotetun hyödyn estimaatti ] ū NIC = E i [u(y (i), x (i), θ, D, M) + tr(k J 1 ) missä K = Var[ū( θ) ] ja J = E[ū( θ) ], missä ū( θ) ja ū( θ) ovat ensimmäiset ja toiset derivaatat θ:n suhteen

Informaatiokriteerit Oikea prediktiivinen jakauma korvataan jakaumalla, jossa parametrien integroinnin sijaan käytetään parametrien piste-estimaattia θ p(y (n+1) x (n+1), θ, D, M) Vaihtoehtoisia plug-in estimaatteja θ - AIC: maximum likelihood Slide 37 - NIC: maximum a posteriori - DIC: posterioriodotusarvo Informaatiokriteerit* Taylorin sarjakehitelmällä (asymptoottinen approksimaatio) saadaan odotetun hyödyn estimaatti ] ū NIC = E i [u(y (i), x (i), θ, D, M) + tr(k J 1 ) Slide 38 AIC: Oletetaan "oikea" malli ja käytetään n kertaa log-likelihoodia L( θ) = i log p(y(i) x (i), θ, D, M) jolloin tr(k J 1 ) = p, ja L AIC = L( θ) p

Deviance Information Criterion (DIC) Taylorin sarjakehitelmällä (asymptoottinen approksimaatio) saadaan odotetun hyödyn estimaatti ] ū NIC = E i [u(y (i), x (i), θ, D, M) + tr(k J 1 ) DIC:ssä tehdään Monte Carlo -approksimaatio Slide 39 2 (E θ [ū(θ)] ū(e θ [θ])) tr(k J 1 ) missä odotusarvot estoimidaan käyttäen posteriorijakaumasta poimittuja näytteitä Yleistetty DIC vapaavalintaiselle hyötyfunktiolle (Vehtari, 2001) ū DIC = ū(e θ [θ]) + 2 (E θ [ū(θ)] ū(e θ [θ])) Alunperin DIC määriteltiin vain deviance:lle D = 2 log p(y θ) jolloin saadaan DIC = 2E θ [ D(θ)] D(E θ [θ]) Deviance Information Criterion (DIC) DIC:n johto alunperin ja kirjassa eri tavalla kuin luennolla DIC on nopea ja helppo laskea, BUGSissa valmiina DIC:n ongelmia - piste-estimaatin käyttö prediktiivisessä jakaumassa aliarvioi epävarmuuden Slide 40 - asymptoottisessa approksimaatiossa tehdyt oletukset eivät pidä paikkansa, pahimmat ongelmat ovat jos likelihoodin jakauma kaukana normaalista jos havainnot eivät riippumattomia - tulos riippuu parametrisoinnista - odotetun hyödyn epävarmuuden arviointi vaikeaa - voi arvioida p eff :n negatiiviseksi

Deviance Information Criterion (DIC) Valmennuskurssiesimerkki Malli D(E θ [θ]) p eff DIC erillismalli 54.9 7.7 70.3 yhteismalli 59.5 1.0 61.5 hierarkinen 57.8 2.8 63.4 Slide 41 ongelma: onko yhteismallin ja hierarkisen mallin ero merkittävä?