Markov-ketju Monte Carlo - konvergenssidiagnostiikka (convergence diagnostics) - odotettu hyöty tai kustannus (expected utility or cost)

Samankaltaiset tiedostot
p(y θ, M) p(θ M)dθ p(θ y, M) = p(y M) Luento 10 Marginaaliuskottavuus Bayes-tekijä Mallin odotettu hyöty DIC (Deviance Information Criterion)

Mallin tarkistus (luku 6) - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn?

Bayesilainen päätöksenteko / Bayesian decision theory

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Bayesilaisen mallintamisen perusteet

Mallin tarkistus - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn?

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

p(θ 1 y) on marginaalijakauma p(θ 1 θ 2, y) on ehdollinen posteriorijakauma Viime kerralla Termejä viime kerralta Marginalisointi Marginaalijakauma

Viime kerralla. Luento 6. Normaalijakauma-approksimaatio - moodi. - havaittu informaatio

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

- voidaan käyttä lisämään tieteellistä ymmärrystä ilmiöstä. - joidenkin havaittavien suureiden vaikutus voi olla paljon suurempi kuin toisten

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Luento 11. Muutama hyödyllinen Monte Carlo-menetelmä. Muutama hyödyllinen Monte Carlo-menetelmä. Mitä muuta hyödyllistä Gelman et al kirjasta löytyy

Kuinka monta riippumatonta simulaationäytettä tarvitaan. - tämä varianssi on riippumaton jakauman ulottuvuuksien määrästä

Posteriorijakauman normaalijakauma-approksimaatio. Usein posteriorijakauma lähestyy normaalijakaumaa kun n

Sovellettu todennäköisyyslaskenta B

exp p(y θ) = 1 2πσ θ)2 2σ 2(y y N(θ, σ 2 ) Luento 3 Normaalijakauma (Gaussian) Normaalijakauma tunnetulla varianssilla

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Maximum likelihood-estimointi Alkeet

Binomi Jacob Bernoulli ( ), Bayes ( ) Normaali de Moivre ( ), Laplace ( ), Gauss ( )

3.6 Su-estimaattorien asymptotiikka

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Harjoitus 7: NCSS - Tilastollinen analyysi

Pikajohdatus bayesilaiseen tilastoanalyysiin ja monimuuttuja-analyysiin

exp Luento 3 Normaalijakauma (Gaussian) Normaalijakauma tunnetulla varianssilla Normaalijakauma tunnetulla keskiarvolla Poisson-mallli

Osa 2: Otokset, otosjakaumat ja estimointi

Sovellettu todennäköisyyslaskenta B

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

805306A Johdatus monimuuttujamenetelmiin, 5 op

S Bayesilaisen mallintamisen perusteet

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Väliestimointi (jatkoa) Heliövaara 1

Todennäköisyyden ominaisuuksia

BECS Bayesilainen mallintaminen Lyhyt englanti-suomi sanasto

Testejä suhdeasteikollisille muuttujille

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Estimointi. Vilkkumaa / Kuusinen 1

1. Tilastollinen malli??

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

θ 1 θ 2 θ n y i1 y i2 y in Luento 6 Hierarkkinen malli Johdatus hierarkkisiin malleihin - joskus myös termillä multilevel model

Mallipohjainen klusterointi

pitkittäisaineistoissa

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

pitkittäisaineistoissa

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely)

Mat Tilastollisen analyysin perusteet, kevät 2007

5.7 Uskottavuusfunktioon perustuvia testejä II

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Jos oletetaan, että sairaaloissa on eroja, kaikki potilaat eivät ole vaihtokelpoisia keskenään

TILASTOLLINEN OPPIMINEN

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

tilastotieteen kertaus

Identifiointiprosessi

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

2. Uskottavuus ja informaatio

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

Sovellettu todennäköisyyslaskenta B

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Tilastotieteen aihehakemisto

Tilastollinen aineisto Luottamusväli

6. laskuharjoitusten vastaukset (viikot 10 11)

Laskennallinen data-analyysi II

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Mikrobikriteereiden arviointi esimerkkinä kampylobakteeri

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Mitä on bayesilainen päättely?

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

T Luonnollisten kielten tilastollinen käsittely

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Parametrin estimointi ja bootstrap-otanta

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Teema 8: Parametrien estimointi ja luottamusvälit

Log-tiheydet - yli- ja alivuotojen välttämiseksi laskenta usein suoritettava log-tiheyksillä

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Sovellettu todennäköisyyslaskenta B

Tilastollinen päättely, 10 op, 4 ov

Transkriptio:

Viime kerralla Markov-ketju Monte Carlo - konvergenssidiagnostiikka (convergence diagnostics) - kuinka monta riippuvaa simulaationäytettä tarvitaan - joitakin perus-mcmc-menetelmien parannuksia Slide 1 Päätösanalyysi - hyöty- ja kustannusfunktiot (utility and cost functions) - odotettu hyöty tai kustannus (expected utility or cost) Bayesilainen päätöksenteko Mahdolliset päätökset d (decision) Mahdolliset seuraamukset x Seuraamuksien todennäköisyysjakaumat annettuna päätökset p(x d) Hyötyfunktio U(x) (utility function) kuvaa seuraamuksen reaaliluvuksi Slide 2 Hyödyn todennäköisyysjakauma p(u(x) d) Odotettu hyöty E(U(x) d) (expected utility) Valitaan päätös d, joka maksimoi odotetun hyödyn E(U(x) d)

Yhteys mallien arviointiin ja valintaan Mikä on odotettu hyöty jos käytämme mallia ennustamiseen ja päätöksentekoon tulevaisuudessa - mallin odotettu hyöty - voidaan arvioida onko mallista käytännön hyötyä - voidaan vertailla mallien odotettuja hyötyjä Slide 3 Luento 9 Mallin tarkistus - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn? Mallin herkkyysanalyysi - kuinka paljon päättely muuttuu jos mallioletuksia muutetaan? Mallien vertailu ja valinta Slide 4 - posterioritodennäköisyys ja Bayes factor - prediktiivinen tarkkkuus

Onko mallin tuloksissa järkeä? Käytännön ongelmissa on usein tietämystä, jota ei ole formaalisti sisällytetty malliin (likelihood ja priori) - jos mallin tulokset ristiriidassa muun tietämyksen kanssa, on syytä miettiä mallin formaalit oletukset uudestaan Slide 5 Ulkoinen validointi (external validation) Verrataan mallin ennusteita uusiin havaintoihin - paras tapa - yleisesti tieteen tekemisessä käytetty tapa - jos mahdollista, ennustetaan jotkain mitä ei aiemmin mitattu vertaa esim. suhteellisuuteorian ennusteet Slide 6 - pahimmat mallin heikkoudet mahdollista havaita ilman ulkoista validointiakin

Posterioriprediktiivinen tarkistus Onko malli johdonmukainen? - mallin posterioriprediktiivisestä jakaumasta pomittujen näytteiden pitäisi muistuttaa alkuperäistä dataa - poimitaan posterioriprediktiivisiä näytteitä ja verrataan dataan systemaattiset poikkeamat viittavat puuteisiin mallissa Slide 7 - matkii ulkoista validointia tuottamalla uudet havainnot mallin avulla ongelmana datan käyttö kahteen kertaan paljastaa pahimmat ongelmat Gelmanin et al. posterioriprediktiivinen tarkistus on pragmaattinen menetelmä, ei formaali Posterioriprediktiivinen tarkistus - Esimerkki Newcombin valonnopeusmittaukset - malli y N(µ, σ 2 ) - priori (µ, log σ ) 1 Matlab9_1.m Slide 8

Posterioriprediktiivinen tarkistus Data y Parametrit θ Slide 9 Toistettu (replicated) data y rep - oletetaan, että havaitun datan generoi prosessi jota kuvaa hyvin malli M parametreilla θ - toistettu data havaittaisiin jos koe toistettaisiin - korvataan "oikea" generoiva prosessi mallilla ja parametreilla θ p(y rep y) = p(y rep θ)p(θ y)dθ Testisuure (test quantity) tai poikkeavuusmitta (discrepancy measure) T (y, θ) - yhteenvetoluku jota käytetään vertaamaan dataa ja prediktiivisiä näytteitä Posterioriprediktiivinen tarkistus Posterioriprediktiivinen p-arvo p = Pr(T (y rep, θ) T (y, θ) y) = I T (y rep,θ) T (y,θ) p(y rep θ)p(θ y)dy rep dθ Slide 10 missä I on indikaattorifunktio - jos näytteitä (y rep l, θ l ) posterioriprediktiivisestä jakaumasta, voidaan tämä laskea helposti laskemalla suhde kuinka moni näyte toteuttaa T (y rep l, θ l ) T (y, θ l ), l = 1,..., L

Posterioriprediktiivinen tarkistus - Esimerkki Riippumattomuus binomikokeissa - malli y N(µ, σ 2 ) - priori (µ, log σ ) 1 Havainnot järjestyksessä 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0 Slide 11 T = vaihtojen määrä sarjassa - havaittu T (y) = 3 Matlab9_2.m Posterioriprediktiivinen tarkistus Testisuureiden valinta - mallin parametreja vastaavia ominaisuuksia ei kannata testa, koska ne ovat sovittuneet dataan - testattava ominaisuuksia, jotka eivät mallin paramtereina - eri testeillä voi olla suuret erot Slide 12 Matlab9_3.m

Posterioriprediktiivinen tarkistus Monikäyttöiset (omnibus) testit - χ 2 -poikkeama (discrepancy) T (y, θ) = i (y i E(Y i θ)) 2 var(y i θ) - deviance Slide 13 T (y, θ) = 2 log p(y θ) = 2 i log p(y i θ) missä 2 johtuu historiallisesta syystä ja normaalijakaumasta Kumpikaan näistä ei huomaa mitään vikaa valonnopeusdatassa, koska ongelmallisia havaintoja on vain 2/66 - voitaisiin tutkia myös max i ( 2 log p(y i θ)) Matlab9_4.m Posterioriprediktiivinen tarkistus Posterioriprediktiivisten p-arvojen tulkinta - jos p-arvo lähes 0 tai 1 viittaa siihen, että malli ei mallinna hvyin tätä datan ominaisuutta - jos p-arvo hyvin lähellä 0:a tai 1:ä, ei tarkemmalla arvolla ole väliä - tarkoitus ei ole arvioida onko malli "oikea", vaan verrata mallin ja datan eroavaisuuksia ja arvioida voisivatko erot olla sattumaa annettuna Slide 14 mallioletukset

Posterioriprediktiivinen tarkistus Useat vertailut - jos tehdään monta testiä kasvaa mahdollisuus, että joku testeistä tuotaa sattumalta p-arvon joka lähellä 0:a tai 1:ä Slide 15 - on olemassa "usean vertailun" korjaustermejä, mutta Gelman et al: tarkoitus ei ole hyväksyä tai hylätä mallia vaan ymmärtää sen rajoituksia realistisissa sovelluksissa Vehtari: koska eri testisuureiden riippuvuudet eivät ole tiedossa, ei korjaustermiä voida laskea kuitenkaan Posterioriprediktiivinen tarkistus Hyvin pieni tai iso p-arvo - kuinka mallia voisi parantaa? - esim. valonnopeusesimerkissä sekamalli jossa oma komponetti poikkeaville mittauksille Keskikokoinen p-arvo Slide 16 - kuinka mallin sopivuutta voisi arvioida lisää? - esim. valmennuskurssiesimerkissä yhteismallia ei voi datan perusteella hylätä, mutta hierarkisen mallin kanssa oleelliset johtopäätökset muuttuvat paljon

Herkkysanalyysi (sensitivity analysis) Kuinka paljon erilaiset mallissa ja priorissa olevat fiksatut asiat vaikuttavat päättelyyn? - testaa vaihtoehtoisia malleja ja prioreja Slide 17 - vaihtoehtoiset mallit tai priorit voi mahdollisesti muuttaa yhdeksi malliksi, jossa hyperparametrin avulla jatkumo eri mallien välillä esim. hierarkinen malli erillis- ja yhteismallin sijaan esim. t-jakauma fiksatun pitkähäntäisen ja normaalijakauman sijaan - robustit mallit hyviä testaamaan herkkyyttä poikkeaville havainnoille esim. t-jakauma normaalijakauman sijaan Vertaa oleellisten päättelyn tuloksia - äärikvantiilit herkempiä kuin keskiarvot tai mediaanit - extrapolointi herkempää kuin interpolointi Mallien vertailu ja valinta Mallin valinnan lähtökohta on mallien vertailu Mallin valinta voidaan korvata - integroimalla yli diskreetin mallijoukon - korvaamalla diskreetti joukko malleja jatkuvalla malliperheellä Teoriassa integrointi on parempi vaihtoehto Slide 18 - integrointi ottaa huomioon epävarmuuden mallissa Käytännössä - priorijakaumien valinta vaikeutuu mallien määrän kasvaessa tai malliperheiden monimutkaistuessa - rajallinen kohinainen data aiheuttaa ongelmia - tarve tehdä mallista helpommin tulkittava - tarve vähentää mittauskustannuksia - tarve vähentää laskenta-aikaa

Mallien vertailu ja valinta Usein mallien vertailu jaetaan kahteen tapaukseen - sisäkkäiset (nested) laajempi malli sisältää kaikki pienemmät mallit mallin valinnassa kyse sopivan kompleksisuustason valinnasta - ei-sisäkkäiset (nonnested) mallien oletukset voivat olla hyvinkin erilaisia Slide 19 Tällä jaolla pääasiassa historiallista merkitystä (eräät todistukset olettavat sisäkkäisyyden) Mallin posterioritodennäköisyys ja Bayes factor Kaksi vaihtoehtoista mallia M 1 ja M 2 ja muu taustatieto I, joka sisältää mallivaihtoehtojen prioritodennäköisyydet Mallin M 1 posterioritodennäköisyys p(m 1 y, I) = p(y M 1, I)p(M 1 I) p(y I) Slide 20 kun lasketaan suhteita, normalisointitermi p(y I) kumoutuu pois p(m 1 y, I) p(y M 1, I)p(M 1 I) lasketaan suhde ja jätetään vielä I merkitsemättä p(m 2 y) p(m 1 y) = p(y M 2) p(m 2 ) p(y M 1 ) p(m 1 )

Mallin posterioritodennäköisyys ja Bayes factor Mallien posterioritodennäköisyyksien suhde p(m 2 y) p(m 1 y) = p(y M 2) p(m 2 ) p(y M 1 ) p(m 1 ) Slide 21 p(m 2 )/p(m 1 ) määräytyy priorista ja p(y M 2 )/p(y M 1 ) määräytyy likelihoodien kautta datasta p(y M 2 ) p(y M 1 ) = BF(M 2; M 1 ) Bayes factorin termit ovat tuttuja Bayesin kaavasta eli p(θ 1 y, M 1 ) = p(y θ 1, M 1 )p(θ 1 M 1 ) p(y M 1 ) p(y M 1 ) = p(y θ 1, M 1 )p(θ 1 M 1 )dθ 1 tätä termiä kutsutaan usein mallin evidenssiksi (evidence) Mallin posterioritodennäköisyys ja Bayes factor Evidenssitermien laskeminen usein hyvin vaikeaa p(y M 1 ) = p(y θ 1, M 1 )p(θ 1 M 1 )dθ 1 Joitakin vaihtoehtoja - analyyttinen ratkaisu vain suljettua muotoa oleville posteriorijakaumille Slide 22 - normaalijakauma-approksimaatio - variaatiolaskenta - MCMC-menetelmät Evidenssitermin arvioiminen MCMC:llä huomattavasti vaikeampaa kuin vain posteriorijakaumasta näytteiden poimiminen - tällä hetkellä suosituin tapa on käyttää trans-dimensionaalisia MCMC-menetelmiä (esim. RJMCMC)

Mallin posterioritodennäköisyys ja Bayes factor Mallien posterioritodennäköisyyksiä voidaan käyttää intergoimaan yli eri mallivaihtoehtojen (Bayesian model averaging (BMA)) - BMA ei eroa tavallisesta mallin parametrien yli integroinnista vaikka sille on erillinen termi keksitty - jos mahdollista usein järkevämpää laajentaa erilliset mallit jatkuvaksi malliperheeksi Slide 23 - esim. valmennuskurssiesimerkissä voitaisiin integroida yli erillis- ja yhteismallin, mutta hierarkinen malli sisältää molemmat ja jatkuvuuden niiden välillä Mallin posterioritodennäköisyys ja Bayes factor Mallien posterioritodennäköisyyksiä voidaan käyttää valitsemaan todennäköisin malli - todennäköisimmän mallin valinta vastaa marginaalisen posterioritiheyden maksimointia - toimii hyvin jos mallissa ei parametreja Slide 24 - mitä enemmän mallissa on dataan sovitettavia parametreja sitä huonommin Bayes factor toimii

Mallin posterioritodennäköisyys ja Bayes factor Esim. geeni-esimerkki kirjan luvussa 1 - ainoana parametrina oli onko äiti kantaja - vaihtoehtoisesti voidaan ajatella olevan kaksi mallia: M 1 äiti on kantaja, M 2 äiti ei kantaja - laskut samat kuin ennenkin Slide 25 Mallin posterioritodennäköisyys ja Bayes factor Bayes factorin prioriherkkyys johtuu priorijakauman yli integroinnista p(y M 1 ) = p(y θ 1, M 1 )p(θ 1 M 1 )dθ 1 - jos p(θ 1 M 1 ) ei aito, BF ei määritelty - vaikka p(θ 1 M 1 ) aito, termi silti herkkä priorille Slide 26 - ongelma pahenee θ:n ulottuvuuksien määrän kasvaessa - ongelma pahenee jos priori-informaatio ei tarkkaa Bayes factorin prioriherkkyyttä voi hahmottaa myös ketjusäännön avulla p(y M 1 ) = p(y 1 M 1 )p(y 2 y 1, M 1 ),..., p(y n y 1,..., y n 1, M 1 ) tässä tulossa ensimmäiset termit ovat herkkiä priorille Jos dataa paljon suhteessa mallin kompleksisuuteen, Bayes factor toimii ok

Prediktiivinen tarkkuus ja mallin odotettu hyöty Prediktiivinen tarkkuus - minkä mallin ennusteet ovat ovat tarkimmat? - onko mallien ennusteissa eroa? Mallin odotettu hyöty - minkä mallin odotettu hyöty on suurin? Slide 27 - onko mallien odotetuissa hyödyissä käytännön eroa? Prediktiivinen tarkkuus ja mallin odotettu hyöty - prediktiivistä tarkkuutta voidaan mitata sopivilla hyötyfunktioilla Prediktiivinen tarkkuus ja mallin odotettu hyöty Slide 28 Annettuna - data D = {(x (i), y (i) ); i = 1, 2,..., n}, missä x (i) kovariaatteja - malli M - tuleva havainto x (n+1) - posterioriprediktiivinen jakauma p(y (n+1) x (n+1), D, M) hyötyfunktio u vertaa prediktiivistä jakaumaa havaintoon (x (n+1), y (n+1) ) Esim: yleiskäyttöinen hyötyfunktio - prediktiivinen likelihood u = p(y (n+1) x (n+1), D, M) (prediktiivisen jakauman tiheys pisteessä y (n+1) ) Mallin odotettu hyötyy saadaan laskemalla odotuasrvo ū = E (x (n+1),y (n+1) ) [ ] u(y (n+1), x (n+1), D, M)

Prediktiivinen tarkkuus ja mallin odotettu hyöty Mallin odotettu hyötyy saadaan laskemalla odotuasrvo ū = E (x (n+1),y (n+1) ) [ ] u(y (n+1), x (n+1), D, M) Slide 29 Jakauma p(x (n+1), y (n+1) ) tuntematon - jos havainto (x (n+1), y (n+1) ) olisi käytettävissä, olisi kyseessä ulkoinen validointi Mallin odotettu hyöty voidaan approksimoida - posteriorivalidointi - osavalidointi - ristiinvalidointi - asymptoottiset approksimaatiot Ristiinvalidointi (cross-validation (CV))* Mallin odotettu hyöty ū = E (x (n+1),y (n+1) ) [ ] u(y (n+1), x (n+1), D, M) Jakauma p(x (n+1), y (n+1) ) estoimidaan käyttäen havaintoja (x (i), y (i) ) ja prediktiiviset jakaumat korvataan CV-prediktiivisten jakaumien joukolla Slide 30 {p(y (i) x (i), D (\i), M); i = 1, 2,..., n} missä D (\i) on D:n kaikki alkiot paitsi (x (i), y (i) ) CV-prediktiivisiä jakaumia verrataan havaittuihin y (i) :hin hyötyfunktion u avulla ja otetaan odotusarvo i:n yli mikä on harhaton estimaatti ] ū CV = E i [u(y (i), x (i), D (\i), M)

Mallin odotettu hyöty Mallin odotettu hyötyä arvioitaessa voidaan käyttää vapaavalintaista hyötyfunktiota Sovelluskohtaiset hyötyfunktiot tärkeitä Slide 31 Jos kiinnostuksen kohteena on prediktiivisen jakauman yleinen tarkkuus tai sovelluskohtaista hyötyfunktiota ei ole tiedossa, sopiva hyötyfunktio on prediktiivinen likelihood Ristiinvalidointi* Jos p(x (n+1), y (n+1) ):n jakauman oletetaan poikkeavan havaintojen (x (i), y (i) ) jakaumasta, voidaan havaintoja painottaa sopivasti - hyödyllistä esimerkiksi jos x i valittu koesuunnittelussa Perusoletuksena oli, että (x (i), y (i) ) vaihtokelpoisia Slide 32 - sopivilla muutoksilla voidaan ristiinvalidointia käyttää myös jos havainnoilla hierarkinen vaihtokelpoisuus tai muu riittävän rajoitettu riippuvuusrakenne Perusmuodossa laskenta vaatii n kertaa posteriorijakauman laskemisen - yksinkertaisille malleille nopeata analyyttisilla ratkaisuilla - monimutkaisille malleille voidaan laskennallista raskautta vähentää painotuspoimintaristiinvalidoinnilla k-kertaisella ristiinvalidoinnilla

Posteriorivalidointi* Posteriorivalidointi - jos dataa paljon verrattuna efektiiviseen parametrien määrään verrattuna, ristiinvalidointiprediktiiviset jakaumat {p(y (i) x (i), D (\i), M); i = 1, 2,..., n} voidaan approksimoida posterioriprediktiivisillä jakaumilla Slide 33 {p(y (i) x (i), D, M); i = 1, 2,..., n} missä merkintäsyistä joudutaan merkitsemään D, joka on datan D täsmällinen kopio - tällöin yksi posteriorijakauman estimointi riittää - kun käytetään virhefunktiota, tunnetaan tämä estimaatti myös nimellä "opetusvirhe" Efektiivinen parametrien määrä* Kun hyötyfunktiona log-likelihood kertaa n L( θ) = i log p(y (i) x (i), θ, D, M) Slide 34 posterioriprediktiivisen estimaatin ja ristiinvalidointiprediktiivisen estimaatin välinen ero on efektiivinen parametrien määrä p eff,cv = i [ ] log p(y (i) x (i), D, M) i [ ] log p(y (i) x (i), D (\i), M) = L PO L CV Efektiiviiseen parametrien määrään vaikuttaa - priorin vaikutus - parametrien välinen riippuvuus - havaintojen määrä (p eff n) - epävarmuuden määrä ja allaolevan ilmiön kompleksisuus - eli kuinka paljon parametrit ovat sovittuneet dataan

Osavalidointi* Osavalidointi - jos dataa paljon, voidaan data jakaa kahtia ja käyttää toista osaa ulkoisen validoinnin tavoin {p(y (i) x (i), D (1,..., j), M); i = j + 1,..., n} missä esim. j = n/2 Slide 35 - tätä voidaan kutsua partial predictive arvioinniksi Informaatiokriteerit Odotettu hyöty ū = E (x (n+1),y (n+1) ) [ ] u(y (n+1), x (n+1), D, M) Oikea prediktiivinen jakauma korvataan jakaumalla, jossa parametrien integroinnin sijaan käytetään parametrien piste-estimaattia θ Slide 36 p(y (n+1) x (n+1), θ, D, M) Taylorin sarjakehitelmällä (asymptoottinen approksimaatio) saadaan odotetun hyödyn estimaatti ] ū NIC = E i [u(y (i), x (i), θ, D, M) + tr(k J 1 ) missä K = Var[ū( θ) ] ja J = E[ū( θ) ], missä ū( θ) ja ū( θ) ovat ensimmäiset ja toiset derivaatat θ:n suhteen

Informaatiokriteerit Oikea prediktiivinen jakauma korvataan jakaumalla, jossa parametrien integroinnin sijaan käytetään parametrien piste-estimaattia θ p(y (n+1) x (n+1), θ, D, M) Vaihtoehtoisia plug-in estimaatteja θ - AIC: maximum likelihood Slide 37 - NIC: maximum a posteriori - DIC: posterioriodotusarvo Informaatiokriteerit* Taylorin sarjakehitelmällä (asymptoottinen approksimaatio) saadaan odotetun hyödyn estimaatti ] ū NIC = E i [u(y (i), x (i), θ, D, M) + tr(k J 1 ) Slide 38 AIC: Oletetaan "oikea" malli ja käytetään n kertaa log-likelihoodia L( θ) = i log p(y(i) x (i), θ, D, M) jolloin tr(k J 1 ) = p, ja L AIC = L( θ) p

Deviance Information Criterion (DIC) Taylorin sarjakehitelmällä (asymptoottinen approksimaatio) saadaan odotetun hyödyn estimaatti ] ū NIC = E i [u(y (i), x (i), θ, D, M) + tr(k J 1 ) DIC:ssä tehdään Monte Carlo -approksimaatio Slide 39 2 (E θ [ū(θ)] ū(e θ [θ])) tr(k J 1 ) missä odotusarvot estoimidaan käyttäen posteriorijakaumasta poimittuja näytteitä Yleistetty DIC vapaavalintaiselle hyötyfunktiolle (Vehtari, 2001) ū DIC = ū(e θ [θ]) + 2 (E θ [ū(θ)] ū(e θ [θ])) Alunperin DIC määriteltiin vain deviance:lle D = 2 log p(y θ) jolloin saadaan DIC = 2E θ [ D(θ)] D(E θ [θ]) Deviance Information Criterion (DIC) DIC:n johto alunperin ja kirjassa eri tavalla kuin luennolla DIC on nopea ja helppo laskea, BUGSissa valmiina DIC:n ongelmia - piste-estimaatin käyttö prediktiivisessä jakaumassa aliarvioi epävarmuuden Slide 40 - asymptoottisessa approksimaatiossa tehdyt oletukset eivät pidä paikkansa, pahimmat ongelmat ovat jos likelihoodin jakauma kaukana normaalista jos havainnot eivät riippumattomia - tulos riippuu parametrisoinnista - odotetun hyödyn epävarmuuden arviointi vaikeaa - voi arvioida p eff :n negatiiviseksi

Deviance Information Criterion (DIC) Valmennuskurssiesimerkki Malli D(E θ [θ]) p eff DIC erillismalli 54.9 7.7 70.3 yhteismalli 59.5 1.0 61.5 hierarkinen 57.8 2.8 63.4 Slide 41 ongelma: onko yhteismallin ja hierarkisen mallin ero merkittävä?