p(y θ, M) p(θ M)dθ p(θ y, M) = p(y M) Luento 10 Marginaaliuskottavuus Bayes-tekijä Mallin odotettu hyöty DIC (Deviance Information Criterion)

Samankaltaiset tiedostot
Markov-ketju Monte Carlo - konvergenssidiagnostiikka (convergence diagnostics) - odotettu hyöty tai kustannus (expected utility or cost)

Bayesilainen päätöksenteko / Bayesian decision theory

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Mallin tarkistus - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn?

Luento 11. Muutama hyödyllinen Monte Carlo-menetelmä. Muutama hyödyllinen Monte Carlo-menetelmä. Mitä muuta hyödyllistä Gelman et al kirjasta löytyy

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Mallin tarkistus (luku 6) - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn?

p(θ 1 y) on marginaalijakauma p(θ 1 θ 2, y) on ehdollinen posteriorijakauma Viime kerralla Termejä viime kerralta Marginalisointi Marginaalijakauma

- voidaan käyttä lisämään tieteellistä ymmärrystä ilmiöstä. - joidenkin havaittavien suureiden vaikutus voi olla paljon suurempi kuin toisten

Posteriorijakauman normaalijakauma-approksimaatio. Usein posteriorijakauma lähestyy normaalijakaumaa kun n

Bayesilaisen mallintamisen perusteet

805306A Johdatus monimuuttujamenetelmiin, 5 op

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Viime kerralla. Luento 6. Normaalijakauma-approksimaatio - moodi. - havaittu informaatio

1. Tilastollinen malli??

exp p(y θ) = 1 2πσ θ)2 2σ 2(y y N(θ, σ 2 ) Luento 3 Normaalijakauma (Gaussian) Normaalijakauma tunnetulla varianssilla

Pikajohdatus bayesilaiseen tilastoanalyysiin ja monimuuttuja-analyysiin

Binomi Jacob Bernoulli ( ), Bayes ( ) Normaali de Moivre ( ), Laplace ( ), Gauss ( )

S Bayesilaisen mallintamisen perusteet

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

θ 1 θ 2 θ n y i1 y i2 y in Luento 6 Hierarkkinen malli Johdatus hierarkkisiin malleihin - joskus myös termillä multilevel model

Testejä suhdeasteikollisille muuttujille

Mallipohjainen klusterointi

Tilastotieteen aihehakemisto

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Identifiointiprosessi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Parametrin estimointi ja bootstrap-otanta

TILASTOLLINEN OPPIMINEN

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

pitkittäisaineistoissa

exp Luento 3 Normaalijakauma (Gaussian) Normaalijakauma tunnetulla varianssilla Normaalijakauma tunnetulla keskiarvolla Poisson-mallli

Kuinka monta riippumatonta simulaationäytettä tarvitaan. - tämä varianssi on riippumaton jakauman ulottuvuuksien määrästä

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely)

3.6 Su-estimaattorien asymptotiikka

Harjoitus 7: NCSS - Tilastollinen analyysi

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Tilastollinen päättely, 10 op, 4 ov

Tilastollinen aineisto Luottamusväli

Maximum likelihood-estimointi Alkeet

pitkittäisaineistoissa

Identifiointiprosessi

Log-tiheydet - yli- ja alivuotojen välttämiseksi laskenta usein suoritettava log-tiheyksillä

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Mikrobikriteereiden arviointi esimerkkinä kampylobakteeri

Mitä on bayesilainen päättely?

Tutkimustiedonhallinnan peruskurssi

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Väliestimointi (jatkoa) Heliövaara 1

5.7 Uskottavuusfunktioon perustuvia testejä II

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

T Luonnollisten kielten tilastollinen käsittely

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

2. Uskottavuus ja informaatio

S Bayesilaisen mallintamisen perusteet

Estimointi. Vilkkumaa / Kuusinen 1

Bayesilaisen mallintamisen perusteet kurssin sisältö

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Tilastollisen analyysin perusteet, kevät 2007

Mittaustulosten tilastollinen käsittely

Laskennallinen data-analyysi II

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Osa 2: Otokset, otosjakaumat ja estimointi

Bayesiläinen tilastollinen vaihtelu

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

tilastotieteen kertaus

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ryhmäfaktorianalyysi neurotiedesovelluksissa (Valmiin työn esittely) Sami Remes Ohjaaja: TkT Arto Klami Valvoja: Prof.

- kuinka monta riippuvaa simulaationäytettä tarvitaan. - hyödyllisiä perus-mcmc-menetelmien parannuksia

Todennäköisyyden ominaisuuksia

6. laskuharjoitusten vastaukset (viikot 10 11)

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

LUKU 3. Ulkoinen derivaatta. dx i 1. dx i 2. ω i1,i 2,...,i k

Tilastollisia peruskäsitteitä ja Monte Carlo

Sovellettu todennäköisyyslaskenta B

Yhteistyötä sisältämätön peliteoria jatkuu

Nollasummapelit ja bayesilaiset pelit

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Mittausepävarmuuden laskeminen

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Jos oletetaan, että sairaaloissa on eroja, kaikki potilaat eivät ole vaihtokelpoisia keskenään

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

Batch means -menetelmä

Teema 8: Parametrien estimointi ja luottamusvälit

Transkriptio:

Luento 10 Bayes-tekijä Mallin odotettu hyöty DIC (Deviance Information Criterion) Mallin valinta Slide 1 Marginaaliuskottavuus Bayesin kaava missä p(θ y, M) = p(y M) = p(y θ, M)p(θ M) p(y M) p(y θ, M) p(θ M)dθ Slide 2 - p(y M) on normalisointitermi - p(y M) on myös marginaaliuskottavuus (marginal likelihood), josta marginalisoitu parametrit pois

Mallin posterioritodennäköisyys Entä jos vaihtoehtoiset mallit M 1 ja M 2? - ja muu taustatieto I, joka sisältää mallivaihtoehtojen prioritodennäköisyydet Voisimme laskea posterioritodennäköisyydet p(m j y, I) = p(y M j, I)p(M j I) p(y I) Slide 3 missä p(y M j, I) on mallin M j marginaaliuskottavuus (evidenssi) Jos vertailemme kahta mallia laskemalla posterioritodennäköisyyksien suhteen, normalisointitermi p(y I) kumoutuu pois (jätetään myös I merkitsemättä) p(m 2 y) p(m 1 y) = p(y M 2) p(m 2 ) p(y M 1 ) p(m 1 ) Mallin posterioritodennäköisyys ja Bayes-tekijä (Bayes factor) Mallien posterioritodennäköisyyksien suhde p(m 2 y) p(m 1 y) = p(y M 2) p(m 2 ) p(y M 1 ) p(m 1 ) p(m 2 )/p(m 1 ) määräytyy priorista ja p(y M 2 )/p(y M 1 ) määräytyy likelihoodien kautta datasta Slide 4 Jos prioritodennäköisyydet oletetaan p(m 1 ) p(m 2 ) jää jäljelle vain termi, jota kutsutaan Bayes-tekijäksi p(y M 2 ) p(y M 1 ) = BF(M 2; M 1 ) Bayes-tekijän termit ovat Bayesin kaavasta tutut normalisointitermit - marginaaliuskottavuuksien (evidenssien) suhde

Mallin posterioritodennäköisyys Useimmiten tutkitaan Bayes-tekijää, mutta silti puhutaan myös mallien posterioritodennäköisyyksistä Kuullostaa mukavalta idealta, että voidaan laskea mallin tai hypoteesin posterioritodennäköisyys, mutta... Slide 5 Mallin posterioritodennäköisyys Tarkoittaako p(m 1 y) todennäköisyyttä, että M 1 on totta? - hups, unohtuiko I? Slide 6 Tarkoittaako p(m 1 y, I) todennäköisyyttä, että M 1 on ehdolla I totta? - hups, unohtuiko normalisointi p(y I) = p(y M j, I)p(M j I)? - montako mallia on olemassa joukossa M? M j M - jos p(y I) ei ole laskettu, posterioritodenäköisyyksistä ei voi puhua posterioritodenäköisyyksien suhteista voi edelleen puhua

Mallin posterioritodennäköisyys Verrataanpa parametrien posterioriin - voimme lisätä malliin parametrin M, joka saa arvoja j = 1, 2,... - kuinkas parametrien käsittely menikään Bayesilaisessa mallintamisessa? Integroidaan kaikkien tuntemattomien yli! - jos epävarmuutta mallista, integroidaan M:n yli, eli eri mallivaihtoehtojen yli Slide 7 - asymptoottiset frekvenssiominaisuudet vastaavasti posteriorin asymptoottinen konsistenttisuus ja vastaesimerkit Posteriorin asymptoottisesta konsistenttisuudesta (poislukien vastaesimerkit) seuraa myös Bayes-tekijän asymptoottinen konsistenttisuus - posteriori suppenee yhteen malliin, jonka posterioritodennäköisyys 1 - mutta kenellä on ääretön määrä dataa? Mallin posterioritodennäköisyys ja Bayes-tekijä Mallien posterioritodennäköisyyksiä voidaan käyttää integroimaan yli eri mallivaihtoehtojen (Bayesian model averaging (BMA)) - BMA ei eroa tavallisesta mallin parametrien yli integroinnista, vaikka sille on erillinen termi keksitty - jos mahdollista usein järkevämpää laajentaa erilliset mallit jatkuvaksi malliperheeksi Slide 8 - esim. valmennuskurssiesimerkissä voitaisiin integroida yli erillis- ja yhteismallin, mutta hierarkkinen malli sisältää molemmat ja jatkuvuuden niiden välillä

Mallin posterioritodennäköisyys ja Bayes-tekijä Mallien posterioritodennäköisyyksiä voidaan käyttää valitsemaan todennäköisin malli - todennäköisimmän mallin valinta vastaa marginaalisen posterioritiheyden maksimointia - toimii hyvin jos mallissa vähän (tai ei ollenkaan) parametreja Slide 9 - mitä enemmän mallissa on dataan sovitettavia parametreja sitä huonommin Bayes-tekijä toimii Mallin posterioritodennäköisyys ja Bayes-tekijä Esim. geeni-esimerkki kirjan luvussa 1 - ainoana parametrina oli onko äiti kantaja - vaihtoehtoisesti voidaan ajatella olevan kaksi mallia: M 1 äiti on kantaja, M 2 äiti ei kantaja - laskut samat kuin ennenkin Slide 10

Mallin posterioritodennäköisyys ja Bayes-tekijä Bayes-tekijän prioriherkkyys johtuu priorijakauman yli integroinnista p(y M 1 ) = p(y θ 1, M 1 )p(θ 1 M 1 )dθ 1 - jos p(θ 1 M 1 ) ei aito, BF ei määritelty - vaikka p(θ 1 M 1 ) aito, termi silti herkkä priorille Slide 11 - ongelma pahenee θ:n ulottuvuuksien määrän kasvaessa - ongelma pahenee jos priori-informaatio ei tarkkaa Bayes-tekijän prioriherkkyyttä voi hahmottaa myös ketjusäännön avulla p(y M 1 ) = p(y 1 M 1 )p(y 2 y 1, M 1 ),..., p(y n y 1,..., y n 1, M 1 ) tässä tulossa ensimmäiset termit ovat herkkiä priorille Jos dataa paljon suhteessa mallin kompleksisuuteen, Bayes-tekijä toimii ok - asymptoottisesti posteriorimassa keskittyy moodiin Bayes-tekijän laskeminen Evidenssitermin laskeminen usein hyvin vaikeaa p(y M 1 ) = p(y θ 1, M 1 )p(θ 1 M 1 )dθ 1 Joitakin vaihtoehtoja - analyyttinen ratkaisu vain suljettua muotoa oleville posteriorijakaumille Slide 12 - normaalijakauma-approksimaatio - variaatiolaskenta - expectation propagation - lukuisat Monte Carlo -menetelmät Evidenssitermin arvioiminen MCMC:llä huomattavasti vaikeampaa kuin vain posteriorijakaumasta näytteiden poimiminen - tällä hetkellä suosituin tapa on käyttää trans-dimensionaalisia MCMC-menetelmiä (esim. RJMCMC) tai painotuspoimintaa (luento 11)

Bayes-tekijän laskemisen ongelmasta MCMC:llä Evidenssitermin laskeminen usein hyvin vaikeaa p(y M 1 ) = p(y θ 1, M 1 )p(θ 1 M 1 )dθ 1 Suora Monte Carlo-approksimaatio olisi Slide 13 p(y M 1 ) 1 L L l=1 p(y θ (l) 1, M 1) missä θ (l) 1 poimittu priorijakaumasta. - usein priori-informaatio vähäistä, joten priori väljä - jos dataa edes kohtuullisesti, on likelihood keskittynyt paljon pienemälle alueelle hyvin pieni osa poimituista näytteistä osuu kiinnostavalle alueelle Bayes-tekijä Kaikesta huolimatta Bayes-tekijä on edelleen paljon käytetty mallinvalinnassa - kuullostaa mukavalta, että voidaan laskea mallin tai hypoteesin posterioritodennäköisyys - Jeffreyskin teki niin (Jeffreys oli kova jätkä + muutoshitaus) - yksinkertaisilla malleilla ei niin herkkä, etteikö huolellisella priorinvalinnalla ja herkkyysanalyysilla saataisi käyttökelpoisia tuloksia Slide 14 - vaihtoehdotkaan eivät aina triviaaleja käyttää Käyttö mallin valinnassa vähenemässä - kompleksisimmalla malleilla ongelmat tulevat selvemmin esiin - prediktiiviset menetelmät parempia

Bayes-tekijä ja BMA Algoritmeja joita on kehitetty Bayes-tekijän laskemiseen, voidaan käyttää myös malli-avaruuden yli integrointiin BMA:ssakin ongelmana prioriherkkyys mutta vähäisempänä - parametrit ovat ehdolla mallirakenne, joten parametrien ja mallirakenteen epävarmuus a priori riippuva Slide 15 jos mallin rakenteesta on epävarmuutta, on parametrien prioriin kiinnitettävä enemmän huomiota Viime kerralla Päätösanalyysi (luku 22) Mallin tarkistus (luku 6) Mallin herkkyysanalyysi (luku 6) Slide 16

Mallin tarkistus ja herkkyysanalyysi Malli on muodostettu (mahdollisesti integroiden yli erilaisten mallivaihtoehtojen) - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn? - kuinka paljon päättely muuttuu jos mallioletuksia muutetaan? Slide 17 Posterioriprediktiivinen tarkistus Simuloi ulkoista validointia Toistettu data y rep p(y rep y) = p(y rep θ)p(θ y)dθ Slide 18 Toistettua dataa verrataan alkuperäiseen dataan - osalle testisuureista sama kuin jos mallin ennustavaa jakaumaa verrataan alkuperäiseen dataan Ongelmana datan käyttö kahteen kertaan - voidaan parantaa osa- ja ristiinvalidoinilla *

Muut konflikti-mittaukset* Ennustavien jakaumien lisäksi voidaan vastaavaa konfliktimittausta tehdä hierarkkisessa mallissa poistamalla vaihtokelpoisia noodeja ja tutkimalla vaikutusta noodien yhteiseen posteriorijakaumaan - esim. O Hagan (2003). HSSS model criticism, in Green et al, eds, Highly Structured Stochastic Systems, pp. 423-444. Oxford University Press. Tarkemmin keväällä Slide 19 Mallin parantaminen Mallin rakentaminen on usein iteratiivista 1. Tehdään malli 2. Mallin tarkistus ja herkkyysanalyysi jos vikaa mene kohtaan 3 jos ei vikaa mene kohtaan 4 3. Parannetaan mallia ja mennään kohtaan 2. Slide 20 4. Ennustetaan tai tehdään johtopäätöksiä ja päätöksiä

Mallin iteratiivinen parantaminen Merkitään alkuperäistä priorinformaatiota I :llä Merkitään C:llä mallin tarkistuksessa saatua uutta tietoa Uusi parannettu malli M ja posteriori on ehdolla I ja C p(θ y, M, C, I) Slide 21 mutta koska C perustuu mallin tarkistukseen (eli on ehdolla y), on y:tä käytetty kahteen kertaan Periaatteessa iteratiivinen mallinrakentaminen rikkoo bayesilaisen päättelyn periaatteita Käytännössä usein rike pieni, vaikkakin vaikea arvioida kuinka pieni - esim. jos parannetun mallin marginaaliuskottavuus huomattavasti suurempi, voisi ajatella, että ei eroa tilanteesta, missä integroidaan yli mallien ja alkuperäisen mallin vaikutus olematon Mallin hyöty Kun malli vihdoin kelpaa meille, toivottovasti tulee mieleen kysymys: "Kuinka hyvä malli on?" - ennenkuin mallia käytetään oikeasti tulevaisuuden ennustamiseen (vrt. ulkoinen validointi) - voidaan laskea mallin odotettu hyöty, eli kuinka paljon mallin ennusteista hyödytään Slide 22 - voidaan puhua myös ennustustarkkuudesta

Bayesilainen päätöksenteko Odotettu hyöty E[U(x) d] = U(x)p(x d)dx Slide 23 Mallin odotettu hyöty Mallin odotettu hyötyä arvioitaessa voidaan käyttää vapaavalintaista hyötyfunktiota Sovelluskohtaiset hyötyfunktiot tärkeitä - esim. raha, elinvuodet, jne. Slide 24 Jos kiinnostuksen kohteena on prediktiivisen jakauman yleinen tarkkuus, yleinen tieteellinen päättely, tai sovelluskohtaista hyötyfunktiota ei ole tiedossa, sopiva hyötyfunktio on prediktiivinen log-tiheys - eli ennustavan jakauman log-tiheys tuleville havainnoille log p(ỹ y, M) tälle myös informaatioteoreettinen perustelu

Mallin odotettu hyöty Usein ennustava jakauma korvattu plug-in estimaatilla log p(ỹ ˆθ(y), M), missä ˆθ(y) esim. posterioriodotusarvo - helpottanut joitakin laskuja, mutta ei bayesilaisesti perusteltua Slide 25 Usein log-tiheys kerrotaan 2:lla, jota merkataan devianssilla D(y, θ) = 2 log p(y θ, M) - kerroin 2 historiallisista normaalijakaumaan liityvistä syistä Mallin odotettu hyöty ja ulkoinen validointi Mallin todellinen hyöty selviää käyttämällä sitä ennustamiseen ja havaitsemalla miten oikeasti käy - vastaa ulkoista validointia Mallin odotettu hyöty - vastaa ulkoisen validoinnin approksimointia Slide 26

Mallin odotettu hyöty ja y rep Odotettu devianssi (kirjan kaava 6.11) missä odotusarvo y rep :in jakauman yli D pred avg (y) = E[D(y rep, ˆθ(y))], - y rep :in jakaumaksi oletetaan "oikea" datan generoiva jakauma Slide 27 Ulkoisessa validoinnissa y rep korvattaisiin tulevilla havainnoilla Useita tapoja approksimoida ko. odotusarvo Mallin odotetun hyödyn estimaatteja Dataestimaatti - y rep sama kuin y, jolloin y käytetään kahteen kertaan - vastaa koneoppimisen "opetusvirhettä" Osaprediktiivinen - jaetaan data kahtia Slide 28 - y rep on osa jota ei käytetty posteriorin laskentaan - vastaa koneoppimisen "testivirhettä" Ristiinvalidointiprediktiivinen * - osaprediktiivisen parannus (keväällä) DIC - lasketaan dataestimaatille korjauskerroin

Mallin odotettu hyöty ja prediktiiviset replikaatit* Mihinkäs Gelman ja kumppanit ovat unohtaneet ennustavasta jakaumasta replikaattien poimimisen? Posterioriprediktiivinen (replikaatti) - poimitaan y rep ennustavasta jakaumasta Slide 29 Kun vielä plug-in jakauman sijasta oikea ennustava jakauma ja jätetään kerroin 2 pois, saadaan E[log p(y rep y, M)] Replikaattien sijasta voidaan myös integroida p(y rep y, M) log p(y rep y, M)dy rep joka on sama kuin ennustavan jakauman entropia Mallin odotettu hyöty ja prediktiiviset replikaatit* Posterioriprediktiivinen - helpohko laskea nykykoneilla - useissa tapauksissa y rep :in yli integrointi laskettavissa tehokkaammin kuin Monte Carlolla analyyttisesti tai kvadratuurimenetelmillä - bayesilaisittain perusteltu Slide 30 - odotettua hyötyä laskettaesaa mallia käytetään kahteen kertaan, joten muita menetelmiä tarvitaan mallin tarkistukseen - ei kovin yleisessä käytössä, vaikka ekat analyyttiset versiot jo 1960-luvulla (Lindley)

Efektiivinen parametrien määrä Dataestimaatissa y rep sama kuin y - kun lisäksi käytetään plug-in devianssia Dˆθ (y) = D(y, ˆθ(y)) - data käytetään kahteen kertaan ja tulos ylioptimistinen (jo nähtyä on helpompi ennustaa) Slide 31 - ylioptimistisuus seuraa parametrien sovittumisesta dataan - dataan sovittumisen määrää voidaan mitata efektiivisten parametrien määrällä Efektiivinen parametrien määrä Efektiiviiseen parametrien määrään vaikuttaa - kokonaisparametrien määrä (olemassa myös ääretönparametrisia malleja) - priorin vaikutus - parametrien välinen riippuvuus - havaintojen määrä (p eff n) Slide 32 - epävarmuuden määrä ja allaolevan ilmiön kompleksisuus - eli kuinka paljon parametrit ovat sovittuneet dataan

Informaatiokriteerit* Saivat alkunsa Akaiken paperista (1973), jossa Akaike perusteli hyötyfunktion valintaa ja "odotetun hyödyn" approksimaation johtamista informaatioteoreettisesti - Akaike mainitsee termin an information criterium Akaike tiivisti informaatiokriteerin muotoon Slide 33 IC = fit + complexity - mistä seurasi, että alkuperäinen idea odotetun hyödyn estimoinnista usein valitettavasti unohtuu AIC:ssä mallin kompleksisuus on mallin parametrien määrä p - lähtökohtana maximum likelihood ja n - oletuksena, että θ 0 kuuluu parametriavaruuteen Deviance Information Criterion (DIC) Ehdotus bayesilaiseksi informaatiokriteeriksi DIC:ssä kustannusfunktiona käytetään devianssia D(y, θ M) = 2 log p(y θ, M) Jos posteriorijakauma p(θ y) lähestyy normaalijakaumaa, Slide 34 lähestyy (D D min ):n jakauma χ 2 ν -jakaumaa Tietyille malleille voidaan osoittaa, että kun n, niin ν p, missä p on mallin parametrien määrä Tietyille malleille voidaan osoittaa, että kun n, niin ν p eff, missä p eff on mallin efektiivinen parametrien määrä

Deviance Information Criterion (DIC) DIC approksimoi odotetun hyödyn laskemista tulevalla datalla Efektiivinen parametrien määrä mittaa datan perusteella lasketun ennusteen ylioptimismia (eli kuinka paljon malli sovittunut juuri kyseiseen dataan) fit-osa on datan (plug-in) devianssi D(y, E θ [θ]) Slide 35 complexity-osa on 2p eff (kerroin 2 koska devianssi on 2 kertaa -log-likelihhod) DIC DIC = D(y, E θ [θ]) + 2p eff Deviance Information Criterion (DIC) χν 2 -jakauman ominaisuuksista (kirja s. 575) E[θ] = ν ja Var[θ] = 2ν Slide 36 Efektiivinen parametrien määrä kahdella tavalla - siirretyn χν 2 -jakauman odotusarvo p (1) eff = E θ[d(y, θ)] D(y, E θ [θ]) - siirretyn χν 2 -jakauman varianssi p (2) eff = 1 2 Var[D(y, θ) y] = 1 1 L ( 2 L 1 l=1 D(y, θ l ) E θ [D(y, θ)] ) 2 Näillä hieman erilaiset ominaisuudet - p (1) eff on riippuvainen parametrisoinnista (johtuen termistä D(y, E θ[θ])) - p (2) eff :ssä varianssin estimointi voi olla herkkä, koska χ ν 2 -jakauma vain asymptoottisesti, ja oikealla jakaumalla voi olla pitkä häntä - myös muita eroja, koska χ 2 ν vain asymptoottisesti - ei vielä konsensusta kumpi parempi

Deviance Information Criterion (DIC) DIC esitettävissä myös muodossa DIC = E θ [D(y, θ)] + p eff mistä erityisesti iloa jos käytetään efektiivstä parametrien määrän estimaattia p (2) eff, jolloin DIC kokonaan riippumaton parametrisoinnista Slide 37 Toisaalta kirjassa esitetty muoto saadaan kun p eff :n paikalle sijoitetaan p (1) eff = E θ[d(y, θ)] D(y, E θ [θ]) DIC = 2 E θ [D(y, θ)] D(y, E θ [θ]) Yleistetty DIC* DIC approksimoi odotetun hyödyn laskemista tulevalla datalla Yleistetty DIC vapaavalintaiselle hyötyfunktiolle (Vehtari, 2001) - kohtuullisen väljillä ehdoilla muitakin hyötyfunktioita kuin devianssia voidaan käyttää ū DIC = ū(y, E θ [θ]) + 2 (E θ [ū(y, θ)] ū(y, E θ [θ])) Slide 38 Voidaan käyttää myös sovellusasiantuntijan ymmärtämää hyöty/kustannusfunktiota

Deviance Information Criterion (DIC) DIC on nopea ja helppo laskea posteriorinäytteiden avulla - suosittu helppouden vuoksi - valmiina esim. WinBUGS-ohjelmistossa - käyttökelpoinen approksimaatio, kunhan ongelmat tiedostaa Slide 39 Deviance Information Criterion (DIC) DIC:n ongelmia - piste-estimaatin käyttö prediktiivisessä jakaumassa aliarvioi epävarmuuden - asymptoottisessa approksimaatiossa tehdyt oletukset eivät pidä paikkansa, pahimmat ongelmat ovat jos posteriorijakauma kaukana normaalista jos havainnot eivät riippumattomia Slide 40 - tulos voi riippua parametrisoinnista, vaatii tapauskohtaista miettimistä - odotetun hyödyn epävarmuuden arviointi vaikeaa - voi arvioida p eff :n negatiiviseksi - voi toimia huonosti jos kovariaatti x voi saada muita arvoja kuin jo havaitut - perustelu ei puhtaasti bayesilainen

Deviance Information Criterion (DIC) DIC:ssä devianssi evaluoidaan vain havaituissa pisteissä - vastaa sitä, että teeme tulevalle datalle tiheysjakaumaestimaatin pistetiheys vain havaituissa pisteissä - tulevan datan jakauman epävarmuuden yli integroinnissa suuri varianssi jos havaintoja ei paljon Slide 41 Deviance Information Criterion (DIC) Kuinka suuri ero DIC-arvoissa on merkittävä? Voidaan approksimoida karkeasti (vrt. Bayes-tekijä) DF(M 1, M 2 ) = exp((dic 2 DIC 1 )/2) p(dic 1 < DIC 2 ) DF/(1 + DF) Slide 42 - eli ero on merkittävä, jos suurempi kuin 6 Spiegelhalter kirjoittaa DIC FAQ:ssa - yli 10 ero merkittävä - alle 5 ero ei merkittävä

Posterioriprediktiivinen* Verrattuna DIC:hen - bayesilaisempi perustelu - lähes yhtä helppo laskea - käyttää oikeaa ennustavaa jakaumaa (ei plug-in) - invariantti parametrisoinille Slide 43 - tarkempi tulevan datan jakauman estimaatti estimaatilla pienempi varianssi - log-tiheyttä käytettäessä mallien välinen vertailu vastaa KL-divergenssiä hyvä informaatioteoreettinen perustelu Lisää keväällä Bayesian Information Criterion (BIC)* Bayesian information criterion aka Schwarz criterion - ei sama tavoite kuin muilla informaatiokriteereillä - evidenssin approksimaatio BIC = D(y, ˆθ(y)) + log(n)p Slide 44 BIC:n ongelmia - samat kuin evidenssillä ja Bayes-tekijällä - toimii vain jos normaalijakauma-approksimaatio hyvä - vain jos priori-informaatio väljä

Mallin valinta Oikea TM bayesilainen tapa on integroida kaiken tuntemattoman yli - ei tarvetta mallin valinnalle - iteratiivisen mallin rakentamisen jossain vaiheessa olemme malliin tyytyväisiä Käytännössä usein haluamme karsia mallia - sisäkkäiset mallit (nested models) Slide 45 - tarve tehdä mallista helpommin tulkittava - tarve vähentää selittävien muuttujien mittauskustannuksia - tarve vähentää laskenta-aikaa Käytännössä joskus mallien yli integrointi vaikeaa, jolloin voimme jättää huomoioimatta sellaiset mallit, joiden odotettu hyöty selvästi huonompi - ei-sisäkkäiset mallit (non-nested) Mallien vertailu ja valinta Valmennuskurssiesimerkki - 8 koulua - jokaisessa koulussa osa oppilaista sai valmennusta ja osa ei, ja näistä tuloksista laskettiin koululle kurssin tehon odotusarvo ja hajonta voitaisiin olettaa, että tulokset koulujen sisällä vaihtokelpoisia ja koulujen kurssien tuntemattomat oikeat vaikutukset keskenään vaihtokelpoisia Slide 46 Mallivaihtoehdot - erillismalli 7 koulun tuloksen tietäminen ei vaikuta arvioomme 8. koulun tuloksesta - yhteismalli kaikkien koulujen kurssit yhtä tehokkaita - hierarkkinen malli koulujen välillä voi olla eroja, koulujen kurssien tuntemattomille vaikutuksille yhteinen populaatiopriori

Mallien vertailu ja valinta Valmennuskurssiesimerkki Slide 47 Mitä mallilta halutaan? - haluammeko tutkia vain näitä 8 koulua? y rep näille kouluille - haluammeko tutkia muita kouluja? y rep uusille kouluille DIC vastaa tilannetta, jossa y rep näille kouluille Deviance Information Criterion (DIC) Valmennuskurssiesimerkki Malli D(E θ [θ]) p eff DIC erillismalli (τ = ) 54.6 7.8 70.4 yhteismalli (τ = 0) 59.3 1.0 61.3 hierarkkinen 57.4 2.8 62.9 Slide 48 Onko mallien välillä merkittävää eroa? - erillismallilla yli 6 eroa - yhteismallin ja hierarkkisen mallin välillä ei eroa

Yhteenveto Täysi (BMA) malli tarkistuksen jälkeen paras vaihtoehto Mallin ennustustarkkuus voidaan arvioida - osavalidointi robusti, jos dataa paljon - DIC nopea ja helppo - muita keväällä Slide 49 Ennustustarkkuuden perusteella asiantuntija voi arvioida onko mallista käytännössä hyötyä Täyttä mallia voidaan karsia testaamalla heikkeneekö ennustustarkkuus oleellisesti - tarve tehdä mallista helpommin tulkittava - tarve vähentää selittävien muuttujien mittauskustannuksia - tarve vähentää laskenta-aikaa Mallien yli integrointi voidaan joskus korvata mallin valinnalla