p(θ 1 y) on marginaalijakauma p(θ 1 θ 2, y) on ehdollinen posteriorijakauma Viime kerralla Termejä viime kerralta Marginalisointi Marginaalijakauma

Samankaltaiset tiedostot
Posteriorijakauman normaalijakauma-approksimaatio. Usein posteriorijakauma lähestyy normaalijakaumaa kun n

- voidaan käyttä lisämään tieteellistä ymmärrystä ilmiöstä. - joidenkin havaittavien suureiden vaikutus voi olla paljon suurempi kuin toisten

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Viime kerralla. Luento 6. Normaalijakauma-approksimaatio - moodi. - havaittu informaatio

exp Luento 3 Normaalijakauma (Gaussian) Normaalijakauma tunnetulla varianssilla Normaalijakauma tunnetulla keskiarvolla Poisson-mallli

3.6 Su-estimaattorien asymptotiikka

Luento 11. Muutama hyödyllinen Monte Carlo-menetelmä. Muutama hyödyllinen Monte Carlo-menetelmä. Mitä muuta hyödyllistä Gelman et al kirjasta löytyy

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

S Bayesilaisen mallintamisen perusteet

Maximum likelihood-estimointi Alkeet

exp p(y θ) = 1 2πσ θ)2 2σ 2(y y N(θ, σ 2 ) Luento 3 Normaalijakauma (Gaussian) Normaalijakauma tunnetulla varianssilla

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

2. Uskottavuus ja informaatio

θ 1 θ 2 θ n y i1 y i2 y in Luento 6 Hierarkkinen malli Johdatus hierarkkisiin malleihin - joskus myös termillä multilevel model

5.7 Uskottavuusfunktioon perustuvia testejä II

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Sovellettu todennäköisyyslaskenta B

Estimointi. Vilkkumaa / Kuusinen 1

Binomi Jacob Bernoulli ( ), Bayes ( ) Normaali de Moivre ( ), Laplace ( ), Gauss ( )

1. Tilastollinen malli??

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Bayesilaisen mallintamisen perusteet

Tilastollinen aineisto Luottamusväli

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Bayesilainen päätöksenteko / Bayesian decision theory

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

11 Raja-arvolauseita ja approksimaatioita

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Sovellettu todennäköisyyslaskenta B

Uskottavuuden ominaisuuksia

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

S Bayesilaisen mallintamisen perusteet

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Osa 2: Otokset, otosjakaumat ja estimointi

Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely)

2. Uskottavuus ja informaatio

Parametrin estimointi ja bootstrap-otanta

Sovellettu todennäköisyyslaskenta B

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

tilastotieteen kertaus

Log-tiheydet - yli- ja alivuotojen välttämiseksi laskenta usein suoritettava log-tiheyksillä

Markov-ketju Monte Carlo - konvergenssidiagnostiikka (convergence diagnostics) - odotettu hyöty tai kustannus (expected utility or cost)

Moniulotteisia todennäköisyysjakaumia

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Tutkimustiedonhallinnan peruskurssi

Todennäköisyyden ominaisuuksia

6.1.2 Luottamusjoukon määritelmä

Tilastotieteen aihehakemisto

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Harha mallin arvioinnissa

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

Dynaamiset regressiomallit

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Tämän luvun sisältö. Luku 5. Estimointiteorian perusteita. Perusjakaumat 1-ulotteisina (2) Perusjakaumat 1-ulotteisina

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Jatkuvia jakaumia

Testejä suhdeasteikollisille muuttujille

Väliestimointi (jatkoa) Heliövaara 1

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

pitkittäisaineistoissa

Kertausluento. Tilastollinen päättely II - 2. kurssikoe

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Sovellettu todennäköisyyslaskenta B

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

η i (θ)t i (x) A(θ) + c(x),

Kertausluento. Tilastollinen päättely II - 1. kurssikoe

Yleistä tietoa kokeesta

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

p(y θ, M) p(θ M)dθ p(θ y, M) = p(y M) Luento 10 Marginaaliuskottavuus Bayes-tekijä Mallin odotettu hyöty DIC (Deviance Information Criterion)

T Luonnollisten kielten tilastollinen käsittely

Tilastollinen päättely II, kevät 2017 Harjoitus 1A

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Yleistetyistä lineaarisista malleista

P (A)P (B A). P (B) P (A B) = P (A = 0)P (B = 1 A = 0) P (B = 1) P (A = 1)P (B = 1 A = 1) P (B = 1)

Jos oletetaan, että sairaaloissa on eroja, kaikki potilaat eivät ole vaihtokelpoisia keskenään

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Mallipohjainen klusterointi

6. laskuharjoitusten vastaukset (viikot 10 11)

Olkoon R S otosavaruuksien R ja S karteesinen tulo: Satunnaismuuttujien X ja Y järjestetty pari (X, Y) määrittelee kaksiulotteisen satunnaismuuttujan:

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Teema 8: Parametrien estimointi ja luottamusvälit

Batch means -menetelmä

Luku 5. Estimointiteorian perusteita

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

Transkriptio:

Viime kerralla Marginalisointi Marginaalijakauma Posteriorijakauman faktorointi Ehdollinen posteriorijakauma Slide 1 Posteriorijakaumasta simulointi Normaalijakauma - tuntematon keskiarvo ja varianssi - moniulotteinen normaalijakauma Multinomijakauma - binomijakauman yleistys Termejä viime kerralta Yhteisjakauma p(θ 1, θ 2 y) p(y θ 1, θ 2 )p(θ 1, θ 2 ) Slide 2 Marginalisointi p(θ 1 y) on marginaalijakauma Posteriorijakauman faktorointi p(θ 1 y) = p(θ 1, θ 2 y)dθ 2 p(θ 1, θ 2 y) = p(θ 1 θ 2, y)p(θ 2 y) p(θ 1 θ 2, y) on ehdollinen posteriorijakauma

Luento 5 Päättely suurten otosten tapauksessa, n - normaalijakauma-approksimaatio - suurten otosten teoria - asymptoottinen normaalius ja konsistenttisuus - vastaesimerkkejä Slide 3 Bayesilaisen päättelyn frekvenssiarviointi Posteriorijakauman normaalijakauma-approksimaatio Jos posteriorijakauma unimodaalinen ja lähes symmetrinen, - voidaan posteriorijakauma p(θ y) approksimoida normaalijakaumalla - eli log-posteriori log p(θ y) voidaan approksimoida neliöllisellä funktiolla Slide 4

Posteriorijakauman normaalijakauma-approksimaatio Log-posteriorin Taylorin sarjakehitelmä posteriorimoodin ˆθ ympärillä log p(θ y) = log p( ˆθ y) + 1 [ d 2 (θ ˆθ) T 2 ] log p(θ y) (θ ˆθ) +... dθ 2 θ= ˆθ Slide 5 missä lineaaritermi on nolla, koska log p(θ y):n derivaatta on moodissa nolla ja korkeammat termit ovat pieniä verrattuna neliöllisen termiin kun θ lähellä ˆθ:aa ja n on iso Koska ensimmäinen termi vakio ja toinen termi suhteessa normaalijakauman logaritmiin missä I (θ) on havaittu informaatio p(θ y) N( ˆθ, [I ( ˆθ)] 1 ) I (θ) = d2 log p(θ y) dθ 2 Posteriorijakauman normaalijakauma-approksimaatio I (θ) on havaittu informaatio I (θ) = d2 log p(θ y) dθ 2 Slide 6 - I ( ˆθ) on log-posteriorin toiset derivaatat moodissa eli kuvaa log-posteriorin kaarevuden moodissa - Jos moodi on parametriavaruuden sisällä I ( ˆθ) positiivinen - Jos θ on vektori, I (θ) on matriisi

Normaalijakauma-approksimaatio - esimerkki Normaalijakauma, tuntematon keskiarvo ja varianssi - uniformi-priori parametreille (µ, log σ ) - normaalijakauma-approksimaatio (µ, log σ ):n posteriorille Slide 7 log p(µ, log σ y) = constant n log σ 1 2σ 2 [(n 1)s2 + n(ȳ µ) 2 ] ensimmäiset derivaatat d n(ȳ µ) log p(µ, log σ y) = dµ σ 2, d d(log σ ) log p(µ, log σ y) = n + (n 1)s2 + n(ȳ µ) 2 σ 2, josta posteriorimoodi on helposti laskettavissa ( ( ˆµ, ˆσ ) = ȳ, 1 ( )) n 1 2 log s 2 n Normaalijakauma-approksimaatio - esimerkki Slide 8 Normaalijakauma, tuntematon keskiarvo ja varianssi ensimmäiset derivaatat d n(ȳ µ) log p(µ, log σ y) = dµ σ 2, d d(log σ ) log p(µ, log σ y) = n + (n 1)s2 + n(ȳ µ) 2 σ 2 toiset derivaatat d 2 n log p(µ, log σ y) = dµ 2 σ 2, d 2 ȳ µ log p(µ, log σ y) = 2n dµd(log σ ) σ 2, d 2 2 log p(µ, log σ y) = d(log σ ) 2 σ 2 ((n 1)s2 + n(ȳ µ) 2 )

Normaalijakauma-approksimaatio - esimerkki Slide 9 Normaalijakauma, tuntematon keskiarvo ja varianssi toiset derivaatat d 2 n log p(µ, log σ y) = dµ 2 σ 2, d 2 ȳ µ log p(µ, log σ y) = 2n dµ(log σ ) σ 2, d 2 2 log p(µ, log σ y) = d(log σ ) 2 σ 2 ((n 1)s2 + n(ȳ µ) 2 ) toisten derivaattojen matriisi n/ ˆσ 2 0 0 2n Normaalijakauma-approksimaatio - esimerkki Normaalijakauma, tuntematon keskiarvo ja varianssi posteriorimoodi ( ( ˆµ, ˆσ ) = ȳ, 1 ( )) n 1 2 log s 2 n Slide 10 toisten derivaattojen matriisi n/ ˆσ 2 0 0 2n normaalijakauma-approksimaatio p(µ, log σ y) N µ ȳ, ˆσ 2 /n 0 log σ log ˆσ 0 1/(2n)

Normaalijakauma-approksimaatiosta Approksimaatiosta on helppo laskea approksimaation - HPD moniulotteisellekin jakaumalle - moodi ja 95%-intervallit Approksimaatiota voidaan usein parantaa parametrien muunnoksella - esim. σ :n sijasta log σ Slide 11 - sekä σ :n että log σ :n posteriorijakauma lähestyy normaalijakaumaa, mutta äärellisellä n:llä approksimaatio on parempi log σ :lle Data voidaan tiivistää käyttämällä approksimaation sufficient statistics:ia - mahdollistaa helpon hierarkisen mallintamisen - vaarana informaation hukkaaminen Normaalijakauma-approksimaation voi tehdä myös marginaalijakaumille - voi toimia paremmin (mutta usein työläämpää) - joskus nimellä delta-menetelmä Normaalijakauma-approksimaatiosta Normaalijakauma-approksimaation voi laskea myös numeerisesti - jos gradientteja ei ole annettu, ne voidaan laskea finite-difference menetelmällä - monet optimointialgoritmit perustuvat funktion paikalliseen normaalijakauma-approksimaatioon - kaarevuuden (Hessian) approksimaatio voidaan päivitää iteratiivisesti Slide 12 - seurauksena optimipisteessä selvillä myös paikallisen kaarevuuden approksimaatio - minimoidaan negatiivinen log-posteriori: minimi on moodi ja Hessian minimissä on havaittu informaatio moodissa - helppoa esim. Matlabilla [w,fval,exitflag,output,g,h]=fminunc(@nlogp,w0,opt,x,y,n);

Kirjan esimerkki: myrkyllisyyskoe Dose, x i Number of Number of (log g/ml) animals, n i deaths, y i Slide 13-0.86 5 0-0.30 5 1-0.05 5 3 0.73 5 5 Logistinen regressio logit(θ i ) = α + βx i Likelihood p(y i α, β, n i, x i ) [logit 1 (α + βx i )] y i [1 logit 1 (α + βx i )] n i y i Posteriori n p(α, β y, n, x) p(α, β) p(y i α, β, n i, x i ) i=1 Matlab-demo (esim5_1.m) Kirjan esimerkki: myrkyllisyyskoe Vinkki kotitehtävään 4.2 Likelihood p(y i α, β, n i, x i ) [logit 1 (α + βx i )] y i [1 logit 1 (α + βx i )] n i y i Kirjoita log-posteriori siistiin muotoon Slide 14 Merkitse θ = α + βx i, ja laske ensin derivaatta θ:n suhteen ja käytä sitten ketjusääntöä Katso logit ja logit 1 kirjan s. 24 Tunnista tutut muodot Pidä yksinkertaisena Vertaa numeeriseen tulokseen (esim5_1.m) (Hessian)

Suurten otosten teoria (Large sample theory) Käsitellän vain pintapuolisesti - kirjan liite B kertoo lisää, mutta edelleen vain esittelevästi - oikea käsittely vaatii tiukkaa matemaattista käsittelyä Oletetaan "oikea" allaoleva datan jakauma f (y) Slide 15 - havainnot y 1,..., y n ovat riippumattomia näytteitä yhteisestä jakaumasta f (y) - "oikea" datan jakauma f (y) on usein hankala käsite - bayesilaisittain voimme sanoa, että toimimme aivan kuin olisi olemassa "oikea" allaoleva datan jakauma f (y) - teorian kannalta ei tarvitse tietää f (y):n tarkkaa muotoa, kunhan toteuttaa tietyt säännöllisyysehdot Suurten otosten teoria Asymptoottinen normaalius - jakaumasta f (y) saatujen havaintojen y i määrän n kasvaessa parametrivektorin posteriorijakauma lähestyy normaalijakaumaa Konsistenttisuus Slide 16 - jos oikea datan jakauma sisältyy parametriseen perheseen, eli jos f (y) = p(y θ 0 ) jollekin θ 0 :lle, niin posteriori jakauma konvergoituu pisteeseen θ 0, kun n Jos oikea jakauma ei sisälly parametriseen perheeseen, ei ole olemassa oikeaa arvoa θ 0 - oikea arvo θ 0 korvataan θ 0 :lla jonka arvolla jakauma p(y θ) on lähinnä oikeaa jakaumaa f (y) Kullback-Leibler informaatiolla mitattuna - Kullback-Leibler informaatio on informaatioteorian peruskiviä

Asymptoottinen normaalius ja konsistenttisuus Jos likelihood toteuttaa tietyt säännöllisyysehdot - esim. jatkuva θ:n funktio ja θ 0 ei ole parametriavaruuden reunalla niin θ:n posteriorijakuama lähestyy normaalijakaumaa N(θ 0, (n J (θ 0 )) 1 ) Slide 17 missä J (θ) on Fisherin informaatio Vertaa havaittu informaatio I (θ) = d2 log p(θ y) dθ [ 2 d 2 log p(y θ) ] θ Fisherin informaatio J (θ) = E dθ 2 Tulos voidaan tulkita Taylorin sarjakehitelmän termeillä Asymptoottinen normaalius ja konsistenttisuus Taylorin sarjakehitelmä posteriorimoodin ˆθ ympärillä log p(θ y) = log p( ˆθ y) + 1 [ d 2 (θ ˆθ) T 2 ] log p(θ y) dθ 2 θ= ˆθ (θ ˆθ) +... Liitteen B kuvaileva tulos näyttää, että kun n, posteriorijakauman massa keskittyy pienenevälle θ 0 :n naapurustolle ja ˆθ θ 0 0, (konsistenttisuus) Slide 18 Kirjoitetaan neliöllinen termi seuraavasti [ d 2 ] log p(θ y) dθ 2 θ= ˆθ [ d 2 ] = log p(θ) dθ 2 θ= ˆθ + n [ d 2 ] dθ 2 log p(y i θ) i=1 θ= ˆθ θ:n funktiona tämä on vakio plus summa n termistä, joista jokaisen odotusarvo oikean jakauman p(y θ 0 ) suhteen on noin J (θ 0 ) jos ˆθ on lähellä θ 0 :aa Joten, kun n iso, log-posteriorin kaareutuvuus voidaan approksimoida Fisherin informaatiolla evaluoituna pisteessä ˆθ tai θ 0 (joista vain ˆθ käytettävissä)

Asymptoottinen normaalius ja konsistenttisuus Kun n iso, posteriorimoodi ˆθ lähestyy θ 0 :aa ja kaarevuus lähestyy n J ( ˆθ):a tai n J (θ 0 ):a Kun n likelihood dominoi posteriorijakaumaa ja moodi ja kaarevuus voidaan päätellä likelihoodista Slide 19 Normaalijakauma-approksimaatio ja suurten otosten teoria toimii käytännössä vain yksinkertaisilla malleilla - mielenkiintoisemissa tapauksissa usein ei toimi - onneksi voidaan käyttää muita menetelmiä Suurten otosten teoria - vastaesimerkkejä Teoria ei aina pidä paikkansa vaikka n Ali- ja ei-identifioituvuus - malli on ali-identifioituva jos mallissa on parametreja tai parametriyhdistelmiä, joista data ei kerro mitään - ei ole olemassa yhtä pistettä θ 0 johon posteriorijakauma konvergoituisi Slide 20 - esim. jos koskaan ei havaita u:ta ja v:tä yhtäaikaa ja malli on u N 0, 1 ρ v 0 ρ 1 niin ρ on ei-identifioituva - esim. u voisi olla opiskelijan arvosana oppimispäiväkirjasta ja v arvosana tentistä; olettaen, että kukaan ei tee molempia, niiden välinen korrelaatio ρ on ei-identifioituva - ongelma myös Monte Carlo -menetelmille

Suurten otosten teoria - vastaesimerkkejä Teoria ei aina pidä paikkansa vaikka n Parametrien määrän kasvu näytteiden määrän kasvaessa - joissakin malleissa parametrien määrä riippuu datan määrästä - esim. usein y i N(θ i, σ 2 ) Slide 21 - θ i :n posteriorijakauma ei konvergoidu pisteeseen, jos uusi data ei tuo riittävästi informaatiota θ i :stä Suurten otosten teoria - vastaesimerkkejä Teoria ei aina pidä paikkansa vaikka n Valetoisto (aliasing) - ali-identifoitumisen erikoistapaus, missä likelihood toistuu erillisissä pisteissä - esim. normaalisekamalli p(y i µ 1, µ 2, σ1 2, σ 2 2, λ) = λ N(µ 1, σ1 2 ) + (1 λ) N(µ 2, σ2 2 ) Slide 22 jos vaihdetaan keskenään (µ 1, µ 2 ) ja (σ1 2, σ 2 2 ) ja korvataan λ (1 λ):lla, malli pysyy samana; posteriorijakaumassa on yleensä vähintään kaksi moodia jotka ovat toistensa peilikuvia; jakauma ei konvergoidu yhteen pisteeseen - useimmiten ei varsinainen ongelma Monte Carlo -menetelmille, mutta voi hankaloittaa konvergenssidiagnostiikkaa - ongelma voidaan poistaa rajaamalla parametriavaruutta; esim. edellisessä esimerkissä voidaan rajoittaa µ 1 µ 2

Suurten otosten teoria - vastaesimerkkejä Teoria ei aina pidä paikkansa vaikka n Slide 23 Rajoittamaton (unbounded) likelihood - jos likelihood jakauma on rajoittamaton, ei välttämättä ole olemassa posteriorimoodia parametriavaruudessa - esim. edellinen normaalisekamalli; oletetaan λ tunnetuksi (ja ei 0 tai 1); jos asetetaan µ 1 = y i mille tahansa y i :lle ja σ1 2 0, niin likelihood - kun n likelihoodin moodien määrä kasvaa - jos priori ei mene nollaan kun σ 2 1 - ongelma myös Monte Carlo -menetelmille 0 posteriorimoodien määrä kasvaa - ongelma voidaan poistaa rajoittamalla malli mielekkäisiin jakaumiin priorilla - huomaa, että väljällä priorilla ja rajallisella n:llä voi ongelmana olla melkein rajoittamaton posteriori Suurten otosten teoria - vastaesimerkkejä Teoria ei aina pidä paikkansa vaikka n Improper posteriorijakauma - asymptoottiset tulokset olettavat todennäköisyyksien summautuvan 1:een - esim. Binomi-malli, Beta(0, 0) priorijakauma ja datana y = n - ongelma myös Monte Carlo -menetelmille Slide 24 - ongelma voidaan poistaa käyttämällä proper-prioria - huomaa, että väljällä priorilla voi ongelmana olla melkein improper posteriori

Suurten otosten teoria - vastaesimerkkejä Teoria ei aina pidä paikkansa vaikka n Priorijakauma joka ei sisällä konvergenssipistettä - jos diskreetissä tapauksessa p(θ 0 ) = 0 tai jatkuvassa tapauksessa p(θ) = 0 θ 0 :n naapurustossa, niin likelihoodin dominointiin perustuvat konvergenssitulokset eivät päde Slide 25 - ei varsinaisesti ongelma Monte Carlo -menetelmille - ongelma voidaan poistaa asettamalla positiivinen prioritodennäköisyystiheys kaikille vähänkin mahdollisille arvoille Suurten otosten teoria - vastaesimerkkejä Teoria ei aina pidä paikkansa vaikka n Konvergenssipiste parametriavaruuden reunalla - jos θ 0 on parametriavaruuden reunalla, Taylorin sarjakehitelmä pitää katkaista joissakin suunnissa, ja normaalijakauma-approksimaatio ei välttämättä toimi rajalla Slide 26 - esim. y i N(θ, 1) rajoituksella θ 0 ja oletetaan, että malli on tarkka jos θ = 0 - θ:n posteriorijakauma on positiiviseksi katkaistu normaalijakauma, µ = ȳ - rajalla n posteriorijakauma on puolikas normaalijakauma - ei ongelma Monte Carlo -menetelmille

Suurten otosten teoria - vastaesimerkkejä Teoria ei aina pidä paikkansa vaikka n Jakauman hännät - normaalijakauma-approksimaatio voi olla tarkka suurimalle osalle posteriorijakauman massaa, mutta silti olla epätarkka jakauman hännissä Slide 27 - esim. parametri joka on rajoitettu positiiviseksi; äärellisellä n:llä normaalijakauma-approksimaatio pitää negativiisia arvoja mahdollisina Monte Carlolla myös on ongelmia häntien kanssa, vaikkakin erilaisia Bayesilaisen päättelyn frekvenssiarviointi Frekventistiset menetelmät pohjautuvat toistettuun otantaan (repeated sampling) eli frekvensseihin Bayesilaisen päättelyn frekvenssiarviointi perustuu myös frekvensseihin, mutta bayesilainen tulkinta säilyy vaikka termejä lainataan frekventistisestä teoriasta Slide 28 Vaikka bayesilaisessa teoriassa korostetaan mahdollisutta tutkia yksittäistä tapahtumaa, ei estettä tutkia myös toistuvaa tapahtumaa Normaalijakauma-approksimaation ja konsistenttisuuden perustelut perustuvat myös toistettuun poimintaan

Bayesilaisen päättelyn frekvenssiarviointi 95% posteriori-intervalli sisältää oikean arvon 95% tapauksissa kun otantaa toistetaan fiksatulla oikealla θ:lla Konsistenttisuus: jos oikea jakauma sisältyy mallin jakaumaperheeseen, θ:n posteriorijakauma konvergoituu oikeaan arvoon kun n kasvaa Asymptoottinen harhattomuus: (E( ˆθ θ 0 ) θ 0 )/ sd( ˆθ θ 0 ) 0 Slide 29 jos oikea jakauma sisältyy mallin jakaumaperheeseen, lievien säännöllisyysehtojen ollessa voimasa, posteriorijakauman moodi, odotusarvo ja mediaani ovat konsistentteja ja asymptoottisesti harhattomia Asymptoottinen tehokkuus: piste-estimaatti on tehokas jos ei ole olemassa toista estimaattia pienemmällä neliövirheellä E[( ˆθ θ 0 ) 2 θ 0 ] lievien säännöllisyysehtojen ollessa voimasa, posteriorijakauman moodi, odotusarvo ja mediaani ovat asymptoottisesti tehokkaita Bayesilaisen päättelyn frekvenssiarviointi* Asymptoottiset tulokset kivoja, mutta useimmiten kiinnostavampaa on suorituskyky kun n äärellinen Yleisesti bayesilaiset estimaatit harhaisia - estimaatti kallellaan priorin suuntaan Slide 30 - koska oikea totuus ei yleensä tiedossa, priori todennäköisesti väärä, mistä seuraa harhaisuus - harha ei haittaa jos samalla varianssi on pieni (tehokkuus hyvä) - hieman väärä priori aiheuttaa pienen harhan, mutta voi pienentää varianssia paljon Harha-varianssi-ongelma (bias-variance dilemma) - harhaa kasvattamalla varianssi voi pienentyä - priori-informaatiota lisäämällä vaarana harhan kasvaminen, mutta etuna varianssin pieneneminen

Tähän mennessä Bayesilaisen päättelyn perusteita ja termejä Yksiparametrisia malleja Johdatus moniparametrisiin malleihin Informatiiviset ja ei-informatiiviset priorijakaumat Slide 31 Yksinkertainen simulointi posteriorijakaumasta Päättely suurten otosten tapauksessa Jakaumia binomi- normaali- Poisson- uniformi- beta- Inv-χ 2 - gamma- Cauchy- multinomi- t- Neg-binomi- Dirichlet- Inv-Wishart- exponentiaalinen Jatkossa Hierarkiset mallit Laskennallisia menetelmiä Päätösanalyysi Mallien tarkistus, vertailu ja parannus Slide 32 Datankeruuprosessin mallintaminen

Esimerkki Lääketestit Slide 33