Posteriorijakauman normaalijakauma-approksimaatio. Usein posteriorijakauma lähestyy normaalijakaumaa kun n

Samankaltaiset tiedostot
p(θ 1 y) on marginaalijakauma p(θ 1 θ 2, y) on ehdollinen posteriorijakauma Viime kerralla Termejä viime kerralta Marginalisointi Marginaalijakauma

- voidaan käyttä lisämään tieteellistä ymmärrystä ilmiöstä. - joidenkin havaittavien suureiden vaikutus voi olla paljon suurempi kuin toisten

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

3.6 Su-estimaattorien asymptotiikka

exp p(y θ) = 1 2πσ θ)2 2σ 2(y y N(θ, σ 2 ) Luento 3 Normaalijakauma (Gaussian) Normaalijakauma tunnetulla varianssilla

Viime kerralla. Luento 6. Normaalijakauma-approksimaatio - moodi. - havaittu informaatio

2. Uskottavuus ja informaatio

Maximum likelihood-estimointi Alkeet

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Luento 11. Muutama hyödyllinen Monte Carlo-menetelmä. Muutama hyödyllinen Monte Carlo-menetelmä. Mitä muuta hyödyllistä Gelman et al kirjasta löytyy

exp Luento 3 Normaalijakauma (Gaussian) Normaalijakauma tunnetulla varianssilla Normaalijakauma tunnetulla keskiarvolla Poisson-mallli

5.7 Uskottavuusfunktioon perustuvia testejä II

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. Tilastollinen malli??

Sovellettu todennäköisyyslaskenta B

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Estimointi. Vilkkumaa / Kuusinen 1

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

θ 1 θ 2 θ n y i1 y i2 y in Luento 6 Hierarkkinen malli Johdatus hierarkkisiin malleihin - joskus myös termillä multilevel model

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Sovellettu todennäköisyyslaskenta B

2. Uskottavuus ja informaatio

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

S Bayesilaisen mallintamisen perusteet

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

tilastotieteen kertaus

Binomi Jacob Bernoulli ( ), Bayes ( ) Normaali de Moivre ( ), Laplace ( ), Gauss ( )

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Log-tiheydet - yli- ja alivuotojen välttämiseksi laskenta usein suoritettava log-tiheyksillä

Tilastollinen aineisto Luottamusväli

Uskottavuuden ominaisuuksia

Sovellettu todennäköisyyslaskenta B

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

11 Raja-arvolauseita ja approksimaatioita

Bayesilainen päätöksenteko / Bayesian decision theory

Osa 2: Otokset, otosjakaumat ja estimointi

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

Todennäköisyyden ominaisuuksia

Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely)

6.1.2 Luottamusjoukon määritelmä

Väliestimointi (jatkoa) Heliövaara 1

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Tilastotieteen aihehakemisto

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Jatkuvia jakaumia

Tämän luvun sisältö. Luku 5. Estimointiteorian perusteita. Perusjakaumat 1-ulotteisina (2) Perusjakaumat 1-ulotteisina

Dynaamiset regressiomallit

pitkittäisaineistoissa

Harha mallin arvioinnissa

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Bayesilaisen mallintamisen perusteet

Sovellettu todennäköisyyslaskenta B

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

Parametrin estimointi ja bootstrap-otanta

Markov-ketju Monte Carlo - konvergenssidiagnostiikka (convergence diagnostics) - odotettu hyöty tai kustannus (expected utility or cost)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mallipohjainen klusterointi

η i (θ)t i (x) A(θ) + c(x),

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

Tilastollinen päättely II, kevät 2017 Harjoitus 1A

Tutkimustiedonhallinnan peruskurssi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Kertausluento. Tilastollinen päättely II - 2. kurssikoe

Kun datasta halutaan muodostaa malleja, ne ovat yleensä tilastollisia (esim. regressio, luokittelu, ryhmittely...) F(x 0 ) = P(x x 0 ) (1)

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

6. laskuharjoitusten vastaukset (viikot 10 11)

Tilastollinen päättömyys, kevät 2017 Harjoitus 6A

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

pisteet Frekvenssi frekvenssi Yhteensä

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Harjoitus 7: NCSS - Tilastollinen analyysi

Mat Sovellettu todennäköisyyslasku A

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Luku 5. Estimointiteorian perusteita

p(y θ, M) p(θ M)dθ p(θ y, M) = p(y M) Luento 10 Marginaaliuskottavuus Bayes-tekijä Mallin odotettu hyöty DIC (Deviance Information Criterion)

Kertausluento. Tilastollinen päättely II - 1. kurssikoe

Johdatus tn-laskentaan torstai

pitkittäisaineistoissa

Testejä suhdeasteikollisille muuttujille

Tilastollinen päättely II, kevät 2017 Harjoitus 3B

Sovellettu todennäköisyyslaskenta B

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Johdatus todennäköisyyslaskentaan Jatkuvia jakaumia. TKK (c) Ilkka Mellin (2005) 1

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät Ratkaisuehdotuksia

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Yleistä tietoa kokeesta

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Sovellettu todennäköisyyslaskenta B

Transkriptio:

Luento 5 Päättely suurten otosten tapauksessa, n - normaalijakauma-approksimaatio - suurten otosten teoria - asymptoottinen normaalius ja konsistenttisuus - vastaesimerkkejä Slide 1 Bayesilaisen päättelyn frekvenssiarviointi Posteriorijakauman normaalijakauma-approksimaatio Usein posteriorijakauma lähestyy normaalijakaumaa kun n Slide 2 Jos posteriorijakauma unimodaalinen ja lähes symmetrinen, - voidaan posteriorijakauma p(θ y) aproksimoida normaalijakaumalla ( ) 1 p(θ y) exp 1 2πσθ 2σθ 2 (θ ˆθ) 2 - eli log-posteriori log p(θ y) voidaan aproksimoida neliöllisellä funktiolla log p(θ y) α(θ ˆθ) 2 + C

Taylorin sarjakehitelmä Yksiulotteinen Taylorin sarjakehitelmä pisteen x = a ympäristössä f (x) = f (a) + f (a)(x a) + f (a) 2! (x a) 2 + f (3) (a) (x a) 3 +... 3! Slide 3 Yleistyy vastaavasti moniulotteiselle funktiolle f (x 1,..., x n ) = [ n ] j 1 (x k a x ) j! x f (x k=1 k j=0 1,..., x n ) x 1 =a 1,...,x n =a n Posteriorijakauman normaalijakauma-approksimaatio Slide 4 Log-posteriorin Taylorin sarjakehitelmä posteriorimoodin ˆθ ympärillä log p(θ y) = log p(ˆθ y) + 1 [ d 2 (θ ˆθ) T 2 ] log p(θ y) (θ ˆθ) +... dθ 2 missä lineaaritermi on nolla, koska log p(θ y):n derivaatta on moodissa nolla ja korkeammat termit ovat pieniä verrattuna neliöllisen termiin kun θ lähellä ˆθ:aa ja n on iso Moniulotteinen normaalijakauma 1/2 exp θ=ˆθ ( ) 1 2 (θ ˆθ T ) 1 (θ ˆθ) Koska ensimmäinen termi vakio ja toinen termi suhteessa normaalijakauman logaritmiin missä I(θ) on havaittu informaatio p(θ y) N(ˆθ, [I(ˆθ)] 1 ) I(θ) = d2 log p(θ y) dθ 2

Posteriorijakauman normaalijakauma-approksimaatio I(θ) on havaittu informaatio I(θ) = d2 log p(θ y) dθ 2 Slide 5 - I( ˆθ) on log-posteriorin toiset derivaatat moodissa eli kuvaa log-posteriorin kaarevuuden moodissa - jos moodi on parametriavaruuden sisällä, I( ˆθ) positiivinen - jos θ on vektori, I(θ) on matriisi Normaalijakauma-approksimaatio - esimerkki Normaalijakauma, tuntematon keskiarvo ja varianssi - uniformi-priori parametreille (µ, log σ) - normaalijakauma-approksimaatio (µ, log σ):n posteriorille Slide 6 log p(µ, logσ y) = constant n logσ 1 2σ 2[(n 1)s2 + n(ȳ µ) 2 ] ensimmäiset derivaatat d n(ȳ µ) log p(µ, log σ y) = dµ σ 2, d d(logσ) log p(µ, log σ y) = n + (n 1)s2 + n(ȳ µ) 2 σ 2, josta posteriorimoodi on helposti laskettavissa ( ( ˆµ, log ˆσ) = ȳ, 1 ( )) n 1 2 log s 2 n

Normaalijakauma-approksimaatio - esimerkki Slide 7 Normaalijakauma, tuntematon keskiarvo ja varianssi ensimmäiset derivaatat d n(ȳ µ) log p(µ, log σ y) = dµ σ 2, d d(log σ) log p(µ, log σ y) = n + (n 1)s2 + n(ȳ µ) 2 σ 2 toiset derivaatat d 2 n log p(µ, log σ y) = dµ 2 σ 2, d 2 ȳ µ log p(µ, log σ y) = 2n dµd(log σ) σ 2, d 2 2 log p(µ, log σ y) = d(logσ) 2 σ 2((n 1)s2 + n(ȳ µ) 2 ) Normaalijakauma-approksimaatio - esimerkki Slide 8 Normaalijakauma, tuntematon keskiarvo ja varianssi toiset derivaatat d 2 n log p(µ, log σ y) = dµ 2 σ 2, d 2 ȳ µ log p(µ, log σ y) = 2n dµ(logσ) σ 2, d 2 2 log p(µ, log σ y) = d(log σ) 2 σ 2((n 1)s2 + n(ȳ µ) 2 ) toisten derivaattojen matriisi pisteessä ( ˆµ, log ˆσ) n/ˆσ 2 0 0 2n

Normaalijakauma-approksimaatio - esimerkki Normaalijakauma, tuntematon keskiarvo ja varianssi posteriorimoodi ( ( ˆµ, log ˆσ) = ȳ, 1 ( )) n 1 2 log s 2 n Slide 9 toisten derivaattojen matriisi pisteessä ( ˆµ, log ˆσ) n/ˆσ 2 0 0 2n normaalijakauma-approksimaatio p(µ, log σ y) N µ ȳ, ˆσ 2 /n 0 logσ log ˆσ 0 1/(2n) Normaalijakauma-approksimaatiosta Käyttökelpoinen, jos - oikea posteriori lähes normaalijakautunut eri malleilla ja parametrisoinneilla lähestyy normaalijakaumaa eri nopeudella - tai inferenssi ei herkkä approksimaation muodolle esim. odotusarvo on vähemmän herkkä kuin äärikvantiilit Slide 10 Approksimaatiota voidaan usein parantaa parametrien muunnoksella - esim. σ :n sijasta logσ - sekä σ :n että log σ :n posteriorijakauma lähestyy normaalijakaumaa, mutta äärellisellä n:llä approksimaatio on parempi log σ :lle

Normaalijakauma-approksimaatiosta Normaalijakauma-approksimaation voi tehdä myös marginaalijakaumille - marginaalijakaumat lähempänä normaalijakaumaa - voi toimia paljon paremmin, mutta voi olla työläämpää marginalisoinnin vuoksi - joskus nimellä delta-menetelmä Slide 11 Normaalijakauma-approksimaation voi tehdä myös ehdollisille jakaumille - approksimatiivinen Rao-Blackwell:isointi Normaalijakauma-approksimaatiosta Approksimaatiosta on helppo laskea approksimaation - korkeimman tiheyden alue (HPD) moniulotteisellekin jakaumalle - keskiarvo, moodi ja esim. 95%-intervalli Voidaan käyttää alkuarvauksena Monte Carlo-menetelmille Slide 12 Voidaan käyttää painotuspoiminnan ehdotusjakaumana Voidaan laskea numeerisesti - tarjoaa nopean pika-arvion (kunhan jakauma unimodaalinen)

Normaalijakauma-approksimaatiosta Normaalijakauma-approksimaation voi laskea myös numeerisesti - jos gradientteja ei ole annettu, ne voidaan laskea finite-difference menetelmällä (toimii jos ei paljon parametreja) - minimoidaan negatiivinen log-posteriori: minimi on moodi ja Hessian minimissä on havaittu informaatio moodissa Slide 13 - helppoa esim. Matlabilla [w,fval,exitflag,output,g,h]=fminunc(@nlogp,w0,opt,x,y,n); Kirjan esimerkki: myrkyllisyyskoe Dose, x i Number of Number of (log g/ml) animals, n i deaths, y i -0.86 5 0-0.30 5 1-0.05 5 3 0.73 5 5 Slide 14 y i θ i Bin(n i, θ i ) Logistinen regressio logit(θ i ) = α + βx i Likelihood p(y i α, β, n i, x i ) [logit 1 (α + βx i )] y i [1 logit 1 (α + βx i )] n i y i Posteriori n p(α, β y, n, x) p(α, β) p(y i α, β, n i, x i ) i=1 esim5_1.m, tehtävä 4.2

Kirjan esimerkki: myrkyllisyyskoe Vinkki harjoitustehtävään 4.2 Likelihood p(y i α, β, n i, x i ) [logit 1 (α + βx i )] y i [1 logit 1 (α + βx i )] n i y i θ y i [1 θ] n i y i Slide 15 Kirjoita log-posteriori siistiin muotoon Merkitse θ = logit 1 (φ) ja φ = α + βx i, ja käytä ketjusääntöä Katso logit ja logit 1 kirjan s. 24 Tunnista tutut toistuvat muodot, järjestele termit ja pidä yksinkertaisena Vertaa numeeriseen tulokseen (esim5_1.m) (Hessian) Suurten otosten teoria (Large sample theory) Käsitellään vain pintapuolisesti - kirjan liite B kertoo lisää, mutta edelleen vain esittelevästi - tarkempi käsittely vaatii tiukempaa matemaattista käsittelyä Oletetaan "oikea" allaoleva datan jakauma f (y) Slide 16 - havainnot y 1,..., y n ovat riippumattomia näytteitä yhteisestä jakaumasta f (y) - "oikea" datan jakauma f (y) on usein hankala käsite - bayesilaisittain voimme sanoa, että toimimme aivan kuin olisi olemassa "oikea" allaoleva datan jakauma f (y) - teorian kannalta ei tarvitse tietää f (y):n tarkkaa muotoa, kunhan toteuttaa tietyt säännöllisyysehdot

Suurten otosten teoria Asymptoottinen normaalius - jakaumasta f (y) saatujen havaintojen y i määrän n kasvaessa parametrivektorin posteriorijakauma lähestyy normaalijakaumaa Slide 17 Konsistenttisuus - jos oikea datan jakauma sisältyy parametriseen perheseen, eli jos f (y) = p(y θ 0 ) jollekin θ 0 :lle, niin posteriori jakauma konvergoituu pisteeseen θ 0, kun n Jos oikea jakauma ei sisälly parametriseen perheeseen, ei ole olemassa oikeaa arvoa θ 0 - oikea arvo θ 0 korvataan θ 0 :lla jonka arvolla jakauma p(y θ) on lähinnä oikeaa jakaumaa f (y) Kullback-Leibler informaatiolla mitattuna ( ) f (yi ) H(θ 0 ) = f (y i ) log dy i p(y i θ 0 ) Kullback-Leibler informaatio H(θ 0 ) = ( ) f (yi ) f (y i ) log dy i p(y i θ 0 ) Mittaa jakaumien välistä "etäisyyttä" - ei etäisyysmitta, koska ei symmetrinen Slide 18 - etäisyys-termin sijasta käytetään usein termiä divergenssi - jos log 2, divergenssi on bitteinä - jos log e, divergenssi on natteina

Asymptoottinen normaalius ja konsistenttisuus Jos likelihood toteuttaa tietyt säännöllisyysehdot, - esim. jatkuva θ:n funktio ja θ 0 ei ole parametriavaruuden reunalla niin θ:n posteriorijakauma lähestyy normaalijakaumaa N(θ 0, (n J(θ 0 )) 1 ), Slide 19 missä J(θ) on Fisherin informaatio Vertaa havaittu informaatio Fisherin informaatio I(θ) = d2 log p(θ y) dθ [ 2 d 2 log p(y θ) ] θ J(θ) = E dθ 2 Asymptoottinen normaalius ja konsistenttisuus Havaittu informaatio I(θ) = d2 log p(θ y) dθ 2 on posteriorille p(θ y) annettuna tietty havaittu y Slide 20 Fisherin informaatio [ d 2 log p(y θ) ] θ J(θ) = E dθ 2 on likelihoodille p(y θ) odotusarvo y:n yli annettuna θ (ei tietylle y) Kun n näistä tulee sama Tulos voidaan tulkita Taylorin sarjakehitelmän termeillä

Asymptoottinen normaalius ja konsistenttisuus Taylorin sarjakehitelmä posteriorimoodin ˆθ ympärillä log p(θ y) = log p(ˆθ y) + 1 [ d 2 (θ ˆθ) T 2 ] log p(θ y) dθ 2 θ=ˆθ (θ ˆθ) +... Liitteen B kuvaileva tulos näyttää, että kun n, posteriorijakauman massa keskittyy pienenevälle θ 0 :n naapurustolle ja ˆθ θ 0 0, (konsistenttisuus) Slide 21 Kirjoitetaan neliöllinen termi seuraavasti [ d 2 ] log p(θ y) dθ 2 θ=ˆθ [ d 2 ] = log p(θ) dθ 2 θ=ˆθ + n [ d 2 ] dθ 2 log p(y i θ) i=1 θ=ˆθ θ:n funktiona tämä on vakio plus summa n termistä, joista jokaisen odotusarvo oikean jakauman p(y θ 0 ) suhteen on noin J(θ 0 ), jos ˆθ on lähellä θ 0 :aa Joten, kun n iso, log-posteriorin kaareutuvuus voidaan aproksimoida Fisherin informaatiolla evaluoituna pisteessä ˆθ tai θ 0 (joista vain ˆθ käytettävissä) Asymptoottinen normaalius ja konsistenttisuus Kun n iso, posteriorimoodi ˆθ lähestyy θ 0 :aa ja kaarevuus lähestyy n J(ˆθ):a tai n J(θ 0 ):a Kun n likelihood dominoi posteriorijakaumaa ja moodi ja kaarevuus voidaan päätellä likelihoodista Slide 22

Normaalijakauma-approksimaatio Slide 23 Normaalijakauma-approksimaatio toimii käytännössä vain pienellä osalla malleja - mielenkiintoisemissa tapauksissa n usein ei riittävän iso - myös useita vastaesimerkkejä vaikka n - approksimaation hyvyyttä voidaan testata esim. painotuspoiminalla - onneksi voidaan käyttää muita menetelmiä, kuten ehdollisille tai marginaalijakaumille t-jakauma*, vino-t-jakauma* variaatiolaskenta*, expectation propagation* Monte Carlo Rajoituksista huolimatta oleellinen osa bayesilaista työkalupakkia, koska sen verran usein on tilanteita, joissa on hyödyllinen ainakin osana approksimaatiota Suurten otosten teoria - vastaesimerkkejä Teoria ei aina pidä paikkansa vaikka n Ali- ja ei-identifioituvuus - malli on ali-identifioituva, jos mallissa on parametreja tai parametriyhdistelmiä, joista data ei kerro mitään - ei ole olemassa yhtä pistettä θ 0 johon posteriorijakauma konvergoituisi Slide 24 - esim. jos koskaan ei havaita u:ta ja v:tä yhtäaikaa ja malli on u N 0, 1 ρ v 0 ρ 1 niin ρ on ei-identifioituva - esim. u voisi olla opiskelijan pituus ja v paino; olettaen, että yhdeltäkään opiskelijoista ei mitata molempia ρ on ei-identifioituva - ongelma myös esim. Monte Carlo -menetelmille

Suurten otosten teoria - vastaesimerkkejä Teoria ei aina pidä paikkansa vaikka n Parametrien määrän kasvu näytteiden määrän kasvaessa - joissakin malleissa parametrien määrä riippuu datan määrästä - esim. spatiaalimalleissa y i N(θ i, σ 2 ) ja θ i :lle spatiaalipriori Slide 25 - θ i :n posteriorijakauma ei konvergoidu pisteeseen, jos uusi data ei tuo riittävästi informaatiota θ i :stä Suurten otosten teoria - vastaesimerkkejä Teoria ei aina pidä paikkansa vaikka n Valetoisto (aliasing) - ali-identifoitumisen erikoistapaus, missä likelihood toistuu erillisissä pisteissä - esim. normaalisekamalli p(y i µ 1, µ 2, σ1 2, σ 2 2, λ) = λ N(µ 1, σ1 2 ) + (1 λ) N(µ 2, σ2 2 ) Slide 26 jos vaihdetaan keskenään (µ 1, µ 2 ) ja (σ1 2, σ 2 2 ) ja korvataan λ (1 λ):lla, malli pysyy samana; posteriorijakaumassa on yleensä vähintään kaksi moodia jotka ovat toistensa peilikuvia; jakauma ei konvergoidu yhteen pisteeseen - useimmiten ei varsinainen ongelma Monte Carlo -menetelmille, mutta voi hankaloittaa konvergenssidiagnostiikkaa - ongelma voidaan poistaa rajaamalla parametriavaruutta; esim. edellisessä esimerkissä voidaan rajoittaa µ 1 µ 2

Suurten otosten teoria - vastaesimerkkejä Teoria ei aina pidä paikkansa vaikka n Slide 27 Rajoittamaton (unbounded) likelihood - jos likelihood jakauma on rajoittamaton, ei välttämättä ole olemassa posteriorimoodia parametriavaruudessa - esim. edellinen normaalisekamalli; oletetaan λ tunnetuksi (ja ei 0 tai 1); jos asetetaan µ 1 = y i mille tahansa y i :lle ja σ1 2 0, niin likelihood - kun n likelihoodin moodien määrä kasvaa - jos priori ei mene nollaan kun σ 2 1 - ongelma myös esim. Monte Carlo -menetelmille 0 posteriorimoodien määrä kasvaa - ongelma voidaan poistaa rajoittamalla malli mielekkäisiin jakaumiin priorilla - huomaa, että väljällä priorilla ja rajallisella n:llä voi ongelmana olla melkein rajoittamaton posteriori Suurten otosten teoria - vastaesimerkkejä Teoria ei aina pidä paikkansa vaikka n Slide 28 Ei-aito posteriorijakauma - asymptoottiset tulokset olettavat todennäköisyyksien summautuvan 1:een - esim. Binomi-malli, Beta(0, 0) priorijakauma ja datana y = n posteriori p(θ n, 0) = θ n 1 (1 θ) 1 kun θ 1, niin p(θ n, 0) - ongelma myös esim. Monte Carlo -menetelmille - ongelma voidaan poistaa käyttämällä aitoa prioria - huomaa, että väljällä priorilla voi ongelmana olla melkein ei-aito posteriori

Suurten otosten teoria - vastaesimerkkejä Teoria ei aina pidä paikkansa vaikka n Priorijakauma joka ei sisällä konvergenssipistettä - jos diskreetissä tapauksessa p(θ 0 ) = 0 tai jatkuvassa tapauksessa p(θ) = 0 θ 0 :n naapurustossa, niin likelihoodin dominointiin perustuvat konvergenssitulokset eivät päde Slide 29 - ei varsinaisesti ongelma Monte Carlo -menetelmille - ongelma voidaan poistaa asettamalla positiivinen prioritodennäköisyystiheys kaikille vähänkin mahdollisille arvoille Suurten otosten teoria - vastaesimerkkejä Teoria ei aina pidä paikkansa vaikka n Konvergenssipiste parametriavaruuden reunalla - jos θ 0 on parametriavaruuden reunalla, Taylorin sarjakehitelmä pitää katkaista joissakin suunnissa, ja normaalijakauma-approksimaatio ei välttämättä toimi rajalla Slide 30 - esim. y i N(θ, 1) rajoituksella θ 0 ja oletetaan, että malli on tarkka kun θ = 0 - θ:n posteriorijakauma on positiiviseksi katkaistu normaalijakauma, µ = ȳ - rajalla n posteriorijakauma on puolikas normaalijakauma - ei ongelma Monte Carlo -menetelmille

Suurten otosten teoria - vastaesimerkkejä Jakauman hännät - normaalijakauma-approksimaatio voi olla tarkka suurimalle osalle posteriorijakauman massaa, mutta silti olla epätarkka jakauman hännissä - esim. parametri joka on rajoitettu positiiviseksi; äärellisellä n:llä normaalijakauma-approksimaatio pitää negativiisia arvoja mahdollisina Slide 31 Monte Carlolla myös on ongelmia häntien kanssa, vaikkakin erilaisia Bayesilaisen päättelyn frekvenssiarviointi Frekventistiset menetelmät pohjautuvat toistettuun otantaan (repeated sampling) eli frekvensseihin Bayesilaisen päättelyn frekvenssiarviointi perustuu myös frekvensseihin, mutta bayesilainen tulkinta säilyy vaikka termejä ja työkaluja lainataan frekventistisestä teoriasta Slide 32 Vaikka bayesilaisessa teoriassa korostetaan mahdollisutta tutkia yksittäistä tapahtumaa, ei estettä tutkia myös toistuvaa tapahtumaa Normaalijakauma-approksimaation ja konsistenttisuuden perustelut perustuvat myös toistettuun poimintaan Frekvenssiarvioinissa tutkitaan menetelmien ominaisuuksia pohtimalla mitä tapahtuisi, jos koe toistettaisiin äärettömän monta kertaa havaintojen tullessa "oikeasta" jakaumasta f (y)

Bayesilaisen päättelyn frekvenssiarviointi Asymptoottisesti 95% posteriori-intervalli sisältää oikean arvon 95% tapauksissa kun otantaa toistetaan fiksatulla oikealla θ 0 :lla Konsistenttisuus: jos oikea jakauma sisältyy mallin jakaumaperheeseen, θ:n posteriorijakauma konvergoituu oikeaan arvoon kun n kasvaa Asymptoottinen harhattomuus: [E(ˆθ θ 0 ) θ 0 ]/ sd(ˆθ θ 0 ) 0 Slide 33 jos oikea jakauma sisältyy mallin jakaumaperheeseen, lievien säännöllisyysehtojen ollessa voimasa, posteriorijakauman moodi, odotusarvo ja mediaani ovat konsistentteja ja asymptoottisesti harhattomia Asymptoottinen tehokkuus: piste-estimaatti on tehokas, jos ei ole olemassa toista estimaattia pienemmällä neliövirheellä E[(ˆθ θ 0 ) 2 θ 0 ] lievien säännöllisyysehtojen ollessa voimasa, posteriorijakauman moodi, odotusarvo ja mediaani ovat asymptoottisesti tehokkaita Bayesilaisen päättelyn frekvenssiarviointi* Asymptoottiset tulokset kivoja, mutta useimmiten kiinnostavampaa on suorituskyky kun n äärellinen Yleisesti bayesilaiset estimaatit harhaisia - estimaatti kallellaan priorin suuntaan Slide 34 - koska oikea totuus ei yleensä tiedossa, priori todennäköisesti väärä, mistä seuraa harhaisuus - harha ei haittaa, jos samalla varianssi on pieni (tehokkuus hyvä) - hieman väärä priori aiheuttaa pienen harhan, mutta voi pienentää varianssia paljon Harha-varianssi-ongelma (bias-variance dilemma) - harhaa kasvattamalla varianssi voi pienentyä - priori-informaatiota lisäämällä vaarana harhan kasvaminen, mutta etuna varianssin pieneneminen

Tähän mennessä Bayesilaisen päättelyn perusteita ja termejä Yksiparametrisia malleja Johdatus moniparametrisiin malleihin Informatiiviset ja ei-informatiiviset priorijakaumat Slide 35 Yksinkertainen simulointi posteriorijakaumasta Päättely suurten otosten tapauksessa Jakaumia binomi- normaali- Poisson- uniformi- beta- Inv-χ 2 - gamma- Cauchy- multinomi- t- Neg-binomi- Dirichlet- Inv-Wishart- exponentiaalinen