Binomi Jacob Bernoulli ( ), Bayes ( ) Normaali de Moivre ( ), Laplace ( ), Gauss ( )

Luento 2 Binomi-malli Posteriorijakauman esittämisestä Informatiivisista priorijakaumista Konjugaattipriori Slide 1 Yksiparametrisia malleja Binomi Jacob Bernoulli (1654-1705), Bayes (1702-1761) Normaali de Moivre (1667-1754), Laplace (1749-1827), Gauss (1777-1855) Poisson Poisson (1781-1840) Exponential, Double exponential Laplace (1749-1827) Slide 2

Binomimalli Data y 1,..., y n, joista jokainen on 0 tai 1 Luonnollinen malli kun tehdään keskenään vaihtokelpoisia (exchangeable) toistokokeita tai poimintoja suuresta populaatiosta, joissa jokaisen kokeen tulos voi olla yksi kahdesta vaihtoehdosta (usein success ja failure ) Esimerkkejä Slide 3 - Bernoullin koe, missä laatikosta poimitaan kahdenvärisiä palloja - pussista poimitaan kahdenvärisiä nappuloita - tyttö- ja poikavauvojen suhde Binomimalli ja vaihtokelpoisuus Oletetaan tapahtumien vaihtokelpoisuus - tapahtumien järjestyksellä ei ole merkitystä - jos järjestyksellä ei ole väliä, riittää tietää montako kertaa kumpikin tapahtuma tapahtui esim. montako tyttöä ja montako poikaa Slide 4 Vaihtokelpoisuus-termistä tarkemmin luennolla 6

Binomimalli Aloitetaan reilusta kolikosta, klaavan tn. 0.5 Reilu kolikko, n klaavan tn. 0.5,...,0.5 = 0.5 n Painotettu kolikko, n heittoa, y klaavaa, jossakin järjestyksessä θ (1 θ)... = θ y (1 θ) n y Slide 5 Mikä tahansa järjestys, eli summataan yhteen eri permutaatioiden tn:t p(y θ, n, M) = ( n) y θ y (1 θ) n y - data voidaan esittää kertomalla toisen vaihtoehdon määrä y ja kokonaismäärä n Binomi-malli Olettamalla binomi-malli ja onnistumistodennäköisyyttä kuvaava parametri θ, voidaan toimia aivan kuin kokeiden tulokset olisivat riippumattomia (independent) ja identtisesti jakautuneita ehdolla malli M ja parametri θ Slide 6 p(y θ, n, M) = Bin(y n, θ) = ( ) n θ y (1 θ) n y y missä n oletetaan tunnetuksi ja osaksi koesuunnittelua (eli ei parametri)

Binomi-malli: θ :n posteriori Bayesin kaavan mukaan p(θ y, n, M) = p(y θ, n, M)p(θ n, M) p(y n, M) Yksinkertaistuksen vuoksi aloitetaan helpolla priorilla Slide 7 Jolloin p(θ y, n, M) = p(θ n, M) = p(θ M) = 1, kun 0 θ 1 ( n ) y θ y (1 θ) n y 1 ( n ) 0 y θ y (1 θ) n y dθ = 1 Z θ y (1 θ) n y Lasketaan normalisointitermi Z Z = 1 0 θ y (1 θ) n y dθ Jakaumista ja normalisoinnista Sen sijaan, että merkittäisiin p(θ y, n, M) = 1 Z θ y (1 θ) n y usein merkitään p(θ y, n, M) θ y (1 θ) n y Slide 8 Normalisoimattomia jakaumia käytetään usein - normalisointi voidaan laskea lopuksi - tai käytetään menetelmiä jotka toimivat normalisoimattomalle jakaumalle kuten monet Monte Carlo-menetelmät Jakaumien nimitykset - jos π(θ)dθ =, π(θ) on ei-aito (improper) - jos q(θ)dθ = Z = 1, q(θ) on normalisoimaton - jos p(θ)dθ = 1, p(θ) on aito (proper) ja normalisoitu

Binomi-malli: θ :n posteriori Lasketaan normalisointitermi Z Z = p(y n, M) = 1 0 θ y (1 θ) n y dθ = Ŵ(y + 1)Ŵ(n y + 1) Ŵ(n + 2) Slide 9 Normalisointitermi on muotoa Beta function - kun integroidaan koko θ:n avaruuden yli (0, 1) on lopputulos lähes mukavaa muotoa, eli esitettävissä Gamma-funktioilla - jos lisäksi y ja n kokonaisulukuja, vielä siistimpi muoto, koska Gamma on kokonaisluvuille kertoma Ŵ(n) = (n 1)! - isoille luvuille tämäkin tuottaa ongelmia, joten yleensä lasketaan log(ŵ( )) ilman, että lasketaan suoraan Ŵ( ) Binomi-malli: θ :n posteriori Saadaan posteriorijakaumaksi p(θ y, n, M) = joka on nimetty Beta-jakaumaksi Ŵ(n + 2) Ŵ(y + 1)Ŵ(n y + 1) θ y (1 θ) n y, Slide 10 θ y, n Beta(y + 1, n y + 1)

Matlab demonstraatio: Beta-jakauma Slide 11 disttool - n = 2, y = 1 Beta(2, 2) - n = 5, y = 3 Beta(4, 3) - n = 20, y = 12 Beta(13, 9) - n = 100, y = 60 Beta(61, 41) - n = 1000, y = 600 Beta(601, 401) Esimerkki: tyttövauvojen suhteellinen osuus Pariisissa syntyi 241945 tyttöä ja 251527 poikaa vuosina 1745 1770 Posteriori Beta(241946, 251528) = 493474! 241946!251528! θ 241945 (1 θ) 251527 Slide 12 Laplace halusi laskea p(θ > 0.5, y, n, M) = 1 0.5 p(θ y, n, M)dθ Integraali x 0 θ y (1 θ) n y dθ on muotoa incomplete Beta function - Bayesille tuotti ongelmia, ja vain rajoitettu ratkaisu - nykyisin löytyy useita sarja- ja ketjumurtolukuesityksiä - Laplace käytti normaalijakauma-approksimaatiota (luento 5)

Esimerkki: tyttövauvojen suhteellinen osuus Pariisissa syntyi 241945 tyttöä ja 251527 poikaa vuosina 1745 1770 Posteriori Beta(241946, 251528) = 493474! 241946!251528! θ 241945 (1 θ) 251527 Slide 13 Laplace halusi laskea p(θ > 0.5, y, n, M) = 1 0.5 p(θ y, n, M)dθ Laplace kehitti normaalijakauma-approksimaation (luento 5) 241945 ˆθ = 241945+251527 0.4903 σ = 0.4903(1 0.4903) 241945+251527 0.0007 p(θ 0.5 y, n, M) = 1.15 10 42 Laplace kirjoitti olevansa morally certain, että θ < 0.5 Ennustaminen Laplace laski (Laplace s law of succession) Slide 14 p(ỹ = 1 y, n, M) = = 1 0 1 0 = y + 1 n + 2 p(ỹ = 1 θ, y, n, M)p(θ y, n, M)dθ θp(θ y, n, M)dθ Ääritapaukset p(ỹ = 1 y = 0, n, M) = 1 n + 2 p(ỹ = 1 y = n, n, M) = n + 1 n + 2 Vrt. maximum likelihood

Posteriorijakaumien esittäminen Posteriorijakauma sisältää kaiken sen hetkisen informaation parametrista θ Ideaalitapauksessa voisi raportoida koko posteriorijakauman Usein käytettyjä yhteenvetoesityksiä paikalle (location) joskus näitä nimitetään myös piste-estimaateiksi (point estimate) - keskiarvo (mean) Slide 15 - mediaani - moodi(t) Usein käytettyjä yhteenvetoesityksiä variaatiolle (variation) - hajonta (standard deviation) - kvantiilit - intervallit Posteriorijakaumien esittäminen: piste-estimaatit Keskiarvo on parametrin posterioriodotusarvo - optimaalinen valinta neliösummavirheen perusteella Mediaanin molemilla puolilla yhtä paljon todennäköisyysmassaa - optimaalinen valinta absoluuttivirheen perusteella Moodi on yksittäinen todennäköisin arvo Slide 16 - optimaalinen valinta 0-1-virheen perusteella Päätösanalyysin mukainen piste-estimaatti - valitaan sovelluskohtainen kustannusfunktio - sovellus voi olla myös tieteellinen kommunikaatio

Posteriorijakaumien esittäminen: laskenta Kun posteriorijakaumalla on suljettu muoto voidaan keskiarvo, mediaani ja hajonta usein saada myös suljetussa muodossa esim. Beta(y + 1, n y + 1):n keskiarvo on y+1 n+2 Jos suljettua muotoa ei ole, voidaan käyttää normaalijakauma-approksimaatiota tai numeerista integrointia Slide 17 - esim. Monte Carlossa approksimoidaan odotusarvo posteriorijakaumsta vedettyjen näytteiden (θ (t) ) avulla E(g(θ)) 1 N T g(θ (t) ) t=1 eli lasketaan Monte Carlo näytteiden keskiarvo Hajonta Hajonta kuvaa normaalijakauman leveyden, joten kuvaa hyvin myös lähellä normaalijakaumaa olevia jakaumia - perusjakaumille helppo laskea (ks. esim. kirjan liite A) - lisää hajonnasta normaalijakauman yhteydessä luennoilla 3 5 Slide 18

Posterioriväli / Luottoväli Posterioriväliä kutsutaan myös - luottoväliksi (credible interval) - tai bayesilaiseksi luottamusväliksi (Bayesian confidence interval) - vrt. frekventistit: luottamusväli (confidence interval) Slide 19 Posterioriväli sisältää tietyn osuuden (esim. 95%) todennäköisyysmassasta - tietyn osuuden sisältäviä väli ei ole yksikäsitteisesti määritelty Yleisimmät vaihtoehdot - central posterior interval välin ylä- ja alapuolella yhtä paljon massaa - highest posterior density (HPD) interval lyhyin mahdollinen väli - lowest posterior loss (LPL) interval* välin sisällä pienin kustannus - näistä kaksi ensimmäistä voidaan yksiulotteisille laskea kumulatiivisten jakaumien (CDF) avulla Kumulatiivinen jakauma Cumulative density function (CDF) - kuinka paljon kumulatiivista todennäköisyysmassaa - jos < θ < p(θ a ) = a p(θ )pθ Slide 20 - vain yksiulotteisille - perusjakaumille Matlabissa valmiina (disttool)

Keskiposterioriväli Central posterior interval - välin ylä- ja alapuolella yhtäpaljon posteriorimassaa - helppo laskea - inavariantti yksi-yhteen estimoitavan muunnoksille - huono jos posteriorin huippu parametriavaruuden laidassa Slide 21 - huono jos multimodaalinen - ei yleisty useampaan ulottuvuuten Suurimman posterioriodennäköisyyden väli Highest posterior density (HPD) interval - välin ulkopuolella kaikkialla pienempi tiheys kuin välin sisällä - melkein yhtä helppo laskea kuin keskiväli - ei inavariantti yksi-yhteen estimoitavan muunnoksille - hyvä myös jos posteriorin huippu parametriavaruuden laidassa Slide 22 - yleistyy useampaan ulottuvuuten

Pienimmän posterioritappion väli* Lowest posterior loss (LPL) interval - välin ulkopuolella kaikkialla suurempi tappio kuin välin sisällä - laskentaan mukaan päätösanalyysi, joten voi olla vaikeampi - inavariantti yksi-yhteen estimoitavan muunnoksille - hyvä myös jos posteriorin huippu parametriavaruuden laidassa Slide 23 - yleistyy useampaan ulottuvuuten Todennäköisyydet Todennäköisyydet, bayesilaiset p-arvot (eri kuin frekventistinen p-arvo) - paljonko todennäköisyysmassaa jollakin alueeella A p(θ A y, M) = θ A p(θ y, M)dθ Slide 24 - yksiulotteisille helppoa jos cdf tiedossa - esim. Laplace halusi laskea p(θ 0.5) = = 1 0.5 p(θ y, n, M)dθ 493474! 241946!251528! 1 0.5 θ 241945 (1 θ) 251527 dθ mutta Laplacella ei ollut Beta-jakauman cdf-tiedossa, sen sijaan osasi sen normaalijakaumalle

Ongelmallisia Multimodaaliset jakaumat Moniulotteiset jakaumat Slide 25 Priorijakaumista Populaatioon perustuvat - eli populaation perustuva posteriorijakauma priorina Tietämyksen tilaan perustuvat - helppoa jos tietämyksen epävarmuus pieni (informatiiviset) - vaikeaa jos tietämyksemme on epävarmaa (ei-informatiiviset) Slide 26 - esitettävä myös epävarmuus

Priorijakaumista Priorijakauman pitäisi kattaa kaikki edes jotenkin mahdolliset parametrin arvot - jos priori on 0, myös posteriori on 0 - jos dataa riittävästi, likelihood voi dominoida posteriorijakaumassa ja priorin muodolla ei niin paljon väliä - jos dataa vähän, voi priorijakauman muoto vaikuttaa paljon Slide 27 Perustelu aiemmin käyttämällemme priorille Uniformi priori θ:lle, jolloin prioriprediktiivinen jakauma uniformi p(y n) = 1 n + 1, y = 0,..., n Slide 28 Bayesin perustelu ilmeisesti perustui tähän - mukava perustelu, koska se voidaan esittää pelkästään havaittavien suureiden y ja n avulla Laplacen perustelu ilmeisesti suoraan θ:lle indifference periaatteen mukaisesti

Konjugaattipriorit Virallinen määritelmä jos p( y) P kaikille p(y ) F ja p( ) P missä P ja F jakaumien joukkoja. tämä kuitenkin liian väljä määritelmä jos valitaan, että P on kaikkien jakaumien joukko Slide 29 Kiinnostavampia ovat luonnolliset konjugaattipriorit, jolloin priori ja posteriori samasta funktioperheestä (samat parametrit) Laskennallisesti mukavia Voidaan tulkita prioridatana Beta-priori Binomi-mallille Priori Beta(θ α, β) θ α 1 (1 θ) β 1 Slide 30 Posteriori p(θ y, n, M) θ y (1 θ) n y θ α 1 (1 θ) β 1 = θ y+α 1 (1 θ) n y+β 1 = Beta(θ α + y, β + n y) Voidaan tulkita, että (α 1) ja (β 1) priorinäytteitä Uniformipriori kun (α 1) = 0 ja (β 1) = 0

Beta-priori Binomi-mallille Posteriori p(θ y, n, M) = Beta(θ α + y, β + n y) Slide 31 Posteriorikeskiarvo E[θ] = - kompromissi priorista ja datasta - kun n, E[θ] y/n α + y α + β + n Posteriorivarianssi - pienenee kun n kasvaa - kun n, Var[θ] 0 Var[θ] = E[θ](1 E[θ]) α + β + n + 1 Konjugaattiprioreista Konjugaattipriorit mukavia kuten myös standardimallitkin - tulkinnan helppous - jakaumat suljettua muotoa - laskennallinen mukavuus - tärkeitä rakennuspalikoita monimutkaisemmissakin malleissa Slide 32 - mixturepriorit ja -mallit laajentavat mahdollisuuksia Ei-konjugaattiset käsitteellisesti yhtä helppoja - laskenta vaikeampaa, mutta ei mahdotonta - ei tarvetta tehdä kompromissia tietämyksen esittämisessä

Esimerkki priorin vaikutuksesta Eteisistukkatapauksissa 437 tyttövauvaa ja 543 poikavauvaa - poikkeaako tyttövauvan todennäköisyys yleisestä (0.485)? Slide 33 Uniformipriorilla (α = 1, β = 1) posteriori on Beta(438, 544) - keskiarvo 0.446 ja hajonta 0.016-95% posterioriväli [0.415, 0.477] - p(θ < 0.485) = 0.99 Matlab-demot: esim2_1.m, esim2_2.m Esimerkki Monte Carlo -laskennasta Eteisistukkatapauksissa 437 tyttövauvaa ja 543 poikavauvaa - entä jos haluamme laskea posteriorijakauman tyttöjen ja poikien suhteelle φ = (1 θ)/θ - p(φ y, n, M) =? Slide 34 Voidaan poimia helposti näytteitä tästä jakaumasta - poimitaan ensin näytteitä θ (t) posteriorijakaumasta p(θ y, n, M) - lasketaan φ (t) = (1 θ (t) )/θ (t) - φ (t) ovat näytteitä jakaumasta p(φ y, n, M) - histogrammi, kvantiilit ja intervallit helppo laskea näytteistä - Matlab-demo: esim2_3.m

Esimerkki ei-konjugaattisen priorin käytöstä Eteisistukkatapauksissa 437 tyttövauvaa ja 543 poikavauvaa - konjugaattipriorilla posteriori helppo laskea Ei-konjugaattinen priori - posteriori ei helppoa muotoa - Monte Carlolla approksimointi silti helppoa Slide 35 - yksiulotteiselle esim. hilapoiminta Matlab-demo: esim2_4.m - tämä on myös inverse-cdf demo