S-114.2601 Bayesilaisen mallintamisen perusteet Laajuus: 5 op, L Opettajat: TkT Aki Vehtari, DI Simo Särkkä Slide 1 Sisältö: Bayesilainen todennäköisyysteoria ja bayesilainen päättely. Bayesilaiset mallit ja mallien analysointi. Laskennalliset menetelmät, Markov-ketju Monte Carlo. Suorittaminen: Tentti ja harjoitustyö Kirjallisuus: Gelman, Carlin, Stern & Rubin: Bayesian Data Analysis, Second Edition. Aikataulu: Luennot maanantaisin klo 12-14 sali E111 Mikroharjoitukset torstaisin klo. 10-12, mikroluokka Maari-B (Alkaen 15.9.). URL: http://www.lce.hut.fi/teaching/s-114.2601/ Bayesilaisen mallintamisen perusteet kurssin sisältö Johdanto Yksiparametrisia malleja Moniparametrisia malleja Slide 2 Päättely suurten otosten tapauksessa ja bayesilaisen päättelyn frekvenssiominaisuudet Hierarkiset mallit Laskennallisia menetelmiä, Markov-ketju Monte Carlo Päätösanalyysi Mallien tarkistus, vertailu ja parannus Yhteenveto ja katsaus lisäaiheisiin
Suorittaminen Harjoitusraportti ja tentti Arvosana = 0.49 * harjoitusraportti + 0.51 * tentti Harjoitusraportti palautetaan osasta (14 tehtävää) viikottaisista mikroluokkaharjoitustehtävistä Slide 3 Tenttiin voi saada 2 lisäpistettä palauttamalla 3 laskutehtävää Mikroluokkaharjoitukset Läpikäytävät tehtävät listattu kurssin www-sivulla Alkupäässä joitakin laskutehtäviä, loput simulaatioita Assistentti auttaa tehtävien tekemisessä Slide 4 * merkityistä (14 kpl) palautetaan raportti - parityöskentely erittäin suositeltavaa + merkityt itseopiskeluun, osa muistuttaa tenttitehtäviä ++ merkityistä voi saada 3x2/3 lisäpistettä tenttiin
Harjoitusraportti */** merkityistä palautetaan raportti - 0-5 pistettä per tulokset - 0-1 pistettä per pohdinta - **-merkitystä tuplapisteet - maksimipisteet 15*6=90 Slide 5-45-53=1, 54-62=2, 63-71=3, 72-80=4, 81-90=5 Luento 1 Joitakin sovellusalueita Bayesilainen-termin historiasta Todennäköisyys epävarmuuden mittana Epävarmuuksien yhdistäminen todennäköisyyslaskennalla Slide 7 Bayesin kaava Bayesilainen malli Integroinnin merkityksestä
Joitakin Bayes-menetelmien sovellusalueita Slide 8 Arkeologia Astronomia Biotieteet Ekonomia Epidemiologia Fysiikka Genetiikka Kognitiotiede Kuvankäsittely Lakitiede Luotettavuusanalyysi Lääketiede Metereologia Prosessimallinnus Päätösanalyysi Signaalinkäsittely Sosiaalitieteet Tiedon louhinta Mikä tahansa todelliseen maailmaan liittyvä sovellusalue, jossa havaintojen perusteella halutaan päätellä jotakin Joitakin LCE:n projekteja, joissa käytetty Bayes-menetelmiä Betonin laadun mallintaminen ja ennustaminen Ihmisen aivotoiminnan kuvantaminen MEG:llä Aivokäyttöliittymä Teollisuusputken sisällön kuvantaminen impedanssitomografialla Slide 9 Kaupan alueellisen kulutuskysynnän mallintaminen Puiden tilavuuden arviointi kuvasta Viemäriputkien kunnonvalvonta Robotin näköjärjestelmä Spatiaalinen epidemiologia Terveydenhuollon prosessit
Bayesilaisen mallintamisen perusteet Bayesilaiseen todennäköisyysteoriaan perustuva - epävarmuus esitetään todennäköisyyksillä - todennäköisyyksien päivittäminen uuden tiedon avulla - Laskutoimitukseksi pelkistettyä tervettä järkeä, Laplace 1819 Thomas Bayes (170? 1761) Slide 10 - englantilainen antikonformisti, presbyteeri reviisori, harrastelijamatemaatikko - Richard Price julkaisi Bayesin artikkelin ehdollisista todennäköisyyksistä Bayesin kuoleman jälkeen 1763 - käsitteli käänteisen todennäköisyyden ongelmaa: X Bin(n, θ), niin mikä on p(a < θ < b X = x)? Moderni bayesilainen teoria perusteellisine todistuksineen kehittyi 1900-luvulla Bayesilainen-termi käyttöön 1900-luvun puolivälissä Aiemmin oli vain "probability theory" - todennäköisyyden käsite ei ollut vielä tiukasti määritelty vaikkakin vastasi nykyistä bayesilaista tulkintaa - 1800-luvun lopulla ja lisääntyivät vaatimukset todennäköisyyskäsitteen tiukalle määrittelylle (matemaattinen ja tieteenfilosofinen ongelma) Slide 11 1900-luvun alkupuoliskolla yleistyi frekventistinen näkökulma - hyväksyy todennäköisyyksien määrittelyn vain frekvenssien kautta - ei hyväksy käänteistä todennäköisyyttä tai priorin käyttöä - yleistyi näennäisen objektiivisuutensa ja keittokirjamaisten kirjojen ansiosta Frekventistiläinen R. A. Fisher käytti 1950 ensimmäistä kertaa termiä bayesilainen korostaessaan eroa aiempaan todennäköisyysteoriaan - termi yleistyi nopeasti, koska vaihtoehtoiset kuvaukset ovat pidempiä - bayesilaiset ottivat tämän jälkeen käyttöön termin frekventistiläinen
Bayesilaisten menetelmien suosio kasvaa kovaa vauhtia Todennäköisyyksille modernin Bayes-teorian mukainen aksiomaattinen perusta 1900-luvulla - filosofinen kiista frekventistien kanssa jatkui Laskentatehon kasvaessa bayesilaisen lähestymistavan vahvuus kompleksisten ongelmien mallintamisessa johtanut suosion valtavaan kasvuun Slide 12 - suurin osa käyttäjistä pragmaattisia, eli käyttävät koska menetelmät toimivat Huom. bayesilainen teoria ei sulje pois frekvenssejä ja frekvenssiominaisuudet tärkeitä (tästä lisää myöhemmin) Bayesilaisen mallintamisen perusteet Epävarmuus kuvataan todennäköisyyksillä Epävarmuudet yhdistetään todennäköisyyslaskennan säännöillä Slide 13
Todennäköisyys epävarmuuden mittana E tapahtuma, H taustatieto (joskus hypoteesi) p(e H) E:n todennäköisyys ehdolla H Mittaa epävarmuutta tiedon H valossa: - p(e H) = 1 jos olet varma, että E tapahtuu - p(e H) = 0 jos olet varma, että E ei tapahdu Slide 14 - p(e H) = 0.4: E:hen liittyy epävarmuutta (mutta ei välttämättä satunnaisuutta) - jos E:n tapahtumisen varmuus on suurempi kuin F:n, niin p(e H) > p(f H) Kahdella tarkastelijalla voi olla eri käsitys epävarmuudesta ( eri H ) Todennäköisyys muuttuu, kun informaatio muuttuu Bayes-teoria perustuu subjektiivisiin todennäköisyyksiin Subjektiivisuus vs. objektiivisuus Subjektiivisuus - bayesilaisessa teoriassa todennäköisyydet ovat välttämättä subjektiivisia siinä mielessä, että ne kuvaavat tietämyksen tilaa - kenen tietämyksen tila? - kenen tahansa joka saa saman informaation ja päättelee vaatimusten mukaan Slide 15 Objektiivisuus - inter-subjektiivisuus
Aleatorinen vs. episteeminen epävarmuus Epävarmuus voidaan jakaa Aleatoriseen (satunnaiseen) epävarmuuteen, joka johtuu satunnaisuudesta - satunnainen epävarmuus on unknowable, eli siihen liittyen emme voi saada havaintoja, jotka auttaisivat sen epävarmuuden pienentämisessä Slide 16 Episteemiseen (tietämykselliseen) epävarmuuteen, joka johtuu tiedon puutteesta - episteeminen epävarmuus on unknown to me ja siihen liittyen voimme saada havaintoja jotka auttavat sen epävarmuuden pienentämisessä Miksi todennäköisyys on järkevä tapa määrittää epävarmuutta Analogiat - fysikaalinen satunnaisuus - yleinen kielenkäyttö Vedonlyöntiargumentti - johdonmukaisesti valitut todennäköisyydet eivät anna etua Slide 17 Aksiomatiiviset ja normatiiviset perustelut - seuraa rationaalisen päättelyn tai päätöksenteon vaatimuksista Pragmaattisuus - jos se toimii käytännössä, on sen oltava järkevää
Aksiomaattiset perustelut todennäköisyydelle* Todennäköisyyksien käyttö epävarmuuden esittämiseen ja todennäköisyyskalkyyli voidaan perustella aksiomaattisesti - useita variaatioita, joissa samat perusideat, mutta hieman esitystavassa eroa Slide 18 - kaksi peruslinjaa todennäköisyys ja hyöty erikseen (esim. Cox, DeGroot,...) todennäköisyys ja hyöty erottamattomia (esim. de Finetti, Savage, Bernardo & Smith,...) Eräs aksiomaattinen formulointi (DeGroot O Haganin mukaan)* Merkitään A B tarkoittamaan A ei ole todennäköisempi kuin B Tyhjä joukko on varmasti epätosi, universaali joukko on varmasti tosi (A1) Kaikille A, B, joko A B tai A B, tai molemmat. Slide 19 (A2) Jos A 1,A 2,B 1,B 2, siten että A 1 A 2 = B 1 B 2 =, A 1 B 1 ja A 2 B 2, niin A 1 A 2 B 1 B 2. Lisäksi jos, joko A 1 < B 1 tai A 2 < B 2 niin A 1 A 2 < B 1 B 2. (A3) Kaikille A, A. Lisäksi < (A4) Jos A 1 A 2... on aleneva joukko tapahtumia raja-arvolla i=1 A i, ja B on kiinteä tapahtuma siten, että B A i kaikille i = 1, 2,..., niin B i=1 A i. (A5) On olemassa satunnaismuuttuja U joka saa arvoja väliltä [0, 1], siten että jos A 1 ja A 2 ovat tapahtumat, että U saa arvon l 1 ja l 2 pituisilta osaväleiltä välillä [0, 1], niin A 1 A 2 jos ja vain jos l 1 l 2.
Aksiomaattinen formulointi* (P1) P(A) 0 and P( ) = 1. (P2) Jos A B =, niin P(A B) = P(A) + P(B) (summasääntö). (P3) Jos A1, A 2,... on ääretön tapahtumien sarja, siten että A i A j = 0 kaikille i = j, niin P( i=1 A i ) = i=1 P(A i ) (summasääntö äärettömille sarjoille). Slide 20 (P4) P(A B) = P(A B)/P(B) (Bayesin kaava) Operaationaaliset formuloinnit (esim. Bernardo & Smith)* Edellä esitetyssä formuloinnissa lähtökohtana, että hyväksytty abstrakti käsite "todennäköisempi kuin" Vaihtoehtoisesti tapahtumien vertailemisen lähtökohtana preferenssit tekojen (action) seuraamuksille (consequences) Slide 21 - eli esim. kahden tapahtuman kohdalla vertaillaan kumman tapahtuman seurauksia preferoidaan - operaationallinen, koska kytkeytyy realisiin tekoihin ja niiden seurauksiin - todennäköisyydet kytkeytyvät seurausten hyötyihin (utilities)
Mistä saadaan p(e H)? Suoraan - symmetria tai vaihtokelpoisuus - frekvenssit Slide 22 Mallin avulla - kiinnitetään rakenteellisia asioita joita tiedetään ja epävarmoja asioita varten käytetään parametreja - päivitetään epävarmoja uudella informaatiolla - uutta informaatioita kutsutaan usein dataksi Bayesilaisen mallintamisen perusteet Malli - pyrkii ennustamaan ilmiön käyttäytymistä - usein yksinkertaistaa todellisuutta - voidaan käyttää ennustamaan tulevaisuutta - voidaan käyttä lisämään tieteellistä ymmärrystä ilmiöstä Slide 23 Yksinkertaistaa koska - ilmiöstä saadut havainnot rajoitettuja - joidenkin havaittavien suureiden vaikutus voi olla paljon suurempi kuin toisten - yksinkertainenkin malli voi tuottaa hyödyllisiä ennusteita
Esimerkki Pudotetaan palloa eri korkeuksilta ja mitataan putoamisaika sekunttikellolla käsivaralla - Newtonin mekaniikka - ilmanvastus, ilmanpaine, pallon muoto, pallon pintarakenne - ilmavirtaukset Slide 24 - suhteellisuusteoria Ottaen huomioon mittaukset, kuinka tarkka malli kannattaa tehdä? On olemassa hyvin paljon tilanteita, joissa yksinkertaiset mallit hyödyllisiä ja käytännön kannalta yhtä tarkkoja kuin monimutkaisemmat! "Kaikki mallit ovat vääriä, mutta jotkut niistä ovat hyödyllisiä", George P. Box Malli Mallin parametrien θ ja datan y yhteistodennäköisyys annettuna malli M p(θ, y M) Usein kiinnostuksen kohteena päivittää prioritietämys p(θ M) posterioritietämyksesi p(θ y, M) Slide 25 Bayesin kaava p(θ y, M) = p(θ, y M) p(y M) = p(y θ, M)p(θ M) p(y M)
Bayesin kaava p(θ M) = priori (prior) p(θ y, M) = p(y θ, M)p(θ M) p(y M) p(y θ, M) = uskottavuus (likelihood) Slide 26 p(y M) = p(y θ, M)p(θ M)dθ = normalisointi, evidenssi (evidence) p(θ y, M) = posteriori (posterior) Bayesilaisen mallin osat Uskottavuustermi p(y θ, M) - matemaattinen kuvaus havaintomallille / datan generoivalle prosessille - jos ilmiö θ, M millä todennäköisyydellä havaittaisiin / generoituisi y tietyllä arvolla Slide 27 Priori p(θ M) - matemaattinen kuvaus mitä tiedetään θ:sta - uskottavuus ja priori erottamattomat - voi olla kompleksinen, sisältäen paljon rakenteellista informaatioita ilmiöstä esim. hierarkinen priori p(θ λ, M) p(λ M) jos ilmiö λ, M millä todennäköisyydellä havaittaisiin / generoituisi θ tietyllä arvolla huomaa yhtäläisyys uskottavuustermiin!
Mistä saadaan M, p(θ M), ja p(y θ, M)? Erittäin hyvä kysymys! Sama ongelma myös ei-bayesilaisissa lähestymistavoissa! Slide 28 Esimerkki: Hemofilia Perinnöllinen tauti, X-kromosomiin kytkeytyvä, väistyvä Naisen veli sairastaa hemofiliaa, äiti ja isä terveitä Nainen on kantaja (θ = 1) tai ei (θ = 0) p(θ = 1 M) = p(θ = 0 M) = 1 2 Slide 29 Naisella on 2 tervettä poikaa p(y 1 = 0, y 2 = 0 θ = 1, M) = (0.5)(0.5) = 0.25 p(y 1 = 0, y 2 = 0 θ = 0, M) = (1)(1) = 1 Posteriori p(y θ = 1)p(θ = 1) p(θ = 1 y, M) = p(y θ = 1)p(θ = 1) + p(y θ = 0)p(θ = 0) (0.25)(0.5) p(θ = 1 y, M) = (0.25)(0.5) + (1.0)(0.5) = 0.125 0.625 = 0.2
Ennustaminen Esim, y = (y 1,..., y n ) ovat mittauksia jostakin asiasta ỹ on uusi ei vielä tehty mittaus samasta asiasta Slide 30 ỹ:n ennuste p(ỹ y, M) = = p(ỹ θ, y, M)p(θ y, M)dθ p(ỹ θ, M)p(θ y, M)dθ Esimerkki: Hemofilia Kolmas poika? p(y 3 = 0 y 1, y 2, M) Ennuste p(y 3 = 0 y 1, y 2, M) = p(y 3 = 0 θ, M)p(θ y 1, y 2, M)dθ Slide 31 p(y 3 = 0 y 1, y 2, M) = p(y 3 = 0 θ = 1, M)p(θ = 1 y 1, y 2, M) + p(y 3 = 0 θ = 0, M)p(θ = 0 y 1, y 2, M) p(y 3 = 0 y 1, y 2, M) = (0.5)(0.2) + (1)(0.8) = 0.9
Esimerkki: Hemofilia Kolmas poika syntyy ja on terve - uutta havaintoa voidaan käyttää päivittämään äidin tilan todennäköisyys Ketjusääntö - edellinen posteriori on nyt uusi priori Slide 32 p(θ = 1 y 1, y 2, y 3 ) = p(y 3 θ = 1, M)p(θ = 1 y 1, y 2, M) θ=0,1 p(y 3 θ, M)p(θ y 1, y 2, M) (0.5)(0.2) = (0.5)(0.2) + (1)(0.8) = 0.111 Integrointi Bayes-menetelmissä Marginalisointi p(y θ 1, M) = p(y θ 1, θ 2, M)p(θ 2 M)dθ 2 Slide 33 Normalisointitermi p(y M) = p(y θ, M) p(θ M)dθ Ennustaminen p(ỹ y, M) = p(ỹ θ, M)p(θ y, M)dθ
Integrointi Bayes-menetelmissä Integroinnin korvaaminen optimoinilla: posteriorin maksimi (MAP) - toimii helpoissa tapauksissa Analyyttinen integrointi - toimii yksinkertaisilla malleilla Slide 34 Analyytiset approksimaatiot - toimii yksinkertaisilla malleilla tai vaatii paljon vaivaa Numeerinen integrointi - tarvitaan laskentatehoa Numeerinen Integrointi Slide 35 Monte Carlo (MC) - integraali approksimoidaan posteriorijakaumsta vedettyjen näytteiden (A (t) ) avulla E(A) 1 N N t=1 A (t) - vaikea saada riippumattomia näytteitä tehokkaasti Markov Chain Monte Carlo (MCMC) - käytetään apuna Markov-ketjuja - riippuvia näytteitä (vaikeuttaa tarkkusarvioita) - yleistyi 1990-luvulla huomattavasti
Bayes-menetelmien suosion kasvu 1990-luvulle asti käytettiin analyyttisiä menetelmiä mallit välttämättä yksinkertaisempia Konetehon jatkuva kasvu ja numeeristen integrointimentelmien kehitys suosio jyrkkään kasvuun 1990-luvulla Slide 36 mahdollisuus käyttää monipuolisempia paremmin todellisuutta kuvaavia malleja käyttöön lukuisilla vaikeilla sovellusalueilla Bayesilaisen mallintamisen vaiheet Oletusten perusteella muodostetaan malli - uskottavuustermi - rakenteellinen priori Täydennetään taustaoletuksilla - priori parametreille Slide 37 Lasketaan Bayesin kaavaa ja marginalisointia hyväksi käyttäen jakaumat halutuille tuntemattomille - esim. ennuste tulevalle havainnolle
Esimerkki: Saturnuksen massa Malli ja havainnot - θ = Saturnuksen massa (tuntematon) - D = observatorioiden mittaamaat häiriöt Jupiterin ja Saturnuksen radoissa (havainnot) - M = Newtonilainen mekaniikka (mallioletukset) Slide 38 - p(d θ, M) = jos Saturnuksen massa olisi θ, niin kuinka todennäköistä olisi havaita mittaukset D (uskottavuustermi) - p(θ M) = järkevä rajoitus massalle; ei niin pieni että Saturnus menettäisi renkaansa, ei niin suuri että koko aurinkokunta järkkyisi (priori) Laplace laski ja totesi...veikkaus 11000:1, että tämän tuloksen virhe ei ole 1% arvostaan - nykyestimaatista Laplacen tulos poikkesi 0.63% Huomatkaa, että Laplace laski jakauman Saturnuksen massan epävarmuudelle, jolloin pystyi esittämään myös arvion estimaatin tarkkudesta
Luento 2 Binomi-malli Posteriorijakauman esittämisestä Informatiivisista priorijakaumista Konjugaattipriori Slide 1 Yksiparametrisia malleja Binomi Jacob Bernoulli (1654-1705), Bayes (1702-1761) Normaali de Moivre (1667-1754), Laplace (1749-1827), Gauss (1777-1855) Poisson Poisson (1781-1840) Exponential, Double exponential Laplace (1749-1827) Slide 2
Binomijakauma Data y 1,..., y n, joista jokainen on 0 tai 1 Luonnollinen malli kun tehdään keskenään vaihtokelpoisia (exchangeable) toistokokeita tai poimintoja suuresta populaatiosta, joissa jokaisen kokeen tulos voi olla yksi kahdesta vaihtoehdosta (usein success ja failure ) Esimerkkejä Slide 3 - Bernoullin koe, missä laatikosta poimitaan kahden värisiä palloja - kolikonheitto - tyttö- ja poikavauvojen suhde Binomijakauma Vaihtokelpoisuuden vuoksi data voidaan esittää kertomalla onnistumisten määrä y ja kokeiden kokonaismäärä n Olettamalla binomi-malli ja onnistumistodennäköisyyttä kuvaava parametri θ, voidaan toimia aivan kuin kokeiden tulokset olisivat riippumattomia (independent) ja identtisesti jakautuneita ehdolla malli M ja parametri θ Slide 4 p(y θ, n, M) = Bin(y n, θ) = ( ) n θ y (1 θ) n y y missä n oletetaan tunnetuksi ja osaksi koesuunnittelua (eli ei parametri)
θ:n posteriori Bayesin kaavan mukaan p(θ y, n, M) = p(y θ, n, M)p(θ n, M) p(y n, M) Yksinkertaistuksen vuoksi aloitetaan helpolla priorilla Slide 5 Jolloin p(θ n, M) = p(θ M) = 1, kun 0 θ 1 p(θ y, n, M) θ y (1 θ) n y Lasketaan normalisointitermi p(θ y, n, M) = Ja kaikkihan heti tunnistavat tästä, että Ɣ(n + 2) Ɣ(y + 1)Ɣ(n y + 1) θ y (1 θ) n y θ y, n Beta(y + 1, n y + 1) Jakaumista Jos π(θ)dθ =, π(θ) on ei-aito (improper) Jos q(θ)dθ = Z = 1, q(θ) on normalisoimaton Jos p(θ)dθ = 1, p(θ) on aito (proper) ja normalisoitu Slide 6
Matlab demonstraatio: Beta-jakauma disttool - n=2, y=1 - n=5, y=3 - n=20, y=12 - n=100, y=60 Slide 7 - n=1000, y=600 Esimerkki: tyttövauvojen suhteellinen osuus Pariisissa syntyi 241945 tyttöä ja 251527 poikaa vuosina 1745 1770 Laplace kehitti normaalijakauma-approksimaation Laplace laski 241945 ˆθ = 241945+251527 0.4903 Slide 8 σ = 0.4903(1 0.4903) 241945+251527 0.0007 p(θ 0.5 y, n, M) 1.15 10 42 Laplace kirjoitti olevansa morally certain, että θ < 0.5
Ennustaminen Laplace laski (Laplace s law of succession) Slide 9 p(ỹ = 1 y, n, M) = = 1 0 1 0 = y + 1 n + 2 p(ỹ = 1 θ, y, n, M)p(θ y, n, M)dθ θp(θ y, n, M)dθ Ääritapaukset p(ỹ = 1 y = 0, n, M) = 1 n + 2 p(ỹ = 1 y = n, n, M) = n + 1 n + 2 Vrt. maximum likelihood Posteriorijakaumien esittäminen Posteriorijakauma sisältää kaiken sen hetkisen informaation parametrista θ Ideaalitapauksessa voisi raportoida koko posteriorijakauman Usein käytettyjä yhteenvetoesityksiä paikalle (location) - keskiarvo (mean) Slide 10 - mediaani - moodi(t) Usein käytettyjä yhteenvetoesityksiä variaatiolle (variation) - hajonta (standard deviation) - kvantiilit
Posteriorijakaumien esittäminen Keskiarvo on parametrin posterioriodotusarvo optimaalinen valinta neliösummavirheen perusteella Mediaanin molemilla puolilla yhtä paljon todennäköisyysmassaa optimaalinen valinta absoluuttivirheen perusteella Slide 11 Moodi on yksittäinen todennäköisin arvo Hajonta kuvaa normaalijakauman leveyden, joten kuvaa hyvin myös lähellä normaalijakaumaa olevia jakaumia Posteriorijakaumien esittäminen Kun posteriorijakaumalla on suljettu muoto voidaan keskiarvo, mediaani ja hajonta usein saada myös suljetussa muodossa esim. Beta(y + 1, n y + 1):n keskiarvo on y+1 n+2 Jos suljettua muotoa ei ole, voidaan käyttää normaalijakauma-approksimaatiota tai numeerista integrointia (esim. Monte Carlo) Slide 12
Posterioriväli / Luottoväli Posterioriväliä kutsutaan usein myös luottoväliksi (credible interval) (vrt. frekventistit: luottamusväli (confidence interval)) - Central posterior interval - Highest posterior density (HPD) interval - Lowest posterior loss (LPL) interval* Slide 13 - Näistä kaksi ensimmäistä voidaan yksiulotteisille laskea kumulatiivisten jakaumien (CDF) avulla Keskiposterioriväli Central posterior interval - välin ylä- ja alapuolella yhtäpaljon posteriorimassaa - inavariantti yksi-yhteen estimoitavan muunnoksille - helppo laskea - huono jos posteriorin huippu parametriavaruuden laidassa Slide 14 - huono jos multimodaalinen - ei yleisty useampaan ulottuvuuten
Suurimman posterioriodennäköisyyden väli Highest posterior density (HPD) interval - välin ulkopuolella kaikkialla pienempi tiheys kuin välin sisällä - ei inavariantti yksi-yhteen estimoitavan muunnoksille - melkein yhtä helppo laskea kuin keskiväli - hyvä myös jos posteriorin huippu parametriavaruuden laidassa Slide 15 - yleistyy useampaan ulottuvuuten Pienimmän posterioritappion väli* Lowest posterior loss (LPL) interval - välin ulkopuolella kaikkialla suurempi tappio kuin välin sisällä - inavariantti yksi-yhteen estimoitavan muunnoksille - laskentaan mukaan päätösanalyysi - hyvä myös jos posteriorin huippu parametriavaruuden laidassa Slide 16 - yleistyy useampaan ulottuvuuten
Todennäköisyydet Todennäköisyydet, bayesilaiset p-arvot (eri kuin frekventistinen p-arvo) p(θ A y, M) - esim. Laplace halusi laskea Slide 17 p(θ 0.5) = = 1 0.5 p(θ y, n, M)dθ 493474! 241946!251528! 1 0.5 θ y (1 θ) n y dθ mutta sen sijaan approksioimi posteriorin normaaliajakaumalla ja approksimoi tuloksen sen avulla Päätösanalyysi Posteriorijakauman esittäminen yhteenvetolukujen avulla voidaan tulkita päätöksenä Optimaalinen päätös voidaan laskea päätösanalyysin avulla Tästä myöhemmin... Slide 18
Ongelmallisia Moniulotteiset jakaumat Multimodaaliset jakaumat Slide 19 Priorijakaumista Populaatioon perustuvat - eli populaation perustuva posteriorijakauma priorina Tietämyksen tilaan perustuvat - helppoa jos tietämyksen epävarmuus pieni (informatiiviset) - vaikeaa jos tietämyksemme on epävarmaa (ei-informatiiviset) Slide 20 - esitettävä myös epävarmuus
Priorijakaumista Priorijakauman pitäisi kattaa kaikki edes jotenkin mahdolliset parametrin arvot - jos priori on 0, myös posteriori on 0 - jos dataa riittävästi likelihood voi dominoida posteriorijakaumassa ja priorin muodolla ei niin paljon väliä - jos dataa vähän voi priorijakauman muoto vaikuttaa paljon Slide 21 Perustelu aiemmin käyttämällemme priorille Uniformi priori θ:lle, jolloin prioriprediktiivinen jakauma p(y n) = 1 n + 1, y = 0,..., n Slide 22 Bayesin perustelu ilmeisesti perustui tähän - mukava perustelu, koska se voidaan esittää pelkästään havaittavien suureiden y ja n avulla Laplacen perustelu ilmeisesti suoraan θ:lle indifference periaatteen mukaisesti
Konjugaattipriorit Virallinen määritelmä jos p( y) P kaikille p(y ) F ja p( ) P tämä kuitenkin liian väljä määritelmä jos valitaan, että P on kaikkien jakaumien joukko Slide 23 Kiinnostavampia ovat luonnolliset konjugaattipriorit, jolloin priori ja posteriori samasta funktioperheestä (samat parametrit) Laskennallisesti mukavia Voidaan tulkita prioridatana Beta-priori Binomi-jakaumalle Priori Beta(θ α, β) θ α 1 (1 θ) β 1 Slide 24 Posteriori p(θ y, n, M) θ y (1 θ) n y θ α 1 (1 θ) β 1 = θ y+α 1 (1 θ) n y+β 1 = Beta(θ α + y, β + n y) Voidaan tulkita, että (α 1) ja (β 1) priorinäytteitä Uniformipriori kun (α 1) = 0 ja (β 1) = 0
Beta-priori Binomi-jakaumalle Posteriori p(θ y, n, M) = Beta(θ α + y, β + n y) Odotusarvo ja hajonta Slide 25 E[θ] = α + y α + β + n E[θ](1 E[θ]) Var[θ] = α + β + n + 1 Konjugaattiprioreista Konjugaattipriorit mukavia kuten myös standardimallitkin - tulkinnan helppous - jakaumat suljettua muotoa - laskennallinen mukavuus - tärkeitä rakennuspalikoita monimutkaisemmissakin malleissa Slide 26 - mixturepriorit ja -mallit laajentavat mahdollisuuksia Ei-konjugaattiset käsitteellisesti yhtä helppoja - laskenta vaikeampaa, mutta ei mahdotonta - ei tarvetta tehdä kompromissia tietämyksen esittämisessä
Esimerkki priorin vaikutuksesta Eteisistukkatapauksissa 437 tyttövauvaa ja 543 poikavauvaa - poikkeaako tyttövauvan todennäköisyys yleisestä (0.485)? Slide 27 Uniformipriorilla posteriori on Beta(438, 544) - keskiarvo 0.446 ja hajonta 0.016-95% posterioriväli [0.415, 0.477] - p(θ < 0.485) = 0.99 Matlab-demot: esim2_1.m, esim2_2.m Esimerkki Monte Carlo -laskennasta Eteisistukkatapauksissa 437 tyttövauvaa ja 543 poikavauvaa - entä jos haluamme laskea posteriorijakauman tyttöjen ja poikien suhteelle φ = (1 θ)/θ - p(φ y, n, M) =? Slide 28 Voidaan poimia helposti näytteitä tästä jakaumasta - poimitaan ensin näytteitä θ (t) posteriorijakaumasta p(θ y, n, M) - lasketaan φ (t) = (1 θ (t) )/θ (t) - φ (t) ovat näytteitä jakaumasta p(φ y, n, M) - histogrammi, kvantiilit ja intervallit helppo laskea näytteistä - Matlab-demo: esim2_3.m
Esimerkki ei-konjugaattisen priorin käytöstä Eteisistukkatapauksissa 437 tyttövauvaa ja 543 poikavauvaa - konjugaattipriorilla posteriori helppo laskea Ei-konjugaattinen priori - posterioria ei voi laskea analyyttisesti - Monte Carlolla approksimointi silti helppoa Slide 29 - yksiulotteiselle esim. hilapoiminta Matlab-demo: esim2_4.m
Luento 3 Normaalijakauma tunnetulla varianssilla Normaalijakauma tunnetulla keskiarvolla Poisson-malli Exponentiaalinen malli Slide 1 Cauchy-jakauma Ei-informatiivisista priorijakaumista *-merkatut kalvot extra-materiaalia (ei kysytä tentissä) Normaalijakauma (Gaussian) Usein käytetty ja hyödyllinen osa monimutkaisempiakin malleja Havainto y voi saada reaaliarvoja Slide 2 Normaalijakauman parametrit keskiarvo θ ja varianssi σ 2 (oletetaan ensin σ 2 tunnetuksi) p(y θ) = 1 2πσ exp y N(θ, σ 2 ) ( 1 ) (y θ)2 2σ 2 4 2 0 2 4
Normaalijakauman perusteluita* Keskeinen raja-arvolause (Central limit theorem) Vaihtokelpoisuus ja pallosymmetrisyys Laskennallinen helppous Slide 3 Keskeisestä raja-arvolauseesta* De Moivre, Laplace, Gauss, Chebysev, Liapounov, Markov, et al. Tietyt ehdot täyttävistä jakaumista tulevien satunnaismuuttujien summa (keskiarvo) lähestyy normaalijakautunutta kun n Esim. jos eri kohinalähteitä, niin oletetaan, että summa lähellä normaalijakaumaa Slide 4 Ongelmia - ei päde kaikille, esim. Cauchy-jakauma - voi tarvita paljon näytteitä ennenkuin pätee, esim. Binomi-jakauma, kun θ melkein 0 tai 1 - ei päde jos jonkun muuttujan jakauma dominoi
Keskeisen raja-arvolauseen seuraus Sopiva jos oletetaan, että epävarmuus syntyy useiden tuntemattomien vaihtokelpoisten tai riippumattomien tekijöiden summana - olettaen, että jakaumien skaalat suunnillen samat Käytetään myös positiivisen datan logaritmille, jolloin oletetaan, että epävarmuus syntyy useiden tuntemattomien vaihtokelpoisten tai riippumattomien tekijöiden Slide 5 tulona Vaihtokelpoisuus ja pallosymmetrisyys* Satunnaisia reaalilukuja x 1,..., x n Oletetaan vaihtokelpoisuus ja pallosymmetria, eli identtinen uskomus kaikille tuloksille x 1,..., x n joilla sama arvo luvulle x 2 1 + + x2 n - voidaan toimia aivan kuin havainnot olisivat ehdollisesti riippumattomia normaalijakautuneita varianssilla σ 2 Slide 6 Oletetaan vaihtokelpoisuus ja keskitetty pallosymmetria - voidaan toimia aivan kuin havainnot olisivat ehdollisesti riippumattomia normaalijakautuneita keskiarvolla θ ja varianssilla σ 2 Ongelma - milloin oletus pallosymmetriasta aiheellinen?
Laskennallinen helppous* Negatiivinen log-likelihood mukavaa muotoa p(y θ) = 1 2πσ exp ( log p(y θ) = α(y θ) 2 + C 1 ) (y θ)2 2σ 2 Slide 7 Neg-log-likelihoodin minimointi sama kuin pienimmän neliösumman menetelmä (Gauss) Lineaariregressiossa selvitään analyytisella matriisilaskennalla Ennen tehokkaita tietokoneita laskennallinen helppous oli erittäin tärkeää Ongelma - malli voi olla väärä Normaalijakauma Puutteista huolimatta monessa mukana, koska - usein riittävä sellaisenaan - käytetään osana hierarkisia malleja - käytetään osana t-jakauman skaalasekaesitystä t-jakauma hyvä robustimpi vaihtoehto normaalijakaumalle Slide 8
Normaalijakauma - konjugaattipriori θ:lle Oletetaan, että σ tunnettu ( Likelihood p(y θ) exp 1 ) (y θ)2 2σ 2 Slide 9 Priori Posteriori p(θ) exp p(θ y) exp ( ( ) 1 2τ0 2 (θ µ 0 ) 2 1 2 [ ]) (y θ) 2 σ 2 + (θ µ 0) 2 τ0 2 Normaalijakauma - konjugaattipriori θ:lle Slide 10 Posteriori (ks. tehtävä 2.14a) ( [ ]) p(θ y) exp 1 (y θ) 2 2 σ 2 + (θ µ 0) 2 τ0 2 ( ) exp 1 2τ1 2 (θ µ 1 ) 2 θ y N(µ 1, τ 2 1 ), missä µ 1 = 1 µ τ0 2 0 + 1 y σ 2 1 τ 2 0 + 1 σ 2 ja 1 τ 2 1 = 1 τ 2 0 + 1 σ 2 1/varianssi = tarkkuus (precision) Posterioritarkkuus on prioritarkkuus plus datan tarkkuus Posteriorikeskiarvo on tarkkuuksilla painotettu keskiarvo priorikeskiarvosta ja datan keskiarvosta
Normaalijakauma - esimerkki Populaatio ÄO: θ N(100, 15 2 ) ja mittaus: y θ N(θ, 10 2 ) arvio henkilön ÄO:lle annettuna mittaus y Slide 11 E(θ y) = τ 0 2 τ0 2 + σ 2 y + σ 2 τ0 2 + σ 2 µ 0 ( ) 1/2 1 Std(θ y) = + 1 σ 2 τ 2 0 τ 0 = 15, σ = 10 : E(θ y) 0.7y + 30 ja sd(θ y) 8 vrt. maximum likelihood vastaus E(θ y) = y ja sd(θ y) = 10 esim3_1.m Normaalijakauma Posterioriprediktiivinen jakauma p(ỹ y) = p(ỹ y) p(ỹ θ)p(θ y)dθ ( exp 1 (ỹ θ)2 2σ 2 ) ( ) exp 1 2τ1 2 (θ µ 1 ) 2 dθ Slide 12 ỹ y N(µ 1, σ 2 + τ 2 1 ) Ennusteen varianssi on mallin varianssin σ 2 ja parametrin posteriorivarianssin τ 2 1 summa
Normaalijakauma Posterioriprediktiivinen jakauma ỹ y N(µ 1, σ 2 + τ 2 1 ) saadaan esim. näin E(ỹ θ) = θ ja Var(ỹ θ) = σ 2 Slide 13 ja E(ỹ y) = E(E(ỹ θ, y) y) = E(θ y) = µ 1 ja Var(ỹ y) = E(Var(ỹ θ, y) y) + Var(E(ỹ θ, y) y) = E(σ 2 y) + Var(θ y) = σ 2 + τ 2 1 Normaalijakauma - esimerkki Populaatio ÄÖ: θ N(100, 15 2 ) ja mittaus: y θ N(θ, 10 2 ) arvio saman henkilön toisen testin tulokselle ỹ annettuna ensimmäisen testin tulos y E(ỹ y) = µ 1 0.7y + 30 Std(ỹ y) = (σ 2 + τ1 2 )1/2 13 Slide 14 esim3_1.m
Normaalijakauma - useita havaintoja Useita havaintoja y = (y 1,..., y n ) ja oletetan, että voidaan toimia aivan kuin olisivat riippumattomia ja identtisesti jakatuneita Slide 15 p(θ y) p(θ)p(y θ) n = p(θ) p(y i θ) i=1 = N(θ µ n, τ 2 n ) missä µ n = missä ȳ = 1 n 1 µ τ0 2 0 + n ȳ σ 2 1 τ0 2 i y i + n σ 2 ja 1 τ 2 n = 1 τ 2 0 + n σ 2 Tyhjentävä tunnusluku (sufficient statistic) t(y) on tyhjentävä tunnusluku, jos θ:n likelihoodin arvo riippuu datasta y vain t(y):n kautta Slide 16 Esimerkkejä - Binomi-malli: t(y 1,..., y n ) = ( i y i, n) - Normaalijakauma tunnetulla varianssilla: t(y 1,..., y n ) = ( 1 n i y i, n) = (ȳ, n)
Normaalijakauma - useita havaintoja Useita havaintoja y = (y 1,..., y n ) p(θ y) = N(θ µ n, τ 2 n ) Slide 17 missä µ n = 1 µ τ0 2 0 + n ȳ σ 2 1 τ 2 0 + n σ 2 ja 1 τ 2 n = 1 τ 2 0 Jos τ 2 0 = σ 2, vastaa priori yhtä priorinäytettä arvolla µ 0 + n σ 2 Jos τ 0 kun n kiinteä tai jos n kun τ 0 kiinteä p(θ y) N(θ ȳ, σ 2 /n) Normaalijakauma - tunnettu keskiarvo Likelihood 1 havainto ( p(y σ 2 ) σ 1 exp 1 ) (y θ)2 2σ 2 Slide 18 Likelihood monta havaintoa ( ) p(y σ 2 ) σ n exp 1 n 2σ 2 (y i θ) 2 i=1 ( = (σ 2 ) n/2 exp n ) 2σ 2 v missä v = 1 n n (y i θ) 2 i=1
Normaalijakauma - tunnettu keskiarvo Likelihood monta havaintoa p(y σ 2 ) (σ 2 ) n/2 exp ( n 2σ 2 v ) Slide 19 missä Konjugaattipriori on inverse-gamma v = 1 n n (y i θ) 2 i=1 p(σ 2 ) (σ 2 ) (α+1) exp ( βσ ) 2 Normaalijakauma - tunnettu keskiarvo Konjugaattipriori on inverse-gamma p(σ 2 ) (σ 2 ) (α+1) exp ( βσ ) 2 Käytetään intuitiivisempaa parametrisointia Inv-gamma(α = ν 2, β = ν 2 s2 ) Slide 20 p(σ 2 ) = (ν/2)ν/2 Ɣ(ν/2) sν (σ 2 ) ( ν/2+1) exp( νs 2 /(2σ 2 )) σ 2 Inv-χ 2 (ν, s 2 )
Normaalijakauma - tunnettu keskiarvo Mukava parametrisointi konjugaattipriorille on σ 2 Inv-χ 2 (ν 0, σ 2 0 ) Slide 21 jolloin posteriori on ( σ 2 y Inv-χ 2 ν 0 + n, ν 0σ0 2 + nv ) ν 0 + n Priorin voidaan ajatella tarjoavan vastaavan informaation kuin ν 0 havaintoa varianssilla σ 2 0 Normaalijakauma - tunnettu keskiarvo - esimerkki Jalkapallodata kirjasta, mallina N(0, σ 2 ) ν 0 = 0 vastaa p(σ 2 ) σ 2 (ei-aito) Posteriori on kuitenkin aito, σ 2 d Inv-χ 2 (n, v), n = 672 ja v = 13.85 2 Slide 22 13 14 15
Poisson-jakauma Malli tapahtumien lukumäärälle kun vaihtokelpoisia tapahtumia ajassa - ajallisesti riippumattomia tapahtumia, joka ajanhetkellä yhtä suuri todennäköisyys tapahtua Esim. käytetään epidemilogiassa arvioimaan tautien esiintymistodennäköisyyksiä Likelihood yhdelle havainnolle, missä θ on keskimääräinen tapahtumataajuus Slide 23 p(y θ) = θ y e θ, y = 0, 1, 2,... y! Likelihood usealle havainnolle p(y θ) θ t(y) e nθ, missä t(y) = n i=1 y i Poisson-jakauma Likelihood usealle havainnolle p(y θ) θ t(y) e nθ, missä t(y) = Konjugaattipriori on gamma-jakauma n i=1 y i Slide 24 Posteriori on p(θ) e βθ θ α 1 θ y Gamma(α + nȳ, β + n) Priorin voidaan ajatella olevan lukumäärien summa (α 1), β priorihavainnosta Prediktiivinen jakauma on negative binomial ỹ y Neg-bin(α + nȳ, β + n) Neg-bin(y α, β) = Poisson(y θ) Gamma(θ α, β)dθ
Poisson-jakauma - esimerkki Espoossa syntyi vuoden 2002 alkupuoliskolla y=1784 lasta Espoossa syntyi vuoden 2003 alkupuoliskolla 1944 lasta Onko tämä poikkeuksellisen paljon? Väljällä priorilla prediktiivinen jakauma vuoden 2002 perusteella suunnilleen Neg-bin(1784, 1) Slide 25 1600 1700 1800 1900 2000 p(ỹ > 1944 y = 1784) 1% esim3_2.m Exponentiaalinen jakauma Malli tapahtumien odotusajalle kun vaihtokelpoisia tapahtumia ajassa - ajallisesti riippumattomia tapahtumia, joka ajanhetkellä yhtä suuri todennäköisyys tapahtua Esimerkiksi elinaikadata Likelihood Slide 26 p(y θ) = θ exp( yθ), y > 0 Konjugaattipriori on gamma-jakauma Posteriori Gamma(θ α, β) Gamma(θ α + n, β + nȳ)
Konjugaattiprioreista ja tyhjentävistä tunnusluvuista Yleisesti, vain exponentiaaliperheen jakaumilla on luonnollinen konjugaattipriori Tiettyjä epäsäännöllisiä tapauksia lukuunottamatta vain exponentiaaliperheen jakaumilla on tyhjentävä tunnusluku Jakauma kuuluu exponentiaaliperheseen jos se on muotoa Slide 27 p(y i θ) = f (y i )g(θ)e φ(θ)t u(y i ) Tähän mennessä käsitellyt jakaumat kuuluvat exponentiaaliperheseen Tyhjentävistä tunnusluvuista Tasajakauma on esimerkki epäsännöllisestä jakaumasta, joka ei kuulu exponetiaaliperhseen, mutta jolla on silti tyhjentävä tunnusluku t(y) = (min(y 1,..., y n ), max(y 1,..., y n )) Slide 28
Cauchy-jakauma Likelihood p(y i θ) = 1/(1 + (y i θ) 2 ) Varianssi ääretön, eli hyvin pitkähäntäinen t-jakauman ääritapaus kun ν = 1 Slide 29 Esimerkki: Merellä olevan majakan pyörivä vilkkuva valo havaitaan suoralla rannalla eri kohdissa. Missä kohtaa kohtaa rantaa majakka on? Järkevämpiä esimerkkejä fysiikasta Cauchy-jakaumaa (tai puoli-cauchy-jakaumaa) käytetään robustina priorina Priorijakaumista Jos π(θ)dθ =, π(θ) on ei-aito Jos q(θ)dθ = Z = 1, q(θ) on normalisoimaton Jos p(θ)dθ = 1, p(θ) on aito ja normalisoitu Slide 30 Ei-aito priori voi tuottaa aidon posteriorin, mutta ei välttämättä!
Esimerkkejä ei-informatiivista priorijakaumista Normaalijakaumamalli tunnetulla varianssilla σ 2 ja θ:n priorilla N(µ 0, τ0 2 ), jos prioritarkkuus 1/τ0 2 pieni verrattuna datan tarkkuuteen n/σ 2, niin posteriorijakauma on melkein sama kuin jos τ 2 0 p(θ y) N(θ ȳ, σ 2 /n) =, eli p(θ) 1 Slide 31 Normaalijakaumamalli tunnetulla keskiarvolla ja Inv-χ 2 priori σ 2 :lle, jos priorin vapauasteet ν 0 pieni verrattuna datan vapausasteisiin n, niin posteriorijakauma on melkein sama kuin jos ν 0 = 0, eli p(σ 2 ) 1/σ 2 p(σ 2 y) Inv-χ 2 (σ 2 n, v) Ei-informatiivisia prioreja Indifference Invarianssi-argumentti Jeffreysin priori Referenssipriorit Slide 32 Muut ei-informatiiviset priorit Hierarkiset priorit
Principle of insufficient reason / indifference Laplace: If we can enumerate a set of basic mutually exclusive possibilities, and have no reason to believe that any one of these is more likely to be true than another, then we should assign the same probability to all - voidaan määritellä parametrille suoraan (Laplace) tai havaintojen kautta (Bayes) Vaihtokelpoisuus Slide 33 Rajoitettu tapauksiin, joissa suljettu numeroituva maailma ja toisensa poissulkevat tapaukset - esim. kombinatoriset ongelmat Invarianssiargumentti (indifference jatkuville parametreille)* Esimerkki: paikkaparametrit Annettuna informaatio I, todennäköisyys, että X on äärettömän pienellä välillä on p(x = x I )d X = lim p(x X < x + δ I ) δx 0 Jos kerrotaan, että origon määrittämisessä oli tehty virhe siten, että aiemmin Slide 34 ilmoitettu paikka x olikin oikeasti x + x 0, pitäisikö tämän vaikuttaa prioriin joka on valittu X:lle. Jos vastaus on ei, niin p(x I )d X = p(x + x 0 I )d(x + x 0 ) koska x 0 on vakio, d(x + x 0 ) = d X p(x I )d X = p(x + x 0 I )d X p(x I ) = vakio
Invarianssiargumentti (indifference jatkuville parametreille)* Esimerkki: Skaalaparametrit Jos kerrotaan, että mittayksikkö on ilmoitettu väärin siten, että ångstromien sijaan olisi pitänyt olla nanometrejä, pitäisikö tämän vaikuttaa skaalaparametrin L prioriin. Jos vastaus on ei, niin Slide 35 p(l I )d L = p(β L I )d(β L), koska d(β L) = βd L p(l I )d L = p(β L I )βd L p(l I ) 1/L Kutsutaan myös Jeffreysin prioriksi missä β on positiivinen vakio Huomaa, että tulos on yhtäläinen priorin p(log(l) I ) = constant kanssa, mikä saadaan helposti muuttujanvaihdoksella Jeffreysin priori (indifferencen yleistys) ( ) Fisherin informaatiomatriisi on I (θ), missä I (θ) i j = E 2 l θ i θ j Valitaan priori siten, että p(θ) det(i (θ)) 1/2 Slide 36 Tämä priori on invariantti muuttujanvaihdoksille Ongelmallinen usean muuttujan malleille Usean muuttujien malleissa, paikka-, skaala- ja mixingparametrit käsitellään erikseen Esim: y Bin(n, θ) : p(θ) θ 1/2 (1 θ) 1/2 y N(µ, σ 2 ) : p(µ, σ 2 ) 1/σ 2
Referenssipriori (Bernardo ja Berger-Bernardo)* (Referenssipriori tarkoittaa joskus myös yleisesti mitä tahansa ei-informatiivista prioria) Yleistää Jeffreysin priorin - sama yksinkertaisissa tapauksissa Informaatioteoreettinen määrittely - priori riippuu myös siitä mikä suure mielenkiinnon kohteena Slide 37 Toimii myös usean muuttujan mallille - priori riippuu myös siitä missä järjestyksessä ja miten ryhmiteltynä parametrit huomioidaan Muita ei-informatiivisia prioreja* Maximum-Entropy - jakauma jonka entropia mahdollisimman suuri annettuna priorirajoitukset Coverage matching - tutkitaan muodostuvan posteriorin frekvenssiominaisuuksia Slide 38 Zellner s Maximal Data Information prior - myös informaatioteoreettinen määrittely Ja vielä muutama muukin harvinaisempi
Ei-informatiivisten priorien ongelmia Valmiit menetelmät eivät poista miettimisen tarvetta Väljät priorit ovat usein herkkiä parametrisoinille Slide 39 Hierarkisista prioreista (lisää luvussa 5) Jos et tiedä sopivaa arvoa jonkun priorijakauman parametreille, tee siitä parametrista tuntematon ja aseta ylemmän tason priori Näin fiksatut, tai arvatut, valinnat voidaan siirtää hierarkisen mallin ylemmille tasoille Slide 40 Hierarkisissa malleissa data sisältää vähemmän informaatiota korkeamman tason hyperparametreista, jolloin priori ja posteriori näille hyperparametreille on samankaltainen Siten nämä mallit ovat vähemmän herkkiä ylemmällä tasolla tehdyille valinnoille, josta seuraa, että ylemmän tason priorit ovat yleisesti vähemmän informatiivisia
Luento 4 Marginalisointi Marginaalijakauma nuisance parameters - "kiusaparametri" (huono termi parametreille, jotka voivat olla erittäin tärkeitä ja hyödyllisiä) Slide 1 Normaalijakauma - ei-informatiivinen priori - konjugaattipriori - semi-konjugaattipriori Multinomijakauma - binomijakauman yleistys Moniulotteinen normaalijakauma Marginalisointi - marginaalijakauma Yhteisjakauma (joint distribution) p(θ 1, θ 2 y) p(y θ 1, θ 2 )p(θ 1, θ 2 ) Slide 2 Marginalisointi p(θ 1 y) = p(θ 1 y) on marginaalijakauma p(θ 1, θ 2 y)dθ 2
Marginalisointi - marginaalijakauma Tavoitteena saada marginaaliposteriorijakauma kiinnostavasta tuntemattomasta suureesta - jokin mallin parametreista - joku muu ei havaittu suure kuten havainto tulevaisuudessa Periaate Slide 3 - muodostetaan kaikkien tuntemattomien yhteisposteriorijakauma p(θ 1, θ 2 y) p(y θ 1, θ 2 )p(θ 1, θ 2 ) - integroidaan tämä jakauma kaikkien niiden tuntemattomien yli, joiden arvot eivät suoraan kiinnosta meitä p(θ 1 y) = p(θ 1, θ 2 y)dθ 2 Esimerkki marginalisoinnista - ennustava jakauma Yhteisjakauma p(ỹ, θ y) = p(ỹ θ, y)p(θ y) = p(ỹ θ)p(θ y) (usein) Slide 4 Marginalisointi p(ỹ y) = p(ỹ θ)p(θ y)dθ p(ỹ y) on ennustava jakauma
Esimerkki marginalisoinnista - ennustava jakauma Ennustava jakauma simuloinnilla Koska tässä tapauksessa p(ỹ y) = p(ỹ θ)p(θ y)dθ Slide 5 voidaan ensin poimia näytteitä θ t jakaumasta p(θ y) ja sitten näytteitä ỹ t jakaumasta p(ỹ θ t ), nyt ỹ t ovat jakaumasta p(ỹ y) Usein yhteisjakauma faktoroidaan ja integraali p(θ 1 y) = voidaan helposti approksimoida simuloinnilla p(θ 1 θ 2, y)p(θ 2 y)dθ 2 Monte Carlo -integroinnista Posteriorijakaumasta vedetyt näytteet kuvavat itse jakaumaa Näytteiden avulla voidaan tehdä esim. - histogrammi-esitys jakaumasta - laskea odotusarvoja - laskea p-arvoja Slide 6 Esim. ennustavan jakauman odotusarvo E[ỹ] 1 N N ỹ t t=1
Esimerkki marginalisoinnista - normaalijakauma Normaalijakaumamalli y µ, σ 2 N(µ, σ 2 ) µ = θ 1 ja σ 2 = θ 2 Usein µ kiinnostavampi Jos molemmat parametrit kiinnostavia, marginaalijakaumilla voidaan havainnollistaa yhteisjakaumaa Slide 7 Matlab-demo (esim4_1.m) y = [93, 112, 122, 135, 122, 150, 118, 90, 124, 114] Normaalijakauma - viime kerralla Normaalijakaumamalli tunnetulla varianssilla σ 2 ja θ:n priorilla N(µ 0, τ0 2 ), jos prioritarkkuus 1/τ0 2 pieni verrattuna datan tarkkuuteen n/σ 2, niin posteriorijakauma on melkein sama kuin jos τ 2 0 p(θ y) N(θ ȳ, σ 2 /n) =, eli p(θ) 1 Slide 8 Normaalijakaumamalli tunnetulla keskiarvolla ja Inv-χ 2 priori σ 2 :lle, jos priorin vapauasteet ν 0 pieni verrattuna datan vapausasteisiin n, niin posteriorijakauma on melkein sama kuin jos ν 0 = 0, eli p(σ 2 ) 1/σ 2 missä v = 1 n ni=1 (y i θ) 2 p(σ 2 y) Inv-χ 2 (σ 2 n, v)
Normaalijakauma - ei-informatiivinen priori Edellisen kalvon mukainen perustelu tai Jeffreysin priori-menetelmän (luento 3) mukaisesti normaalijakaumalla ei-informatiivinen priori p(µ, σ 2 ) 1/σ 2 Slide 9 Normaalijakauma - ei-informatiivinen priori Slide 10 Yhteisposteriorijakauma ( ) p(µ, σ 2 y) σ n 2 exp 1 n 2σ 2 (y i µ) 2 i=1 ( [ n ]) = σ n 2 exp 1 2σ 2 (y i ȳ) 2 + n(ȳ µ) 2 i=1 ( = σ n 2 exp 1 [ 2σ 2 (n 1)s 2 + n(ȳ µ) 2]) missä s 2 = 1 n 1 n (y i ȳ) 2 i=1 ȳ ja s 2 (ja n) ovat tyhjentävät tunnusluvut
Normaalijakauma - ei-informatiivinen priori Faktoroidaan p(µ, σ 2 y) = p(µ σ 2, y)p(σ 2 y) Ehdollinen posteriorijakauma p(µ σ 2, y) µ σ 2, y N(ȳ, σ 2 /n) sama kuin normaalijakauma tunnetulla varianssilla Slide 11 Normaalijakauma - ei-informatiivinen priori Faktoroidaan p(µ, σ 2 y) = p(µ σ 2, y)p(σ 2 y) Slide 12 Marginaaliposteriorijakauma p(σ 2 y) p(σ 2 y) σ n 2 exp ( σ n 2 exp ( σ n 2 exp ( 1 [ 2σ 2 (n 1)s 2 + n(ȳ µ) 2]) dµ ) 1 (n 1)s2 2σ 2 1 (n 1)s2 2σ 2 (σ 2 ) (n+1)/2 exp ( σ 2 y Inv-χ 2 (n 1, s 2 ) (n 1)s2 2σ 2 ( exp n 2σ 2 (ȳ µ)2) dµ ) 2πσ 2 /n )
Normaalijakauma - ei-informatiivinen priori Vertaa - keskiarvo tunnettu Slide 13 - keskiarvo tuntematon missä σ 2 y Inv-χ 2 (n, v) v = 1 n (y i θ) 2 n i=1 σ 2 y Inv-χ 2 (n 1, s 2 ) missä s 2 = 1 n (y i θ) 2 n 1 i=1 Normaalijakauma - ei-informatiivinen priori Faktoroidaan yhteisjakauma p(µ, σ 2 y) = p(µ σ 2, y)p(σ 2 y) Slide 14 Yhteisjakaumasta on helppo poimia näytteitä poimimalla ensin näytteitä σ 2 t jakaumasta p(σ 2 y) ja sitten näytteitä µ t jakaumasta p(µ σ 2 t ), nyt ( µ t, σ 2 t ) ovat jakaumasta p(µ, σ 2 y) esim4_2.m
Normaalijakauma - ei-informatiivinen priori Slide 15 Jos µ on kiinnostava, niin marginaaliposteriori p(µ y) on kiinnostava Muuttujanvaihdos z = p(µ y) = 0 p(µ, σ 2 y)dσ 2 A 2σ 2, missä A = (n 1)s2 + n(µ ȳ) 2 Tunnistetaan, että tulos on normalisoimaton gamma-integraali p(µ y) A n/2 z (n 2)/2 exp( z)dz 0 [(n 1)s 2 + n(µ ȳ) 2 ] n/2 ] n(µ ȳ)2 [1 + (n 1)s 2 µ y t n 1 (ȳ, s 2 /n) Normaalijakauma - ei-informatiivinen priori Marginaaliposterioria p(µ y) voidaan havainnollistaa faktoroinnin avulla p(µ y) = 0 p(µ σ 2, y)p(σ 2 y)dσ 2 poimimalla näytteitä σ t 2 jakaumasta p(σ 2 y) saadaan ehdolliset jakaumat p(µ σ t 2, y) joiden odotusarvo approksimoi integrointia σ 2 :n yli Slide 16 µ:n marginaaliposteriorijakauma on normaalijakaumien sekoitus (mixture of normal distributions) sekoitettuna varianssin marginaaliposteriorin yli esim4_3.m
Normaalijakauma - posterioriprediktiivinen jakauma p(ỹ y) = p(ỹ µ, σ 2, y)p(µ, σ 2 y)dµdσ 2 tästä on helppo vetää näytteitä, vetämällä ensin näytteitä ( µ t, σ 2 t ) posteriorijakaumasta ja sitten näytteitä ỹ t jakaumasta N( µ t, σ 2 t ) Slide 17 Normaalijakaumalle posterioriprediktiivinen jakauma voidaan myös laskea tarkasti; lasketaan ensin tunnetulla varianssilla (luento 3) p(ỹ σ 2, y) = p(ỹ µ, σ 2, y)p(µ σ 2, y)dµ = N(ỹ ȳ, (1 + 1 n )σ 2 ) tämä on skaalaa lukuunottamatta sama kuin p(µ σ 2, y), joten aiemman kalvon perusteella esim4_4.m ỹ y t n 1 (ȳ, (1 + 1 n )s2 ) Normaalijakauma - esimerkki Simon Newcombin koe vuonna 1882 mittasi valon nopeutta Matlab-demo (esim4_5.m) Posterioripäätelmät voivat olla ainoastaan yhtä hyviä kuin käytetty malli ja kokeet jotka datan tuottivat Slide 18
Normaalijakauma - konjugaattipriori Konjugaattipriorin oltava tulomuotoa p(σ 2 )p(µ σ 2 ) Kätevä parametrisointi on µ σ 2 N(µ 0, σ 2 /κ 0 ) σ 2 Inv-χ 2 (ν 0, σ0 2 ) Slide 19 joka voidaan merkitä myös p(µ, σ 2 ) = N-Inv-χ 2 (µ 0, σ 2 0 /κ 0; ν 0, σ 2 0 ) Tässä muodossa µ ja σ 2 riippuvia a priori - esim: jos σ 2 on iso, niin µ:n priorijakaumakin on leveä Normaalijakauma - konjugaattipriori Yhteisposteriorijakauma (tehtävä 3.9) p(µ, σ 2 y) = N-Inv-χ 2 (µ n, σ 2 n /κ n; ν n, σ 2 n ) Slide 20 missä µ n = κ 0 κ 0 + n µ 0 + n κ 0 + n ȳ κ n = κ 0 + n ν n = ν 0 + n ν n σ 2 n = ν 0σ 2 0 + (n 1)s2 + κ 0n κ 0 + n (ȳ µ 0) 2
Normaalijakauma - konjugaattipriori Ehdollinen jakauma p(µ σ 2, y) µ σ 2, y N(µ n, σ 2 /κ n ) = N ( κ0 µ σ 2 0 + n ȳ σ 2 κ 0 + n, σ 2 σ 2 1 κ 0 σ 2 + n σ 2 ) Slide 21 Marginaalijakauma p(σ 2 y) σ 2 y Inv-χ 2 (ν n, σ 2 n ) Marginaalijakauma p(µ y) µ y t νn (µ µ n, σ 2 n /κ n) Normaalijakauma - semikonjugaattipriori Usein käytetty semikonjugaattipriori (konjugaatti kummallekin parametrille erikseen, mutta ei yhdessä) µ σ 2 N(µ 0, τ0 2 ) σ 2 Inv-χ 2 (ν 0, σ0 2 ) Slide 22 missä µ ja σ 2 a priori riippumattomia Ehdollinen jakauma p(µ σ 2, y) µ σ 2, y N(µ n, τ 2 n ) missä µ n = 1 µ τ0 2 0 + n ȳ σ 2 1 τ 2 0 + n ja τn 2 = 1 1 σ 2 τ 2 0 + n σ 2
Normaalijakauma - semikonjugaattipriori Marginaalijakauma p(σ 2 y) n p(σ 2 y) τ n N(µ n, µ 0, τ0 2 ) Inv-χ 2 (σ 2 ν 0, σ0 2 ) N(y i µ n, σ 2 ) i=1 Slide 23 Ei helppoa konjugaattista muotoa, mutta siitä voidaan poimia näytteitä helposti numeerisesti esim. hila-menetelmällä Myöhemmin opitaan kuinka Markov-ketju Monte Carlolla voidaan helposti poimia näytteitä yhteisposteriorijakaumasta tässä semikonjugaattiprioritapauksessa Moniulotteinen normaalijakauma Havainnot moniulotteisia ja yhteisjakauman oletetaan olevan normaalijakautunut Likelihood y µ, N(µ, ) Slide 24 missä µ on d:n pituinen vektori ja on d d kokoinen symmetrinen ja positiividefiniitti kovarianssimatriisi ( ) p(y µ, ) n/2 exp 1 n (y i µ) T 1 (y i µ) 2 i=1 ( = n/2 exp 1 ) 2 tr( 1 S 0 ) missä S 0 = n (y i µ)(y i µ) T i=1
Moniulotteinen normaalijakauma - tunnettu Posteriori µ y, N(µ n, n ) µ n = ( 1 0 + n 1 ) 1 ( 1 0 µ 0 + n 1 ȳ) 1 n = 1 0 + n 1 Posteriorimarginaali parametrien osajoukolle µ (1) Slide 25 µ (1) y N(µ (1) n, (11) n ) Posterioriehdollinen parametrien osajoukolle µ (1) µ (1) µ (2), y N(µ (1) n + β 1 2 (µ (2) µ (2) n ), 1 2 ) ( ) 1 missä β 1 2 = (12) n (22) n 1 2 n = (11) n (12) n ( (22) n ) 1 (21) n Moniulotteinen normaalijakauma - konjugaattipriori Konjugaattipriori Marginaalijakauma p(µ y) Inv-Wishart ν0 ( 1 0 ) µ N(µ 0, /κ 0 ) Slide 26 µ y t νn d+1(µ n, n /(κ n (ν n d + 1)))
Moniulotteinen normaalijakauma - ei-informatiivinen priori Moniulotteinen Jeffreysin priori p(µ, ) (d+1)/2 Marginaalijakauma p(µ y) µ y t n d ( µ, S/(n(n d))) Slide 27 Moniulotteinen normaalijakauma - ei-konjugaattiset priorit* Oikeissa ongelmissa Jeffreysin priori ja Inv-Wishart-priori toimivat usein hyvin huonosti - kovarianssimatriisissa yhteensä (d + 1)d/2 parametria - jos d suuri, tarvitaan paljon dataa Useita ei-konjugaattisia vaihtoehtoja Slide 28 - voidaan paremmin esittää erikseen priori-informaatio variansseista ja korrelaatioista
Multinomijakauma Multinomijakauma on binomijakauman yleistys kun mahdollisia lopputuloksia useampi kuin kaksi Sopii yksinkertaiseksi malliksi esimerkiksi vaaligalluppeihin Jos y on vektori jossa eri lopputulosten havaitut lukumäärät, niin Slide 29 p(y θ) k j=1 θ y j j, missä k j=1 θ j = 1 ja k j=1 y j = n Multinomijakauma Konjugaattipriori on Beta-priorin moniulotteinen yleistys Dirichlet-jakauma missä k j=1 θ j = 1 p(θ α) k j=1 θ α j 1 j, Slide 30 Posteriorijakauma on Dirichlet(α + y) Priori vastaa k j=1 α j havaintoa, joista α j havaintoa lopputulosten luokasta j Uniformi priori jos α j = 1 kaikille j
Kirjan esimerkki: myrkyllisyyskoe Esimerkki mallista jolle ei suljettua muotoa olevaa posteriorijakaumaa - mallintamisen periaattet silti samat - laskut helppo tehdä numeerisesti Yleistetty lineaarimalli - esimerkki regressiosta Slide 31 Kirjan esimerkki: myrkyllisyyskoe Dose, x i Number of Number of (log g/ml) animals, n i deaths, y i -0.86 5 0-0.30 5 1-0.05 5 3 0.73 5 5 Slide 32 y i θ i Bin(n i, θ i ) Logistinen regressio logit(θ i ) = α + βx i Likelihood p(y i α, β, n i, x i ) [logit 1 (α + βx i )] y i [1 logit 1 (α + βx i )] n i y i Posteriori esim4_6.m n p(α, β y, n, x) p(α, β) p(y i α, β, n i, x i ) i=1
Loppuhuomioita Harvoille malleille suljettumuotoinen posteriorijakauma, mutta ei haittaa koska voimme käyttää - normaalijakauma-approksimaatiota (luku 4) - hierarkisia malleja (luku 5) - simulaatioita (luku 11) Slide 33 - variaatiolaskentaa* Yhteenveto yksinkertaisten mallien käsittelystä Kirjoita likelihood, jätä θ:sta riippumattomat termit pois Valitse priori Kirjoita posteriori Tee karkea arvio θ:lle Slide 34 Poimi näytteitä posteriorijakaumasta Poimi näytteitä ennustavasta jakaumasta
Termejä viime kerralta Yhteisjakauma p(θ 1, θ 2 y) p(y θ 1, θ 2 )p(θ 1, θ 2 ) Marginalisointi p(θ 1 y) = p(θ 1, θ 2 y)dθ 2 Slide 1 p(θ 1 y) on marginaalijakauma Posteriorijakauman faktorointi p(θ 1, θ 2 y) = p(θ 1 θ 2, y)p(θ 2 y) p(θ 1 θ 2, y) on ehdollinen posteriorijakauma Luento 5 Päättely suurten otosten tapauksessa, n - normaalijakauma-approksimaatio - suurten otosten teoria - asymptoottinen normaalius ja konsistenttisuus - vastaesimerkkejä Slide 2 Bayesilaisen päättelyn frekvenssiarviointi
Posteriorijakauman normaalijakauma-approksimaatio Jos posteriorijakauma unimodaalinen ja lähes symmetrinen, - voidaan posteriorijakauma p(θ y) approksimoida normaalijakaumalla ( ) 1 p(θ y) = exp 1 2πσθ 2σθ 2 (θ ˆθ) 2 Slide 3 - eli log-posteriori log p(θ y) voidaan approksimoida neliöllisellä funktiolla log p(θ y) = α(θ ˆθ) 2 + C Taylorin sarjakehitelmä Yksiulotteinen Taylorin sarjakehitelmä pisteen x = a ympäristössä f (x) = f (a) + f (a)(x a) + f (a) 2! (x a) 2 + f (3) (a) (x a) 3 +... 3! Slide 4 Yleistyy vastaavasti moniulotteiselle funktiolle f (x 1,..., x n ) = [ n ] j 1 (x k a x ) j! x f (x k=1 k j=0 1,..., x n ) x 1 =a 1,...,x n =a n
Posteriorijakauman normaalijakauma-approksimaatio Slide 5 Log-posteriorin Taylorin sarjakehitelmä posteriorimoodin ˆθ ympärillä log p(θ y) = log p( ˆθ y) + 1 [ d 2 (θ ˆθ) T 2 ] log p(θ y) (θ ˆθ) +... dθ 2 missä lineaaritermi on nolla, koska log p(θ y):n derivaatta on moodissa nolla ja korkeammat termit ovat pieniä verrattuna neliöllisen termiin kun θ lähellä ˆθ:aa ja n on iso Moniulotteinen normaalijakauma 1/2 exp θ= ˆθ ( ) 1 2 (θ ˆθ T ) 1 (θ ˆθ) Koska ensimmäinen termi vakio ja toinen termi suhteessa normaalijakauman logaritmiin missä I (θ) on havaittu informaatio p(θ y) N( ˆθ, [I ( ˆθ)] 1 ) I (θ) = d2 log p(θ y) dθ 2 Posteriorijakauman normaalijakauma-approksimaatio I (θ) on havaittu informaatio I (θ) = d2 log p(θ y) dθ 2 Slide 6 - I ( ˆθ) on log-posteriorin toiset derivaatat moodissa eli kuvaa log-posteriorin kaarevuden moodissa - jos moodi on parametriavaruuden sisällä I ( ˆθ) positiivinen - jos θ on vektori, I (θ) on matriisi