MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4B Bayesläinen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi I
Sisältö Tietämyksen kvantifiointi ja subjektiivinen todennäköisyys Tietämyksen päivittäminen Posterijakauman tulkinta: Piste-estimaatit
Esimerkki: Vaalikysely Yhdysvaltalaisilta äänioikeutetuilta kysyttiin Trumpin kannatusta (0 = ei, 1 = kyllä) ja saatiin tulokset x = (0, 0, 0, 0, 0, 0, 0, 0, 1, 0). Kannatusparametrin suurimman uskottavuuden estimaatti ˆp(x) = 10% poikkeaa vahvasti median vaaliennusteista. Tulee hankkia lisää dataa (entä jos ei saatavilla?) Tulee jättää otannan tulos huomiotta (ja uskoa sokeasti median vaaliennusteisiin?) Voidaanko yo. tulos sovittaa aiempaan tietämykseen Trumpin kannatuksesta? Tällöin pitää kvantifioida termi tietämys
Tietämyksen mallintaminen Yksilön (ihminen tai kone) tietämystä tuntemattoman parametrin arvosta mallinnetaan tulkitsemalla parametri satunnaismuuttujaksi Θ. P(a Θ b) = 95% tarkoittaa, että yksilö uskoo parametrin arvon sijaitsevan välillä [a, b] todennäköisyydellä 95%. Frekventistit rajoittuvat analysoimaan vain objektiivisia todennäköisyyksiä (toistettavissa olevat tilastokokeet) Protonin massa on välillä a ± 10 12 tn:llä 99.999999% Tupakointi lisää riskiä sairastua keuhkosyöpään Todennäköisyyden käyttäminen tietämyksen kvantifiointiin tekee todennäköisyydestä subjektiivisen käsitteen Huomenna sataa tn:llä 10% Aarnio tuomittiin rikoksesta todennäköisin syin Relativismi: Todennäköisyys on suhteellista Thomas Bayes 1701 1761
Sisältö Tietämyksen kvantifiointi ja subjektiivinen todennäköisyys Tietämyksen päivittäminen Posterijakauman tulkinta: Piste-estimaatit
Esimerkki: Tuntematon kolikko Laatikossa on kolme tasaista kolikkoa (kruunan tn θ = 0.5) sekä yksi lievästi vino (θ = 0.6) ja yksi vahvasti vino (θ = 0.9). Satunnaisesti valittua kolikkoa heitettäessä havaitaan klaava. Millä tn heitetty kolikko oli tasainen? Kolikon tyypin Θ jakauma ennen datan havaitsemista on Osituskaavasta θ 0.5 0.6 0.9 P(Θ = θ) 0.6 0.2 0.2 Bayesin kaavasta P( klaava ) = 0.6 0.5 + 0.2 0.4 + 0.2 0.1 = 0.4 P(Θ = 0.5 klaava ) = P(Θ = 0.5) P( klaava Θ = 0.5) P( klaava ) Kolikon tyypin jakauma datan havaitsemisen jälkeen = 0.6 0.5 0.4 = 0.75 θ 0.5 0.6 0.9 P(Θ = θ klaava ) 0.75 0.20 0.05
Tietämyksen päivityskaava: Diskreetti malli Tietämys Θ:n arvosta ennen datan x 1 havaitsemista: Priorijakauma p 0 (θ) = P(Θ = θ) Tietämys Θ:n arvosta datan x 1 havaitsemisen jälkeen: Posteriorijakauma p 1 (θ x 1 ) = P(Θ = θ X 1 = x 1 ). Datalähteen stokastinen malli: Uskottavuusfunktio f 1 (x 1 θ) = P(X 1 = x 1 Θ = θ) Fakta Posteriorijakauma p 1 (θ x 1 ) saadaan priorijakaumasta p 0 (θ) painottamalla ja normittamalla sitä uskottavuudella f 1 (x 1 θ): p 1 (θ x 1 ) = p 0 (θ) f 1 (x 1 θ) θ p 0(θ ) f 1 (x 1 θ ).
Tietämyksen päivityskaava: Todistus Osituskaavasta P(X 1 = x 1 ) = θ P(Θ = θ ) P(X 1 = x 1 Θ = θ ) = θ p 0 (θ ) f 1 (x 1 θ), joten Bayesin kaavasta p 1 (θ x 1 ) = P(Θ = θ X 1 = x 1 ) = P(Θ = θ) P(X 1 = x 1 Θ = θ) P(X 1 = x 1 ) = p 0(θ)f 1 (x 1 θ) P(X 1 = x 1 ) p 0 (θ)f 1 (x 1 θ) = θ p 0(θ ) f 1 (x 1 θ).
Esimerkki: Tuntematon kolikko Tuntematon parametri: Heitetyn kolikon tyyppi Θ Priorijakauma p 0 (θ) = P(Θ = θ) Data x 1 = 0 (havaittiin klaava) Uskottavuus f (x 1 θ) = P(X 1 = x 1 Θ = θ) θ Priori p 0 (θ) Uskottavuus f (0 θ) Normittamaton posteriori Posteriori p 1 (θ 0) 0.5 0.6 0.5 0.30 0.75 0.6 0.2 0.4 0.08 0.20 0.9 0.2 0.1 0.02 0.05
Esimerkki: Tuntematon kolikko Kolikon tyypin priorijakauma: θ 0.5 0.6 0.9 p 0 (θ) 0.6 0.2 0.2 Uskottavuusfunktio datapisteelle x 1 = 0 (klaava): θ 0.5 0.6 0.9 f (0 θ) 0.5 0.4 0.1 Kolikon tyypin posteriorijakauma: θ 0.5 0.6 0.9 p 1 (θ 0) 0.75 0.20 0.05
Kolikon tyypin priori- ja posteriorijakaumat p 0 (θ) p 1 (θ 0) p 1 (θ 1)
Tuntematon kolikko: Monta havaintoa Laatikossa on kolme tasaista kolikkoa (kruunan tn θ = 0.5) sekä yksi lievästi vino (θ = 0.6) ja yksi vahvasti vino (θ = 0.9). Satunnaisesti valittua kolikkoa heitettäessä havaitaan 2 klaavaa. Millä tn heitetty kolikko oli tasainen? Uskottavuusfunktio datajoukolle (x 1, x 2 ) = (0, 0), θ 0.5 0.6 0.9 f (0, 0 θ) 0.25 0.16 0.01 θ Priori p 0 (θ) Uskottavuus f (0, 0 θ) Normittamaton posteriori Posteriori p 1 (θ 0, 0) 0.5 0.6 0.25 0.150 0.815 0.6 0.2 0.16 0.032 0.174 0.9 0.2 0.01 0.002 0.001
Kolikon tyypin priori- ja posteriorijakauma p 0 (θ) p 1 (θ 0) p 1 (θ 00) p 1 (θ 00000) Sadan klaavan havaitsemisen jälkeen posteriorijakauman massa keskittyy tähtitieteellisen pientä poikkeamaa vaille arvoon 0.5. Tämä tuntuu paradoksaaliselta, sillä tn saada 100 klaavaa peräkkäin tasaisella kolikolla on 2 100. Paradoksi selittyy priorin valinnalla: Ylläoleva priori p 0 (θ) kuvastaa absoluuttista 100% varmuutta siitä, että kolikko ei puolla klaavan suuntaan: P(Θ < 0.5) = 0.
Tietämyksen 2-vaiheinen päivityskaava Tietämys Θ:n arvosta ennen datan havaitsemista: Priorijakauma p 0 (θ) = P(Θ = θ) Tietämys Θ:n arvosta datan havaitsemisen jälkeen: Posteriorijakauma p 1 (θ x 1 ) = P(Θ = θ X 1 = x 1 ). Posteriorijakauma p 2 (θ x 1, x 2 ) = P(Θ = θ X 1 = x 1, X 2 = x 2 ). Datalähteen stokastinen malli: Uskottavuusfunktio f 1 (x 1 θ) = P(X 1 = x 1 Θ = θ) Uskottavuusfunktio f 2 (x 2 θ, x 1 ) = P(X 2 = x 2 Θ = θ, X 1 = x 1 ) Fakta Posteriorijakauma p 2 (θ x 2 ) saadaan posteriorijakaumasta p 1 (θ x 1 ) painottamalla ja normittamalla sitä uskottavuudella f 2 (x 2 θ, x 1 ): p 2 (θ x 1, x 2 ) = p 1 (θ x 1 ) f 2 (x 2 θ, x 1 ) θ p 1(θ x 1 ) f 2 (x 2 θ, x 1 ).
Tietämyksen 2-vaiheinen päivityskaava: Todistus Kun D 1 = {X 1 = x 1 } ja D 2 = {X 2 = x 2 }, saadaan tulokaavasta P(Θ = θ, D 1, D 2 ) = P(D 1 ) P(Θ = θ D 1 ) P(D 2 Θ = θ, D 1 ) osituskaavasta (ehdoton) = P(D 1 ) p 1 (θ x 1 ) f 2 (x 2 θ, x 1 ), P(D 1, D 2 ) = θ P(Θ = θ, D 1, D 2 ) = θ P(D 1 ) p 1 (θ x 1 ) f 2 (x 2 θ, x 1 ), ja nämä yhdistämällä p 2 (θ x 1, x 2 ) = P(Θ = θ, X 1 = x 1, X 2 = x 2 ) P(X 1 = x 1, X 2 = x 2 ) P(D 1 ) p 1 (θ x 1 ) f 2 (x 2 θ, x 1 ) = θ P(D 1) p 1 (θ x 1 ) f 2 (x 2 θ, x 1 ) p 1 (θ x 1 ) f 2 (x 2 θ, x 1 ) = θ p 1(θ x 1 ) f 2 (x 2 θ, x 1 ).
Tietämyksen päivitys: Yhteenveto Priorijakauma p 0 (θ) mallintaa yksilön tietämystä tuntemattoman parametrin arvosta Θ Uskottavuusfunktio f (x θ) vastaa datalähteen stokastista mallia Posteriorijakauma mallintaa yksilön tietämystä, johon yhdistetty priorijakauma sekä havaittu data Posteriorijakauma p 1 (θ x) lasketaan priorijakaumasta ja havaitusta datasta x painottamalla prioritodennäköisyyksiä uskottavuusfunktion arvoilla ja sen jälkeen normittamalla Yksilön tietämyksen mallintamista subjektiivisilla todennäköisyyksillä kutsutaan bayesläiseksi lähestymistavaksi
Sisältö Tietämyksen kvantifiointi ja subjektiivinen todennäköisyys Tietämyksen päivittäminen Posterijakauman tulkinta: Piste-estimaatit
Posteriorijakauman estimaatit Miten päätellään tuntemattoman parametrin θ estimaatti posteriorijakaumasta p 1 (θ x)? Suurimman posterioritodennäköisyyden estimaatti: ˆθ(x) = arg max p 1 (θ x) θ Posteriorijakauman odotusarvo: ˆθ(x) = θ θp 1 (θ x) Raportoidaan koko posteriorijakauma
Esimerkki: Tasajakauman ylärajan estimointi Tuntemattoman välin {1, 2,..., θ} tasajakaumaa noudattavasta datalähteestä on havaittu x 1 = 21, x 2 = 7 ja x 3 = 22. Mikä on paras arvaus (estimaatti) tuntemattoman parametrin θ arvolle? Datalähteen uskottavuusfunktio: f (x i θ) = { 1 θ, 1 x i θ, 0, muuten { 1 θ 3, 1 x 1, x 2, x 3 θ, f (x 1, x 2, x 3 θ) = 0, muuten SU-estimaatti (viime luento): ˆθ(x) = max(x 1, x 2, x 3 ) = 22. Entä jos meillä on ennakkoon muodostettu näkemys, että tuntemattoman parametrin arvo on todennäköisesti lähellä arvoa 30?
Tasajakauman ylärajan estimointi: bayesläinen estimointi Tuntemattoman välin {1, 2,..., θ} tasajakaumaa noudattavasta datalähteestä on havaittu x 1 = 21, x 2 = 7 ja x 3 = 22. Ennakkotietämys: Parametri on todennäköisesti lähellä arvoa 30. Tulkitaan tuntematon parametri satunnaismuuttujana Θ, jonka odotusarvo on 30? Miten valitaan Θ:n priorijakauma? Valitaan yksikertaisin diskreetti jakauma, jonka odotusarvo on 30 ja jolla on positiivinen tn saada mikä tahansa pos. kokonaisluku. Poisson-jakauma parametrina λ = 30: p 0 (θ) = e λ λθ, θ = 0, 1, 2,... θ! Uskottavuusfunktio { 1 θ 3, 1 x 1, x 2, x 3 θ, f (x 1, x 2, x 3 θ) = 0, muuten
Tasajakauman ylärajan estimointi: bayesläinen estimointi Havaittu data: x = (21, 7, 22) Priori p 0 (θ) = e 30 30θ, θ = 0, 1, 2,... θ! Uskottavuus f (x θ) = { 1 θ, 3 θ 22, 0, muuten Posteriori lasketaan päivityskaavasta p 1 (θ x) = p 0 (θ)f (x θ) θ p 0(θ )f (x θ ) = {c 1 30 30θ 1 e θ! θ, 3 θ 22, 0, muuten, missä normitusvakio c = θ p 0(θ )f (x θ ) ei riipu θ:sta. Suurimman posterioritodennäköisyyden estimaatti on ˆθ, joka maksimoi funktion θ 30θ 1 θ! θ joukossa θ 22. 3 Maksimin voi etsiä kokeilemalla tai piirtämällä ko. funktio.
Tasajakauman yläraja: Priori ja posteriori Data: x = (21, 7, 22) Priori: Poisson-jakauma odotusarvona λ = 30 Priori p 0 (θ) Posteriori p 1 (θ x) 0.00 0.02 0.04 0.06 0.08 0.00 0.02 0.04 0.06 0.08 0 10 20 30 40 50 0 10 20 30 40 50 Suurimman posterioritodennäköisyyden estimaatti: ˆθ(x) = 26
Seuraavalla kerralla puhutaan jatkuvien jakaumien bayesläisestä päättelystä...