Luku 1 Bayesläiset estimaattorit Lasse Leskelä Aalto-yliopisto 18. lokakuuta 217 1.1 Bayesläiset piste-estimaatit Tarkastellaan datalähdettä, joka tuottaa tiheysfunktion f(x θ) mukaan jakautuneita riippumattomia satunnaismuuttujia. Havainnoijan uskomusta tuntemattoman parametrin arvosta kuvastaa priorijakauma p(θ). Havaittuaan datajoukon x hän päivittää uskomuksensa posteriorijakaumaksi p(θ x). Mikä on havainnoijan paras estimaatti tuntemattoman parametrin arvolle? Koska posteriorijakauma p(θ x) sisältää kaiken oleellisen informaation havainnoijan uskomuksesta ja havaitusta datajoukosta x, voidaan sitä pitää estimointitehtävän täydellisenä ratkaisuna. Käytännön tilanteissa on kuitenkin usein tarpeen raportoida yksi luku, joka edustaa jossain mielessä havainnoijan parasta arvausta tuntemattoman parametrin θ arvosta. Parametrin pisteestimaatiksi voidaan valita jokin posteriorijakauman tunnusluku. Yksi vaihtoehto on posteriorijakauman odotusarvo 1 θ E (x) = θ p(θ x) dθ, joka kuvaa millaisia arvoja posteriorijakaumasta keskimäärin saadaan simuloimalla suuri määrä otoksia. Toinen luonteva vaihtoehto on posteriorijakauman moodi eli sellainen parametrin arvo θ M (x), jossa posteriorijakauman tiheysfunktio p(θ x) saavuttaa suurimman arvonsa. 1 diskreetin jakauman tapauksessa integraali korvataan summalla 16
Esimerkki 1.1 (Tuntematon kolikko). Kolikkoa, josta ei ennalta tiedetä mitään, heittämällä havaitaan 4 kruunaa ja 1 klaava. Määritä kruunan todennäköisyyttä mallintavan parametrin θ piste-estimaatti käyttäen (a) posteriorijakauman odotusarvoa (b) posteriorijakauman moodia. Koska kolikon luonteesta ei ennalta tiedetä mitään, valitaan parametrin priorijakaumaksi yksikkövälin tasajakauma. Parametrin posterijakauma on tällöin faktan 9.3 mukaan betajakauma parametreina a = 5 ja b = 2. Posteriorijakauman tiheysfunktio voidaan kirjoittaa muodossa { 3 θ 4 (1 θ), θ (, 1), p(θ x) =, muuten. (a) Posteriorijakauman odotusarvo saadaan integraalina θ E (x) = 1 θ p(θ x) dθ = θ 3 θ 4 (1 θ) dθ ( 1 1 ) = 3 θ 5 dθ θ 6 dθ ( 1 = 3 6 1 ) = 5 7 7. (b) Posteriorijakauman moodin määrittämiseksi etsitään funktion p(θ x) maksimikohta. Posteriotiheyden derivaatta pisteessä θ (, 1) on p (θ x) = 3 d dθ (θ4 θ 5 ) = 3(4θ 3 5θ 4 ) = 3 θ 3 (4 5θ), joten piste θ = 4 on derivaatan ainoa nollakohta välillä (, 1). Derivoimalla 5 toisen kerran voidaan tarkistaa, että p ( 4 ) <, joten kyseinen piste on funktion 5 p(θ x) globaali maksimikohta. Näin ollen posterijakauman moodi on θ M (x) =. Lasketut piste-estimaatit on esitetty kuvassa 1.1. 4 5 3 2 1.5.714.8 1 Kuva 1.1: Havaintoa {4 kruunaa ja 1 klaava} vastaavasta posteriorijakaumasta lasketut piste-estimaatit: odotusarvo θ E (x).714 ja moodi θ E (x) =.8. 17
Esimerkki 1.2 (Kohinainen kanava). Esimerkissä 9.6 lähetetyn signaalin priorijakauma oli normaalijakauma odotusarvona µ = 5 ja keskihajontana σ = 1. Posterijakaumaksi vastaanotettujen signaaliarvojen x = (3.1, 7.9, 7.) suhteen saatiin normaalijakauma odotusarvona µ 1 = 5.43 ja keskihajontana σ 1.76. Määritä lähetetyn signaalin piste-estimaatti käyttäen (a) posteriorijakauman odotusarvoa (b) posteriorijakauman moodia. Normaalijakauman tiheysfunktio on symmetrinen odotusarvonsa suhteen ja saavuttaa maksiminsa odotusarvon kohdalla (kuva 1.2). Näin ollen molempien piste-estimaattien arvoiksi saadaan θ E (x) = θ M (x) = 5.43..6.4.2. 2. 5. 5.43 8. Kuva 1.2: Lähetetyn signaalin posteriorijakaumasta lasketut piste-estimaatit: odotusarvo = moodi = 5.43. Esimerkki 1.3 (Tasajakauman ylärajan estimointi). Tuntemattoman välin {1, 2,..., θ} tasajakaumaa noudattavasta datalähteestä on havaittu x 1 = 21, x 2 = 7 ja x 3 = 22. Ennakkoon on aihetta uskoa, että tuntemattoman parametrin arvo on todennäköisesti lähellä arvoa 3 ja uskomukseen liittyvä epävarmuus noudattaa Poisson-jakaumaa. Määritä posterijakauman moodia vastaava pisteestimaatti tuntemattoman parametrin arvolle. Poisson-jakauman parametrina λ = 3 tiheysfunktio on p(θ) = e λ λθ, θ =, 1, 2,... θ! Yksittäisen datapisteen x i uskottavuusfunktio on f(x i θ) = { 1 θ 1 x i θ,, muuten, joten datajoukon x = (x 1, x 2, x 3 ) uskottavuusfunktio on f(x 1, x 2, x 3 θ) = 3 f(x i θ) = i=1 18 { 1, θ 3 1 x 1, x 2, x 3 θ,, muuten.
Posteriorijakauma lasketaan päivityskaavasta p(θ x) = p(θ)f(x θ) θ p(θ )f(x θ ) = {c 1 3 3θ 1 e, θ! θ 3 θ 22,, muuten, missä normitusvakio on c = θ p(θ )f(x θ ). Normitusvakion tarkka laskeminen on hieman hankalaa, mutta posteriorijakauman moodin määrittämiseksi normitusvakion arvoa ei tarvitse tietää. Riittää etsiä normittamattoman posterioritiheysfunktion θ 3θ 1 maksimi joukossa θ 22. Kokeilemalla eri θ! θ 3 lukuarvoja havaitaan, että maksimi saavutetaan pisteessä θ = 26, joten posteriorijakauman moodi on θ M (x) = 26..75.5.25. 1 2 3 4 5 Kuva 1.3: Lukumäärän priorijakauma (sininen) ja posteriorijakauma (punainen). 1.2 Bayesläiset väliestimaatit Todennäköisyysvälit ovat käyttökelpoinen tapa kuvailla ja raportoida subjektiivisia uskomuksia, sillä priori- tai posteriorijakaumaa on yleensä melko vaikea kuvailla sanallisesti. Satunnaiselle vastaantulijalle on luultavasti ymmärrettävämpää kertoa, että kuin parametri sisältyy 5% todennäköisyydellä välille [.48,.66] parametri noudattaa betajakaumaa parametreina 8 ja 6. Jakauman todennäköisyysväli tasolla α on lukuväli [a, b], jolle kyseistä jakaumaa noudattava satunnaismuuttuja X toteuttaa P(a X b) = α. 19
Todennäköisyysväli on symmetrinen, mikäli lisäksi pätee P(X < a) = P(X > b). Jatkuvien jakaumien todennäköisyysvälejä on käytännössä helpointa määrittää kvantiilien avulla. Jos q s ja q t ovat jakauman kvantiileja tasoilla s ja t, niin tällöin qt q s f(x) dx = qt f(x) dx qs f(x) dx = t s, joten väli [q s, q t ] on jakauman todennäköisyysväli tasolla t s. Tason 5% todennäköisyysvälejä ovat siis esimerkiksi [q.25, q.75 ] ja [q.5, q.5 ]. Näistä [q.25, q.75 ] on symmetrinen. Bayesläisessä tilastollisessa päättelyssä väliestimaatteja voidaan laatia posteriorijakauman todennäköisyysvälejä käyttämällä. Luonnollinen vaihtoehto on määrittää symmetrinen todennäköisyysväli jollain riittävän suurella tasolla, esimerkiksi α =.95. Esimerkki 1.4 (Tuntematon kolikko). Kolikkoa, josta ei ennalta tiedetä mitään, heittämällä havaitaan 4 kruunaa ja 1 klaava. Määritä 95% todennäköisyysväli kruunan todennäköisyyttä mallintavalle parametrille θ. Kun priorijakaumaksi valitaan yksikkövälin tasajakauma, saadaan posteriorijakaumaksi (esimerkki 1.1) betajakauma parametreina a = 5 ja b = 2, tiheysfunktiona { 3 θ 4 (1 θ), θ (, 1), p(θ x) =, muuten. Posteriorijakauman odotusarvoksi saatiin kolmen desimaalin tarkkuudella θ E (x) =.714 ja moodiksi θ M (x) =.8. Posteriorijakauman symmetrinen 95% todennäköisyysväli on väli [q.25, q.975 ], jonka päätepisteet ovat tasojen.25 ja.975 kvantiilit betajakaumalle parametreina a = 5 ja b = 2. Betajakauman taulukoista tai numeerisilla ohjelmistoilla kvantiileiksi saadaan q.25 =.359 ja q.975 =.957. 1.3 Binaarimallin Bayes-estimointi Aiempien mielipidemittausten perusteella uskotaan, että nykyisen presidentin kannatusosuus tulevissa vaaleissa on noin.4 ja sisältyy välille [.3,.5] noin 95% todennäköisyydellä. Uudessa 2 henkilön satunnaisotokseen pohjautuvassa mielipidemittauksessa havaittiin ehdokkaan kannatusosuudeksi.35. Määritä kannatusosuuden piste-estimaatti, joka ottaa huomioon ennakkouskomuksen ja havaitun mielipidemittauksen. Bayesläisen piste-estimaatin laskemiseksi tulee määrittää tehtävässä kuvattua ennakkouskomusta kuvaava priorijakauma p(θ), jonka odotusarvo on θ p(θ)dθ.4, (1.1) 11
ja välin [.3,.5] todennäköisyys on.5.3 p(θ)dθ.95 (1.2) Ylläolevat ehdot eivät määrää priorijakaumaa yksikäsitteisesti. Esimerkiksi seuraavat jakaumat toteuttavat yo. ehdot: 1. Lukuvälin [.295,.55] tasajakauma. 2. Normaalijakauma odotusarvona µ =.4 ja keskihajontana σ =.5. 3. Betajakauma parametreina a = 27 ja b = 4. 8 8 8 6 6 6 4 4 4 2 2 2..5 1...5 1...5 1. Tasajakauma (a =.295, b =.55) Normaalijakauma (µ =.4, σ =.5) Betajakauma (a = 27 ja b = 4) Ylläolevista jakaumista tasajakauman käyttö on arveluttavaa, sillä siinä priorijakauma antaa todennäköisyyden nolla välin [.295,.55] ulkopuolelle, mikä vastaa absoluuttista ennakkouskomusta, että parametri 1% varmuudella sisältyy välille [.295,.55]. Normaalijakauma periaatteessa sallii parametrin arvoksi lukuja välin [, 1] ulkopuolelta, mutta käytännössä tällaiset kokoluokkaa 8σ tai suuremmat poikkeamat ovat hyvin epätodennäköisiä. Betajakauma on ylläolevista jakaumista luontevin valinta priorijakaumaksi, sillä sen arvojoukko on lukuväli [, 1] ja se antaa positiivisen todennäköisyyden kaikille yksikkövälin avoimille epätyhjille osaväleille. Betajakauma on myös käytännön laskennan kannalta mukava, sillä binaarimallissa se päivittyy betajakaumaksi (fakta 9.3). Kun havaitaan n = 2 alkion datajoukko, jossa 7 ykköstä ja 13 nollaa (ykkösten osuus = 35%), tällöin betajakauma (a = 27 ja b = 4) päivittyy betajakaumaksi parametreina a + 7 = 97 ja b + 13 = 17. Posteriorijakauman odotusarvoksi saadaan θ E (x) = 97 97 + 17.363. Bayes-väliestimaatti. Etsitään piste-estimaatin.363 ympäriltä väli, johon posteriorijakaumaa noudattava parametri sisältyy tn:llä 95%. Voidaan valita esimerkiksi symmetrinen väli [q.25, q.975 ]. Betajakauman taulukoista q.25 =.37 ja q.975 =.422. Johtopäätöksenä voidaan ilmoittaa, että ennakkouskomuksen ja havaitun datan valossa sisältyy kannatusosuus välille [.37,.422] todennäköisyydellä 95%. 111
Hakemisto Bayesin kaava, 15, 96 Bernoulli-jakauma, 57 betajakauma, 1 binomijakauma, 57 binomikerroin, 18 bitti, 42 Chebyshevin epäyhtälö, 49 eksponenttijakauma, 25 entropia, 42 ergodinen, 45 erotus, 9 esiintyvyysharha, 15 estimaattori, 8 harhaton estimaattori, 81 hylkäysalue, 118 hyperparametri, 12 indikaattorifunktio, 26 jakauma, 21 diskreetti, 23 empiirinen, 7 jatkuva, 23 kertoma, 17 kertymäfunktio, 22 keskihajonta jakauman, 47 satunnaismuuttujan, 47 kombinatoriikka, 16 komplementti, 9 korrelaatio yhteisjakauman, 5 kovarianssi yhteisjakauman, 5 leikkaus, 9 lukumäärä listat, 17 osajoukot, 18 lukumäärä, järjestykset, 17 merkitsevyystaso, 115 mitallinen funktio, 33 joukko, 19 momentti, 41 multinomijakauma, 124 nollahypoteesi, 112 normaalijakauma normitettu, 62 osajoukko, 8 ositus, 8 osituskaava, 14 otoskeskihajonta, 73 otoskorrelaatio, 74 otoskovarianssi, 74 p-arvo, 113 perusjoukko, 7 pistemassafunktio, 23 pistetodennäköisyysfunktio, 23 Poisson-jakauma, 24, 67 posteriorijakauma, 96 priorijakauma, 96 reunajakauma diskreetti, 28 jatkuva, 28 reunatiheysfunktio diskreetti, 28 jatkuva, 28 riippumattomat satunnaismuuttujat, 3 127
tapahtumat, 12 satunnaismuuttuja, 2 diskreetti, 23 sigma-algebra, 19 suppeneminen stokastinen, 36 suurimman uskottavuuden estimaatti, 78 suurten lukujen laki, 36 vahva, 45 diskreetti, 26 jatkuva, 26 tiheysfunktio, 27 tapahtuma, 7 poissulkevat, 8 tasajakauma diskreetti, 24 jatkuva, 24 tiheysfunktio, 23 empiirinen, 7 tilastollinen merkitsevyys, 113 tilastollinen testi, 112 todennäköisyys aksiooma, 1 ehdollinen, 12 frekvenssitulkinta, 38 jakauma, 1 mitta, 1 monotonisuus, 1 summasääntö, 1 tulosääntö, 12 todennäköisyysfunktio, 23 todennäköisyysväli, 19 toteuma, 7 tulojoukko, 9 tyhjä joukko, 9 uskottavuusfunktio, 78, 96 logaritminen, 79 varianssi jakauman, 47 satunnaismuuttujan, 47 vastahypoteesi, 112 yhdiste, 9 yhteisjakauma, 25 128
Kirjallisuutta [JP4] Jean Jacod and Philip Protter. Probability Essentials. Springer, second edition, 24. [Kal2] Olav Kallenberg. Foundations of Modern Probability. Springer, second edition, 22. [Wil91] David Williams. Probability with Martingales. Cambridge University Press, 1991. 129