MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Samankaltaiset tiedostot
MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Bayesläiset tilastolliset mallit

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen aineisto Luottamusväli

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

tilastotieteen kertaus

Osa 2: Otokset, otosjakaumat ja estimointi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Maximum likelihood-estimointi Alkeet

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

2. Uskottavuus ja informaatio

Todennäköisyyden ominaisuuksia

9. laskuharjoituskierros, vko 12-13, ratkaisut

30A02000 Tilastotieteen perusteet

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

11.1 Nollahypoteesi, vastahypoteesi ja poikkeavat havainnot

Väliestimointi (jatkoa) Heliövaara 1

Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo.

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

031021P Tilastomatematiikka (5 op) viikko 4

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Teema 8: Parametrien estimointi ja luottamusvälit

Harjoitus 2: Matlab - Statistical Toolbox

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Normaalijakaumasta johdettuja jakaumia

Tilastollinen päättely, 10 op, 4 ov

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

805306A Johdatus monimuuttujamenetelmiin, 5 op

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kun datasta halutaan muodostaa malleja, ne ovat yleensä tilastollisia (esim. regressio, luokittelu, ryhmittely...) F(x 0 ) = P(x x 0 ) (1)

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

11.1 Nollahypoteesi, vastahypoteesi ja p-arvo

Tutkimustiedonhallinnan peruskurssi

Luottamusvälit. Normaalijakauma johnkin kohtaan

Uskottavuuden ominaisuuksia

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Tilastollisia peruskäsitteitä ja Monte Carlo

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

1. Tilastollinen malli??

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

x 4 e 2x dx Γ(r) = x r 1 e x dx (1)

Bayesilainen päätöksenteko / Bayesian decision theory

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet

Opiskelijanumero Yleisarvio Työläys Hyödyllisyys 12345A K K B U 3 3 3

Tilastollisen päättelyn perusteet

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

dx=5&uilang=fi&lang=fi&lvv=2014

Poisson-prosessien ominaisuuksia ja esimerkkilaskuja

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

031021P Tilastomatematiikka (5 op) viikko 3

Tilastollinen päättely II, kevät 2017 Harjoitus 1A

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.

Sovellettu todennäköisyyslaskenta B

Transkriptio:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Bayesläiset piste- ja väliestimaatit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2017 2018 Periodi I

Sisältö Posterijakauman tulkinta: Piste-estimaatit Binaarimallin estimointi Binaarimallin estimointi: Frekventistinen tapa Binaarimallin estimointi: Bayeslainen tapa Yhteenveto estimoinnista

Posteriorijakauman estimaatit Miten päätellään tuntemattoman parametrin θ estimaatti posteriorijakaumasta p 1 (θ x)? 1. Posteriorijakauman moodi ˆθ: p 1 (ˆθ x) = max p 1 (θ x) θ 2. Posteriorijakauman odotusarvo ˆθ: ˆθ = θ θp 1 (θ x) 3. Raportoidaan koko posteriorijakauma Vaihtoehto 1. usein helpompi määrittää: (ei tarvitse tuntea posteriorijakauman normitusvakiota)

Esimerkki: Tasajakauman ylärajan estimointi Tuntemattoman välin {1, 2,..., θ} tasajakaumaa noudattavasta datalähteestä on havaittu x 1 = 21, x 2 = 7 ja x 3 = 22. Mikä on paras arvaus (estimaatti) tuntemattoman parametrin θ arvolle? Datalähteen uskottavuusfunktio: f (x i θ) = { 1 θ, 1 x i θ, 0, muuten { 1 θ 3, 1 x 1, x 2, x 3 θ, f (x 1, x 2, x 3 θ) = 0, muuten Suurimman uskottavuuden estimaatti: ˆθ(x) = max(x 1, x 2, x 3 ) = 22. Entä jos meillä on ennakkoon muodostettu näkemys, että tuntemattoman parametrin arvo on todennäköisesti lähellä arvoa 30?

Tasajakauman yläraja: bayeslainen estimointi Tuntemattoman välin {1, 2,..., θ} tasajakaumaa noudattavasta datalähteestä on havaittu x 1 = 21, x 2 = 7 ja x 3 = 22. Ennakkotietämys: Parametri on todennäköisesti lähellä arvoa 30. Tulkitaan tuntematon parametri satunnaismuuttujana, jonka odotusarvo on 30? Miten valitaan priorijakauma? Valitaan yksinkertaisin diskreetti jakauma, jonka odotusarvo on 30 ja jolla on positiivinen tn saada mikä tahansa pos. kokonaisluku. Poisson-jakauma parametrina λ = 30: p 0 (θ) = e λ λθ, θ = 0, 1, 2,... θ! Uskottavuusfunktio { 1 θ 3, 1 x 1, x 2, x 3 θ, f (x 1, x 2, x 3 θ) = 0, muuten

Tasajakauman ylärajan estimointi: bayeslainen estimointi Havaittu data: x = (21, 7, 22) Priori p 0 (θ) = e 30 30θ, θ = 0, 1, 2,... θ! Uskottavuus f (x θ) = { 1 θ, 3 θ 22, 0, muuten Posteriori lasketaan päivityskaavasta p 1 (θ x) = p 0 (θ)f (x θ) θ p 0(θ )f (x θ ) = {c 1 30 30θ 1 e θ! θ, 3 θ 22, 0, muuten, missä normitusvakio c = θ p 0(θ )f (x θ ) ei riipu θ:sta. Suurimman posterioritodennäköisyyden estimaatti on ˆθ, joka maksimoi funktion θ 30θ 1 θ! θ joukossa θ 22. 3 Maksimin voi etsiä kokeilemalla tai piirtämällä ko. funktio.

Tasajakauman yläraja: Priori ja posteriori Data: x = (21, 7, 22) Priori: Poisson-jakauma odotusarvona λ = 30 Priori p 0 (θ) Posteriori p 1 (θ x) 0.00 0.02 0.04 0.06 0.08 0.00 0.02 0.04 0.06 0.08 0 10 20 30 40 50 0 10 20 30 40 50 Suurimman posterioritodennäköisyyden estimaatti: ˆθ(x) = 26

Sisältö Posterijakauman tulkinta: Piste-estimaatit Binaarimallin estimointi Binaarimallin estimointi: Frekventistinen tapa Binaarimallin estimointi: Bayeslainen tapa Yhteenveto estimoinnista

Datalähteen binaarimalli X 1, X 2,... riippumattomia {0, 1}-arvoisia satunnaislukuja odotusarvona p (tuntematon) Parametri p määrittää datalähteen jakauman, X i :n pistetodennäköisyyfunktio on 1 p, x i = 0, f (x i p) = p, x i = 1, 0, muuten. Tämä on Bernoulli-jakauma parametrina p.

Esimerkki: Mielipidemittaus Usan äänioikeutetuista valittiin satunnaisotannalla n = 200 henkilöä ja heiltä kysyttiin, aikovatko äänestää Trumpia presidentiksi (0=Ei, 1=Kyllä). 70 vastasi kyllä. Mittaustulos X = (X 1,..., X 200 ) noudattaa likimain binaarimallia odotusarvoparametrina p, missä p = E(X i ) = P(X i = 1) on Trumpin (tuntematon) kannatus koko populaatiossa. Tehtävä: Määritä piste-estimaatti ja luottamusväli kannatusosuudelle p.

Sisältö Posterijakauman tulkinta: Piste-estimaatit Binaarimallin estimointi Binaarimallin estimointi: Frekventistinen tapa Binaarimallin estimointi: Bayeslainen tapa Yhteenveto estimoinnista

Estimaatti: Frekventistinen tapa Parametrin p suurimman uskottavuuden estimaatti on m(x) = 1 n n i=1 x i = #{i : x i = 1} n eli ykkösten suhteellinen osuus datajoukossa x. Likiarvoinen (n suuri) 95% luottamusväli on m(x) ± z ˆσ(x) n, ˆσ(x) = m(x)(1 m(x)) on Bernoulli-jakauman keskihajonnan estimaatti z = Φ 1 ( 1 0.95 2 ) 1.96 on luku, jolle P( Z z) = 0.95

Entä jos käytössä on ennakkotietoa kannatusosuudesta p? Esim. aiempien mielipidemittausten mukaan arvioidaan, että kannatus todennäköisesti on lähellä lukua 0.4.

Sisältö Posterijakauman tulkinta: Piste-estimaatit Binaarimallin estimointi Binaarimallin estimointi: Frekventistinen tapa Binaarimallin estimointi: Bayeslainen tapa Yhteenveto estimoinnista

Bayeslainen estimointi Tulkitaan tuntematon kannatusosuus satunnaismuuttujaksi Θ, jonka priorijakauma mallintaa ennakkotietämystä kannatuksesta. Miten priorijakauma valitaan? Uskotaan, että Θ on todennäköisesti 0.4? Uskotaan, että Θ [0.3, 0.5] 95% todennäköisyydellä. Jos valitaan välin [0.3 1/190, 0.5 + 1/190] tasajakauma, saadaan P(Θ [0.3, 0.5]) = 0.2 0.2 + 2/190 = 95%. Onko tämä hyvä priorijakauma? Tuskin, sillä pisteissä, missä priorijakauma on 0, on myös posteriorijakauma väistämättä 0.

Priorijakauman valitseminen Miten priorijakauma valitaan, kun uskotaan että Θ [0.3, 0.5] todennäköisyydellä 95%? Keksi jatkuvan välin [0, 1] jakauma f 0 (t), jonka odotusarvo t f (t)dt = 0.4 tiheysfunktio f 0 (t) > 0 kaikilla t (0, 1) 0.5 0.3 f 0(t)dt 0.95

Beta-jakauma Beta(a, b)-jakauman parametreina a > 0 ja b > 0 tiheysfunktio on { c θ a 1 (1 θ) b 1, kun θ [0, 1], f (θ) = 0, muuten, normitusvakiona c = (a+b 1)! (a 1)!(b 1)!. Beta(1, 1) Beta(3, 9) Beta(9, 3) Beta(9, 9) 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Arvojoukko = [0, 1] Odotusarvo µ = a a+b ja keskihajonta σ = Kertymäfunktiota ei tunneta suljetussa muodossa µ(1 µ) a+b+1 dbeta(theta,a,b); pbeta(theta,a,b)

Priorijakauman valitseminen Miten priorijakauma valitaan, kun uskotaan että Θ [0.3, 0.5] todennäköisyydellä 95%? Valitaan odotusarvoksi µ = 0.4 ja keskihajonnaksi? Normitetulle normaalijakaumalle Z = 0 ± 2 tn:llä 95% Yleiselle normaalijakaumalle Z = µ ± 2σ tn:llä 95% Jos Beta-jakauman hajonta normaalin kaltaista, niin Beta-jakaumalle X = µ ± 2σ suurin piirtein tn:llä 95% Valitaan σ = 0.1/2 0.05. Ratkaistaan Beta(a, b)-jakauman parametrit: µ = a a + b µ(1 µ) σ = a + b + 1 ( a = µ 1 + b = (1 µ) ) µ(1 µ) σ 2 ( 1 + µ(1 µ) σ 2 = 38 ) = 57

Priorijakauman valitseminen Miten priorijakauma valitaan, kun uskotaan että Θ [0.3, 0.5] todennäköisyydellä 95%? Kokeillaan Beta(38, 57)-jakaumaa: Odotusarvo µ = 0.4 Keskihajonta σ = 0.05 Tällöin 0.0 0.2 0.4 0.6 0.8 1.0 P(Θ [0.3, 0.5]) = F 38,57 (0.5) F 38,53 (0.3) = 0.9551861. pbeta(0.5,38,57)-pbeta(0.3,38,57)

Posteriorijakauman määrittäminen Havaitaan n = 200 alkion datajoukko, jossa 70 ykköstä ja 130 nollaa (ykkösten osuus = 35%). Priorijakauma Beta(38, 57): Odotusarvo µ 0 = 0.4 Keskihajonta σ 0 = 0.05 0.0 0.2 0.4 0.6 0.8 1.0 Posteriorijakauma Beta(38 + 70, 57 + 130) = Beta(108, 187): Odotusarvo µ 1 = 108 108+187 = 0.366 Keskihajonta σ 1 = 0.028 0.0 0.2 0.4 0.6 0.8 1.0 Bayeslainen piste-estimaatti = posteriorijakauman odotusarvo 0.366

Bayeslainen väliestimaatti Etsitään piste-estimaatin µ 1 = 0.366 ympäriltä väli, johon posteriorijakaumaa noudattava Θ kuuluu tn:llä 95%. Miten? Jos Beta(108, 187) hajonnaltaan normaalin kaltainen, niin voidaan kokeilla väliä Tällöin µ 1 ± 2σ 1 = 0.366 ± 2 0.028 = 0.366 ± 0.056 P(Θ [0.310, 422] x) 95.47% Johtopäätös: Havaitun datan (70 ykköstä, n = 200) valossa tuntemattoman parametrin Θ ehdollinen todennäköisyys kuulua välille 0.366 ± 0.056 on noin 95%.

Sisältö Posterijakauman tulkinta: Piste-estimaatit Binaarimallin estimointi Binaarimallin estimointi: Frekventistinen tapa Binaarimallin estimointi: Bayeslainen tapa Yhteenveto estimoinnista

Yhteenveto Frekventistinen Data: 70 ykköstä, 130 nollaa Parametrin arvoihin ei liitetä todennäköisyyksiä Parametrilla ei ole priorijakaumaa Parametrilla ei ole posteriorijakaumaa Piste-estimaatti on suurimman uskottavuuden estimaatti m(x) = 70 200 = 0.350 Väliestimaatti on 95% luottamustason luottamusväli m(x) ± 2 ˆσ(x) n = 0.350 ± 0.067 95% samalla menetelmällä estimoiduista luottamusväleistä peittää parametrin Bayeslainen Data: 70 ykköstä, 130 nollaa Parametrin arvoihin liitetään subj. todennäköisyydet Priorijak. Beta(38, 57) µ 0 = 0.400, σ 0 = 0.050 Posteriorijak. Beta(108, 187) µ 1 = 0.366, σ 1 = 0.028 Piste-estimaatti on posteriorijakauman odotusarvo µ 1 = 0.366. Väliestimaatti on 95% posteriorijakauman väli µ 1 ± 2σ 1 = 0.366 ± 0.056 95% todennäköisyydellä parametri kuuluu välille 0.366 ± 0.056

Ensi viikolla jatketaan tilastollisen merkitsevyyden testaamisesta...