MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Samankaltaiset tiedostot
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi. Vilkkumaa / Kuusinen 1

Tilastollinen aineisto Luottamusväli

Osa 2: Otokset, otosjakaumat ja estimointi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Bayesläiset tilastolliset mallit

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

tilastotieteen kertaus

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Todennäköisyyden ominaisuuksia

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

30A02000 Tilastotieteen perusteet

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Teema 8: Parametrien estimointi ja luottamusvälit

Väliestimointi (jatkoa) Heliövaara 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Normaalijakaumasta johdettuja jakaumia

Luottamusvälit. Normaalijakauma johnkin kohtaan

11.1 Nollahypoteesi, vastahypoteesi ja poikkeavat havainnot

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Harjoitus 2: Matlab - Statistical Toolbox

Tilastollisia peruskäsitteitä ja Monte Carlo

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

dx=5&uilang=fi&lang=fi&lvv=2014

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo.

Tutkimustiedonhallinnan peruskurssi

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

11.1 Nollahypoteesi, vastahypoteesi ja p-arvo

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

031021P Tilastomatematiikka (5 op) viikko 4

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

9. laskuharjoituskierros, vko 12-13, ratkaisut

1. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden heittojen lukumäärä, joilla tuli 1, 2, 3 tai 4.

Kun datasta halutaan muodostaa malleja, ne ovat yleensä tilastollisia (esim. regressio, luokittelu, ryhmittely...) F(x 0 ) = P(x x 0 ) (1)

Maximum likelihood-estimointi Alkeet

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet

031021P Tilastomatematiikka (5 op) viikko 3

1. Tilastollinen malli??

Opiskelijanumero Yleisarvio Työläys Hyödyllisyys 12345A K K B U 3 3 3

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

x 4 e 2x dx Γ(r) = x r 1 e x dx (1)

riippumattomia ja noudattavat samaa jakaumaa.

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

&idx=2&uilang=fi&lang=fi&lvv=2015

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Sovellettu todennäköisyyslaskenta B

Tilastollisen päättelyn perusteet

&idx=2&uilang=fi&lang=fi&lvv=2015

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Bayesilainen päätöksenteko / Bayesian decision theory

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

Transkriptio:

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Frekventistiset vs. bayeslaiset menetelmät Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi 2016 2017 Periodi III

Sisältö Binaarimallin estimointi Binaarimallin estimointi: Frekventistinen tapa Binaarimallin estimointi: Bayeslainen tapa Yhteenveto estimoinnista

Datalähteen binaarimalli X 1, X 2,... riippumattomia {0, 1}-arvoisia satunnaislukuja odotusarvona p (tuntematon) Parametri p määrittää datalähteen jakauman, X i :n pistetodennäköisyyfunktio on 1 p, x i = 0, f (x i p) = p, x i = 1, 0, muuten. Tämä on Bernoulli-jakauma parametrina p.

Esimerkki: Mielipidemittaus Usan äänioikeutetuista valittiin satunnaisotannalla n = 200 henkilöä ja heiltä kysyttiin, aikovatko äänestää Trumpia presidentiksi (0=Ei, 1=Kyllä). 70 vastasi kyllä. Mittaustulos X = (X 1,..., X 200 ) noudattaa likimain binaarimallia odotusarvoparametrina p, missä p = E(X i ) = P(X i = 1) on Trumpin (tuntematon) kannatus koko populaatiossa. Tehtävä: Määritä piste-estimaatti ja luottamusväli kannatusosuudelle p.

Sisältö Binaarimallin estimointi Binaarimallin estimointi: Frekventistinen tapa Binaarimallin estimointi: Bayeslainen tapa Yhteenveto estimoinnista

Estimaatti: Frekventistinen tapa Parametrin p suurimman uskottavuuden estimaatti on m(x) = 1 n n i=1 x i = #{i : x i = 1} n eli ykkösten suhteellinen osuus datajoukossa x. Likiarvoinen (n suuri) 95% luottamusväli on m(x) ± z ˆσ(x) n, ˆσ(x) = m(x)(1 m(x)) on Bernoulli-jakauman keskihajonnan estimaatti z = Φ 1 ( 1 0.95 2 ) 1.96 on luku, jolle P( Z z) = 0.95

Entä jos käytössä on ennakkotietoa kannatusosuudesta p? Esim. aiempien mielipidemittausten mukaan arvioidaan, että kannatus todennäköisesti on lähellä lukua 0.4.

Sisältö Binaarimallin estimointi Binaarimallin estimointi: Frekventistinen tapa Binaarimallin estimointi: Bayeslainen tapa Yhteenveto estimoinnista

Bayeslainen estimointi Tulkitaan tuntematon kannatusosuus satunnaismuuttujaksi Θ, jonka priorijakauma mallintaa ennakkotietämystä kannatuksesta. Miten priorijakauma valitaan? Uskotaan, että Θ on todennäköisesti 0.4? Uskotaan, että Θ [0.3, 0.5] 95% todennäköisyydellä. Jos valitaan välin [0.3 1/190, 0.5 + 1/190] tasajakauma, saadaan P(Θ [0.3, 0.5]) = 0.2 0.2 + 2/190 = 95%. Onko tämä hyvä priorijakauma? Tuskin, sillä pisteissä, missä priorijakauma on 0, on myös posteriorijakauma väistämättä 0.

Priorijakauman valitseminen Miten priorijakauma valitaan, kun uskotaan että Θ [0.3, 0.5] todennäköisyydellä 95%? Keksi jatkuvan välin [0, 1] jakauma f 0 (t), jonka odotusarvo t f (t)dt = 0.4 tiheysfunktio f 0 (t) > 0 kaikilla t (0, 1) 0.5 0.3 f 0(t)dt 0.95

Beta-jakauma Beta(a, b)-jakauman parametreina a > 0 ja b > 0 tiheysfunktio on { c θ a 1 (1 θ) b 1, kun θ [0, 1], f (θ) = 0, muuten, normitusvakiona c = (a+b 1)! (a 1)!(b 1)!. Beta(1, 1) Beta(3, 9) Beta(9, 3) Beta(9, 9) 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Arvojoukko = [0, 1] Odotusarvo µ = a a+b ja keskihajonta σ = Kertymäfunktiota ei tunneta suljetussa muodossa µ(1 µ) a+b+1 dbeta(theta,a,b); pbeta(theta,a,b)

Priorijakauman valitseminen Miten priorijakauma valitaan, kun uskotaan että Θ [0.3, 0.5] todennäköisyydellä 95%? Valitaan odotusarvoksi µ = 0.4 ja keskihajonnaksi? Normitetulle normaalijakaumalle Z = 0 ± 2 tn:llä 95% Yleiselle normaalijakaumalle Z = µ ± 2σ tn:llä 95% Jos Beta-jakauman hajonta normaalin kaltaista, niin Beta-jakaumalle X = µ ± 2σ suurin piirtein tn:llä 95% Valitaan σ = 0.1/2 0.05. Ratkaistaan Beta(a, b)-jakauman parametrit: µ = a a + b µ(1 µ) σ = a + b + 1 ( a = µ 1 + b = (1 µ) ) µ(1 µ) σ 2 ( 1 + µ(1 µ) σ 2 = 38 ) = 57

Priorijakauman valitseminen Miten priorijakauma valitaan, kun uskotaan että Θ [0.3, 0.5] todennäköisyydellä 95%? Kokeillaan Beta(38, 57)-jakaumaa: Odotusarvo µ = 0.4 Keskihajonta σ = 0.05 Tällöin 0.0 0.2 0.4 0.6 0.8 1.0 P(Θ [0.3, 0.5]) = F 38,57 (0.5) F 38,53 (0.3) = 0.9551861. pbeta(0.5,38,57)-pbeta(0.3,38,57)

Posteriorijakauman määrittäminen Havaitaan n = 200 alkion datajoukko, jossa 70 ykköstä ja 130 nollaa (ykkösten osuus = 35%). Priorijakauma Beta(38, 57): Odotusarvo µ 0 = 0.4 Keskihajonta σ 0 = 0.05 0.0 0.2 0.4 0.6 0.8 1.0 Posteriorijakauma Beta(38 + 70, 57 + 130) = Beta(108, 187): Odotusarvo µ 1 = 108 108+187 = 0.366 Keskihajonta σ 1 = 0.028 0.0 0.2 0.4 0.6 0.8 1.0 Bayeslainen piste-estimaatti = posteriorijakauman odotusarvo 0.366

Bayeslainen väliestimaatti Etsitään piste-estimaatin µ 1 = 0.366 ympäriltä väli, johon posteriorijakaumaa noudattava Θ kuuluu tn:llä 95%. Miten? Jos Beta(108, 187) hajonnaltaan normaalin kaltainen, niin voidaan kokeilla väliä Tällöin µ 1 ± 2σ 1 = 0.366 ± 2 0.028 = 0.366 ± 0.056 P(Θ [0.310, 422] x) 95.47% Johtopäätös: Havaitun datan (70 ykköstä, n = 200) valossa tuntemattoman parametrin Θ ehdollinen todennäköisyys kuulua välille 0.366 ± 0.056 on noin 95%.

Sisältö Binaarimallin estimointi Binaarimallin estimointi: Frekventistinen tapa Binaarimallin estimointi: Bayeslainen tapa Yhteenveto estimoinnista

Yhteenveto Frekventistinen Data: 70 ykköstä, 130 nollaa Parametrin arvoihin ei liitetä todennäköisyyksiä Parametrilla ei ole priorijakaumaa Parametrilla ei ole posteriorijakaumaa Piste-estimaatti on suurimman uskottavuuden estimaatti m(x) = 70 200 = 0.350 Väliestimaatti on 95% luottamustason luottamusväli m(x) ± 2 ˆσ(x) n = 0.350 ± 0.067 95% samalla menetelmällä estimoiduista luottamusväleistä peittää parametrin Bayeslainen Data: 70 ykköstä, 130 nollaa Parametrin arvoihin liitetään subj. todennäköisyydet Priorijak. Beta(38, 57) µ 0 = 0.400, σ 0 = 0.050 Posteriorijak. Beta(108, 187) µ 1 = 0.366, σ 1 = 0.028 Piste-estimaatti on posteriorijakauman odotusarvo µ 1 = 0.366. Väliestimaatti on 95% posteriorijakauman väli µ 1 ± 2σ 1 = 0.366 ± 0.056 95% todennäköisyydellä parametri kuuluu välille 0.366 ± 0.056

Ensi viikolla jatketaan tilastollisen merkitsevyyden testaamisesta...