MS-A0501 Todeäköisyyslaskea ja tilastotietee peruskurssi 4A Satuaisotata ja parametrie estimoiti Lasse Leskelä Matematiika ja systeemiaalyysi laitos Perustieteide korkeakoulu Aalto-yliopisto Syksy 2016, periodi I
Sisältö Satuaisotata Parametriset tilastolliset jakaumat Suurimma uskottavuude estimaattorit Estimaattorie omiaisuuksia
Tilastokokee stokastie malli Satuaisotata Tutkittava suuree arvo havaitaa satuaisesti valitussa alkio osajoukossa. Halutaa päätellä (=arvata) tutkittava suuree (tutemato) jakauma f (x) koko populaatiossa. Stokastie malli Tilastokokee tulosta (ee mittauste tekemistä) mallietaa satuaisvektorilla (X 1,..., X ), joka alkiot ovat riippumattomat ja oudattavat (tutematota tai oletettua) jakaumaa f (x). Stokastie malli o tarkka, ku: Havaitut alkiot o valittu tasaise satuaisesti ja riippumattomasti. Havaittuje alkioide lukumäärä o piei suhteessa populaatio kokoo.
Tilastokokee stokastise malli soveltamie Ogelma Otatatutkimuksessa o havaittu arvot (x 1,..., x ). Mite voidaa havaioista päätellä tutkittava suuree (tutemato) jakauma koko populaatiossa? Ratkaisu Tehdää arvaus, että jakauma o f (x). Jos arvaus o (likimai) oikea, ii otaa tulosta voidaa mallitaa satuaisvektorilla (X 1,..., X ), joka alkiot ovat riippumattomat ja oudattavat (likimai) jakaumaa f (x). Stokastiika meetelmillä johdetaa t, että (X 1,..., X ) saa (likimai) arvo (x 1,..., x ). Jos saatu t 0, hylätää arvaus todeäköisi syi.
Datajouko ja stokastise malli tuusluvut Stokastiika meetelmillä johdetaa t, että (X 1,..., X ) saa (likimai) arvo (x 1,..., x ). Lasketaa tuusluku g(x 1,..., x ) datasta Tutkitaa, millä t:llä satuaisluku g(x 1,..., X ) o likimai g(x 1,..., x ) Tuusluku o fuktio g : R R. (Idea: säätö, jolla havaio aieistosta lasketaa yksi luku ) Esim Keskiarvo m(x) = 1 x i Otosvariassi s 2 (x) = 1 1 (x i m(x)) 2
Stokastise malli keskiarvo Hypoteettista jakaumaa f (x) odotusarvoa µ ja keskihajotaa σ vastaava tilastokokee stokastise malli X = (X 1,..., X ) keskiarvo m(x ) = 1 X i o satuaisluku, joka odotusarvo o [ ] 1 E[m(X )] = E X i = 1 E[X i ] = 1 µ = µ ja keskihajota o SD[m(X )] = SD [ 1 ] X i = 1 SD [ X i ] = 1 σ = σ.
Stokastise malli variassi Hypoteettista jakaumaa f (x) odotusarvoa µ ja keskihajotaa σ vastaava tilastokokee stokastise malli X = (X 1,..., X ) variassi σ 2 (X ) = 1 (X i m(x )) 2 o satuaisluku, joka odotusarvoksi saadaa yleiskaavoje 1 (X i m(x )) 2 = 1 X 2 i m(x ) 2 Var[Y ] = E[Y 2 ] (E[Y ]) 2 ja keskiarvo omiaisuuksie E[m(X )] = µ, Var[m(X )] = σ 2 / avulla [ ] E[σ 2 1 (X )] = E Xi 2 m(x ) 2 = E[X1 2 ] E[m(X ) 2 ] = Var[X 1 ] + (E[X 1 ]) 2 Var[m(X )] (E[m(X )]) 2 = σ 2 + µ 2 σ 2 / µ 2 = (1 1/)σ 2. Suurille : arvoilla siis stokastise malli tuottamasta satuaisvektorista X = (X 1,..., X ) laskettu variassi σ 2 (X ) o siis odotusarvoltaa lähellä hypoteettise jakauma f (x) variassiparametria: E[σ 2 (X )] = (1 1/)σ 2 σ 2.
Stokastise malli otosvariassi Puoltamato hypoteettise jakauma variassi estimaattori saadaa kertomalla variassi s 2 (X ) vakiolla /( 1): s 2 (X ) = 1 σ2 (X ) = 1 1 (X i m(x )) 2 Ylläoleva satuaisluku o stokastise malli otosvariassi. Hypoteettise jakauma f (x) pohjalta muodostetu stokastise malli X = (X 1,..., X ) otosvariassi o siis odotusarvoltaa E[s 2 (X )] = E [ ] 1 σ2 (X ) = 1 (1 1/)σ2 = σ 2 Tulkita: Jos otokse satuaisotata toistettaisii riippumattomasti suuri määrä kertoja ja havaituista otosvariasseista laskettaisii keskiarvo, olisi kyseie keskiarvo suurte lukuje lai mukaa hyvi lähellä koko populaatio variassia σ 2.
Datajouko ja stokastise malli keskiarvot Havaiot (x 1,..., x ) Stokastie malli (X 1,..., X ) m(x) = 1 x i m(x ) = 1 X i E(m(x)) = m(x) SD(m(x)) = 0 E(m(X )) = x f (x)dx = µ SD(m(X )) = 1 σ = 1 Yllä µ ja σ ovat hypoteettise jakauma f (x) odotusarvo ja keskihajota (jotka lasketaa matemaattisesti, datasta riippumatta). Stokastise malli keskiarvo m(x ) o satuaisluku, joka odotusarvo o µ ja keskihajota σ/. (x µ) 2 f (x)dx
Datajouko ja stokastise malli otosvariassit Havaittu data (x 1,..., x ) s 2 (x) = 1 1 (x i m(x)) 2 E(s 2 (x)) = s 2 (x) SD(s 2 (x)) = 0 Stokastie malli (X 1,..., X ) s 2 (X ) = 1 1 E(s 2 (X )) = σ 2 = (X i m(x )) 2 SD(s 2 (X )) = (x µ) 2 f (x)dx. Huom Stokastise malli otosvariassi s 2 (X ) o satuaisluku, joka odotusarvo o hypoteettise jakauma variassi σ 2.
Sisältö Satuaisotata Parametriset tilastolliset jakaumat Suurimma uskottavuude estimaattorit Estimaattorie omiaisuuksia
Tutemattoma jakauma parametrit Tarkastellaa tutematota datalähdettä, joka tutkittava suuree jakauma o f (x). Oletetaa, että jakauma f (x) = f θ (x) muoto tuetaa mutta se parametreja θ = (θ 1, θ 2,... ) ei. Beroullijakauma: f p (0) = 1 p, f p (1) = p; θ = p. Ekspoettijakauma: f λ (x) = λe λx ; θ = λ. Väli [a, b] tasajakauma: f (a,b) (x) = 1 b a ; θ = (a, b). Normaalijakauma: f (µ,σ 2 )(x) = 1 (x µ)2 e 2σ 2 ; θ = (µ, σ 2 ). 2πσ 2 Ku datalähteestä o saatu havaitoa x 1,..., x, voidaako äide pohjalta päätellä parametrie θ oikeat arvot? Ku yritetää arvata parametri θ i arvo; mikä o paras arvaus?
Parametrie estimoiti Tarkastellaa tutematota datalähdettä, joka tutkittava suuree jakauma o f θ (x) o parametreja θ = (θ 1, θ 2,... ) vaille. Datalähteestä o saatu havaiot x 1,..., x. Ku yritetää arvata parametri θ i arvo; mikä o paras arvaus? Parametri θ i : estimaatti o data x = (x 1,..., x ) pohjalta laskettu arvaus ˆθ i = g(x) estimaattori o fuktio (x 1,..., x ) g(x 1,..., x ), joka kuvaa data estimaatiksi Tiety parametri estimaattoriksi ei yleesä ole yksikäsitteistä parasta valitaa. Huom. Estimaattoriksi kutsutaa usei myös satuaislukua g(x ) = g(x 1,..., X ), joka o laskettu tilastokokee stokastise malli X = (X 1,..., X ) pohjalta.
Esimerkki: Biaarise suuree jakauma Ku biaarise suuree (tutemattomat) arvot N alkio populaatiossa ovat y 1,..., y N {0, 1}, ii suuree (tutemato) jakauma populaatiossa oudattaa Ber(p)-jakaumaa { 1 p, k = 0, f p (k) = p, k = 1. Kyseie jakauma o parametria p = #{i N:y i =1} N vaille tuettu. Esim Trumpi kaatus (0 = ei, 1 = kyllä) yhdysvaltalaiste ääioikeutettuje populaatiossa oudattaa Ber(p)-jakaumaa parametria p = Trumpi kaattajie osuus.
Ber(p)-jakauma parametri estimoiti Biaarise suuree jakauma o parametria p vaille tuettu: { 1 p, k = 0, f p (k) = p, k = 1, Mite estimoida p havaitu data x = (x 1,..., x ) pohjalta? Esim Jos Trumpi kaatuskyselyssä saadaa tulokseksi x = (0, 0, 0, 0, 0, 0, 0, 0, 1, 0), tutuisi luotevalta estimoida kaatukseksi ˆp(x) = 10%. Ituitio pohjalta määritellää estimaattori ˆp(x) = {i : x i = 1}.
Esimerkki: Diskreeti tasajakauma parametri Vieraa valla sotilaskoeissa o sarjaumerot 1, 2, 3,..., N. Tiedustelijat ovat havaieet kolme sotilaskoee sarjaumerot x 1 = 63, x 2 = 17, x 3 = 203. Määritä havaitoje x = (x 1, x 2, x 3 ) pohjalta estimaatti sotilaskoeide lukumäärälle N. Tiedustelutietoa tuottava datalähde oudattaa tasajakaumaa f 1,N (k) = { 1 N, k = 1,..., N, 0, muute. Mikä o luoteva estimaattori ˆN(x) parametrille N?
Sisältö Satuaisotata Parametriset tilastolliset jakaumat Suurimma uskottavuude estimaattorit Estimaattorie omiaisuuksia
Uskottavuusfuktio [egl. likelihood fuctio] Datalähtee stokastie malli: X = (X 1,..., X ), joka kompoetit f θ -jakautueet ja toisistaa riippumattomat. Malli eustama todeäköisyys havaita (likimai) arvot x = (x 1,..., x ) o diskreetille jakaumalle P(X 1 = x 1,..., X = x ) = f θ (x 1 ) f θ (x ) ja jatkuvalle jakaumalle P(X 1 = x 1 ± ɛ/2,..., X = x ± ɛ/2) = ɛ f θ (x 1 ) f θ (x ). Uskottavuusfuktio θ f θ (x 1 ) f θ (x ) kertoo f θ -malli eustama todeäköisyyde havaita (likimai) sama data, mitä oikeasti havaittii.
Suurimma uskottavuude estimaatti [egl. maximum likelihood estimate] Uskottavuusfuktio θ f θ (x 1 ) f θ (x ) kertoo f θ -malli eustama todeäköisyyde havaita (likimai) sama data, mitä oikeasti havaittii. Mitä suurempi uskottavuusfuktio arvo o pisteessä θ, se uskottavampaa voidaa pitää oletusta, että havaittu data o peräisi f θ -jakautueesta datalähteestä. Parametri θ suurimma uskottavuude estimaatti ˆθ = ˆθ(x) o parametri arvo, joka maksimoi uskottavuusfuktio.
Ber(p)-jakauma SU-estimoiti Biaarise suuree jakauma o parametria p vaille tuettu: { 1 p, k = 0, f p (k) = p, k = 1, Mite estimoida p havaitu data x = (x 1,..., x ) pohjalta? Fakta Ber(p)-jakauma parametri p suurimma uskottavuude estimaatti datajoukolle x o ykköste osuus havaitussa datassa ˆp(x) = #{i : x i = 1}.
Todistus Malli uskottavuusfuktio datajoukolle x o f p (x 1 ) f p (x ) = (1 p) 1 x i p x i = (1 p) c p c, missä c = x i. Uskottavuude logaritmi ja se derivaatta ovat l(p) = ( c) log(1 p) + c log p, l (p) = ( c) ( 1) 1 p + c 1 p. Logaritmise uskottavuusfuktio derivaatta o olla, ku c 1 p = c p eli p = c. Uskottavuusfuktio maksimoituu pisteessä p = c = #{i :x i =1}.
Normaalijakauma parametrie SU-estimaatit Normaalijakauma tiheysfuktio f (µ,σ 2 )(t) = 1 (t µ)2 e 2σ 2 2πσ 2 o parametreja µ ja σ 2 vaille tuettu. Fakta Normaalijakauma parametrie (µ, σ 2 ) suurimma uskottavuude estimaatit datajoukolle x = (x 1,..., x ) ovat m(x) = 1 x i ja σ 2 (x) = 1 (x i m(x)) 2 eli datajouko x keskiarvo ja variassi.
Sisältö Satuaisotata Parametriset tilastolliset jakaumat Suurimma uskottavuude estimaattorit Estimaattorie omiaisuuksia
Harhato estimaattori [egl. ubiased estimator] Jakauma f θ parametri θ i estimaattori ˆθ i (x) o harhato, jos f θ -jakaumaa vastaavalle stokastiselle mallille X = (X 1,..., X ) pätee E ˆθ i (X ) = θ i. Tulkita: Jos tutemato datalähde todella oudattaa f θ -jakaumaa, ja datalähteestä tehdää riippumatota havaitoa ja lasketaa estimaatti harhattomalla estimaattorilla, ja jos sama toistettaisii mota kertaa, ii toistoje keskiarvo o lähellä oikeaa parametria.
Esimerkki: Ber(p)-jakauma SU-estimaattori Beroullijakauma parametri p suurimma uskottavuude estimaattori o ykköste suhteellie osuus ykköste osuus havaitussa datassa ˆp(x) = #{i : x i = 1}. Ber(p)-jakauma mukaiselle stokastiselle mallille X = (X 1,..., X ) ( ) ( ) #{i : Xi = 1} 1 E[ˆp(X )] = E = E X i = p, jote ˆp(x) o harhato.
Esim: Normaalijakauma odotusarvo SU-estimaattori Normaalijakauma odotusarvoparametri µ suurimma uskottavuude estimaattori o m(x) = 1 x i. Stokastiselle mallille X = (X 1,..., X ) ( ) 1 E[m(X )] = E X i = µ, jote m(x) o harhato.
Esim: Normaalijakauma variassi SU-estimaattori Normaalijakauma variassiparametri σ 2 suurimma uskottavuude estimaattori o σ 2 (x) = 1 (x i m(x)) 2. Stokastiselle mallille X = (X 1,..., X ) ( ) E[σ 2 1 (X )] = E (X i m(x ) 2 = = 1 σ2, jote σ 2 (x) o harhaie. Variassiparametri harhato estimaattori o otosvariassi s 2 (x) = 1 1 (x i m(x)) 2. Suurilla arvoilla äissä ei ole merkitsevää eroa.
Seuraavalla kerralla puhutaa Bayesläisestä tilastollisesta päättelystä...