MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Samankaltaiset tiedostot
MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. Valitaan tilanteeseen sopiva stokastinen malli. 2. Sovitetaan malli havaittuun dataan (estimoidaan mallin parametrit).

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastolliset luottamusvälit

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2004) 1

Luku 7. Parametrien estimointi. 7.1 Parametriset jakaumat. Lasse Leskelä Aalto-yliopisto 29. marraskuuta 2017

Johdatus tilastotieteeseen Estimointimenetelmät. TKK (c) Ilkka Mellin (2005) 1

8. laskuharjoituskierros, vko 11, ratkaisut

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2005) 1

6.1 Riippumattomat satunnaismuuttujat

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Sovellettu todennäköisyyslasku A. Otos- ja otosjakaumat Estimointi Estimointimenetelmät Väliestimointi. Avainsanat:

Mat Sovellettu todennäköisyyslaskenta B 9. harjoitukset / Ratkaisut Aiheet: Estimointi Estimointimenetelmät Väliestimointi Avainsanat:

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. (Jatkoa Harjoitus 5A tehtävään 4). Monisteen esimerkin mukaan momenttimenetelmän. n ne(y i Y (n) ) = 2E(Y 1 Y (n) ).

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Tilastollisen analyysin perusteet, kevät 2007

Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille: Esitiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen päättely II, kevät 2017 Harjoitus 3B

Mat Sovellettu todennäköisyyslasku 9. harjoitukset/ratkaisut. Luottamusvälit

Johda jakauman momenttiemäfunktio ja sen avulla jakauman odotusarvo ja varianssi.

= true C = true) θ i2. = true C = false) Näiden arvot löydetään kuten edellä Kun verkko on opetettu, niin havainto [x 1

Tilastollinen päättömyys, kevät 2017 Harjoitus 5b

2-suuntainen vaihtoehtoinen hypoteesi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

S Laskennallinen systeemibiologia

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Osa 2: Otokset, otosjakaumat ja estimointi

2-suuntainen vaihtoehtoinen hypoteesi

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 2

Tilastollinen aineisto Luottamusväli

((12345A, 5, 1, 5), (98759K, 1, 5, 2), (33312K, 4, 4, 3), (23453B, 4, 4, 3), (21453U, 3, 3, 3)),

Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia: Mitä opimme?

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

Tilastollinen päättömyys, kevät 2017 Harjoitus 6A

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2018 Harjoitus 3 Ratkaisuehdotuksia.

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Tilastollisen analyysin perusteet, kevät 2007

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

Johdatus todennäköisyyslaskentaan Konvergenssikäsitteet ja raja-arvolauseet. TKK (c) Ilkka Mellin (2004) 1

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Todennäköisyyden ominaisuuksia

Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Konvergenssikäsitteet ja raja arvolauseet

Tilastolliset menetelmät

EX1 EX 2 EX =

Väliestimointi (jatkoa) Heliövaara 1

tilastotieteen kertaus

Mat Sovellettu todennäköisyyslaskenta B 5. harjoitukset / Ratkaisut Aiheet: Jatkuvia jakaumia Avainsanat: Jatkuvia jakaumia

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Parametrien oppiminen

4. Todennäköisyyslaskennan kertausta

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

5. Väliestimoi tehtävän 3 tilanteessa tulppien keskimääräinen kestoa.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

3.6 Su-estimaattorien asymptotiikka

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Stokastiikan perusteet Harjoitukset 1 (Todennäköisyysavaruus, -mitta ja -funktio)

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Harjoitukset 1 : Tilastokertaus

9. laskuharjoituskierros, vko 12-13, ratkaisut

Otantajakauma. Otantajakauman käyttö päättelyssä. Otantajakauman käyttö päättelyssä

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

1. Tilastollinen malli??

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

= E(Y 2 ) 1 n. = var(y 2 ) = E(Y 4 ) (E(Y 2 )) 2. Materiaalin esimerkin b) nojalla log-uskottavuusfunktio on l(θ; y) = n(y θ)2

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Sisältö. Kvantitatiivinen metodologia verkossa. Monitasomallintaminen. Monitasomallit. Regressiomalli dummy-muuttujilla.

Otantajakauman käyttö päättelyssä

Yhden selittäjän lineaarinen regressiomalli

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastolliset menetelmät: Tilastolliset testit

Todennäköisyys, että yhden minuutin aikana saapuu 2 4 autoa.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

11 Raja-arvolauseita ja approksimaatioita

Tilastolliset menetelmät: Tilastolliset testit

Maximum likelihood-estimointi Alkeet

Algebra I Matematiikan ja tilastotieteen laitos Ratkaisuehdotuksia harjoituksiin 5 (6 sivua)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

2.1. Parametrien estimointi 2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista

Transkriptio:

MS-A0501 Todeäköisyyslaskea ja tilastotietee peruskurssi 4A Satuaisotata ja parametrie estimoiti Lasse Leskelä Matematiika ja systeemiaalyysi laitos Perustieteide korkeakoulu Aalto-yliopisto Syksy 2016, periodi I

Sisältö Satuaisotata Parametriset tilastolliset jakaumat Suurimma uskottavuude estimaattorit Estimaattorie omiaisuuksia

Tilastokokee stokastie malli Satuaisotata Tutkittava suuree arvo havaitaa satuaisesti valitussa alkio osajoukossa. Halutaa päätellä (=arvata) tutkittava suuree (tutemato) jakauma f (x) koko populaatiossa. Stokastie malli Tilastokokee tulosta (ee mittauste tekemistä) mallietaa satuaisvektorilla (X 1,..., X ), joka alkiot ovat riippumattomat ja oudattavat (tutematota tai oletettua) jakaumaa f (x). Stokastie malli o tarkka, ku: Havaitut alkiot o valittu tasaise satuaisesti ja riippumattomasti. Havaittuje alkioide lukumäärä o piei suhteessa populaatio kokoo.

Tilastokokee stokastise malli soveltamie Ogelma Otatatutkimuksessa o havaittu arvot (x 1,..., x ). Mite voidaa havaioista päätellä tutkittava suuree (tutemato) jakauma koko populaatiossa? Ratkaisu Tehdää arvaus, että jakauma o f (x). Jos arvaus o (likimai) oikea, ii otaa tulosta voidaa mallitaa satuaisvektorilla (X 1,..., X ), joka alkiot ovat riippumattomat ja oudattavat (likimai) jakaumaa f (x). Stokastiika meetelmillä johdetaa t, että (X 1,..., X ) saa (likimai) arvo (x 1,..., x ). Jos saatu t 0, hylätää arvaus todeäköisi syi.

Datajouko ja stokastise malli tuusluvut Stokastiika meetelmillä johdetaa t, että (X 1,..., X ) saa (likimai) arvo (x 1,..., x ). Lasketaa tuusluku g(x 1,..., x ) datasta Tutkitaa, millä t:llä satuaisluku g(x 1,..., X ) o likimai g(x 1,..., x ) Tuusluku o fuktio g : R R. (Idea: säätö, jolla havaio aieistosta lasketaa yksi luku ) Esim Keskiarvo m(x) = 1 x i Otosvariassi s 2 (x) = 1 1 (x i m(x)) 2

Stokastise malli keskiarvo Hypoteettista jakaumaa f (x) odotusarvoa µ ja keskihajotaa σ vastaava tilastokokee stokastise malli X = (X 1,..., X ) keskiarvo m(x ) = 1 X i o satuaisluku, joka odotusarvo o [ ] 1 E[m(X )] = E X i = 1 E[X i ] = 1 µ = µ ja keskihajota o SD[m(X )] = SD [ 1 ] X i = 1 SD [ X i ] = 1 σ = σ.

Stokastise malli variassi Hypoteettista jakaumaa f (x) odotusarvoa µ ja keskihajotaa σ vastaava tilastokokee stokastise malli X = (X 1,..., X ) variassi σ 2 (X ) = 1 (X i m(x )) 2 o satuaisluku, joka odotusarvoksi saadaa yleiskaavoje 1 (X i m(x )) 2 = 1 X 2 i m(x ) 2 Var[Y ] = E[Y 2 ] (E[Y ]) 2 ja keskiarvo omiaisuuksie E[m(X )] = µ, Var[m(X )] = σ 2 / avulla [ ] E[σ 2 1 (X )] = E Xi 2 m(x ) 2 = E[X1 2 ] E[m(X ) 2 ] = Var[X 1 ] + (E[X 1 ]) 2 Var[m(X )] (E[m(X )]) 2 = σ 2 + µ 2 σ 2 / µ 2 = (1 1/)σ 2. Suurille : arvoilla siis stokastise malli tuottamasta satuaisvektorista X = (X 1,..., X ) laskettu variassi σ 2 (X ) o siis odotusarvoltaa lähellä hypoteettise jakauma f (x) variassiparametria: E[σ 2 (X )] = (1 1/)σ 2 σ 2.

Stokastise malli otosvariassi Puoltamato hypoteettise jakauma variassi estimaattori saadaa kertomalla variassi s 2 (X ) vakiolla /( 1): s 2 (X ) = 1 σ2 (X ) = 1 1 (X i m(x )) 2 Ylläoleva satuaisluku o stokastise malli otosvariassi. Hypoteettise jakauma f (x) pohjalta muodostetu stokastise malli X = (X 1,..., X ) otosvariassi o siis odotusarvoltaa E[s 2 (X )] = E [ ] 1 σ2 (X ) = 1 (1 1/)σ2 = σ 2 Tulkita: Jos otokse satuaisotata toistettaisii riippumattomasti suuri määrä kertoja ja havaituista otosvariasseista laskettaisii keskiarvo, olisi kyseie keskiarvo suurte lukuje lai mukaa hyvi lähellä koko populaatio variassia σ 2.

Datajouko ja stokastise malli keskiarvot Havaiot (x 1,..., x ) Stokastie malli (X 1,..., X ) m(x) = 1 x i m(x ) = 1 X i E(m(x)) = m(x) SD(m(x)) = 0 E(m(X )) = x f (x)dx = µ SD(m(X )) = 1 σ = 1 Yllä µ ja σ ovat hypoteettise jakauma f (x) odotusarvo ja keskihajota (jotka lasketaa matemaattisesti, datasta riippumatta). Stokastise malli keskiarvo m(x ) o satuaisluku, joka odotusarvo o µ ja keskihajota σ/. (x µ) 2 f (x)dx

Datajouko ja stokastise malli otosvariassit Havaittu data (x 1,..., x ) s 2 (x) = 1 1 (x i m(x)) 2 E(s 2 (x)) = s 2 (x) SD(s 2 (x)) = 0 Stokastie malli (X 1,..., X ) s 2 (X ) = 1 1 E(s 2 (X )) = σ 2 = (X i m(x )) 2 SD(s 2 (X )) = (x µ) 2 f (x)dx. Huom Stokastise malli otosvariassi s 2 (X ) o satuaisluku, joka odotusarvo o hypoteettise jakauma variassi σ 2.

Sisältö Satuaisotata Parametriset tilastolliset jakaumat Suurimma uskottavuude estimaattorit Estimaattorie omiaisuuksia

Tutemattoma jakauma parametrit Tarkastellaa tutematota datalähdettä, joka tutkittava suuree jakauma o f (x). Oletetaa, että jakauma f (x) = f θ (x) muoto tuetaa mutta se parametreja θ = (θ 1, θ 2,... ) ei. Beroullijakauma: f p (0) = 1 p, f p (1) = p; θ = p. Ekspoettijakauma: f λ (x) = λe λx ; θ = λ. Väli [a, b] tasajakauma: f (a,b) (x) = 1 b a ; θ = (a, b). Normaalijakauma: f (µ,σ 2 )(x) = 1 (x µ)2 e 2σ 2 ; θ = (µ, σ 2 ). 2πσ 2 Ku datalähteestä o saatu havaitoa x 1,..., x, voidaako äide pohjalta päätellä parametrie θ oikeat arvot? Ku yritetää arvata parametri θ i arvo; mikä o paras arvaus?

Parametrie estimoiti Tarkastellaa tutematota datalähdettä, joka tutkittava suuree jakauma o f θ (x) o parametreja θ = (θ 1, θ 2,... ) vaille. Datalähteestä o saatu havaiot x 1,..., x. Ku yritetää arvata parametri θ i arvo; mikä o paras arvaus? Parametri θ i : estimaatti o data x = (x 1,..., x ) pohjalta laskettu arvaus ˆθ i = g(x) estimaattori o fuktio (x 1,..., x ) g(x 1,..., x ), joka kuvaa data estimaatiksi Tiety parametri estimaattoriksi ei yleesä ole yksikäsitteistä parasta valitaa. Huom. Estimaattoriksi kutsutaa usei myös satuaislukua g(x ) = g(x 1,..., X ), joka o laskettu tilastokokee stokastise malli X = (X 1,..., X ) pohjalta.

Esimerkki: Biaarise suuree jakauma Ku biaarise suuree (tutemattomat) arvot N alkio populaatiossa ovat y 1,..., y N {0, 1}, ii suuree (tutemato) jakauma populaatiossa oudattaa Ber(p)-jakaumaa { 1 p, k = 0, f p (k) = p, k = 1. Kyseie jakauma o parametria p = #{i N:y i =1} N vaille tuettu. Esim Trumpi kaatus (0 = ei, 1 = kyllä) yhdysvaltalaiste ääioikeutettuje populaatiossa oudattaa Ber(p)-jakaumaa parametria p = Trumpi kaattajie osuus.

Ber(p)-jakauma parametri estimoiti Biaarise suuree jakauma o parametria p vaille tuettu: { 1 p, k = 0, f p (k) = p, k = 1, Mite estimoida p havaitu data x = (x 1,..., x ) pohjalta? Esim Jos Trumpi kaatuskyselyssä saadaa tulokseksi x = (0, 0, 0, 0, 0, 0, 0, 0, 1, 0), tutuisi luotevalta estimoida kaatukseksi ˆp(x) = 10%. Ituitio pohjalta määritellää estimaattori ˆp(x) = {i : x i = 1}.

Esimerkki: Diskreeti tasajakauma parametri Vieraa valla sotilaskoeissa o sarjaumerot 1, 2, 3,..., N. Tiedustelijat ovat havaieet kolme sotilaskoee sarjaumerot x 1 = 63, x 2 = 17, x 3 = 203. Määritä havaitoje x = (x 1, x 2, x 3 ) pohjalta estimaatti sotilaskoeide lukumäärälle N. Tiedustelutietoa tuottava datalähde oudattaa tasajakaumaa f 1,N (k) = { 1 N, k = 1,..., N, 0, muute. Mikä o luoteva estimaattori ˆN(x) parametrille N?

Sisältö Satuaisotata Parametriset tilastolliset jakaumat Suurimma uskottavuude estimaattorit Estimaattorie omiaisuuksia

Uskottavuusfuktio [egl. likelihood fuctio] Datalähtee stokastie malli: X = (X 1,..., X ), joka kompoetit f θ -jakautueet ja toisistaa riippumattomat. Malli eustama todeäköisyys havaita (likimai) arvot x = (x 1,..., x ) o diskreetille jakaumalle P(X 1 = x 1,..., X = x ) = f θ (x 1 ) f θ (x ) ja jatkuvalle jakaumalle P(X 1 = x 1 ± ɛ/2,..., X = x ± ɛ/2) = ɛ f θ (x 1 ) f θ (x ). Uskottavuusfuktio θ f θ (x 1 ) f θ (x ) kertoo f θ -malli eustama todeäköisyyde havaita (likimai) sama data, mitä oikeasti havaittii.

Suurimma uskottavuude estimaatti [egl. maximum likelihood estimate] Uskottavuusfuktio θ f θ (x 1 ) f θ (x ) kertoo f θ -malli eustama todeäköisyyde havaita (likimai) sama data, mitä oikeasti havaittii. Mitä suurempi uskottavuusfuktio arvo o pisteessä θ, se uskottavampaa voidaa pitää oletusta, että havaittu data o peräisi f θ -jakautueesta datalähteestä. Parametri θ suurimma uskottavuude estimaatti ˆθ = ˆθ(x) o parametri arvo, joka maksimoi uskottavuusfuktio.

Ber(p)-jakauma SU-estimoiti Biaarise suuree jakauma o parametria p vaille tuettu: { 1 p, k = 0, f p (k) = p, k = 1, Mite estimoida p havaitu data x = (x 1,..., x ) pohjalta? Fakta Ber(p)-jakauma parametri p suurimma uskottavuude estimaatti datajoukolle x o ykköste osuus havaitussa datassa ˆp(x) = #{i : x i = 1}.

Todistus Malli uskottavuusfuktio datajoukolle x o f p (x 1 ) f p (x ) = (1 p) 1 x i p x i = (1 p) c p c, missä c = x i. Uskottavuude logaritmi ja se derivaatta ovat l(p) = ( c) log(1 p) + c log p, l (p) = ( c) ( 1) 1 p + c 1 p. Logaritmise uskottavuusfuktio derivaatta o olla, ku c 1 p = c p eli p = c. Uskottavuusfuktio maksimoituu pisteessä p = c = #{i :x i =1}.

Normaalijakauma parametrie SU-estimaatit Normaalijakauma tiheysfuktio f (µ,σ 2 )(t) = 1 (t µ)2 e 2σ 2 2πσ 2 o parametreja µ ja σ 2 vaille tuettu. Fakta Normaalijakauma parametrie (µ, σ 2 ) suurimma uskottavuude estimaatit datajoukolle x = (x 1,..., x ) ovat m(x) = 1 x i ja σ 2 (x) = 1 (x i m(x)) 2 eli datajouko x keskiarvo ja variassi.

Sisältö Satuaisotata Parametriset tilastolliset jakaumat Suurimma uskottavuude estimaattorit Estimaattorie omiaisuuksia

Harhato estimaattori [egl. ubiased estimator] Jakauma f θ parametri θ i estimaattori ˆθ i (x) o harhato, jos f θ -jakaumaa vastaavalle stokastiselle mallille X = (X 1,..., X ) pätee E ˆθ i (X ) = θ i. Tulkita: Jos tutemato datalähde todella oudattaa f θ -jakaumaa, ja datalähteestä tehdää riippumatota havaitoa ja lasketaa estimaatti harhattomalla estimaattorilla, ja jos sama toistettaisii mota kertaa, ii toistoje keskiarvo o lähellä oikeaa parametria.

Esimerkki: Ber(p)-jakauma SU-estimaattori Beroullijakauma parametri p suurimma uskottavuude estimaattori o ykköste suhteellie osuus ykköste osuus havaitussa datassa ˆp(x) = #{i : x i = 1}. Ber(p)-jakauma mukaiselle stokastiselle mallille X = (X 1,..., X ) ( ) ( ) #{i : Xi = 1} 1 E[ˆp(X )] = E = E X i = p, jote ˆp(x) o harhato.

Esim: Normaalijakauma odotusarvo SU-estimaattori Normaalijakauma odotusarvoparametri µ suurimma uskottavuude estimaattori o m(x) = 1 x i. Stokastiselle mallille X = (X 1,..., X ) ( ) 1 E[m(X )] = E X i = µ, jote m(x) o harhato.

Esim: Normaalijakauma variassi SU-estimaattori Normaalijakauma variassiparametri σ 2 suurimma uskottavuude estimaattori o σ 2 (x) = 1 (x i m(x)) 2. Stokastiselle mallille X = (X 1,..., X ) ( ) E[σ 2 1 (X )] = E (X i m(x ) 2 = = 1 σ2, jote σ 2 (x) o harhaie. Variassiparametri harhato estimaattori o otosvariassi s 2 (x) = 1 1 (x i m(x)) 2. Suurilla arvoilla äissä ei ole merkitsevää eroa.

Seuraavalla kerralla puhutaa Bayesläisestä tilastollisesta päättelystä...