MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Samankaltaiset tiedostot
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen aineisto Luottamusväli

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Osa 2: Otokset, otosjakaumat ja estimointi

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

tilastotieteen kertaus

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

9. laskuharjoituskierros, vko 12-13, ratkaisut

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Maximum likelihood-estimointi Alkeet

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

Sovellettu todennäköisyyslaskenta B

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Harjoitus 2: Matlab - Statistical Toolbox

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

1. Valitaan tilanteeseen sopiva stokastinen malli. 2. Sovitetaan malli havaittuun dataan (estimoidaan mallin parametrit).

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

2. Uskottavuus ja informaatio

Parametrin estimointi ja bootstrap-otanta

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Teema 8: Parametrien estimointi ja luottamusvälit

Tilastollisia peruskäsitteitä ja Monte Carlo

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Todennäköisyyden ominaisuuksia

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Väliestimointi (jatkoa) Heliövaara 1

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mallipohjainen klusterointi

1. Tilastollinen malli??

Sovellettu todennäköisyyslaskenta B

Tutkimustiedonhallinnan peruskurssi

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

031021P Tilastomatematiikka (5 op) viikko 4

Bayesläiset tilastolliset mallit

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Sovellettu todennäköisyyslaskenta B

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

805306A Johdatus monimuuttujamenetelmiin, 5 op

dx=5&uilang=fi&lang=fi&lvv=2014

11 Raja-arvolauseita ja approksimaatioita

Testit laatueroasteikollisille muuttujille

2. Uskottavuus ja informaatio

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

3.6 Su-estimaattorien asymptotiikka

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

5.7 Uskottavuusfunktioon perustuvia testejä II

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

031021P Tilastomatematiikka (5 op) viikko 3

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Luottamusvälit. Normaalijakauma johnkin kohtaan

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Satunnaismuuttujien summa ja keskiarvo

11.1 Nollahypoteesi, vastahypoteesi ja poikkeavat havainnot

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Transkriptio:

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi II

Sisältö Tilastollinen päättely Parametriset tilastolliset jakaumat Suurimman uskottavuuden estimaattorit Estimaattorien ominaisuuksia

Tilastollinen päättely Tavoitteena tehdä päätelmiä havaitun datan pohjalta. 1. Valitaan tilanteeseen sopiva stokastinen malli 2. Sovitetaan malli havaittuun dataan (estimoidaan mallin parametrit) 3. Lasketaan sovitetusta mallista tarvittavat tunnusluvut 4. Tehdään johtopäätökset Johtopäätökset ovat yleensä (valistuneita) arvauksia: Mikä on kirahvin todellinen paino, kun kolmen punnituksen tulokset olivat 1250 kg, 1300 kg, 1360 kg? Kannattaako espoolaisten enemmistö Espoon pysymistä itsenäisenä, kun mielipidekyselyssä 509 tuhannesta kannatti itsenäisyyttä? Pysyykö raakaöljyn hinta vuoden loppuun alle 60 USD/barreli?

Sisältö Tilastollinen päättely Parametriset tilastolliset jakaumat Suurimman uskottavuuden estimaattorit Estimaattorien ominaisuuksia

Tuntemattoman jakauman parametrit Tarkastellaan tuntematonta datalähdettä, jonka tutkittavan suureen jakauma f (x) tunnetaan parametreja vaille. Esim. (yksi tuntematon parametri): Bernoullijakauma: f p (0) = 1 p, f p (1) = p Eksponenttijakauma: f λ (x) = λe λx, x > 0 Esim. (2 tuntematonta parametria): Välin [a, b] tasajakauma: f (a,b) (x) = 1 b a Normaalijakauma: f (µ,σ 2 )(x) = 1 (x µ)2 e 2σ 2 2πσ 2 Mikä on havaitun datan x = (x 1,..., x n ) perusteella paras arvaus tuntemattoman parametrin arvoksi?

Parametrien estimointi Tarkastellaan tuntematonta datalähdettä, jonka tutkittavan suureen jakauma on f θ (x), parametri θ tuntematon Datalähteestä on saatu havainnot x 1,..., x n. Parametrin θ: estimaatti on datan x = (x 1,..., x n ) pohjalta laskettu arvaus ˆθ = g(x) estimaattori on funktio (x 1,..., x n ) g(x 1,..., x n ), joka kuvaa datan estimaatiksi Tietyn parametrin estimaattoriksi ei yleensä ole yksikäsitteistä parasta valintaa.

Esimerkki: Viallisten osuus Tuotantolinja tuottaa komponentteja, joista osuus p on viallisia, toisistaan riippumattomasti. Kun tarkastettiin 200 komponettia, havaittiin 22 viallista. Määritä estimaatti tuntemattoman parameterin p arvolle. Intuitiivisesti luonteva estimaatti on ˆp = 22 200 = 11% Onko tämä paras estimaatti? Onko muita luonnollisia vaihtoehtoja?

Esimerkki: Diskreetin tasajakauman parametri Vieraan vallan sotilaskoneissa on sarjanumerot 1, 2, 3,..., N. Tiedustelijat ovat havainneet kolmen sotilaskoneen sarjanumerot x 1 = 63, x 2 = 17, x 3 = 203. Määritä havaintojen x = (x 1, x 2, x 3 ) pohjalta estimaatti sotilaskoneiden lukumäärälle N. Tiedustelutietoa tuottava datalähde noudattaa tasajakaumaa f 1,N (k) = { 1 N, k = 1,..., N, 0, muuten. Mikä on luonteva estimaattori ˆN(x) parametrille N?

Sisältö Tilastollinen päättely Parametriset tilastolliset jakaumat Suurimman uskottavuuden estimaattorit Estimaattorien ominaisuuksia

Uskottavuusfunktio [engl. likelihood function] Datalähteen stokastinen malli: X = (X 1,..., X n ), jonka komponentit f θ -jakautuneet ja toisistaan riippumattomat. Mallin ennustama todennäköisyys havaita (likimain) arvot x = (x 1,..., x n ) on diskreetille jakaumalle P(X 1 = x 1,..., X n = x n ) = f θ (x 1 ) f θ (x n ) ja jatkuvalle jakaumalle P(X 1 = x 1 ± ɛ/2,..., X n = x n ± ɛ/2) = ɛ n f θ (x 1 ) f θ (x n ). Uskottavuusfunktio θ f θ (x 1 ) f θ (x n ) kertoo f θ -mallin ennustaman todennäköisyyden havaita (likimain) sama data, mitä oikeasti havaittiin.

Suurimman uskottavuuden estimaatti [engl. maximum likelihood estimate] Uskottavuusfunktio θ f θ (x 1 ) f θ (x n ) kertoo f θ -mallin ennustaman todennäköisyyden havaita (likimain) sama data, mitä oikeasti havaittiin. Mitä suurempi uskottavuusfunktion arvo on pisteessä θ, sen uskottavampana voidaan pitää oletusta, että havaittu data on peräisin f θ -jakautuneesta datalähteestä. Parametrin θ suurimman uskottavuuden estimaatti ˆθ = ˆθ(x) on parametrin arvo, joka maksimoi uskottavuusfunktion.

Esimerkki: Viallisten osuuden estimointi Tuotantolinja tuottaa komponentteja, joista osuus p on viallisia, toisistaan riippumattomasti. Kun tarkastettiin 200 komponettia, havaittiin 22 viallista. Määritä suurimman uskottavuuden estimaatti tuntemattoman parameterin p arvolle. Kun tarkastetaan n = 200 komponentin erä, noudattaa viallisten komponenttien lukumäärä N jakaumaa ( ) n f (k p) = P(N = k p) = p k (1 p) n k, k = 0, 1,..., 200 k Millä parametrin p arvolla uskottavuusfunktio ( ) 200 f (22 p) = p 22 (1 p) 200 22 22 saavuttaa suurimman arvonsa?

Esimerkki: Viallisten osuuden estimointi f (22 p) = ( ) 200 p 22 (1 p) 178 22 maksimoituu silloin, kun l(p) = log f (22 p) maksimoituu: ( ) 200 l(p) = log f (22 p) = log + 22 log p + 178 log(1 p) 22 l (p) = 22 1 p 178 1 1 p l (p) = 22 1 p 2 178 1 (1 p) 2 0 l(p):n maksimi löytyy derivaatan nollakohdasta: l (p) = 0 22 p = 178 1 p p = 22 200

Binomijakauman tn-parametrin SU-estimointi Fakta Bin(n, p)-jakauman tunteattoman parametrin p suurimman uskottavuuden estimaatti havaitun datapisteen k suhteen on ˆp = k n. Todistus. Toista edellinen laskelma korvaamalla 200 n ja 22 k.

Normaalijakauman parametrien SU-estimaatit Normaalijakauman tiheysfunktio f (µ,σ) (t) = 1 (t µ)2 e 2σ 2 2πσ 2 on parametreja µ ja σ vaille tunnettu. Fakta Normaalijakauman parametrien (µ, σ) suurimman uskottavuuden estimaatit datajoukolle x = (x 1,..., x n ) ovat m(x) = 1 n x i ja σ(x) = 1 n (x i m(x)) n n 2 i=1 eli datajoukon x keskiarvo ja keskihajonta. i=1

Sisältö Tilastollinen päättely Parametriset tilastolliset jakaumat Suurimman uskottavuuden estimaattorit Estimaattorien ominaisuuksia

Harhaton estimaattori [engl. unbiased estimator] Jakauman f θ parametrin θ estimaattori ˆθ(x) on harhaton, jos f θ -jakaumaa vastaavalle stokastiselle mallille X = (X 1,..., X n ) pätee E ˆθ(X ) = θ. Tulkinta: Jos tuntematon datalähde todella noudattaa f θ -jakaumaa, ja datalähteestä tehdään n riippumatonta havaintoa ja lasketaan estimaatti harhattomalla estimaattorilla, ja jos sama toistettaisiin monta kertaa, niin toistojen keskiarvo on lähellä oikeaa parametria.

Esimerkki: Viallisten osuus Kun n on tunnettu, on Bin(n, p)-jakauman tuntemattoman parametrin p suurimman uskottavuuden estimaattori ˆp(k) = k n. Jos N on Bin(n, p)-jakaumaa noudattava satunnaismuuttuja, niin ( ) N E (ˆp(N)) = E = 1 n n E(N) = 1 np = p. n Näin ollen funktio k ˆp(k) on parametrin p harhaton estimaattori.

Esim: Normaalijakauman odotusarvon SU-estimaattori Normaalijakauman odotusarvoparametrin µ suurimman uskottavuuden estimaattori on m(x) = 1 n n x i. i=1 Stokastiselle mallille X = (X 1,..., X n ) ( ) 1 n E[m(X )] = E X i n i=1 = µ, joten funktio x m(x) on parametrin µ harhaton estimaattori.

Esim: Normaalijakauman varianssin SU-estimaattori Normaalijakauman varianssiparametrin σ 2 suurimman uskottavuuden estimaattori on σ 2 (x) = 1 n n (x i m(x)) 2. i=1 Stokastiselle mallille X = (X 1,..., X n ) ( ) E[σ 2 1 n (X )] = E (X i m(x ) 2 n i=1 = = n 1 n σ2, joten σ 2 (x) on harhainen. Varianssiparametrin harhaton estimaattori on otosvarianssi s 2 (x) = 1 n 1 n (x i m(x)) 2. i=1 Suurilla n arvoilla näissä ei ole merkitsevää eroa.

Seuraavalla kerralla puhutaan luottamusväleistä...