Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1

Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2006) 2

Todennäköisyysjakaumat tilastollisten aineistojen kuvaajina Tilastollinen aineisto koostuu tutkimuksen kohteita kuvaavien muuttujien havaituista arvoista. Tilastollisissa tutkimusasetelmissa havaintoarvoihin liittyy aina epävarmuutta ja satunnaisuutta. Tilastollisissa tutkimusasetelmissa tutkimuksen kohteita kuvaavat muuttujat tulkitaan satunnaismuuttujiksi, jotka generoivat muuttujien havaitut arvot. Havaintoarvot generoineiden satunnaismuuttujien todennäköisyysjakauma muodostaa tilastollisen mallin sille satunnaisilmiölle, jota havainnot koskevat. TKK (c) Ilkka Mellin (2006) 3

Todennäköisyysjakaumien parametrit 1/2 Tarkastellaan jotakin tutkimuksen kaikkien mahdollisten kohteiden muodostaman perusjoukon S alkioiden ominaisuutta kuvaavaa satunnaismuuttujaa X. Oletetaan, että satunnaismuuttuja X noudattaa todennäköisyysjakaumaa, jonka pistetodennäköisyys tai tiheysfunktio f(x ; θ) riippuu parametrista θ. Merkintä: X ~ f( x; θ ) TKK (c) Ilkka Mellin (2006) 4

Todennäköisyysjakaumien parametrit 2/2 Satunnaismuuttujan X pistetodennäköisyys tai tiheysfunktio f(x ; θ) kuvaa satunnaismuuttujan X todennäköisyysjakaumaa ja parametri θ kuvaa jotakin jakauman karakteristista ominaisuutta. Koska parametrin θ arvoa ei yleensä tunneta, tilastollisen tutkimuksen tärkeimpiä osatehtäviä on estimoida eli arvioida parametrin θ tuntematon arvo jakaumasta f(x ; θ) poimitun otoksen perusteella. TKK (c) Ilkka Mellin (2006) 5

Yksinkertainen satunnaisotos Olkoon X 1, X 2,, X n (yksinkertainen) satunnaisotos jakaumasta, jonka pistetodennäköisyys tai tiheysfunktio f(x ; θ) riippuu parametrista θ. Tällöin havainnot X 1, X 2,, X n ovat riippumattomia, identtisesti jakautuneita satunnaismuuttujia, joilla on sama pistetodennäköisyys tai tiheysfunktio f(x ; θ): X, X, K, X 1 2 n X ~ f( x; θ), i = 1,2, K, n i TKK (c) Ilkka Mellin (2006) 6

Havainnot ja havaintoarvot Oletetaan, että satunnaismuuttujat (havainnot) X 1, X 2,, X n saavat poimitussa otoksessa havaituiksi arvoikseen luvut x 1, x 2,, x n Havaintoarvot x 1, x 2,, x n vaihtelevat satunnaisesti otoksesta toiseen jakaumasta f(x ; θ) saatavin todennäköisyyksin. TKK (c) Ilkka Mellin (2006) 7

Estimaattorit ja estimaatit 1/2 Oletetaan, että todennäköisyysjakauman f(x ; θ) parametrin θ estimoimiseen käytetään satunnaismuuttujien X 1, X 2,, X n funktiota eli tunnuslukua T = g(x 1, X 2,, X n ) Tällöin funktiota T = g(x 1, X 2,, X n ) kutsutaan parametrin θ estimaattoriksi ja funktion g havaintoarvoista x 1, x 2,, x n laskettua arvoa t = g(x 1, x 2,, x n ) kutsutaan parametrin θ estimaatiksi. TKK (c) Ilkka Mellin (2006) 8

Estimaattorit ja estimaatit 2/2 Olkoon T = g(x 1, X 2,, X n ) jakauman f(x ; θ) parametrin θ estimaattori. Tällöin estimaattorin T havaintoarvoista x 1, x 2,, x n laskettu arvo eli estimaatti t = g(x 1, x 2,, x n ) on satunnaismuuttujan T arvon realisaatio otoksessa. TKK (c) Ilkka Mellin (2006) 9

Estimaattorit ja estimaatit: Kommentti Todennäköisyysjakauman f(x ; θ) parametrin θ estimaattorilla T = g(x 1, X 2,, X n ) tarkoitetaan siis sellaista jakaumaa f(x ; θ) noudattavien satunnaismuuttujien X 1, X 2,, X n funktiota, joka generoi muuttujien X 1, X 2,, X n havaittuihin arvoihin x 1, x 2,, x n sovellettuna estimaatteja eli arvioita t = g(x 1, x 2,, x n ) parametrille θ. TKK (c) Ilkka Mellin (2006) 10

Estimaattorin otosjakauma Estimaattorin T = g(x 1, X 2,, X n ) havaintoarvoista x 1, x 2,, x n lasketut arvot eli estimaatit t = g(x 1, x 2,, x n ) vaihtelevat satunnaisesti otoksesta toiseen. Estimaattorin T arvojen satunnaista vaihtelua otoksesta toiseen voidaan kuvata estimaattorin T otosjakaumalla. TKK (c) Ilkka Mellin (2006) 11

Estimaattoreiden johtaminen Hyvien estimaattoreiden johtaminen todennäköisyysjakaumien tuntemattomille parametreille on teoreettisen tilastotieteen keskeisiä ongelmia. Tärkeimmät estimaattoreiden johtamiseen käytettävät menetelmät: Suurimman uskottavuuden menetelmä Momenttimenetelmä Ks. lukua Estimointimenetelmät. TKK (c) Ilkka Mellin (2006) 12

Piste estimointi ja väliestimointi Todennäköisyysjakauman parametrin arvon estimointia kutsutaan usein piste estimoinniksi. Parametrin estimaattiin on aina syytä liittää luottamusväliksi kutsuttu väli, joka sisältää estimoidun parametrin todellisen, mutta tuntemattoman arvon tietyllä, soveltajan valittavissa olevalla todennäköisyydellä. Luottamusvälin määräämistä kutsutaan väliestimoinniksi. Ks. lukua Väliestimointi. TKK (c) Ilkka Mellin (2006) 13

Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi >> Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2006) 14

Hyvän estimaattorin ominaisuudet Hyvä estimaattori Todennäköisyysjakauman parametreille on tavallisesti tarjolla useita vaihtoehtoisia estimaattoreita. Estimaattorin valintaa ohjaavat hyvyyskriteerit, joilla pyritään takamaan se, että valittu estimaattori tuottaa järkeviä arvoja estimoitavalle parametrille. Estimaattoreiden hyvyyskriteereitä: Tyhjentävyys Harhattomuus Tehokkuus Tarkentuvuus TKK (c) Ilkka Mellin (2006) 15

Hyvän estimaattorin ominaisuudet Tyhjentävyys Olkoon θˆ parametrin θ estimaattori Estimaattori θˆ on tyhjentävä parametrille θ, jos se käyttää parametrin arvon estimoimiseen kaiken otoksessa olevan informaation. TKK (c) Ilkka Mellin (2006) 16

Hyvän estimaattorin ominaisuudet Harhattomuus ja harha Olkoon θˆparametrin θ estimaattori. Estimaattori θˆon harhaton parametrille θ, jos sen odotusarvo yhtyy parametrin θ arvoon: E() θˆ= θ Estimaattorin θˆ harha on Bias( θˆ) = θ E( θˆ) Jos estimaattori θˆon harhaton parametrille θ, niin Bias( θ ˆ) = 0 TKK (c) Ilkka Mellin (2006) 17

Hyvän estimaattorin ominaisuudet Estimaattorin keskineliövirhe ja tarkkuus Parametrin θ estimaattorin θˆ keskineliövirhe on MSE( θˆ) = E ( θˆ θ) = Var( θˆ) + Bias( θˆ) Jos θˆon parametrin θ harhaton estimaattori eli Bias( θˆ) = θ E( θˆ) = 0 niin MSE( θˆ) = Var( θˆ) 2 Estimaattoria sanotaan tarkaksi, jos se on harhaton ja sen varianssi on pieni. 2 TKK (c) Ilkka Mellin (2006) 18

Hyvän estimaattorin ominaisuudet Tehokkuus Olkoot θˆ 1 ja θ2ˆ kaksi parametrin θ estimaattoria. Estimaattori θˆ 1 on tehokkaampi kuin estimaattori θ2ˆ, jos Var( θˆ 1) < Var( θˆ 2) Parametrin θ estimaattori θˆ täystehokas, jos sen varianssi on pienempi kuin minkä tahansa muun parametrin θ estimaattorin. TKK (c) Ilkka Mellin (2006) 19

Hyvän estimaattorin ominaisuudet Tarkentuvuus Olkoon θˆ parametrin θ estimaattori. Estimaattori θˆ on θ tarkentuva parametrille θ, jos se konvergoi melkein varmasti kohti parametrin oikeata arvoa, kun otoskoon n annetaan kasvaa rajatta: Pr(T n θ) = 1, kun n + Ks. monisteen Todennäköisyyslaskenta lukua Stokastiikan konvergenssikäsitteet ja raja arvolauseet. TKK (c) Ilkka Mellin (2006) 20