3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

3 Yleistä estimointiteoriaa Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

3.1 Johdanto Tähän mennessä olemme tarkastelleet estimointia su-estimoinnin kautta. Tässä luvussa mietimme kysymyksiä: a) Millaisia muita menetelmiä on konstruoida estimaatteja? b) Mitä tarkoittaa, että estimaatti on hyvä? Millä kriteereillä estimaattien hyvyyttä mitataan? Mikä on optimaalinen estimaatti? c) Onko su-menetelmä hyvä tai jopa optimaalinen estimointimenetelmä?

3.2 Harhattomuus Aluksi palautamme mieleen tutun harhattomuuden käsitteen Ensi viikolla tutustumme toisiin toivottaviin estimaattorien ominaisuuksiin: tehokkuuteen ja tarkentuvuuteen Seuraavassa puhumme vain lähinnä estimaattoreista (eli emme turvaudu annettuihin aineistoihin)

3.2.1 Määritelmät Tarkastellaan tilastollista mallia f Y (y; θ), jonka parametriavaruus on Ω R d. Määritelmä Funktion g(θ) estimaattori T = t(y) on harhaton (engl. unbiased), jos on voimassa E θ T = g(θ) kaikilla θ Ω. Muutoin T on harhainen (engl. biased) ja sen harha (engl. bias) on on nollasta eroava jollain θ Ω. b(θ) = E θ T g(θ)

Tärkeä erikoistapaus Kun g(θ) = θ, niin havaitaan, että parametrin θ estimaattori T on siis harhaton jos E θ T = θ jos taas T on harhainen, niin sen harha on tällöin b(θ) = E θ T θ Huom. jos d > 1, on edellä oleva odotusarvo luonnollisesti satunnaisvektorin T odotusarvovektori.

3.2.2 Esimerkki: otoskeskiarvo on harhaton estimaattori Oletetaan, että havaintosatunnaismuuttujilla Y 1,..., Y n on sama odotusarvo EY i = µ. Otoskeskiarvo Y = n 1 Y i on odotusarvon µ harhaton estimaattori. Esimerkiksi, jos Y i noudattaa jotain tutuista jakaumista B(µ), Poi(µ), Exp(1/µ), N(µ, σ 2 ) on otoskeskiarvo harhaton estimaattori Jos Y 1,..., Y n, on Y myös su-estimaattori näissä tapauksissa.

3.2.3 Esimerkki: varianssin harhattomasta estimoinnista palautetaan mieleen su-estimaattori σ 2 normaalimallissa (Y 1,..., Y n N(µ, σ 2 ) ): σ 2 = 1 n n (Y i Y ) 2. i=1 monisteen tehtävässä 3.3. annetaan perustelu otosvarianssin S 2 = 1 n 1 n (Y i Y ) 2 i=1 harhattomuudelle eli ES 2 = σ 2. Tässä tapauksessa su-estimaattori σ 2 on harhainen ja sen harha on b(σ 2 ) = σ2 n

3.2.4 Harhattomuuden merkityksestä ja ongelmista Olemme nähneet että su-estimaattori ja harhaton estimaattori ovat itsenäisiä käsitteitä Perinteisesti harhattomuuden merkitys korostunut - kukapa haluaisi käyttää koejärjestelyä, joka tuottaa keskimäärin vääriä tuloksia :) on kehitetty laaja teoria optimaalisten harhattomien estimaattorien konstruoimiseksi (UMVU -estimaattorit)

3.2.4 Harhattomuuden merkityksestä ja ongelmista harhattomuuden tavoittelussa on myös puutteensa a) harhattomia estimaattoreita ei välttämättä ole lainkaan tai ne ovat muuten ilmeisen epätyydyttäviä b) rikkoo invarianssiperiaatetta, sillä harhattomuus ei ole invariantti (epälineaaristen) parametrimuunnosten suhteen c) ei yhteensopiva uskottavuusperiaatteen kanssa, sillä harhattomuus riippuu vahvasti valitusta mallista

Esimerkki 3.2.5: harhattomuus ja invarianssiperiaate Esimerkissä 1.2.2 johdettiin kestoikiä kuvaava malli Y 1,..., Y n Exp(λ) sen uudelleenparametrointi µ = 1/λ. Esimerkin 2.3.2 (ja harjoitustehtävän) mukaan µ = Y ja λ = 1/Y ovat parametreja µ ja λ vastaavat su-estimaattorit Esimerkin 3.2.2 mukaan µ on myös harhaton estimaattori

Esimerkki 3.2.5: harhattomuus ja invarianssiperiaate Näytetään nyt laskemalla, että λ ei ole harhaton estimaattori (ja jos n = 1 sillä ei ole edes odotusarvoa) TN-laskennasta: S = Y 1 + + Y n Gam(n, λ) eli sen tf tunnetaan Koska λ = n/s, niin E λ voidaan laskea käyttämällä TTL:ää. integrointi saadaan mukavasti integroimalla tilastotieteilijän tapaan (tunnistamalla jakauma Gam(n 1, λ)) harhaksi b(λ) (kun n 2) saamme b(λ) = λ n 1

3.2.6 Esimerkki: geometrinen jakauma ja harhattomuuden hankaluus Tarkastellaan toistokoetta, jossa onnistumistodennäköisyys on θ ja olkoon N sen kokeen järjestysnumero, jolloin ensimmäinen onnistuminen sattuu Tällöin ptnf f (n; θ) = P(N = n) = θ(1 θ) n 1, n = 1, 2,... Oletetaan, että T = T (N) on parametrin θ harhaton estimaattori. Tällöin jokaisella θ (0, 1) on voimassa θ = ET = θ t(n)(1 θ) n 1 n=1

3.2.6 Esimerkki: geometrinen jakauma ja harhattomuuden hankaluus Yhtälöllä θ = θ t(n)(1 θ) n 1 n=1 on vain yksi ratkaisu, joka on voimassa ratkaisu kaikilla θ (0, 1). Tämä on t(n) = 1{ n = 1 }. Havaitsemme, että parametrin θ ainoa harhaton estimaattori { 1 jos N = 1 T = 0 muuten on aika erikoinen.

3.2.6 Esimerkki: harhattomuus ja uskottavuusperiaate Tässä tapauksessa uskottavuusfunktioksi käy L(θ) = θ(1 θ) n 1 Tämä on vanha tuttu uskottavuusfunktio, joten tiedämme että θ = 1/n, ja tätä vastaava estimaattori 1/N on siten harhainen Kuitenkin binomimallissa K Bin(n, θ) kun havaitaan k = 1 (jolloin uskottavuusfunktio on sama kuin yllä) vastaava estimaattori 1/N on harhaton

3.2.7 Asymptoottinen harhattomuus Miten ongelmia voisi kiertää: heikentämällä vaatimuksia. Oletetaan, että T (n) on funktion g(θ) estimaattori, joka perustuu kokoa n olevaan aineistoon (Y 1,..., Y n ). Määritelmä Jos estimaattorin T (n) harha lähestyy nollaa havaintojen lukumäärän n kasvaessa, niin sanotaan, että T (n) on asymptoottisesti harhaton

3.2.7 Asymptoottinen harhattomuus Tarkemmin sanottaisiin jono estimaattoreita T (1), T (2),... on asymptoottisesti harhaton Asymptoottisesti harhattomuus tarkoittaa siis: riittävän suurilla n E θ T (n) g(θ) Esimerkkien 3.2.3 ja 3.2.5 harhaiset estimaattorit σ 2 ja λ ovat asymptoottisesti harhattomia.

3.4 Tehokkuus ja informaatioepäyhtälö Seuraavaksi tarkastelemme kuinka hyviä tai tarkkoja estimaattorimme ovat Tätä varten esittelemme tehokkuuden käsitteen Ja osoitamme keskeisen informaatioepäyhtälön, joka antaa rajan, kuinka tarkkaan voimme ylipäätään estimoida.

3.4.1 Estimaattorin keskineliövirhe Harhaton estimaattori T ei välttämättä ole erityisen tarkka g(θ):n estimaattori Estimaatit voivat olla jopa aina kaukana parametrista Harhattoman estimaattorin hyvyyttä tässä suhteessa voidaankin mitata sen varianssilla var θ T, sillä Tšebyševin ey:n mukaan suurin osa T :n jakaumasta keskittynyt lähelle parametria.

3.4.1 Estimaattorin keskineliövirhe Määritelmä Funktion g(θ) estimaattorin T = t(y) keskineliövirhe on E θ ( (T g(θ) ) 2 ) Huom. Keskineliövirhe voidaan esittää E θ ( (T g(θ) ) 2 ) = var θ T + b(θ) 2. Harhattomalla estimaattorilla keskineliövirhe = varianssi.

3.4.1 Harhattomien estimaattorien tehokkuus Jos T ja T ovat kumpikin estimaattoreita, niin sanomme että T on parempi estimaattori keskineliövirheen mielessä kuin T, jos E θ ( T g(θ) ) 2 Eθ ( T g(θ) ) 2 kaikilla θ Ω. Jos T ja T ovat kumpikin harhattomia estimaattoreita, voidaan yhtäpitävästi kirjoittaa muodossa var θ (T ) var θ (T ) kaikilla θ Ω. Tällöin sanomme, että T on tehokkaampi kuin T.

3.4.2 Esimerkki: normaalimallin odotusarvo Pohditaan odotusarvon µ estimointia mallissa Y 1,..., Y n, Y i N(µ, σ0 2) jossa σ2 0 on tunnettu luku Tiedämme µ = Y on harhaton Muita harhattomia estimaattoreita S = Y 1 ja T = 1 2 (Y 1 + Y 2 ) Estimaattorien varianssit ovat: σ 2 0 /n, σ2 0 ja σ2 0 /2 Siispä: su-estimaattori µ on tehokkain (jos n > 2).

3.4.3 Informaatioepäyhtälö tapauksessa d = 1 Keskeinen kysymys: onko olemassa estimaattoreita, joiden keskineliövirhe on mielivaltaisen pieni? Informaatioepäyhtälö vastaa tähän kysymykseen säännöllisille malleille: EI!. Mallin Fisherin informaatio antaa alarajan tälle virheelle! Normaalimalliesimerkin σ 2 0 /n on keskineliövirheen mielessä paras mahdollinen

3.4.3 Informaatioepäyhtälö tapauksessa d = 1 Lause Seuraavassa tarkastellaan säännöllistä tilastollista mallia f Y (y; θ), kun Ω R ja ι(θ) on mallin Fisherin informaatio Olkoon T = T (Y) jokin parametrin g(θ) estimaattori ja olkoon b(θ) estimaattorin harha. Tällöin var θ T ( g (θ) + b (θ) ) 2 ι(θ) (3.2a)

3.4.3 Informaatioepäyhtälö tapauksessa d = 1 Jos edellisessä lausessa T on lisäksi harhaton, niin var θ T ( g (θ) ) 2 ι(θ) (3.2b) Erityisesti jos T on parametrin θ harhaton estimaattori, niin var θ T 1 ι(θ) (3.2c)

3.4.3 Informaatioepäyhtälön todistus Olkoon U = T = t(y) ja V = l (θ; Y) eli U on tarkasteltava estimaattori ja V pistemäärä. Cauchyn Schwarzin ey kertoo: (cov(u, V )) 2 var U var V Apulause (ja mallin säännöllisyys) kertoo mikä on pistemäärän varianssi: (cov(u, V )) 2 ι(θ) var θ T Jakamalla Fisherin informaatiolla havaitsemme, että väite seuraa, kunhan laskemalla näytämme, että cov(u, V ) = g (θ) + b (θ) = θ E θt

3.4.3 Informaatioepäyhtälön ja Fisherin informaation merkitys Esitetty lause on voimakas tulos, ja samalla se ilmaisee Fisherin informaation syvällisen merkityksen piste-estimoinnin teoriassa. Mitä vähemmän informaatiota on, sitä vaikeampaa parametrin estimointi on (ainakin kun malli on säännöllinen). Epäyhtälöitä (3.2) kutsutaan informaatioepäyhtälöiksi, vanhemmassa kirjallisuudessa usein Cramérin-Raon -epäyhtälöiksi. Tärkein ja samalla helpoin muistaa on epäyhtälö (3.2c).

3.4.3 Harhattomien estimaattorien tehokkuus Määritelmä Harhattoman estimaattorin T tehokkuus on prosenttilukuna T :n tehokkuus = ( g (θ) ) 2 ι(θ) var θ (T ) 100% Jos var θ (T ) on sama kuin informaatioepäyhtälön raja g (θ) 2 / ι(θ), niin estimaattoria kutsutaan täystehokkaaksi. Huom. Jos T on täystehokas ja malli on säännöllinen, niin T on paras harhaton estimaattori.

3.4.4 Esimerkki: normaalimallin odotusarvo Esimerkissä 3.4.3: Y 1,..., Y n, Y i N(µ, σ 2 0 ) jossa σ2 0 on tunnettu luku: Päättelimme µ = Y on harhaton ja var θ µ = n 1 σ 2 0 = 1/ ι(µ) Siispä: su-estimaattori µ on täystehokas ja paras harhaton estimaattori

3.4.5 Esimerkki: eksponenttimalli Tarkastellaan mallia Y 1,..., Y n Exp(λ) estimoidaan odotusarvoa µ = 1/λ = g(λ). Su-estimaattori on µ = Y on harhaton (Esimerkit 3.2.2 ja 3.2.5). Monisteen tehtävä 2.11: ι(λ) = n λ 2 Estimaattorin µ tehokkuus on siten: ( g (λ) ) 2 ι(λ) var( µ) 100% = (λ 2 ) 2 100% = 100% n 1 λ 2 nλ 2 Siispä: µ on täystehokas