3 Yleistä estimointiteoriaa Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin
3.1 Johdanto Tähän mennessä olemme tarkastelleet estimointia su-estimoinnin kautta. Tässä luvussa mietimme kysymyksiä: a) Millaisia muita menetelmiä on konstruoida estimaatteja? b) Mitä tarkoittaa, että estimaatti on hyvä? Millä kriteereillä estimaattien hyvyyttä mitataan? Mikä on optimaalinen estimaatti? c) Onko su-menetelmä hyvä tai jopa optimaalinen estimointimenetelmä?
3.2 Harhattomuus Aluksi palautamme mieleen tutun harhattomuuden käsitteen Ensi viikolla tutustumme toisiin toivottaviin estimaattorien ominaisuuksiin: tehokkuuteen ja tarkentuvuuteen Seuraavassa puhumme vain lähinnä estimaattoreista (eli emme turvaudu annettuihin aineistoihin)
3.2.1 Määritelmät Tarkastellaan tilastollista mallia f Y (y; θ), jonka parametriavaruus on Ω R d. Määritelmä Funktion g(θ) estimaattori T = t(y) on harhaton (engl. unbiased), jos on voimassa E θ T = g(θ) kaikilla θ Ω. Muutoin T on harhainen (engl. biased) ja sen harha (engl. bias) on on nollasta eroava jollain θ Ω. b(θ) = E θ T g(θ)
Tärkeä erikoistapaus Kun g(θ) = θ, niin havaitaan, että parametrin θ estimaattori T on siis harhaton jos E θ T = θ jos taas T on harhainen, niin sen harha on tällöin b(θ) = E θ T θ Huom. jos d > 1, on edellä oleva odotusarvo luonnollisesti satunnaisvektorin T odotusarvovektori.
3.2.2 Esimerkki: otoskeskiarvo on harhaton estimaattori Oletetaan, että havaintosatunnaismuuttujilla Y 1,..., Y n on sama odotusarvo EY i = µ. Otoskeskiarvo Y = n 1 Y i on odotusarvon µ harhaton estimaattori. Esimerkiksi, jos Y i noudattaa jotain tutuista jakaumista B(µ), Poi(µ), Exp(1/µ), N(µ, σ 2 ) on otoskeskiarvo harhaton estimaattori Jos Y 1,..., Y n, on Y myös su-estimaattori näissä tapauksissa.
3.2.3 Esimerkki: varianssin harhattomasta estimoinnista palautetaan mieleen su-estimaattori σ 2 normaalimallissa (Y 1,..., Y n N(µ, σ 2 ) ): σ 2 = 1 n n (Y i Y ) 2. i=1 monisteen tehtävässä 3.3. annetaan perustelu otosvarianssin S 2 = 1 n 1 n (Y i Y ) 2 i=1 harhattomuudelle eli ES 2 = σ 2. Tässä tapauksessa su-estimaattori σ 2 on harhainen ja sen harha on b(σ 2 ) = σ2 n
3.2.4 Harhattomuuden merkityksestä ja ongelmista Olemme nähneet että su-estimaattori ja harhaton estimaattori ovat itsenäisiä käsitteitä Perinteisesti harhattomuuden merkitys korostunut - kukapa haluaisi käyttää koejärjestelyä, joka tuottaa keskimäärin vääriä tuloksia :) on kehitetty laaja teoria optimaalisten harhattomien estimaattorien konstruoimiseksi (UMVU -estimaattorit)
3.2.4 Harhattomuuden merkityksestä ja ongelmista harhattomuuden tavoittelussa on myös puutteensa a) harhattomia estimaattoreita ei välttämättä ole lainkaan tai ne ovat muuten ilmeisen epätyydyttäviä b) rikkoo invarianssiperiaatetta, sillä harhattomuus ei ole invariantti (epälineaaristen) parametrimuunnosten suhteen c) ei yhteensopiva uskottavuusperiaatteen kanssa, sillä harhattomuus riippuu vahvasti valitusta mallista
Esimerkki 3.2.5: harhattomuus ja invarianssiperiaate Esimerkissä 1.2.2 johdettiin kestoikiä kuvaava malli Y 1,..., Y n Exp(λ) sen uudelleenparametrointi µ = 1/λ. Esimerkin 2.3.2 (ja harjoitustehtävän) mukaan µ = Y ja λ = 1/Y ovat parametreja µ ja λ vastaavat su-estimaattorit Esimerkin 3.2.2 mukaan µ on myös harhaton estimaattori
Esimerkki 3.2.5: harhattomuus ja invarianssiperiaate Näytetään nyt laskemalla, että λ ei ole harhaton estimaattori (ja jos n = 1 sillä ei ole edes odotusarvoa) TN-laskennasta: S = Y 1 + + Y n Gam(n, λ) eli sen tf tunnetaan Koska λ = n/s, niin E λ voidaan laskea käyttämällä TTL:ää. integrointi saadaan mukavasti integroimalla tilastotieteilijän tapaan (tunnistamalla jakauma Gam(n 1, λ)) harhaksi b(λ) (kun n 2) saamme b(λ) = λ n 1
3.2.6 Esimerkki: geometrinen jakauma ja harhattomuuden hankaluus Tarkastellaan toistokoetta, jossa onnistumistodennäköisyys on θ ja olkoon N sen kokeen järjestysnumero, jolloin ensimmäinen onnistuminen sattuu Tällöin ptnf f (n; θ) = P(N = n) = θ(1 θ) n 1, n = 1, 2,... Oletetaan, että T = T (N) on parametrin θ harhaton estimaattori. Tällöin jokaisella θ (0, 1) on voimassa θ = ET = θ t(n)(1 θ) n 1 n=1
3.2.6 Esimerkki: geometrinen jakauma ja harhattomuuden hankaluus Yhtälöllä θ = θ t(n)(1 θ) n 1 n=1 on vain yksi ratkaisu, joka on voimassa ratkaisu kaikilla θ (0, 1). Tämä on t(n) = 1{ n = 1 }. Havaitsemme, että parametrin θ ainoa harhaton estimaattori { 1 jos N = 1 T = 0 muuten on aika erikoinen.
3.2.6 Esimerkki: harhattomuus ja uskottavuusperiaate Tässä tapauksessa uskottavuusfunktioksi käy L(θ) = θ(1 θ) n 1 Tämä on vanha tuttu uskottavuusfunktio, joten tiedämme että θ = 1/n, ja tätä vastaava estimaattori 1/N on siten harhainen Kuitenkin binomimallissa K Bin(n, θ) kun havaitaan k = 1 (jolloin uskottavuusfunktio on sama kuin yllä) vastaava estimaattori 1/N on harhaton
3.2.7 Asymptoottinen harhattomuus Miten ongelmia voisi kiertää: heikentämällä vaatimuksia. Oletetaan, että T (n) on funktion g(θ) estimaattori, joka perustuu kokoa n olevaan aineistoon (Y 1,..., Y n ). Määritelmä Jos estimaattorin T (n) harha lähestyy nollaa havaintojen lukumäärän n kasvaessa, niin sanotaan, että T (n) on asymptoottisesti harhaton
3.2.7 Asymptoottinen harhattomuus Tarkemmin sanottaisiin jono estimaattoreita T (1), T (2),... on asymptoottisesti harhaton Asymptoottisesti harhattomuus tarkoittaa siis: riittävän suurilla n E θ T (n) g(θ) Esimerkkien 3.2.3 ja 3.2.5 harhaiset estimaattorit σ 2 ja λ ovat asymptoottisesti harhattomia.
3.4 Tehokkuus ja informaatioepäyhtälö Seuraavaksi tarkastelemme kuinka hyviä tai tarkkoja estimaattorimme ovat Tätä varten esittelemme tehokkuuden käsitteen Ja osoitamme keskeisen informaatioepäyhtälön, joka antaa rajan, kuinka tarkkaan voimme ylipäätään estimoida.
3.4.1 Estimaattorin keskineliövirhe Harhaton estimaattori T ei välttämättä ole erityisen tarkka g(θ):n estimaattori Estimaatit voivat olla jopa aina kaukana parametrista Harhattoman estimaattorin hyvyyttä tässä suhteessa voidaankin mitata sen varianssilla var θ T, sillä Tšebyševin ey:n mukaan suurin osa T :n jakaumasta keskittynyt lähelle parametria.
3.4.1 Estimaattorin keskineliövirhe Määritelmä Funktion g(θ) estimaattorin T = t(y) keskineliövirhe on E θ ( (T g(θ) ) 2 ) Huom. Keskineliövirhe voidaan esittää E θ ( (T g(θ) ) 2 ) = var θ T + b(θ) 2. Harhattomalla estimaattorilla keskineliövirhe = varianssi.
3.4.1 Harhattomien estimaattorien tehokkuus Jos T ja T ovat kumpikin estimaattoreita, niin sanomme että T on parempi estimaattori keskineliövirheen mielessä kuin T, jos E θ ( T g(θ) ) 2 Eθ ( T g(θ) ) 2 kaikilla θ Ω. Jos T ja T ovat kumpikin harhattomia estimaattoreita, voidaan yhtäpitävästi kirjoittaa muodossa var θ (T ) var θ (T ) kaikilla θ Ω. Tällöin sanomme, että T on tehokkaampi kuin T.
3.4.2 Esimerkki: normaalimallin odotusarvo Pohditaan odotusarvon µ estimointia mallissa Y 1,..., Y n, Y i N(µ, σ0 2) jossa σ2 0 on tunnettu luku Tiedämme µ = Y on harhaton Muita harhattomia estimaattoreita S = Y 1 ja T = 1 2 (Y 1 + Y 2 ) Estimaattorien varianssit ovat: σ 2 0 /n, σ2 0 ja σ2 0 /2 Siispä: su-estimaattori µ on tehokkain (jos n > 2).
3.4.3 Informaatioepäyhtälö tapauksessa d = 1 Keskeinen kysymys: onko olemassa estimaattoreita, joiden keskineliövirhe on mielivaltaisen pieni? Informaatioepäyhtälö vastaa tähän kysymykseen säännöllisille malleille: EI!. Mallin Fisherin informaatio antaa alarajan tälle virheelle! Normaalimalliesimerkin σ 2 0 /n on keskineliövirheen mielessä paras mahdollinen
3.4.3 Informaatioepäyhtälö tapauksessa d = 1 Lause Seuraavassa tarkastellaan säännöllistä tilastollista mallia f Y (y; θ), kun Ω R ja ι(θ) on mallin Fisherin informaatio Olkoon T = T (Y) jokin parametrin g(θ) estimaattori ja olkoon b(θ) estimaattorin harha. Tällöin var θ T ( g (θ) + b (θ) ) 2 ι(θ) (3.2a)
3.4.3 Informaatioepäyhtälö tapauksessa d = 1 Jos edellisessä lausessa T on lisäksi harhaton, niin var θ T ( g (θ) ) 2 ι(θ) (3.2b) Erityisesti jos T on parametrin θ harhaton estimaattori, niin var θ T 1 ι(θ) (3.2c)
3.4.3 Informaatioepäyhtälön todistus Olkoon U = T = t(y) ja V = l (θ; Y) eli U on tarkasteltava estimaattori ja V pistemäärä. Cauchyn Schwarzin ey kertoo: (cov(u, V )) 2 var U var V Apulause (ja mallin säännöllisyys) kertoo mikä on pistemäärän varianssi: (cov(u, V )) 2 ι(θ) var θ T Jakamalla Fisherin informaatiolla havaitsemme, että väite seuraa, kunhan laskemalla näytämme, että cov(u, V ) = g (θ) + b (θ) = θ E θt
3.4.3 Informaatioepäyhtälön ja Fisherin informaation merkitys Esitetty lause on voimakas tulos, ja samalla se ilmaisee Fisherin informaation syvällisen merkityksen piste-estimoinnin teoriassa. Mitä vähemmän informaatiota on, sitä vaikeampaa parametrin estimointi on (ainakin kun malli on säännöllinen). Epäyhtälöitä (3.2) kutsutaan informaatioepäyhtälöiksi, vanhemmassa kirjallisuudessa usein Cramérin-Raon -epäyhtälöiksi. Tärkein ja samalla helpoin muistaa on epäyhtälö (3.2c).
3.4.3 Harhattomien estimaattorien tehokkuus Määritelmä Harhattoman estimaattorin T tehokkuus on prosenttilukuna T :n tehokkuus = ( g (θ) ) 2 ι(θ) var θ (T ) 100% Jos var θ (T ) on sama kuin informaatioepäyhtälön raja g (θ) 2 / ι(θ), niin estimaattoria kutsutaan täystehokkaaksi. Huom. Jos T on täystehokas ja malli on säännöllinen, niin T on paras harhaton estimaattori.
3.4.4 Esimerkki: normaalimallin odotusarvo Esimerkissä 3.4.3: Y 1,..., Y n, Y i N(µ, σ 2 0 ) jossa σ2 0 on tunnettu luku: Päättelimme µ = Y on harhaton ja var θ µ = n 1 σ 2 0 = 1/ ι(µ) Siispä: su-estimaattori µ on täystehokas ja paras harhaton estimaattori
3.4.5 Esimerkki: eksponenttimalli Tarkastellaan mallia Y 1,..., Y n Exp(λ) estimoidaan odotusarvoa µ = 1/λ = g(λ). Su-estimaattori on µ = Y on harhaton (Esimerkit 3.2.2 ja 3.2.5). Monisteen tehtävä 2.11: ι(λ) = n λ 2 Estimaattorin µ tehokkuus on siten: ( g (λ) ) 2 ι(λ) var( µ) 100% = (λ 2 ) 2 100% = 100% n 1 λ 2 nλ 2 Siispä: µ on täystehokas
3.4.6 Informaatioepäyhtälö tapauksessa d > 1 Tarkastellaan nyt mallia f Y (y; θ), jonka parametri on vektori θ = (θ 1,..., θ d ). Oletetaan, että estimoitavana on jokin reaaliarvoinen funktio g(θ) parametrista θ Suurin ero tapaukseen d = 1 on siinä, että nyt Fisherin informaatio ι(θ) on d d-matriisi
3.4.6 Informaatioepäyhtälö tapauksessa d > 1 kun Fisherin informaatio on i 1,1 (θ) ι(θ) =. i d,1 (θ)... i 1,d (θ)....... i d,d (θ) sen käänteismatriisia ι 1 (θ) = ( ι(θ)) 1 voimme merkitä yläindekseillä i 1,1 (θ)... i 1,d (θ) ι 1 (θ) =..... i d,1 (θ)... i d,d (θ)
3.4.6 Informaatioepäyhtälö tapauksessa d > 1 Lause Seuraavassa tarkastellaan säännöllistä tilastollista mallia f Y (y; θ), kun Ω R d ja ι(θ) on mallin Fisherin informaatio Oletamme myös että g(θ) on reaaliarvoinen Olkoon T = t(y) jokin parametrin g(θ) estimaattori ja olkoon b(θ) estimaattorin harha. Tällöin var θ T ( g(θ) + b(θ)) ι 1 (θ)( g(θ) + b(θ)) (3.3a)
3.4.6 Informaatioepäyhtälö tapauksessa d > 1 Jos edellisessä lausessa T on lisäksi harhaton, niin var θ T ( g(θ)) ι 1 (θ)( g(θ)) (3.3b) Erityisesti jos T on parametrin θ a harhaton estimaattori, niin var θ T ι a,a (θ) (3.3c)
3.4.6 Informaatioepäyhtälö tapauksessa d > 1 Huom. Voisimme osoittaa, että ι a,a (θ) 1/ ι a,a (θ) ja yhtäsuuruus vain kun θ a on ortogonaalinen loppujen komponenttien kanssa Tämän voi ymmärtää seuraavasti: epävarmuus estimoinnissa kasvaa, kun estimoitavia parametrejä on enemmän ellei ne ole ortogonaalisia tarkasteltavan parametrin kanssa.
3.4.7 Esimerkki: normaalimalli Esimerkissä 2.6.3. laskimme normaalimallissa Y 1,..., Y n N(µ, σ 2 ) Fisherin informaation Fisherin informaatioksi saimme ( ) ι(µ, σ 2 n/σ 2 0 ) = 0 n/2σ 4 Fisherin informaation käänteismatriisi on siis ( ι 1 (µ, σ 2 σ ) = 2 ) /n 0 0 2σ 4 /n
3.4.7 Esimerkki: normaalimalli Informaatioepäyhtälön nojalla: jokaisen harhattoman µ:n estimaattorin varianssi σ 2 /n. (tiedämme jo, että otoskeskiarvo Y on täystehokas) Informaatioepäyhtälön nojalla: jokaisen harhattoman σ 2 :n estimaattorin varianssi 2σ 4 /n. otosvarianssi S 2 = (n 1) 1 i (Y i Y ) 2 on harhaton ja sen varianssi on var(s 2 ) = 2σ4 n 1 > 2σ4 n
3.4.7 Esimerkki: normaalimalli otosvarianssi tehokkuus on: 2σ 4 n n 1 2σ 4 100% = n 1 100% n eli otosvarianssi ei ole täystehokas Voisimme kuitenkin osoittaa, että S 2 paras harhaton estimaattori varianssille σ 2!
3.4.8 Informaatioepäyhtälö ja matriisien suuruusjärjestys Oletetaan yksinkertaisuuden vuoksi, että T on parametrin θ harhaton estimaattori Informaatioepäyhtälö voidaan tapauksessa d = 1 kirjoittaa tällöin muodossa var θ T ι 1 (θ) Kun d > 1 on varianssin luonnollinen yleistys kovarianssimatriisi ja informaatioepäyhtälön voi myös tällöin kirjoittaa muodossa Cov θ (T) ι 1 (θ) kunhan suuruusjärjestys matriiseille ymmärretään sopivasti positiivisen semidefiniittisyyden avulla
3.4.8 Informaatioepäyhtälö ja matriisien suuruusjärjestys Voisimme sopia, että matriiseille suuruusjärjestys tarkoittaa A B tarkoittaa A B 0 tarkoittaa A B on pos. semidefiniitti Tämä havaitaan tarkastelemalla reaalisen parametrin a θ harhattomia estimaattoreita a T, kun a R d on jokin vakiovektori Informaatioepäyhtälö kertoo näille estimaattoreille, että a (Cov θ (T) ι 1 (θ))a 0
3.5 Tarkentuvuus Seuraavaksi puhutaan estimaattorien asymptoottisista ominaisuuksista Sana asymptotiikka viittaa siihen, miten estimaattori tai jokin muu tilastollinen menetelmä käyttäytyy, kun havaintojen lukumäärä kasvaa rajatta. Käytännön tapa ajatella: estimaattorin (tai vastaavan) likimääräinen käytös, kun havaintoja on riittävän paljon
3.5.1 Tarkentuvuuden määritelmä Tarkastellaan mallia f Y (y; θ), ja Ω R d. Oletetaan, että T (n) on funktion g(θ) estimaattori, joka perustuu kokoa n olevaan aineistoon (Y 1,..., Y n ). Määritelmä Jos estimaattori T (n) suppenee stokastisesti kohti estimoitavaa parametria g(θ), niin sanotaan, että T (n) on tarkentuva.
3.5.1 Tarkentuvuuden määritelmä Tarkemmin tietty sanottaisiin, että jono estimaattoreita T (1), T (2),... on tarkentuva Stokastinen suppeneminenhan tarkoitti: jokaisella ε > 0 pätee: lim P( n T(n) g(θ) > ε) = 0 Merkitsemme tätä T (n) p g(θ)
3.5.1 Heikko suurten lukujen laki Tarkentuvuus kuvaa todennäköisyysmassan keskittymistä parametrin ympärille Taustalla yleensä jokin suurten lukujen laki, kuten HSSL Lause (Heikko suurten lukujen laki) Olkoon X 1, X 2,... jono riippumattomia sm:ia, joilla on sama odotusarvo µ = EX i ja varianssi σ 2 = var X i <. Tällöin otoskeskiarvojen muodostama jono suppeneminee stokastisesti kohti odotusarvoa, eli 1 n p X i µ n i=1
3.5.2 Esimerkki: otoskeskiarvo on tarkentuva Oletetaan, että havaintosatunnaismuuttujilla Y 1,..., Y n on sama odotusarvo EY i = µ ja sama varianssi var Y i = σ 2. Tiedämme, että otoskeskiarvo Y = n 1 Y i on odotusarvon µ harhaton estimaattori ja lisäksi usein su-estimaattori. HSSL sanoo suoraan, että otoskeskiarvo on tarkentuva.
3.5.3 Riittävä ehto tarkentuvuudelle Markovin ey antaa mukavan riittävän ehdon tarkentuvuudelle. Lause Oletetaan, että g(θ):n estimaattorille T (n) pätee a) T (n) on asymptoottisesti harhaton ja b) var T (n) 0. Tällöin T (n) on tarkentuva. Todistus. Liitutaululla.
3.5.4 Esimerkki: normaalimallin varianssi oletamme jälleen Y 1,..., Y n N(µ, σ 2 ) otosvarianssi S 2 = 1 n 1 n (Y i Y ) 2 i=1 on esimerkin 3.4.7. mukaan S 2 on harhaton ja sen var(s 2 ) = 2σ4 n 1 edellä olevan lauseen nojalla voimme todeta, että S 2 on tarkentuva myös su-estimaattori σ 2 = 1 n n (Y i Y ) 2 i=1 on tarkentuva.