HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 018 Harjoitus B Ratkaisuehdotuksia Tehtäväsarja I 1 (Monisteen tehtävä 14) Olkoon f Y (y; θ) tilastollinen malli, jonka parametri θ on yksiulotteinen Olkoon φ g(θ) kääntäen yksikäsitteinen parametrimuunnos, jonka käänteismuunnos on θ h(φ) Tarkastellaan uudelleenparametroitua mallia f Y(y; φ) f Y (y; h(φ)) Näytä, että sen havaittu informaatio ja Fisherin informaatio saadaan alkuperäisen mallin informaatioista kaavoilla j ( φ; y) j( θ; y) h ( φ), ι (φ) ι(h(φ)) h (φ) Oletetaan, että malli täyttää kaikki tarpeelliset säännöllisyysehdot ja että parametrimuunnos on riittävän monta kertaa derivoituva (Apu l ( θ; y) 0 ja E θ (l (θ; Y)) 0) Ratkaisu: Uudelleenparametroidun mallin log-uskottavuusfunktio on ja sen derivaatta on l (φ; y) l(θ(φ); y) (l ) (φ; y) l (θ(φ); y)θ (φ) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä (l ) (φ; y) d dφ (l (θ(φ); y)(θ (φ)) l (θ(φ); y)θ (φ) + l (θ(φ); y)θ (φ) SU-estimaattorin invarianssiominaisuuden nojalla ˆθ θ( ˆφ), joten tätä hyödyntäen Siis j ( ˆφ; y) (l ) ( ˆφ; y) l (θ( ˆφ); y)θ ( ˆφ) l (θ( ˆφ); y) θ ( ˆφ) }{{} l (ˆθ;y)0 j ( ˆφ; y) l (θ( ˆφ); y)θ ( ˆφ) l (ˆθ; y)θ ( ˆφ) j(ˆθ; y)θ ( ˆφ) Uudelleenparametroidun mallin Fisherin informaatio on i (φ) E[j (φ; Y)] E[ l (θ(φ); Y)θ (φ) l (θ(φ); Y)θ (φ)] E[ l (θ(φ); Y)]θ (φ) E[l (θ(φ); Y)] θ (φ) }{{} 0 i(θ(φ))θ (φ), missä E[l (θ(φ); Y)] 0 seurasi mallin säännöllisyysoletuksista Henkilö P tuijottaa televisiosta vain kahta kanavaa, kanavia A ja B Satunnaismuuttuja Y i 1{ televisio on kanavalla B hetkellä i } kertoo kanavan ajanhetkellä i 1,, 3, 4, 5, 6, 7 Kanava hetkellä i + 1 riippuu vain siitä, mitä kanavaa henkilö P katsoi hetkellä i (mutta ei aikaisemmista) seuraavasti P(Y i+1 1 Y i 1) α, P(Y i+1 0 Y i 0) β,
missä α (0, 1) ja β (0, 1) Oletetaan, että henkilön P televisio on aluksi (ajanhetkellä i 0) aina kanavalla A Henkilön P kanavasurffauksesta saadaan aineisto y (y 1,, y 7 ) (0, 1, 0, 0, 0, 1, 1) Muodosta aineistoon y liittyvä log-uskottavuusfunktio l(α, β; y) sekä suurimman uskottavuuden estimaatit α ja β Ovatko parametrit α ja β ortogonaaliset? Mitä su-estimaatit kertovat mielestäsi henkilö P:n katselutottumuksista? Ratkaisu: Koska P(Y i+1 1 Y i 1) α ja henkilö katsoo vain kanavia A ja B, niin on oltava P(Y i+1 0 Y i 1) 1 α Vastaavasti koska P(Y i+1 0 Y i 0) β, niin on oltava P(Y i+1 1 Y i 0) 1 β Mallin parametrit ovat α (0, 1) ja β (0, 1), joten parametriavaruus on Ω : (0, 1) (0, 1) Asetelmaan sopivan tilastollisen mallin spesifioi nyt havaintojen y (y 1, y 7 ) yhteispistetodennäköisyysfunktio, joka saadaan kertolaskusäännöllä Koska jokainen havainto riippuu vain edellisestä, mutta ei aiemmista havainnoista, yptnf:ksi saadaan f Y (y; α, β) f Y1 Y 0 (y 1 y 0 )f Y Y 1 (y y 1 ) f Y7 Y 6 (y 7 y 6 ) missä y i 0, 1 P(Y 1 y 1 Y 0 y 0 )P(Y y Y 1 y 1 ) P(Y 7 y 7 Y 6 y 6 ) Havaitaan aineisto y (0, 1, 0, 0, 0, 1, 1) ja tiedetään, että y 0 0, jolloin yptnf on f Y (y; α, β) P(Y 1 0 Y 0 0)P(Y 1 Y 1 0)P(Y 3 0 Y 0) P(Y 7 1 Y 6 1) β(1 β)(1 α)ββ(1 β)α α(1 α)β 3 (1 β) Täten uskottavuusfunktioksi saadaan L(α, β) L(α, β; y) α(1 α)β 3 (1 β), jolloin log-uskottavuusfunktioksi saadaan l(α, β) l(α, β; y) log L(α, β) log(α) + log(1 α) + 3 log β + log(1 β) Logaritmisen uskottavuusfunktion osittaisderivaatta α:n suhteen on α l(α, β) 1 α 1 1 α, mistä nähdään, että derivaatan nollakohta on α 1 ja kaikilla tätä pienemmillä α:n arvoilla derivaatta on positiivinen ja suuremmilla α:n arvoilla negatiivinen Näin ollen jos β (0, 1) on kiinnitetty, niin uskottavuusfunktio maksimoituu α:n arvolla α 1 Täten parametrivektorin (α, β) su-estimaatti on ( 1, β) jollakin β (0, 1) Logaritmisen uskottavuusfunktion osittaisderivaatta β :n suhteen on β l(α, β) 3 β 1 β, mistä nähdään, että derivaatan nollakohta on β 3 ja kaikilla tätä pienemmillä β :n 5 arvoilla derivaatta on positiivinen ja suuremmilla β :n arvoilla negatiivinen Täten uskottavuusfunktio maksimoituu β :n arvolla β 3, kun α on kiinnitetty 5
Parametrivektorin (α, β) su-estimaatiksi saadaan siten Koska E [ l(α, β; Y) α β (ˆα, ˆβ) ] E ( 1, 3 5) [ l(α, β; Y) β α eli toisin sanoen Fisherin informaatiomatriisi on diagonaalimatriisi, niin parametrit α ja β ovat ortogonaaliset Parametrit α ja β kertovat henkilön P siirtymätodennäköisyyksistä kanavalta toiselle Saatu su-estimaatti ˆα 1 tarkoittaa karkeasti tulkittuna sitä, että jos henkilö katsoo kanavaa B, niin on yhtä todennäköistä, että hän seuraavana ajanhetkenä on siirtynyt katsomaan kanavaa A kuin että hän jäisi katsomaan kanavaa B Saatu su-estimaatti ˆβ 3 puolestaan tarkoittaa karkeasti tulkittuna sitä, että jos 5 henkilö katsoo kanavaa A, niin on jonkin verran todennäköisempää, että hän seuraavana ajanhetkenä katsoo yhä kanavaa A kuin että hän olisi siirtynyt kanavalle B 3 Tarkastellaan Poisson-regressiomallia: Y 1,, Y n ja Y i Poi(βx i ), jossa β > 0 on positiivinen parametri ja x 1,, x n > 0 ovat tunnettuja lukuja (selittävän muuttujan arvoja) Muodosta log-uskottavuusfunktio ja johda parametrin β suurimman uskottavuuden estimaattorille lauseke β Y i x i ] 0, Osoita, että β on harhaton Tässä Y i voisi olla esimerkiksi liikenneonnettomuuteen vuoden aikana joutuneiden ihmisten lukumäärä (suomalaisessa) kunnassa, jonka väkiluku on x i Mikä olisi parametrin β tulkinta tällöin? Ratkaisu: Koska havainnot ovat riippumattomia, niin tilastollisen mallin lauseke eli havaintojen yhteispistetodennäköisyysfunktio saadaan yksittäisten havaintojen pistetodennäköisyysfunktioiden tulona f Y (y; β) f Yi (y i ; β) βx y i i e βx i y i! n βx y i i e β n n y i! x i, y i 0, 1,, Pelkästään aineistosta riippuvat tekijät voidaan kertoa pois uskottavuusfunktion lausekkeesta, joten (eräs) aineistoa vastaava uskottavuusfunktio on L(β; y) Logaritminen uskottavuusfunktio on siten βx y i i e β n x i l(β; y) log(βx y i i ) β x i (y i (log β + log x i )) β x i
ja sen derivaatta on l y i (β; y) x i β Etsitään log-uskottavuusfunktion derivaatan nollakohta: l (β; y) 0 y i x i 0 β y i x i β y i β x i Tämä on log-uskottavuusfunktion maksimikohta, sillä log-uskottavuusfunktion toinen derivaatta l y i (β; y) < 0 kaikilla β β Todetaan siis, että parametrin β suurimman uskottavuuden estimaattorille saadaan lauseke ˆβ ˆβ(Y) n Y i x i Estimaattori on harhaton, sillä odotusarvon lineaarisuutta hyödyntäen ( E( ˆβ) n ) Y i E E n Y n i EY n i βx i x n i x n i x n β n x i i x n β i x i Tällaisessa mallissa β voidaan tulkita selittävän muuttujan x vaikutuksena selitettävän muuttujan Y odotusarvoon Liikenneonnettomuusesimerkissä selitetään liikenneonnettomuuteen vuoden aikana joutuneiden ihmisten lukumäärän odotusarvoa kussakin kunnassa ja tämän lukumäärän Y i oletetaan noudattavan Poisson-jakaumaa odotusarvoparametrilla µ i kaikilla i 1,, n Esimerkissä liikenneonnettomuuteen joutuneiden ihmisten lukumäärän odotusarvon oletetaan riippuvan jollakin tavalla kunnan väkiluvusta ja tässä riippuvuus oletetaan lineaariseksi, eli EY i βx i Tämä tuntemattoman parametrin vaikutus oletetaan itse asiassa jokaisessa kunnassa yhtä suureksi Oletetaan, että kunnan asukas joutuu liikenneonnettomuuteen vuoden aikana jollakin (hyvin pienellä) todennäköisyydellä p ja tämä todennäköisyys on kaikille asukkaille kaikissa kunnissa sama Oletetaan lisäksi, että liikenneonnettomuudet tapahtuvat toisistaan riippumatta Jos kunnassa on n i asukasta, niin liikenneonnettomuuteen joutuneiden kuntalaisten lukumäärä (merk Y i ) noudattaa binomijakaumaa parametrein n i ja p, jolloin EY i n i p Toisaalta binomijakaumaa voidaan tällaisissa tapauksissa approksimoida Poisson-jakaumalla, eli nyt olisikin Y i Poi(µ i ), missä µ i n i p Toisaalta taas jos mallinnetaan µ i βx i ja selittäjänä on kunnan väkiluku eli x i n i, niin saadaan β p Tulkinta parametrille β olisi siis liikenneonnettomuuteen joutumisen todennäköisyys(, joka oletetaan jokaisessa kunnassa samaksi) Tätä voi pitää luontevana tulkintana myös β :n SU-estimaatin perusteella, sillä se olisi vuoden aikana onnettomuuksiin joutuneiden osuus kaikista kunnan asukkaista On kenties hyvä huomata, että tällainen Poisson-regressiomalli olisi järjetön, jos jokin selittävän muuttujan arvoista x i saisi olla ei-positiivinen luku tai jos parametriavaruus olisi koko reaaliakseli, sillä tällöin voisi olla µ i βx i 0 Poisson-jakauman odotusarvohan on aina positiivinen
4 Olkoot Y 1,, Y n ja Y i N(βx i, σ 0), jossa x 1,, x n ovat tunnettuja lukuja ja σ 0 > 0 on tunnettu Johda parametrin β suurimman uskottavuuden estimaatti β β(y), mallin havaittu informaatio j(β; y) sekä Fisherin informaatio ι(β) Osoita, että parametrin β suurimman uskottavuuden estimaattori β β(y) on parametrin harhaton β estimaattori ja laske sen varianssi Mikä yhteys β :n varianssilla on tämän mallin Fisherin informaatioon ι(β)? Ratkaisu: Koska havainnot ovat riippumattomia, niin tilastollisen mallin lauseke eli havaintojen yhteistiheysfunktio saadaan yksittäisten havaintojen tiheysfunktioiden tulona { 1 f Y (y; β) f Yi (y i ; β) exp (y i βx i ) } πσ0 σ0 { (πσ0) n/ (y i βx i ) } exp, missä parametri β R Koska σ0 ja n ovat tunnettuja lukuja, niistä riippuvat tekijät voidaan kertoa pois uskottavuusfunktion lausekkeesta, jolloin aineistoa vastaava parametrin β uskottavuusfunktio saadaan muotoon { (y i βx i ) } L(β; y) exp Logaritminen uskottavuusfunktio on siten ja sen derivaatta on σ 0 σ 0 (y i βx i ) l(β; y) σ0 l (β; y) n (y i x i ) n β σ0 Etsitään log-uskottavuusfunktion derivaatan nollakohta Nimittäjä σ0 derivaatan nollakohtaan, joten ei vaikuta l (β; y) 0 β (y i x i ) (y i x i ) β Tämä on log-uskottavuusfunktion maksimikohta, sillä log-uskottavuusfunktion toinen derivaatta Todetaan siis, että Mallin havaittu informaatio on l (β; y) n (σ 0) < 0 ˆβ ˆβ(y) (y i x i ) j(β; y) l (β; y) n σ 0 σ 0
ja Fisherin informaatio i(β) E[j(β; Y)] E[ l (β; Y)] σ0 Suurimman uskottavuuden estimaattori ˆβ ˆβ(Y) on harhaton, sillä koska x i :t ovat tunnettuja lukuja, niin odotusarvon lineaarisuutta hyödyntäen ( E( ˆβ) n ) (Y i x i ) n (x i EY i ) n (x i βx i ) E x i x i β n Estimaattorin varianssi on ( var( ˆβ) n ) (Y i x i ) var var( n (Y i x i ) n (var(y ( i x i )) n ) ( n ) (x i var Y i ) n (x ( i σ n 0) ) ( n ) σ 0 ( n ) σ 0, β joka on mallin Fisherin informaation i(β) käänteisluku Estimaattori on siten täystehokas, sillä sen varianssi saavuttaa informaatioepäyhtälön (3 c) antaman alarajan jokaisella β