HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 14..2017 Ratkaisuehdotuksia 1. Olkoon θ positiivinen parametri, ja asetetaan 2θ 1 y exp y 2 /θ), kun y > 0 fy; θ) = 0, muuten Oletetaan, että Y 1,..., Y n ovat riippumattomia ja noudattavat kukin yllä mainittua jakaumaa. Muodosta tämän mallin uskottavuusfunktio sekä määritä suurimman uskottavuuden estimaatti θ. Ratkaisu: Huomautus! Alla oleva ehdotus on hyvin seikkaperäinen kuvaus jokaisesta askeleesta. En luonnollisestikaan esitä, että tämä olisi mallivastaus vaan ainoastaan vastaus, jossa pyrin kirjoittamaan jokaisen tehtävän kannalta merkityksellisen) kohdan kirjoitettamaan näkyviin. Vaikenen muista kohdista :) Tehtävänä on on siis selvittää a) mallin uskottavuusfunktio Lθ; y) = cy)f Y y; θ) sekä b) suurimman uskottavuuden estimaatti θy) eli su-estimaatin. Jälkimmäinen on uskottavuusfunktion tai log-uskottavuusfunktion lθ; y) maksimikohta, joten tarvitsemme ensin uskottavuusfunktion L ja siten tilastollisen mallin määräävän yhteistiheysfunktion f Y. Voimme lähestyä tehtävää seuraavalla tavalla: c) Määräämme tilastollisen mallin yhteistiheysfunktion f Y d) Määräämme uskottavuusfunktion Lθ; y) e) Määräämme log-uskottavuusfunktion lθ; y) f) Tarkastelemalla derivaattaa l θ; y) ja sen käytöstä etsimme maksimikohdan eli su-estimaatin. Nyt riippumattomuuden ja potenssin laskusääntöjen nojalla n n f Y y; θ) = fy i ; θ) = 2θ 1 y i exp yi 2 /θ)1{ y i > 0 } = 2 n θ n n ) n y i exp yi 2 /θ)1{ y i > 0 kun i = 1,..., n } joten olemme määränneet yhteistiheysfunktion f Y. Erään uskottavuusfunktion saamme tästä jättämällä pelkästään aineistosta riippuvat tekijät sekä myös vakiot) pois, joten päättelemme, että n Lθ; y) = θ n exp yi 2 /θ)1{ y i > 0 kun i = 1,..., n } = θ n exp ty)/θ)1{ y i > 0 kun i = 1,..., n }
kun merkintöjen lyhentämiseksi esittelemme tunnusluvun ty) = i y 2 i. Olemme nyt määränneet pyydetyn mallin uskottavuusfunktion. Koska voimme olettaa vallan hyvin, että aineisto on järkevä, niin voimme ihan hyvillä mielin myös unohtaa aineistosta riippuvan indikaattorifunktion ja vain lyhyesti kirjoittaa uskottavuusfunktion olevan Lθ; y) = θ n exp ty)/θ) Jatkamme kohti su-estimaattia. Jos aineisto y ei ole järkevä eli jollakin i on havainto y i 0), niin su-estimaattia ei ole yksikäsitteisenä olemassa vaan kaikki parametrin arvot ovat yhtä uskottavia. Joten oletamme jatkossa, että aineisto on järkevä eli oletamme y i > 0 jokaisella i, joten indikaattoriosan voi unohtaa myös. Määräämällä log-uskottavuusfunktion lθ; y) ja suoraan laskemalla lθ; y) = log Lθ; y) = n log θ ty)/θ. Nyt voimmekin lähteä hakemaan log-uskottavuusfunktion maksimia ja derivoidaan siksi parametrin θ suhteen l θ) = n/θ + ty)/θ 2. Maksimit ja minimit löydämme etsimällä nollakohdat, eli laskemalla l θ) = n/θ + ty)/θ 2 = 0 nθ + ty) = 0 θ = ty)/n. Löysimme yhden nollakohdan, joka voisi siis olla etsitty log-uskottavuusfunktion maksimikohta. Tämän voimme varmistaa kahdella tapaa: tarkastelemalla derivaatan merkkiä tai toisen derivaatan avulla. Derivaatan merkin tarkastelu hieman yleistää nollakohdan hakemista l θ) 0 n/θ + ty)/θ 2 0 nθ + ty) 0 θ ty)/n. Havaitsemme siis, että log-uskottavuusfunktio l kasvaa, kun θ ty)/n ja vähenee, kun θ ty)/n, joten θ = θy) n = ty)/n = yi 2 /n on haettu su-estimaatti. Olisimme voineet päätellä kohdan ty)/n maksimikohdaksi tarkastelemalla toista derivaatan merkkiä tässä kohdassa. Nyt joten l θ) = n/θ 2 2ty)/θ = θ nθ 2ty)) l ty)/n) = ty)/n) nty)/n 2ty) ) = ty) n ty)) = ty) 2 n < 0, mikä kertoo luentojen mukaan, että ty)/n on maksimikohta, minkä tosin tiesimmekin jo. 2. Olkoon t 1, t 2, t ) = 1, 2, ), olkoon Y 1, Y 2 ja Y kolme riippumatonta eksponenttijakautunutta satunnaismuuttujaa ja Y i Expt i /µ) missä µ > 0. Näytä, että estimaattori T = Y 1 + 2Y 2 + Y
on parametrin µ harhaton estimaattori. Onko T täystehokas estimaattori? Perustele vastauksesi). Ratkaisu: Huomautus! Alla oleva ehdotus on hyvin seikkaperäinen kuvaus jokaisesta askeleesta. En luonnollisestikaan esitä, että tämä olisi mallivastaus vaan ainoastaan vastaus, jossa jokainen tarvittava) kohta on kirjoitettu näkyviin. Taas tehtävässä on kaksi osaa: a) tulisi näyttää estimaattorin harhattomuus ja b) tulisi selvittää, onko estimaattori täystehokas Määritelmän mukaan estimaattori T on parametrin µ harhaton estimaattori, jos E µ T = µ jokaisella µ > 0. Tämä seuraa mukavasti laskemalla, sillä odotusarvon lineaarisuuden nojalla E µ T = E µ Y 1 + 2Y 2 + Y = E µy 1 + 2E µ Y 2 + E µ Y Koska tehtävänannon mukaan Y i Expt i /µ), niin E µ Y i = µ/t i, joten E µ T = µ + 2µ/2 + µ/ eli T on harhaton eli näytimme kohdan a)). = µ + µ + µ Kohta b) vaatii hieman lisää. Ensiksi tiedämme, että informaatioepäyhtälön nojalla var µ U 1 ιµ) on voimassa kaikilla parametrin µ harhattomilla estimaattoreilla ja estimaattori U on täystehokas, jos epäyhtälön alaraja tavoitetaan, eli jos var µ U = 1 ιµ). Toinen tapa ajatella on että estimaattori on täystehokas, jos sen teho on 100%, kun teho määritellään osamääränä teho U = 1/ ιµ) var µ U 100%. Riippumatta ajattelutavasta, on meidän siis selvittävä: c) mikä on var µ T? d) mikä on ιµ)? e) ja onko var µ T = 1/ ιµ)? Aloitetaan kohdasta c). Nyt riippumattomuuden ja varianssin laskusääntöjen mukaan var µ T = var 1 µ Y 1 + 2Y 2 + Y ) ) = 1 varµ Y 9 1 + var µ 2Y 2 ) + var µ Y ) ) = 1 9 varµ Y 1 + 4 var µ Y 2 + 9 var µ Y ). = µ
Koska tehtävänannon mukaan Y i Expt i /µ), niin var µ Y i = µ 2 /t 2 i, joten ) var µ T = 1 varµ Y 9 1 + 4 var µ Y 2 + 9 var µ Y = 1 9 Olemme siis selvittäneet kysymyksen c). µ 2 + 4µ 2 /2 2 + 9µ 2 / 2) = 1 9 µ2 + µ 2 + µ 2 ) = µ2. Kohdan d) selvittämiseen tarvitsemme Fisherin informaation sekä aineistosta havaitun informaation) määritelmää ιµ) = E µ jµ; Y) = E µ l µ; Y)) Tarvitsemme siis vielä tilastollisen mallin f Y, jotta voimme selvittää log-uskottavuusfunktion l. Nyt tehtävänannon mukaan t i f Y y; µ) = f Yi y i ; µ) = µ exp t iy i /µ)1{ y i > 0 } = cy)µ exp t i y i /µ) missä cy) riippuu vain aineistosta. Voimme siten valita uskottavuusfunktioksi ja log-uskottavuusfunktioksi lµ; y) Lµ; y) = µ exp wy)/µ) lµ; y) = log µ wy)/µ, missä tunnusluku wy) = t i y i. Derivoimalla kahdesti parametrin µ suhteen näemme, että l µ; y) = /µ + wy)/µ 2, l µ; y) = /µ 2 2wy)/µ. ja joten Fisherin informaatio on siten ιµ) = E µ /µ 2 + 2wY)/µ ) = /µ 2 + 2E µ Y 1 + 2Y 2 + Y )/µ Siispä havaitsemme, että = /µ 2 + 2 µ/µ = /µ 2 joten estimaattori T on täystehokas. var µ T = µ2 = 1 ιµ),. Olkoon Y 1,..., Y n Pµ) Poisson-jakautuneita ja riippumattomia havaintoja vastaavia satunnaismuuttujia. Etsi tässä mallissa parametrille µ reaaliarvoinen tyhjentävä tunnusluku. Ratkaisu: Huomautus! Alla oleva ehdotus on hyvin seikkaperäinen kuvaus jokaisesta askeleesta. En luonnollisestikaan esitä, että tämä olisi mallivastaus vaan ainoastaan vastaus, jossa jokainen tai lähes jokainen) kohta on kirjoitettu näkyviin. Määritelmän mukaan tunnusluku T = ty) on parametrin µ tyhjentävä tunnusluku, jos satunnaisvektorin Y ehdollinen jakauma ehdolla T = t ei koskaan riipu parametrista µ. Tiedämme lisäksi, että tämä on yhtäpitävää faktorointikriteerin kanssa,
jonka mukaan tunnusluku ty) on tyhjentävä tunnusluku jos ja vain jos jollakin tunnusluvulla hy) ja jollakin gt; µ) voimme jakaa yhteistiheysfunktion tuloksi kaikilla aineistoilla y ja µ > 0 f Y y; µ) = hy)gty); µ) Tätä varten tarvitsemme tilastollisen mallin määräävän yhteispistetodennäköisyysfunktion f Y. Koska Y i Pµ) ja havainnot ovat riippumattomia, niin f Y y; µ) = n e µ µ y i /y i!1{ y i = 0, 1, 2,... } ) = e nµ n y i! ) 1 µ yi 1{ y i = 0, 1, 2,... jokaisella i } Jos merkitsemme ty) = n y i ja yhdistämme kaikki vain aineistosta riippuvat tekijät yhteen, eli jos merkitsemme hy) = n y i! ) 1 1{ yi = 0, 1, 2,... jokaisella i }, voimme kirjoittaa edellisen muodossa f Y y; µ) = e nµ hy)µ ty) = hy)gty); µ) kun merkitsemme gt; µ) = e nµ µ t. Olemme siten saaneet hajotettua yhteispistetodennäköisyysfunktion f Y faktorointikriteerin mukaiseksi tuloksi, joten voimme todeta, että tunnusluku ty) = y i on parametrin µ tyhjentävä tunnusluku. Koska ty) on lisäksi reaaliarvoinen, olemme löytäneet erään reaaliarvoisen parametrin µ tyhjentävä tunnusluvun. Huomaamme myös, että mikä tahansa tunnusluku αty) jollakin vakiolla α R kävisi myös vallan mainioisti, joten esimerkiksi myös otoskeskiarvo y kävisi myös. 4. Oletetaan, että havaintoja vastaavat satunnaismuuttujat Y 1,..., Y n ovat riippumattomia ja noudattava kukin samaa jatkuvaa jakaumaa, jonka tiheysfunktio on gammajakauman erikoistapaus ja θ on positiivinen parametri. fy; θ) = 1 2 θ y 2 exp y/θ) 1{ y > 0 } a) Määrää mallin Fisherin informaatio ιθ). vihje: satunnaismuuttujan Y i odotusarvo saadaan gammajakauman avulla suoraan ilman integrointia) b) Halutaan testata nollahypoteesia H 0 : θ = θ 0 kaksisuuntaista vastahypoteesia H 1 : θ θ 0 vastaan. Johda Raon pistemäärätestisuure. Ratkaisu: Huomautus! Alla oleva ehdotus on hyvin seikkaperäinen kuvaus jokaisesta askeleesta. En luonnollisestikaan esitä, että tämä olisi mallivastaus vaan ainoastaan vastaus, jossa jokainen tai lähes jokainen) kohta on kirjoitettu näkyviin. Tehtävän a)-kohdan periaate on sama kuin tehtävässä 2, eli määrätään ensin loguskottavuusfunktio, sitten määrätään tämän avulla aineistosta havaittu informaatio ja lopuksi lasketaan sen odotusarvo eli Fisherin odotettu) informaatio.
Koska havaintoja y i vastaavat satunnaismuuttujat ovat riippumattomia, joten n n f Y y; θ) = fy i ; θ) = 1 2 θ yi 2 exp y i /θ) 1{ y i > 0 } ) n = cy)θ n exp y i /θ) = cy)θ n exp ny/θ) missä cy) riippuu vain aineistosta ja y on otoskeskiarvo. Kunhan aineisto y on järkevä eli y i > 0 kullakin i), voimme todeta, että eräs uskottavuusfunktio on ja log-uskottavuusfunktio on Lθ; y) = θ n exp ny/θ) lθ; y) = n log θ ny/θ. Derivoimalla kahdesti parametrin θ suhteen saamme lausekkeet l θ; y) = n/θ + ny/θ 2 ja l θ; y) = n/θ 2 2ny/θ joten aineistosta havaittu informaatio jθ; y) on jθ; y) = n/θ 2 + 2ny/θ. Fisherin informaatioksi ιθ) saamme siten ιθ) = E θ jθ; Y) = E θ n θ + 2nY ) = n 2 θ θ + 2n 2 θ E θy, missä ensimmäinen yhtäsuuruus oli määritelmä Fisherin informaatiolle ja viimeisessä sovelsimme vain lineaarisuutta ja tietoa E θ β = β vakioilla β. Vielä pitäisi laskea otoskeskiarvon odotusarvo E θ Y = E θ n 1 n ) Y i n = n 1 E θ Y i = n 1 n E θ Y 1 = ne θy 1 n = E θ Y 1 ja tässä laskussa sovelsimme jälleen kerran lineaarisuutta sekä tietoa, että satunnaismuuttujat Y i ovat samoin jakautuneita, joten niiden odotusarvot ovat samoja. Vielä tulisi laskea satunnaismuuttujan Y 1 odotusarvo. Tehtävänannossa on kerrottu satunnaismuuttujan tiheysfunktio, joten voisimme käyttää määritelmää ja laskea E θ Y 1 = 0 1 2 θ y exp y/θ)dy Jos emme tuntisi ylläolevaa tiheysfunktiota paremmin, voisimme laskea tämän muuttujanvaihdolla x = y/θ ja sen jälkeen integroimalla osittain muutaman kerran. Tunnistamme kyllä ylläolevan integraalin integroitavan funktion olevan vakiokerrointa vaille gammajakautuneen satunnaismuuttujan tiheysfunktioksi, joten paljon parempi tapa olisi integroida tilastotieteilijän tapaan, eli etsiä sopiva vakio c > 0, jotta E θ Y 1 = c P θ Z > 0) = c. missä Z on jokin gammajakautunut satunnaismuuttuja. Mutta vielä helpompi on todeta, että tehtävänannonkin mukaan Y 1 Gκ, λ) joillakin κ > 0 ja λ > 0, joten tiedämme E θ Y 1 = κ/λ,
eli kunhan selvitämme mitkä κ ja λ ovat, on odotusarvo selvitetty. Koska tehtävänannon tiheysfunktio ja yleinen gammajakauman tiheysfunktio ovat fy; θ) y 2 exp y/θ) ja fy; κ, λ) y κ 1 exp λy) joten päättelemme, että tiheysfunktiot ovat samat, jos ja vain jos κ 1 = 2 ja λ = 1/θ. Siispä κ = ja λ = 1/θ eli Y 1 G, 1/θ) ja siten E θ Y 1 = κ λ = 1/θ = θ. Olemme nyt saaneet Fisherin informaation viimeisen palasen laskettua, joten ιθ) = n θ + 2n 2 θ E θy = n θ + 2n 2 θ E θy 1 = n 2n θ + θ2 θ eli löysimme a)-kohdassa kysytyn Fisherin informaation. = n θ 2 Kohdassa b) tehtävänannossa pyydettiin johtamaan Raon pistemäärätestisuure, kun haluaisimme testata yksinkertaista nollahypoteesia H 0 : θ = θ 0, kun vastahypoteesi on kaksisuuntainen H 1 : θ θ 0. Luentomonisteen perusteella voimme soveltaa siten kumpaa vain Raon testisuuretta u 1/2 y) tai uy). Jos käyttäisimme ensimmäistä, niin testin havaittu merkitsevyystaso laskettaisiin laskemalla kun taas käyttämällä jälkimmäistä p = P θ0 u 1/2 Y) u 1/2 y) ), p = P θ0 uy) uy)), mutta kumpikin antaa luonnollisesti samat havaitut merkitsevyystasot. Raon pistemäärätestisuure u 1/2 on luentomonisteen mukaan u 1/2 y) = l θ 0 ; y) ιθ 0 ) ja uy) on tämän neliö eli uy) = u 1/2 y)) 2 ) Näemme siis, että tarvitsemme pistemääärän l θ 0 ; y) sekä Fisherin informaation ιθ 0 ), mutta laskimme nämä jo aiemmin, joten u 1/2 y) = l θ 0 ; y) ιθ 0 ) = n/θ 0 + ny/θ0 2 n θ 2 0 = n θ 2 0 θ 0 + y) θ 0 n = ny θ0 ) θ 0 Tämä lasku vaati hieman sieventelyjä, mutta loppupelleissä kyseessä oli rationaalilausekkeiden yhteenlasku ja yhteisten tekijöiden ottaminen :) Saamme samalla vaivalla myös toisen Raon pistemäärätestisuureen korottamalla lauseke neliöön, eli uy) = u 1/2 y) ) 2 = ny θ0 ) θ 0 )2 = ny θ 0 ) 2 θ 2 0 Koska tehtävänannossa ei tarkemmin sanottu kumpaa käyttäisimme, olisi vallan hyvin riittänyt laskea kumpi vain :) 5. a) Olkoon Y 1,..., Y n riippumatton satunnaisotos jakaumasta, jonka tiheysfunktio f riippuu reaaliarvoisesta parametrista θ. Miten määritellään parametrin θ luottamusväli luottamustasolla 1 α?
b) Oletaan, että kohdan a) tiheysfunktio f on gammajakauman G2, θ) tiheysfunktio löytyy tehtäväpaperin takaa). Olkoon W = Y 1 + + Y n ) 2θ. Määrää muotoa 0, a) oleva parametrin θ luottamusväli luottamustasolla 1 α satunnaismuuttujan W avulla. vihje: perustele gammajakauman ominaisuuksien avulla, että W χ 2 4n). Ratkaisu: Tehtävän a)-kohta on teoriakysymys, joten mitään ei tarvitse laskea :) Aineistosta riippuva parametriavauruuden Ω R väli Ay) = ay), by)) on parametrin θ luottamusväli luottamustasolla 1 α, jos P θ θ AY)) = P θ ay) < θ < by)) 1 α kaikilla θ Ω. Väli voi luonnollisesti olla avoin kuten yllä), suljettu tai puoliavoin. Tehtävänannossa ei kysytty luottamusvälin tulkintaa, mutta toistokokeena tulkittuna luottamusväli luottamustasolla 1 α tarkoittaa, että odotamme että keskimäärin vähintään n 1 α) kertaa tuntematon parametri θ on välillä Ay), kun toistamme kokeen n kertaa. Tehtävän b)-kohdassa kysytään luottamusväliä luottamustasolla 1 α, joka on muotoa 0, a). Vihjeen mukaan W χ 2 4n on saranasuure, joten voimme määrätä kysytyn luottamusvälin mukavasti sen avulla. Perustelemme tämän lopuksi. Koska W on saranasuure, niin P θ b < W < c) = F W c) F W b) jokaisella θ, missä F W on khiin neliön vapausasteella 4n) kertymäfunktio. Tärkein havainto on siis se, että tämä kertymäfunktio ei riipu parametrista θ. Vasen puoli voidaan puolestaan kirjoittaa toisessa muodossa P θ b < W < c) = P θ b < 2θnY < c) = P b θ 2nY < θ < c ). 2nY Koska haemme muotoa 0, a) olevaa luottamusväliä, on luvuksi b valittava 0 eli b = 0. Luku c saadaan siten määräämällä P θ 0 < W < c) = F W c) F W 0) = F W c) 1 α, jonka voimme mukavasti selvittää kvantiilifunktion q W = F 1 W c q W 1 α). avulla Koska pienempi luottamusväli on parempi, valitsemme c = q W 1 α), joten kysytyksi luottamusväliksi voimme lopulta valita Ay) = 0, ) c = 2ny 0, q W 1 α) 2ny Jätimme perustelun sille, että W χ 2 4n tehtävän loppuun, joten jatkamme nyt sen parissa. Vihjeen mukaan tämä pitäisi selvitä gammajakauman ominaisuuksista, joten tutkimme tehtäväpaperin mukana olleita tietoja. Tehtäväpaperin tiedoissa kerrotaan, että gammajakaumalla on yhteenlaskuominaisuus, jonka mukaan ). Z = Y 1 + + Y n G2 + + 2, θ) = G2n, θ) sillä Y i G2, θ) ja satunnaismuuttujat ovat riippumattomia. Lisäksi tehtäväpaperissa kerrotaan, että jos c > 0 ja X on gammajakautunut, niin myös tulo cx on gammajakautunut.
Havaitsemme siten, että W = 2θ Y 1 + + Y n ) = 2θZ G2n, θ/2θ)) = G2n, 1 2 ). Tämä kertoo nyt mukavasti, että W on saranasuure. Lisäksi tiedämme khiin neliön olevan gammajakauman erikoistapaus ja χ 2 4n = G4n/2, 1 2 ) = G2n, 1 2 ). Siispä pienellä jakaumapäättelyllä näimme, että W G2n, 1 2 ) = χ2 4n.