Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Samankaltaiset tiedostot
2. Uskottavuus ja informaatio

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

2. Uskottavuus ja informaatio

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

3.6 Su-estimaattorien asymptotiikka

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät Ratkaisuehdotuksia

Uskottavuuden ominaisuuksia

5.7 Uskottavuusfunktioon perustuvia testejä II

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

1. Tilastollinen malli??

Sovellettu todennäköisyyslaskenta B

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kertausluento. Tilastollinen päättely II - 1. kurssikoe

4.0.2 Kuinka hyvä ennuste on?

Tilastollinen päättely II, kevät 2017 Harjoitus 1A

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

η i (θ)t i (x) A(θ) + c(x),

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Osa 2: Otokset, otosjakaumat ja estimointi

5 Hypoteesien testaaminen

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Väliestimointi (jatkoa) Heliövaara 1

Estimointi. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Maximum likelihood-estimointi Alkeet

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Tilastollinen aineisto Luottamusväli

6.1.2 Luottamusjoukon määritelmä

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

1. (Jatkoa Harjoitus 5A tehtävään 4). Monisteen esimerkin mukaan momenttimenetelmän. n ne(y i Y (n) ) = 2E(Y 1 Y (n) ).

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

9. laskuharjoituskierros, vko 12-13, ratkaisut

Kertausluento. Tilastollinen päättely II - 2. kurssikoe

Sovellettu todennäköisyyslaskenta B

5 Hypoteesien testaaminen

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Pelaisitko seuraavaa peliä?

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Yleistä tietoa kokeesta

Satunnaismuuttujien muunnokset ja niiden jakaumat

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen päättömyys, kevät 2017 Harjoitus 6A

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Dynaamiset regressiomallit

tilastotieteen kertaus

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

4.2.2 Uskottavuusfunktio f Y (y 0 X = x)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus todennäköisyyslaskentaan Satunnaismuuttujien muunnokset ja niiden jakaumat. TKK (c) Ilkka Mellin (2004) 1

Testejä suhdeasteikollisille muuttujille

Sovellettu todennäköisyyslaskenta B

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

Lause 4.2. Lineearinen pienimmän keskineliövirheen estimaattoi on lineaarinen projektio.

Sovellettu todennäköisyyslaskenta B

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

,ܾ jaü on annettu niin voidaan hakea funktion

9. Tila-avaruusmallit

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tutkimustiedonhallinnan peruskurssi

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

10 Moniulotteinen normaalijakauma

Tilastollisia peruskäsitteitä ja Monte Carlo

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

1. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden heittojen lukumäärä, joilla tuli 1, 2, 3 tai 4.

805306A Johdatus monimuuttujamenetelmiin, 5 op

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Sovellettu todennäköisyyslaskenta B

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Tilastollinen päättömyys, kevät 2017 Harjoitus 5b

Parametrin estimointi ja bootstrap-otanta

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Mat Tilastollisen analyysin perusteet, kevät 2007

031021P Tilastomatematiikka (5 op) viikko 5

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Batch means -menetelmä

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Mallipohjainen klusterointi

Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä

Moniulotteisia todennäköisyysjakaumia

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

Harjoitus 7: NCSS - Tilastollinen analyysi

Kanta ja dimensio 1 / 23

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Transkriptio:

4. Tyhjentyvyys Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä: Voidaanko päätelmät perustaa johonkin tunnuslukuun t = t(y) koko aineiston y sijasta? Mitä tunnusluvulta tulee vaatia, jotta päättelyssä ei hukata parametrin θ kannalta oleellista informaatiota? Näitä kysymyksiä varten tutustumme tyhjentyvyyden käsitteeseen.

4.1.1 Tunnusluvuista ja aineiston tiivistämisestä Olkoon y = (y 1,..., y n ) aineisto, joka tulee analysoida. Tunnusluku: aineiston muunnos, voi olla reaalinen t = t(y) R tai vektori t = t(y) = (t 1 (y),..., t k (y)) R k Usein k < n, eli ne usein tiivistävät aineistoa tai korostavat aineiston piirteitä Tunnusluvut myös luokittelevat aineistoa, sillä t(y) = t(y ) voi hyvin olla sama eri aineistoille.

4.1.1 Esimerkkejä tunnusluvuista a) otoskeskiarvo y = (y 1 + + y n )/n; tässä k = 1 b) otosvarianssi s 2 = (n 1) 1 i (y i y) 2 ; tässä k = 1 c) pari (y, s 2 ); tässä k = 2 d) pienin havainto y (1) = min(y 1,..., y n ); tässä k = 1 e) suurin havainto y (n) = max(y 1,..., y n ); tässä k = 1 f) järjestetty aineisto eli järjestystunnusluku (y (1),..., y (n) ); tässä k = n

4.1.2 Tyhjentävän tunnusluvun määritelmä ja tulkinta Määritelmä Tunnusluku T = t(y) on parametrin θ tyhjentävä tunnusluku, jos satunnaisvektorin Y ehdollinen jakauma ehdolla T = t ei koskaan riipu θ:sta eli ehdollinen tiheys toteuttaa kaikilla θ, θ Ω. f Y T (y t; θ) = f Y T (y t; θ ) = f Y T (y t)

4.1.2 Tyhjentävän tunnusluvun määritelmä ja tulkinta Määritelmä voidaan ymmärtää seuraavasti: Jos aineistosta y tiedetään että tunnusluvun t(y) arvo on t, niin aineiston tarkempi tuntemus ei enää tuo mitään lisätietoa parametrista θ Sanalle tieto/informaatio emme antaneet tarkkaa tulkintaa, mutta riittävillä säännöllisyysoletuksilla tämän voisi ymmärtää Fisherin informaation avulla. Itse asiassa olemme eri informaation käsitteiden alkujuurella.

4.1.2 Tyhjentävän tunnusluvun määritelmä ja tulkinta Tyhjentäviä tunnuslukuja on aina: koko aineisto Y on aina tyhjentävä tunnusluku (HT). Tämä on ns. triviaali tunnusluku Yleensä pyrkimyksenä on löytää tyhjentävä tunnusluku, jonka dimensio on mahdollisimman pieni, eli tiivistää aineistoa mahdollisimman paljon jatkopäättelyiden tästä kärsimättä Järjestystunnuslukukin on riippumattomien ja samoin jakautuneiden havaintojen tapauksessa tyhjentävä tunnusluku

4.1.3 Esimerkki: toistokoemalli Palataan esimerkkiin 1.2.1 n oleva otos lamppuja ja määritellään y i = 1{ i:s lamppu on rikki } Aineisto on y = (y 1,..., y n ) Tilastollinen mallin spesifoi yptnf kun k = k(y) = y 1 + + y n. f Y (y; θ) = θ k (1 θ) n k Näytetään määritelmän avulla, että tunnusluku K = k(y) on tyhjentävä tunnusluku.

4.1.3 Esimerkki: toistokoemalli Esimerkissä 2.1.5 totesimme K Bin(n, θ), ja tämän siten selittää tilastollinen malli ( ) n f K (k; θ) = θ k (1 θ) n k k Ehdollinen yptnf on siten f Y K (y k; θ) = 1 ( n k)1{ k = k(y) } Oikea puoli ei riipu θ:sta, joten K on tyhjentävä.

4.2.1 Faktorointikriteeri tyhjentävyydelle Käytännön tehtävissä on määritelmän sijaan paljon kätevämpää käyttää faktorointikriteeriksi kutsuttua lausetta Lause (Faktorointikriteeri) Tunnusluku T = t(y) on parametrin θ tyhjentävä tunnusluku jos ja vain jos f Y (y; θ) voidaan kirjoittaa muodossa kaikilla y ja θ Ω. Todistus. Liitutaululla. f Y (y; θ) = h(y)g(t(y); θ)

4.2.1 Faktorointikriteeri tyhjentävyydelle Huom. Faktorointikriteeri lausua myös näin: Lause (Faktorointikriteeri (vaihtoehtoinen muotoilu)) Tunnusluku T = t(y) on parametrin θ tyhjentävä tunnusluku jos ja vain jos mallin uskottavuusfunktio L (tai log-uskottavuus l) voidaan valita siten, että se riippuu aineistosta vain t(y):n välityksellä

4.2.2 Esimerkki: toistokoemalli Esimerkissä 4.1.3 tunnusluvun k = y i tyhjentävyys nähdään faktorointikriteerin avulla suoraan, sillä mallin uskottavuusfunktio L(θ; y) = θ k (1 θ) n k riippuu aineistosta vain tunnusluvun k välityksellä

4.2.3 Esimerkki: normaalimalli Esimerkkissä 2.1.4. huomasimme, että uskottavuusfunktio riippui vain aineistosta tunnuslukujen y ja s 2 välityksellä log-uskottavuusfunktioksi kävi l(µ, σ 2 ; y) = n 2 log(σ2 ) 1 2σ 2 ( (n 1)s 2 + n(y µ) 2) Siispä: pari (y, s 2 ) on parametrin (µ, σ 2 ) tyhjentävä tunnusluku Myös su-estimaattori ( µ, σ 2 ) on parametrin (µ, σ 2 ) tyhjentävä tunnusluku

4.2.3 Esimerkki: normaalimalli Vastaasti: kun varianssi on tunnettu σ0 2 > 0, niin l(µ; y) = n 2σ0 2 (y µ) 2 joten y on parametrin µ tyhjentävä tunnusluku Huom. kummassakin normaalimallin tapauksessa löysimme tyhjentävän tunnusluvun, joka oli samaa dimensiota kuin mallin parametri! Sama ilmiö myös lineaarisen regressiomallin tapauksessa, mutta ei yleisesti...

4.2.4 Esimerkki: Cauchyn jakauma (vanha tuttumme) Cauchyn jakauma oli TN2-kurssin mallivastaesimerkki suurelle osalle pohdinnoista (ei odotusarvo, jne.) ja osoittautuu, että Cauchyn jakauma on jälleen kerran peikkomainen Olkoon Y 1,..., Y n ja kukin noudattaa Cauchyn jakaumaa f (y; θ) = 1 π(1 + (y θ) 2 ) Faktorointikriteerin jos T = t(y) on tyhjentävä, niin f Y (y; θ) = 1 π n n i=1 1 = h(y)g(t(y); θ) 1 + (y i θ) 2 Parilla lisäapulauseella voisimme osoittaa, että tällöin T on järjestystunnusluku tai jokin sen permutaatio.

4.2.5 Eksponenttiperheen mallit Malli f Y (y; θ) kuuluu d-ulotteiseen eksponenttiperheeseen, mikäli ( d ) f Y (y; θ) = c(θ)h(y) exp φ j (θ)t j (y) j=1 (4.1) Faktorointikriteerin mukaan (t 1 (y),..., t d (y)) on parametrin tyhjentävä tunnusluku

4.2.5 Eksponenttiperheen mallit Edelleen: jos Y i :t ovat samoin jakautuneita ja riippumattomia satunnaismuuttujia, ja kullakin (4.1) ptnf/tf, niin f Y (y; θ) = c(θ) n( i h(y i ) ) ( d exp j=1 φ j (θ) i ) t j (y i ) Eli tällöinkin tyhjentävän tunnusluvun dimensio on d. Tämä on tietyin poikkeuksin voimassa vain eksponenttiperheeseen kuuluvilla malleilla, sisältäen mm. Bernoulli-, binomi-, Poisson-, normaali-, gamma- ja eksponenttijakaumat. (HT)

Raon Blackwellin lause Helposti voi miettiä, mitä hyötyä tyhjentyvyydestä on Seuraava yksinkertainen lause kertoo, että paras harhaton estimaattori on tyhjentävän tunnusluvun muunnos Seuraavassa tunnusluku T = t(y) on parametrin θ tyhjentävä tunnusluku, ja U jokin g(θ) harhaton estimaattori. Lause (Raon Blackwellin lause) Olkoon V (y) = E θ (U T = t(y)). Tällöin estimaattori V (Y) on parametrin g(θ) harhaton estimaattori, joka on ainakin yhtä tehokas kuin U. Itse asiassa, U on yhtä tehokas voi V jos ja vain jos U = V = h(t). Todistus. Liitutaululla.

Lehmannin Scheffén lause Oletetaan, että tyhjentävän tunnusluku T on ns. täydellinen eli jos kaikilla θ on E θ h(t ) = 0, niin tällöin jokaisella θ on P θ (h(t ) = 0) = 1. Tällöin Lehmannin Scheffén lause sanoo, että V on paras harhaton estimaattori. Momenttiemäfunktioitten avulla voisimme osoittaa, että eksponenttiperheen malleille luonnollinen tyhjentävä tunnusluku on täydellinen. Erityisesti voimme päätellä, että S 2 normaalimallissa on paras harhaton estimaattori.