Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Samankaltaiset tiedostot
Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

2. Uskottavuus ja informaatio

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

2. Uskottavuus ja informaatio

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät Ratkaisuehdotuksia

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

3.6 Su-estimaattorien asymptotiikka

Kertausluento. Tilastollinen päättely II - 1. kurssikoe

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Uskottavuuden ominaisuuksia

Tilastollinen päättely II, kevät 2017 Harjoitus 1A

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

5.7 Uskottavuusfunktioon perustuvia testejä II

Sovellettu todennäköisyyslaskenta B

Kertausluento. Tilastollinen päättely II - 2. kurssikoe

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

1. Tilastollinen malli??

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Yleistä tietoa kokeesta

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

4.0.2 Kuinka hyvä ennuste on?

5 Hypoteesien testaaminen

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

Väliestimointi (jatkoa) Heliövaara 1

η i (θ)t i (x) A(θ) + c(x),

Estimointi. Vilkkumaa / Kuusinen 1

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

6.1.2 Luottamusjoukon määritelmä

Osa 2: Otokset, otosjakaumat ja estimointi

Tilastollinen aineisto Luottamusväli

,ܾ jaü on annettu niin voidaan hakea funktion

Pelaisitko seuraavaa peliä?

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Testejä suhdeasteikollisille muuttujille

Maximum likelihood-estimointi Alkeet

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

9. laskuharjoituskierros, vko 12-13, ratkaisut

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Tutkimustiedonhallinnan peruskurssi

4.2.2 Uskottavuusfunktio f Y (y 0 X = x)

1. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden heittojen lukumäärä, joilla tuli 1, 2, 3 tai 4.

Sovellettu todennäköisyyslaskenta B

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

5 Hypoteesien testaaminen

tilastotieteen kertaus

Sovellettu todennäköisyyslaskenta B

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollisia peruskäsitteitä ja Monte Carlo

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

1. (Jatkoa Harjoitus 5A tehtävään 4). Monisteen esimerkin mukaan momenttimenetelmän. n ne(y i Y (n) ) = 2E(Y 1 Y (n) ).

Tilastotieteen aihehakemisto

Dynaamiset regressiomallit

9. Tila-avaruusmallit

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Mat Tilastollisen analyysin perusteet, kevät 2007

10 Moniulotteinen normaalijakauma

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Parametrin estimointi ja bootstrap-otanta

Regressioanalyysi. Kuusinen/Heliövaara 1

Testit laatueroasteikollisille muuttujille

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Yleistä tietoa kokeesta

Satunnaismuuttujien muunnokset ja niiden jakaumat

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen päättelyn kurssi

Mat Tilastollisen analyysin perusteet, kevät 2007

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Otosavaruus ja todennäköisyys Otosavaruus Ë on joukko, jonka alkiot ovat kokeen tulokset Tapahtuma on otosavaruuden osajoukko

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Matematiikan kotitehtävä 2, MAA 10 Todennäköisyys ja tilastot

8.1 Ehdolliset jakaumat

Yleistä tietoa kokeesta

Johdatus todennäköisyyslaskentaan Satunnaismuuttujien muunnokset ja niiden jakaumat. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen päättelyn perusteet

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

Sovellettu todennäköisyyslaskenta B

Harjoitus 2: Matlab - Statistical Toolbox

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.

Martingaalit ja informaatioprosessit

Transkriptio:

4. Tyhjentyvyys Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä: Voidaanko päätelmät perustaa johonkin tunnuslukuun t = t(y) koko aineiston y sijasta? Mitä tunnusluvulta tulee vaatia, jotta päättelyssä ei hukata parametrin θ kannalta oleellista informaatiota? Näitä kysymyksiä varten tutustumme tyhjentyvyyden käsitteeseen.

4.1.1 Tunnusluvuista ja aineiston tiivistämisestä Olkoon y = (y 1,..., y n ) aineisto, joka tulee analysoida. Tunnusluku: aineiston muunnos, voi olla reaalinen t = t(y) R tai vektori t = t(y) = (t 1 (y),..., t k (y)) R k Usein k < n, eli ne usein tiivistävät aineistoa tai korostavat aineiston piirteitä Tunnusluvut myös luokittelevat aineistoa, sillä t(y) = t(y ) voi hyvin olla sama eri aineistoille.

4.1.1 Esimerkkejä tunnusluvuista a) otoskeskiarvo y = (y 1 + + y n )/n; tässä k = 1 b) otosvarianssi s 2 = (n 1) 1 i (y i y) 2 ; tässä k = 1 c) pari (y, s 2 ); tässä k = 2 d) pienin havainto y (1) = min(y 1,..., y n ); tässä k = 1 e) suurin havainto y (n) = max(y 1,..., y n ); tässä k = 1 f) järjestetty aineisto eli järjestystunnusluku (y (1),..., y (n) ); tässä k = n

4.1.2 Tyhjentävän tunnusluvun määritelmä ja tulkinta Määritelmä Tunnusluku T = t(y) on parametrin θ tyhjentävä tunnusluku (engl. sufficient statistic), jos satunnaisvektorin Y ehdollinen jakauma ehdolla T = t ei koskaan riipu θ:sta eli ehdollinen tiheys toteuttaa kaikilla θ, θ Ω. f Y T (y t ; θ) = f Y T (y t ; θ ) = f Y T (y t )

4.1.2 Tyhjentävän tunnusluvun määritelmä ja tulkinta Määritelmä voidaan ymmärtää seuraavasti: Jos aineistosta y tiedetään että tunnusluvun t(y) arvo on t, niin aineiston tarkempi tuntemus ei enää tuo mitään lisätietoa parametrista θ Sanalle tieto/informaatio emme antaneet tarkkaa tulkintaa, mutta riittävillä säännöllisyysoletuksilla tämän voisi ymmärtää Fisherin informaation avulla. Itse asiassa olemme eri informaation käsitteiden alkujuurella.

4.1.2 Tyhjentävän tunnusluvun määritelmä ja tulkinta Tyhjentäviä tunnuslukuja on aina: koko aineisto Y on aina tyhjentävä tunnusluku (HT). Tämä on ns. triviaali tunnusluku Yleensä pyrkimyksenä on löytää tyhjentävä tunnusluku, jonka dimensio on mahdollisimman pieni, eli tiivistää aineistoa mahdollisimman paljon jatkopäättelyiden tästä kärsimättä Järjestystunnuslukukin on riippumattomien ja samoin jakautuneiden havaintojen tapauksessa tyhjentävä tunnusluku

4.1.3 Esimerkki: toistokoemalli Palataan esimerkkiin 1.2.1 n oleva otos lamppuja ja määritellään y i = 1{ i:s lamppu on rikki } Aineisto on y = (y 1,..., y n ) Tilastollisen mallin spesifoi yptnf kun k = k(y) = y 1 + + y n. f Y (y; θ) = θ k (1 θ) n k Näytetään määritelmän avulla, että tunnusluku K = k(y) on tyhjentävä tunnusluku.

4.1.3 Esimerkki: toistokoemalli Esimerkissä 2.1.5 totesimme K Bin(n, θ), ja tämän siten selittää tilastollinen malli ( ) n f K (k; θ) = θ k (1 θ) n k k Ehdollinen yptnf on siten f Y K (y k; θ) = 1 ( n k)1{ k = k(y) } Oikea puoli ei riipu θ:sta, joten K on tyhjentävä.

4.2.1 Faktorointikriteeri tyhjentävyydelle Käytännön tehtävissä on määritelmän sijaan paljon kätevämpää käyttää faktorointikriteeriksi kutsuttua lausetta Lause (Faktorointikriteeri) Tunnusluku T = t(y) on parametrin θ tyhjentävä tunnusluku jos ja vain jos f Y (y; θ) voidaan kirjoittaa muodossa kaikilla y ja θ Ω. Todistus. Liitutaululla. f Y (y; θ) = h(y)g(t(y); θ)

4.2.1 Faktorointikriteeri tyhjentävyydelle Huom. Faktorointikriteeri lausua myös näin: Lause (Faktorointikriteeri (vaihtoehtoinen muotoilu)) Tunnusluku T = t(y) on parametrin θ tyhjentävä tunnusluku jos ja vain jos mallin uskottavuusfunktio L (tai log-uskottavuus l) voidaan valita siten, että se riippuu aineistosta vain t(y):n välityksellä

4.2.2 Esimerkki: toistokoemalli Esimerkissä 4.1.3 tunnusluvun k = y i tyhjentävyys nähdään faktorointikriteerin avulla suoraan, sillä mallin uskottavuusfunktio L(θ; y) = θ k (1 θ) n k riippuu aineistosta vain tunnusluvun k välityksellä

4.2.3 Esimerkki: normaalimalli Esimerkkissä 2.1.4. huomasimme, että uskottavuusfunktio riippui vain aineistosta tunnuslukujen y ja s 2 välityksellä log-uskottavuusfunktioksi kävi l(µ, σ 2 ; y) = n 2 log(σ2 ) 1 2σ 2 ( (n 1)s 2 + n(y µ) 2) Siispä: pari (y, s 2 ) on parametrin (µ, σ 2 ) tyhjentävä tunnusluku Myös su-estimaattori ( µ, σ 2 ) on parametrin (µ, σ 2 ) tyhjentävä tunnusluku

4.2.3 Esimerkki: normaalimalli Vastaavasti: kun varianssi on tunnettu σ0 2 > 0, niin l(µ; y) = n 2σ0 2 (y µ) 2 joten y on parametrin µ tyhjentävä tunnusluku Huom. kummassakin normaalimallin tapauksessa löysimme tyhjentävän tunnusluvun, joka oli samaa dimensiota kuin mallin parametri! Sama ilmiö myös lineaarisen regressiomallin tapauksessa, mutta ei yleisesti...

4.2.4 Esimerkki: Cauchyn jakauma (vanha tuttumme) Cauchyn jakauma oli TN2-kurssin mallivastaesimerkki suurelle osalle pohdinnoista (ei odotusarvo, jne.) ja osoittautuu, että Cauchyn jakauma on jälleen kerran peikkomainen Olkoon Y 1,..., Y n ja kukin noudattaa Cauchyn jakaumaa f (y; θ) = 1 π(1 + (y θ) 2 ) Faktorointikriteerin jos T = t(y) on tyhjentävä, niin f Y (y; θ) = 1 π n n i=1 1 = h(y)g(t(y); θ) 1 + (y i θ) 2 Parilla lisäapulauseella voisimme osoittaa, että tällöin T on järjestystunnusluku tai jokin sen permutaatio.

4.2.5 Eksponenttiperheen mallit Malli f Y (y; θ) kuuluu d-ulotteiseen eksponenttiperheeseen, mikäli ( d ) f Y (y; θ) = c(θ)h(y) exp φ j (θ)t j (y) j=1 (4.1) Faktorointikriteerin mukaan (t 1 (y),..., t d (y)) on parametrin tyhjentävä tunnusluku

4.2.5 Eksponenttiperheen mallit Edelleen: jos Y i :t ovat samoin jakautuneita ja riippumattomia satunnaismuuttujia, ja kullakin (4.1) ptnf/tf, niin f Y (y; θ) = c(θ) n( i h(y i ) ) ( d exp j=1 φ j (θ) i ) t j (y i ) Eli tällöinkin tyhjentävän tunnusluvun dimensio on d. Tämä on tietyin poikkeuksin voimassa vain eksponenttiperheeseen kuuluvilla malleilla, sisältäen mm. Bernoulli-, binomi-, Poisson-, normaali-, gamma- ja eksponenttijakaumat. (HT)

Raon Blackwellin lause Helposti voi miettiä, mitä hyötyä tyhjentyvyydestä on Seuraava yksinkertainen lause kertoo, että paras harhaton estimaattori on tyhjentävän tunnusluvun muunnos Seuraavassa tunnusluku T = t(y) on parametrin θ tyhjentävä tunnusluku, ja U jokin g(θ) harhaton estimaattori. Lause (Raon Blackwellin lause) Olkoon V = v(t) = E θ (U T). Tällöin estimaattori V on parametrin g(θ) harhaton estimaattori, joka on ainakin yhtä tehokas kuin U. Itse asiassa, U on yhtä tehokas kuin V jos ja vain jos U = V. Todistus. Liitutaululla.

Raon Blackwellin lause Edellisessä lauseessa ehdollinen odotusarvo E(U T) ehdolla satunnaismuuttuja T on TN2b-kurssin mukainen satunnaismuuttuja v(t) = v(t(y)), joka esimerkiksi sm:n U ollessa jatkuva on v(t ) = E(U T = t ) = u f U T (u t )du

Lehmannin Scheffén lause Määritelmä 4.1 Olkoon T tyhjentävä tunnusluku. Tunnuslukua T sanotaan täydelliseksi, jos ainoa reaaliarvoinen funktio, jolle E θ h(t) = 0 jokaisella θ, on käytännössä nollafunktio (eli tapahtuman { h(t) 0 } todennäköisyys P θ (h(t) 0) = 0 kaikilla θ). Momenttiemäfunktioitten avulla voisimme osoittaa, että eksponenttiperheen malleille luonnollinen tyhjentävä tunnusluku on täydellinen.

Lehmannin Scheffén lause Lause (Lehmannin Scheffén lause) Raon Blackwellin lauseen estimaattori V on parametrin g(θ) paras harhaton estimaattori, jos T on täydellinen tyhjentävä tunnusluku. Erityisesti voimme päätellä, että S 2 normaalimallissa on paras harhaton estimaattori.