2. Uskottavuus ja informaatio

2. Uskottavuus ja informaatio Aluksi käsittelemme uskottavuus- ja log-uskottavuusfunktioita Seuraavaksi esittelemme suurimman uskottavuuden estimointimenetelmän Ensi viikolla perehdymme aiheeseen lisääkö tieto (informaatio) tuskaa vai ei?

2.1 Uskottavuusfunktio Tässä kappaleessa esitellään (palautetaan mieleen) tilastollisen päättelyn kannalta keskeiset uskottavuusfunktion ja log-uskottavuusfunktion käsiteet Lisäksi nämä määrätään parille perusesimerkillemme

2.1.1 Perusmääritelmä ja tulkinta Tarkastellaan parametrista tilastollista mallia y f Y (y; θ), θ Ω R d. (Bayesiläinen versiohan olisi y f Y Θ (y θ).) Kuvausta L(θ) = L(θ; y) = f Y (y; θ) sanotaan (erääksi) aineistoon y liittyväksi uskottavuusfunktioksi. Kun sv Y on diskreetti, niin tämä valinta vastaa yptnf:ää L(θ) = P θ (Y = y) (eli vastaa kysymykseen: jos θ kuvaisi todellisuutta, kuinka todennäköistä olisi havaita aineisto y)

2.1.1 Perusmääritelmä ja tulkinta Kun sv Y on diskreetti, niin havaitaan, että L(θ ) < L(θ ) joss P θ (Y = y) < P θ (Y = y) Tällöin sanotaankin θ on aineiston valossa uskottavampi kuin θ Kun sv Y on jatkuva, niin korvaamalla aineisto y sen pikkuriikkisellä ympäristöllään, voidaan tämä ajatus mukavasti laajentaa myös jatkuville jakaumille.

2.1.2 Esimerkki: lampputoistokoe Palataan esimerkkiin 1.2.1. Tilastollinen malli on f Y (y; θ) = θ k (1 θ) n k kun k = k(y) = y 1 + + y n, ja θ Ω = [0, 1]. Oletetaan, että meillä on aineisto y = (0, 1, 0, 0, 0, 0, 0, 0, 0, 0), eli n = 10, k = 1. Uskottavuusfunktio on tällöin L(θ) = θ(1 θ) 9

2.1.2 Esimerkki: lampputoistokoe

2.1.3 Yleinen määritelmä Esimerkissä 2.1.2 tarkastelimme vain suhdetta L(θ)/L( 1 10 ), joten määrittelemmekin Määritelmä Olkoon f Y ( ; θ) tilastollinen malli, θ Ω. Kukin muotoa L(θ) = L(θ; y) = c(y)f Y (y; θ), θ Ω olevista funktioista on aineistoon y liittyvä uskottavuusfunktio. Tässä c(y) > 0 voi riippua vain aineistosta.

2.1.6 Logaritminen uskottavuusfunktio Uskottavuusfunktiosta on sekä teoreettisista (kuten myöhemmin havaitsemme informaatiokäsitteen ja testiteorian yhteydessä) että laskennallisista syistä mukava siirtyä myös logaritmiseen uskottavuusfunktioon tai log-uskottavuusfunktioon. Määritelmä Kun L(θ) on aineistoon y liittyvä uskottavuusfunktio, niin l(θ) = l(θ; y) = log L(θ; y) on aineistoon y liittyvä log-uskottavuusfunktio.

Käytännön syy log-uskottavuusfunktiolle Yleensä Y 1,..., Y n. Joten tästä johtuen f Y (y; θ) = n L(θ) i=1 kun aineisto y on annettu (eli L on tulomuotoa) Vastaavasti l(θ) = log L(θ) = log c(y) + n log... i=1 eli log-uskottavuusfunktio l on summamuotoa, jota usein mukavampi käsitellä esim. derivoida, jne.

2.1.4 Esimerkki: normaalimalli. Palautetaan mieleen θ = (µ, σ 2 ), parametriavaruus on Ω = R (0, ) Sv:n Y = Y 1,..., Y n tiheys on ( f Y (y; θ) = (2πσ 2 ) n/2 exp 1 2σ 2 Siispä eräs uskottavuusfunktio on n (y i µ) 2) i=1 ( L(θ) = L(µ, σ 2 ) = (σ 2 ) n/2 exp 1 2σ 2 n (y i µ) 2) i=1

2.1.4 Esimerkki: normaalimalli. Harjoitustehtävästä seuraa, että tämä voidaan kirjoittaa myös missä ( L(θ) = (σ 2 ) n/2 exp 1 ( (n 1)s 2 2σ 2 + n(y µ) 2)) y = otoskeskiarvo = 1 n n i=1 ja s 2 = otosvarianssi = 1 n 1 y i n (y i y) 2 i=1

2.1.4 Esimerkki: normaalimalli. Huomaamme: L(θ) riippuu aineistosta y tunnuslukujen (eli aineiston muunnosten) y ja s 2 välityksellä. Normaalimallin log-uskottavuusfunktioksi käy siten l(θ) = n 2 log(σ2 ) 1 2σ 2 ( (n 1)s 2 + n(y µ) 2)

2.1.4 Esimerkki: normaalimalli kun varianssi tunnetaan. Kun σ 2 = σ0 2 > 0, niin edellisissä uskottavuusfunktioissa ja log-uskottavuusfunktioissa on paljon pelkästään aineistosta (ja tunnetusta σ0 2 :sta) riippuvia termejä: Tällöin Ω = R ja θ = µ ja eräs log-uskottavuusfunktio on ja eräs uskottavuusfunktio on l(µ) = n 2σ0 2 (y µ) 2 L(µ) = exp ( n 2σ 2 0 (y µ) 2)

2.1.5 Esimerkki: binomimalli (rikkinäiset lamput v2) Palataan rikkinäisiin lamppuihin (Esimerkit 1.2.1 ja 2.1.2) ja tuntemattomaan rikkinäisten lamppujen suhteeseen θ kaikista lampuista Tällä kertaa aineisto onkin yksi luku k = rikkinäisten lamppujen lkm otoksessa jonka koko on n { 0, 1, 2,..., n } Koska tiedämme tn-laskennasta, että K Bin(n, θ), niin tätä vastaa tilastollinen malli ( ) n f K (k; θ) = θ k (1 θ) n k k

2.1.5 Esimerkki: binomimalli (rikkinäiset lamput v2) Eräs aineistoa k vastaava uskottavuusfunktio L(θ) = θ k (1 θ) n k Havaitaan, että tällä mallilla sekä Esimerkin 2.1.2 (rikkinäiset lamput v1) mallilla on sama uskottavuusfunktio ja siten myös sama log-uskottavuusfunktio Kummallekin mallille log-uskottavuusfunktio on (ainakin kun 0 < θ < 1). l(θ) = k log θ + (n k) log(1 θ)

2.1.5 Esimerkki: binomimalli (rikkinäiset lamput v2) Havainto tukee intuitiota: rikkinäisten lamppujen järjestyksellä ei väliä. Uskottavuusperiaate: Jos eri malleilla samat uskottavuusfunktiot, niin päätelmien tulisi olla aina samat.

2.2 Suurimman uskottavuuden estimointi Tässä kappaleessa esitellään (palautetaan mieleen) tilastollisen päättelyn kannalta keskeinen su-estimaatti sekä su-estimaattori Lisäksi esitellään uskottavuusyhtälöt näiden löytämiseksi.

2.2.1 Estimaatti ja estimaattori Tässä luvussa oletamme, että aineisto y sekä tilastollinen malli f Y ( ; θ), θ Θ on annettu. Tunnusluku t = t(y) on aineiston muunnos. Kun tunnusluku t Ω on valittu siten, että se on hyvä arvio tuntemattomasta θ:sta, niin tunnuslukua t kutsutaan parametrin θ estimaatiksi Vastaavaa satunnaisvektoria T = t(y) kutsutaan estimaattoriksi

Estimaatti ja estimaattori Koska hyvyys on aina katsojan silmässä, niin lyhyesti: estimaatti = tunnusluku t(y) Ω, estimaattori = aineiston tuottavan sv:n Y muunnossv t(y), jonka tilajoukkona on Ω.

2.2.2 Su-estimaatin määritelmä Määritelmä Olkoon L(θ; y) annettua aineistoa y ja tilastollista mallia f Y ( ; θ) vastaava uskottavuusfunktio. SU-estimaatti (suurimman uskottavuuden estimaatti) on mikä tahansa piste θ = θ(y) Ω, jolla L( θ; y) L(θ; y) kaikilla θ Ω SU-estimaattori on sv θ(y) mutta tätäkin merkitään monesti θ. Yhtä hyvin voisimme käyttää log-uskottavuusfunktiota l määritelmässä.

2.2.3 Esimerkki: normaalimalli kun varianssi tunnettu Kun σ 2 = σ0 2 > 0, niin monisteen Esimerkki 2.1.7 b) ja kalvojen Esimerkissä 2.1.4 määräsimme log-uskottavuusfunktioksi l(µ) = n 2σ0 2 (y µ) 2 kun tuntematon parametri µ R = Ω. Tämä on alaspäin aukeava paraabeli, joten su-estimaatti θ(y) = y. Vastaavasti su-estimaattori on θ(y) = Y = n 1 n Y i. i=1

2.2.4 Uskottavuusyhtälöt Jos l(θ) on derivoituva, voidaan su-estimaattia θ hakea derivaattojen avulla Jos maksimi on Ω:n sisäpiste, niin tässä kohdassa on voimassa uskottavuusyhtälöt θ j l(θ; y) = 0, j = 1,..., d (2.2) jos d = 1, tämä on l (θ; y) = 0 (2.3)

2.2.4 Uskottavuusyhtälöt Jos l(θ) on kahdesti derivoituva, voidaan tarkistaa onko uskottavuusyhtälön (2.3) ja (2.2) ratkaisu (lokaali) maksimi Hessen matriisin avulla. Hessen matriisi on ( 2 ) l(θ; y) θ i θ j lokaali ääriarvo (eli uskottavuusyhtälön ratkaisu) on maksimi, jos Hessen matriisi on negatiivisesti definiitti.

2.2.5 Esimerkki: toistokoemalli (rikkinäiset lamput) Voimme käyttää joko mallia v1 (aineisto y = (y 1,..., y n )), jolloin tilastollisena mallina on f Y (y; θ) = θ k (1 θ) n k, kun k = ny tai mallia v2 (aineisto k { 0, 1,..., n }), jolloin tilastollisena mallina on f K (k; θ) = ( ) n k θ k (1 θ) n k sillä kummassakin tapauksessa log-uskottavuusfunktio on l(θ) = k log θ + (n k) log(1 θ)

2.2.5 Esimerkki: toistokoemalli (rikkinäiset lamput) derivoimalla l (θ) = k θ n k 1 θ = k nθ θ(1 θ) havaitaan, että uskottavuusyhtälön ainoa ratkaisu θ = k/n on myös maksimi, joten su-estimaatit malleissa ovat θ(y) = θ(k) = k/n. su-estimaattorit ovat θ(y) = (Y 1 + + Y n )/n ja θ(k) = K/n. Huom! tapaukset k = 0 ja k = n ovat erityisiä/ongelmallisia.

2.2.6 Esimerkki: normaalimalli Monisteen Esimerkissä 2.1.7 b) ja kalvojen Esimerkissä 2.1.4 määräsimme log-uskottavuusfunktioksi l(θ) = n 2 log(σ2 ) 1 2σ 2 ( (n 1)s 2 + n(y µ) 2) kun tuntematon parametri θ = (µ, σ 2 ) R (0, ) = Ω. Etsitään su-estimaattia θ = ( µ, σ 2 ) Koska (y µ) 2 0, niin µ = y. Päädymme maksimoimaan yhden muuttujan funktiota l P (σ 2 ) = n (n 2 log(σ2 1)s2 ) 2σ 2 Derivaattatarkastelulla nähdään, että tämän funktion maksimikohta on σ 2 = σ 2 = n 1 n s2

2.2.6 Esimerkki: normaalimalli su-estimaattipari ( µ, σ 2 ) on siis µ = y = 1 n n y i, σ 2 = 1 n n (y i y) 2. i=1 i=1 Yleensä käytetään kuitenkin varianssin estimaattina otosvarianssia s 2, koska vastaava estimaattori S 2 on harhaton eli ES 2 = σ 2. Kun n ei ole liian pieni, on ero varianssin estimaattien välillä pieni.

2.2.7 Esimerkki: yhden selittäjän lineaarinen regressio Oletukset: Y i N(α + βx i, σ 2 ) ja Y 1,... Y n. Parametrina θ = (α, β, σ 2 ) ja Ω = R R (0, ). Mallin log-uskottavuusfunktio on l(α, β, σ 2 ) = n 2 log(σ2 ) 1 2σ 2 n (y i α βx i ) 2 i=1

2.2.7 Esimerkki: yhden selittäjän lineaarinen regressio Parametrivektorin θ = (α, β, σ 2 ) su-estimaatti on tässä tapauksessa α = y βx, (xi x)(y i y) β = (xi x) 2 σ 2 = 1 n (yi α βx i ) 2 Tässäkin mallissa varianssin estimointiin käytetään yleensä harhatonta estimaattia s 2 = 1 (yi α n 2 βx i ) 2

2.2.8 SU-estimaatin olemassaolo ja yksikäsitteisyys Onko su-estimaatin määritelmä ongelmaton? Onko su-estimaatti aina olemassa? Jos se on aina olemassa, onko su-estimaatti yksikäsitteinen?

2.2.8 SU-estimaatin olemassaolo ja yksikäsitteisyys Edellä tarkastelluissa esimerkeissä on aina löytynyt yksikäsitteinen parametriavaruuden piste θ(y), jossa uskottavuusfunktio saa suurimman arvonsa, paitsi ehkä joidenkin yksittäisten aineistojen y tapauksessa (vrt. 2.2.5). Joissakin malleissa näin ei ole ja näistä malliesimerkkinä (muutenkin kurssilla hieman poikkeavana esimerkkinä) toimii havainnot tasajakaumasta. Tarkastellaan esimerkkinä riippumatonta otosta välin (0, θ) tasajakaumasta, jossa θ > 0 on estimoitava parametri. Siis Y 1,..., Y n Tas(0, θ).

2.2.8 SU-estimaatin olemassaolo ja yksikäsitteisyys TN2a-kurssilla määrittelimme tasajakauman Tas(0, θ) tiheysfunktion yleensä seuraavasti f (y; θ) = θ 1 1{ 0 < y < θ } Jos merkitään y (n) = max(y 1,..., y n ), niin aineistoon liittyvän uskottavuusfunktion lauseke voidaan kirjoittaa muodossa { 1/θ n, kun θ > y L(θ; y) = f Y (y; θ) = (n), 0, kun 0 < θ y (n), Tällä uskottavuusfunktiolla L ei ole maksimia, joten vaikuttaisi että su-estimaattia ei ole olemassa, koska funktio vain lähestyy pienintä ylärajaansa, kun θ y (n).

2.2.8 SU-estimaatin olemassaolo ja yksikäsitteisyys TN2a-kurssilta tiedämme, että Tas(0, θ) tiheysfunktioksi kävisi myös f (y; θ) = θ 1 1{ 0 y θ } Tätä vastaava uskottavuusfunktion lauseke voidaan kirjoittaa muodossa { 1/θ n, kun θ y L(θ; y) = f Y (y; θ) = (n), 0, kun 0 < θ < y (n), Tämä uskottavuusfunktion L maksimi on θ = y (n), joten nyt su-estimaatti on olemassa! Esimerkki valaissee sitä, että jatkuvaan jakaumaan perustuvassa mallissa tiheysfunktioon liittyvä monikäsitteisyys aiheuttaa periaatteessa epämääräisyyttä su-estimaatin määrittelyyn.

2.2.8 SU-estimaatin olemassaolo ja yksikäsitteisyys Edellisen esimerkin ongelmat ovat yleensä vältettävissä valitsemalla tiheysfunktion versiot sopivalla (vakiintuneella) tavalla SU-estimaatti ei myöskään välttämättä ole yksikäsitteinen, sillä esimerkiksi tarkastelemalla riippumattomia havaintoja Tas(θ, θ + 1) jakaumasta (HT) havaitaan, että uskottavuusfunktio voi saavuttaa maksiminsa jopa ylinumeroituvassa joukossa

Bayesiläinen lähestyminen Totesimme aluksi, että tilastollinen malli f Y ( ; θ) vastasi bayesiläisittäin ajateltuna ehdollista jakaumaa f Y Θ (y θ) TN2b-kurssilta muistamme, että jos f Θ ( ) on sv:n Θ tiheys, niin kertolaskusäännöllä saamme sv:n (Y, Θ) yhteistiheyden. Yhteistiheys on nyt kahden muuttujan funktio, joten sitä voidaan ajatella myös θ:n funktiona kiintellä y. Erityisesti kun y on kiinteä. f Θ y (θ y) f Y,Θ (y, θ) = f Θ (θ)f Y Θ (y θ)

Bayesiläinen lähestyminen Totesimme aluksi, että tilastollinen malli f Y ( ; θ) vastasi bayesiläisittäin ajateltuna ehdollista jakaumaa f Y Θ (y θ) TN2b-kurssilta muistamme, että jos f Θ ( ) on sv:n Θ tiheys, niin kertolaskusäännöllä saamme sv:n (Y, Θ) yhteistiheyden. Yhteistiheys on nyt kahden muuttujan funktio, joten sitä voidaan ajatella myös θ:n funktiona kiintellä y. Erityisesti kun y on kiinteä. f Θ y (θ y) f Y,Θ (y, θ) = f Θ (θ)f Y Θ (y θ) Jos priorijakauma f θ (θ) 1, niin tällöin L(θ; y) f Θ Y (θ y)

Bayesiläinen lähestyminen Jos priorijakauma olisi siis tasainen, niin suurimman uskottavuuden estimaatti θ(y) olisi posteriorijakauman f Θ Y moodi! Kannattaa miettiä, mitä ongelmia sivuuttelimme. Tästä ja muusta lisää Bayesian inference -kurssilla (MAT22005).