Tilastollinen päättely, 0 op, 4 ov Arto Luoma Matematiikan, tilastotieteen ja filosofian laitos Tilastotiede 3304 TAMPEREEN YLIOPISTO Syksy 2006 Kirjallisuutta Garthwaite, Jolliffe, Jones Statistical Inference, Second Edition, Prentice Hall, 2002 Rohatgi, Statistical Inference, Prentice Hall, 2002 Casella, Berger, Statistical Inference, Brooks/Cole, 2002 Williams, Weighing the Odds, a Course in Probability and Statistics, Cambridge University Press, 200 Ross, Introduction to Probability Models, Academic Press, 2002 Davison, Statistical Models, Cambridge University Press, 2003
Kurssin sisältö Ensimmäinen jakso. bayesiläisen päättelyn perusteet (priorijakauma, uskottavuusfunktio, posteriorijakauma, Bayes-estimaattori) 2. konjugaattinen priorijakauma, epäinformatiivinen priorijakauma, 3. bayesiläiset luottamusvälit, bayesiläinen hypoteesien testaus 4. johdatus epäparametrisiin menetelmiin (permutaatiotestit, järjestyslukutestit) 5. laskentaintensiiviset menetelmät (bootstrap, linkkuveitsimenetelmä) Toinen jakso 6. johdatus Markovin ketjuihin 7. laskentaintensiiviset menetelmät (Gibbsin poimija, Metropolis-algoritmi) 8. tilastollinen mallinvalinta (ristiinvalidointi, informaatiokriteerit) 2
Bayesiläinen tilastotiede. Perusteita Bayesin kaava Bayesiläinen tilastotiede perustuu Bayesin kaavan käyttöön. Oletetaan, että tapahtumat A, A 2,..., A k osittavat otosavaruuden Ω, (ts. Ω = A A 2... A k, A i A j =, kun i j), ja B on jokin otosavaruuden tapahtuma, jolle Pr(B) > 0. Tällöin Bayesin kaava on Pr(A j B) = Pr(A j ) Pr(B A j ) kj= Pr(A j ) Pr(B A j ). Bayesin kaavalla voidaan kääntää ehdollisia todennäköisyyksiä. Jos nimittäin tunnetaan osatapahtumien A j todennäköisyydet ja tapahtuman B ehdolliset todennäköisyydet Pr(B A j ), j =,..., k, kaavan avulla voidaan laskea osatapahtumien A j ehdolliset todennäköisyydet Pr(A j B). Bayesiläisessä kielenkäytössä tapahtumien A j todennäköisyyksiä Pr(A j )kutsutaan prioritodennäköisyyksiksi ja ehdollisia todennäköisyyksiä Pr(A j B) posterioritodennäköisyyksiksi. Tapahtuman A j posterioritodennäköisyys voidaan ilmoittaa sen jälkeen, kun tiedetään, onko B tapahtunut. Esim. Diagnostiset testit Olkoon γ jonkin sairauden esiintyvyys ja θ osoitinmuuttuja, joka ilmoittaa, onko yksittäisellä henkilöllä kyseinen sairaus (θ =, jos sairas, ja θ = 0, jos terve). Diagnostinen testi antaa tuloksen Y, jonka jakauman kertymäfunktio on F (y), jos henkilöllä on sairaus, ja F 0 (y), jos ei ole. Yleisin testityyppi on sellainen, jossa henkilö ilmoitetaan sairastuneeksi, jos Y > y 0, missä y 0 on aikaisempien tutkimusten perusteella kiinnitetty raja. Nyt voidaan laskea Bayesin kaavan avulla sairauden todennäköisyys, jos raja y 0 ylittyy: Pr(θ = Y > y 0 ) = = Pr(θ = ) Pr(Y > y 0 θ = ) Pr(θ = ) Pr(Y > y 0 θ = ) + Pr(θ = 0) Pr(Y > y 0 θ = 0) γ[ F (y 0 )] γ[ F (y 0 )] + ( γ)[ F 0 (y 0 )]. Tämä todennäköisyys on testin positiivinen ennustearvo, F 0 (y 0 ) on testin spesifisyys (tn. että terve henkilö ilmoitetaan terveeksi) ja F (y 0 ) testin herkkyys (sensitivity, tn. että sairas ilmoitetaan sairaaksi). Yleensä testi 3
pyritään suunnittelemaan niin, että sekä herkkyys, että spesifisyys ovat mahdollisimman korkeita. Priori- ja posteriorijakauma Yleisemmässä tapauksessa parametrilla θ voi olla useita arvoja ja niiden prioritodennäköisyyksiä voidaan kuvata priorijakauman todennäköisyysfunktiolla tai jatkuvassa tapauksessa priorijakauman tiheysfunktiolla π(θ). Tämä kuvaa tutkijan ennakkokäsitystä eri parametriarvojen todennäköisyyksistä. (Huomaa ero klassiseen tilastotieteeseen, jossa parametrit ovat tuntemattomia mutta kiinteitä eli epäsatunnaisia). Siis bayesiläisessä tilastotieteessä parametrejäkin käsitellään satunnaismuuttujina. Kun on käytössä havaintoaineisto y, parametria koskevaa ennakkokäsitystä voidaan tarkentaa. Bayesin kaavan avulla voidaan laskea parametrien arvoille posterioritodennäköisyydet, jotka ovat siis ehdollisia todennäköisyyksiä, kun havaintoaineisto on annettu. Jos parametri θ voi saada arvot,..., k, ja näillä on proritodennäköisyydet π,.., π k, posterioritodennäköisyydet ilmoittaa posteriorijakauman todennäköisyysfunktio Pr(θ = j y) = π jf(y θ = j) ki=, j =,..., k. () π i f(y θ = i) Kun parametri θ on jatkuva-arvoinen, voidaan ilmoittaa posteriorijakauman tiheysfunktio π(θ y) = π(θ)f(y θ), (2) p(θ)f(y θ)dθ missä siis π(θ) on priorijakauman tiheysfunktio ja f(y θ) on havaintojen yhteisjakauman tiheysfunktio eli uskottavuusfunktio. Esim. Lääkkeen markkinaosuus Lääketehdas aikoo markkinoida uuden lääkkeen happovaivoihin ja haluaa selvittää kyseisen lääkkeen potentiaalisen markkinaosuuden θ. Tutkimuksessa haastatellaan n:ää henkilöä ja heistä Y sanoo aikovansa ostaa lääkettä. Ei-bayesiläisen analyysin mukaan θ [0, ] ja Y noudattaa binomijakaumaa parametrein n ja θ. Aiemman perusteella tiedämme, että ˆθ = Y/n on erinomainen θ:n estimaattori. Se on θ:n suurimman uskottavuuden estimaattori, harhaton, minimivarianssinen, tarkentuva ja asymptoottisesti normaalinen. Bayesiläisen lähestymistavan mukaisesti pyritään hankkimaan etukäteen tiedossa olevaa θ:aa koskevaa informaatiota. Tässä tapauksessa voidaan käyttää hyväksi aiemmin markkinoitujen vastaavantyyppisten lääkkeiden tarjoa- 4
maa markkinainformaatiota. Jos niiden valloittamien markkinaosuuksien arvot vaihtelevat välillä 0.05 0.5 ja oletamme arvot mainitulla välillä tasajakutuneeksi, niin θ:n priorijakauman tiheysfunktio on tällöin π(θ) = { /(0.5 0.05) = 0, 0.05 θ 0.5 0, muualla. Tällöin havainnon Y ja parametrin θ yhteisjakauman tiheysfunktio on ( ) n u(y, θ) = π(θ)f(y θ) = 0 θ y ( θ) n y, y kun y = 0,,..., n, θ [0.05, 0.5], ja havainnon y reunajakauman todennäköisyysfunktio ( ) n 0.5 g(y) = 0 θ y ( θ) n y dθ. y 0.05 Siis θ:n posteriorijakaumaksi saadaan π(θ y) = θ y ( θ) n y 0.5 0.05 θy ( θ) n y dθ. Esim. Rakkularuostesieni Yhdysvaltain luoteisosien ja Kanadan tunnetuin mäntylaji on valkomänty. Se on altis rakkularuostesairaudelle, joka aiheuttaa ruostesientä ja haavaumia kuoreen. Nämä haavaumat laajenevat ja aiheuttavat pienten oksien ja taimien kuolemia. Metsänhoitaja haluaa estimoida hehtaaria kohti sairastuneiden puiden lukumäärän keskiarvon. Sairastuneiden puiden lukumäärää hehtaarilla voidaan pitää Poissonjakautuneena satunnaismuutujana parametrinä λ. Koska parametri λ vaihtelee eri alueilla, pidetään sitä eksponenttijakaumaa noudattavana satunnaismuuttujana λ odotusarvona θ, joten π(λ) = { θ e λ/θ, jos λ > 0 0, muualla. Tutkimusta varten valitaan n:ltä erilaiselta hehtaarin alueelta n:n alkion otos. Tällöin 5
i= y i e nλ u(y,..., y n, λ) = θ e λ/θ λ n ni= y i! ja g(y,..., y n ) = θ n i= y i! 0 ( n ) = Γ y i + i= e λ(n+/θ) λ n i= y i dλ (n + /θ) n i= y i+ θ n i= y i!, missä edellä oleva integraali on laskettu ottamalla huomioon, että se on gammaintegraali parametrein α = n i= y i + ja β = n + /θ. Posteriorijakaumaksi λ:lle saamme nyt siis π(λ y,..., y n ) = (n + /θ) n i= y i+ Γ ( n λ n i= y i e λ(n+/θ), i= y i + ) joka on gammajakauman tiheysfunktio parametrein α = n i= y i + β = (nθ + )/θ. ja 6