Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä Antti Penttinen Jyväskylän yliopisto Matematiikan ja tilastotieteen laitos Metodifestivaalit Jyväskylän yliopisto 21.5.2013

Suunnitelma 1. 2. 3. Bayes-tilastotieteen perusidea 4. Sijaikotilasten sijoituksen pysyvyys 5. 6. Luettavaa

1. Miten epävarmuutta mitataan arkikielessä? todennäköisyyksin vetona Haaste: Kuinka tilastollinen epävarmuuden käsittely voidaan tehdä todennäköisyyksien avulla? (Myös veto voidaan esittää todennäköisyyksien avulla.) Eikö P-arvo ja luottamusväli ole juuri tätä? Ovat, mutta vain frekventistisen tulkinnan kautta.

2. Tilastollinen päättely on induktiivista logiikkaa: Bayes-tilastotiede perustuu todennäköisyysjakaumaan mahdollisille syille.

Thomas Bayes (1702-1761), englantilainen presbyteeripappi ja matemaatikko.

Sanotaan, että Bayes-tilastotiede on uusi lähestymistapa. Tosiasiassa bayesiläisyys on 1800-luvun tilastotieteen valtamenetelmä, tosin käänteisten todennäköisyyksien menetelmän nimellä. Edustajia: Pierre-Simon Laplace (1749-1827) Carl Friedrich Gauss (1777-1855) Voin väittää, että todennäköisyyksien avulla saamme luonnollisen lähestymistavan induktioon!

3. Bayes-tilastotieteen perusidea Olkoon A tuntematon suure ja data tehdyt havainnot. Silloin A:n posteriorijakauma ehdolla data on p(a data) = p(a) p(data A) p(data) joka tunnetaan Bayesin kaavana. Tässä p(a) on priori (ennakkokäsitys A:sta) p(data A) uskottavuus p(data) normeeraus todennäköisyysjakaumaksi.

4. Tarkastellaan sijoituskoteihin sijoitettujen lasten sijoituksen pysyvyyttä sijoitushetken iän funktiona. ika 0 2 3 4 5 6 7 8 9 10 12 13 15 onn. 9 4 5 1 5 2 2 1 0 0 1 0 0 yht. 15 4 7 1 6 4 7 4 3 1 4 3 3 Ongelma: Miten sijoitusikä vaikuttaa sijoituksen pysyvyyteen? Esim: Mikä on todennäköisyys, että iässä I sijoitetun lapsen sijoitus on pysyvä?

Havainnon malli y i θ i Bin(m i, θ i ), y i pysyviä, m i kaikkiaan, ikä i θ i = sijoituksen pysyvyyden todennäköisyys, ikä i. ( ) θi log = logit(θ i ) = α + β ika i. 1 θ i Binomijakauma on luonnollinen todennäköisyysjakauma tähän tilanteeseen (sijoitukset riippumattomia) Logistisen regressiomallin valinta perustuu aineistosta laskettuun kuvaajaan.

Estimoidut log-vetosuhteet iän funktiona:

Mallin suunnattu graa (DAG) DAG = Directed Asyclig Graph

Priorit α N(1, 0.2) β N(0, 0.5) Lisäksi α ja β ovat apriori riippumattomia.

Simuloitu posteriori Marginaaliposteriorit α:lle ja β:lle mean sd val2.5pc val97.5pc alpha 1.139 0.3121 0.5448 1.751 beta -0.242 0.05951-0.3593-0.13 Vertailun vuoksi: Suurimman uskottavuuden estimaatit ovat ˆα = 1.256 (0.472) ja ˆβ = 0.255 (0.0764).

Marginaaliposteriorit todennäköisyyksille: mean sd val2.5pc val97.5pc theta[1] 0.7529 0.05715 0.6329 0.8521 theta[2] 0.6559 0.05594 0.5413 0.7608 theta[3] 0.6004 0.0563 0.4859 0.7068 theta[4] 0.542 0.05846 0.4247 0.6547 theta[5] 0.4825 0.06243 0.3581 0.6046 theta[6] 0.4238 0.06732 0.2925 0.5554 theta[7] 0.3677 0.07193 0.2308 0.511 theta[8] 0.3157 0.07529 0.1752 0.4705 theta[9] 0.2686 0.07694 0.1324 0.4315 theta[10] 0.2269 0.0768 0.09624 0.3929 theta[11] 0.1594 0.07214 0.05121 0.3262 theta[12] 0.1329 0.06832 0.03672 0.299 theta[13] 0.0920 0.05932 0.01887 0.244

Sijoituksen pysyvyyden todennäköisyys: posteriorijakauman keskiarvot ja 95%:n Bayes-välit ikäluokittain.

Voidaan laskea tärkeitä posterioritodennäköisyyksiä: Mikä on pysyvyyden posterioritodennäköisyys, kun sijoitusikä on 9v?

WinBUGS -koodi model{ for (i in 1:N){ y[i] ~ dbin(theta[i],m[i]) logit(theta[i]) <- alpha + beta*ika[i] } alpha ~ dnorm(1,5) beta ~ dnorm(0,2) } data list(ika=c(0,2,3,4,5,6,7,8,9,10,12,13,15), y=c(9,4,5,1,5,2,2,1,0,0,1,0,0), m=c(15,4,7,1,6,4,7,4,3,1,4,3,3),n=13) inits list(alpha=1,beta=0)

5. Katsotaan eteenpäin. Mitkä ovat tilastotieteen haasteet? Tutkimusongelmat kompleksisia. Uudet havainnointitekniikat, (esim. MRI, fmri, EEG, MEG, moniulotteiset sekvenssit, sisältöanalyysi). Tyypillistä on epäsuora havainnointi ja kompleksiset virhelähteet. Suuret aineistot, mistä seuraa suuri heterogeenisuus ja puuttuvan tiedon määrän lisääntyminen. Tutkimusten määrä kasvaa, jolloin on tarve hyödyntää aiempia aineistoja ja tutkimuksia tehokkaasti (evidenssisynteesi, meta-analyysi).

Esimerkki genetiikasta: Henkilö i (kymmeniä tai satoja), vaste on Y i (perinnöllinen ominaisuus on/ei), geenien paikat x i1,..., x in, muuttujia satoja tai tuhansia. Sovelletaan lineaarista regressiomallia Y i = β 0 + β i x i1 + + β N x in + ɛ i, i = 1,..., m, missä nollasta poikkeavat β:t indikoivat vastaavan geenin vaikutuksesta. Mitenkäs tämä nyt tehdään, sillä m << N? (Klassisessa regressiossa vaaditaan m N + 1.) Valtamenetelmä on bayesilainen regularisointi ja sekoituspriorin soveltaminen.

Luettavaa Gill, J. (2008). Bayesian Methods. A Social and Behavioral Sciences Approach. Chapman & Hall/CRC. Lunn, D., Jackson, C., Best, N., Thomas, A. and Spiegelhalter, D. (2013). The BUGS Book. A Practical Introduction to Bayeian Analysis. CRC.