Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

Samankaltaiset tiedostot
P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen päättely, 10 op, 4 ov

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Bayesiläinen tilastollinen vaihtelu

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

1. Tilastollinen malli??

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence

Osa 2: Otokset, otosjakaumat ja estimointi

Tilastotieteen aihehakemisto

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

tilastotieteen kertaus

805306A Johdatus monimuuttujamenetelmiin, 5 op

2. Uskottavuus ja informaatio

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Mitä on bayesilainen päättely?

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Tilastotiede ottaa aivoon

Ryhmäfaktorianalyysi neurotiedesovelluksissa (Valmiin työn esittely) Sami Remes Ohjaaja: TkT Arto Klami Valvoja: Prof.

Bayesilainen päätöksenteko / Bayesian decision theory

Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely)

Pikajohdatus bayesilaiseen tilastoanalyysiin ja monimuuttuja-analyysiin

Todennäköisyyden ominaisuuksia

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

BOOTSTRAPPING? Jukka Nyblom Jyväskylän yliopisto. Metodifestivaali

T Luonnollisten kielten tilastollinen käsittely

Mallipohjainen klusterointi

Sovellettu todennäköisyyslaskenta B

TILASTOLLINEN OPPIMINEN

- voidaan käyttä lisämään tieteellistä ymmärrystä ilmiöstä. - joidenkin havaittavien suureiden vaikutus voi olla paljon suurempi kuin toisten

Estimointi. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Multinomijakauman ja Dirichlet-jakauman käytöstä bayesilaisessa päättelyssä

Dynaamiset regressiomallit

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

9. laskuharjoituskierros, vko 12-13, ratkaisut

Seurantojen otoskoon arviointi RKTL:ssä

Tilastollinen aineisto Luottamusväli

S Bayesilaisen mallintamisen perusteet

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I

Tilastotiede ottaa aivoon

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Teema 8: Parametrien estimointi ja luottamusvälit

805306A Johdatus monimuuttujamenetelmiin, 5 op

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä

1 Bayesin teoreeman käyttö luokittelijana

30A02000 Tilastotieteen perusteet

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

031021P Tilastomatematiikka (5 op)

JOHDATUS TEKOÄLYYN TEEMU ROOS

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Olli-Pekka Ryynänen sidonnaisuudet

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Kertymäfunktio. TKK (c) Ilkka Mellin (2007) 1

Tilastollisen päättelyn perusteet

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Jatkuvat satunnaismuuttujat

Terveydenhuollon tavoitteet

Sovellettu todennäköisyyslaskenta B

6.1.2 Yhdessä populaatiossa tietyn tyyppisten alkioiden prosentuaalista osuutta koskeva päättely

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Matemaatikot ja tilastotieteilijät

Väliestimointi (jatkoa) Heliövaara 1

Otoskoon arviointi. Tero Vahlberg

2. Teoriaharjoitukset

Kun datasta halutaan muodostaa malleja, ne ovat yleensä tilastollisia (esim. regressio, luokittelu, ryhmittely...) F(x 0 ) = P(x x 0 ) (1)

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Jatkuvia jakaumia

Lineaarinen toisen kertaluvun yhtälö

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Systemaattisen revision eliminointi palkkasummien suhdannekuvasta logistista regressiomallia soveltaen

Laskennallinen data-analyysi II

1. Tutkitaan tavallista kahden selittäjän regressiomallia

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

pisteet Frekvenssi frekvenssi Yhteensä

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Transkriptio:

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä Antti Penttinen Jyväskylän yliopisto Matematiikan ja tilastotieteen laitos Metodifestivaalit Jyväskylän yliopisto 21.5.2013

Suunnitelma 1. 2. 3. Bayes-tilastotieteen perusidea 4. Sijaikotilasten sijoituksen pysyvyys 5. 6. Luettavaa

1. Miten epävarmuutta mitataan arkikielessä? todennäköisyyksin vetona Haaste: Kuinka tilastollinen epävarmuuden käsittely voidaan tehdä todennäköisyyksien avulla? (Myös veto voidaan esittää todennäköisyyksien avulla.) Eikö P-arvo ja luottamusväli ole juuri tätä? Ovat, mutta vain frekventistisen tulkinnan kautta.

2. Tilastollinen päättely on induktiivista logiikkaa: Bayes-tilastotiede perustuu todennäköisyysjakaumaan mahdollisille syille.

Thomas Bayes (1702-1761), englantilainen presbyteeripappi ja matemaatikko.

Sanotaan, että Bayes-tilastotiede on uusi lähestymistapa. Tosiasiassa bayesiläisyys on 1800-luvun tilastotieteen valtamenetelmä, tosin käänteisten todennäköisyyksien menetelmän nimellä. Edustajia: Pierre-Simon Laplace (1749-1827) Carl Friedrich Gauss (1777-1855) Voin väittää, että todennäköisyyksien avulla saamme luonnollisen lähestymistavan induktioon!

3. Bayes-tilastotieteen perusidea Olkoon A tuntematon suure ja data tehdyt havainnot. Silloin A:n posteriorijakauma ehdolla data on p(a data) = p(a) p(data A) p(data) joka tunnetaan Bayesin kaavana. Tässä p(a) on priori (ennakkokäsitys A:sta) p(data A) uskottavuus p(data) normeeraus todennäköisyysjakaumaksi.

4. Tarkastellaan sijoituskoteihin sijoitettujen lasten sijoituksen pysyvyyttä sijoitushetken iän funktiona. ika 0 2 3 4 5 6 7 8 9 10 12 13 15 onn. 9 4 5 1 5 2 2 1 0 0 1 0 0 yht. 15 4 7 1 6 4 7 4 3 1 4 3 3 Ongelma: Miten sijoitusikä vaikuttaa sijoituksen pysyvyyteen? Esim: Mikä on todennäköisyys, että iässä I sijoitetun lapsen sijoitus on pysyvä?

Havainnon malli y i θ i Bin(m i, θ i ), y i pysyviä, m i kaikkiaan, ikä i θ i = sijoituksen pysyvyyden todennäköisyys, ikä i. ( ) θi log = logit(θ i ) = α + β ika i. 1 θ i Binomijakauma on luonnollinen todennäköisyysjakauma tähän tilanteeseen (sijoitukset riippumattomia) Logistisen regressiomallin valinta perustuu aineistosta laskettuun kuvaajaan.

Estimoidut log-vetosuhteet iän funktiona:

Mallin suunnattu graa (DAG) DAG = Directed Asyclig Graph

Priorit α N(1, 0.2) β N(0, 0.5) Lisäksi α ja β ovat apriori riippumattomia.

Simuloitu posteriori Marginaaliposteriorit α:lle ja β:lle mean sd val2.5pc val97.5pc alpha 1.139 0.3121 0.5448 1.751 beta -0.242 0.05951-0.3593-0.13 Vertailun vuoksi: Suurimman uskottavuuden estimaatit ovat ˆα = 1.256 (0.472) ja ˆβ = 0.255 (0.0764).

Marginaaliposteriorit todennäköisyyksille: mean sd val2.5pc val97.5pc theta[1] 0.7529 0.05715 0.6329 0.8521 theta[2] 0.6559 0.05594 0.5413 0.7608 theta[3] 0.6004 0.0563 0.4859 0.7068 theta[4] 0.542 0.05846 0.4247 0.6547 theta[5] 0.4825 0.06243 0.3581 0.6046 theta[6] 0.4238 0.06732 0.2925 0.5554 theta[7] 0.3677 0.07193 0.2308 0.511 theta[8] 0.3157 0.07529 0.1752 0.4705 theta[9] 0.2686 0.07694 0.1324 0.4315 theta[10] 0.2269 0.0768 0.09624 0.3929 theta[11] 0.1594 0.07214 0.05121 0.3262 theta[12] 0.1329 0.06832 0.03672 0.299 theta[13] 0.0920 0.05932 0.01887 0.244

Sijoituksen pysyvyyden todennäköisyys: posteriorijakauman keskiarvot ja 95%:n Bayes-välit ikäluokittain.

Voidaan laskea tärkeitä posterioritodennäköisyyksiä: Mikä on pysyvyyden posterioritodennäköisyys, kun sijoitusikä on 9v?

WinBUGS -koodi model{ for (i in 1:N){ y[i] ~ dbin(theta[i],m[i]) logit(theta[i]) <- alpha + beta*ika[i] } alpha ~ dnorm(1,5) beta ~ dnorm(0,2) } data list(ika=c(0,2,3,4,5,6,7,8,9,10,12,13,15), y=c(9,4,5,1,5,2,2,1,0,0,1,0,0), m=c(15,4,7,1,6,4,7,4,3,1,4,3,3),n=13) inits list(alpha=1,beta=0)

5. Katsotaan eteenpäin. Mitkä ovat tilastotieteen haasteet? Tutkimusongelmat kompleksisia. Uudet havainnointitekniikat, (esim. MRI, fmri, EEG, MEG, moniulotteiset sekvenssit, sisältöanalyysi). Tyypillistä on epäsuora havainnointi ja kompleksiset virhelähteet. Suuret aineistot, mistä seuraa suuri heterogeenisuus ja puuttuvan tiedon määrän lisääntyminen. Tutkimusten määrä kasvaa, jolloin on tarve hyödyntää aiempia aineistoja ja tutkimuksia tehokkaasti (evidenssisynteesi, meta-analyysi).

Esimerkki genetiikasta: Henkilö i (kymmeniä tai satoja), vaste on Y i (perinnöllinen ominaisuus on/ei), geenien paikat x i1,..., x in, muuttujia satoja tai tuhansia. Sovelletaan lineaarista regressiomallia Y i = β 0 + β i x i1 + + β N x in + ɛ i, i = 1,..., m, missä nollasta poikkeavat β:t indikoivat vastaavan geenin vaikutuksesta. Mitenkäs tämä nyt tehdään, sillä m << N? (Klassisessa regressiossa vaaditaan m N + 1.) Valtamenetelmä on bayesilainen regularisointi ja sekoituspriorin soveltaminen.

Luettavaa Gill, J. (2008). Bayesian Methods. A Social and Behavioral Sciences Approach. Chapman & Hall/CRC. Lunn, D., Jackson, C., Best, N., Thomas, A. and Spiegelhalter, D. (2013). The BUGS Book. A Practical Introduction to Bayeian Analysis. CRC.