Bayesiläinen tilastollinen vaihtelu

Samankaltaiset tiedostot
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Tilastollinen aineisto Luottamusväli

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Bayesilainen päätöksenteko / Bayesian decision theory

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Harjoitus 7: NCSS - Tilastollinen analyysi

Sovellettu todennäköisyyslaskenta B

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. Tilastollinen malli??

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Mat Tilastollisen analyysin perusteet, kevät 2007

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Osa 2: Otokset, otosjakaumat ja estimointi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

805306A Johdatus monimuuttujamenetelmiin, 5 op

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Tilastollinen päättely, 10 op, 4 ov

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Uskomusverkot: Lääketieteelliset sovellukset

Testit järjestysasteikollisille muuttujille

Estimointi. Vilkkumaa / Kuusinen 1

Väliestimointi (jatkoa) Heliövaara 1

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Mitä on bayesilainen päättely?

riippumattomia ja noudattavat samaa jakaumaa.

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Sovellettu todennäköisyyslaskenta B

tilastotieteen kertaus

Sovellettu todennäköisyyslaskenta B

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

2. Uskottavuus ja informaatio

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

pisteet Frekvenssi frekvenssi Yhteensä

Harjoitus 2: Matlab - Statistical Toolbox

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Pikajohdatus bayesilaiseen tilastoanalyysiin ja monimuuttuja-analyysiin

pitkittäisaineistoissa

Sovellettu todennäköisyyslaskenta B

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Matemaatikot ja tilastotieteilijät

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Mallipohjainen klusterointi

pitkittäisaineistoissa

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Testit laatueroasteikollisille muuttujille

Parametrin estimointi ja bootstrap-otanta

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

- voidaan käyttä lisämään tieteellistä ymmärrystä ilmiöstä. - joidenkin havaittavien suureiden vaikutus voi olla paljon suurempi kuin toisten

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mikrobikriteereiden arviointi esimerkkinä kampylobakteeri

Inversio-ongelmien laskennallinen peruskurssi Luento 7

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

30A02000 Tilastotieteen perusteet

Sovellettu todennäköisyyslaskenta B

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

MTTTP5, luento Luottamusväli, määritelmä

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

JOHDATUS TEKOÄLYYN LUENTO 4.

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Tutkimustiedonhallinnan peruskurssi

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

Yhteistyötä sisältämätön peliteoria jatkuu

Ryhmäfaktorianalyysi neurotiedesovelluksissa (Valmiin työn esittely) Sami Remes Ohjaaja: TkT Arto Klami Valvoja: Prof.

Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely)

Todennäköisyyden ominaisuuksia

Epävarmuuden hallinta bootstrap-menetelmillä

TILASTOLLINEN OPPIMINEN

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Testejä suhdeasteikollisille muuttujille

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Kertausluento. Tilastollinen päättely II - 2. kurssikoe

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Transkriptio:

Bayesiläinen tilastollinen vaihtelu Janne Pitkäniemi FT, dos. (biometria), joht. til. tiet Suomen Syöpärekisteri Hjelt-instituutti /Helsingin yliopisto

Periaatteet Tilastollinen vaihtelu koskee perusjoukon tuntemattomia parametreja Tilastollisen vaihtelun kehikossa yhdistetään perusjoukon aineisto ja parametrit yhdistetään tilastolllisen mallin avulla (uskottavuusfunktio) Baysiläinen ajattelu yhdistää otoksen (data) ja priori tiedon sekä tuottaa tuoksena jakauman muodossa tietoa (posteriori) siitä mitä parametrien arvot voisivat olla kun priori tietoa päivitetään aineiston tuomalla informaatiolla. Bayesiläinen vaihtelua voidaan laskea hyvinkin vaikeille malleille, jotka kuvaavat todellisia ilmiöitä realistisemmin 2

Periaatteet Tieteellisten teorioiden epävarmuus huomioidaan Tutkijan uskomukset esim. hoitoefektin voimakkuudesta muutetaan todennäköisyysjakaumiksi Nämä ovat siis tutkija valitsemia subjektiivisia Kun uutta tietoa ilmenee nämä tn. voidaan päivittää Tasapainoilua ennakkokäsitysten ja aineiston välillä => periaate - annetaan kuitenkin datan päättää! 3

Bayes kaavaa kohti - Diagnostinen testi Hypertensio Testi (T) + - + 15 25 40-5 55 60 Yhteensä 20 80 100 Taudin todennäköisyys (prevalenssi) P ( Hypertensio=+)= 20 100 =0.20 4

Bayes kaavaa kohti - Diagnostinen testi Hypertensio Testi (T) + - + 15 25 40-5 55 60 Yhteensä 20 80 100 P (Testi =+; Hypertensio=+) Testin sensitiivisyys = P (Testi=+ Hypertensio=+) P ( Hypertensio=+) = 15/100 20/100 =0.75 5

Bayes kaavaa kohti - Diagnostinen testi Hypertensio Testi (T) + - + 15 25 40-5 55 60 Yhteensä 20 80 100 P (Testi= ; Hypertensio= ) Testin spesifisyys = P (Testi= Hypertensio= ) P (Hypertensio= ) = 55/100 80/100 =0.69 6

= Halutaan tietää miten testi toimii toisessa havaintojen joukossa, jossa taudin esiintyvyys on erilainen (30%) Positiivinen ennustearvo (PPV) sensitiivisyys P (D=+;T =+) Hypertensio (D) Testi (T) + - + 15 25 40-5 55 60 Yhteensä 20 80 100 P (T =+; D=+)P (D=+) P (T =+; D=+) P (D=+)+P (T =+; D= ) P (D= ) = Bayes kaavan sovellus - Diagnostinen testi (15/20) (0.30) (15/20) (0.30)+(25/80) (1 0.30) =0.51 Prevalenssi (priori) 7

Olkoon Y havaintoaineisto ja parametrit Bayesiläinen vaihtelu P(θ ;Y )= θ P(Y ;θ) P(θ) P(Y ) P(Y ;θ) P(θ) tilastollisen mallin Posteriorijakauma Uskottavuusfunktio (likelihood) Priori jakauma Aineisto muokkaa priori käsitystämme 8

Bayesiläinen vaihtelu Data Priori käsitykset Bayes lause Posteriori jakauma 9

Esimerkki - prevalenssin vaihtelu Halutaan arvoida rintasyövän yleisyyttä (prevalenssi) Vuoden 2010 lopussa 54 981 elossaolevaa sairastanutta ja väestön määrä 2010 2 748 733 p = 0.02000231 Prevalenssin arvio (estimaatti) on n. 2,000 tapausta 100,000 henkieä kohti Posteriorijakauma Uskottavuusfunktio (likelihood) Priori jakauma Aineisto muokkaa priori käsitystämme 10

Bayes - malli Oletetaan että rintasyöpätapauksien lukumäärää voidaan mallinttaa kaksiluokkaisten tapahtumien summana - binomijakauma. Tällöin havaittu potilaiden lukumäärä väestössä on satunnaismuuttuja r i Bin( p i ; N i ) Oletataan että aikaisempaa käsitystä prevalenssista ei ole (priori) => prevalenssi mitä tahansa välillä [0,1] ja jokainen arvo yhtä tn. p i Beta(1.0,1.0) 11

Esimerkki- Bayes vaihtelu beta jakauma Beta (1,1) Posteriorijakauma Uskottavuusfunktio (likelihood) Priori jakaumia Aineisto muokkaa priori käsitystämme 12

Bayes vaihtelu -winbugs prevalenssin posteriorjakauma Prevalenssin estimaatti (posteriori keskiarvo) Prevalenssin 95 uskottavuusväli (posteriori credible interval) 13

Esimerkki- posteriori Koska posteriori jakauma on tunnettu voidaan simuloida prevalensseja suoraan ko. Jakaumasta ja tehdä paatelmiä sen perusteella. Kokonaislukumäärä (populaatio) Syöpätapauksien lukumäärä Posteriori, jossa valittu priori beta (1,1) N<-2748733 d<-54981 x <- rbeta(1000,d+1-1, N-d+1-1) 14

Esimerkki- posteriori 15

Esimerkki- posteriori Voidaan laskea esim. prosentti pisteet, mediaani ja niiden 95% uskottavuusväli suoraan jakaumasta 100000*quantile(x,c(0.05,0.5,0.95)) 5% 50% 95% 1986.561 2000.015 2014.052 > mean(x>0.02010) 0.117 Prevalenssin (per 100,000) posteriorijakauman Prosenttipisteet Todennäköisyys että oikea pj. prevalenssi on suurempi kuin 2010 on 11.7% 16

Bayes faktori Frekventistisen p-arvo on vain nollahypoteesin testaamisen tarkoitettu Se ei kerro mitään esim. hoitoeron suuruudesta Bayes faktori (K) on tarkoitettu mallien vertailuun Jos K>1 niin aineisto tukee enemmän mallia 1 (M1) kuin mallia 2 (M2) Tulkintaa auttamaan 17

Hierarkkinen Bayes malli Voidaan yhdistää informaatiota eri tietolähteistä samaa tilastollisen analyysin kehikkoon Esimerkkejä Spatiaalinen analyysi pienalueiden infromaatiota voidaan hyödyntää Meta-analyysi eri tutkimusten tulokset voidaan yhdistää samaan analyysiin Eri tasoiset hallinnolliset rakenteet potilas, terveyskeskus, sote-alue Tilastollinen mallin valinta 18

Hierarkkinen Bayes malli This example considers mortality rates in 12 hospitals performing cardiac surgery in babies. The data are shown below. Hospital No of ops No of deaths A 47 0 B 148 18 C 119 8 D 810 46 E 211 8 F 196 13 G 148 9 H 215 31 I 207 14 J 97 8 K 256 29 L 360 24 19

Hierarkkinen Bayes malli Oletetaan että kuolemien lukumäärää sairaalassa i r i voidaan mallittaa kaksiluokkaisten tapahtumien summana. Olkoon potilaiden lukumäärä N i r i Bin( p i, N i ) Oletataan että kuolleisuudet ovat sairaaloiden välillä riippumattomat (priori) p i Beta(1.0,1.0) 20

Hierarkkinen Bayes malli Tilastollinen malli graafisesti kuvattuna - ei hierarkiaa p[i] n[i] Operaatitoiden lukumäärä Kuolemien lukumäärä r[i] for(i IN 1 : N) Sairaaloiden lukumäärä 21

Hierarkkinen Bayes malli Realistisempi malli olettaa että kuolleisuudet ovat sairaaloiden kesken samankaltaiset mutta satunnaiset => Muutetaan priori käsitystämme logit ( p i )=b i b i N (μ, τ) Muunnos p/(1-p) Sairaalakohtainen satunnaisvaikutus 22

Hierarkkinen Bayes malli Hierarkkinen tilastollinen malli - graafisesti kuvattuna populaatiotaso satunnaisvaikutus yksilötaso 23

Hierarkkinen Bayes malli Kiinteiden vaikutusten malli 24

Hierarkkinen Bayes malli Satunnaisten vaikutusten malli 25

Hierarkkinen Bayes malli Sairaaloiden järjestystä kuolleisuuden suhteen voidaan arvoida suoraan Bayesiläisen hierarkkisen mallin tuloksista Voidaan toteuttaa laskemalla suoraa simuloimalla järjestyslukujen jakauma 26

Hierarkkinen Bayes malli 27

Hierarkkinen Bayes malli - Bayesian model averaging Lasten alhainen syntymäpaino ja sen riskitekijät The birthwt data frame has 189 subject and 10 variables. The data were collected at Baystate Medical Center, Springfield, Mass during 1986. Low - indicator of birth weight less than 2.5 kg. (0,1) Age - mother's age in years. Lwt - mother's weight in pounds at last menstrual period. Race - mother's race (1 = white, 2 = black, 3 = other). Smoke - smoking status during pregnancy. Ptl - number of previous premature labours. Ht - history of hypertension. Ui - presence of uterine irritability. Ftv - number of physician visits during the first trimester. Bwt - birth weight in grams. Selitettävät muuttujat Y=1 <2.5kg; 0 muuten Selitettävä muuttuja Y=1 <2.5kg, 0 muuten 28

Hierarkkinen Bayes malli - Bayesian model averaging Vaikutus Mallin tn 29