Bayesiläinen tilastollinen vaihtelu

Bayesiläinen tilastollinen vaihtelu Janne Pitkäniemi FT, dos. (biometria), joht. til. tiet Suomen Syöpärekisteri Hjelt-instituutti /Helsingin yliopisto

Periaatteet Tilastollinen vaihtelu koskee perusjoukon tuntemattomia parametreja Tilastollisen vaihtelun kehikossa yhdistetään perusjoukon aineisto ja parametrit yhdistetään tilastolllisen mallin avulla (uskottavuusfunktio) Baysiläinen ajattelu yhdistää otoksen (data) ja priori tiedon sekä tuottaa tuoksena jakauman muodossa tietoa (posteriori) siitä mitä parametrien arvot voisivat olla kun priori tietoa päivitetään aineiston tuomalla informaatiolla. Bayesiläinen vaihtelua voidaan laskea hyvinkin vaikeille malleille, jotka kuvaavat todellisia ilmiöitä realistisemmin 2

Periaatteet Tieteellisten teorioiden epävarmuus huomioidaan Tutkijan uskomukset esim. hoitoefektin voimakkuudesta muutetaan todennäköisyysjakaumiksi Nämä ovat siis tutkija valitsemia subjektiivisia Kun uutta tietoa ilmenee nämä tn. voidaan päivittää Tasapainoilua ennakkokäsitysten ja aineiston välillä => periaate - annetaan kuitenkin datan päättää! 3

Bayes kaavaa kohti - Diagnostinen testi Hypertensio Testi (T) + - + 15 25 40-5 55 60 Yhteensä 20 80 100 Taudin todennäköisyys (prevalenssi) P ( Hypertensio=+)= 20 100 =0.20 4

Bayes kaavaa kohti - Diagnostinen testi Hypertensio Testi (T) + - + 15 25 40-5 55 60 Yhteensä 20 80 100 P (Testi =+; Hypertensio=+) Testin sensitiivisyys = P (Testi=+ Hypertensio=+) P ( Hypertensio=+) = 15/100 20/100 =0.75 5

Bayes kaavaa kohti - Diagnostinen testi Hypertensio Testi (T) + - + 15 25 40-5 55 60 Yhteensä 20 80 100 P (Testi= ; Hypertensio= ) Testin spesifisyys = P (Testi= Hypertensio= ) P (Hypertensio= ) = 55/100 80/100 =0.69 6

= Halutaan tietää miten testi toimii toisessa havaintojen joukossa, jossa taudin esiintyvyys on erilainen (30%) Positiivinen ennustearvo (PPV) sensitiivisyys P (D=+;T =+) Hypertensio (D) Testi (T) + - + 15 25 40-5 55 60 Yhteensä 20 80 100 P (T =+; D=+)P (D=+) P (T =+; D=+) P (D=+)+P (T =+; D= ) P (D= ) = Bayes kaavan sovellus - Diagnostinen testi (15/20) (0.30) (15/20) (0.30)+(25/80) (1 0.30) =0.51 Prevalenssi (priori) 7

Olkoon Y havaintoaineisto ja parametrit Bayesiläinen vaihtelu P(θ ;Y )= θ P(Y ;θ) P(θ) P(Y ) P(Y ;θ) P(θ) tilastollisen mallin Posteriorijakauma Uskottavuusfunktio (likelihood) Priori jakauma Aineisto muokkaa priori käsitystämme 8

Bayesiläinen vaihtelu Data Priori käsitykset Bayes lause Posteriori jakauma 9

Esimerkki - prevalenssin vaihtelu Halutaan arvoida rintasyövän yleisyyttä (prevalenssi) Vuoden 2010 lopussa 54 981 elossaolevaa sairastanutta ja väestön määrä 2010 2 748 733 p = 0.02000231 Prevalenssin arvio (estimaatti) on n. 2,000 tapausta 100,000 henkieä kohti Posteriorijakauma Uskottavuusfunktio (likelihood) Priori jakauma Aineisto muokkaa priori käsitystämme 10

Bayes - malli Oletetaan että rintasyöpätapauksien lukumäärää voidaan mallinttaa kaksiluokkaisten tapahtumien summana - binomijakauma. Tällöin havaittu potilaiden lukumäärä väestössä on satunnaismuuttuja r i Bin( p i ; N i ) Oletataan että aikaisempaa käsitystä prevalenssista ei ole (priori) => prevalenssi mitä tahansa välillä [0,1] ja jokainen arvo yhtä tn. p i Beta(1.0,1.0) 11

Esimerkki- Bayes vaihtelu beta jakauma Beta (1,1) Posteriorijakauma Uskottavuusfunktio (likelihood) Priori jakaumia Aineisto muokkaa priori käsitystämme 12

Bayes vaihtelu -winbugs prevalenssin posteriorjakauma Prevalenssin estimaatti (posteriori keskiarvo) Prevalenssin 95 uskottavuusväli (posteriori credible interval) 13

Esimerkki- posteriori Koska posteriori jakauma on tunnettu voidaan simuloida prevalensseja suoraan ko. Jakaumasta ja tehdä paatelmiä sen perusteella. Kokonaislukumäärä (populaatio) Syöpätapauksien lukumäärä Posteriori, jossa valittu priori beta (1,1) N<-2748733 d<-54981 x <- rbeta(1000,d+1-1, N-d+1-1) 14

Esimerkki- posteriori 15

Esimerkki- posteriori Voidaan laskea esim. prosentti pisteet, mediaani ja niiden 95% uskottavuusväli suoraan jakaumasta 100000*quantile(x,c(0.05,0.5,0.95)) 5% 50% 95% 1986.561 2000.015 2014.052 > mean(x>0.02010) 0.117 Prevalenssin (per 100,000) posteriorijakauman Prosenttipisteet Todennäköisyys että oikea pj. prevalenssi on suurempi kuin 2010 on 11.7% 16

Bayes faktori Frekventistisen p-arvo on vain nollahypoteesin testaamisen tarkoitettu Se ei kerro mitään esim. hoitoeron suuruudesta Bayes faktori (K) on tarkoitettu mallien vertailuun Jos K>1 niin aineisto tukee enemmän mallia 1 (M1) kuin mallia 2 (M2) Tulkintaa auttamaan 17

Hierarkkinen Bayes malli Voidaan yhdistää informaatiota eri tietolähteistä samaa tilastollisen analyysin kehikkoon Esimerkkejä Spatiaalinen analyysi pienalueiden infromaatiota voidaan hyödyntää Meta-analyysi eri tutkimusten tulokset voidaan yhdistää samaan analyysiin Eri tasoiset hallinnolliset rakenteet potilas, terveyskeskus, sote-alue Tilastollinen mallin valinta 18

Hierarkkinen Bayes malli This example considers mortality rates in 12 hospitals performing cardiac surgery in babies. The data are shown below. Hospital No of ops No of deaths A 47 0 B 148 18 C 119 8 D 810 46 E 211 8 F 196 13 G 148 9 H 215 31 I 207 14 J 97 8 K 256 29 L 360 24 19

Hierarkkinen Bayes malli Oletetaan että kuolemien lukumäärää sairaalassa i r i voidaan mallittaa kaksiluokkaisten tapahtumien summana. Olkoon potilaiden lukumäärä N i r i Bin( p i, N i ) Oletataan että kuolleisuudet ovat sairaaloiden välillä riippumattomat (priori) p i Beta(1.0,1.0) 20

Hierarkkinen Bayes malli Tilastollinen malli graafisesti kuvattuna - ei hierarkiaa p[i] n[i] Operaatitoiden lukumäärä Kuolemien lukumäärä r[i] for(i IN 1 : N) Sairaaloiden lukumäärä 21

Hierarkkinen Bayes malli Realistisempi malli olettaa että kuolleisuudet ovat sairaaloiden kesken samankaltaiset mutta satunnaiset => Muutetaan priori käsitystämme logit ( p i )=b i b i N (μ, τ) Muunnos p/(1-p) Sairaalakohtainen satunnaisvaikutus 22

Hierarkkinen Bayes malli Hierarkkinen tilastollinen malli - graafisesti kuvattuna populaatiotaso satunnaisvaikutus yksilötaso 23

Hierarkkinen Bayes malli Kiinteiden vaikutusten malli 24

Hierarkkinen Bayes malli Satunnaisten vaikutusten malli 25

Hierarkkinen Bayes malli Sairaaloiden järjestystä kuolleisuuden suhteen voidaan arvoida suoraan Bayesiläisen hierarkkisen mallin tuloksista Voidaan toteuttaa laskemalla suoraa simuloimalla järjestyslukujen jakauma 26

Hierarkkinen Bayes malli 27

Hierarkkinen Bayes malli - Bayesian model averaging Lasten alhainen syntymäpaino ja sen riskitekijät The birthwt data frame has 189 subject and 10 variables. The data were collected at Baystate Medical Center, Springfield, Mass during 1986. Low - indicator of birth weight less than 2.5 kg. (0,1) Age - mother's age in years. Lwt - mother's weight in pounds at last menstrual period. Race - mother's race (1 = white, 2 = black, 3 = other). Smoke - smoking status during pregnancy. Ptl - number of previous premature labours. Ht - history of hypertension. Ui - presence of uterine irritability. Ftv - number of physician visits during the first trimester. Bwt - birth weight in grams. Selitettävät muuttujat Y=1 <2.5kg; 0 muuten Selitettävä muuttuja Y=1 <2.5kg, 0 muuten 28

Hierarkkinen Bayes malli - Bayesian model averaging Vaikutus Mallin tn 29