Metodifestivaali 29.5.2009 Aki Vehtari AB TEKNILLINEN KORKEAKOULU Lääketieteellisen tekniikan ja laskennallisen tieteen laitos
Esityksen sisältö Miksi? Epävarmuuden esittäminen Tietämyksen päivittäminen Bayesilainen päättely Esimerkki terveydenhuollon data-analyysista
Miksi itse suosin bayesilaista päättelyä? Autan tutkimaan kompleksisia ilmiöitä - esim. teollisuusprosseja, terveydenhuollon rekisteriaineistoja, aivokuvantamista - paljon tuntemattomia asioita - useita vaikeasti suoraan mitattavia asioita Bayesilaisen tilastotieteen menetelmät joustavia - johdonmukainen tapa käsitellä kaikki tuntemattomat asiat ja epävarmuudet - mallin kompleksisuus voi riippua ilmiön kompleksisuudesta ja havaintojen epävarmuudesta
Epävarmuus ja bayesilainen tilastollinen päättely Epävarmuus esitetään todennäköisyyksillä Todennäköisyydet päivitetään uuden tiedon avulla
Epävarmuus ja bayesilainen tilastollinen päättely Satunnainen vs. tietämyksellinen epävarmuus Epävarmuus voidaan jakaa Satunnaiseen (aleatoriseen) epävarmuuteen - emme voi saada havaintoja, jotka auttaisivat sen epävarmuuden pienentämisessä Tietämykselliseen (episteemiseen) epävarmuuteen - voimme saada havaintoja, jotka auttavat sen epävarmuuden pienentämisessä Vertaa kolikko - kahdella tarkastelijalla voi olla eri tietämyksellinen epävarmuus - tietämyksellinen todennäköisyys muuttuu, kun informaatio muuttuu
Epävarmuus ja bayesilainen tilastollinen päättely Esimerkki: Kahdenvärisiä nappuloita pussissa Jos eriväristen nappuloiden määrän suhde tunnettu - epävarmuutta seuraavaksi ilmestyvän nappulan väristä Jos eriväristen nappuloiden määrän suhde tuntematon - lisäksi tietämyksellistä epävarmuutta - tietämyksellinen epävarmuus muuttuu kun nappuloita nostetaan Jos yksittäin noston sijasta aikoisimme kumota koko pussin ja laskea värien määrän suhteen - ei satunnaista epävarmuutta - vain tietämyksellinen epävarmuus pussin sisällöstä
Epävarmuus ja bayesilainen tilastollinen päättely Esimerkki: kuolleisuus Kuolinsyytilastoista voidaan laskea esim. alkoholin aiheuttamat kuolemat Suomessa - voidaan tarkentaa ja laskea erikseen eri ryhmille esim. sukupuolen, iän ja koulutustaustan mukaan - voidaan laskea ryhmille riski kuolla kyseisestä syystä vertaamalla kuolemien määrää ryhmän kokoon Voidaan tarkastella pienempiä alueita kuten kuntia tai ruutuja - vertaamalla alueen taustaväestön rakennetta koko Suomen tilastoon, voidaan laskea taustaväestön mukainen odotusarvoinen kuolemien määrä
Epävarmuus ja bayesilainen tilastollinen päättely Esimerkki: alueen kuolleisuusluku Joillakin alueilla näyttää kuitenkin kuolevan enemmän kuin kyseisen alueen väestörakenteen mukaan pitäisi tietämyksellistä epävarmuutta alueen kuolleisuudesta Kuolleisuusluvun arvo 1 tarkoittaa, että alueella on väestörakenne huomioiden (ruudun taustaväestön määrä sekä ikä-, sukupuoli- ja koulutusjakauma) kuolemia yhtä paljon kuin Suomessa keskimäärin Lukua yksi isommat arvot kertovat, että ruudussa on sen väestörakenteeseen nähden keskimääräistä enemmän alkoholiin liittyviä kuolemia Vastaavasti lukua 1 pienemmät arvot kertovat keskimääräistä pienemmästä kuolemien määrästä
Epävarmuus ja bayesilainen tilastollinen päättely Esimerkki: alueen kuolleisuusluku Jos alueellinen kuolleisuusluku tunnettu - epävarmuutta seuraavan ajanjakson aikana kuolevien määrästä Jos alueellinen kuolleisuusluku tuntematon - tietämyksellinen epävarmuus muuttuu kun havaitaan kuolleiden määrä
Epävarmuus ja bayesilainen tilastollinen päättely Epävarmuuksien yhdistäminen? Merkitään - y havaitut nappulat (tai kuolemantapaukset) - θ nappuloiden suhde (tai kuolleisuusluku) - I taustatieto ongelmasta - p( ) ehdollinen todennäköisyys(tiheys) Havaintoihin liittyvä satunnainen epävarmuus, jos nappuloiden suhde θ tunnettu p(y θ, I) Ilmiöön liittyvä tietämyksellinen epävarmuus ennen havaintoja p(θ I) Kuinka päivittää tietämyksellinen epävarmuus kun nappuloita havaittu? p(θ y, I)?
Epävarmuus ja bayesilainen tilastollinen päättely Bayesin kaava Kun valittu p(y θ, I) sekä p(θ I), voidaan laskea Bayesin kaavalla p(θ y, I) = p(y θ, I)p(θ I) p(y θ, I)p(θ I)dθ - missä alakerran termi, jotta vasemman puolen todennäköisyydet summautuisivat 1:een
Bayesilainen tilastollinen päättely Bayesilaisen mallin osat Havaintomalli p(y θ, I) - matemaattinen kuvaus havaintomallille (satunnainen osa) - jos ilmiö tunnettu millä todennäköisyydellä havaittaisiin y tietyllä arvolla - esim. mikä on punaisten nappuloiden määrä kun nostetaan n nappulaa? binomi-jakauma - esim. mikä on epävarmuus kuolemien määrästä, jos kuolemien odotusarvo ja kuolleisuusluku on tunnettu esim. Poisson-jakauma, jota usein käytetään lukumäärähavainnoille
Bayesilainen tilastollinen päättely Bayesilaisen mallin osat Priori p(θ I) - matemaattinen kuvaus mitä tiedetään θ:sta - tietämyksellinen epävarmuus ennen havaintoja - malli ja priori erottamattomat (kytketty mallin kautta) - esim. vähintään yksi nappula kumpaakin väriä - esim. lähekkäisten alueiden kuolleisuusluvut ovat samankaltaiset - huom: priorit useimmiten tämän esimerkin mukaisesti kertovat riippuvuusrakenteesta eivätkä suoraan esim. kuolleisuusluvusta!
Bayesilainen tilastollinen päättely Epävarman tietämyksen jatkokäyttö Jatkopäättelyssä kuten ennusteissa huomioidaan epävarmuus - esim. nostettu pussista yksi punainen nappula Priori Likelihood / Posteriori p p 0 0.2 0.4 0.6 0.8 1 Nappuloiden suhde 0 0.2 0.4 0.6 0.8 1 Nappuloiden suhde Todennäköisin suhde on 1 seuraava on punainen todennäköisyydellä 1 Huomioidaan epävarmuus seuraava on punainen todennäköisyydellä 2/3
Bayesilainen tilastollinen päättely Epävarmuuden huomioiminen ja integrointi Eri suhdevaihtoehtoja (tai kuolleisuuslukuja) painotetaan niiden todennäköisyydellä - eli integroidaan yli suhteen posterioriepävarmuuden Integroimalla epävarmuuksien yli otetaan epävarmuudet johdonmukaisesti huomioon - usein haastava osa menetelmien käyttöä
Bayesilainen malli Malli - pyrkii ennustamaan ilmiön käyttäytymistä - voidaan käyttä lisämään tieteellistä ymmärrystä ilmiöstä Usein yksinkertaistaa todellisuutta - ilmiöstä saadut havainnot rajoitettuja - joidenkin havaittavien suureiden vaikutus voi olla paljon suurempi kuin toisten
Bayesilainen malli Esimerkki Pudotetaan palloa eri korkeuksilta ja mitataan putoamisaika sekunttikellolla käsivaralla - Newtonin mekaniikka - ilmanvastus, ilmanpaine, pallon muoto, pallon pintarakenne - ilmavirtaukset - suhteellisuusteoria Ottaen huomioon mittaukset, kuinka tarkka malli kannattaa tehdä? On olemassa hyvin paljon tilanteita, joissa yksinkertaiset mallit hyödyllisiä ja käytännön kannalta yhtä tarkkoja kuin monimutkaisemmat
Esimerkki Alkoholikuolleisuuden alueelliset erot Yhteistyössä THL:n kanssa, aineisto Tilastokeskukselta 5km 5km asuttuja ruutuja Suomessa n. 10000 - n. 10000 tuntematonta alueellista kuolleisuuslukua (vertaa: 10000 nappulapussia) - odotusarvoinen kuolemien määrä monessa ruudussa alle 1 - kuolleisuusluvun arviossa paljon epävarmuutta, jos kuolee 0 tai 1 (vertaa: nappulapussista nostetaan vain yksi nappula) - lisätään spatiaalinen priori, jonka mukaan lähekkäiset ruudut samankaltaisia - samankaltaisuuden aste myös tuntematon!
Esimerkki Alkoholikuolleisuuden alueelliset erot Sukupuoli-ikä-koulutus-vakiointi Sekä pitkän että lyhyen matkan korrelaatiomalli Onko kuolleisuusluku koholla asutuskeskuksissa?
Esimerkki Syöpätapausten ennustaminen Yhteistyössä ja aineisto Syöpärekisteri 50 vuoden kuntakohtaisten syöpätapausten perusteella ennuste tulevaisuuteen 2.5 Helsinki Espoo Tampere Iisalmi Kajaani 2 1.5 1 0.5 1960 1970 1980 1990 2000 2010
Muita esimerkkiprojekteja Potilasrekisteriaineistojen analyysi (+THL) Vanhusten laitostumisriskin ennustaminen (+THL, Vantaa) Lonkkamurtumaleikkauksen kuntoutuksen keston ja onnistumisen ennustaminen (+THL) Sydäntautien esiintyvyyden alueelliset ja ajalliset vaihtelut ja ennusteet (+THL) Geenilaajuinen assosiaatioanalyysi ja geneettisen variaation alueellinen mallintaminen (+THL,FIMM) EKG-pohjainen ennuste sydämen vauriosta ja paranemisesta sydänkohtauksen jälkeen (+BioMag Laboratory) Elämäntapamuutosinterventio työterveydenhuollossa (+HEMA)
Bayesilaisen päättelyn etuja Epävarmuuksien johdonmukainen käsittely - eri tiedonlähteiden yhdistäminen helppoa - kun mallia muutetaan, ei päättelyn periaate muutu Epävarmuuksien yli integrointi - mahdollistaa joustavien (mahdollisesti hyvin paljon parametreja) mallien turvallisemman käytön Priorien käyttö - sekä kvantitatiiviset että kvalitatiiviset
Kirjallisuutta Henkilökohtaiset suositukseni kirjoista, joista aloittaa tutustuminen bayesilaiseen päättelyyn - Bolstad: Introduction to Bayesian Statistics hyvä johdatus Bayes-perusteisiin ja vertailu frekventistisiin menetelmiin - Gelman & Hill: Data Analysis Using Regression and Multilevel/Hierarchical Models erinomainen teos yleisesti käytännön data-analyysin tekemisestä ja probabilistisesta ajattelusta edeten askeleittain yksinkertaisemmasta monitasoisempaan ja päätyen Bayes-menetelmiin - Gelman et al: Bayesian data analysis myydyin Bayes-kirja on kattava käytäntöön keskittyvä perusteos, joka suuren informatiivisuutensa vuoksi edellisiä vaativampi