Mitä on bayesilainen päättely?



Samankaltaiset tiedostot
Pikajohdatus bayesilaiseen tilastoanalyysiin ja monimuuttuja-analyysiin

Bayesilaisen mallintamisen perusteet kurssin sisältö

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

- voidaan käyttä lisämään tieteellistä ymmärrystä ilmiöstä. - joidenkin havaittavien suureiden vaikutus voi olla paljon suurempi kuin toisten

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

S Bayesilaisen mallintamisen perusteet

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

Bayesilainen päätöksenteko / Bayesian decision theory

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

805306A Johdatus monimuuttujamenetelmiin, 5 op

Bayesiläinen tilastollinen vaihtelu

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely)

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. Tilastollinen malli??

pitkittäisaineistoissa

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Tilastollinen päättely, 10 op, 4 ov

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

pitkittäisaineistoissa

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

TILASTOLLINEN OPPIMINEN

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Yhteistyötä sisältämätön peliteoria jatkuu

Osa 2: Otokset, otosjakaumat ja estimointi

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ryhmäfaktorianalyysi neurotiedesovelluksissa (Valmiin työn esittely) Sami Remes Ohjaaja: TkT Arto Klami Valvoja: Prof.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mikrobikriteereiden arviointi esimerkkinä kampylobakteeri

Tilastotiede ottaa aivoon

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Seurantojen otoskoon arviointi RKTL:ssä

1. TILASTOLLINEN HAHMONTUNNISTUS

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I

Matemaatikot ja tilastotieteilijät

Dynaamiset regressiomallit

Terveydenhuollon tavoitteet

Tutkimustiedonhallinnan peruskurssi

Sovellettu todennäköisyyslaskenta B

S Laskennallinen systeemibiologia

-10 km² ruutuaineistoon perustuva tutkimus. Marika Hakala. Tutkimuksen taustaa

Luento 8. June 3, 2014

Kojemeteorologia. Sami Haapanala syksy Fysiikan laitos, Ilmakehätieteiden osasto

Tautikartoitus CAR- ja partitiomalleilla

Sovellettu todennäköisyyslaskenta B

6. laskuharjoitusten vastaukset (viikot 10 11)

30A02000 Tilastotieteen perusteet

Pelaisitko seuraavaa peliä?

Laskennallinen data-analyysi II

Binomi Jacob Bernoulli ( ), Bayes ( ) Normaali de Moivre ( ), Laplace ( ), Gauss ( )

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Johdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava. TKK (c) Ilkka Mellin (2005) 1

Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

T Luonnollisten kielten tilastollinen käsittely

Epävarmuuden hallinta bootstrap-menetelmillä

Tilastollinen aineisto Luottamusväli

Dynaamiset regressiomallit

3.7 Todennäköisyysjakaumia

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastotiede ottaa aivoon

Tilastollinen päättely II, kevät 2017 Harjoitus 1A

2. Uskottavuus ja informaatio

tilastotieteen kertaus

9. Tila-avaruusmallit

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Kuolevuusseminaari

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Todennäköisyyden ominaisuuksia

Johtuuko tämä ilmastonmuutoksesta? - kasvihuoneilmiön voimistuminen vaikutus sääolojen vaihteluun

Nollasummapelit ja bayesilaiset pelit

1 Bayesin teoreeman käyttö luokittelijana

JOHDATUS TEKOÄLYYN LUENTO 4.

Pohjois-Savon väestörakenne v sekä ennuste v ja v. 2030

Olli-Pekka Ryynänen sidonnaisuudet

Teema 8: Parametrien estimointi ja luottamusvälit

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Mallin tarkistus (luku 6) - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn?

Harjoitus 2: Matlab - Statistical Toolbox

Tilastotieteen aihehakemisto

Pohdiskeleva ajattelu ja tasapainotarkennukset

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy Tehtävissä 1, 2, ja 3 tarkastelemme seuraavaa tilannetta:

031021P Tilastomatematiikka (5 op)

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

p(θ 1 y) on marginaalijakauma p(θ 1 θ 2, y) on ehdollinen posteriorijakauma Viime kerralla Termejä viime kerralta Marginalisointi Marginaalijakauma

Valinnanvapaus ja alueellinen saatavuus Kelan kuntoutuksessa. Visa Pitkänen Tutkija Kelan

DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola

Johdatus geospatiaaliseen tutkimukseen

Jatkuvat satunnaismuuttujat

Transkriptio:

Metodifestivaali 29.5.2009 Aki Vehtari AB TEKNILLINEN KORKEAKOULU Lääketieteellisen tekniikan ja laskennallisen tieteen laitos

Esityksen sisältö Miksi? Epävarmuuden esittäminen Tietämyksen päivittäminen Bayesilainen päättely Esimerkki terveydenhuollon data-analyysista

Miksi itse suosin bayesilaista päättelyä? Autan tutkimaan kompleksisia ilmiöitä - esim. teollisuusprosseja, terveydenhuollon rekisteriaineistoja, aivokuvantamista - paljon tuntemattomia asioita - useita vaikeasti suoraan mitattavia asioita Bayesilaisen tilastotieteen menetelmät joustavia - johdonmukainen tapa käsitellä kaikki tuntemattomat asiat ja epävarmuudet - mallin kompleksisuus voi riippua ilmiön kompleksisuudesta ja havaintojen epävarmuudesta

Epävarmuus ja bayesilainen tilastollinen päättely Epävarmuus esitetään todennäköisyyksillä Todennäköisyydet päivitetään uuden tiedon avulla

Epävarmuus ja bayesilainen tilastollinen päättely Satunnainen vs. tietämyksellinen epävarmuus Epävarmuus voidaan jakaa Satunnaiseen (aleatoriseen) epävarmuuteen - emme voi saada havaintoja, jotka auttaisivat sen epävarmuuden pienentämisessä Tietämykselliseen (episteemiseen) epävarmuuteen - voimme saada havaintoja, jotka auttavat sen epävarmuuden pienentämisessä Vertaa kolikko - kahdella tarkastelijalla voi olla eri tietämyksellinen epävarmuus - tietämyksellinen todennäköisyys muuttuu, kun informaatio muuttuu

Epävarmuus ja bayesilainen tilastollinen päättely Esimerkki: Kahdenvärisiä nappuloita pussissa Jos eriväristen nappuloiden määrän suhde tunnettu - epävarmuutta seuraavaksi ilmestyvän nappulan väristä Jos eriväristen nappuloiden määrän suhde tuntematon - lisäksi tietämyksellistä epävarmuutta - tietämyksellinen epävarmuus muuttuu kun nappuloita nostetaan Jos yksittäin noston sijasta aikoisimme kumota koko pussin ja laskea värien määrän suhteen - ei satunnaista epävarmuutta - vain tietämyksellinen epävarmuus pussin sisällöstä

Epävarmuus ja bayesilainen tilastollinen päättely Esimerkki: kuolleisuus Kuolinsyytilastoista voidaan laskea esim. alkoholin aiheuttamat kuolemat Suomessa - voidaan tarkentaa ja laskea erikseen eri ryhmille esim. sukupuolen, iän ja koulutustaustan mukaan - voidaan laskea ryhmille riski kuolla kyseisestä syystä vertaamalla kuolemien määrää ryhmän kokoon Voidaan tarkastella pienempiä alueita kuten kuntia tai ruutuja - vertaamalla alueen taustaväestön rakennetta koko Suomen tilastoon, voidaan laskea taustaväestön mukainen odotusarvoinen kuolemien määrä

Epävarmuus ja bayesilainen tilastollinen päättely Esimerkki: alueen kuolleisuusluku Joillakin alueilla näyttää kuitenkin kuolevan enemmän kuin kyseisen alueen väestörakenteen mukaan pitäisi tietämyksellistä epävarmuutta alueen kuolleisuudesta Kuolleisuusluvun arvo 1 tarkoittaa, että alueella on väestörakenne huomioiden (ruudun taustaväestön määrä sekä ikä-, sukupuoli- ja koulutusjakauma) kuolemia yhtä paljon kuin Suomessa keskimäärin Lukua yksi isommat arvot kertovat, että ruudussa on sen väestörakenteeseen nähden keskimääräistä enemmän alkoholiin liittyviä kuolemia Vastaavasti lukua 1 pienemmät arvot kertovat keskimääräistä pienemmästä kuolemien määrästä

Epävarmuus ja bayesilainen tilastollinen päättely Esimerkki: alueen kuolleisuusluku Jos alueellinen kuolleisuusluku tunnettu - epävarmuutta seuraavan ajanjakson aikana kuolevien määrästä Jos alueellinen kuolleisuusluku tuntematon - tietämyksellinen epävarmuus muuttuu kun havaitaan kuolleiden määrä

Epävarmuus ja bayesilainen tilastollinen päättely Epävarmuuksien yhdistäminen? Merkitään - y havaitut nappulat (tai kuolemantapaukset) - θ nappuloiden suhde (tai kuolleisuusluku) - I taustatieto ongelmasta - p( ) ehdollinen todennäköisyys(tiheys) Havaintoihin liittyvä satunnainen epävarmuus, jos nappuloiden suhde θ tunnettu p(y θ, I) Ilmiöön liittyvä tietämyksellinen epävarmuus ennen havaintoja p(θ I) Kuinka päivittää tietämyksellinen epävarmuus kun nappuloita havaittu? p(θ y, I)?

Epävarmuus ja bayesilainen tilastollinen päättely Bayesin kaava Kun valittu p(y θ, I) sekä p(θ I), voidaan laskea Bayesin kaavalla p(θ y, I) = p(y θ, I)p(θ I) p(y θ, I)p(θ I)dθ - missä alakerran termi, jotta vasemman puolen todennäköisyydet summautuisivat 1:een

Bayesilainen tilastollinen päättely Bayesilaisen mallin osat Havaintomalli p(y θ, I) - matemaattinen kuvaus havaintomallille (satunnainen osa) - jos ilmiö tunnettu millä todennäköisyydellä havaittaisiin y tietyllä arvolla - esim. mikä on punaisten nappuloiden määrä kun nostetaan n nappulaa? binomi-jakauma - esim. mikä on epävarmuus kuolemien määrästä, jos kuolemien odotusarvo ja kuolleisuusluku on tunnettu esim. Poisson-jakauma, jota usein käytetään lukumäärähavainnoille

Bayesilainen tilastollinen päättely Bayesilaisen mallin osat Priori p(θ I) - matemaattinen kuvaus mitä tiedetään θ:sta - tietämyksellinen epävarmuus ennen havaintoja - malli ja priori erottamattomat (kytketty mallin kautta) - esim. vähintään yksi nappula kumpaakin väriä - esim. lähekkäisten alueiden kuolleisuusluvut ovat samankaltaiset - huom: priorit useimmiten tämän esimerkin mukaisesti kertovat riippuvuusrakenteesta eivätkä suoraan esim. kuolleisuusluvusta!

Bayesilainen tilastollinen päättely Epävarman tietämyksen jatkokäyttö Jatkopäättelyssä kuten ennusteissa huomioidaan epävarmuus - esim. nostettu pussista yksi punainen nappula Priori Likelihood / Posteriori p p 0 0.2 0.4 0.6 0.8 1 Nappuloiden suhde 0 0.2 0.4 0.6 0.8 1 Nappuloiden suhde Todennäköisin suhde on 1 seuraava on punainen todennäköisyydellä 1 Huomioidaan epävarmuus seuraava on punainen todennäköisyydellä 2/3

Bayesilainen tilastollinen päättely Epävarmuuden huomioiminen ja integrointi Eri suhdevaihtoehtoja (tai kuolleisuuslukuja) painotetaan niiden todennäköisyydellä - eli integroidaan yli suhteen posterioriepävarmuuden Integroimalla epävarmuuksien yli otetaan epävarmuudet johdonmukaisesti huomioon - usein haastava osa menetelmien käyttöä

Bayesilainen malli Malli - pyrkii ennustamaan ilmiön käyttäytymistä - voidaan käyttä lisämään tieteellistä ymmärrystä ilmiöstä Usein yksinkertaistaa todellisuutta - ilmiöstä saadut havainnot rajoitettuja - joidenkin havaittavien suureiden vaikutus voi olla paljon suurempi kuin toisten

Bayesilainen malli Esimerkki Pudotetaan palloa eri korkeuksilta ja mitataan putoamisaika sekunttikellolla käsivaralla - Newtonin mekaniikka - ilmanvastus, ilmanpaine, pallon muoto, pallon pintarakenne - ilmavirtaukset - suhteellisuusteoria Ottaen huomioon mittaukset, kuinka tarkka malli kannattaa tehdä? On olemassa hyvin paljon tilanteita, joissa yksinkertaiset mallit hyödyllisiä ja käytännön kannalta yhtä tarkkoja kuin monimutkaisemmat

Esimerkki Alkoholikuolleisuuden alueelliset erot Yhteistyössä THL:n kanssa, aineisto Tilastokeskukselta 5km 5km asuttuja ruutuja Suomessa n. 10000 - n. 10000 tuntematonta alueellista kuolleisuuslukua (vertaa: 10000 nappulapussia) - odotusarvoinen kuolemien määrä monessa ruudussa alle 1 - kuolleisuusluvun arviossa paljon epävarmuutta, jos kuolee 0 tai 1 (vertaa: nappulapussista nostetaan vain yksi nappula) - lisätään spatiaalinen priori, jonka mukaan lähekkäiset ruudut samankaltaisia - samankaltaisuuden aste myös tuntematon!

Esimerkki Alkoholikuolleisuuden alueelliset erot Sukupuoli-ikä-koulutus-vakiointi Sekä pitkän että lyhyen matkan korrelaatiomalli Onko kuolleisuusluku koholla asutuskeskuksissa?

Esimerkki Syöpätapausten ennustaminen Yhteistyössä ja aineisto Syöpärekisteri 50 vuoden kuntakohtaisten syöpätapausten perusteella ennuste tulevaisuuteen 2.5 Helsinki Espoo Tampere Iisalmi Kajaani 2 1.5 1 0.5 1960 1970 1980 1990 2000 2010

Muita esimerkkiprojekteja Potilasrekisteriaineistojen analyysi (+THL) Vanhusten laitostumisriskin ennustaminen (+THL, Vantaa) Lonkkamurtumaleikkauksen kuntoutuksen keston ja onnistumisen ennustaminen (+THL) Sydäntautien esiintyvyyden alueelliset ja ajalliset vaihtelut ja ennusteet (+THL) Geenilaajuinen assosiaatioanalyysi ja geneettisen variaation alueellinen mallintaminen (+THL,FIMM) EKG-pohjainen ennuste sydämen vauriosta ja paranemisesta sydänkohtauksen jälkeen (+BioMag Laboratory) Elämäntapamuutosinterventio työterveydenhuollossa (+HEMA)

Bayesilaisen päättelyn etuja Epävarmuuksien johdonmukainen käsittely - eri tiedonlähteiden yhdistäminen helppoa - kun mallia muutetaan, ei päättelyn periaate muutu Epävarmuuksien yli integrointi - mahdollistaa joustavien (mahdollisesti hyvin paljon parametreja) mallien turvallisemman käytön Priorien käyttö - sekä kvantitatiiviset että kvalitatiiviset

Kirjallisuutta Henkilökohtaiset suositukseni kirjoista, joista aloittaa tutustuminen bayesilaiseen päättelyyn - Bolstad: Introduction to Bayesian Statistics hyvä johdatus Bayes-perusteisiin ja vertailu frekventistisiin menetelmiin - Gelman & Hill: Data Analysis Using Regression and Multilevel/Hierarchical Models erinomainen teos yleisesti käytännön data-analyysin tekemisestä ja probabilistisesta ajattelusta edeten askeleittain yksinkertaisemmasta monitasoisempaan ja päätyen Bayes-menetelmiin - Gelman et al: Bayesian data analysis myydyin Bayes-kirja on kattava käytäntöön keskittyvä perusteos, joka suuren informatiivisuutensa vuoksi edellisiä vaativampi