Bayesilainen päätöksenteko / Bayesian decision theory

Samankaltaiset tiedostot
Mallin tarkistus (luku 6) - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn?

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Markov-ketju Monte Carlo - konvergenssidiagnostiikka (convergence diagnostics) - odotettu hyöty tai kustannus (expected utility or cost)

Kuinka monta riippumatonta simulaationäytettä tarvitaan. - tämä varianssi on riippumaton jakauman ulottuvuuksien määrästä

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

- voidaan käyttä lisämään tieteellistä ymmärrystä ilmiöstä. - joidenkin havaittavien suureiden vaikutus voi olla paljon suurempi kuin toisten

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Bayesiläinen tilastollinen vaihtelu

Todennäköisyyden ominaisuuksia

exp Luento 3 Normaalijakauma (Gaussian) Normaalijakauma tunnetulla varianssilla Normaalijakauma tunnetulla keskiarvolla Poisson-mallli

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

p(y θ, M) p(θ M)dθ p(θ y, M) = p(y M) Luento 10 Marginaaliuskottavuus Bayes-tekijä Mallin odotettu hyöty DIC (Deviance Information Criterion)

Viime kerralla. Luento 6. Normaalijakauma-approksimaatio - moodi. - havaittu informaatio

Binomi Jacob Bernoulli ( ), Bayes ( ) Normaali de Moivre ( ), Laplace ( ), Gauss ( )

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Yhteistyötä sisältämätön peliteoria jatkuu

p(θ 1 y) on marginaalijakauma p(θ 1 θ 2, y) on ehdollinen posteriorijakauma Viime kerralla Termejä viime kerralta Marginalisointi Marginaalijakauma

1 Bayesin teoreeman käyttö luokittelijana

1. Tilastollinen malli??

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

S Bayesilaisen mallintamisen perusteet

exp p(y θ) = 1 2πσ θ)2 2σ 2(y y N(θ, σ 2 ) Luento 3 Normaalijakauma (Gaussian) Normaalijakauma tunnetulla varianssilla

Laskennallinen data-analyysi II

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Laskennallinen data-analyysi II

Mikrobikriteereiden arviointi esimerkkinä kampylobakteeri

Ryhmäfaktorianalyysi neurotiedesovelluksissa (Valmiin työn esittely) Sami Remes Ohjaaja: TkT Arto Klami Valvoja: Prof.

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

Bayesilaisen mallintamisen perusteet

Mitä on bayesilainen päättely?

Väliestimointi (jatkoa) Heliövaara 1

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2010 Harjoitus 4

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

JOHDATUS TEKOÄLYYN LUENTO 4.

Sovellettu todennäköisyyslaskenta B

2. Uskottavuus ja informaatio

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Harjoitus 7: NCSS - Tilastollinen analyysi

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Pohdiskeleva ajattelu ja tasapainotarkennukset

Posteriorijakauman normaalijakauma-approksimaatio. Usein posteriorijakauma lähestyy normaalijakaumaa kun n

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Luento 11. Muutama hyödyllinen Monte Carlo-menetelmä. Muutama hyödyllinen Monte Carlo-menetelmä. Mitä muuta hyödyllistä Gelman et al kirjasta löytyy

Tilastollinen päättely II, kevät 2017 Harjoitus 1A

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Nollasummapelit ja bayesilaiset pelit

Järvitesti Ympäristöteknologia T571SA

T Luonnollisten kielten tilastollinen käsittely

1. TILASTOLLINEN HAHMONTUNNISTUS

Mat Tilastollisen analyysin perusteet, kevät 2007

TILASTOLLINEN OPPIMINEN

Estimointi. Vilkkumaa / Kuusinen 1

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastotieteen aihehakemisto

30A02000 Tilastotieteen perusteet

Pikajohdatus bayesilaiseen tilastoanalyysiin ja monimuuttuja-analyysiin

Mat Tilastollisen analyysin perusteet, kevät 2007

θ 1 θ 2 θ n y i1 y i2 y in Luento 6 Hierarkkinen malli Johdatus hierarkkisiin malleihin - joskus myös termillä multilevel model

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Tilastolliset menetelmät

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

JOHDATUS TEKOÄLYYN TEEMU ROOS

11. laskuharjoituskierros, vko 15, ratkaisut

pitkittäisaineistoissa

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Mallipohjainen klusterointi

Jatkuvat satunnaismuuttujat

JOHDATUS TEKOÄLYYN TEEMU ROOS

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

TEKNILLINEN KORKEAKOULU ERIKOISTYÖ. koulutusohjelma MUUTOSPISTEIDEN TUNNISTAMINEN BAYESILAISELLA ANALYYSILLA

Kertausluento. Tilastollinen päättely II - 2. kurssikoe

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

Sovellettu todennäköisyyslaskenta B

2. Uskottavuus ja informaatio

Bayesilaisen mallintamisen perusteet kurssin sisältö

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Tilastollinen aineisto Luottamusväli

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

pisteet Frekvenssi frekvenssi Yhteensä

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Inversio-ongelmien laskennallinen peruskurssi Luento 7

pitkittäisaineistoissa

Tilastollinen päättely, 10 op, 4 ov

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Transkriptio:

Bayesilainen päätöksenteko / Bayesian decision theory Todennäköisyysteoria voidaan perustella ilman päätösteoriaa, mutta vasta päätösteorian avulla siitä on oikeasti hyötyä Todennäköisyyteoriassa tavoitteena on päättely Päätösteoriassa tavoitteena on päätös

Bayesilaisen päätöksenteon oleelliset osat Rationaalinen päätös Todennäköisyys Toimenpiteiden (action) mahdolliset seuraamukset Seuraamusten hyöty tai kustannus

Rationaalinen päätöksenteko Rationaalinen päätös maksimoi odotetun hyödyn tai minimoi odotetun kustannuksen Toimenpiteen a odotettu kustannus c voidaan laskea seuraavasti c(a x (n+1), D, M) = L(a, y)p(y x (n+1), D, M)dy, missä L(a, y) on kustannus toimenpiteelle a jos tapahtuma on todellisuudessa y, jap(y x (n+1), D, M) on ennustetun tapahtuman posterioriprediktiivinen jakauma Toimenpiteistä valitaan se joka minimoi odotetun kustannuksen a = argmax a c(a x (n+1), D, M).

Esimerkki bayesilaisesta päätöksenteosta Oletetaan että metsässä on havaittu suuri käpälän jälki, joka näyttää koiran tai suden jäljeltä Jäljen pituus on 14 cm ja sen perusteella yritetään päätellä onko otus susi vai koira 0.4 Todennäköisyys p(x C) 0.3 0.2 0.1 0 C= Susi C= Iso koira 6 8 10 12 14 16 Jäljen pituus x (cm)

Esimerkki bayesilaisesta päätöksenteosta Oletetaan lisäksi, että irrallaan juoksevia koiria on sata kertaa enemmän kuin susia, tällöin siis a priori todennäköisyys sudelle, kun mitään piirteitä ei ole havaittu, on n. 1%. Eri luokkien uskottavuudet ja posteriori-todennäköisyydet Luokitus Uskottavuus Posteriori-todennäköisyys Susi 0.92 0.10 Koira 0.08 0.90

Esimerkki bayesilaisesta päätöksenteosta Tässä esimerkissä voitaisiin haluta päättää, kannattaako lähteä lähimetsään sieniä poimimaan Oikealle luokitukselle voitaisiin asettaa nollariski Jos otus on koira ja pysytään kotona, seuraa pieni tappio, kun sieniretki jää aiheettomasti tekemättä Jos taas otus on susi, mutta sitä luullaan koiraksi ja lähdetään sienimetsään, on tappio paljon suurempi, koska susi voi syödä sienestäjän suihinsa. Otuksen luokka Toiminta Susi Koira Toiminta Ehdollinen riski Pysytään kotona 1 1 Lähdetään metsään 1000 0 Tappiomatriisi Pysytään kotona 1 Lähdetään metsään 100 Eri toimintojen ehdolliset riskit

Esimerkki bayesilaisesta päätöksenteosta Sudesta jää havaitun kokoinen jälki paljon todennäköisemmin kuin koirasta, joten suurimman uskottavuuden luokitus on susi. Havaitun kokoinen jälki on paljon todennäköisemmin jäänyt koirasta, koska koirat ovat niin paljon yleisempiä, ja suurimman todennäköisyyden luokitus on koira. Minimiriskipäätös on pysyä kotona, vaikka otus on todennäköisemmin koira. Lähtöoletusten mukaan suden tapaaminen metsässä aiheuttaa suuren odotetun tappion, ja se huomioon ottaen otukseen kannattaa suhtautua kuin se olisi susi, jotta kokonaisriski minimoituu.

1) Varmasti 1 tai todennäköisyydellä p 1 1 000 000 ja 1 p 1 0 2) Varmasti 1 tai p 2 10 Varmasti 10 tai p 3 100 Varmasti 100 tai p 4 1000 Varmasti 1000 tai p 5 1 000 000

Jos seuraavat vaihtoehdot samanarvoiset henkilölle Varmasti 10 tai todennäköisyydellä 55% 20 ja 45% 0 Varmasti 20 tai todennäköisyydellä 55% 30 ja 45% 10 Varmasti x tai todennäköisyydellä 55% (x+10) ja 45% (x-10), x=30,40,50,... niin mikä on y Varmasti y tai todennäköisyydellä 50% 1 miljardi ja 50% 0

Jos seuraavat vaihtoehdot samanarvoiset henkilölle Varmasti 10 tai todennäköisyydellä 55% 20 ja 45% 0 Varmasti 20 tai todennäköisyydellä 55% 30 ja 45% 10 Varmasti x tai todennäköisyydellä 55% (x+10) ja 45% (x-10), x=30,40,50,... niin mikä on y Varmasti y tai todennäköisyydellä 50% 1 miljardi ja 50% 0 y on jotain välillä 30 40!

Elämän hinta? 1) Kuinka paljon pitäisi sinulle maksaa, että suostuisit kuolemaan?

Elämän hinta? 1) Kuinka paljon pitäisi sinulle maksaa, että suostuisit kuolemaan? 2) Saat valita (a) jatkat elämistä (b) todennäköisyydellä p kuolet ja todennäköisyydellä (1- p) saat 1000

Onko mallin puutteilla huomattavaa vaikutusta todelliseen päättellyyn Usein mallin valintaan vaikuttavat laskennalliset seikat Miten voi tarkistaa ovatko tulokset herkkiä valinnoille? - parametrien posteriorijakauman vertaaminen oleelliseen informaation tai muuhun dataan - posterioriprediktiivisten jakaumien vertaaminen oleelliseen informaation tai muuhun dataan - posterioriprediktiivisten jakaumien vertaaminen havaittuun dataan

Posterioriprediktiivisten jakaumien vertaaminen havaittuun dataan Jos malli sopii, pitäisi mallilla generoidun replikoidun datan näyttää samalta kuin havaittu data Eli, havaitun datan pitäisi näyttää posteriorijakauman mukaan uskottavalta posterior predictive checking

Posterioriprediktiivinen tarkistus Replikaatiot posterioriprediktiivisestä jakaumasta p(y rep y) = p(y rep θ)p(θ y)dθ Scatter-plot: y vs. y rep Scatter-plot: y vs. (y y rep )

Posterioriprediktiivinen p-arvo Mallin ja datan välistä erilaisuutta mitataan testisuureella T (y,θ) Klassinen p-arvo (useimmiten piste-estimaatti θ:lle) Klassinen p-arvo = p(t (y rep ) T (y) θ) Posterioriprediktiivinen p-arvo Bayes p-value = p(t (y rep,θ) T (y,θ) y) = I T (y rep,θ) T (y,θ) p(θ y)p(y rep θ)dθdy rep

Posterioriprediktiivinen tarkistus Monte Carlo menetelmiä käytettäessä, on jo valmiiksi L näytettä θ l parametrien posteriorijakaumasta Poimitaan yksi y rep prediktiivisestä jakaumasta annettuna θ l, jolloin sadaan L näytettä jakaumasta p(y rep,θ y) l = 1,...,L, Verrataan suureita T (y,θ l ) ja T (y rep,θ l ) p-arvo on niiden vertailujen osuus L simulaatioista joille T (y rep,θ l ) T (y,θ l ), l = 1,...,L

Esimerkki: Riippumattomuusoletuksen tarkistus binomi-jakaumamallissa Havaittu data tässä järjestyksessä: 1,1,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0 Testisuureena 0:n ja 1:n vaihtojen määrä, joka datalle on 3 y rep saadaan simuloimalla ensin θ jakaumasta Beta(8, 14) ja sitten y rep riippumattomina Bernoulli-jakaumasta todennäköisyydellä θ p-arvo 0.03

Testisuureen valinta Testisuureen pitäisi mitata asioita, jotka ovat tieteellisen päättelyn kannalta relevantteja aiotussa sovelluksessa Testisuure usein mittaa jotain sellaista datan ominaisuutta, jota ei suoraan huomioida mallissa χ 2 on yleiskäyttöinen mitta T (y,θ)= i (y i E(y i θ)) 2 var(y i θ)

Herkkyysanalyysi Kokeile onko malli herkkä erilaisille malli- ja priorioletuksille