Viime kerralla Karkea laskenta Kuinka monta riippumatonta simulaationäytettä tarvitaan Monte Carlo (luku 11) - suora simulointi - hiladiskretointi Slide 1 - hylkäyspoiminta Markov-ketju Monte Carlo - Gibbs-poiminta - Metropolis- ja Metropolis-Hastings-algoritmit Montako simulaationäytettä tarvitaan? Tuntemattoman suureen odotusarvo E(θ) 1 L l θ (l) jos L suuri ja θ (l) riippumattomia näytteitä, voidaan olettaa tämän odotusarvon olevan normaalijakautunut varianssilla σ 2 θ /L Slide 2 - tämä varianssi on riippumaton jakauman ulottuvuuksien määrästä - yhteenlaskettu varianssi on summa datasta johtuvasta epävarmuudesta ja Monte Carlosta johtuvasta epävarmuudesta σθ 2 + σ θ 2 /L = σ θ 2 (1 + 1/L) - jos L = 100, hajonta kasvaa kertoimella 1 + 1/L = 1.005 eli Monte Carlo -virhe on lähes olematon
Luento 8 Markov-ketju Monte Carlo - konvergenssidiagnostiikka (convergence diagnostics) - simulaationäytteiden käyttö - kuinka monta riippuvaa simulaationäytettä tarvitaan - joitakin perus-mcmc-menetelmien parannuksia Slide 3 Päätösanalyysi - hyöty- ja kustannusfunktiot (utility and cost functions) - odotettu hyöty tai kustannus (expected utility or cost) Päättely MCMC-näytteistä Slide 4 MCMC-ketjun alkupää ei käyttökelpoinen ennenkuin alkupiste unohtunut - kun ketju konvergoitunut saadaan näytteitä halutusta jakaumasta - kovergoitumista voidaan tutkia konvergenssidiagnostiikalla rinnakkaisten riippumattomien ketjujen vertailu yhden ketjun alku- ja loppupään vertailu - ennen konvergenssia simuloidut näytteet heitettävä pois sisäänajo (burn-in) MCMC-näytteet eivät riippumattomia - Monte Carlo -estimaatit silti päteviä - Monte Carlo -estimaatin epävarmuuden arviointi vaikeampaa - mahdollista arvioida efektiivinen näytteiden määrä ajamalla rinnakkaisia riippumattomia ketjuja käyttämällä aikasarja-analyysin menetelmiä
Useiden ketjujen käyttö Useiden riippumattomien käyttö turvallisempaa kuin yhden Ketjujen alustus - aloita eri ketjut eri alkupisteistä Slide 5 - pyri valitsemaan alkupisteet suuremalla hajonnalla kuin posteriorin oletettu hajonta (overdispersed starting points) onnistuu helposti vain kun hyvä arvaus posteriorin massan muodosta ja sijainnista - aloita jokainen ketju eri satunnaislukusiemenellä Ketjujen vertailu - vertaa kaikkia estimoitavia skalaariarvoja parametrit parametreista laskettavat muut kiinnostavat tulevien havaintojen ennusteet log-posterioritiheys log-prediktiivinen tiheys Visuaalinen tarkastelu Gelman et al. aivan oikein varoittavat luottamasta visuaaliseen trendien tarkasteluun - visuaalinen tarkastelu ei riittävä konvergenssin hyväksymiseksi - visuaalinen tarkastelu kuitenkin usein riittävä konvergenssin hylkäämiseksi - visuaalinen tarkastelu antaa vihjeitä mikä voisi olla vialla Slide 6 - ihmisen näköjärjestelmä on tehokas huomaamaan poikkeavia asioita, joita vaikea muotoilla matemaattisesti - mitä enemmän tarkasteltavia suureita, sitä vaikeampaa on visuaalinen tarkastelu
Ketjujen odotusarvojen ja varianssien vertailu m riippumatonta ketjua, jokaisen pituus n (kun ensimmäinen puolisko poistettu) - estimoitavien skalaarien simulaationäytteet ψ i j (i = 1,..., n; j = 1,..., m) Gelman et al.: potential scale reduction factor (PSRF) - perustuu ketjujen odotusarvojen ja varianssien vertailuun Slide 7 - sopii jatkuville jakaumille ja diskreeteille jakaumille, joita voidaan hyvin approksimoida normaalijakaumalla - estimoitavat skaalarit hyvä muuntaa siten, että olisivat mahdollisimman normaalijakautuneita esim. ottamalla logaritmi aidosti positiivisesta suureesta - Gelman et al. poistavat ensimmäisen puoliskon ja vertailevat jälkimmäisiä puoliskoja Ketjujen odotusarvojen ja varianssien vertailu Lasketaan ketjujen välinen varianssi B (between) B = n m 1 m ( ψ. j ψ.. ) 2, missä ψ. j = 1 n j=1 n ψ i j, ψ.. = 1 m i=1 m j=1 ψ. j - B/n on ketjujen keskiarvojen varianssi Slide 8 Lasketaan ketjujen sisäinen varianssi W (within) W = 1 m m j=1 s 2 j, missä s2 j = 1 n 1 n (ψ i j ψ. j ) 2 j=1 Estimoidaan estimoitavan marginaaliposteriorivarianssi var(ψ y) W :n ja B:n painotettuna keskiarvona var + (ψ y) = n 1 W + 1 n n B
Ketjujen odotusarvojen ja varianssien vertailu Slide 9 Estimoidaan var(ψ y) W :n ja B:n painotettuna keskiarvona var + (ψ y) = n 1 W + 1 n n B - tämä yliarvioi marginaaliposteriorivarianssin jos alkupisteet ovat riittävän ylihajonneita, koska silloin B suurempi - harhaton stationäärisessä tilassa tai kun n Äärellisellä n, W aliarvioi marginaaliposteriorivarianssin - yksittäiset ketjut eivät ole ehtineet käydä jakauman joka pisteessä, joten niissä on vähemmän vaihtelua - kun n, E(W) var(ψ y) Koska var + (ψ y) yliarvioi ja W aliarvioi, lasketaan var ˆR + = W Ketjujen odotusarvojen ja varianssien vertailu Potentiaalinen skaalanpienennyskerroin (potential scale reduction factor) ˆR = var + W Slide 10 - estimoi kuinka paljon ψ:n tämänhetkisen jakauman skaala voisi pienentyä jos simulaatiota jatkettaisiin rajalle n - R 1, kun n - jos R on iso, on syytä uskoa, että lisäsimulaatio voi parantaa arviota kyseisen estimoitavan skalaarin jakaumasta - jos R ei ole kaikille estimoitaville skalaareille lähes 1, jatka simulaatiota - lähes 1 tarkoittaa usein alle 1.1, mutta joskus voi olla tarvetta tarkempaankin Esim8_1.m Vaikka R lähes 1, ketju ei ole välttämättä konvergoitunut
Simulaationäytteisiin perustuvat konvergenssidiagnostiikat Simulaationäytteisiin perustuvat konvergenssidiagnostiikat voivat paljastaa vain jos konvergenssia ei ole tapahtunut - vaikka diagnostiikan mukaan konvergenssi olisi mahdollinen, on myös aina mahdollista, että lähtöpisteiden ja algoritmin yhteisvalinnan sekä sattuman vuoksi yksikään ketju ei ole käynyt alueilla joissa merkittävästi massaa - tyypillinen ongelmatapaus on multimodaalinen jakauma Slide 11 Joidenkin skalaarien marginaalijakauma voi näyttää konvergoituneelta vaikka yhteisjakauma ei olisi - moniulotteisen ei-normaalijakautuneen jakauman konvergenssidiagnostiikka on vaikeaa Lisäksi PSRF:ssä - jos ketjujen alkupisteet lähekkäin, voi R olla lähes 1, vaikka ei konvergenssia Täydellinen poiminta (perfect sampling)* Joillekin malleille on algoritmeja joissa tiedetään varmasti milloin konvergenssi tapahtunut - mahdollista poimia varmasti riippumattomia näytteitä - algoritmeja kehitetään jatkuvasti eri mallivaihtoehdoille Slide 12
Konvergenssidiagnostiikoita* Konvergenssidiagnostiikoita on lukuisia, itse olen käyttänyt pääasiassa - useiden ketjujen ajo - visuaalinen tarkastelu - potential scale reduction factor Slide 13 - Kolmogorov-Smirnov goodness-of-fit hypothesis test sopii myös ei normaalijakautuneille Sisäänajo (burn-in) Gelman et al. tutkivat konvergenssia ketjun loppupuoliskolle - arvioidun konvergenssin jälkeen voidaan alkupuolisko heittää pois ja jatkaa ketjuja kunnes saatu haluttu määrä näytteitä - puoliksi jakaminen ei välttämättä tehokasta kuten demossa näkyi Slide 14
Efektiivinen näytteiden määrä Jos ketjun n simulaationäytettä olisivat riippumatomia, ketjujen välinen varianssi B olisi posteriorivarianssin var(ψ y) harhaton estimaatti ja meillä olisi yhteensä mn riippumatonta näytettä Yleisesti MCMC-ketjujen näytteet korreloivat ja B on odotusarvoisesti suurempi kuin var(ψ y) Slide 15 Efektiivinen näytteiden määrä voidaan arvioida seuraavasti n eff = mn var+ (ψ y) B - jos m pieni, tämä on varsin karkea estimaatti - supertehokas simulaatio, missä n eff > mn, mahdollinen, mutta käytännössä epätodennäköinen - Gelman et al. ilmoittavat varmuudeksi min(n eff, mn) Montako simulaationäytettä tarvitaan? Lasketaan tarvittavien näytteiden määrä riippumattomille näytteille Simuloidaan kunnes efektiivinen näytteiden määrä riittävän suuri Slide 16
Ohennus (thinning) Ei välttämätöntä Ohennuksessa talletetaan vain joka k:s MCMC-näyte - valitsemalla k riittävän isoksi jäljelle jääneet näytteet lähes riippumattomia k > mn/n eff Slide 17 - säästää muistia ja levytilaa - nopeuttaa simulaationäytteisiin perustuvaa päättelyä - helpottaa Monte Carlo -epävarmuuden arvioimista (jos k arvioitu oikein) Aikasarja-analyysi* Autokorrelaatioita tutkimalla nähdään riippuvuuksien määrä - algoritmien tehokkuuksia vertailtaessa usein verrataan autokorrelaatiosarjoja Efektiivisten näytteiden määrää voidaan arvioida autokorrelaatioista - Geyer s initial convex/monotone sequence estimator arvioi k:n, josta voi arvioida n eff :n Slide 18 - Esim8_2.m Monte Carlo tarkkuuksia voidaan arvioida helposti osalle yhteenvetoarvoista (esim. odotusarvo) ilman ohennusta
Gibbs-poiminta (luku 11.8) Muunnokset ja uudelleen parametrisoinnit - jos muuttujat olisivat riippumattomia olisi Gibbs-poiminnan tehokkuus 1/d - pyritään saamaan parametrit mahdollisimman riippumattomiksi Apumuuttujat - esim. t-jakauman esittäminen sekaskaalanormaalijakaumana Slide 19 Parametriavaruuden laajentaminen - lisäparametri jonka avulla voidaan hypätä pidempiä matkoja parametriavaruudessa ja siten saavuttaa nopeampi konvergenssi - lisäparametrin takia malli ali-identifioituva, mutta kiinnostavat suureet edelleen identifioituvia Over-relaxation* - poimitaan uusi piste mielummin ehdollisen jakauman vastakkaiselta puolelta Metropolis-algoritmi (luku 11.9) Muunnokset ja uudelleen parametrisoinnit "Optimaalinen" hylkäystaajuus - jos ehdotusjakauma samanmuotoinen kuin kohdejakauma (mikä harvinaista) - optimaalinen skaala c 2.4/ d - tehokkuus olisi 0.3/d Slide 20 - hylkäystaajuus 0.56 0.77 riippuen ulottuvuuksien määrästä Adaptiivisuus - aloitetaan esim. normaalijakauma-approksimaatiolla - poimitaan näytteitä - valitaan uusi ehdotusjakauma näytteiden perusteella esim. normaalijakauma jonka kovarianssi valitaan näytteiden perusteella myös hylkäystaajus voidaan adaptoida - suoritetaan varsinainen poiminta
Adaptiivisista menetelmistä Adaptiiviset menetelmät hyviä, mutta oltava huolellinen, ettei adaptiivisuus estä konvergenssia haluttuun jakaumaan - esim. edellä mainittu yksinkertainen adaptiivinen Metropolis ok, kun adaptointi suoritetaan ennen varsinaista ajoa, joka ei ole adaptiivinen Slide 21 Muita menetelmiä* Erilaisia kehittyneempiä menetelmiä hyvin paljon Kirjan luvussa 13 mainitaan muutama hyödyllisimmistä - hybrid Monte Carlo hyödyntää gradientti-informaatiota Slide 22 - slice sampling sopii erityisesti 1-ulotteisille (vrt. Gibbs) täydellisesti paikallisesti adaptoituva - simulated tempering korkeammassa lämpötilassa moodinvaihto onnistuu helpommin - reversible jump MCMC sallii hypyt parametriavaruudesta toiseen myös ulottuvuuksien määrä voi vaihtua sopii mallin rakenteen valintaan
Päätösanalyysi (decision analysis) Gelman et al. väheksyvät päätösanalyysin merkitystä - ehkä koska heidän ongelmissaan hyötyfunktioiden valinta hyvin vaikeaa ja siksi niihin ei ole haluttu ottaa kantaa, tai eivät ole ymmärtäneet asiaa - kirjan ensimmäisessä painoksessa päätösanalyysia ei ollut ollenkaan Slide 23 Moni muu pitää päätösanalyysia erottamattomana osana bayesilaista todennäköisyysteoriaa - todennäköisyydet ja hyödyt (utilities) erottamattomia - päätösten vaikutusten arviointi ei poikkea muusta bayesilaisesta päättelystä - mallien posteriorijakaumien ja yhteenvetolukujen ilmoittaminen perusteltavissa päätösanalyysilla - tilastollisesti merkittävä vs. käytännössä merkittävä - mallien arviointi, vertailu ja valinta on päätösanalyysia - "Todennäköisyysteoria ilman päätösteoriaa on kuin auto ilman polttoainetta. Se on olemassa, mutta sillä ei pääse minnekään." Bayesilainen päätöksenteko Mahdolliset päätökset d (decision) - usein myös puhutaan toimenpiteistä a (action) Mahdolliset seuraamukset x - x voi olla nominaalinen, ordinaalinen, reaalinen, skalaari, vektori,... Seuraamuksien todennäköisyysjakaumat annettuna päätökset p(x d) Slide 24 - päätöksenteossa päätökset ovat kontrolloituja, joten p(d) ei määritelty Hyötyfunktio U(x) (utility function) kuvaa seuraamuksen reaaliluvuksi - esim. euroiksi tai odotettavaksi elinajaksi - joskus puhutaan erikseen hyödyistä (utility) ja kustannuksista (cost) Hyödyn todennäköisyysjakauma p(u(x) d) Odotettu hyöty E(U(x) d) (expected utility) - voidaan ilmoittaa myös koko jakauma tai muu yhteenvetoarvo Valitaan päätös d, joka maksimoi odotetun hyödyn E(U(x) d)
Päätösanalyysin ja päätösteorian erosta Gelman et al. lepertelevät sekavia päätösanalyysin ja päätösteorian eroista -... statistical decision theory, a mathematical framework that is formally Bayesian but which we find too abstract to be directly useful for real decision problems. - These mathematical results are interesting but we do not see their relevance in practice. Slide 25 Aivan oikein piste-estimaattien sijasta mielummin esittävät koko posteriorijakauman tai intervalleja, mutta unohtavat, että joskus on pakko valita yksi luku - esim. tehtaassa koneen säätöä varten valittava yksi luku ja lopputuloksena saadaan yhtä lopputuotetta - jos muita hyötyfunktioita ei ole käytettävissä, on parempi käyttää edes yleiskäyttöisiä "abstrakteja" hyötyfunktioita Muissa yhteyksissä ainakin Gelman puhunut järkevämpiäkin Esimerkki päätöksenteosta Matti on lähdössä sienimetsään kun huomaa matkalla suuren käpälän jäljen, joka näyttää koiran tai suden jäljeltä Slide 26 Matti mittaa jäljen pituudeksi 14 cm ja menee kotiin tarkistamaan eläinkirjasta eläinten jalkojen kokoja ja sen perusteella yritää päätellä onko otus susi vai koira Todennäköisyys p(x C) 0.4 0.3 0.2 0.1 0 C= Susi C= Iso koira 6 8 10 12 14 16 Jäljen pituus x (cm) havaitun jäljen pituus on merkitty kuvaan pystyviivalla Pelkästään tämän perusteella suden todennäköisyys 0.92
Esimerkki päätöksenteosta Matti olettaa lisäksi, että irrallaan juoksevia koiria on sata kertaa enemmän kuin susia, tällöin siis a priori todennäköisyys sudelle, kun mitään piirteitä ei ole havaittu, on n. 1%. Eri luokkien uskottavuudet ja posteriori-todennäköisyydet Luokitus Uskottavuus Posteriori-todennäköisyys Slide 27 Susi 0.92 0.10 Koira 0.08 0.90 Tämän perusteella suden todennäköisyys 0.10 Esimerkki päätöksenteosta Matti miettii uskaltaako lähteä poimimaan sieniä Oikealle luokitukselle voitaisiin asettaa nollariski Jos otus on koira ja pysytään kotona, seuraa pieni tappio, kun sieniretki jää aiheettomasti tekemättä Slide 28 Jos taas otus on susi, mutta sitä luullaan koiraksi ja lähdetään sienimetsään, on tappio paljon suurempi, koska susi voi syödä Matin suihinsa Otuksen luokka Toiminta Susi Koira Toiminta Ehdollinen riski Pysytään kotona 1 1 Lähdetään metsään 1000 0 Tappiomatriisi Pysytään kotona 1 Lähdetään metsään 100 Eri toimintojen ehdolliset riskit
Esimerkki päätöksenteosta Sudesta jää havaitun kokoinen jälki paljon todennäköisemmin kuin koirasta, joten suurimman uskottavuuden luokitus on susi Havaitun kokoinen jälki on paljon todennäköisemmin jäänyt koirasta, koska koirat ovat niin paljon yleisempiä, ja suurimman todennäköisyyden luokitus on koira Minimiriskipäätös on pysyä kotona, vaikka otus on todennäköisemmin koira Slide 29 - lähtöoletusten mukaan suden tapaaminen metsässä aiheuttaa suuren odotetun tappion, ja se huomioon ottaen otukseen kannattaa suhtautua kuin se olisi susi, jotta kokonaisriski minimoituu Esimerkistä näkyy selvästi, että kaikkien vaihtoehtojen todennäköisyydet täytyy pitää mukana lopulliseen päätöksentekoon asti - jos luokkien todennäköisyyksien perusteella tehdään päätös, että kyseessä on koira, ei sen jälkeen ole enää mahdollista tehdä minimiriskipäätöstä, jossa otetaan huomioon väärän luokituksen aiheuttamat riskit Esimerkki päätöksenteosta Professori Gelmanilla on purkillinen neljännedollareita - purkkiin ensin vedetty viiva ja sitten purkki täytetty viivaan asti kolikoilla, joten kolikoiden määrää ei ole valittu etukäteen - Prof. Gelman ei itse tiedä kolikoiden määrää - Prof. Gelman tarjoaa luokalle mahdollisuutta voittaa kaikki purkin kolikot jos luokaa arvaa kolikoiden määrän oikein Slide 30 - niille tiedoksi, jotka eivät olleet luennolla, esimerkki käsiteltiin loppuun suullisesti ja taululla
Hyötyfunktion valinnan vaikeudesta 1) Varmasti 1 tai todennäköisyydellä p 1 1 000 000 ja 1 p 1 0 2) Varmasti 1 tai p 2 10 Varmasti 10 tai p 3 100 Varmasti 100 tai p 4 1000 Varmasti 1000 tai p 5 1 000 000 Slide 31 Hyötyfunktion valinnan vaikeudesta Jos seuraavat vaihtoehdot samanarvoiset henkilölle Varmasti 10 tai todennäköisyydellä 55% 20 ja 45% 0 Varmasti 20 tai todennäköisyydellä 55% 30 ja 45% 10 Slide 32 Varmasti x tai todennäköisyydellä 55% (x+10) ja 45% (x-10), x=30,40,50,... niin mikä on y Varmasti y tai todennäköisyydellä 50% 1 miljardi ja 50% 0 y on jotain välillä 30 40!
Hyötyfunktion valinnan vaikeudesta Ihmiset huonoja arvioimaan todennäköisyyksiä Extrapolointi tuottaa outoja tuloksia Epävarmuuden pelkoa eli riskin välttämistä ei voida selittää odotetun hyödyn maksimoinilla ja konkaavilla hyötyfunktiolla Slide 33 Epävarmuuden kustannukset ovat vaikeita määritellä Hyötyjä ja kustannuksia on vaikea arvioida esim. terveydenhoidossa. - mitä sairauksia ja millä kustanuksilla niitä pitäisi hoitaa? - yksittäisen ihmisen hyöty on, että hän ja hänen läheisensä ovat terveitä - lääkärin hyödystä osa voi tulla bonuksina jos syntyy säästöjä, jne Paljonko ympäristön puhtaus tai maapallon lämpeneminen maksaa rahassa Usein lopullisessa päätöksenteossa niin monenlaiset ihmisarvot, että siinä matemaattinen teoria on pulassa Esimerkki Monivaiheinen päätöksenteko: lääketieteellinen seulonta - kirja luku 22.3-95-vuotiaalla kasvain joka mahdollisesti pahalaatuinen - esimerkissä laskettiin odotettua elinaikaa Slide 34 - mitä jos hoitojen kustannukset olisivat mukana? kuinka paljon 95-vuotiaan odotettu lisäelinkuukausi voisi maksaa kuinka paljon 5-vuotiaan odotettu lisäelinkuukausi voisi maksaa
Elämän hinta? 1) Kuinka paljon pitäisi sinulle maksaa, että suostuisit kuolemaan? 2) Saat valita (a) jatkat elämistä (b) todennäköisyydellä p kuolet ja todennäköisyydellä (1- p) saat 1000 3) Onko autossasi turvatyyny? Slide 35 - turvatyyny maksaa 1000 - auto käytössä 10 vuotta - amerikkalaisen tutkimuksen mukaan turvatyyny pelastaa n. 2% tapauksista - Suomessa kuolee liikenteessä n. 300 vuodessa - oletetaan, että ajat varovasti, etkä aja humalassa - todennäköisyys, että turvatyyny pelastaa henkesi, on n. 1e-8 - odotusarvohinta hengellesi n. 100 miljardia euroa - vrt. Gelman et al. s. 566 odotusarvohinta hengelle radonmittauksissa ja -korjauksissa n. 1 miljoona dollaria Yhteys mallien arviointiin ja valintaan Mikä on odotettu hyöty jos käytämme mallia ennustamiseen ja päätöksentekoon tulevaisuudessa - mallin odotettu hyöty - voidaan arvioida onko mallista käytännön hyötyä - voidaan vertailla mallien odotettuja hyötyjä Slide 36