Luento 11 Muutama hyödyllinen Monte Carlo-menetelmä Mitä muuta hyödyllistä Gelman et al kirjasta löytyy Kertaus koko kurssiin - tenttiinlukuohjeet Slide 1 Muutama hyödyllinen Monte Carlo-menetelmä Hylkäyspoiminta (rejection sampling) Painotuspoiminta (importance sampling) Viipalepoiminta (slice sampling) RJMCMC eli Metropolis-Hasting-Green Slide 2
Hylkäyspoiminta (rejection sampling, s. 284-285) Käyttökohteita - adaptiivinen hylkäyspoiminta osana Gibbs-poimintaa (esim. BUGSissa) - osana muita menetelmiä, kuten esim. ziggurat Ehdotusjakauma muodostaa kuoren (envelope) kohdejakauman päälle Slide 3 Hylkäyspoiminta Valitaan ehdotusjakauma g(θ) (proposal distribution) josta helppo simuloida näytteitä ja joka muistuttaa kiinnostavaa jakaumaa p(θ y) q(θ y) - molempien jakaumien on oltava aitoja (proper), mutta voivat olla normalisoimattomia - on oltava olemassa tunnettu vakio M siten, että kaikille θ pätee Slide 4 q(θ y) Mg(θ) 1 Algoritmi 1. poimi θ ehdotusjakaumasta g(θ) 2. hyväksy θ todennäköisyydellä q(θ y)/(mg(θ)) jos θ hylätään, palaa askeleeseen 1 - hyväksytyt θ:t ovat näytteitä jakaumasta p(θ y) Esim11_1.m
Hylkäyspoiminta Toimii jos ehdotusjakauma g on hyvä approksimaatio q:lle - yksiulotteisille log-konkaaveille ja lähes log-konkaaveille jakaumille tehokkaita adaptiivisia ehdotusjakauman muodostusalgoritmeja - jos ehdotusjakauma g on hyvin erilainen, hylkäysten määrä on suuri ja todellisia näytteitä saadaan hitaasti - keskimäärinen hylkäystodennäköisyys kertoo menetelmän toimivuuden Slide 5 Ulottuvuuksien määrän kasvaessa hyvän ehdotusjakauman valitseminen vaikeampaa - esim: q ja p molemmat normaalijakaumia σ q = 1.01σ p - jos N = 1000 pitää olla M 20000 - hyväksymistodennäköisyys on 1/M Painotuspoiminta (importance sampling, luku 13.3) Käyttökohteita - oleellinen osa sekventiaalisia menetelmiä sequential Monte Carlo, particle filters - variaatiolaskentatuloksen parantaminen - adaptiivisia menetelmiä Slide 6 Muistuttaa hylkäyspoimintaa, mutta painot voivat olla myös suurempia kuin 1 Perusmenetelmä ei tuota näytteitä kiinnostavasta jakaumasta vaan estimoi f (θ):n odotusarvon seuraavasti l E( f (θ)) w l f (θ (l) ) l w, missä w l q(θ(l) ) l g(θ (l) ) Esim11_2.m
Painotuspoiminta Luotettavuuden arviointi vaikeaa, jos ehdotusjakauman tiheys hyvin pieni alueilla, missä kiinnostavan jakauman tiheys ei ole hyvin pieni - painojen varianssista voidaan yrittää arvioida efektiivisten näytteiden määrä - painojen varianssi voi olla ääretön - myös äärellisellä, mutta hyvin suurella painojen varianssilla ongelmia Slide 7 Painotuspoiminta uudelleen-poiminalla - p(θ y) approksimoidaan diskreetillä jakaumalla, joka saa arvoja pisteissä jotka poimittu ehdotujakaumasta g(θ) ja tiheysarvot ovat normalisoidut painot - tuottaa näytteitä kiinnostavasta jakaumasta - tyypillinen osa esim. partikkelisuotimia (particle filters) Painotuspoimintaan perustuvat adaptiiviset menetelmät kasvattamassa suosiotaan - painotuspoiminan ei tarvitse noudattaa Markov-ketju-sääntöjä Viipalepoiminta (slice sampling, s. 336) Käyttökohteita - erityisesti 1-ulotteisille osana Gibbs-poimintaa koko poiminta komponenteittain - myös vähemmän käytetty 2-ulotteinen versio Slide 8 Täydellisesti paikallisesti adaptoituva Ei herkkä algoritmin parametrien arvojen valinnoille Esim11_3.m
RJMCMC (Reversible jump MCMC, s. 338-339) Myös nimellä Metropolis-Hastings-Green Sallii hypyt parametriavaruudesta toiseen - parametrien määrä voi myös vaihtua - mahdollistaa helpon tavan ottaa huomioon epävarmuus mallin rakenteesta Slide 9 Parametriavaruuden muuttuminen otetaan huomioon hyppytodennäköisyyttä laskettaessa r = p(y θ k, M k )p(θ k M k ) p(y θ k, M k )p(θ k M k ) J k,k J(u k, k, θ k ) J k,k J(u k, k, θ k ) g k,k (θ k, u) (θ k, u) Muita menetelmiä hybrid Monte Carlo, Langevin (s. 335-336) - hyödyntää gradientti-informaatiota - momenttimuuttuja vähentää satunnaiskävelyä simulated tempering (s. 337-338) - hyppyjä lämpötilasta toiseen ja hyppyjä tietyssä lämpötilassa Slide 10 - korkeammassa lämpötilassa moodinvaihto onnistuu helpommin - matalin lämpötila vastaa kiinnostavaa jakaumaa
Kvadratuuri-integrointi * Koesuunnittelutehävässä sai käyttää integrointiin adaptiivista Simpsonin kvadratuuria Simpsonin menetelmä approksimoi integraalia toisen asteen polynomilla Slide 11 Adaptiivinen Simpsonin menetelmä jakaa integroitavan alueen iteratiivisesti pätkiin kunnes riittävä tarkkuus - iteratiivinen pätkiminen sisältää hieman heuristiikka, jotta laskuaika kokonaisintegraalin kannalta käytettäisiin tehokkaasti useimille funktioille Datankeruuprosessin mallintaminen (luku 7, ei tenttiin)* Ignorability Täydellinen, havaittu ja puuttuva data Stabiilisuus ja stabiili käsittely Kyselykokeet, suunnitellut kokeet, havaintokokeet Slide 12 Sensurointi ja katkaisu
Ignorability* Voidaanko datankeruuprosessi jättää mallintamatta Kursilla käydyissä esimerkeissä datankeruuprosessi on ollut ignorable Vastaesimerkki: - puhelinkyselyllä kysellään ennustuskäyttäytymistä Slide 13 - voidaanko tehdä suoraan johtopäätöksiä kaikkien äänestäjien suorittaneiden mielipiteistä? ei voi, koska datankeruuprosessi ei ole ignorable - otettava huomioon, että eri äänestäjäryhmillä on eri määrä puhelimia ja eri lailla intoa vastata puhelimeen - hyvin tehdyissä mielipidekyselyissä otetaan huomioon myös datankeruuprosessi (vrt. lehtien www-sivuilla olevat kyselyt) Luvussa 7 lisää datankeruuprosessin mallintamisesta Mitä muuta hyödyllistä Gelman et al kirjasta löytyy Yhteyksiä muihin tilastollisiin menetelmiin (luku 8) Bayesilaisen data analyysin haasteita (luku 8) Yleisiä neuvoja analyysin yhteenveto (luku 9) EM-algoritmit (luku 12) Slide 14 Regressiomallit, hierarkkiset, yleistetyt, ja monimuuttujalineaarimallit (luvut 14-16,19) Robustit mallit (luku 17) Sekamallit (mixture models, luku 18) Puuttuva data (missing data, luku 21)
Bayesilaisen mallintamisen perusteet Johdanto Yksiparametrisia malleja Moniparametrisia malleja Slide 15 Päättely suurten otosten tapauksessa ja bayesilaisen päättelyn frekvenssiominaisuudet Hierarkkiset mallit Laskennallisia menetelmiä, Markov-ketju Monte Carlo Päätösanalyysi Mallien tarkistus, vertailu ja parannus Johdanto (luku 1) Termit ja notaatio Bayesin kaava, summa- ja tulosääntö Priori-, posteriori- ja prediktiivinen jakauma Todennäköisyys epävarmuuden mittana Slide 16 Subjektiivisuus vs. objektiivisuus Yksinkertainen simulaatio Inverse-cdf -menetelmä
Yksiparametrisia malleja (luku 2) Termit ja notaatio Binomi-jakauma - minkälaiselle datalle, kaava ja parametrit, konjugaattipriori Normaalijakauma - minkälaiselle datalle, kaava ja parametrit, konjugaattipriorit Slide 17 - (ei tarvitse tentissä osata johtaa posteriorijakaumia tms.) Posteriorijakauman esitäminen - odotusarvo, hajonta, kvantiilit, intervallit, ja HPD Konjugaattipriorin vs. ei-konjugaatipriori - kummankin edut ja ongelmat, esim. vaikutus laskentaan Informatiivinen priori vs. ei-informatiivinen priori - kummankin edut ja ongelmat Moniparametrisia malleja (luku 3) Termit ja notaatio Marginaalijakauma ja marginalisaatio Normaalijakauma - ei-informatiivinen priori ja sen ehdolliset jakaumat ja marginaalijakaumat Slide 18 - konjugaattipriori - (ei tarvitse tentissä osata johtaa posteriorijakaumia tms.) Semi-konjugaattisuus Multinomi-malli - millaiselle datalle, konjugaatipriori
Päättely suurten otosten tapauksessa (luku 4) Normaalijakauma-approksimaatio - Taylor-sarjakehitelmä log-posteriorille - approksimaation parametrit - havaittu informaatio - kuinka voidaan laskea Slide 19 - edut ja ongelmat - asymptootisuuden merkitys Termit lyhyesti - ali-identifioituva malli ja ei-identifoituvat parametrit - valetoisto - rajoittamaton likelihood - ei-aito posteriori Frekvenssiominaisuuksia ei kysytä tentissä Hierarkkiset mallit (luku 5) Hierarkkinen malli - määrittely - parametri vs. hyperparametri - millaiselle datalle - edut Slide 20 - laskenta ja poiminta yleisellä tasolla ja eri vaihtoehdot (ei yksityiskohtaisia kaavoja) Vaihtokelpoisuus - määritelmä - esimerkkejä - suhde riippumattomuuteen - vaihtokelpoisuus kun yksiköistä on lisäinformaatiota Erillis- ja yhteismalli ja niiden yhteys hierarkkiseen mallin
Laskennallisia menetelmiä (luku 10) Karkean estimoinnin merkitys Montako simulaationäytettä tarvitaan - simulaatioepävarmuus (Monte carlo error) - odotusarvolle - posterioritodennäköisyydelle Slide 21 Laskennallisia menetelmiä (luku 11) Lyhyet kuvaukset seuraavista sekä edut ja ongelmat - suora simulointi - hilapoiminta Slide 22
Markov-ketju Monte Carlo (luku 11) Markov-ketju Monte Carlo - määritelmä - termit: siirtymäjakauma, alkupiste, stationaarinen jakauma, konvergenssi - edut ja ongelmat Slide 23 Gibbs-poiminta, Metropolis ja Metropolis-Hastings-algoritmit - kuvaus pseudokooditasolla - edut ja ongelmat - Gibbs-poiminta jos osa ehdollisista jakaumista ei suljetussa muodossa Markov-ketju Monte Carlo (luku 11) Sisäänajo Peräkkäisten näytteiden riippuvuus - kuinka riippuvista näytteistä lasketaan Monte Carlo -epävarmuus - autokorrelaatio - termi efektiivinen näytteiden määrä Slide 24 - ohennus - Geyerin menetelmä (yleisperiaate, ei kaavoja, ks. geyer.pdf) Konvergenssidiagnostiikka - määritelmä - useat ketjut - PSRF - Kolmogorov-Smirnov-statistiikka (vain yleisperiaate, ei kaavoja)
Päätösanalyysi (luku 22) Päätösanalyyin termit ja vaiheet - päätös - lopputulos ja sen jakauma annettuna päätös - hyöty- tai kustannusfunktio - hyödyn jakauma Slide 25 - odotettu hyöty Päätösanalyysilasku - tasoltaan vastaava kuin luku 22.3, tehtävä 22.1 tai luentoesimerkki (testaa samalla Bayesin kaavan käytön) Mallien tarkistus, vertailu ja parannus (luku 6) Onko mallin tuloksissa järkeä? Ulkoinen validointi Posterioriprediktiivinen tarkistus - posterioriorediktiiviset replikaatit ja p-arvot - edut ja ongelmat Slide 26 Herkkyysanalyysi
Mallien tarkistus, vertailu ja parannus (luku 6) DIC - määritelmä ja kuinka lasketaan - efektiviinen parametrien määrä - edut ja ongelmat Bayes-tekijä Slide 27 - määritelmä ja ongelmat Tentti Termit, menetelmät ja algoritmit kuvauksia - lyhyet tai pidemmät kuvaukset - aina mukaan edut ja ongelmat - eri termien tai menetelmien välisiä suhteita ja eroja - alogritmit pseudokoodilla Slide 28 - tärkeimmistä asioista myös kaavat - kysymykset esim. muotoa Kuvaile lyhyesti vaihtoehtoisia tapoja <tehdä jotakin> Kerro lyhyesti mitä seuraavat termit tarkoittavat ja mihin niitä käytetään Kuvaa lyhyesti <z>-algoritmi/menetelmä ja kerro sen edut ja ongelmat Kuvaa lyhesti algoritmit/menetelmät/termit <x> ja <y> ja vertaile niiden ominaisuuksia Mitä on <x> ja mihin sitä käytetään? Yksi laskutehtävä
Kevään jatkokurssi S-114.4610 Bayesilaisen mallintamisen erikoiskurssi - seminaarimuotoinen + harjoitustyö Varmoja aiheita ovat - mallin tarkistus, odotettu hyöty ja valinta Slide 29 Muita aiheita osallistujien mukaan, esim. - Monte Carlo, MCMC, SMC, PMC - variaatiomenetelmät, expectation propagation - priorit, referenssipriorit, prioritiedon selvittäminen - ei-parametriset mallit - gaussiset prosessit - Dirichlet-prosessit - robustit mallit - yms.