- kuinka monta riippuvaa simulaationäytettä tarvitaan. - hyödyllisiä perus-mcmc-menetelmien parannuksia

Transkriptio

1 Luento 8 Markov-ketju Monte Carlo - konvergenssidiagnostiikka (convergence diagnostics) - simulaationäytteiden käyttö - kuinka monta riippuvaa simulaationäytettä tarvitaan - hyödyllisiä perus-mcmc-menetelmien parannuksia Slide 1 Konvergenssidiagnostiikka ja sisäänajo MCMC-ketjun alkupää ei käyttökelpoinen ennenkuin alkupiste unohtunut Kun ketju konvergoitunut saadaan näytteitä halutusta jakaumasta Konvergoitumista voidaan tutkia konvergenssidiagnostiikalla - rinnakkaisten riippumattomien ketjujen vertailu Slide 2 - yhden ketjun eri osien vertailu Ennen konvergenssia simuloidut näytteet heitettävä pois - sisäänajo (burn-in)

2 MCMC-näytteet eivät riippumattomia Monte Carlo -estimaatit silti päteviä Monte Carlo -estimaatin epävarmuuden arviointi vaikeampaa - aikasarja-analyysi - ohennus - niputus Slide 3 Mahdollista arvioida efektiivinen näytteiden määrä - ajamalla rinnakkaisia riippumattomia ketjuja - käyttämällä aikasarja-analyysin menetelmiä Useiden ketjujen käyttö Useiden riippumattomien käyttö turvallisempaa kuin yhden Ketjujen alustus - aloita eri ketjut eri alkupisteistä Slide 4 - pyri valitsemaan alkupisteet suuremalla hajonnalla kuin posteriorin oletettu hajonta (overdispersed starting points) onnistuu helposti vain kun hyvä arvaus posteriorin massan muodosta ja sijainnista - aloita jokainen ketju eri satunnaislukusiemenellä

3 Yksittäisen ketjun käyttö Jos simulaatioaika hyvin pitkä voidaan laskentateho käyttää yhteen ketjuun - vältetään useampi sisäänajo Konvergenssidiagnostiikassa sisäänajon poiston jälkeen voidaan vertailla esimerkiksi ketjun ensimmäistä ja viimeistä kolmannesta Slide 5 Ketjujen vertailu Vertaa kiinnostavia skalaariarvoja - parametrit - parametreista laskettavat muut kiinnostavat - tulevien havaintojen ennusteet - log-posterioritiheys Slide 6 - log-prediktiivinen tiheys

4 Visuaalinen tarkastelu Gelman et al. aivan oikein varoittavat luottamasta visuaaliseen trendien tarkasteluun - visuaalinen tarkastelu ei riittävä konvergenssin hyväksymiseksi - visuaalinen tarkastelu kuitenkin usein riittävä konvergenssin hylkäämiseksi - visuaalinen tarkastelu antaa vihjeitä mikä voisi olla vialla Slide 7 - ihmisen näköjärjestelmä on tehokas huomaamaan poikkeavia asioita, joita vaikea muotoilla matemaattisesti - mitä enemmän tarkasteltavia suureita, sitä vaikeampaa on visuaalinen tarkastelu Ketjujen odotusarvojen ja varianssien vertailu (PSRF) m riippumatonta ketjua, jokaisen pituus n (kun ensimmäinen puolisko poistettu) - estimoitavien skalaarien simulaationäytteet ψ i j (i = 1,..., n; j = 1,...,m) Gelman et al.: potential scale reduction factor (PSRF) - perustuu ketjujen odotusarvojen ja varianssien vertailuun Slide 8 - sopii jatkuville jakaumille ja diskreeteille jakaumille, joita voidaan hyvin approksimoida normaalijakaumalla - estimoitavat skaalarit hyvä muuntaa siten, että olisivat mahdollisimman normaalijakautuneita esim. ottamalla logaritmi aidosti positiivisesta suureesta - Gelman et al. poistavat ensimmäisen puoliskon ja vertailevat jälkimmäisiä puoliskoja

5 Ketjujen odotusarvojen ja varianssien vertailu Lasketaan ketjujen välinen varianssi B (between) B = n m 1 m ( ψ. j ψ.. ) 2, missä ψ. j = 1 n j=1 - B/n on ketjujen keskiarvojen varianssi n ψ i j, ψ.. = 1 m i=1 m j=1 ψ. j Slide 9 Lasketaan ketjujen sisäinen varianssi W (within) W = 1 m m j=1 s 2 j, missä s2 j = 1 n 1 n (ψ i j ψ. j ) 2 i=1 Estimoidaan estimoitavan marginaaliposteriorivarianssi var(ψ y) W :n ja B:n painotettuna keskiarvona var + (ψ y) = n 1 W + 1 n n B Ketjujen odotusarvojen ja varianssien vertailu Slide 10 Estimoidaan var(ψ y) W :n ja B:n painotettuna keskiarvona var + (ψ y) = n 1 W + 1 n n B - tämä yliarvioi marginaaliposteriorivarianssin jos alkupisteet ovat riittävän ylihajonneita, koska silloin B suurempi - harhaton stationäärisessä tilassa tai kun n Äärellisellä n, W aliarvioi marginaaliposteriorivarianssin - yksittäiset ketjut eivät ole ehtineet käydä jakauman joka pisteessä, joten niissä on vähemmän vaihtelua - kun n, E(W) var(ψ y) Koska var + (ψ y) yliarvioi ja W aliarvioi, lasketaan var ˆR + = W

6 Ketjujen odotusarvojen ja varianssien vertailu Potentiaalinen skaalanpienennyskerroin (potential scale reduction factor) ˆR = var + W Slide 11 - estimoi kuinka paljon ψ:n tämänhetkisen jakauman skaala voisi pienentyä jos simulaatiota jatkettaisiin rajalle n - R 1, kun n - jos R on iso, on syytä uskoa, että lisäsimulaatio voi parantaa arviota kyseisen estimoitavan skalaarin jakaumasta - jos R ei ole kaikille estimoitaville skalaareille lähes 1, jatka simulaatiota - lähes 1 tarkoittaa usein alle 1.1, mutta joskus voi olla tarvetta tarkempaankin Esim8_1.m Potentiaalinen skaalanpienennyskerroin (PSRF) Vaikka R lähes 1, ketju ei ole välttämättä konvergoitunut - alkupisteet eivät ylihajonneita - poikkeama normaaliudesta - äärellisellä n sattuman vaikutus Slide 12

7 Simulaationäytteisiin perustuvat konvergenssidiagnostiikat Simulaationäytteisiin perustuvat konvergenssidiagnostiikat voivat paljastaa vain jos konvergenssia ei ole tapahtunut - vaikka diagnostiikan mukaan konvergenssi olisi mahdollinen, on myös aina mahdollista, että lähtöpisteiden ja algoritmin yhteisvalinnan sekä sattuman vuoksi yksikään ketju ei ole käynyt alueilla joissa merkittävästi massaa - ongelmallisia esim. suppilomaiset ja multimodaaliset jakaumat Slide 13 Suppilomaisten jakaumien ongelmat Jos ehdotustodennäköisyys valitaan suppilon leveän osan mukaan, todennäköisyys hypätä suppilon kapeaan osaan hyvin pieni - jos kapeasta osasta ei saada näytteitä, voi ongelma jäädä konvergenssidiagnostiikalta huomaamatta Slide 14 - ratkaisuja uudelleen parametrisointi paikallisesti adaptoituvat algoritmit kuten viipalepoiminta

8 Multimodaalisten jakaumien ongelmat Multimodaalisessa jakaumassa todennäköisyys, että käytetty ketju siirtyy moodista toiseen voi olla hyvin pieni - jos moodi ei vaihdu, voi ketju vaikuttaa konvergoituneelta, vaikka toisessa moodissa olla merkittävä määrä todennäköisyysmassaa Slide 15 - ratkaisuja priorilla poistetaan moodeja kehittyneemmät algoritmit käytetään useita kytkettyjä ketjuja eri alkupisteillä Simulaationäytteisiin perustuvat konvergenssidiagnostiikat Joidenkin skalaarien marginaalijakauma voi näyttää konvergoituneelta vaikka yhteisjakauma ei olisi - ei-normaalijakautuneen moniulotteisen konvergenssidiagnostiikka vaikeaa - jos tutkitaan yksittäisiä marginaalijakaumia, useiden vertailujen ongelma Lisäksi PSRF:ssä Slide 16 - jos ketjujen alkupisteet lähekkäin, voi R olla lähes 1, vaikka ei konvergenssia

9 Täydellinen poiminta (perfect sampling)* Joillekin malleille on algoritmeja joissa tiedetään varmasti milloin konvergenssi tapahtunut - mahdollista poimia varmasti riippumattomia näytteitä - algoritmeja kehitetään jatkuvasti eri mallivaihtoehdoille toistaiseksi vain hyvin rajoitetuille malleille Slide 17 Konvergenssidiagnostiikoita Konvergenssidiagnostiikoita on lukuisia, itse olen käyttänyt pääasiassa - useiden ketjujen ajo - visuaalinen tarkastelu - potential scale reduction factor Slide 18 - Kolmogorov-Smirnov statistic sopii myös ei normaalijakautuneille vain riippuumattomille näytteille esitellään myöhemmin tällä luennolla

10 Sisäänajo (burn-in) Gelman et al. tutkivat konvergenssia ketjun loppupuoliskolle - arvioidun konvergenssin jälkeen voidaan alkupuolisko heittää pois ja jatkaa ketjuja kunnes saatu haluttu määrä näytteitä - puoliksi jakaminen turvallista, mutta ei välttämättä tehokasta kuten demossa näkyi Slide 19 Efektiivinen näytteiden määrä Jos ketjun n simulaationäytettä olisivat riippumatomia, ketjujen välinen varianssi B olisi posteriorivarianssin var(ψ y) harhaton estimaatti ja meillä olisi yhteensä mn riippumatonta näytettä Yleisesti MCMC-ketjujen näytteet korreloivat ja B on odotusarvoisesti suurempi kuin var(ψ y) Slide 20 Efektiivinen näytteiden määrä voidaan arvioida seuraavasti n eff = mn var+ (ψ y) B - jos m pieni, tämä on varsin karkea estimaatti - supertehokas simulaatio, missä n eff > mn, mahdollinen, mutta käytännössä epätodennäköinen - Gelman et al. ilmoittavat varmuudeksi min(n eff, mn) Jos efektiivinen näytteiden määrän suhde pieni (alle 5%), arvio hyvin epävarma!

11 Montako simulaationäytettä tarvitaan? Lasketaan tarvittavien näytteiden määrä riippumattomille näytteille Simuloidaan kunnes efektiivinen näytteiden määrä riittävän suuri Slide 21 Ohennus (thinning) Ei välttämätöntä, mutta usein käytetty Ohennuksessa talletetaan vain joka k:s MCMC-näyte - valitsemalla k riittävän isoksi jäljelle jääneet näytteet lähes riippumattomia k > mn/n eff Slide 22 - hukkaa informaatiota - säästää muistia ja levytilaa - nopeuttaa simulaationäytteisiin perustuvaa päättelyä - helpottaa Monte Carlo -epävarmuuden arvioimista (jos k arvioitu oikein)

12 Niputus (batching)* Niputuksessa lasketaan keskiarvo (tai muu tunnusluku) peräkkäisistä k MCMC-näyteestä - valitsemalla k riittävän isoksi nippujen keskiarvot lähes riippumattomia k > mn/n eff - ei hukkaa yhtä paljon informaatiota kuin ohennus Slide 23 - helpottaa konvergenssidiagnostiikkaa ja Monte Carlo -epävarmuuden arvioimista (jos k arvioitu oikein) - nippujen tunnusluvut eivät näytteitä kiinnostavasta jakaumasta Aikasarja-analyysi Autokorrelaatiofunktio - kuvaa eri etäisyydellä toisistaan olevien aikapisteiden välistä korrelaatiota - käytetään myös vertailtaessa algoritmien tehokkuuksia Slide θ 1 θ

13 Aikasarja-analyysi Monte Carlo -tarkkuuksia voidaan aikasarja-analyysilla arvioida osalle yhteenvetoarvoista (esim. odotusarvo) ilman ohennusta Odotusarvolle θ Slide 25 missä τ on summattu autokorrelaatio Var[ θ] = σ 2 θ L/τ - τ kuvaa montako riippuvaa näytettä vastaa yhtä riippumatonta näytettä - käyttää informaation tarkemmin - vain joillekin tunnusluvuille Aikasarja-analyysi τ :n estimointi τ = γ(m) m=1 missä γ(m) on empiirinen autokorrelaatio Slide 26 - empiirinen autokorrelaatiofunktio on kohinainen ja siten τ :n estimaattikin on kohinainen - erityisesti pidemmällä viivellä kohina kasvaa - kohinaa voidaan vähentää katkaisemmalla autokorrelaatiofunktio sopivasti l τ = γ(m) m=1 Koska τ estimoitu äärellisestä näytemäärästä, estimaatti ylioptimistinen - jos τ > L/20 arvio varmasti epäluotettava

14 Geyerin adaptiivisen ikkunan estimaattorit Ottamalla huomioon Markov-ketjun ominaisuudet voidaan katkaisukohta löytää adaptiivisesti - stationääriselle, pelkistymättömälle, palautuvalle Markov-ketjulle - merkitään Ŵ m = γ 2m + γ 2m+1, joka on vierekkäisten autokorrelaatioparien summa Slide 27 - Ŵ m on aidosti positiivinen, aidosti vähenevä, aidosti konveksi funktio m:n suhteen Tätä ominaisuutta hyödyntäen voidaan muodostaa adaptiivisen ikkunan estimaattorit - initial positive sequence estimator (Geyer s IPSE) - initial monotone sequence estimator (Geyer s IMSE) - initial convex sequence estimator (Geyer s ICSE) Aikasarja-analyysi Efektiivisten näytteiden määrää - vertaamalla riippumattomien näytteiden ja riippuvien näytteiden odotusarvon epävarmuuden kaavaa nähdään helposti, että n eff L/τ Ohennuksen ja niputuksen k voidaan valita Slide 28 k > τ Geyerin IMSE tarkempi kuin PSRF:n estimaatti n eff :lle - PSRF:n tarkkuden rajana ketjujen määrä - Esim8_2.m, geyer_imse.m, geyer.pdf

15 Kolmogorov-Smirnov statistiikka konvergenssidiagnostiikkana Ei-parametrinen menetelmä arvioimaan tulevatko näytteet samasta jakaumasta - sopii myös ei normaalijakautuneille - VAIN riippuumatomille näytteille (ohenna ensin) Muodostaa empiiriset kumulatiivisen jakaumat ja vertaa niiden välistä suurinta Slide 29 etäisyyttä - tutkittava suure on nk(n) K(n) = sup F 1,n (x) F 2,n (x) x - yksittäiselle vertailulle 95%-kvantiili on 1.36 (kun M 100, pienempi arvo parempi) - monelle ketjulle verrataan riippumattomien näytteiden simulaatiosta laskettuun arvoon Esim8_3.m, ksstat.m Kolmogorov-Smirnov statistiikka konvergenssidiagnostiikkana Monelle ketjulle verrataan riippumattomien näytteiden simulaatiosta laskettuun arvoon - KS:lla voidaan verrata keskenään vain kahta ketjua yhtäaikaa Slide 30 - useammalla ketjulla verrataan pareittain kaikkia ketjuja ja valitaan suurin luku tätä verratan jakauman 95%-kvantiiliin joka saadaan estimoitua simuloimalla esim. 100 kertaa vastaavankokoisia näytemääriä ja näytejoukkoja riippumattomia satunnaislukuja joista lasketaan maksimit

16 Satunnaiskävely Markov-ketju etenee satunnaisesti - käytetään termiä satunnaiskävely (random walk) - aika joka menee, että saadaan riippumaton näyte on vähintään sama aika kuin aika joka menee kulkea oleellisen posteriorimassan alueen laidasta toiseen Slide 31 - jos ketju etenee pienin askelin, on satunnaiskävely hitaampaa ja laidasta laitaan kävelyyn menee enemmän aikaa - askelkokoa rajoittaa ehdotusjakauma Posteriorijakauman muodon vaikutus satunnaiskävelyyn Satunnaiskävelyn vuoksi keskimäärinen näytteiden määrä T, joka tarvitaan riippumattoman näytteen saamiseen Slide 32 - Gibbs: T (σ marg /σ cond ) 2, missä σ marg on marginaalijakauman leveys ja σ cond ehdollisen jakauman keskimääräinen leveys leluesimerkissä T 4 aikasarja-analyysi arvioi T Metropolis: T (σ max /σ prop ) 2 /f, missä σ max on jakauman suurin leveys, σ prop ehdotusjakauman leveys ja f hyväksymistodennäköisyys leluesimerkissä T 24 aikasarja-analyysi arvioi T 23 Edelllä laskettu approksimaatiivinen alaraja T :lle - suuntaa antava posteriorikorrelaatioiden vaikutuksesta

17 Satunnaiskävelyn vähentäminen Satunnaiskävelyä voidaan vähentää - uudelleen parametrisoimalla - satunnaiskävelyä vähentävillä algoritmeilla Slide 33 Gibbs-poiminta (luku 11.8) Muunnokset ja uudelleen parametrisoinnit (reparametrization) - jos muuttujat olisivat riippumattomia olisi Gibbs-poiminnan tehokkuus 1 tai 1/d per poiminta (d poimintaa per iteraatio) - pyritään saamaan parametrit mahdollisimman riippumattomiksi Apumuuttujat (auxiliary variables) Slide 34 - esim. t-jakauman esittäminen sekaskaalanormaalijakaumana Parametriavaruuden laajentaminen (parameter expansion) - lisäparametri jonka avulla voidaan hypätä pidempiä matkoja parametriavaruudessa ja siten saavuttaa nopeampi konvergenssi - lisäparametrin takia malli ali-identifioituva, mutta kiinnostavat suureet edelleen identifioituvia

18 Metropolis-algoritmi (luku 11.9) Muunnokset ja uudelleen parametrisoinnit "Optimaalinen" hylkäystaajuus - jos ehdotusjakauma samanmuotoinen kuin kohdejakauma (mikä harvinaista) - optimaalinen skaala c 2.4/ d - tehokkuus olisi 0.3/d Slide 35 - hylkäystaajuus riippuen ulottuvuuksien määrästä Adaptiivisuus - aloitetaan esim. normaalijakauma-approksimaatiolla - poimitaan näytteitä - valitaan uusi ehdotusjakauma näytteiden perusteella esim. normaalijakauma jonka kovarianssi valitaan näytteiden perusteella myös hylkäystaajus voidaan adaptoida - suoritetaan varsinainen poiminta Adaptiivisista menetelmistä Adaptiiviset menetelmät hyödyllisiä, mutta oltava huolellinen, ettei adaptiivisuus estä konvergenssia haluttuun jakaumaan - jatkuvalla adaptaatiolla ketju ei ole enää Markov-ketju tietyillä ehdoilla näytteet voivat silti tulla halutusta jakaumasta - edellä mainittu yksinkertainen adaptiivinen Metropolis ok, kun adaptointi suoritetaan ennen varsinaista ajoa, joka ei ole adaptiivinen Slide 36 Painotuspoimintaan perustuvat adaptiiviset menetelmät kasvattamassa suosiotaan - painotuspoiminan ei tarvitse noudattaa Markov-ketju-sääntöjä