The Metropolis-Hastings Algorithm

The Metropolis-Hastings Algorithm Chapters 6.1 6.3 from Monte Carlo Statistical Methods by Christian P. Robert and George Casella 08.03.2004 Harri Lähdesmäki The Metropolis-Hastings Algorithm p. 1/21

Taustaa päämääränä laskea (approksimoida) integraali h(x)f(x)dx tähän tarkoitukseen ei välttämättä tarvita näytteitä X f (Accept-Reject, Importance sampling) idea: X 1,..., X n f käyttämällä ergodista Markovin-ketjua, jonka stationäärinen jakauma on f aloituspiste x (0) ei (periaatteesa) vaikuta, koska ketju (X (t) ) ergodinen isolle T 0 voidaan olettaa, että X (T 0),... f saadaan riippuva näyte X (T 0),... The Metropolis-Hastings Algorithm p. 2/21

MCMC Määritelmä 6.1.1. Markovin-ketju Monte Carlo menetelmä jakauman f simuloimiseksi on mikä tahansa menetelmä, joka tuottaa ergodisen Markovin-ketjun (X (t) ), jonka stationäärinen jakauma on f tässä kappaleessa keskitytään Metropolis-Hastings (M-H) menetelmään The Metropolis-Hastings Algorithm p. 3/21

MCMC (2) alustavia huomioita riippuvien näytteiden käyttö samankaltaista kuin i.i.d. näytteiden, sillä ergodisuus lause (Th. 4.7.4) takaa, että keskiarvo 1 T T h(x (t) ) t=1 suppenee kohti arvoa E f [h(x)] riippumattomia näytteitä saataisiin esim. generoimalla n ketjua (X (t) i ), i = 1,... n, ja ottamalla vain (X (T 0) i ) The Metropolis-Hastings Algorithm p. 4/21

Metropolis-Hastings menetelmä Määritelmän 6.1.1 pohjalta voitaisiin keksiä useita menetelmiä M-H asettaa minimaaliset vaatimukset jakaumalle f M-H:n perustana kohde jakauma f ja ehdollinen jakauma q(y x) The Metropolis-Hastings Algorithm p. 5/21

Metropolis-Hastings menetelmä (2) M-H algoritmi [A.24] annettuna x (t) 1. generoi Y t = q(y x (t) ) 2. valitse { X (t+1) Y t, todennäköisyydellä ρ(x (t), Y t ), = x (t), todennäköisyydellä 1 ρ(x (t), Y t ), missä ρ(x, y) = min { f(y) f(x) } q(x y) q(y x),1 The Metropolis-Hastings Algorithm p. 6/21

Metropolis-Hastings menetelmä (3) lisää huomioita M-H riippuu ainoastaan osamääristä f(y t )/f(x (t) ) ja q(x (t) y t )/q(y t x (t) ) M-H ei riipu f:n ja q:n normalisoinnista olettaen, että q( y):n normalisointi on riippumaton y:stä M-H määritelty vain jos f(x (t) ) > 0 jos f(x (0) ) > 0 niin f(x (t) ) > 0, t = 1,2,... ketjussa (X (t) ) voi olla toistoja The Metropolis-Hastings Algorithm p. 7/21

M-H:n konvergoinnista vaatimukset f:lle ja q:lle, jotta f on (X (t) ):n stationäärinen jakauma oletetaan, että E = supp f on kytketty (ei välttämätön ehto: jos E ei kytketty, niin jokainen komponentti täytyy käsitellä erikseen ja osoittaa, että komponentit ovat kytkettyjä M-H:n ytimellä) jos supp q supp f, niin f ei ole M-H:n stat. jakauma, sillä jos olemassa A E s.e. A f(x)dx > 0 ja A q(y x)dx = 0 kaikilla x E, niin jos x (0) / A (X (t) ) ei koskaan käy A:ssa minimi vaatimus x supp f supp q( x) supp f The Metropolis-Hastings Algorithm p. 8/21

M-H:n konvergoinnista (2) Määritelmä 6.2.1 Markovin-ketju ytimellä K toteuttaa tasapainoehdon jos olemassa f s.e. K(y, x)f(y) = K(x, y)f(x) (x, y) E E Teoreema 6.2.2 Jos määritelmän 6.2.1 tasapainoehto voimassa s.e. f on tdn. tiheysfunktio, niin 1. tiheysfunktio f on ketjun stationäärinen jakauma 2. ketju on kääntyvä Tod. kohta 1. kaikille mitallisille B K(y, B)f(y)dy = K(y, x)f(y)dxdy Y = Y Y B B K(x, y)f(x)dxdy = B f(x)dx. The Metropolis-Hastings Algorithm p. 9/21

M-H:n konvergoinnista (3) Teoreema 6.2.3 Jos supp q supp f, niin f on M-H menetelmän tuottaman ketjun (X (t) ) stat. jakauma Tod. M-H:n siirtymäydin on K(x, y) = ρ(x, y)q(y x) + (1 r(x))δ x (y), missä r(x) = ρ(x, y)q(y x)dy. Selvästi ja ρ(x, y)q(y x)f(x) = ρ(y, x)q(x y)f(y) (1 r(x))δ x (y)f(x) = (1 r(y))δ y (x)f(y). Laskemalla puolittain yhteen nähdään, että tasapainoehto toteutuu, ja tulos seuraa Teoreemasta 6.2.2. The Metropolis-Hastings Algorithm p. 10/21

M-H:n konvergoinnista (4) M-H:n konstruktiosta seuraa invarianttijakauma f ergodisuus teoreema voimassa jos f on myös aperiodinen ja Harris palautuva riittävä ehto aperiodisuudelle: askeleet X (t+1) = X (t) ovat mahdollisia, ts. P[ρ(X (t), Y t ) 1] < 1 P[f(X (t) )q(y t X (t) ) f(y t )q(x (t) Y t )] < 1 (1) ketjun (X (t) ) redusoitumattomuus riippuu ehdollisesta jakaumasta q: riittävä ehto q(y x) > 0 (y, x) E E (2) The Metropolis-Hastings Algorithm p. 11/21

M-H:n konvergoinnista (5) redusoitumattomuus seuraa ehdosta (2): A E s.e. λ(a) > 0, K(x, A) > 0 kaikille x E koska f on ketjun invarianttijakauma, niin ketju on positiivinen ja Teoreeman 4.7.2 nojalla palautuva Lemma 6.2.4 Jos M-H ketju (X (t) ) on f-redusoitumaton, niin se on Harris palautuva Tod. kirjan sivut 236 237 The Metropolis-Hastings Algorithm p. 12/21

M-H:n konvergoinnista (6) Teoreema 6.2.5 Oletetaan, että M-H ketju (X (t) ) in f-redusoitumaton 1. jos h(x) f(x)dx <, niin lim T 1 T T h(x (t) ) = t=1 h(x)f(x)dx 2. jos ketju (X (t) ) on lisäksi aperiodinen, niin lim n K n (x, )µ(dx) f = 0 TV Tod. Jos (X (t) ) on f-redusoitumaton, se on Harris palautuva Teoreeman 6.2.4 nojalla. Kohta 1. seuraa Erg. teoreemasta Th. 4.7.4. Kohta 2. on sama kuin Teoreema 4.6.5. The Metropolis-Hastings Algorithm p. 13/21

M-H:n konvergoinnista (7) Seurauslause 6.2.6. Jos ehdollinen jakauma q toteuttaa ehdot ja P[f(X (t) )q(y t X (t) ) f(y t )q(x (t) Y t )] < 1 q(y x) > 0 (y, x) E E, niin Teoreeman 6.2.5 johtopäätökset ovat voimassa. Lemma 6.2.7. Oletaan, että f on rajoitettu ja positiivinen joukoissa A E, A kompakti. Jos olemassa ɛ, δ > 0 s.e. q(y x) > ɛ if x y < δ, niin M-H ketju (X (t) ) on f-redusoitumaton ja aperiodinen. Lisäksi jokainen ei-tyhjä kompakti joukko on pieni joukko. Tod. kirjan sivu 238. The Metropolis-Hastings Algorithm p. 14/21

M-H:n konvergoinnista (8) Seurauslause 6.2.8. Jos M-H ketjun invarianttijakauma on f ja ehdollinen jakauma toteuttaa Lemman 6.2.7 ehdot, niin Teoreeman 6.2.5 johtopäätökset ovat voimassa. The Metropolis-Hastings Algorithm p. 15/21

Erilaisia M-H algoritmeja riippumaton M-H menetelmä [A.25] annettuna x (t) 1. generoi Y t = g(y) 2. valitse { Yt, todennäköisyydellä min X (t+1) = x (t), muulloin, vain Y t :t ovat riippumattomia, eivät X (t) :t edelliset konvergenssilauseet voimassa jos g(y) > 0 melkein kaikkialla y E { f(yt ) f(x (t) ) g(x (t) ) g(y t ),1 }, The Metropolis-Hastings Algorithm p. 16/21

Erilaisia M-H algoritmeja (2) Teoreema 6.3.1 Jos olemassa vakio M s.e. f(x) Mg(x) kaikilla x supp f, (3) niin algoritmi [A.25] tuottaa tasaisesti ergodisen ketjun. Tällöin K n (x, ) f TV 2(1 1/M) n. Jos ehto (3) ei ole voimassa, niin ketju ei ole edes geometrisesti ergodinen. Tod. Kirjan sivut 239 241 The Metropolis-Hastings Algorithm p. 17/21

Erilaisia M-H algoritmeja (3) Lemma 6.3.2 Jos ehto (3) voimassa, niin [A.25]:n hyväksymistodennäköisyyden odotusarvo on vähintään 1/M. Tod. Kirjan sivu 241. i.i.d. M-H parempi kuin Accept-Reject menetelmä, sillä se hyväksyy enemmän näytteitä tarkempi vertailu hankalaa esimerkkejä The Metropolis-Hastings Algorithm p. 18/21

Erilaisia M-H algoritmeja (4) Esimerkki 6.3.3. gamma satunnaismuuttujien Ga(α, β) generointi Ga([α],[α]/α) instrumenttijakaumaa käyttäen Accept-Reject ja riippumattoman M-H menetelmän vertailu E f [X 2 ] estimoimiseksi kirjan sivut 242 243 The Metropolis-Hastings Algorithm p. 19/21

Erilaisia M-H algoritmeja (5) satunnaiskävelyt Y t = x (t) + ɛ t, ɛ t g q(y x) on nyt muotoa g(y x) ketju on ergodinen jos g(x) > 0, kun x B(0, δ) jollekin δ satunnaiskävely M-H menetelmä [A.28] annettuna x (t) 1. generoi Y t g(y x (t) ) 2. valitse { { } X (t+1) Yt, todennäköisyydellä min 1, f(y t) = f(x (t) ), x (t), muulloin, The Metropolis-Hastings Algorithm p. 20/21

Erilaisia M-H algoritmeja (6) Esimerkki 6.3.5 normaalijakauman generointi satunnaiskävelyllä generoi N(0, 1) satunnaismuuttujia käyttäen U[ δ, δ] jakautuneita muuttujia tulokset: kirjan sivu 246 ei tasaisesti ergodinen (ehdot geometriselle ergodisuudelle) Esimerkki 6.3.7 Häntäilmiön tutkiminen: geometrisen ja ei-geometrisen ergodisuuden vertailu kirjan sivut 247 248 The Metropolis-Hastings Algorithm p. 21/21