TEKNILLINEN KORKEAKOULU ERIKOISTYÖ. koulutusohjelma MUUTOSPISTEIDEN TUNNISTAMINEN BAYESILAISELLA ANALYYSILLA

TEKNILLINEN KORKEAKOULU ERIKOISTYÖ Teknillisen fysiikan Mat-2.108 Sovellettu matematiikka koulutusohjelma 11.7.2007 MUUTOSPISTEIDEN TUNNISTAMINEN BAYESILAISELLA ANALYYSILLA Pyry-Matti Hjalmar Niemelä 55448H

Sisältö 1 Johdanto 1 2 Bayes-menetelmä muutospisteiden tunnistamiseen 3 2.1 Muutospisteongelman määrittely................ 3 2.2 Bayesilainen lähestymistapa................... 4 2.3 Priorijakauma........................... 5 2.4 Likelihoodfunktio......................... 7 2.5 Posteriorijakauma......................... 8 2.6 Ennustaminen Bayes-mallilla................... 8 2.7 Markov Chain Monte Carlo -menetelmä............. 9 2.7.1 Viipalepoiminta...................... 12 2.7.2 Hyväksymis/hylkäämispoiminta............. 12 2.7.3 Potentiaalinen skaalanvähennyskerroin......... 13 2.8 Puuttuvan datan käsittely.................... 15 3 Havainnollistaminen 16 4 Johtopäätökset 20 i

Luku 1 Johdanto Muutospisteongelmaa joudutaan käsittelemään useinlaisissa käytännön tilanteissa esimerkiksi signaalinkäsittelyssä, teollisuussysteemien säädössä, taloustieteessä, lääketieteessä ja luotettavuustekniikassa. Tyypillisesti muutospisteongelmassa on kronologisessa järjestyksessä kerättyä dataa, jonka tuottaneessa prosessi on tai uskotaan olevan yksi tai useampi muutos. Yksinkertaisimmillaan tavoitteena on selvittää näiden muutosten tapahtumishetket (Stephens, 1994). Otetaan todelliseen dataan perustuva esimerkki muutospisteongelmasta. Taulukossa 1.1 on esitty havaittujen vikaantumisten määrä 52 venttiilin vuosittaisessa vuototestauksessa ydinvoimalassa (Pulkkinen & Simola, 1999). Tarkasteltaessa dataa herää epäilys, että vuosien 7 ja 8 välillä olisi prosessissa saattanut tapahtua muutos. Mikäli epäilys osoittautuu todeksi, tulee mieleen uusia kysymyksiä: kuinka suuri muutos on tapahtunut, mistä muutos on johtunut ja miten prosessi käyttäytyy vuoden 9 jälkeen. Muutoksen syytä on etsittävä datan tuottaneesta ilmiöstä, mutta muihin kysymyksiin voidaan löytää ratkaisu osana muutospisteongelman ratkaisemista. Muutospisteongelman ratkaisemiseen on erilaisia lähestymistapoja. Perättäisessä muutospisteiden määrittelyssä testataan erilaisilla datapisteiden mää- Taulukko 1.1: Vikaantuneet venttiilit vuototestin perusteella. Vuosi 1 2 3 4 5 6 7 8 9 Vikaantuneet venttiilit 4 2 3 1 4 3 4 9 6 1

rillä, löytyykö muutospistettä. Tätä testausongelmaa on pääasiassa lähestytty frekventistisesti. Bayesilaisittain ongelmaa lähestytään yleensä taaksepäin katsovalla menetelmällä, jossa käsiteltävien datapisteiden määrä on kiinteä (Moreno et al., 2005). Tässä työssä hyödynnetään nimenomaan taaksepäin katsovaa Bayes-menetelmää. Toteutan työvälineen ratkaisemaan usean muutospisteen ongelman datalle, jota voidaan pitää Poisson-prosessin muodostamana. Hyödynnän Markov chain Monte Carlo -simulointimenetelmiin kuuluvaa Gibbsin otantaa. Vaikka pyrin ratkaisemaan usean muutospisteen ongelmaa, ensisijaisena tavoitteena on löytää ratkaisu yhden muutospisteen tilanteeseen. Luvussa 2 esittelen ongelma yksityiskohtaisesti sekä tutustun tarkemmin bayesilaiseen lähestymistapaan ja Gibbsin otantaan. Luvussa 3 havainnollistan ongelman ratkaisemiseen kehittämäni työvälineen toimintaa simuloidulla datalla. Luvussa 4 käsittelen sekä toteutetun työvälineen että käytettyjen menetelmien soveltuvuutta muutospisteongelman ratkaisemiseen. 2

Luku 2 Bayes-menetelmä muutospisteiden tunnistamiseen 2.1 Muutospisteongelman määrittely Käsittelemme Poisson-prosessia, jonka intensiteetissä on saattanut tapahtua muutoksia. Tavoitteenamme on selvittää mahdolliset muutospisteet ja intensiteetit muutospisteiden välillä sekä ennustamaa tulevaisuutta. Käytössämme on dataa, joka voidaan esittää yleisesti muodossa D = (N 1, T 1 ),..., (N m, T m ) (2.1) missä N i on tapahtumien lukumäärä jakson i aikana ja T i jakson i pituus. Käytössä on dataa m:ltä jaksolta. Toteutettavan työvälineen käyttäjä määrittelee mahdollisten muutospisteiden lukumäärän C <= m. Tehtävä koostuu kahdesta osasta: ensimmäisessä käsitellään tapahtumien määriä ja toisessa niiden välisiä aikoja. Ensimmäisessä osassa T i :t ovat vakiomittaisia. Tavoitteena on selvittää muutospisteet x 1 < x 2 <... < x C, muutospisteiden väliset intensiteetit λ j (1 <= j <= C) ja ennustaa P (N m+l D). Muutospisteet saavat arvoja indeksiavaruudessa. Tehtävän toisessa osassa N i = 1 kaikilla jaksoilla i. Muutospisteiden ja intensiteettien selvittämisen lisäksi tehtävänä on ennustaa P (T m+l < t D). 3

Työväliseen luodaan mahdollisuus antaa prioritietona rajoite λ j < λ j+1 tai λ j > λ j+1 kaikilla j. Työvälineen on myös kyettävä käsittelemään puuttuvaa dataa. 2.2 Bayesilainen lähestymistapa Ratkaisemme tehtävän käyttämällä bayesilaista lähestymistapaa. Bayesilainen lähestymistapa perustuu Bayesin kaavaan. Bayesin kaavan mukaan p(θ D) = p(θ, D) p(d) = p(θ)p(d θ) p(d) (2.2) missä p(d) = θ p(θ)p(d θ) (Gelman et al., 1997). Jos θ on jatkuva, summa korvataan integraalilla. Merkitään D:llä havaittuja muuttujia (=data) ja θ:lla kiinnostuksen kohteena olevia parametreja. Yhtälössä 2.2 p(θ) on priorijakauma, joka ilmaisee ennen analyysia olemassa olevan ennakkotiedon kiinnostuksen kohteena olevista parametreista θ. Mikäli ennakkotietoa ei ole, käytetään epäinformatiivista eli mahdollisimman vähän informaatiota sisältävää priorijakaumaa. Merkitään p(d θ):lla likelihoodfunktiota. Likelihoodfunktio on θ:n funktio, jossa D on vakio. Likelihoodfunktio kuvaa datan todennäköisyyttä tietyin parametrein. Priorin ja likelihoodfunktion tulona saadaan malli p(θ, D). Mallin muodostaminen on ensisijainen tehtävä sovellutuksissa (Gelman et al., 1997). Merkitään p(θ D):lla posteriorijakaumaa, joka saadaan mallista jakamalle se skaalaustekijällä p(d) = θ p(θ)p(d θ) (jos θ on jatkuva, summa korvataan integraalilla). Posteriorijakauma antaa parametrien todennäköisyyden ehdollistettuna datalle. Posteriorijakaumasta saadaan eri parametrien arvojen todennäköisyydet. Useamman parametrin tapauksessa posteriorijakauman reunajakaumat ovat yksittäisten parametrien jakaumia. Jakaumien avulla voidaan selvittää esimerkiksi parametrien odotusarvot, varianssit ja bayesilaiset luottamusvälit. Sovelletaan Bayes-mallia tehtäväämme. Bayes-mallin parametrivektori θ sisältää intensiteetit λ j sekä muutospisteet x j. Datamatriisi D sisältää tapah- 4

tumamäärät N i ja jaksojen pituudet T i. 2.3 Priorijakauma Priorijakauma on valittava tarkoituksenmukaisesti. Yleisesti priorijakauma voi olla joko informatiivinen tai epäinformatiivinen. Mikäli kiinnostuksen kohteena olevista parametreista on ennakkotietoa, käytetään informatiivista priorijakaumaa. Mikäli ennakkotietoa ei ole, käytetään epäinformatiivista priorijakaumaa, joka sisältää mahdollisimman vähän tietoa. Epäinformatiivisen priorijakauman käyttöä perustellaan sillä, että näin annetaan datalle mahdollisimman suuri rooli. Epäinformatiivisten priorijakaumien löytämiseen ja käyttämiseen liittyy tiettyjä hankaluuksia (Gelman et al., 1997). Priorijakauman valinnassa on otettava huomioon myös käytännöllisyys. Konjugaattipriorit ovat hyvä esimerkki käytännöllisyydestä. Konjugaattipriori on sellainen priorijakauma, jonka tuottama posteriorijakauma kuuluu samaan jakaumaperheeseen. Monimutkaisissa tehtävissä konjugaattijakaumien löytäminen on hankalaa tai jopa mahdotonta. Käytännössä priorijakauman valinnassa tehdään kompromissi käytännöllisyyden ja paikkansapitävyyden välillä (Gelman et al., 1997). Perustapauksissa oletamme, että intensiteetit λ j eivät riipu toisistaan. Tällöin priorijakauma on muotoa p(λ 1,..., λ C, x 1...x C ) = p(λ 1 )...p(λ C )p(x 1,..., x C ) (2.3) Priorijakauman intensiteettejä λ j koskeva osa saadaan siis yksittäisten parametrien priorijakaumien tulona. Parametrit λ j ovat intensiteettejä, joten ne voivat saadaa positiivisia reaalilukuarvoja. Valitaan intensiteettien priorijakaumaksi gammajakauma. Priorijakauman muutospisteitä koskeva osa voidaan kirjoittaa p(x 1,..., x C ) = p(x 1 )p(x 2 x 1 )...p(x C x C 1 ) (2.4) 5

Muutospisteet x j saavat arvokseen indeksejä eli luonnollisia lukuja. Muutospisteet riippuvat toisistaan, koska ne ovat suuruusjärjestyksessä. Käytetään p(x 1 ):n jakaumana geometrista jakaumaa. Ehdolliset jakaumat p(x j x j 1 ) voidaan valita siten, että valitaan sopiva jakauma p(x j ):lle (tässä tapauksessa geometrinen jakauma) ja asetetaan se nollaksi ennen kohtaa x j 1 ja loppuosa skaalataan summautumaan ykköseksi. Gammajakauman tiheysfunktio on p(λ) = βα Γ(α) λα 1 e βλ (2.5) missä λ > 0, α > 0, β > 0 ja Γ(α) gammafunktio. Gammajakauman odotusarvo on α ja varianssi α. Gammajakauma on sopiva priori Poissonprosessin intensiteetille. Gammajakauman epäinformatiivisuus kasvaa, β β 2 kun α 0 ja β 0 (Gelman et al., 1997). Geometrinen jakauma on toistokokeen ensimmäistä tulosta edeltävien kokeiden lukumäärän jakauma. Geometrisen jakauman pistetodennäköisyysfunktio on p(x = i) = p(1 p) i (2.6) missä 0 p 1. Jakauman odotusarvo on 1 p ja varianssi 1 p (Weisstein, p p 2 2006). Geometrisen jakauman sijaan x j :n priorijakaumana voitaisiin käyttää esimerkiksi tasajakaumaa, mutta siinä olisi erikseen huomioitava vielä tapaukset, joissa muutosta ei tapahdu. Geometrisessa jakaumassa tarkastelualueen ulkopuolelle ylettyvä jakauman osa vastaa tilanteita, joissa muutosta ei tapahdu. Tarkastellaan vielä priorijakauman valintaa tilanteissa, joissa on prioritietona rajoite λ j 1 < λ j tai λ j 1 > λ j kaikilla j. Tällöin λ j :t riippuvat toisistaan. Tapauksessa λ j 1 < λ j yhtälön 2.3 sijaan on käytettävä yhtälöä p(λ 1,..., λ C, x 1...x C ) = p(λ 1...λ C )p(x 1,..., x C ) (2.7) 6

jossa p(λ 1,..., λ C ) = p(λ 1 )p(λ 2 λ 1 )...p(λ C λ C 1 ) (2.8) Tapauksessa λ j 1 > λ j indeksit on vain asetettava vastakkaiseen järjestykseen yhtälössä 2.8. Nyt on vain muotoiltava p(λ j λ j 1 ) ja p(λ j 1 λ j ). Kun on asetettu rajoite λ j 1 < λ j ja haetaan priorijakaumaan osaa p(λ j λ j 1 ), voidaan käyttää jakaumaa p(λ j ), mutta asettaa sen arvo nollaksi ennen kohtaa λ j 1 ja skaalata loppuosa summautumaan ykköseksi. Kun rajoite on toisinpäin ja etsitään priorijakaumaan osaa p(λ j 1 λ j ), voidaan käyttää jakaumaa p(λ j 1 ), mutta asetetaan jakauma nollaksi kohdan λ j jälkeen ja skaalataan loppuosa summautumaan ykköseksi. 2.4 Likelihoodfunktio Likelihoodfunktio p(d θ) on θ:n funktio, jossa D on vakio. Likelihoodfunktio kuvaa datan todennäköisyyttä tietyin parametrein. Käsittelemme Poisson-prosessia. Tapahtumien lukumäärät jaksoilla kuten myös tapahtumien väliset ajat ovat riippumattomia. Riippumattomien tapahtumien yhteistodennäköisyys voidaan esittää yksittäisten tapahtumien todennäköisyyksien tulona, joten likelihoodfunktio voidaan esittää tulona p(d θ) = m p((n i, T i ) θ) (2.9) i=1 Tehtävän ensimmäisessä osassa T i :t ovat vakiomittaisia. Tapahtumat jakson aikana N i ovat Poisson-jakautuneita parametrilla λ j T i. Tämän perusteella p((n i, T i ) θ) = p(n i θ) = (λ jt i ) N i N i! e λ jt i missä j on s.e.x j 1 < i <= x j (2.10) 7

Tehtävän toisessa osassa N i = 1 kaikilla i. Merkitään tapahtumien välisiä aikoja T i :llä. Poisson-prosessissa tapahtumien väliset ajat ovat eksponenttijakautuneita. Tämän perusteella p((t i, N i ) θ) = p(t i θ) = λ j e λ jt i missä j on s.e.x j 1 < i <= x j (2.11) 2.5 Posteriorijakauma Posteriorijakauma p(θ D) antaa parametrien todennäköisyyden ehdollistettuna datalle. Posteriorijakauma saadaan mallista eli priorijakauman ja likelihoodfunktion tulosta jakamalle se skaalaustekijällä p(d) = θ p(θ)p(d θ) (jos θ on jatkuva, summa korvataan integraalilla). Tehtävässämme parametrivektorin θ muutospisteet x j :t ovat diskreettejä ja intensiteetit λ j :t jatkuvia. Skaalaustekijässä näin ollen summataan yli muutospisteiden x j ja integroidaan yli intensiteettien λ j. Tehtävämme voi olla suuridimensioinen. Likelihoodfunktio on muodoltaan hankala sisältäen monimutkaisten todennäköisyysfunktioiden tuloja. Myös priorijakauma voi olla hankala. Posteriorijakaumaa ei voida ilmaista suljetussa muodossa. Tämän vuoksi käytämme posteriorijakauman ratkaisemiseen numeerista Markov chain Monte Carlo -menetelmää, joka esitellään kappaleessa 2.7. Posteriorijakauman reunajakaumina saadaan yksittäisten parametrien jakaumat. Jakaumien avulla voidaan selvittää esimerkiksi parametrien odotusarvot, varianssit ja bayesilaiset luottamusvälit. 2.6 Ennustaminen Bayes-mallilla Bayes-mallilla ennustaminen perustuu ennustavaan posteriorijakaumaan. Kun ennustetaan tulevaa Ñ datan D perusteella, ennustava posteriorijakauma on 8

p(ñ D) = θ p(ñ θ)p(θ D) (2.12) Jatkuva-aikaisen θ:n tapauksessa summa korvataan integraalilla. Havaitaan, että jälkimmäinen tekijöistä on posteriorijakauma (Gelman et al., 1997). Ensimmäisessä tehtävässä ennustetaan p(n m+l D). Tätä varten on ratkaistava p(n m+l θ). Prosessin muutokset ovat tapahtuneet datan aikana, joten ennustettavat N m+l :t noudattavat Poisson-jakaumaa intensiteetillä λ j T m+l, missä j saa suurimman mahdollisen arvon ehdolla x j 1 < m. Toisessa tehtävässä ennustetaan p(t m+l < t D). Tätä varten on ratkaistava p(t m+l < t θ). Kuten edellä prosessin muutokset ovat tapahtuneet datan aikana, joten T m+l :t noudattavat eksponenttijakaumaa intensiteetillä λ j, missä j saa suurimman mahdollisen arvon ehdolla x j 1 < m. Mielenkiinnon kohteena on p(t m+l < t θ), joten olemme kiinnostuneita kertymäfunktiosta. Kertymäfuntio pystytään muodostamaan todennäköisyystiheysfunktion avulla, joten voidaan pyrkiä selvittämään jakauma p(t m+l θ) ja sen avulla muodostamaan p(t m+l < t θ). Prosessi pysyy annetun datan jälkeen muuttumattomana, joten l:n arvolla ei ole vaikutusta ennusteisiin. 2.7 Markov Chain Monte Carlo -menetelmä Markov chain Monte Carlo eli MCMC-menetelmä on Markovin ketjuun perustuva simulointi, joka tuottaa näytteitä halutusta jakaumasta. Menetelmä on monimutkainen, mutta useimmiten helpoin tapa selvittää posteriorijakauma p(θ D) suuridimensioisissa tehtävissä. Menetelmällä on monia sovellutuksia myös muilla aloilla kuin Bayes-analyysissä (Gelman et al., 1997). Menetelmän ideana on simuloida kiinnostuksen kohteena olevan muuttujan θ avaruuteen satunnaiskulku, joka konvergoi tasapainojakaumaan. Tasapainojakaumana on posteriorijakauma p(θ D), jota tässä yhteydessä voidaan kutsua kohdejakaumaksi (Gelman et al., 1997). Menetelmässä luodaan Markov-prosessi, jonka tasapainojakauma on kohdejakauma. Prosessia toistetaan kunnes simuloitujen lukujen jakauma on riit- 9

tävän lähdellä kohdejakaumaa. Simulointialgoritmi voidaan luoda erilaisilla tavoilla (Gelman et al., 1997). Tässä käytämme algoritmina monidimensioisiin tehtäviin hyvin soveltuvaa vuorottaista ehdollista otantaa eli Gibbsin otantaa. Gibbsin otannassa parametrivektori θ on jaettavissa komponentteihin θ = (θ 1,...θ d ). Kullakin iteraatiokierroksella käydään läpi kukin komponentti valitussa järjestyksessä. Kullekin komponentille arvotaan uusi arvo käyttäen muille komponenteille ehdollista jakaumaa p(θ j θ t 1 j, D) (2.13) missä t on iteraatiokierros ja θ j t 1 vektori, joka sisältää θ:n komponentit j:nnettä lukuunottamatta. Komponenttia j pienemmän indeksin komponentit ovat mukana jo päivitetyin eli iteraatiokierroksen t arvoin ja muut edellisen iteraatiokierroksen t 1 arvoin (Gelman et al., 1997). Gibbsin otantaa käytettäessä on vain pystyttävä muodostamaan jakaumat p(θ j θ t 1 j, D). Useille ongelmille on mahdollista muodostaa suurin osa tai kaikki parametrien ehdolliset posteriorijakaumat. Muodostetaan ehdolliset posteriorijakaumat ensimmäiseen tehtävään. Muutospisteiden x j ehdollisia posteriorijakaumia muodostettaessa tehtävä muuttui yhden muutospisteen ongelmaksi. Muutospisteiden ehdollisiksi posteriorijakaumiksi saadaan p(x j x 1,...x j 1, x j+1,..., x C, λ 1,..., λ C, D) = p(x j x j 1, x j+1, λ j, λ j+1, N xj 1 +1,..., N Xj+1 ) x j i=x j 1 +1 p(n i λ j ) x j+1 i=x j +1 p(n i λ j+1 )p(x j x j 1, x j+1 ) (2.14) Yhtäsuuruusmerkki seuraa jättämällä ehdollistamisesta pois osa, josta x j ei riipu. Suoraan verrannollisuus saadaan soveltamalla Bayesin kaavaa 2.2 ja 10

jättämällä skaalaustekijä pois. Alimmalla rivillä ovat ehdollistettu likelihoodfunktio ja priori. Priorin ehdollisuus seuraa siitä, että muutospisteen x j alasekä yläraja tunnetaan. Ehdollinen priori p(x j x j 1, x j+1 ) voidaan muodostaa priorista p(x j ) siten, että välillä ]x j 1, x j+1 [ ehdollinen priori on skaalausta vaille priori ja muualla jakauma saa arvon nolla. Tarkastellaan intensiteettien λ j ehdollisia posteriorijakaumia p(λ j x 1,...x C, λ 1,...λ j 1, λ j+1,..., λ C, D) = p(λ j x j 1, x j, N xj 1 +1,..., N xj ) x j i=x j 1 +1 p(n i λ j )p(λ j ) (2.15) Ehdollistettu posteriorijakauma on muodostettu kuten 2.14. Stephens (1994) kuvaa perusteellisesti ehdollisten posteriorijakaumien muodostamista muutospisteongelmille. Ensimmäisessä tehtävässä p(n i λ j ):t ovat Poisson-jakaumia parametrilla λ j T i kuten on esitetty luvussa 2.4. Toisessa tehtävässä voidaan käyttää samoja ehdollistettuja posteriorijakaumia korvaamalla vain tapahtumien määrät N i jaksojen pituuksilla T i. Jakaumat p(t i λ j ):t ovat eksponenttijakaumia parametrilla λ j. Mikäli prioritietona on annettu rajoita λ j < λ j+1 tai λ j > λ j+1 kaikilla j, tämä on huomioitava ehdollisissa posteriorijakaumissa. Tällöin kaavassa 2.15 on käytettävä ehdollisena priorina jakaumaa p(λ j λ j 1, λ j+1 ) jakauman p(λ j ) sijaan. Jakauma p(λ j λ j 1, λ j+1 ) saadaan hyödyntämällä samaa menettelyä kuin aiemmin muutospisteiden kohdalla. On muodostettu ehdolliset posteriorijakaumat skaalaustekijää lukuunottamatta. Nyt tarvitaan soveltuva menetelmä näytteiden poimimiseen jakaumista. Menetelmän on oltava sellainen, joka soveltuu kaikkiin jakaumiin, koska käyttäjä valitsee priorijakauman. Soveltuva menetelmä on viipalepoiminta (slice sampling). 11

2.7.1 Viipalepoiminta Viipalepoiminta on eräänlainen Markov chain Monte Carlo -algoritmi. Se perustuu havaintoon, että satunnaismuuttujaa voidaan näytteistää poimimalla tasajakautuneita pisteitä tiheysfunktion kuvaajan alle jäävästä alueesta (Neal, 2000). Sovellamme viipalepoimintaa näytteiden poimimiseen jakaumasta p(x) seuraavasti: 1. Valitaan alkuarvo x = x 0 2. Arvotaan apumuuttujan y arvo tasajakaumasta (0, p(x)) 3. Asetetaan satunnaiseen kohtaan x:n ympärille väli, jonka leveys on w 4. Laajennetaan väliä kummastakin päästä w:n pituisin askelin siihen asti kunnes välin kumpikin pää x l ja x r toteuttavat ehdon y > p(x) ('stepping out' -prosessi) 5. Arvotaan tasajakaumasta (x l, x r ) muuttujalle ehdokasarvo x e 6. Mikäli y < p(x e ), asetetaan x = x e ja siirrytään kohtaan 2 uuden näytteen muodostamiseksi. Muuten jatketaan kohtaan 7. 7. Mikäli x e < x, asetetaan x l = x e. Muuten asetetaan x r = x e. Palataan kohtaan 5. 2.7.2 Hyväksymis/hylkäämispoiminta Viipalepoiminta on helppo implementoida yleiskäyttöiseksi, mutta se on melko hidas menetelmä. Tämän vuoksi käytän tietylle välille rajoitettujen satunnaismuuttujien jakaumien kohdalla tehokkaampaa hyväksymis/hylkäämispoimintaa (acception rejection algorithm / rejection sampling). Menetelmä olisi toki yleiskäyttöisempikin, mutta implementointi tietylle välille rajoitetuille jakaumille on erityisen yksinkertaista. Muutospisteiden ehdolliset posteriorijakaumat ovat työvälineessä aina rajoitettuja. Ne ovat myös diskreettejä. 12

Hyväksymis/hylkäämispoiminnan käyttö näytteiden poimimiseen jakaumasta p(x) edellyttää sitä, että pystymme määrittelemään kaikille x, joilla p(x) > 0, funktion g(x), jolla on seuraavat ominaisuudet: Funktion g(x) määrittelemästä jakaumasta pystytään poimimaan näytteitä On oltava tunnettu vakio M, jolle p(x) g(x) M kaikille x Funktion g(x) ei tarvitse integroitua ykköseksi, mutta sillä on oltava rajoitettu integraali Hyväksymis/hylkäämispoiminta toimii seuraavasti: 1. Poimitaan x satunnaisesti funktion g(x) mukaisesta jakaumasta 2. Hyväksytään x näytteeksi p(x):stä todennäköisyydellä p(x) Mg(x), muuten palataan kohtaan 1 Rajoitus p(x) g(x) M takaa sen, että toisella askeleella todennäköisyydet eivät ylitä ykköstä (Gelman et al., 1997). Rajoitetun satunnaismuuttujan kohdalla menetelmän implementointi on yksinkertaista. Valitaan g(x) 1. Selvitetään p(x):n maksimiarvo ja asetetaan se M:n arvoksi. Näin saatu menetelmä ei ole mitenkään tehokas hyväksymis/hylkäämispoiminta, sillä hyväksymistodennäköisyys voi jäädä usein pieneksi. Se on kuitenkin helppo toteuttaa yleisille rajoitetun satunnaismuuttujan jakaumille. 2.7.3 Potentiaalinen skaalanvähennyskerroin Gibbsin otannassa simuloidaan kohdejakauman arvoja niin pitkään kunnes jakauma on riittävän lähellä kohdejakaumaa. Valitut alkuarvot vaikuttavat simuloinnin alussa saataviin arvoihin. Yleinen tapa on jättää simuloinnin alussa saadut arvot käyttämättä tämän vuoksi. Jätetään käyttämättä puolet simuloinnilla saatavista arvoista. 13

On valittava kohta, jolloin simuloinnin jälkimmäisen puolikkaan arvot ovat riittävän konvergoituneet. Sovelletaan potentiaalista skaalanvähennyskerrointa ˆR ja vaaditaan, että sen arvo on lähellä 1 (esimerkiksi selvästi alle 1.2) kaikille estimoinnin kohteena oleville parametreille. Potentiaalisen skaalanvähennyskertoimen laskemiseksi on simuloitava useampia eri alkuarvoista lähteviä sekvenssejä kullekin parametrille. Kun kaikki skaalanvähennyskertoimet ovat riittävän pieniä, yhdistetään parametrien sekvenssien jälkimmäiset puoliskot jakaumaestimaattien muodostamiseksi (Gelman et al., 1997). Potentiaalisen skaalanvähennyskertoimen selvittämiseksi on laskettava sekvensien väliset ja sekvensien sisäiset varianssit B ja W. Estimoitava parametri ψ saa simuloinnissa arvoja ψ ij (i = 1,..., n; j = 1,..., J). Indeksi i viittaa simulointikierrokseen (kun alkukierrokset jätetty huomiotta) ja j sekvenssiin. Tällöin B ja W ovat B = n J 1 J J ( ψ.j ψ.. ) 2 j=1 W = 1 J j=1 s 2 j missä ψ.j = 1 n n i=1 ψ ij, ψ.. = 1 J J j=1 ψ.j ja s 2 j = 1 n 1 n i=1 (ψ ij ψ.j ) 2. Varianssien B ja W painotettuna keskiarvona saadaan estimoitavan parametrin reunaposteriorivarianssin estimaatti var ˆ + (ψ D) = n 1 n W + 1 n B (2.16) Tämän avulla saadaan potentiaalinen skaalanvähennyskerroin var ˆ + (ψ D) ˆR = W (2.17) jonka arvo lähestyy ykköstä, kun n Gelman et al. (1997). 14

2.8 Puuttuvan datan käsittely Puuttuvan datan käsittely on yksinkertaista Gibbsin otannassa. Käsitellään puuttuvaa dataa kuten mitä tahansa simuloitavaa parametria. Määritellään puuttuvalle datapisteelle arvo mallin muiden parametrien avulla ja käytetään näin saatua puuttuvan datapisteen arvoa muiden parametrien määrittämiseen. Puuttuvan datapisteen arvon määrittely tapahtuu lähes kuten tulevan arvon ennustaminen. Lähtökohtana voidaan pitää kappaleessa 2.6 esiteltyä kaavaa 2.12. Kaavassa esiintyvä Ñ on nyt ennustettavan arvon sijaan puuttuva arvo, jota pyritään määrittelemään. Data D sisältää vain havaitun datan. Kaavassa jälkimmäinen tekijöistä on posteriorijakauma. Ensimmäisessä tehtävässä on selvitettävä p(n i,mis D). Tätä varten on ratkaistava p(n i,mis θ). Puuttuva tapahtumamäärä N i,mis noudattaa Poissonjakaumaa intensiteetillä λ j T i, missä j saa arvon, jolla x j 1 < i x j. Toisessa tehtävässä on selvitettävä p(t i,mis D). Tätä varten on ratkaistava p(t i,mis θ). Puuttuva tapahtumien välinen aika T i,mis noudattaa eksponenttijakaumaa intensiteetillä λ j, missä j saa arvon, jolla x j 1 < i x j. Gibbsin otannassa puuttuvalle datalle arvotaan alkuarvot. Kullakin iteraatiokierroksella puuttuvalle datalle arvotaan uudet arvot käytteän simulaation antamia parametreja. Puuttuvalle datalle annettuja arvoja käytetään simulaation aikana aivan kuten havaittuakin dataa. 15

Luku 3 Havainnollistaminen Toteutin työvälineen muutospisteongelman ratkaisemiseen käyttäen luvussa 2 esitettyjä menetelmiä. Havainnollistetaan työvälineen toimintaa yksittäisellä simuloituun dataan perustuvalla esimerkillä. Simuloidaan 20 datapistettä sisältävä Poisson-prosessi, jossa on muutospiste seitsemännessä datapisteessä. Kukin aikaväli T i on kaksi yksikköä pitkä. Intensiteetti seitsemänteen datapisteeseen asti ovat 3 ja sen jälkeen 6. Simuloinnilla saatu data on taulukossa 3.1 Syötetään tämä data työvälineelle. Asetetaan muutospisteiden määrä yhdeksi. Ei anneta lisäinformaatiota intensiteeteistä. Vaaditaan vähintään 200 näytettä. Simulointi pyörii 79 kierrosta ja palauttaa 200 näytettä muutospisteestä, intensiteetistä siihen asti ja sen jälkeen sekä tapahtumien määrästä tulevilla aikaväleillä. Muutospisteen näytteet ja niistä muodostettu histogrammi on esitetty kuvassa 3.1. Näytteiden keskiarvo on 10.07, varianssi 31.63 ja mediaani 7. Keskiarvo ja mediaani eivät ole tilanteessa kovinkaan hyviä mittoja, sillä histogrammissa havaitaan kolme huippua. Moodin käyttö on perustellumpaa. Taulukko 3.1: Poisson-prosessin tuottama data. Muutospiste seitsemännessä datapisteessä. Intensiteetti muutospisteeseen asti on 3 ja sen jälkeen 6. i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 N i 5 4 3 5 5 5 7 12 11 12 8 15 14 12 13 9 10 9 11 17 T i 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 16

20 18 16 14 12 10 8 6 4 2 0 0 50 100 150 200 70 60 50 40 30 20 10 0 0 5 10 15 20 25 Kuva 3.1: Vasemmalla näytteet muutospisteestä ja oikeilla niistä muodostettu histogrammi tilanteessa, jossa tarkastelun kohteena tapahtumien määrä, datassa yksi muutospiste, ei puuttuvaa dataa eikä lisäinformaatiota intensiteeteistä. Korkein huippu on indeksillä seitsemän, toiseksi korkein indeksillä 19 ja kolmanneksi korkein indeksillä 11. Tarkastelemalla taulukon 3.1 dataa tulosta voidaan pitää järkevänä. Työväline löysi muutospisteen indeksistä seitsemän, joka on myös datan generoineen prosessin muutospiste. Tarkastellaan intensiteettejä. Muutospisteeseen asti vallitsevasta intensiteetistä saadut näytteet ja niistä muodostettu histogrammi on esitetty kuvassa 3.2. Näytteiden keskiarvo on 3.35, varianssi 0.66 ja mediaani 3.28. Histogrammin mukaan jakauma on yksihuippuinen. Keskiarvon sekä mediaanin mukaisella tarkastelulla päästään melko lähelle generoivassa prosessissa käytettyä intensiteettiä 3. Muutospisteen jälkeen vallitsevasta intensiteetistä saadut näytteet ja niistä muodostettu histogrammi on esitetty kuvassa 3.3. Näytteiden keskiarvo on 7.31, varianssi 8.70 ja mediaani 6.87. Histogrammin mukaan jakauma on yksihuippuinen ja vino oikealle. Keskiarvon sekä mediaanin mukaisella tarkastelulla päästään melko lähelle generoivassa prosessissa käytettyä intensiteettiä 6, mutta jonkin verran suurempiin arvoihin. Tarkastellaan näytteitä tapahtumien määristä tulevilla ajanjaksoilla. Näytteet ja niistä muodostettu histogrammi on esitetty kuvassa 3.4. Näytteiden 17

7 6 5 4 3 2 1 0 50 100 150 200 50 45 40 35 30 25 20 15 10 5 0 1 2 3 4 5 6 7 Kuva 3.2: Vasemmalla näytteet muutospisteeseen asti vallitsevasta intensiteetistä ja oikeilla niistä muodostettu histogrammi tilanteessa, jossa tarkastelun kohteena tapahtumien määrä, datassa yksi muutospiste, ei puuttuvaa dataa eikä lisäinformaatiota intensiteeteistä. 22 20 18 16 14 12 10 8 6 4 2 0 50 100 150 200 50 45 40 35 30 25 20 15 10 5 0 2 4 6 8 10 12 14 16 18 20 22 Kuva 3.3: Vasemmalla näytteet muutospisteen jälkeen vallitsevasta intensiteetistä ja oikeilla niistä muodostettu histogrammi tilanteessa, jossa tarkastelun kohteena tapahtumien määrä, datassa yksi muutospiste, ei puuttuvaa dataa eikä lisäinformaatiota intensiteeteistä. 18

50 45 40 35 30 25 20 15 10 5 0 0 50 100 150 200 18 16 14 12 10 8 6 4 2 0 10 0 10 20 30 40 50 Kuva 3.4: Vasemmalla näytteet tuleville aikaväleille ennustettavasta tapahtumien määrästä ja oikeilla niistä muodostettu histogrammi tilanteessa, jossa tarkastelun kohteena tapahtumien määrä, datassa yksi muutospiste, ei puuttuvaa dataa eikä lisäinformaatiota intensiteeteistä. keskiarvo on 14.46, varianssi 55.22 ja mediaani 13. Histogrammi muistuttaa melko hyvin Poisson-jakaumaa. Kahden aikayksikön mittaisella välillä tapahtumien määrän pitäisi olla odotusarvoisesti 12 intensiteetin ollessa 6. Keskiarvo jää melko kauaksi tästä. Havaitaan työvälineen toimivan melko hyvin tässä yksittäisellä datalla toteutetussa hyvin yksinkertaisessa yhden muutospisteen tapauksessa. Menetelmän ja työvälineen toimivuuden ja tehokkuuden arvioimiseksi olisi toteutettava useita erilaisilla datoilla toteutettuja simulaatioita, joiden perusteella voitaisiin todeta, kuinka monessa tapauksessa ollaan onnistuttu löytämään muutospisteet. 19

Luku 4 Johtopäätökset Tehtävänä oli ratkaista muutospisteongelma Poisson-prosessin tuottamalle datalle. Oli kyettävä ratkaisemaan tapahtumien määrää käsittelevä tehtävä jakson pituuden ollessa vakio sekä yksittäisten tapahtumien välistä aikaa käsittelevä tehtävä. Muutospisteongelman ratkaisemisella tarkoitettiin muutospisteiden ja intensiteettien selvittämistä sekä ennusteen luomista tulevaisuuteen. Lisäksi oli kyettävä käsittelemään puuttuvaa dataa. Hyödynsin bayesilaista lähestymistapaa. Bayes-menetelmissä on ratkaistava parametrien posteriorijakauma. Posteriorijakaumaa ei pystytä näin monimutkaisessa tehtävässä lausumaan suljetussa muodossa. Hyödynsin tämän vuoksi numeerista Markov chain Monte Carlo -menetelmiin kuuluvaa Gibbsin otantaa kappaleessa 2.7 esitetyllä tavalla. Markov chain Monte Carlo -menetelmä on monimutkainen, mutta useimmiten helpoin tapa selvittää posteriorijakauma suuridimensioisissa tehtävissä (Gelman et al., 1997). Havainnollistin luvussa 3 menetelmän toimintaa yksinkertaisessa simuloituun dataan perustuneessa yhden muutospisteen tapauksessa. Tässä yksittäistapauksessa menetelmä onnistui löytämään muutospisteen. Intensiteetit ja ennusteet olivat myös oikean suuntaisia, vaikkakin arvoiltaan hieman liian suuria. Menetelmän toimivuuden ja tehokkuuden arvioimiseksi olisi toteutettava useita erilaisiin datoihin perustuvia simulaatioita. Gibbsin otanta vaikutti käyttökelpoiselta menetelmältä muutospisteiden tunnistamiseen. Gibbsin otannan implementointi oli kohtuullisen vaivatonta. 20

Esimerkiksi puuttuvan datan käsittely onnistui erittäin yksinkertaisesti. Menetelmään perustuvaan työvälineeseeni sisältyy monia ominaisuuksia ja toimintoja. Se ottaa vastaan lisäinformaatiota intensiteettien kasvamisesta/pienenemisestä, käsittelee puuttuvaa dataa ja seuraa simuloitavien sekvenssien konvergoitumista. Työvälinettä voisi toki edelleen kehittää. Kokeillessani työvälineeni toimintaa havaitsin simulaation pyörivän ajoittain erittäin hitaasti. Aikaa vievät nimenomaan hitaasti toimivat ja usein tarvittavat otantamenetelmät, viipalepoiminta ja hyväksymis/hylkkäämispoiminta. Tehostamalla näitä otantamenetelmiä tai korvaamalla ne muilla menetelmillä pystytään työvälineen toimintaa nopeuttamaan merkittävästi. Sekvenssien konvergoitumisen tarkkaileminen käyttämällä vain potentiaalisia skaalanvähennyskertoimia esittämälläni tavalla ei ole riittävää. Menetelmän mukaan konvergoituminen saavutetaan hyvin aikaisessa vaiheessa. Työvälineen käyttäjälle jää melko suuri vastuu siitä, että pyytää näytteitä riittävästi, jolloin myös simulaatiota pyöritetään riittävän kauan. Konvergoitumisen seuraamista voisi kehittää ja etenkin, jos on tiedossa, mistä parametreista ollaan erityisesti kiinnostuneita. 21

Kirjallisuutta Gelman, A., Carlin, J. B., Stern, H. S., & Rubin, D. B. (1997). Bayesian Data Analysis. Texts in Statistical Science. London: Chapman & Hall, 1. edition. Moreno, E., Casella, G., & Garcia-Ferrer, A. (2005). An objective bayesian analysis of the change point problem. Stochastic Environmental Research and Risk Assessment (SERRA), 19(3), 191204. Neal, R. M. (2000). Slice Sampling. Technical Report 2005, Department of Statictics, University of Toronto, http://www.cs.utoronto.ca/ radford/. Pulkkinen, U. & Simola, K. (1999). Bayesian ageing models and indicators for repairable components. In K. Simola (Ed.), Reliability methods in nuclear power plant ageing management, volume 379 of VTT Publications. Espoo: VTT Technical Research Centre of Finland. Stephens, D. A. (1994). Bayesian retrospective multiple-changepoint identi- cation. Applied Statistics, 43(1), 159178. Weisstein, E. W. (2006). Geometric Distribution. MathWorld. A Wolfram Web Resource., http://mathworld.wolfram.com/geometricdistribution.html. [23.1.2007]. 22