0.4 0.35 Gauss l1 Cauchy 0.3 0.25 0.2 0.15 0.1 0.05 0 10 8 6 4 2 0 2 4 6 8 10 Kuva 4.20: L2-priorin tnft, Cauchy-priorin tntf kun α = α = 2. 2π π 2π ja L1-priorin tntf kun 4.3.6 Eräitä diskreettejä Markov-kenttiä Esimerkki 53. (1D-Gaussiset sileyspriorit) Olkoon X sellainen satunaisvektori, joka esittää tuntemattoman funktion g arvoja pisteissä t i [0, 1], i = 1,.., n, 0 = t 0 < t 1 < < t n < 1 ovat tasavälisiä pisteitä ja g(t) = 0 kun t 0. Asetetaan sv: X prioritntf f pr (x) = ce α(x2 1 + n i=2 (x i x i 1 ) 2 ). Reunaa vastaava komponentti X 0 = g(0) = 0. Jos parametri α on suuri, niin X:n otoksen vierekkäisten komponenttien arvot ovat todennäköisesti melko lähellä toisiaan (funktion g sileys. "Random walk-malli. Vastaavasti, voimme tarkastella korkeanpia differenssejä. Esimerkiksi 2. differenssit: f pr (x) = ce 1 2a 4 (x 2 1 +( 2x 2 x 1 ) 2 + n i=3 (x i 2x i 1 +x i 2 ) 2 ). Esimerkki 54. (2D-Gaussiset sileyspriorit Olkoon f : [0, 1] 2 R sellainen jatkuva funktio, jolle f = 0 joukon [0, 1] 2 ulkopuolella. Olkoon X sv, joka kuvaa funktion f 121
arvoja pisteissä {t i [0, 1] [0, 1] : i = 1,.., n 2 } = {( k n, j ) } : k, j = 1,..., n. n Asetetaan missä f pr (x) = ce α j V j(x), V j = 4x j i N j x i 2 ja pisteen x j ja indeksit N j sisältävät ne indeksit i, jotka antavat pisteen t j vasemman-, oikean-, ylä- ja alapuolisen pisteen t i (mikäli nämä pisteet löytyvät). Parametrin α valinta perustuu siihen, kuinka varmasti uskomme tuntematoman vierekkäisten komponenttien toisten differenssien summan saavan suurehkoja arvoja. Tämä liittyy käsitykseemme tuntemattomasta funktiosta g otetun (diskreetin) Laplaceoperaattorin g käytöksestä. Esimerkki 55. (Totaalivariaatiopriori) Satunnaisvektori X mallintaa N N-pikselin kuvaa siten, että kuvaa vastaava matriisi on järjestetty n = N 2 -ulotteiseksi vektoriksi X = (X 1,..., X n ) sarakkeittain (tai riveittäin). Satunnaisvektorilla X on totaalivariaatiopriori, jos f pr (x) = ce n j=1 V j(x) missä V j (x) = α i N j l ij x i x j ja indeksin j naapurusto N j sisältää ne indeksit, joita vastaavilla pikseleillä on yhteinen sivu pikselin j kanssa. Luku l ij on yhteisen sivun pituus. Totaalivariaatio n 1 j=1 2 i N j l ij x i x j on pieni, jos pikselin i väriarvo x i ja sen naapuripikselien väriarvot x j, j N i eivät eroa paljon toisistaan tai eroavat paljon vain sellaisten pikselijoukkojen välillä, joiden reunan pituus on lyhyt. Vastaavasti tntf antaa suuren painon tällaisille vektoreille. Yleisemmin indeksien i naapurustot N i {1,..., n} muodostavat sellaisen joukkoperheen, jolle pätee 1. i / N i (piste ei ole itsensä naapuri) 2. i N j jos ja vain jos j N i (refleksiivisyys: jos piste i on pisteen j naapuri, niin piste j on pisteen i naapuri). Määritelmä 34. Satunnaisvektori X on diskreetti Markovin kenttä naapurustojen N i, i = 1,.., n suhteen jos f Xi (x (X 1, X 2,.., X i 1, X i+1, X i+2,..., X n ) = (x 1, x 2,.., x i 1, x i+1, x i+2,..., x n )) 122 = f Xi (x X k = x k k N i )
Diskreetin Markovin kentän komponentti X i riippuu ainoastaan naapurikomponenteista X k, k N i. Edelliset esimerkerkit ovat diskreettejä Markov-kenttieä seuraavan lauseen nojalla. Lause 22 (Hammersley-Clifford). Satunnaisvektori X : Ω kenttä naapurustojen N i, i = 1,.., n suhteen jos ja vain jos sen tntf diskreetti Markovin f X (x) = ce n i=1 V i(x) missä funktio V i : R riippuu vain komponentista x i ja sen naapurikomponenteistä x k, k N i. 4.4 Posteriorijakauman tutkiminen Moniulotteista posterioritodennäköisyystiheysfunktiota f post (x; y 0 ) = f Y (y 0 X = x)f pr (x) fy (y 0 X = x)f pr (x)dx voi olla hankala tulkita tai visulialisoida. Miten posteriorijakaumasta saadaan helposti tulkittavaa tietoa tuntemattomasta? Otetaan käyttöön tilastotieteen osa-alue, jota kutsutaan päätösteoriaksi. 4.4.1 Päätösteoriaa Päätösteoria (eng. decision theory) vastaa esimerkiksi kysymykseen: mikä datan y 0 = F (x 0 ) + ε 0 funktio h : R m on sellainen, että vektori h(y 0 ) muistuttaa (tietyssä mielessä) parhaiten tuntematonta x 0 joka on tuottanut datan y 0 = F (x 0 ) + ε 0? Tarvitsemme funktion, jotta mikä tahansa datavektorin y 0 arvo voidaan käsitellä. Tilastotieteessä funktiota h kutsutaan tuntemattoman estimaattoriksi ja arvoa h(y 0 ) estimaatiksi. Estimaattoreita merkitään usein hattufunktioilla, esim y x(y). Kuva 4.21: Estimaattori h ja estimaatti h(y 0 ). Määritellään missä mielessä parasta tuntemattoman edustajaa etsitään. 123
1. Valitaan ensin ns. tappiofunktio 8 (eng. loss function) L : [0, ) jonka arvo L(x, h(y)) mittaa annetun estimaatin h(y) hyvyyttä, kun tuntematon on x. (Kun luku L(x, h(y)) on "pieni", vektori h(y) "muistuttaa"vektoria x. Kun L(x, h(y)) on "suuri", estimaatti h(y) on "pielessä"). 2. Kun L on valittu siten, että x L(x, z)f post (x) on integroituva jokaisella z, niin funktion z L(x, z)f post (x)dx = E post [L(X, z)] arvot ovat odotettuja tappioita, kun kaikkia mahdollisia tuntemattoman arvoja x verrataan vektoriin z. (Kuinka paljon ollaan keskimäärin "pielessä", kun tuntemattomanta arvioidaan z:lla). 3. Muodostetaan funktio h kuvapiste kerrallaan. Kun y R m on kiinnitetty, niin vastaavaksi kuvapisteeksi h(y) asetetaan odotetun tappion (=keskimääräisen tappion) minimikohta h(y) := argmin L(x, z)f post (x; y)dx. z eli min L(x, z)f post (x; y)dx = min L(x, z)f post (x; y)dx. z z Minimikohta riippuu vektorista y, sillä posterioritntf muuttuu, kun y:n arvo muuttuu. Datan ollessa y etsimme arvon h(y), jolla odotettu tappio posteriorijakauman suhteen on pienin mahdollinen, kun "pieleen menemisen"mittarina käytetään funktiota L. Estimaatti h(y), jota merkitään usein x on tuntemattoman edustaja, johon on tiivistytty posteriorin sisältämää tietoa tuntemattomasta. Estimaattien x lisäksi voimme määrätä posteriorijakaumasta komponenttien x i, i = 1,..., n, Bayes-luottamusvälit valitsemalla luvun a yhtälöstä missä esim. α = 0.05. P post ( X i x i a) = 1 α Lukua ( ) r h = L(x, h(y))f post (x; y)dx f Y (y)dy R m kutsutaan Bayes-riskiksi. Fubinin lauseen nojalla ( ) r(h) = c L(x, h(y))f Y (y X = x)dy f pr (x)dx, R m missä c on normitustekijä. Riskin tulkinta: kun todellinen tuntematon on x ja sitä vastaava häiriöinen data y (esim. M x + ε), niin estimaatteihin h(y) liittyvä odotettu tappio tntf:n f Y (y X=x) ja f pr (x) suhteen on Bayes-riski r(h). 8 Esim. L(x, z) = x z 2. 124
CM-estimaatti eli posterioriodotusarvo Valitaan L(x, z) = x zvert 2 kaikilla x, z. Merkitään m post (y) posterioriodotusarvoa m post (y) = xf post (x)dx ja C post (y) posteriorikovarianssimatriisia (C post (y)) ij = (x i (m post (y)) i )(x j (m post (y)) j )f post (x)dx. Silloin L(x, h(y))f post (x; y)dx = = = = x h(y) 2 f post (x; y)dx x m post (y) + m post (y) h(y) 2 f post (x; y)dx R n n ( x m post (y) 2 + 2 (x m post (y)) i (m post (y) h(y)) i i=1 + m post (y) h(y) 2 )f post (x; y)dx x m post (y) 2 f post (x; y)dx n +2 (m post (y) h(y)) i (x m post (y)) i f post (x; y)dx i=1 = + m post h(y) R 2 f post (x; y)dx n x m post (y) 2 f post (x; y)dx + m post h(y) 2 Minimi saavutetaan, kun m post (y) h(y)) 2 = 0 eli kun h(y) = m post (y), jolloin lisäksi n L(x, h(y))f post (x; y)dx = (C post (y)) ii. Toisin sanoen tappiofunktion posterioriodotusarvo on posteriorikovarianssimatriisin diagonaalielementtien summa ( = posteriorikovarianssimatriisin ns. jälki, eng. trace). Posterioriodotusarvoa merkitään usein x CM = xf post (x)dx (eng. CM=ccnditional mean). Aiemmin olemme laskeneet, mikä on Gaussisen lineaarisen inversio-ongelman posterioriodotusarvo. Monimutkaisempien jakaumien tapauksessa posterioriodotusarvolle ei useinkaan löydy vastaavaa eksplisiittistä lauseketta. Tällöin turvaudutaan numeerisiin menetelmiin, kuten erilaisiin Monte Carlo-menetelmiin, jotka peerustuvat otosten generointiin posteriorijakaumasta. 125 i=1
MAP-estimaatti Olkoon δ > 0 ja tappiofunktio L δ (x, z) = 1 B(z,δ) C(x) kun x, z. Olkoon jatkuva posterioritntf x f post (x; y) yksihuippuinen 9 annetulla datalla y. MAP-estimaatti määritellään estimaattien raja-arvona lim h δ(y) = lim argmin 1 B(z,δ) C(x)f post (x; y)dx δ 0+ δ 0+ z R n = lim argmin f post (x; y)dx = x MAP, δ 0+ z jonka ekvivalentti lauseke on \ B(z,δ) x MAP (y) = argmax f post (x; y). x Maksimi a posteriori-estimaatti x MAP (y) (eng. maximum a posteriori estimate) voi olla hyödyllinen tilanteissa, joissa posterioriodotusarvojen laskeminen on raskasta. Se saadaan myös kaavalla x MAP (y) = argmax f Y (y X = x)f pr (x) x MAP-estimaattia laskettaessa normitustekijää ei tarvitse määrätä! Laskenta suoritetaan korkeaulotteisissa tapauksissa useimmiten numeerisen optimoinnin algoritmeilla. MAP-estimaattia käytetään usein myös silloin, kun posteriorijakauma ei ole yksihuippuinen, jolloin estimaatti voi saada useampia arvoja. MAP-estimaattia käytetään myös tasaisten priorijakaumien yhteydessä. Esimerkki 56. Häiriö ε N(0, δi), delta = 1/100 ja tuntematon X ovat riippumattomia. Tuntemattomalle asetetaan Gaussinen sileyspriori X N(0, C), missä tuntemattoman kovarianssimatriisic on muotoa x T C 1 x = n k=1 (x k x k 1 ) 2, x 0 = 0 ja (x 1,..., x n ). Annettu havainto y 0 on näyte sv:sta Y = MX + ε, missä M = M 37 2001 on konvoluutio-muotoa M ij = exp( 1 2 t i s j ), missä s j = 10 + 0.01j, j = 1,..., 2001 ja t i = 10 + 0.57i, i = 1,..., 37. 9 Sanomme, että todennäköisyystiheysfunktiota yksihuippuiseksi (eng. unimodal), jos sen globaali maksimiarvo saavutetaan vain yhdessä pisteessä. (Huom! kirjallisuudessa termillä "unimodal"esiintyy useampia määritelmiä, jotka eivät ole keskenään ekvivalentteja.). 126
Kuva 4.22: Vasemmalla Gaussinen 1. asteen sileyspriori exp( α Bx 2 ). Oikealla vastaava L1-priori exp( α Bx 1 ). (B ij = δ ij δ i(j 1) ). Huonosti asetetut ja häiriöherkät lineaariset ongelmat Olkoon y 0 = F (x 0 ) + ε 0 annettu data, joka on näyte satunnaisvektorista Y = F (X) + ε, missä X : Ω ja ε : Ω R m ovat tilastollisesti riippumattomia satunnaisvektoreita ja F : R m on jatkuva lineaarinen huonosti asetettu kuvaus jolla on pieniä nollasta eroavia singulaariarvoja tai häiriöherkkä hyvin asetettu kuvaus. Tarkastellaan Gaussista häiriömallia ε N(0, δi), δ > 0. Olkoon f pr sellainen, että jollakin c > 0 pätee f pr (x) c 1 kaikilla x. Tällöin cf pr (x) 1. Tuntemattoman maksimi a posteriori-estimaatti on ˆx MAP (y 0 ) = argmax f Y (y 0 X = x)f pr (x) x = argmax f ε (y 0 F (x))f pr (x) x = argmax x Funktio [0, ) t exp( t) on vähenevä, joten kun g : [0, ). Erityisesti ˆx MAP (y 0 ) = argmax x e 1 2δ y 0 F (x) 2 +ln cf pr(x). sup exp( g(x)) = exp( inf g(x)) x x e 1 2δ y 0 F x 2 +ln cf pr(x). = argmin 2δ y 0 F x 2 ln cf pr (x). x 1 Kun häiriön jakauma on N(0, δi), niin MAP-estimointi on ekvivalentti sakotetun pienimmän neliösumman menetelmän (eng. penalized least squares method) kanssa; minimoitava funktionaali ei ole y 0 F x 2, vaan siihen on summattu termi ln cf pr (x), joka on suuri silloin kun vektorilla x on ei-toivottuja ominaisuuksia. 127
Funktio x y 0 F x 2 saa pienimmän arvonsa pisteissä ˆx = Qx 0 + x + ε 0, missä Q : on ortogonaalinen projektio kuva-avaruudelle R(F T ), x Ker(F ) ja ε 0 on häiriötermin ε 0 vaikutus likimääräisratkaisuun. Sama ilmiö näkyy myös CM-estimaatissa ˆx CM (y 0 ) = xf post (x; y 0 )dx = c y0 = c y0 xe 1 e 1 2δ y 0 F (x) 2 +ln cf pr(x) dx 2δ y 0 F (x) 2 f pr (x)dx jossa lasketaan posterioriodotusarvo yli kaikkien mahdollisten tuntemattomien. Niillä vektoreilla x, joilla 1 2δ y 0 F (x) 2 ln cf pr (x) on pieni, on suurehko paino odotusarvossa. Niillä vektoreilla x, joilla 1 2δ y 0 F (x) 2 ln cf pr (x) on suuri, on pienehkö paino odotusarvossa. Esimerkki 57 (Tasainen priorijakauma). Olkoon f pr (x) = 1 Q r 1 Q r (x), missä Q r on suljettu origokeskinen kuutio, jonka sivun pituus on r. Silloin f post (x) = c y0 e 1 2δ y 0 F (x) 2 1 Qr (x) ja ja ˆx MAP (y 0 ; r) = argmin x Q r y 0 F (x) 2 lim x MAP (y 0 ; r) = argmin y 0 F (x) 2. r x MAP-estimaatti, kun priorina on tasainen jakauma origokeskisessä kuutiossa Q r, lähestyy pienimmän neliösumman likimääräisratkaisua, kun kuution sivun pituus kasvaa rajatta. Tasainen jakauma ei yleensä poista häiriöherkkyyttä. Esimerkki 58. Olkoon F : R m. Olkoon f pr (x) = ce 1 2 xt C 1x. Silloin ˆx CM (y 0 ) = (F F T + δc 1 ) 1 F T (y 0 ), joka on olemassa vaikka F ei olisi kääntyvä. Lisäksi estimaatti ˆx CM ei ole niin häiriöaltis kuin pienimmän neliösumman likimääräisratkaisu. Merkitään posteriorikovarianssimatriisia C post = (F F T + δc 1 ) 1. 128
Voimme määrätä komponenteille (ˆx CM ) i Bayes-luottamusvälin [(ˆx CM ) i 1.96 (C post ) ii, (ˆx CM ) i + 1.96 (C post ) ii ] jolle ) P post ( X i (ˆx CM ) i 1.96 (C post ) ii 0.95 129
4.5 Yhteenveto Todennäköisyyslaskennasta Satunnaisvektorin X ehdollinen tntf ehdolla Y = y (jolla reunatntf f Y (y) > 0) on f X (x Y = y) = f (X,Y )(x, y). f Y (y) Jatkuville tntf:lle pätee Bayesin kaava f X (x Y = y)f Y (y) = f (X,Y ) (x, y) = f Y (y X = x)f X (x) (epäjatkuvassa tapauksessa modulo versio) Tilastollinen inversio-ongelma Tuntematonta ja dataa mallinnetaan satunnaisvektoreilla X ja Y. Datan ja tuntemattoman jakaumat edustavat niistä saatavilla olevaa kvantitatiivista ja kvalitatiivista tietoa sekä tälllaisen tiedon puutetta. Annettu data y 0 on näyte satunnaisvektorista Y eli y 0 = Y (ω 0 ) jollakin alkeistapahtumalla ω 0 Ω. Tilastollisen inversio-ongelman ratkaisu on satunnaisvektorin X ehdollinen tntf kun Y = y 0 (jolle f Y (y 0 ) > 0) on annettu Posterioritntf Posterioritntf:n määrämiseksi tarvitaan uskottavuusfunktio x f Y (y 0 X = x) ja prioritntf x f pr (x). Posteriorijakaumasta voidaan määrätä tuntematton estimaatteja ja niiden luottamusvälejä. Tyypillisiä priorijakaumia ovat Gaussiset priorit (erityisesti sileyspriorit), L1-priori, Cauchy-priori ja totaalivariaatiopriori (2D-kuville). Osattava Priori- ja posterioritodennäköisyystiheysfunktioiden määritelmät. Määrätä posterioritntf (normitustekijää vaille) kun häiriötä mallintava satunnaisvektori ja tuntematonta mallintava satunnaisvektori ovat riippumattomia ja tarvittavat tntf:t ovat jatkuvia. Kirjoittaa Gaussisessa tapauksessa posterioriodotusarvon ja posteriorikovarianssimatriisin lausekkeet. Kertoa Tikhonovin regularisaation ja lineaarisen Gaussisen inversio-ongelman yhteys. CM-estimaatin määritelmä posterioriodotusarvona 130
MAP-estimaatin määritelmä posterioritntf:n maksimikohtana Ymmärrettävä: että tapahtuman todennäköisyydestä käytetään subjektiivista Bayeslaista tulkintaa: tapahtuman todennäköisyys on se varmuusaste, jolla uskomme tapahtuman toteutuvan. että epävarmuutta tuntemattoman tai parameterien arvoista voidaan kuvailla todennäköisyystiheysfunktioiden avulla että prioritntf voi kompensoida ongelman häiriöherkkyyttä. että posterioritntf tuottaa enemmän tietoa kuin pelkän estimaatin (kuten Bayesluottamusvälit). Tiedettävä että häiriötä mallintava satunnaisvektori ja tuntematontta mallintava satunnaisvektori voivat joskus olla toisistaan riippuvia. että malleihin voidaan sisällyttää epävarmuustekijöitä satunnaismuuttujien avulla mitä positiivisuusrajoite tarkoittaa Priorijakaumia: Gaussiset sileyspriorit, Cauchy-priori, L1-priori, totaalivariaatiopriori. 131