Iversio-ogelmie laskeallie eruskurssi Lueto 11 12 Kevät 2011 1 Lieaarie tilastollie iversio-ogelma Tarkastellaa lieaarista ogelmaa Y = AX + E, missä Y R m, X R ja E R m ovat satuaismuuttujia ja A R m o aettu matriisi. Oletetaa, että kaikki satuaismuuttujat ovat absoluuttisesti jatkuvia, eli iide jakaumat voidaa ilmaista todeäköisyystiheyksie avulla. Satuaismuuttujaa Y kutsutaa mittaukseski ja se realisaatiota Y = y obs dataksi. Satuaismuuttuja X o tutemato. Niitä muuttujia, joita ei kyetä mittaamaa tai joista ei varsiaisesti olla kiiostueita, kutsutaa joko arametreiksi tai kohiaksi, taauksesta riiue. Oletetaa, että ee kui mitää mittaustas Y o suoritettu, meillä o jotaki eakkotietoa muuttujasta X. Bayesilaise teoria mukaa oletetaa, että tämä iformaatio voidaa koodata todeäköisyystiheytee x π r (x), jota kutsutaa rioritiheydeksi. Toisi saoe se ilmasisee, mitä tutemattomasta tiedetää a riori ee mittaukse suorittamista. Oletetaa, että meillä o myös olemassa tieto X: ja Y : yhteistodeäköisyystiheydestä, jota merkitää π(x, y). Tällöi tutemattoma X margiaalitiheyde täytyy olla R m π(x, y)dy = π r (x). Toisaalta, jos tietäisimme tutemattoma arvo X = x, ii mittaukse Y ehdollie todeäköisyystiheys ehdolla x olisi π(y x) = π(x, y) π r (x), jos π r(x) 0. 1
Y : ehdollista tiheyttä kutsutaa uskottavuusfuktioksi (likelihood fuctio), koska se ataa todeäköisyyde eri mittaustuloksille, ku X = x o kiiitetty. Oletetaa louksi, että data Y = y obs o aettu. Ehdollista todeäköisyystiheyttä π(x y obs ) = π(x, y obs) π(y obs ), jos π(y obs) = R π(x, y obs )dx 0, kutsutaa tutemattoma X a osteriori -tiheydeksi. Tämä tiheys kertoo, mitä tiedetää tutemattomasta, ku mittausdata Y = y obs o aettu. Bayesilaisessa viitekehyksessä tilastollie iversio-ogelma ilmaistaa seuraavasti: ku data Y = y obs o aettu, etsi tutemattoma X ehdollie todeäköisyystiheys π(x y obs ). Lause 1.1 (Bayes theorem of iverse roblems). Oletetaa, että satuaismuuttujalla X R o tuettu rioritodeäköisyystiheys π r (x) ja että data koostuu havaituista arvoista y obs mitattavissa olevasta satuaismuuttujasta Y R m site, että π(y obs ) > 0. Tällöi tutemattoma X a osteriori -tiheys aetulla datalla y obs o π ost (x) = 1 π(y obs ) π r(x)π(y obs x). Huomautus 1.2. Jatkossa kirjoitetaa y = y obs aia, ku sekaaukse mahdollisuutta ei ole. Edellä olevassa Bayesi kaavassa termi π(y) = π(x, y)dx = R π(y x)π r (x)dx R o ormitusvakio, eikä sillä yleesä ole suuremaa merkitystä. Huomaa, että eriaatteessa o mahdollista, että π(y) = 0, toisi saoe saadaa mittausdata, joka todeäköisyystiheys (löyhästi uhue) o olla. Käytäössä tämä harvoi muodostuu todelliseksi ogelmaksi. Tilastollise iversio-ogelma ratkaisemie koostuus siis kolmesta erillisestä osatehtävästä: 1. Käyttäe kaikke olemassa olevaa tietoa tutemattomasta X, etsi/kostruoi a riori -tiheys π r (x), joka kuvaa tätä tietoa. 2. Etsi/kostruoi uskottavuusfuktio π(y x), joka kuvaa havaitu mittausdata ja tutemattoma suhdetta. 3. Kehitä meetelmä a osteriori -tiheyde aalysoimiseksi. Tarkastellaa seuraavassa yo. osatehtäviä eriksee. 2
2 A osteriori -tiheyde estimaattoreita Nii saotut iste-estimaattorit vastaavat kysymyksee: Ku data ja a riori -tieto o aettu, mikä o todeäköisi arvo tutemattomalle X?, ku taas ii saotut leveys- ja väliestimaattorit vastaavat kysymyksee, esimerkiksi Millä välillä tutemattoma arvot ovat 95% todeäköisyydellä, ku data ja riori o aettu?. Piste-estimaattoreita Maximum A Posteriori (MAP) x MAP = arg mi x R π(x y) x MAP o siis se iste, missä a osteriori -tiheys saavuttaa maksimisa (jos maksimi o olemassa). Huomaa, että MAP-estimaatti ei ole välttämättä yksikäsitteie, ja se laskemie umeerisesti vaatii yleesä otimoitiogelma ratkaisu. Ehdollie keskiarvo (Coditioal mea) x CM = E{x y} = xπ(x y)dx R Ehdollie keskiarvo o siis a osteriori -jakauma odotusarvo. Se laskemie umeerisesti vaatii itegroititehtävä ratkaisemise. Väli- ja leveysestimaattoreita Ehdollie kovariassi cov(x y) = (x x CM )(x x CM ) T π(x y)dx R. R Bayesia credibility set Joukko D, 0 100 valittu: µ(d y) π(x y)dm = /100, D π(x y) x D = vakio. Toisi saoe joukko (tai väli) D sisältää rosettia a osteriori -jakauma todeäköisyysmassasta. 3
3 Uskottavuusfuktio kostruoiti Takastellaa lieaarista mallia, jossa kohia o additiivita, eli Y = AX + E, missä Y R m, X R ja E R m, ja X ja E ovat toisistaa riiumattomia. Oletetaa, että E: todeäköisyysjakauma o tuettu, eli µ E (B) = P {E B} = π oise (e)de. Jos X = x o kiiitetty, seuraa X: ja E: riiumattomuudesta, että E: todeäköisyystiheys ei muutu, vaikka se ehdollistettaisii ehdolla X = x. Täte voidaa äätellä, että π(y x) = π oise (e x) = π oise (e) = π oise (y Ax). Täte, jos X: riotitiheys o π r (x), saadaa Bayesi kaavasta 3.1 Gaussiset tiheydet π(x y) π r (x)π oise (y Ax). Määritelmä 3.1. Olkoo x 0 R ja Γ R symmetrie ositiividefiiitti matriisi. -ulotteie gaussie satuaismuuttuja, joka odotusarvo o x 0 ja kovariassi Γ, o satuaismuuttuja, joka todeäköisyystiheys o ( ) /2 ( 1 π(x) = ex 1 ) 2π Γ 2 (x x 0) T Γ 1 (x x 0 ), missä Γ = det(γ). Tällöi merkitää Tarkastellaa iversio-ogelmaa B X N (x 0, Γ). Y = AX + E, missä X ja Y ovat riiumattomia, kohia E o gaussie, eli E N (e 0, Γ oise ), ja tutemattoma X riori o gaussie, X N (x 0, Γ r ). 4
Voidaa osoittaa, että tällöi X: osterioritiheys o gaussie, ( π ost (x) = π(x y) ex 1 ) 2 /x x)t Γ 1 ost(x x), missä ja x = x 0 + Γ r A T (AΓ r A T + Γ oise ) 1 (y Ax 0 e 0 ) Γ ost = Γ r Γ r A T (AΓ r A T + Γ oise ) 1 AΓ r. Huomautus 3.2. Toisaalta voidaa myös osoittaa, että Γ ost = (Γ 1 r + A T Γ oise A) 1 ja x = Γ ost (A T Γ 1 oise (y e 0) + Γ r x 0 ). Molemmat yllä olevat ratkaisukaavat atavat sama ratkaisu. Se, kumia kaavoja kaattaa käyttää, riiuu taauksesta. Huomaa, että vaikka jälkimmäiset kaavat vaikuttavat yksikertaisemmilla, vaativat e kuiteki useide matriisie käätämistä, mikä o umeerisesti raskasta, jos matriisit ovat isoja. Huomautus 3.3. Puhtaasti gaussiessa taauksessa x = x CM = x MAP ja osteriorikovariassi Γ ost o ehdollie kovariassi. Jälkimmäiset ratkaisukaavat voidaa alauttaa ieimmä eliösumma ogelmaksi. Tätä varte tarvitaa Lause 3.4 (Cholesky-hajotelma). Olkoo A R symmetrie ositiividefiiitti matriisi. Tällöi se voidaa esittää yksikäsitteisesti muodossa A = LL T, missä L R o alakolmiomatriisi, joka diagoaalielemetit ovat ositiivisia. Tätä hajotelmaa kutsutaa matriisi A Cholesky-hajotelmaksi. Tarkastellaa gaussista ogelmaa Y = AX + E, 5
missä E N (0, Γ ) ja X N (x 0, Γ ). Olkoo Γ = L L T ja Γ = L L T kovariassimatriisie Cholesky-hajotelmat. Tarkastellaa toisaalta ylidetermioitua ieimmä eliösumma ogelmaa [ ] [ ] L 1 y L 1 L 1 A = x 0 L 1 x, Tämä ogelma ieimmä eliösumma ratkaisu o ˆx = { [ A T L T = ( A T L T = (A T Γ 1 L 1 L T A + Γ 1 A + L T ] [ L 1 A L 1 ]} 1 [ A T L T L 1 ) 1 ( A T L T y + Γ 1 x 0 ). ) 1 (A T Γ 1 L 1 L T y + L T ] [ L 1 y L 1 x 0 ) L 1 x 0 Toisi saoe yllä oleva ogelma ieimmä eliösumma ratkaisu o tilastollise iversio-ogelma ratkaisu ˆx = x. ] 4 Gaussiset rorit Esimerkki 4.1 (Valkoie kohia). Tarkastellaa ogelmaa Y = AX + E, missä kohia E N (0, σ 2 I) ja riori X N (0, γ 2 I). Tällaista rioria kutsutaa valkoie kohia -rioriksi (white oise rior). Nyt käyttämällä esimmäisiä ratkaisukaavoja saadaa x = γ 2 A T (γ 2 AA T + σ 2 I) 1 y = A T (AA T + αi) 1 y, missä α = σ 2 /γ 2. Tätä kaavaa kutsutaa huoosti asetetu ogelma y = Ax + e Wieer-filtteröidyksi ratkaisuksi. Toisaalta käyttämällä jälkimmäisiä ratkaisukaavoja saadaa x = (σ 2 A T A + γ 2 I) 1 σ 2 A T y = (A T A + αi) 1 A T y, eli yllä oleva ogelma a osteriori -tiheyde keskikohta (x CM = x MAP = x) ob ogelma y = Ax Tikhoov-regularisoitu ratkaisu regularisaatioarametrilla α. Tikhoovi regularisaatioarametri α voidaa siis tulkita kohia ja 6
riori variassie suhteeksi. Huomaa myös, että gaussisessa taauksessa π(x y) π r (x)π(y x) ex( 1/(2γ 2 )x T x) ex( 1/(2σ 2 )(y Ax) T (y Ax)) ( ( 1 = ex 2γ 2 x 2 + 1 )) y Ax 2 2σ2 = ex( V (x y)), missä yt V (x y) = CT α (x), eli osterioritiheyde ehdollie otetiaali V o vakiota vaille Tikhoov-fuktioaali T α. Ku Tikhoov-fuktioaali miimoidaa, maksimoidaa tällöi osterioritiheys ex( V (x y)). 4.1 Gaussiset sileysriorit Esimerkki 4.2. Tarkastellaa ogelmaa y = Ax + e klassisessa mielessä. Oletetaa, että x R kuvaa joki fuktio f : D R R diskretisoituja arvoja, ja oletetaa vielä, että tiedämme a riori, että fuktio f o kahdesti differetioituva alueessa D. Tällöi yritetää miimoida Tikhoov-fuktioaali T alha (x) = Ax y 2 + α Lx 2, missä L : R R k o Laålace-oeraattori diskreetti aroksimaatio R :ssä. Kute aiemmi, voidaa odottaa, että o olemassa joki gaussie riorijakauma site, että T α o (vakiota vaille) osterioriotetiaali V (x y). Jos oletetaa, että datassa o valkoista kohiaa variassilla σ 2, ja asetetaa V (x y) = 1 2σ 2 y Ax 2 + α 2σ 2 Lx 2 = 1 2σ 2 T α(x), ii tällöi T α : miimoiti maksimoi ehdollise jakauma x ex( V (x y)). Täte luoollie ehdolas riorijakaumaksi o ( π r (x) ex 1 ) 2γ 2 Lx 2, γ 2 = σ2 α. Olkoo yt L R aettu matriisi. Tarkastellaa riorijakaumaa π r (x) ex ( 12 ) L(x x 0) 2 ( = ex 1 ) 2 (x x 0) T L T L(x x 0 ). 7
Ogelmaa tässä esityksessä o, että matriisi L saattaa yleisessä taauksessa olla degeeroituut, eli rak(l) <, jolloi matriisi L T L R ei ole käätyvä, eikä siis voi määrätä gaussista kovariassimatriisia. Tällöi tulkita tehdää rajarosessi kautta. Seuraavassa asetetaa aia x 0 = 0. Määritelmä 4.3. 1. Satuaismuuttujaa W R k kutsutaa uhtaaksi (tai ortoormaaliksi) valkoiseksi kohiaksi, jos W N (0, I), missä I R k k o yksikkömatriisi. 2. Olkoo X R gasussie satuaismuuttuja, joka odotusarvo o olla. Matriisia L R k kutsutaa X: valkaisumatriisiksi (whiteig matrix), jos LX = W R k. Oletetaa,että x R o gaussie satuaismuuttuja, joka kovariassimatriisi o Γ R. Olkkoo se Cholesky-hajotelma Γ = CC T. Tällöi X: valkaisumatriisi o C 1 : olkoo Y = C 1 X. Nyt Y : kovariassi o E{Y Y T } = E{C 1 XX T C 1 } = C 1 E{XX T }C T = C 1 ΓC T = C 1 CC T C T = I. Käätäe oletetaa, että matriisi L R k o aettu, ja tarkoituksea o kostruoida satuaismuuttuja X R site, että L o mahdollisimma lähellä X: valkaisumatriisia. Olkoo L: sigulaariarvohajotelma L = UDV T, missä D = diag(d 1, d 2,..., d m ), m = mi(k, ), ja ja d 1 d 2 d d +1 = = d m = 0, V = [v 1, v 2,..., v m ]. Tällöi ker(l) = s{v +1,..., v m } ja olkoo Q = [v +1,..., v m ] R (m ). Lemma 4.4. Olkoo W R k ja W R m kaksi keskeää riiumatota valkoista kohiaa, ja olkoo X = L + W + aqw, 8
missä L + o L: seudoiverssi ja a > 0 o mielivaltaie vakio. Tällöi satuaismuutuja X kovariassi o ja se kääteismatriisi o ii Nyt siis jos Γ = L + (L + ) T + a 2 QQT, Γ 1 = L T L + 1 a 2 QQT. X = L + W + aqw, LX = LL + W = UU T W = P W, missä P o ortogoaalie rojektio avaruutee Ra(L), ja muuttuja X = P W kovariassi o tässä avaruudessa yksikkömatriisi. Toisi saoe vaikka L ei ole aiemma määritelmä mukaie valkaisumatriisi, o se mahdollisimma hyvä aroksimaatio sellaisesta. Edellä oleva lemma kaavasta kovariassi kääteismatriisille ähdää, että suurella a satuaismuuttujalla X o miltei haluttu jakauma.kuiteki tällöi aliavaruude ker(l) suutaa X: variassi o silloi valtava, eikä sileysriori siis aa mitää iformaatiota siiä suuassa. Itse asiassa, jos ker(l) {0}, ii L ei edes määritä oikeata todeäköisyystiheyttä: olkoo ( π r (x) ex 1 ) 2γ 2 Lx 2 ( ) = ex 1 d 2 2γ j(v T 2 j x) 2, jote asettamalla H = s{v 1,..., v } saadaa ( ex 1 ) 2γ Lx dx = (2π) /2 γ 2 2 j=1 d <, j H mutta jos >, ii R π r (x)dx =. Tällaisia rioreita kutsutaa eäaidoiksi (imroer) rioreiksi. j=1 9
4.2 1. kertaluvu differessiriori Jos tiedetää, että tutemato X o kerra differetioituvam, voidaa käyttää 1. kertasluvu differessirioria. Tällöi oletetaa, että eräkkäiste isteide erotus o ormaalijakautuut odotusarvolla olla ja variassilla σ 2, toisi saoe x i x i 1 N (0, σ 2 ), i = 1, 2,...,. Tämä riori-iformaatio voidaa esittää matriisia 1 1 1 1 L =... R( 1), 1 1 ja koko riori stokastisea mallia Toisi saoe riori olisi 0 = LX + E, E N (0, σ 2 I). X N (0, σ(l T L) 1 ), mutta yt L T L ei ole käätyvä, eli L määrittelee eäaido riori! Se voidaa kuiteki laajetaa aidoksi rioriksi lisäämällä siihe reuaehto: olkoo x 1 N (0, σ), jolloi siis saadaa matriisi L = 1 1 1 1 1... 1 1 R, joka ataa aido riori. Huomaa, että tämä reuaehtovalita akottaa istee x 1 ollaksi, mikä ei välttämättä ole toivottavaa. Huomaa myös, että o mahdollista kiiittää myös joki muu iste, esimerkiksi ääteiste x. Toie vaihtoehto o ataa reuaisteelle eemmä vaautta asettamalla se variassi suureksi. Tällöi tämä lisäiformaatio voidaa tulkita ii, että meillä ei ole kovi tarkkaa tietoa istee x 1 arvosta. 10
4.3 2. kertaluvu differessiriori Jos tiedetää, että X o kahdesti differetioituva, voidaa käyttää rioria 2. kertaluvu differessi eli diskretisoitua Lalace-oeraattoria: 1 2 1 1 2 1 L =... R( 2). 1 2 1 Jällee L määrittelee eäaido riori, jota joudutaa laajetamaa reuaehdoilla. Mahdollisia laajeuksia ovat esimerkiksi x 1 N (0, σ), 2x 1 + x 2 N (0, σ), joka jällee aiaa istee x 1 ollaksi, tai symmetrie lisäiformaatio 2x 1 + x 2 N (0, σ), x 1 2x N (0, σ). Kulloiki soivat reuaehdot riiuvat tilateesta. 5 Priori sämläys Usei o hyödyllistä tietää, millaisia ratkaisuja eri riorit tuottavat. Niitä voidaa tutkia kostruoimalla realisaatioita aetusta riorijakaumasta tai riorimallista. Olkoo X gaussie satuaismuuttuja, X N (x 0, Γ), ja olkoo Γ = CC T kovariassimatriisi Cholesky-hajotelma. Tällöi ja C 1 X N (x 0, I) C 1 X x 0 N (0, I), jote realisaatio jakaumasta N (x 0, Γ) voidaa kostruoida ratkaisemalla yhtälö C 1 (W + x 0 ), W N (0, I), 11
eli x = C(w + x 0 ), missä W = w o valkoise kohia realisaatio. Vastaavasti riorimalli x 0 = LX + E, E N (0, Γ), taauksessa tulee ratkaista yhtälö Lx = C(w + x 0 ). 12