Kuva 4.6: Elektroniikassa esiintyvän lämpökohinan periaate. Lämpökohinaa ε mallinnetaan additiivisella häiriöllä y = Mx + ε. 4.2.2 Uskottavuusfunktio f Y (y 0 X = x) Tarkastellaan tilastollista inversio-ongelmaa, jossa data Y on m-ulotteinen ja tuntematon X n-ulotteinen satunnaisvektori. Määritelmä 33. Olkoon y 0 R m otos satunnaisvektorista Y. Bayesin kaavassa esiintyvää funktiota x f Y (y 0 X = x) nimitetään uskottavuusfunktioksi (eng. likelihood function). Uskottavuusfunktio x f Y (y 0 X = x), missä y 0 R m on aina kiinnitetty, on n-ulotteisen muuttujan funktio, kun taas ehdollinen tntf y f Y (y X = x), missä x R n on kiinnitetty, on m-ulotteisen muuttujan funktio! Uskottavuusfunktio edustaa tuntemattoman ja datan välistä sopivuutta ja se voi sisältää mm. ulkoisista häiriöistä johtuvien epätarkkuuksien tilastollisia piirteitä (kuten sähköisessä laitteissa esiintyvän lämpökohinan vaikutusta mittaukseen) suoran teorian mallinnusvirheistä johtuvien epätarkkuuksien tilastollisia piirteitä (kuten jatkuvan tuntemattoman kahden muuttujan funktion approksimointi pikseleiden avulla eri tarkkuustasoilla tai fysikaalisen teorian epätarkkuudet). 107
Kuva 4.7: Kahden muuttujan funktiota f(x, y) (jonka arvo koordinaateissa (x, y) on joko 0 tai 1) approksimoidaan summalla f(x, y) n k=1 a kφ k (x, y), missä a k edustaa funktion f(x, y) approksimoitua arvoa pikselissä k, jonka indikaattorifunktio on φ k. Kuva 4.8: Refraktio eli aaltojen taipuminen epähomogeenisessa väliaineessa aiheuttaa poikkeamia suoraviivaisesta etenemisestä samoin kuin diffraktio eli aaltojen leviäminen esteen tai raon taakse. Refraktiota ja diffraktiota ilmenee mm. radiosignaalien, ultraäänen ja maanjäristysaaltojen etenemisessä. Jos esim. ultraäänen etenemistä approksimoidaan suoraviivaisena, syntyy fysiikaalisen suoran teorian ja käytetän suoran teorian välille ero. 108
Ulkoinen häiriö Tarkastellaan ensin tapausta, jossa ulkoiset häiriöt ε ovat additiivisia ja riippumattomia tuntemattomasta X. Merkitään Y = F (X) + ε, missä F : R n R m on jatkuva suora teoria ja satunnaisvektorilla ε on todennäköisyystiheysfunktio f ε. Satunnaisvektorin Y = F (X) + ε ehdollinen todennäköisyystiheysfunktio, kun X = x on annettu on Esimerkin 45 perusteella muotoa y f Y (y X = x) = f ε+f (x) (y) = f ε (y F (x)), (4.9) Oikealla havainnekuva häiriön ε todennäköisyystiheysfunktiosta muuttujan y funktiona y f ε (y) ja sen translaatio y f ε (y F (x)) suoran teorian arvolla F (x) = 5 yksiulotteisessa tapauksessa. Kun satunnaisvektorista Y on annettu otos y 0, niin uskottavuusfunktio on x f Y (y 0 X = x) = f ε (y 0 F (x)). Seuraavaksi tarkastellaan esimerkkejä uskottavuusfunktioista, jotka valottavat uskottavuusfunktion ja ehdollisen todennä- Kuva 4.9: köisyystiheysfunktion eroa, joka syntyy eri muutujien kiinnittämisistä. Esimerkki 47 (Suora teoria : R 2 R). Olkoon M 1 2 = (3 1) ja olkoot R 2 -arvoinen satunnaisvektori X = (X 1, X 2 ) ja satunnaismuuttuja ε N(0, 1) riippumattomia. Merkitään ( ) X1 Y = MX + ε = (3 1) + ε = 3X 1 + X 2 + ε, X 2 josta on saatu otos y 0 = 2. Silloin ehdollinen tntf f Y (y X = x) = f ε (y Mx) = 1 exp ( 12 ) y 2π Mx 2 = 1 exp ( 12 ) (y 3x 1 x 2 ) 2, 2π missä x = (x 1, x 2 ) R 2 on kiinnitetty (kuvassa 4.9 on f Y (y X = (0, 0)) sinisellä ja f Y (y X = (2, 1)) punaisella). Vastaavasti uskottavuusfunktio x = (x 1, x 2 ) f Y (y 0 X = x) = f ε (y 0 Mx) = f ε (2 3x 1 + x 2 ) = = 1 exp ( 12 ) (2 3x 1 x 2 ) 2, 2π jonka kuvaaja on alla. Myös seuraavissa esimerkeissä on kirjoitettu useita laskujen välivaiheita esille selvyyden vuoksi. 109
Kuva 4.10: Uskottavuusfunktio (x 1, x 2 ) f ε (2 3x 1 + x 2 ) korkeuskäyränä ja kuvana Esimerkki 48 (Suora teoria: R 2 R 2 ). Olkoon suora teoria ( ) 1 2 R 2 x Mx R 2, missä M = ja satunnaisvektorin Y otos on y 1 2 0 = (1, 1) Mallinnetaan dataa satunnaisvektorilla Y = M X + ε. Häiriöstä ε tiedetään, että se on riippumaton tuntemattomasta ja noudattaa multinormaalijakaumaa N(0, 2I). Häiriön tntf on ( 1 f ε (y) = exp 1 ( ) 1 2 0 y) (2π) 2 2 0 2 yt = 1 ( 0 2 4π exp 14 ) y 2. 0 2 Uskottavuusfunktio on 7 kaikilla x = (x 1, x 2 ) R 2 f Y (y 0 X = x) = f ε (y 0 Mx) = 1 ( 4π exp 14 ) y 0 Mx 2 = 1 ( 4π exp 1 ) 4 ((1 x 1 2x 2 ) 2 + (1 + x 1 + 2x 2 ) 2 ) ( ) 2 1 Esimerkki 49 (Häiriön varianssin vaikutus). Olkoon M 2 2 = ja olkoot R 3 1 2 - arvoiset satunnaisvektorit X = (X 1, X 2 ) ja ε = (ε 1, ε 2 ) N(0, δi), δ > 0 riippumattomia. Merkitään ( ) ( ) ( ) ( ) 2 1 X1 ε1 2X1 + X Y = MX + ε = + = 2 + ε 1 3 1 X 2 ε 2 3X 1 + X 2 + ε 2 7 y 0 Mx = ( ( ) ( ) ( ) 1 1 2 x1 1 x1 2x = 2 1) 1 2 x 2 1 + x 1 + 2x 2 110
Kuva 4.11: Uskottavuusfunktio x f Y (1, 1 X = x) ei ole yksinään todennäköisyystiheysfunktio avaruudessa R 2. Kuva 4.12: Uskottavuusfunktio muuttuu, kun annetun datan y 0 arvo muuttuu: Uskottavuusfunktio x f Y ( 4, 4 X = x). 111
Kuva 4.13: Normittamaton posterioritntf f post (x) = cf Y (1, 1 X = x)f pr (x), kun prioritntf f pr (x) = 1 6 1 [ 1,2] [ 1,1](x). Kuva 4.14: Normittamaton posterioritntf f post (x) = cf Y (1, 1 X = x)f pr (x), kun prioritntf f pr (x) = 1 2π exp ( 1 2 x 2). 112
josta on saatu otos y 0 = (1, 0). Silloin ehdollinen tntf ( 1 f Y (y X = x) = f ε (y Mx) = exp (2π) 2 δ 0 0 δ ( 12δ ) y Mx 2, = 1 2πδ exp 1 2 (y Mx)T ( δ 0 0 δ ) 1 (y Mx)) missä x R 2 on kiinnitetty. Vastaavasti uskottavuusfunktio ( x = (x 1, x 2 ) f Y (y 0 X = x) = f Y (1, 0 X = x) = 1 2πδ exp 1 ( ) ( ) ( ) ) 1 2 1 x1 2 2δ 0 3 1 x 2 = 1 ( 2πδ exp 1 ) 2δ ((1 2x 1 x 2 ) 2 + (3x 1 + x 2 ) 2 ), jonka kuvaaja on alla. Kuva 4.15: Uskottavuusfunktio (x 1, x 2 ) f ε ((1, 0) Mx). Vasemmalla häiriön varianssin arvo δ = 8, keskellä δ = 2 ja oikealla δ = 0.5. Uskottavuusfunktio muuttuu korkeammaksi ja kapeammaksi, kun δ pienenee. Esimerkki 50 (Tietokonekerroskuvaus). Tuntematonta massa-absorptiokerrrointa f = f(x, y ) approksimoidaan lineaariyhdisteellä f(x, y ) = n x j φ j (x, y ), x, y R 2 j=1 missä x = (x 1,..., x n ) R n sisältää tuntemattomat kertoimet ja funktiot φ j ovat tunnettuja. Mitattua häiriöistä dataa voidaan (karkeasti) mallintaa vektorilla y = (y 1,..., y m ), jonka komponentit ovat n ( ) y i = fds + ε i = φ j ds x i + ε i = (Mx) i + ε i, C i C i j=1 missä i = 1,...,, m ja satunnaisvektorin ε jakauma on N(0, δi). Tällöin päädytään tilastolliseen inversio-ongelmaan Y = MX + ε. 113
Kun oletetaan, että X ja ε ovat riippumattomia, niin uskottavuusfunktio on 1 f Y (y 0 X = x) = e 1 (2πδ) n 2δ y 0 Mx 2 kaikilla x R n. 2 Mallinnusvirhe Seuraavaksi sallitaan myös suoran teorian mallinnusvirheitä ja tuntemattoman approksimaatioita. Oletetaan yksinkertaisuuden vuoksi, että kaikki tntf:t ovat jatkuvia. Lause 21. Olkoon Y m-ulotteinen sv, X n-ulotteinen sv ja U k-ulotteinen sv, siten, että yhteistntf f (X,U) on positiivinen ja ehdolliset tntf f Y (y (X, U) = (x, u)) ja f U (u X = x), on annettu. Silloin ehdollinen tntf f Y (y X = x) = f Y (y (X, U) = (x, u))f U (u X = x)du. R k kun f X (x) > 0. Todistus. Meidän tulee määrätä f Y (y X = x) = f (X,Y )(x, y). f X (x) Selvästi f (X,Y ) (x, y) = f (X,Y,U) (x, y, u)du, R k missä integrandi voidaan määrätä oletuksien perusteella Bayesin kaavalla (Lause 20). Silloin f (X,Y,U)(x, y, u) f (X,U) (x, u) f Y (y X = x) = du. R f k (X,U) (x, u) f X (x) Esimerkki 51. (Approksimaatiovirhe) Tarkastellaan tilastollista inversio-ongelmaa Y = F (X) + ε, missä tuntematon sv X ja häiriö ε ovat riippumattmia. Laskennallisista syistä korkeaulotteista tuntematonta X approksimoidaan matalaulotteisimmilla vektoreilla. Otetaan approksimaatioksi tuntemattoman sv X ortogonaalinen projektio X n = P n X jollekin n-ulotteiselle aliavaruudelle missä n < N (ja myös m < N) Voimme esittää suoran teorian muodossa jolloin data toteuttaa yhtälön F (X) = F (X n ) + (F (X) F (X n )) =: F (X n ) + U, Y = F (X) + ε = F (X n ) + U + ε. Voimme kirjoittaa Lauseen 21 oletuksilla uskottavuusfunktion laskennallisesti edullisemmalle tuntemattomalle X n muodossa f Y (y X n = x) = f U (u X n = x)f ε (y F (x) u)du, (4.10) R m 114
edellyttäen, että f U (u X n = x) on saatavilla. Integraali (4.10) on usein työläs käsiteltävä. Eräs approksimaatio on korvata U samoin jakautuneella satunnaismuuttujalla Ũ, joka on riippumaton satunnaisvektorista X. Kun priorijakauma on annettu, niin m-ulotteisen satunnaisvektorin Ũ + ε jakauma on mahdollista määrätä. Tällöin ehdollinen tntf saa muodon f Y (y X n = x) = f ε+ Ũ (y F (x)). Esimerkki 52. (Suoran teorian epätarkkuus) Olkoon suora teoria F : R n R m lineaarinen kuvaus, jonka matriisi M = M σ riippuu jatkuvasti parametrista σ R, jota ei tunneta tarkasti. Kuvan terävöittämisesimerkin (Luku 1.2) sumentamiskuvauksessa m kl = C kl n e ( k i 2 /n 2 + l j 2 /n 2 )/2σ 2 m ij i,j=1 on tällainen parametri. Tällöin tuntematonta parametria mallinnetaan tilastollisesti. Asetetaan parametrille σ todennäköisyysjakauma siten, että σ, X ja ε ovat keskenään riippumattomia. Tällöin Y = M σ X + ε = G(σ, X, ε) on satunnaisvektori, sillä kuvaus on jatkuva. Erityisesti Lauseen 19 nojalla G : R R n R m (s, x, z) M σ x + z f Y (y (X, σ) = (x, s)) = f G(s,x,ε) (y) = f ε (y M s x). Lauseen 21 oletuksilla f Y (y X = x) = f ε (y M s x)f σ (s)ds. R m 4.2.3 Priori f pr (x) Prioritntf edustaa tuntemattomasta saatavilla olevaa etukäteistietoa ja kuvailee myös käsityksemme tiedon puutteesta. Voimme kysyä, kuinka prioritntf muodostetaan etukäteistiedon perusteella? Oletetaan, että tuntematon vektori x R n kuvaa funktion g arvoja esimerkiksi joissakin neliön [0, 1] [0, 1] pisteissä eli missä t i [0, 1] [0, 1] kun i = 1,..., n. x i = g(t i ), Mahdollista prioritietoa: 115
Funktio g Vektori x Funktion g jotkin arvot. Vektorin x jotkin komponentit Esim. reuna-arvot tunnetaan tarkasti x i tunnetaan tarkasti tai tai epätarkasti. epätarkasti. Funktion g sileys. Vektorin x naapurikomponenttien käytös. Funktion g arvojoukko. Vektorin x komponenttien x i arvojoukko. Esim g 0, monotonisuus Esim. x i 0, x i x i+1 Funktion g symmetriaominaisuudet. Vektorin x symmetriaominaisuudet. Muut funktiota g sitovat yhtälöt. Vektorin komponentteja sitovat muut Esim. jos g : R 3 R 3 on yhtälöt. magneettikenttä, niin g 0. Mahdollisia tilastollisia malleja: Tuntematon vektori x R n Tuntemattoman tilastollinen malli X : Ω R n Vektorin x komponentit X i = m i + Z i, missä sv. Z i jakauma kuvaa x i tunnetaan arvon m i epätarkkuutta epätarkasti. Vektorin x virittäjävektorit tunnetaan. X = n i=1 Z ie i Esim. x = n i=1 a ie i, n n. missä sm:n Z i jakauma edustaa kertoimiin liittyvää epävarmuutta. Esim. f Zi = f Zj kun i j. Vektorin x naapurikomponenttien käytös. Satunnaisvektorin X naapurikomponenttien riiippuvuus. Satunnaisvektorin X naapurikomponenttien yhteisjakaumat Vektorin x komponenttien x i arvojoukko. Esim. X i = X i. Esim. x i 0 4.3 Erilaisia priorijakaumia Olkoon X : Ω R n satunnaisvektori, joka mallintaa inversio-ongelman tuntematonta vektoria. Merkitään funktiolla f pr : R n [0, ) satunnaisvektorinx tntf. Tarkastellaan muutamia vaihtoehtoja. 4.3.1 Tasainen jakauma Olkoon B R n suljettu ja rajoitettu suorakulmainen särmiö B = {x R n : a i x i b i, i = 1,.., n}, missä a i < b i kun i = 1,.., n. Satunnaisvektorilla X on tasainen jakauma joukossa B jos f pr (x) = 1 B 1 B(x), missä C := C dx on integraali yli suorakulmaisen särmiön C Rn. 116
Tiedetään varmasti, että tuntematon kuuluu joukkoon B ja tuntemattoman i:s komponentti kuuluu välille [a i, b i ]. Kun B on suorakulmainen särmiö, niin satunnaisvektorin X eri komponentit ovat riippumattomia.. Tasainen priorijakauma ilmaisee lähes täydellistä epävarmuutta tuntemattoman vektorin komponenttien arvoista joukossa B: tiedämme että tuntematon kuuluu joukkoon B. Piste. Joukon B on oltava rajoitettu, jotta f pr on tntf. Posteriorijakauman tntf f post (x) = f Y (y 0 X = x)1 B (x) f Y (y) B on joukkoon B rajoitettu ja uudelleen normitettu uskottavuusfunktio. 4.3.2 L2-priori Satunnaisvektorilla X = (X 1,..., X n ) on L2-priori, jos f pr (x) = ( α π ) n 2 e α x 2, x R n Komponentit X k, k = 1,..., n ovat toisistaan riippumattomia ja normaalijakautuneita. Komponentin X k, 1 k n priorijakauma on symmetrinen: negatiiviset ja positiiviset arvot ovat yhtä todennäköisiä. Parametrin α valinta perustuu siihen kuinka varmasti uskomme tuntematoman komponenttien saavan suurehkoja arvoja. Mitä suurempi α, sitä epätodennäköisenpiä suurehkot arvot ovat. On mahdollista määritellä myös L2-priori odotusarvolla m R n (Harjoitustehtävä) 117
0.8 0.7 alpha=0.5 alpha=1 alpha=2 0.6 0.5 0.4 0.3 0.2 0.1 0 10 8 6 4 2 0 2 4 6 8 10 Kuva 4.16: 1-ulotteisen L2-priorin tntf. Kuva 4.17: Satunnaisvektorin X = (X 1, X 2, X 3 ) L2-priori. Punaisella on merkitty yksi otos (x 1, x 2, x 3 ) satunnaisvektorista X. 4.3.3 L1-priori 118
1 0.9 0.8 alpha=0.5 alpha=1 alpha=2 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 10 8 6 4 2 0 2 4 6 8 10 Kuva 4.18: 1-ulotteisen L1-jakauman tntf. Palautetaan mieleen, että L1-normi x 1 = n x i, kun x R n. Satunnaisvektorilla X = (X 1,..., X n ) on L1-priori, jos ( α ) n f pr (x) = e α x 1, kaikilla x R n. 2 Komponentit X k, k = 1,..., n ovat keskenään riippumattomia. i=1 Tntf f Xk, 1 k n, on symmetrinen origon suhteen (jolloin prioriodotusarvo on nollavektori). Parametrin α valinta perustuu siihen kuinka varmasti uskomme tuntematoman komponenttien saavan suurehkoja arvoja. Mitä suurempi α, sitä epätodennäköisenpia suurehkot arvot ovat. 4.3.4 Cauchy-priori Satunnaisvektorilla X = (X 1,..., X n ) on Cauchy-priori jos kun x R n. ( α ) n n 1 f pr (x) = π 1 + α 2 x 2 i 119 i=1
0.7 0.6 alpha=0.5 alpha=1 alpha=2 0.5 0.4 0.3 0.2 0.1 0 10 8 6 4 2 0 2 4 6 8 10 Kuva 4.19: Cauchy-priorin tntf. Komponentit X k, k = 1,..., n ovat riippumattomia. Tntf f Xk, 1 k n on symmetrinen origon suhteen Ei odotusarvoa (suuret häntätodennäköisyydet). Kuvaa parhaiten tilannetta, jossa suurin osa komponenttien arvoista on lähellä nollaa, mutta joukossa on muutamia suurehkoja arvoja. 4.3.5 Positiivisuusrajoitus Jos tiedetään, että tuntemattoman X = (X 1,..., X n ) komponentit X k ovat ei-negatiisia, niin 1. Käytetään rajoitettua ja uudelleen normitettua tntf:ta f pr (x) = cf + (x)f X (x) missä f + (x) = { 1, x i 0 i = 1,.., n 0 muulloin. 2. Käytetään sopivaa positiivisuusmuunnosta tunnetusta satunnaismuutujasta, kuten X k = exp(x k) kaikilla k = 1,..., n. tai X k = X k kaikilla k = 1,..., n. 120