Luku 4 Tilastolliset inversio-ongelmat Tilastollisen inversio-ongelman ratkaisu ei niinkään vastaa kysymykseen "mikä tuntematon vektori x 0 on"vaan pikemminkin kysymykseen "mitä tiedämme tuntemattomasta vektorista x 0 ". Maallikkotermejä käyttäen inversio-ongelmassa pyritään päättelemään seurauksista syihin Samaan tapaan ilmaistuna tilastollisessa inversio-ongelmassa pyritään arvioimaan syiden x 0 todennäköisyyksiä kun arvon y = F (x 0 ) + ε lisäksi tunnetaan epätarkkojen seurausten y todennäköisyydet. Tämän luvun päämäärä on ymmärtää tilastollisten inversio-ongelmien ratkaisuperiaate. Luvussa 5.1. kerrataan inversio-ongelmien kannalta tärkeitä todennäköisyyslaskennan käsitteitä (alla sinisellä tekstillä) ja moniulotteisia integraaleja, joiden avulla lasketaan tuntemattoman todennököisyyksiä. Luvussa 5.2. ryhdytään tarkastelemaan tilastollisia inversio-ongelmia. (Äärellisulotteisen) tilastollisen inversio-ongelman ratkaisuperiaate: 1. Dataa ja tuntematona mallinnetaan satunnaisvektoreina Y = (Y 1,..., Y m ) ja X = (X 1,, X n ). 2. Datan annettu arvo y R m on otos (näyte) satunnaisvektorista Y. 3. Tuntemattoman jakaumaa nimitetään priorijakaumaksi. Se edustaa tietoa tuntemattoman arvoista. 4. Tilastollisen inversio-ongelman ratkaisu on posteriorijakauma. Posteriorijakauma on X:n jakauma ehdolla Y = y ja sen todennäköisyystiheysfunktio (tntf) on f(x y) = cf(y x)f pr (x) (ayesin kaava) missä f(y x) on satunnaisvektorin Y tntf ehdolla X = x, f pr (x) on tuntematton priorijakauman tntf ja c > 0 on normitusvakio. 79
Huomautus 17. Sana priori viittaa aikaan, jolloin mittaushavaintoa y satunnaisvektorin Y arvosta ei ole vielä tehty. Sana posteriori viittaa aikaan, jolloin mittaushavainto Y = y on käytettävissä. Esimerkki 31. Mitä tarkoittaa, että todennäköisyysjakauma edustaa tietoa tuntemattomasta? Tarkastellaan kahta yksinkertaista tapausta: (a) Olkoon tuntematon luku X huomisen keskipäivän lämpötila. Tänään emme voi varmasti tietää huomisen lämpötilaa, mutta olemassaolevan tiedon perusteella X:lle on annettu todennäköisyysjakauma, jonka tntf on f(x). Alla on esimerkkejä funktiosta f. f 0.0 0.1 0.2 0.3 0.4 10 5 0 5 10 Temperature Kuva 4.1: Tntf:n f kuvaaja: Lämpötilat välillä [ 10, 0] näyttävät epätodennäköisiltä. Samoin lämpötilat välillä [+5,+10] Lämpötila +2 näyttäisi todennäköisimmältä. Tntf näyttää, että uskomme huomisen keskipäivän lämpotilan olevan +2 asteen kieppeillä. (b) Olkoon tuntematon X = (X 1, X 2 ), missä X 1 ja X 2 ovat samassa tasossa planeettojen kanssa kulkevan asteroidin elliptisen radan x2 + y2 = 1 parametrit. Olkoon X:n X1 2 X2 2 tntf f(x) = f(x 1, x 2 ). Samoin voidaan asettaa korkeaulotteisia todennäköisyysjakaumia äärellisulotteisten inversio-ongelmien tuntemattomille, kuten kuvan terävöittämisessä pikselien väriarvoille, tietokonetomografiassa massa-absorptiokertoimen äärellisulotteisille approksimaatioille ja impedanssitomografiassa johtavuuden äärellisulotteisille approksimaatioille. Huomautus 18. Tilastollisissa inversio-ongemissa käsitellään usein korkeaulotteisia satunnaisvektoreita. Moniulotteisten satunnaisvektorien jakaumien visualisointi tehdään usein koordinaatti tai koordinaattipari kerrallaan tai jakauman tunnuslukuja käyttäen. 80
f 0.02 0.04 0.06 0.08 10 5 0 5 10 Temperature Kuva 4.2: Tntf:n f kuvaaja: Lämpötilat välillä [5, 10] näyttävät epätodennäköisiltä. Lämpötila -2 näyttäisi todennäköisimmältä, mutta jakauma on leveä. Tämä heijastaa epävarmuutta seuraavan keskipäivän lämpötilasta. f 0.00 0.05 0.10 0.15 0.20 10 5 0 5 10 Temperature Kuva 4.3: Tntf:n f kuvaaja: Lämpötilat välillä [ 10, 5] sekä [5, 10] näyttävät epätodennäköisiltä. Lämpötilat +2 näyttää todennäköisimmältä, mutta myös -2 on melko todennäköinen. Tämä heijastaa epävarmuutta seuraavan keskipäivän lämpötilasta. Lämpötila on luultavimmin +2:n, mutta ehkä myös -2:n kieppeillä. 81
z f(x1,x2) 0.15 0.10 0.05 0.00 4 6 8 x1 10 12 14 16 2 4 6 12 10 8 x2 Kuva 4.4: Tntf:n f kuvaaja: kahden muuttujan funktion f = f(x 1, x 2 ) arvot esitetään korkeuden avulla avulla. Arvo f(10, 5) on koordinaateissa x 1 = 10, x 2 = 5 olevia parametreja X 1 = 10 ja X 2 = 5 vastaava arvo. Tuntemattoman arvot ovat todennäköisimmin lähellä arvoa (10,5). Sen sijaan esimerkiksi pistettä (6,4) lähellä olevat arvot näyttävät epätodennäköisiltä. 4.1 Todennäköisyyslaskennasta Kertaamme todennäköisyyslaskennan perusteet ennen kuin ryhdymme käsittelemään tilastollisia inversio-ongelmia Tilastollisille inversio-ongelmille tärkeitä käsitteitä ovat mm. satunnaisvektori riippumattomuus tiheysfunktio, odotusarvot (mm. varianssi). ehdolliset jakaumat, ayesin kaava Todennäköisyyslaskennan mittateoreettiset perusteet Olkoon Ω perusjoukko, jonka alkiota ω Ω nimitetään alkeistapahtumia. Olkoon Σ kokoelma perusjoukon joukkoja joka muodostaa σ-algebran eli 1. Ω Σ 2. Jos A Σ, niin A C Σ. 3. Jos A i Σ kun i N, niin i=1a i Σ. Joukkoja A, Σ nimitetään tapahtumiksi (eng. event). Tapahtumien yhdiste A tarkoittaa että joko tapahtuma A tai sattuu (tai molemmat). 82
Kuva 4.5: Sinisellä todennäköinen rata x2 x 2 + y2 = 1 4 2 6 2 10 2 + y2 5 2 = 1. Oranssilla epätodennäköinen rata 6 4 2 0-2 -4-6 -8-6 -4-2 0 2 4 6 8 10 Joukkojen leikkaus A tarkoittaa että molemmat tapahtumat sattuvat. Joukon komplementti A C = Ω\A tarkoittaa, että tapahtuma A ei satu. Määritelmä 15. Olkoon Ω joukko ja Σ sen jokin σ-algebra. Kuvaus P : Σ [0, 1] on todennäköisyysmitta (eng. probability measure), jos 1. P (Ω) = 1 2. Jos joukot A i Σ, i N, ovat sellaisia että A i A j = kaikiilla i j, niin P ( i=1a i ) = i=1 P (A i) (täysadditiivisuus). 83
Lukua P (A) kutsutaan tapahtuman A todennäköisyydeksi. Määritelmä 16. Kaksi tapahtumaa A ja Σ ovat riippumattomia (eng. independent/statistically independent), jos P (A ) = P (A)P (). Satunnaisvektori Olkoon (Ω, Σ, P ) todennäköisyysavaruus. Avaruuden R n orel-joukkojen luokka on pienin sigma-algebra (R n ) joka sisältää avoimet joukot. Määritelmä 17. Satunnaismuuttuja (eng. random variable) X on kuvaus X : Ω R, jolle orel-joukkojen alkukuvat ovat tapahtumia eli X 1 () Σ kun (R). Satunnaismuuttujan X jakauma (eng. distribution) on kuvaus (R) P (X ). Satunnaisvektori (eng. random vector) X = (X 1,..., X n ) on kuvaus X : Ω R n, jolle avaruuden R n orel-joukkojen alkukuvat ovat tapahtumia eli X 1 () Σ kun (R n ). Satunnaisvektorin X jakauma on kuvaus (R n ) P (X ). Huomautus 19. 1) Merkintätapa: P (X A) = P (X 1 (A)) = P ({ω Ω : X(ω) A}). 2) Satunnaisvektori on matemaattinen käsite, joka sallii todennäköisyysjakauman määrittelemisen. orel-joukot taas sallivat integroinnin määrittelemissen todennäköisyysjakauman suhteen (jos yritettäisiin määritellä integraalia, joka sallisi integroinnin yli minkä tahansa avaruuden osajoukon, osa integraalin intuitiivisistä ominaisuuksista menisi rikki). Sivuutamme seuraavan lauseen todistuksen, joka voidaan osoittaa avaruuden R n oreljoukkojen ominaisuuksien avulla (erit. orel-joukkojen generointi hyperkuutioiden avulla). Lause 14. Kuvaus X : Ω R n on satunnaisvektori jos ja vain jos kuvauksen X = (X 1,..., X n ) komponentit X i, i = 1,..., n ovat satunnaismuuttujia. Määritelmä 18. Kaksi satunnaisvektoria X : Ω R n ja Y : Ω R m ovat riippumattomia (eng. independent/statistically independent), jos P (X A Y ) = P (X A)P (Y ) kaikilla orel-joukoilla A (R n ) ja (R m ). 84
Miksi tarvitaan mittateoriaa? 1900-luvun alkaessa todennäköisyyslaskentaa ei pidetty matematiikan aitona osaalueena, sillä todennäköisyyslaskennalla ei ollut aksiomaattista pohjaa. Hilbertin kuuluisista 23:sta ongelmasta kuudes vaati todennäköisyyslaskennan aksiomatisointia seuraavin sanoin: 6. Mathematical Treatment of the Axioms of Physics. The investigations on the foundations of geometry suggest the problem: To treat in the same manner, by means of axioms, those physical sciences in which already today mathematics plays an important part; in the first rank are the theory of probabilities and mechanics. Todennäköisyyslaskennan aksiomatisointi onnistui abstraktin mittateorian ja integraalilaskennan kehittämisen avulla 1920-luvun lopussa. Todennäköisyyslaskennan aksioomien isä on A. N. Kolmogorov (1903-1987). Tämä on ainoa konsistentti tapa, jolla todennäköisyyslaskentaa on kyetty käsittelemään. Matemaattisina objekteina satunnaismuuttujat ja satunnaisvektorit ovat funktioita; niissä itsessään ei ole mitään satunnaista, ei mitään satunnaisuutta aiheuttavaa mekanismia eikä keinoa generoida satunnaislukuja. Tämä voi vaikuttaa hieman oudolta......että satunnaisia ilmiöitä käsitellään ilman minkäänlaista satunnaisuutta...? Kolmogorovin aksioamatisoinnissa satunnaisilmiötä ei pyritä selittämään kokonaan! Ajatellaan esimerkiksi, että satunnainen ilmiö tuottaa reaaliluvun (vaikka hissin saapumisaika napin painalluksen jälkeen), jota mallinnetaan matemaattisesti satunnaismuuttujan X avulla. Satunnaismuuttujan mahdollisten arvojen tiedetään olevan reaalilukuja, mutta emme tiedä etukäteen tarkasti minkä arvon satunnaismuuttuja tulee saamaan. Tieto satunnaismuuttujan toteutuvasta arvosta on epätäydellistä. Kun hissi saapuu hetkellä x 0, on luku x 0 otos eli näyte satunnaismuuttujasta X. Tämä tarkoittaa, että x 0 = X(ω 0 ) jollakin ω 0 Ω. Matematiikka ei kerra kuinka satunnaismuuttujasta on saatu näyte X(ω 0 ). Alkeistapahtuman ω 0 valintamekanismi on tuntematon. Vaikka funktio X, joukko Ω ja todenäköisyys P on tiedossa, emme sen perusteella pysty etukäteen sanomaan satunnaismuuttujan toteutuvasta arvosta sen enempää kuin mitä jakauma P (X ), kun (R) paljastaa. Moniulotteinen Riemann-integraali Todennäköisyyslaskenta toimii luentevimmin Lebesgue n integraalin (jota ei kuulu tämän kurssin esitietoihin) kanssa. Tällä kurssilla käytämme Riemann-integraalia. Kerrataan moniulotteisen Riemann-integroinnin periaatteet (kirjallisuutta: Apostol: Calculus (vol II), Lang: Analysis I, Apostol: Mathematical Analysis). Olkoon R n n-ulotteinen suorakulmainen särmiö = {x = (x 1,..., x n ) R n : a i x i b i, i = 1,..., n} 85
missä a i, b i R ja a i < b i. Merkitään särmiö sisäpisteiden joukkoa Int(). Määritelmä 19. Funktiota f : R kutsutaan porrasfunktioksi, jos särmiö voidaan jakaa suorakulmaisiin särmiöihin i, i = 1,..m siten että löytyy luvut c i R joilla kun x Int( i ), i = 1,..., m. f(x) = c i, Määritelmä 20. Määritelmän 19 porrasfunktion f : R integraali yli joukon on m f(x)dx := c i Vol( i ) missä Vol( i ) on särmiön tilavuus i=1 i = {x = (x 1,..., x n ) R n : a (i) j Vol( i ) = n (b (i) j j=1 x j b (i) j, j = 1,.., n} a (i) j ). Määritelmä 21. Olkoon f : R rajoitettu funktio. Jos on olemassa vain yksi luku I R, jolle s(x)dx I S(x)dx jokaisella porrasfunktiolla s : R, jolla s f, ja jokaisella porrasfunktiolla S : R, jolla f S, niin sanotaan, että f on Riemann-integroituva (yli joukon ) ja merkitään f(x)dx = I. Olkoon K() kaikkien porrasfunktioiden f : R joukko. Lause 15. Rajoitettu funktio f : R on Riemann-integroituva jos ja vain jos s(x)dx = I = S(x)dx jolloin Todistus. Sivuutetaan. sup s K() s f inf S K() f S f(x)dx = I. Lause 16 (Fubinin lause Riemann-integroituville funktioille). Olkoon R n ja C R m kompakteja suorakulmaisia särmiöitä. Olkoon f : C R integroituva funktio, jolla f(x, y)dy C on olemassa jokaisella x. Silloin funktio x f(x, y)dy on integroituva ja C ( ) f(x, y)dy dx = f(z)dz. C 86 C
Todistus. Sivuutetaan. Fubinin lauseen nojalla moniulotteinen integraali voidaan laskea yksiulotteisten integraalien iteraationa eli esim kun n = 3, niin b 3 ( b2 ( b1 ) ) f(x)dx = f(x 1, x 2, x 3 )dx 1 dx 2 dx 3, x 1 =a 1 x 3 =a 3 x 2 =a 2 kunhan kaikki integraalit ovat määriteltyjä. Lisäksi integroimisjärjestystä voi vaihtaa. Integraali yli koko avaruuden R n määritellään epäoleellisena integraalina (eli rajaarvona integraaleista yli kasvavien osajoukkojen). Jos f on ei-negatiivinen, Fubinin lause on edelleen totta kun = R n ja C = R m sillä ei-vähenevien lukujen raja on joko rajoitettu tai +. Jos f saa myös negatiivisia arvoja, ilmaistaan f muodossa f = f + f, missä f +, f 0, ja pyritään laskemaan integraali epäoleellisten integraalien erotuksena f(x)dx = f + (x)dx f (x)dx, mikäli mahdollista. Muuttujanvaihto x = H(y) moniulotteisessa integraalissa tehdään Jakobin determinantin avulla. Jos f : R n R on jatkuva funktio, U R n avoin kuutio ja H : U R n injektiivinen C 1 -funktio, jonka Jakobin matriisin determinantti ei häviä, niin f(x)dx = H() (JH(y)) ij = H i y j (y), i, j = 1,..., n. kaikilla avoimilla tai suljetuilla kuutioilla U. Tiheysfunktiot f(h(y)) det(jh(y)) dy, Määritelmä 22. Todennäköisyystiheysfunktio (lyh, tntf. eng. probability density function) f : R n [0, ) on integroituva funktio, jolle R n f(x)dx = 1. Esimerkki 32. Olkoon Silloin f(x) = 1 f(x)dx = [ 1,1] 2 dx = 1 n n 2 n { 1 2 n, x [ 1, 1] n 0, x [ 1, 1] n. [ 1,1] n dx Fubini 87 = 1 ( 1 n dx) = 1. 2 n 1
Esimerkki 33. Olkoon Silloin f(x)dx = = f(x) = 1 e 1 (2π) n 2 x 2. 2 1 (2π) n 2 1 (2π) n 2 e 1 2 x 2 dx = 1 (2π) n 2 e 1 2 x 2 dx e 1 2 (x2 1 + +x2 n) dx 1 dx n Fubini = 1 Määritelmä 23. Olkoon (Ω, Σ, P ) todennäköisyysavaruus. Satunnaismuuttujalla X : Ω R sanotaan olevan tntf f X, jos f X : R [0, ) on sellainen tntf, että kaikilla a, b R, a b. P (a X b) = b a f X (x)dx Määritelmä 24. Olkoon (Ω, Σ, P ) todennäköisyysavaruus Satunnaisvektorilla X = (X 1,..., X n ) : Ω R n sanotaan olevan tntf f X, jos f X : R n [0, ) on sellainen tntf, että P (a i X i b i, i = 1,..n) = b1 a 1 bn a n f X (x 1,..., x n )dx 1 dx n. kaikilla a i, b i R, a i b i, i = 1,..n. Tntf:ta f X kutsutaan satunnaismuuttujien X 1,..., X n yhteistodennäköisyystiheysfunktioksi. Määritelmä 25. Funktiota R x i f Xi (x i ) = x 1 = x i 1 = x i+1 = f X (x 1,..., x n )dx 1 dx i 1 dx i+1 dx n x n= kutsutaan satunnaismuuttujan X i reunatodennäköisyystiheysfunktioksi (tai marginaalitntf). Satunnaisvektorin tntf on työkalu, jolla satunnaisvektorin jakauman arvoja P (X ) voidaan laskea. Tällä työkalulla on kuitenkin rajoitteita. Kaikilla satunnaisvektoreilla ei ole tntf. Tntf ei ole yksikäsitteinen. Esimerkki 34 (Jakauma ilman tntf:ta). Olkoon X satunnaismuuttuja jolla on tntf f X : R [0, ). Näytetään, että satunnaisvektorilla (X, X) ei ole tntf:ta: Vastaoletus: oletetaan että satunnaisvektorilla (X, X) olisi tntf f (X,X) (x, y). Merkitään = {(x, y) R n R n : x y} 88
(on orel-joukko, jonka indikaattorifunktio 1 (x, y) on Riemann-integroituva). Silloin jakauma antaa joukolle todennäköisyyden P ((X, X) ) = 0 koska (X, X) /. Tntf:n olemassaolosta seuraisi, että 0 = P ((X, X) ) = f (X,X) (x, y)dxdy ( x ) Fubini = x= f (X,X) (x, y)dy + y= y=x mikä on mahdotonta. Täten sv:lla (X, X) ei ole tntf:ta. f (X,X) (x, y)dy dx = 1, Esimerkki 35 (Tntf epäyksikäsitteisyys). Olkoon X : Ω R n satunnaismuuttuja, jolla on tntf Tällöin jokaisella a < b pätee Siis myös P (x [a, b]) = f X (x) = 1 [0,1] (x). (4.1) b a 1 [0,1] (x)dx = f X (x) = 1 (0,1) (x) b a 1 (0,1) (x)dx. on sm:n X tntf. Selvästi fx f X. Tämä yleistyy helposti n-ulotteiseen tapaukseen, kun merkitään X = (X 1,..., X n ), missä satunnaismuuttujat X i ovat riippumattomia satunnaismuuttujia, joiden tntf on annettu kaavalla (4.1). Silloin ja määrittelevät saman jakauman. f X (x 1,..., x n ) = 1 [0,1] n(x 1,..., x n ) f X (x 1,..., x n ) = 1 (0,1) n(x 1,..., x n ) Määritelmä 26. Olkoon X : Ω R n satunnaisvektori. Eri todennäköisyystiheysfunktioita f : R n [0, ), joilla P (X ) = f X (x)dx kaikilla suorakulmaisilla särmiöillä R n, nimitetään satunnaisvektorin X tntf:n versioiksi. Huomautus 20. Olkoon X sellainen n-ulotteinen ja Y sellainen m-ulotteinen satunnaisvektori, että satunnaisvektorilla (X, Y ) on (yhteis)tntf f (X,Y ) (x, y). Kun reunatntf f X (x) = f (X,Y ) (x, y)dy on olemassa, niin se on versio sv:n X tntf:sta, sillä P (X ) = P (X Y R m ) = P ((X, Y ) R m ) = f (X,Y ) (x, y)dxdy = f X (x)dx R m jokaisella suorakulmaisella särmiöllä R n. 89