Inversio-ongelmien laskennallinen peruskurssi Luento 7 Kevät 2012 1 Tilastolliset inversio-ongelmat Tilastollinen ionversio perustuu seuraaviin periaatteisiin: 1. Kaikki mallissa olevat muuttujat mallinnetaan satunnaismuuttujilla. 2. Niiden realisaatioiden satunnaisuus kuvaa tiedon astetta (degree of information). 3. Tämä tiedon määrä on koodattu todennäköisyysjakaumiin. 4. Tilastollisen inversio-ongelman ratkaisu on tuntemattoman muuttujan a posteriori -todennäköisyysjakauma. Varsinkin viimeinen kohta erottaa tilastollisen lähestymistavan perinteisistä tavoista. Regularisaatiomenetelmät tuottavat yksittäisen estimaatin tuntemattomasta, kun taas tilastolliset menetelmät tuottavat todennäköisyysjakauman, jota voidaan käyttää varsinaisten estimaattien tekoon. Näin ollen tärkein kysymys ei ole, mikä on muuttujan arvo?, vaan kuinka paljon ja millaista informaatiota meillä on tuntemattomasta muuttujasta?. 2 Todennäköisyysavaruuksista ja todennäköisyyksistä Määritelmä 2.1. Olkoon Ω avaruus ja Σ kokoelma sen osajoukkoja. Σ on σ-algebra, jos 1. Ω Σ; 1
2. Jos A Σ, niin A c = Ω\A Σ; 3. Jos A i Σ, i N, niin A i Σ. Määritelmä 2.2. Olkoon Σ σ-algebra avaruudessa Ω. Kuvaus µ : Σ R on mitta, jos: 1. µ(a) 0 kaikilla A Σ; 2. µ( ) = 0; 3. Jos joukot A i Σ ovat pistevieraita, niin ( ) µ A i = µ(a i ) (σ-additiivisuus) Määritelmä 2.3. Mittaa µ kutsutaan äärelliseksi, jos µ(ω) <. Mittaa kutsutaan σ-äärelliseksi, jos on olemassa jono osajoukkoja A i Σ, i N, siten, että Ω = A i, µ(a i ) < kaikilla i. Erityisesti, jos µ(ω) = 1, kutsutaan mittaa µ todennäköisyysmitaksi. Määritelmä 2.4. Olkoon Σ σ-algebra avaruudessa Ω ja olkoon P todennäköisyysmitta. Kolmikkoa (Ω, Σ, P ) kutsutaan todennäköisyysavaruudeksi. Avaruutta Ω kutsutaan otosavaruudeksi (sample space), Σ on tapahtumajoukko (set of events) ja P (A) on tapahtuman A Σ todennäköisyys. Määritelmä 2.5. Olkoon (Ω, Σ, P ) todennäköisyysavaruus. Tapahtumia A, B Σ kutsutaan riippumattomiksi (independent), jos P (A B) = P (A)P (B). Yleisemmin perhettä {A t t T } Σ, missä T on mielivaltainen indeksijoukko, kutsutaan riippumattomaksi, jos ( m ) P A ti = m P (A ti ) kaikilla äärellisillä indeksien t i T valinnoilla. 2
Määritelmä 2.6. Olkoon (Ω, Σ, P ) todennäköisyysavaruus. R n -arvoinen satunnaismuuttuja X on mitallinen kuvaus X : Ω R n, toisin sanoen X 1 (B) Σ kaikilla avoimilla joukoilla B R n. Huomautus 2.7. Jatkossa satunnaismuuttujia merkitään isoilla kirjaimilla ja niiden realisaatioita pienillä kirjaimilla, eli X(ω) = x, kun ω Ω. Määritelmä 2.8. Satunnaismuuttuja X R n generoi todennäköisyysmitan µ X avaruudessa R n kaavalla µ X (B) = P (X 1 (B)). Tätä mittaa kutsutaan X:n todennäköisyysjakaumaksi. Satunnaismuuttujan X = (x 1, x 2,..., x n ) R n todennäköisyysfunktio F : R n [0, 1] on F (X) = P (X 1 x 1, X 2 x 2,..., X n x n ), X = (x 1, x 2,..., x n ). Määritelmä 2.9. Satunnaismuuttujan X R n odotusarvo on E{X} = X(ω)dP (ω) = xdµ X (x), R n Ω sikäli, kun integraali suppnee. Samoin muuttujan X korrelaatio- ja kovarianssimatriisit määritellään kaavoilla ja corr(x) = E{XX T } = X(ω)X(ω) T dp (ω) Ω = xx T dµ X (x) R n n, R n cov(x) = corr(x E{X}) = E{(X E{X})(X E{X}) T } = (x E{X})(x E{X}) T dµ X (x) R n = corr(x) E{X}E{X} T, jos yo. integraalit ovat olemassa. 3
Määritelmä 2.10. Satunnaismuuttujaa X kutsutaan absoluuttisesti jatkuvaksi (Lebesguen mitan suhteen), jos m(b) = 0 µ X (B) = 0, missä B on Borelin joukko. Tällöin satunnaismuuttuja X määrittelee todennäköisyystiheyden π X kaavalla P (X 1 (B)) = µ X (B) = π x (x)dx. Määritelmä 2.11. Olkoon X 1 R n ja X 2 R m kaksi samassa todennäköisyysavaruudessa Ω määriteltyä satunnaismuuttujaa. Niiden yhteistodennäköisyysjakauma (joint probability distribution) määritellään kaavalla µ X1 X 2 : B(R n ) B(R m ) R +, (B 1, B 2 ) P (X 1 1 (B 1 ) X 1 2 (B 2 )). Toisin sanoen yhteistodennäköisyysjakauma on satunnaismuuttujien tulon todennäköisyysjakauma: B X 1 X 2 : Ω R n R m, ω (X 1 (ω), X 2 (ω)). Määritelmä 2.12. Satunnaismuuttujia x 1 ja X 2 sanotaan riippumattomiksi, jos µ X1 X 2 (B 1, B 2 ) = µ X1 (B 1 )µ X2 (B 2 ). Jos X 1 ja X 2 ovat absoluuttisesti jatkuvia, voidaan riippumattomuus ilmaista tiheysfunktioiden avulla: π X1 X 2 (x 1, x 2 ) = π X1 (x 1 )π X2 (x 2 ). 3 Ehdolliset todennäköisyydet Määritelmä 3.1. Olkoon A, B Σ ja P (B) > 0. Tapahtuman A ehdollinen todennäköisyys ehdolla B määritellään kaavalla P (A B) = P (A B). P (B) Nyt pätee P (A) = P (A B)P (B) + P (A B c )P (B c ), B c = Ω\B. 4
Yleisemmin, jos Ω = i I B i, missä I on numeroituva indeksijoukko, niin P (A) = i I P (A B i )P (B i ). Tarkastellaan kahta satunnaismuuttujaa X i R n i, i = 1, 2. Käytetään jatkossa seuraavaa merkintätapaa: jos B i R n i ovat kaksi Borelin joukkoa, niin merkitään joukon B 1 B 2 yhteistodennäköisyyttä µ X1 X 2 (B 1, B 2 ) = µ(b 1, B 2 ) = P (X 1 B 1, X 2 B 2 ). Samoin, jos X 1 ja X 2 ovat absoluuttisesti jatkuvia, niin µ(b 1, B 2 ) = π(x 1, x 2 )dx 1 dx 2. B 1 B 2 Käyttäen näitä merkintöjä, määritellään X 1 :n marginaalitodennäköisyys µ(b 1 ) = µ(b 1, R n 2 ) = P (X 1 B 1 ), eli muuttujan X 1 B 1 todennäköisyys huolimatta muuttujan X 2 arvosta. Oletetaan nyt, että X 1 ja X 2 ovat absoluuttisesti jatkuvia. Tällöin µ(b 1 ) = π(x 1, x 2 )dx 1 dx 2 = π(x 1 )dx 1, B 1 R n 2 B 1 missä marginaalitodennäköisyystiheys on π(x 1 ) = π(x 1, x 2 )dx 2. R n 2 Määritelmä 3.2. Oletetaan, että B i R n i, i = 1, 2, ovat Borelin joukkoja, ja että joukolla B 2 on positiivinen marginaalimitta, eli µ(b 2 ) = P (X2 1 (B 2 )) > 0. Määritellään joukon B 1 ehdollinen mitta ehdolla B 2 kaavalla µ(b 1 B 2 ) = µ(b 1, B 2 ). µ(b 2 ) Erityisesti, jos satunnaismuuttujat ovat absoluuttisesti jatkuvia, niin µ(b 1 B 2 ) = 1 π(x 1, x 2 )dx 1 dx 2, µ(b 2 ) B 1 B 2 missä µ(b 2 ) = π(x 2 )dx 2 = B 2 π(x 1, x 2 )dx 1 dx 2 > 0. R n 1 B 2 Huomaa, että kun B 2 on kiinnitetty, niin kuvaus B 1 µ(b 1 B 2 ) on todennäköisyysmitta. 5
Jos satunnaismuuttujat X 1 ja X 2 ovat riippumattomia, niin µ(b 1 B 2 ) = µ(b 1 ), µ(b 2 B 1 ) = µ(b 2 ). Tarkoituksena on määritellä ehdollinen mitta tapauksessa, missä ehtona on kiinnitetty arvo, eli X 2 = x 2. Ongelmana on, että yleisessä tapauksessa voi olla, että P (X 2 = x 2 ) = 0, jolloin edellä oleva ehdollisen mitan kaava ei toimi. Kuitenkin voidaan osoittaa Lemma 3.3. Oletetaan, että X 1 ja X 2 ovat absoluuttisesti jatkuvia ja että niiden tiheydet ovat jatkuvia. Olkoon x 2 R n 2 sellainen piste, että π(x 2 ) = π(x 1, x 2 )dx 1 > 0. R n 1 Edelleen olkoon (B (j) 2 ) 1 j pienenevä jono välejä avaruudessa R k siten, että B (j) 2 {x 2 }, toisin sanoen B (j+1) 2 B (j) 2 ja B (j) 2 = {x 2 }. Tällöin raja-arvo lim µ(b 1 B (j) 2 ) = µ(b 1 {x 2 }) j on olemassa, ja se voidaan laskea integraalina µ(b 1 {x 2 }) = 1 π(x 1, x 2 )dx 1. π(x 2 ) B 1 Nyt ehdollisen mitan määritelmä voidaan laajentaa tapaukseen B 2 = {x 2 }. Jos π(x 2 ) > 0, niin ehdollinen todennäköisyys joukolle B 1 R n ehdolla B 2 = {x 2 } on (raja-arvo) µ(b 1 x 2 ) = π(x 1, x 2 ) B 1 π(x 2 ) dx 1. Yllä olevasta lemmasta huomataan myös, että ehdollinen todennäköisyysmitta µ(b 1 x 2 ) on määritelty todennäköisyystiheyden avulla π(x 1 x 2 ) = π(x 1, x 2 ), π(x 2 ) > 0. π(x 2 ) Tästä seuraa Bayesin kaava todennäköisyystiheyksille: joka kirjoitetaan usein muotoon π(x 1, x 2 ) = π(x 1 x 2 )π(x 2 ) = π(x 2 x 1 )π(x 1 ), π(x 1 x 2 ) = π(x 1)π(x 2 x 1 ). π(x 2 ) 6