0.02 0.04 0.06 0.08 f 0 5 0 5 0 Temperature Kuva 5.2: Tntf:n f kuvaaja: Lämpötilat välillä [5, 0] näyttävät epätodennäköisiltä. Lämpötila -2 näyttäisi todennäköisimmältä, mutta jakauma on leveä. Tämä heijastaa epävarmuutta seuraavan keskipäivän lämpötilasta. riippumattomuus tiheysfunktio, odotusarvot (mm. varianssi) ehdolliset jakaumat, ayesin kaava Todennäköisyyslaskennan mittateoreettiset perusteet Olkoon Ω perusjoukko, jonka alkiota ω Ω nimitetään alkeistapahtumia. Olkoon Σ kokoelma perusjoukon joukkoja joka muodostaa σ-algebran eli. Ω Σ 2. Jos A Σ, niin A C Σ. 3. Jos A i Σ kun i N, niin i=a i Σ. Joukkoja A, Σ nimitetään tapahtumiksi (eng. event). Tapahtumien yhdiste A tarkoittaa että joko tapahtuma A tai sattuu (tai molemmat). Joukkojen leikkaus A tarkoittaa että molemmat tapahtumat sattuvat. Joukon komplementti A C = Ω\A tarkoittaa, että tapahtuma A ei satu. Määritelmä 7. Olkoon Ω joukko ja Σ sen jokin σ-algebra. Kuvaus P : Σ [0, ] on todennäköisyysmitta (eng. probability measure), jos. P (Ω) = 7
f 0.00 0.05 0.0 0.5 0.20 0 5 0 5 0 Temperature Kuva 5.3: Tntf:n f kuvaaja: Lämpötilat välillä [ 0, 5] sekä [5, 0] näyttävät epätodennäköisiltä. Lämpötila +2 näyttää todennäköisimmältä, mutta myös -2 on melko todennäköinen. Tämä heijastaa epävarmuutta seuraavan keskipäivän lämpötilasta. Lämpötila on luultavimmin +2:n, mutta ehkä myös -2:n kieppeillä (kaksi mallia sään kehitymiselle). 5 0 5 f0.00 0.02 0.007 0.008 0.009 0.00 0.0 0.002 0.003 0.004 0.005 0.006 5 0 5 x 0 5 0 5 0 5 0 5 x2 Kuva 5.4: Tntf:n f kuvaaja: kahden muuttujan funktion f = f(x, x 2 ) arvot esitetään värien tai korkeuden avulla avulla. Muuttujan x arvot ovat vaakaakselilla ja muuttujan x 2 arvot pystyakselilla. Arvo f(0, 5) on koordinaateissa x = 0, x 2 = 5 olevan värin lukuarvo. Tuntemattoman arvot ovat todennäköisimmin lähellä arvoa (0,5). Sen sijaan pistettä (-0,-0) lähellä olevat arvot näyttävät epätodennäköisiltä. 2. Jos joukot A i Σ, i N, ovat sellaisia että A i A j = kaikiilla i j, niin P ( i=a i ) = i= P (A i) (täysadditiivisuus). Lukua P (A) kutsutaan tapahtuman A todennäköisyydeksi. Kolmikkoa (Ω, Σ, P ) kutsutaan todennäköisyysavaruudeksi. Määritelmä 8. Kaksi tapahtumaa A ja Σ ovat riippumattomia (eng. independent/statistically independent), jos P (A ) = P (A)P (). 72
Satunnaisvektori Olkoon (Ω, Σ, P ) todennäköisyysavaruus. Avaruuden orel-joukkojen luokka on pienin sigma-algebra ( ) joka sisältää :n avoimet joukot. Määritelmä 9. Satunnaismuuttuja (eng. random variable) X on kuvaus X : Ω R, jolle orel-joukkojen alkukuvat ovat tapahtumia eli X () Σ jokaisella (R). Satunnaismuuttujan X jakauma (eng. distribution) on kuvaus (R) P (X ). Satunnaisvektori (eng. random vector) X = (X,..., X n ) on kuvaus X : Ω, jolle avaruuden orel-joukkojen alkukuvat ovat tapahtumia eli X () Σ jokaisella ( ). Satunnaisvektorin X jakauma on kuvaus ( ) P (X ). Huomautus 5. Merkintätapa: P (X A) = P (X (A)) = P ({ω Ω : X(ω) A}). Sivuutamme seuraavan lauseen todistuksen, joka voidaan osoittaa avaruuden oreljoukkojen ominaisuuksien avulla (erit. orel-joukkojen generointi hyperkuutioiden avulla). Lause 2. Kuvaus X : Ω on satunnaisvektori jos ja vain jos kuvauksen X = (X,..., X n ) komponentit X i, i =,..., n ovat satunnaismuuttujia. Määritelmä 20. Kaksi satunnaisvektoria X : Ω ja Y : Ω R m ovat riippumattomia (eng. independent/statistically independent), jos P (X A Y ) = P (X A)P (Y ) kaikilla orel-joukoilla A ( ) ja (R m ). Miksi tarvitaan mittateoriaa? 900-luvun alkaessa todennäköisyyslaskentaa ei pidetty matematiikan aitona osaalueena, sillä todennäköisyyslaskennalla ei ollut aksiomaattista pohjaa. Hilbertin kuuluisista 23:sta ongelmasta kuudes vaati todennäköisyyslaskennan aksiomatisointia seuraavin sanoin: 6. Mathematical Treatment of the Axioms of Physics. The investigations on the foundations of geometry suggest the problem: To treat in the same manner, by means of axioms, those physical sciences in which already today mathematics plays an important part; in the first rank are the theory of probabilities and mechanics. Todennäköisyyslaskennan aksiomatisointi onnistui abstraktin mittateorian ja integraalilaskennan kehittämisen avulla 920-luvun lopussa. Todennäköisyyslaskennan aksioomien isä on A. N. Kolmogorov (903-987). Tämä on ainoa konsistentti tapa, jolla todennäköisyyslaskentaa on kyetty käsittelemään. Matemaattisina objekteina satunnaismuuttujat ja satunnaisvektorit ovat funktioita; niissä itsessään ei ole mitään satunnaista, ei mitään satunnaisuutta aiheuttavaa mekanismia eikä keinoa generoida satunnaislukuja. Tämä voi vaikuttaa hieman oudolta......että satunnaisia ilmiöitä käsitellään ilman minkäänlaista satunnaisuutta...? 73
Kolmogorovin aksioamatisoinnissa satunnaisilmiötä ei pyritä selittämään kokonaan! Ajatellaan esimerkiksi, että satunnainen ilmiö tuottaa reaaliluvun (vaikka hissin saapumisaika napin painalluksen jälkeen), jota mallinnetaan matemaattisesti satunnaismuuttujan X avulla. Satunnaismuuttujan mahdollisten arvojen tiedetään olevan reaalilukuja, mutta emme tiedä etukäteen tarkasti minkä arvon satunnaismuuttuja tulee saamaan. Tieto satunnaismuuttujan toteutuvasta arvosta on epätäydellistä. Kun hissi saapuu hetkellä x 0, on luku x 0 otos eli näyte satunnaismuuttujasta X. Tämä tarkoittaa, että x 0 = X(ω 0 ) jollakin ω 0 Ω. Matematiikka ei kerra kuinka satunnaismuuttujasta on saatu näyte X(ω 0 ). Alkeistapahtuman ω 0 valintamekanismi on tuntematon. Vaikka funktio X, joukko Ω ja todenäköisyys P on tiedossa, emme sen perusteella pysty etukäteen sanomaan satunnaismuuttujan toteutuvasta arvosta sen enempää kuin mitä jakauma P (X ), kun (R) paljastaa. Moniulotteinen Riemann-integraali Todennäköisyyslaskenta toimii luentevimmin Lebesgue n integraalin (jota ei kuulu tämän kurssin esitietoihin) kanssa. Tällä kurssilla käytämme Riemann-integraalia. Kerrataan moniulotteisen Riemann-integroinnin periaatteet (kirjallisuutta: Apostol: Calculus (vol II), Lang: Analysis I, Apostol: Mathematical Analysis). Olkoon n-ulotteinen suorakulmainen särmiö = {x = (x,..., x n ) : a i x i b i, i =,..., n} missä a i, b i R ja a i < b i. Merkitään särmiö sisäpisteiden joukkoa Int(). Määritelmä 2. Funktiota f : R kutsutaan porrasfunktioksi, jos suorakulmainen särmiö voidaan jakaa suorakulmaisiin särmiöihin i, i =,..m siten että löytyy luvut c i R joilla f(x) = c i, kun x Int( i ), i =,..., m. Määritelmä 22. Määritelmän 2 porrasfunktion f : R integraali yli joukon on missä Vol( i ) on särmiön f(x)dx := m c i Vol( i ) i= i = {x = (x,..., x n ) : a (i) j x j b (i) j, j =,.., n} tilavuus Vol( i ) = n (b (i) j j= a (i) j ). 74
Määritelmä 23. Olkoon f : R rajoitettu funktio. Jos on olemassa vain yksi luku I R, jolle s(x)dx I S(x)dx jokaisella porrasfunktiolla s : R, jolla s f, ja jokaisella porrasfunktiolla S : R, jolla f S, niin sanotaan, että f on Riemann-integroituva (yli joukon ) ja merkitään f(x)dx = I. Olkoon K() kaikkien porrasfunktioiden f : R joukko. Lause 3. Rajoitettu funktio f : R on Riemann-integroituva jos ja vain jos s(x)dx = I = S(x)dx jolloin Todistus. Sivuutetaan. sup s K() s f inf S K() f S f(x)dx = I. Lause 4 (Fubinin lause Riemann-integroituville funktioille). Olkoon ja C R m kompakteja suorakulmaisia särmiöitä. Olkoon f : C R integroituva funktio, jolla f(x, y)dy C on olemassa jokaisella x. Silloin funktio x f(x, y)dy on integroituva ja C ( ) f(x, y)dy dx = f(z)dz. Todistus. Sivuutetaan. C Fubinin lauseen nojalla moniulotteinen integraali voidaan laskea yksiulotteisten integraalien iteraationa eli esim kun n = 3, niin b 3 ( b2 ( b ) ) f(x)dx = f(x, x 2, x 3 )dx dx 2 dx 3, x =a x 3 =a 3 x 2 =a 2 kunhan kaikki integraalit ovat määriteltyjä. Lisäksi integroimisjärjestystä voi vaihtaa. Integraali yli koko avaruuden määritellään epäoleellisena integraalina (eli rajaarvona integraaleista yli kasvavien osajoukkojen). Jos f on ei-negatiivinen, Fubinin lause on edelleen totta kun = ja C = R m sillä ei-vähenevien lukujen raja on joko rajoitettu tai +. Jos f saa myös negatiivisia arvoja, ilmaistaan f muodossa f = f + f, missä f +, f 0, ja pyritään laskemaan integraali epäoleellisten integraalien erotuksena f(x)dx = f + (x)dx f (x)dx, mikäli mahdollista. 75 C
Tiheysfunktiot Määritelmä 24. Todennäköisyystiheysfunktio (lyh, tntf. eng. probability density function) f : [0, ) on integroituva funktio, jolle f(x)dx =. Esimerkki 3. Olkoon Silloin Esimerkki 32. Olkoon Silloin f(x)dx = f(x) = f(x)dx = [,] 2 dx = n n 2 n (2π) n 2 e 2 x 2 dx = (2π) n 2 { 2 n, x [, ] n 0, x [, ] n. [,] n dx Fubini f(x) = e (2π) n 2 x 2. 2 e 2 x 2 dx = (2π) n 2 = ( n dx) =. 2 n e 2 (x2 + +x2 n ) dx dx n Fubini = Määritelmä 25. Olkoon (Ω, Σ, P ) todennäköisyysavaruus. Satunnaismuuttujalla X : Ω R sanotaan olevan tntf f X, jos f X : R [0, ) on sellainen tntf, että kaikilla a, b R, a b. P (a X b) = b a f X (x)dx Määritelmä 26. Olkoon (Ω, Σ, P ) todennäköisyysavaruus Satunnaisvektorilla X = (X,..., X n ) : Ω sanotaan olevan tntf f X, jos f X : [0, ) on sellainen tntf, että P (a i X i b i, i =,..., n) = f X (x)dx. [a,b ] [a n,b n] kaikilla a i, b i R, a i b i, i =,..n. Tntf:ta f X kutsutaan satunnaismuuttujien X,..., X n yhteistodennäköisyystiheysfunktioksi. Määritelmä 27. Funktiota f Xi (x) = x = x i = x i+ = f X (x,..., x n )dx dx i dx i+ dx n x n= kutsutaan satunnaismuuttujan X i reunatodennäköisyystiheysfunktioksi (tai marginaalitntf). Lause 5. Kaksi satunnaisvektoria X ja Y, joiden yhteistodennäköisyystiheysfunktio on f (X,Y ) (x, y), ovat riippumattomia, jos Todistus. Sivuutetaan. f (X,Y ) (x, y) = f X (x)f Y (y). 76
Jakauman tunnuslukuja Määritelmä 28. Olkoon X satunnaisvektori, jonka todennäköisyystiheysfunktio on f X : [0, ). Satunnaisvektorin X odotusarvo (eng. expectation) on vektori m = (m,..., m n ), jonka komponentit ovat m i = x i f X (x)dx mikäli x i f X (x) on integroituva kaikilla i =,..., n. Odotusarvolle käytetään merkintää E[X] := m. Huomautus 6. Satunnaisvektorilla ei aina ole odotusarvoa. Määritelmä 29. Olkoon X satunnaisvektori, jonka todennäköisyystiheysfunktio on f X : R ja odotusarvo E[X] = (m,..., m n ). Satunnaisvektorin X kovarianssimatriisi (eng. covariance matrix) on matriisi C X n, jonka elementit ovat (C X ) ij = (x i m i )(x j m j )f X (x)dx, mikäli nämä integraalit ovat olemassa. Huomautus 7. Kovarianssimatriisi C X on aina symmetrinen ja sen ominaisarvot ovat ei-negatiivisia. Todellakin, (C X ) ij = (x i m i )(x j m j )f X (x)dx = (x j m j )(x i m i )f X (x)dx = (C X ) ji ja jos u on ominaisvektori jolle C X u = λu ja u =, niin ( n n ) λ = (C X u, u) = (C X ) ij u j u i = = = n i,j= missä g(x) = n i= (x i m i )u i. i= j= (x i m i )u i (x j m j )u j f X (x)dx ( n ) (x j m j )u j f X (x)dx i= (x i m i )u i) ( n j= g(x) 2 f X (x)dx 0, Määritelmä 30. Olkoot X : Ω ja Y : Ω R m satunnaisvektoreita, joiden yhteistodennäköisyystiheysfunktio on f (X,Y ) : +m R ja odotusarvot E[X] = m X ja E[Y ] = m Y. Satunnaisvektorien X ja Y ristikovarianssimatriisi (eng. cross-covariance matrix) on matriisi C XY m, jonka elementit ovat ( ) (C XY ) ij = (x i (m X ) i )(y j (m Y ) j )f (X,Y ) (x, y)dx dy, i =,.., n j =,.., m R m mikäli nämä integraalit ovat olemassa. Huomautus 8. Ristikovarianssimatriisille pätee C T XY = C Y X. 77
Gaussiset jakaumat Satunnaisvektorilla Z : Ω on Gaussinen jakauma eli multinormaalijakauma, jos sen tntf on muotoa f Z (x) = (2π)n det(c) e 2 (x m)t C (x m), missä m ja C n on symmetrinen säännöllinen matriisi, jonka ominaisarvot ovat positiivisia. Silloin merkitään Z N(m, C), mikä tarkoittaa että satunnaisvektorilla Z on multinormaalijakauma ja sen odotusarvo on m sekä kovarianssimatriisi on C. Lemma 6. Funktio f Z (x) = (2π)n det(c) e 2 (x m)t C (x m), on tntf. Jos Z : Ω sellainen satunnaisvektori, että Z N(m, C), niin satunnaisvektorin Z odotusarvo on E[Z] = m ja kovarianssimatriisi C Z = C. Todistus. Selvästi f Z 0. Tarkistetaan, mitä on I = (2π)n det(c) Tehdään ensin muuttujanvaihto x = x m I = (2π)n det(c) e 2 (x m)t C (x m) dx. e 2 (x)t C x dx. Tehdäään sitten muuttujanvaihto x = C 2 x. Muistetaan, että C 2 voidaan määrätä matriisin C ominaisarvohajotelman C = Udiag(λ,..., λ n )U T avulla muodossa C 2 = Udiag( λ,..., λn )U T. Muuttujanvaihdon jälkeen saamme I = e 2 x 2 det(c /2 ) dx. (2π)n det(c) Viimeiseksi meidän tulee laskea integraalit I = 2 (x2 +x2 2 +...+x2 n ) dx dx n (2π) n = (2π) n e ( Kätevimmin tämä käy kun lasketaan ( 2 e 2 dx) x2 = R n e 2 dx) x2. R 78 e R 2 2 (x2 +y 2) dxdy
napakoordinaateissa x = r cos(θ) ja y = r sin(θ). Saamme jolloin ja ( 2 e 2 dx) x2 = R R 2π 0 0 e 2 x2 dx = 2π. I =. e 2 r2 rdrdθ = 2π Samaan tapaan nähdään, että satunnaisvektorin Z odotusarvo E[Z] = xe 2 (x m)t C (x m) dx = m (2π)n det(c) ja kovarianssi on (C Z ) ij = (2π)n det(c) (x i m i )(x j m j )e 2 (x m)t C (x m) dx = C ij. Todennäköisyyslaskennan tulkinnat Matematiikassa esiintyy harvoin oppiriiitoja, mutta lukuarvon P (X ) tulkinta on sellainen. Kysymys on yksinkertainen; milloin on oikeutettua liittää tapahtumaan X tietty todennäköisyys P (X )?. Frekventistinen tulkinta: tapahtuman todennäköisyys tarkoittaa sitä lukua, jota tapahtuman suhteellisten esiintymiskertojen lukumäärää lähestyisi jos koetta toistettaisiin äärettömän monta kertaa. 2. ayeslainen tulkinta: tapahtuman todennäköisyys on se varmuusaste, jolla uskomme tapahtuman toteutuvan. (Tällä kurssilla käytössä!) Subjektiivinen bayeslainen tulkinta mahdollistaa todennäköisyyksien kiinnittämisen sellaisillekin tapahtumille, jotka eivät ole toistettavissa (esim. bayeslaisen tulkinnan mukaan on mahdollista puhua todennäköisyydestä sille, että muualla maailmankaikkeudessa on älyllistä elämää). Eri yksilöt saattavat myös kiinnittää eri todennäköisyyden samalle tapahtumalle. Frekventistisen tulkinnan mukaan tapahtumalle X on mahdollista kiinnittää vain yksi ja aina sama todennäköisyys. Huomautus 9. Miksi bayeslainen tulkinta? Tuntemattomasta on harvoin saatavilla täysin objektiivista tietoa. ayeslainen tulkinta sallii objektiivisen tiedon täydentämisen oikeahkolta tuntuvalla priorijakaumalla. Etuja: 79