Laajasti ymmärtäen jonkin tarkasteltavan ilmiön kuvaamista (esim. matemaattista) kuhunkin tarkoitukseen (ennustaminen, analysointi, visualisointi) parhaiten sopivalla tavalla. Ilmiön pukemista helposti käsiteltävään ja ymmärrettävään muotoon. Teorioita, kokeita ja simulointia Datan ja tietämyksen yhdistämistä Mallintamisesta Suora vastaan kokeellinen (tilastollinen) malli Mallintamisen olisi aina oltava ongelmalähtöistä (vastakohtana menetelmälähtöiselle) Occamin partaveitsiperiaate: pitäydyttävä mahdollisimman yksinkertaisessa käsitteistössä. Mallintamisesta Tarkasteltavassa ilmiöstä erotetaan mallinnuksessa: Olosuhteet (alkutilat, alkuehdot) eli ne taustatiedot, joiden vallitessa oletetaan ilmiön tapahtuvan. Tapahtumat, joilla tarkoitetaan nitä asioita, joiden esiintymistä tarkastellaan mallintamisessa Tietyn tapahtuman ja olosuhteiden suhde voi olla Deterministinen: tietyissä olosuhteissa tapahtuma välttämättä joko esiintyy tai ei esiinny Stokastinen eli satunnainen: tietyissä olosuhteissa tapahtumat voivat joko esiintyä tai olla esiintymättä 1
Mallintamisesta Mallinnettava ilmiö (systeemi) voi olla stationäärinen tai epästationäärinen Stationaarinen: Systeemissä ei tapahdu muutoksia ajan myötä: Ts. jos malli M(t) ajanhetkellä t on voimassa, niin ajanhetkellä t+ t malli M(t+ t)=m(t). Tilastollisessa mallintamisessa yleensä lähdetään olettamuksesta että mallinnettava systeemi on stationäärinen (vaikka se ei läheskään aina pidä paikkansa!). Suora vs. kokeellinen malli Ongelma: Kohteen X lämpötilajakauma u määrittäminen annetuilla reunaehdoilla Fysikaalinen malli: 1) Lämpöyhtälö: 2) reunaehdot: 3) Diskretointi: Au=b 4) Ratkaisu: u=a -1 b 2 u = c u = ur, r Γ Kokeellinen malli: 1) Havainnot: lämpötilat u i kohteen pisteissä x i (paikka) 2) Regressiomalli: u=f(w,x), missä w mallin parametrit 3) PNS ratkaisu w PNS : min {sum i u i f(w,x i ) 2 } 2
Tilastollinen mallintaminen Tehtävä: Käytössä olevaa havaintojoukkoa tutkimalla löytää havaintoja rajoittavat ehdot ja relaatiot Ilmiö ja siitä tehtävät havainnot pyritään selvittämään todennäköisyysteoriaa ja sen malleja käyttämällä Tavoite: Löytää havaintoja selittävä malli, joka riittävällä tarkkuudella kuvaa ja ennustaa havaintoja tuottavan prosessin säännölliset ominaisuudet Tilastollisen mallintamisen vaiheita: 1. Malliperheen valinta 2. Mallin parametrien lukumäärän valinta 3. Mallin parametrien arvojen määrittäminen 4. Mallin hyvyyden määrittäminen Monimutkaisissa mallinnustehtävissä vaiheiden 1-4 ratkaiseminen kaikkea muuta kuin helppoa! Tilastollinen mallintaminen Yksinkertainen esim: Olkoon satunnaismuuttujan X todellinen todennäköisyysjakauma q(x). Estimoi q havainnoista x. Ratkaisu: Oletetaan että X noudattaa jakaumaa p(x θ), missä mallilla p on k parametria θ = (θ 1,, θ k ) Θ. Jakaumaa p kutsutaan myös X:n parametriseksi malliksi, joka on määritelty parametriavaruudessa Θ. Määriteltävä havainnoista (estimoitava) parametreille θ sellaiset arvot jotka parhaiten saavat p:n vastaamaan q:ta. Estimoinnista enemmän myöhemmin 3
Satunnaisilmiö ja havainto Havaintoaineisto on havainto satunnaisilmiöstä ELI: Havaintoaineisto x on vain yksi havainto monien mahdollisten havaintojen joukossa Kaikkien mahdollisten havaintojen joukko on otosavaruus Ω ESIM: Olkoon havainto x = {a,g,c,t,g,a,c,g} Sen voidaan katsoa olevan havainto satunnaisilmiöstä jonka otosavaruutena Ω ={{a,a,a,a,a,a,a,a},,{t,t,t,t,t,t,t,t}}, joka muodostuu 4 8 =65536:sta 8:n merkin jonosta. Tapaus ja todennäköisyys Tapaus: voidaan määrittää satunnaisilmiön havaintoja koskevana väittämänä Esimerkkitapaus (A): "Kaikki kahdeksan umpimähkään poimittua nukleotidia ovat puriineja Tapauksiin liitetään niiden todennäköisyys: 0<=P(A)<=1. Tapaus A: Oletetaan että puriineja ja pyrimidiinejä esiintyy kromosomissa yhtä paljon -> P(A) = 0.5^8=0.0039. Todennäköisyyden tulkinta (1-2 mielletään yleensä samoiksi): 1) Klassinen tulkinta 2) Frekvenssitulkinta 3) Subjektiivinen 4
Todennäköisyysmalli Todennäköisyysfunktio: Sääntö eli funktio P joka liittää tapaukseen A sen todennäköisyyden P(A) ESIM1: Tapauksen A= 8 merkin jonossa ensimmäinen nukleotidi on a todennäköisyys P(A)=1/4 (=4^7/4^8). Todennäköisyysmalli: kolmikko (Ω, L,P), missä Ω - otosavaruus L tapausten joukko (A,B,C, ) P todennäköisyysfunktio ESIM2: Rahanheiton malli: Ω ={K,L}, L={φ,{K},{L}, Ω} ja P(φ)=0, P({K})=0.5, P({L})=0.5 ja P(Ω)=1. Tn-mallin ominaisuuksia 1. 0<= P(A) <=1, A L 2. P(Ω)=1 3. P(A 1 A 2 ) = P(A 1 ) + P(A 2 ) + 4. P(A c ) = 1-P(A) (A c = ei tapaus A) 5. P(A B)=P(A) + P(B)- P(AB) ESIM: tapaus A= 8 merkin jonossa esiintyy ainakin yksi t Miten P(A) kannattaa laskea tässä tapauksessa? Ratkaisu: P(A)=1-P(A c ) = 1-3^8/4^8 = 0.9 5
Venn-diagrammiesitys A B AB c AB A c B A c B c Mitä kuvan mukaan on P(A B), P(AB c ) ja P(A c B)? P(A B)=P(AB c ) + P(AB) + P(A c B) = P(A)+P(B)-P(AB) P(AB c ) = P(A) - P(AB) P(A c B) = P(B) - P(AB) Ehdollinen todennäköisyys Ennakkotieto voi supistaa ilmiön otosavaruutta suppeammaksi ESIM: Arpakuution numeroita 1, 2 ja 3 vastaavat sivut ovat punaisia. Heitetään noppaa ja nähdään että sivu on punainen. Mikä on nyt luvun 1 todennäköisyys? RATK: Mahdollisia tuloksia ovat {1},{2} ja {3}, joten P({1} sivu punainen)=1/3 Ehdollinen todennäköisyys P(A B) määritellään P(A B)=P(AB)/P(B), mistä seuraa P(AB)= P(B A)P(A) = P(A B)P(B) ja yleisesti kertolaskusääntö P(A 1 A n )=P(A n A 1 A n-1 )P(A n-1 A 1 A n-2 ) P(A 2 A 1 )P(A 1 ) 6
Ehdollinen todennäköisyys ESIM: Olkoon kulhossa viisi mustaa, kolme punaista ja kaksi valkoista palloa. Määritä tn tapahtumalle {1. pallo musta, 2. pallo valkea, 3. pallo musta} RATK: Merkitään A = {1. pallo musta}, B={2. pallo valkea} ja C={3. pallo musta} eli laske P(ABC). kertolaskusäännön nojalla P(ABC)= P(C BA)P(B A)P(A) P(A)= 5/10 P(B A)= 2/9 P(C BA)= 4/8 Eli P(ABC)= 4/8 * 2/9 * 5/10 = 1/18 Kokonaistodennäköisyys Olkoon {A 1,A 2, A n } todennäköisyyskentän (Ω, L,P) otosavaruuden Ω ositus, missä A i L ja P(A i ) > 0, i=1,,n. Tällöin jokainen tapahtuma B voidaan esittää unionina B= ΩB = ( i A i )B = i (A ib) jolloin P(B) = i P(A i B) = i P(A i )P(B A i ) jota kutsutaan tapahtuman B kokonaistodennäköisyydeksi ESIM: Koneet K1 ja K2 valmistavat tuotetta A. K1 tekee 1000 kpl tuotetta tunnissa ja K2 2000 kpl. K1 koneella virheellisten tuotteiden osuus on 2% ja K2:lla 5%. Mikä on tn että satunnaisesti tuotannosta otettu tuote on viallinen (=tapahtuma B)? RATK: P(B)= P(K 1 )P(B K 1 ) + P(K 2 )P(B K 2 ) eli P(B) = 1/3 * 2/100 + 2/3 * 5/100 = 4/100 = 4% 7
Kokonaistodennäköisyyden kaavassa P(B) = i P(A i B) = i P(A i )P(B A i ) Bayesin kaava todennäköisyyksiä P(A i ) ovat syitä jotka vaikuttavat tapahtuman B todennäköisyyteen -> P(A i ):tä kutsutaan a priori todennäköisyyksiksi Tällöin Bayesin kaavalla voidaan laskea ns. a posteriori todennäköisyydet P(A k B) eli tn:t joilla vaihtoehtoiset syyt selittävät tapahtuman B esiintymistä: P(A k B) = P(A k B)/P(B) = P(A k B)/ i {P(A i )P(B A i )} Venn-diagrammiesitys A 3 A 1 B A 2 Mitä on P(A 1 B)? = P(A 1 )P(B A 1 )/(P(A 1 )P(B A 1 )+P(A 2 )P(B A 2 )+ P(A 3 )P(B A 3 )) 8
Bayesin kaava Olkoon A tapahtuma ja H taustatieto (hypoteesi joskus) Tällöin P(A H) mittaa A:n todennäköisyyttä tiedon H valossa: P(A H)=1, jos olet varma että A tapahtuu P(A H)=0, jos olet varma että A ei tapahdu P(A H)=0.2 Tällöin A:n liittyy epävarmuutta (mutta ei välttämättä satunnaisuutta) Jos A:n epävarmuus on pienempi kun B:n niin tällöin P(A H)>P(B H) Ongelmat: 1) Kahdella tarkastelijalla voi olla eri käsitys epävarmuudesta (eli eri H) 2) Todennäköisyys saattaa muuttua kun informaatio muuttuu Seuraus: Bayes teoria perustuu subjektiivisiin todennäköisyyksiin Bayesin kaava Jatkoa kone-esimerkkiin: K1 ja K2, tuotanto 1000 ja 2000 kpl, virheellisiä 2% ja 5%. Mikä on tn että satunnaisesti poimittu tuote, joka osoittautuu virheelliseksi (tapahtuma B) on koneelta K1? P(K 1 B)= P(K 1 )P(B K 1 )/(P(K 1 )P(B K 1 )+P(K 2 )P(B K 2 ))= Yhteenvetona: (1/3*2/100)/(4/100) = 1/6 Tapahtuman B sattumista voidaan selittää vaihtoehtoisilla hypoteeseilla {A 1,A 2, A n }. Näiden tn:ksiä kutsutaan prioritodennäköisyyksiksi ja oletetaan tunnetuiksi. Bayesin kaava antaa posterioritodennäköisyydet P(A i B) eli tn:t millä hypoteesit selittävät tapahtuman B esiintymistä 9
Riippumattomuus Tapahtumat A ja B ovat riippumattomat jos P(AB)=P(A)P(B) Heurestisesti: A ja B ovat riippumattomia, jos toisen tietämys ei muuta käsitystä toisen epävarmuudesta: P(AB)=P(A)P(B) on yhtäpitävä kuin P(A B)=P(A)=P(A B c ) tai P(B A)=P(B). ESIM: Tarkastellaan kaksilapsisen perheen vanhemman ja nuoremman lapsen sukupuolta. Otosavaruus = {pp,pt,tp,tt}, joilla alkeistapauksilla samat todennäköisyydet (oletus). Määritellään tapahtumat A={lapset eri sukupuolta}, B={vanhempi lapsi poika}, C={nuorempi lapsi poika}. Tällöin: P(C)= P(C B)=0.5 eli B:n (tai A:n) tapahtuminen ei lisää tietoa C:n esiintymistodennäköisyydestä. Tapahtuma C on siis riippumaton B:stä eikä B:n tapahtuminen anna tietoa C:stä Sen sijaan: P(C) P(C AB). Mitä on P(C AB)? Riippumattomuus Riippumattomuus ei aina ole ihan triviaalia ESIM: Laatikossa on r valkoista ja k mustaa palloa. Poimitaan palloja takaisinpanolla. Olkoon A= saada punainen 1:llä vedolla ja B= saada pun. 2:lla vedolla Tapaus 1: Punaisten suhde p=(r+k)/r tunnetaan. Tällöin P(B A)=p=P(B) eli A ja B ovat riippumattomia ( klassillinen todennäköisyys ) Tapaus 2: Punaisten suhdetta ei tunneta. Tällöin A ja B eivät ole riippumattomia, vaikka otannat ovat. Syy: A:sta saadaan informaatiota punaisten osuudesta ja se vaikuttaa B:n ehdolliseen todennäköisyyteen Mutta vaikka p:tä ei tunneta, voidaan kirjoittaa ehdolliset todennäköisyydet ajattelemalla että p on satunnaismuuttuja (tämä on mallintamista): P(A p)=p(a B,p)=p Eli A ja B ovat ehdollisesti riippumattomia ehdolla p. 10
Bayesin malliesimerkki ESIM: Heitetään rahaa ja halutaan tietää onko raha symmetrinen Jos tehdään pitkä rahanheittokoesarja, yhteensä N heittoa ja lasketaan kruunien esiintymismäärä k. Jos A= Saada kruuna, niin tällöin mallina voi olla (θ=k/n): P(A θ)=θ Rahanheitot tulevat nyt ehdollisesti riippumattomiksi. Tullaan Bayes ja klassisen tulkinnan eroon: Klassinen Rahanheitot ovat riippumattomia, kruunan esiintymistodennäköisyyden ollessa θ. Bayes: Jos θ on tunnettu, silloin rahanheitot ovat ehdollisesti riippumattomia ehdolla θ ja kussakin heitossa kruunan esiintymistodennäköisyys on θ. ERO: Bayes lähestymistavassa on tuntematon suure θ (mutta ei tuntemattomia todennäköisyyksiä). Koska θ on tuntematon, se on satunnaismuuttuja, jonka jakauma perustuu taustatietoon. Satunnaismuuttujista Olkoon (Ω, L,P) todennäköisyyskenttä. Oletetaan että Ω:n jokaiseen alkioon w Ω voidaan liittää reaaliluku X(w). Tällöin Ω:n alkioiden w sijasta on mahdollista tarkastella reaalilukuja X(w). X on siis kuvaus X: Ω -> R. Tämä kuvaus X: Ω -> R on satunnaismuuttuja, jos Ω :n osajoukot kuuluvat L:ään aina, kun x R, ts. kaikille x R: {w Ω X(w)<= x} L Ω A w w 2 w 3 1 X(w 2 ) A= {w Ω X(w)<= x} x 2 x 1 x 3 x 11
Diskreetissä tapauksessa satunnaismuuttuja saa numeroituvan määrän erilaisia arvoja (reaalisaatioita). ESIM: Kolikonheitossa P(X= kruunu )=0.5 ja P(X= klaava )=0.5 Diskreetin satunnaismuuttujan jakaumasta p(x) käytetään nimitystä pistetodennäköisyysfunktio p(x)=p(x=x) Merkintä X ~p(x) = S-muuttuja X noudattaa jakaumaa p(x) Kertymäfunktio on tällöin: F(x)= P(X<=x) = t<=x p(t) Kun satunnaismuuttujan X otosavaruus on jatkuva, X:n jakauma (tiheysfunktio) f(x) saadaan kertymäfunktiosta F(x): f(x)=df(x)/dx, missä F(x) = P(X<=x) = - t f(t)dt Mitäpä on - f(t)dt? Satunnaismuuttujista Yksinkertainen esimerkki Mallinnetaan bakteerin geenin alkukodonia 4:llä tapahtumalla: ATG, CTG, TTG ja CTG Olkoon malli M1 rakennettu bakteerista paha1 saadusta sekvenssitiedosto: p(atg)=0.8 p(ctg)=0.1 p(ttg)=0.07 p(ctg)=0.03 ja 2. malli M2 ( paha2 ): p(atg)=0.6 p(ctg)=0.1 p(ttg)=0.2 p(ctg)=0.1 12
Yksinkertainen esimerkki Havaitaan tuntemattomasta bakteerista X=ATG Haluamme tietää Kummasta bakteerista saatu DNA näyte on. Bayes: Malli M1 on todennäköisempi jos P(M1 X)>P(M2 X) P(M1 X)= P(M1 X)= P(X M1)P(M1)/P(X) P(X M2)P(M2)/P(X), jolloin ehdosta P(X M1)P(M1)/P(X)>P(X M2)P(M2)/P(X) saadaan P(X M1)P(M1) > P(X M2)P(M2) ja edelleen 0.8 P(M1) > 0.6 P(M2) Jos prioritodennäköisyydet P(M1) ja P(M2) ovat samat niin todennäköisin malli on? M1 eli paha1 bakteerista Diskreetissä tapauksessa satunnaismuuttujan X entropia määritellään: H(X)=- x p(x)log p(x) Jatkuva X: H(X)= - p(x) log p(x) dx. Jos logaritmin kantafunktiona käytetään log 2 :sta niin tällöin entropia ilmoitetaan bitteinä. ESIM: Kolikonheitossa p( kruunu )=0.5 ja p( klaava )=0.5. Tällöin H(X)=1 bittiä (kun käytetään log 2 :sta). HUOM! 0 log 0 = 0, koska x log x -> 0 kun x->0. Entropia ei riipu satunnaismuuttujan X arvosta, ainoastaan todennäköisyyksistä. Entropia H(X)>=0. Entropia Todistus: - p(x)log p(x) = p(x)log (1/p(x)). Koska p(x)>=0, niin tällöin 1/p(x) >=0, joten p(x)log (1/p(x)) >=0. 13
ESIM: Olkoon satunnaismuuttujan X otosavaruutena {0,1} todennäköiksyyksillä P(0)=p ja P(1)=1-p. Entropia tällöin: H(X)= - p log p - (1-p) log(1-p) = H(p) jota nimitetään binäärientropiafunktioksi. Jos käytetään log 2 kantafunktiota, niin entropia kertoo kuinka monta bittiä tarvitaan keskimäärin satunnaismuuttujan X kuvaamiseen. ESIM: Olkoon satunnaismuuttujalla X yhteensä 32 alkeistapausta, jotka kaikki ovat yhtä todennäköisiä P(X=x)=1/32. Tällöin entropia (log 2 kannalla) on H(X)=5 bittiä Entropia Tulos voidaan tulkita niin että kyseessä olevat 32 alkeistapausta voidaan koodata keskimäärin 5:llä bitillä. Stokastinen prosessi Mikäli ilmiöön liittyy satunnaisuutta (stokastisuutta), puhutaan stokastisista prosesseista. Stokastinen prosessi voidaan myös nähdä joukkona satunnaismuuttujia X(t) jolla on tietty realisaatio x(t). Prosessi on stationäärinen, jos sen tilastolliset ominaisuudet eivät muutu ajan myötä (esim. odotusarvo, varianssi). Aika t voi olla jatkuva tai diskreetti, samoin X(t) ESIM: yksinkertainen satunnaiskulku: Diskreetti aika t ja X(t):n arvot diskreettejä siten että missä P(a=1)=0.5 ja P(a=-1)=0.5. x(t) = x(t-1) + a Asetetaan x(0)=0. Tällöin X(t) on binomijakautunut t 2 n t 14
Moniulotteisista jakaumista Olkoon (X,Y) kahden satunnaismuuttujan X ja Y satunnaisvektori Yhteistodennäköisyysfunktio p(x,y) (jakauma) X:lle ja Y:lle: p(x,y) = P(X=x,Y=y) (X,Y) diskreetti: Tapahtuman A todennäköisyys P(A)= (x,y) A p(x,y) Kertymäfunktio F(x,y) = P(X<=x,Y<=y) Reunajakaumat: p(x)= y p(x,y) ja p(y)= x p(x,y) (X,Y) jatkuva: A:n todennäköisyys P(A)= A p(x,y)dxdy Kertymäfunktio F(x,y) = - x - y p(x,y)dxdy p(x,y) = d 2 F(x,y)/dxdy Reunajakaumat p(x)= - p(x,y)dy, p(x)= - p(x,y)dx Edellä mainitut yleistettävissä satunnaisvektorin (X 1,,X n ):lle Ehdolliset jakaumat p(x y) = p(x,y)/p(y) -> p(x,y)=p(x y)p(y)=p(y x)p(x) E(Y X=x) = y y p(y x) ja jatkuvassa E(Y X=x) = - y p(y x)dy Diskreetit jakaumat: Jakaumien tunnuslukuja E(X) = µ = x x P(X=x) = x x p(x) Var(X) = σ 2 = E(X- µ) 2 = E(X 2 ) - µ 2 Yleistettynä satunnaismuuttujalle g(x): E(g(X)) = µ g(x) = x g(x) P(X=x) = x Jatkuvat jakaumat: µ = x P(X=x) dx = x p(x) dx σ 2 = (x - µ) 2 p(x) dx g(x) p(x) Var(g(X)) = E(g(X)- µ g(x) ) 2 = E(g(X) 2 ) (µ g(x) ) 2 Moniulotteisille jakaumille: Kovarianssi Cov(X,Y)=E( (X-E(X))(Y-E(Y)) ) = E( (X- µ X )(Y- µ Y ) ) 1.5 2 2 2 1.5 1 1.5 2 Mitä voidaan päätellä seuraavista kovarianssimatreeseista? 2 10 2 2 1 10 4 10 15