Mallintamisesta. Mallintamisesta



Samankaltaiset tiedostot
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Todennäköisyyden ominaisuuksia

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Osa 1: Todennäköisyys ja sen laskusäännöt. Kokonaistodennäköisyyden ja Bayesin kaavat

Sovellettu todennäköisyyslaskenta B

ABHELSINKI UNIVERSITY OF TECHNOLOGY

3. laskuharjoituskierros, vko 6, ratkaisut

TODENNÄKÖISYYSLASKUN KERTAUS Peruskäsitteitä

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

031021P Tilastomatematiikka (5 op)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Inversio-ongelmien laskennallinen peruskurssi Luento 7

Johdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Miten hyvin mallit kuvaavat todellisuutta? Tarvitaan havaintoja.

Ilkka Mellin (2008) 1/5

30A02000 Tilastotieteen perusteet

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Osa 2: Otokset, otosjakaumat ja estimointi

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Otosavaruus ja todennäköisyys Otosavaruus Ë on joukko, jonka alkiot ovat kokeen tulokset Tapahtuma on otosavaruuden osajoukko

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I

Todennäköisyys (englanniksi probability)

Harjoitus 2: Matlab - Statistical Toolbox

&idx=2&uilang=fi&lang=fi&lvv=2015

Sovellettu todennäköisyyslaskenta B

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

031021P Tilastomatematiikka (5 op)

1. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden heittojen lukumäärä, joilla tuli 1, 2, 3 tai 4.

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

5/11 6/11 Vaihe 1. 6/10 4/10 6/10 4/10 Vaihe 2. 5/11 6/11 4/11 7/11 6/11 5/11 5/11 6/11 Vaihe 3

Johdatus tn-laskentaan perjantai

Todennäköisyyslaskun kertaus. Heliövaara 1

dx=2&uilang=fi&lang=fi&lvv=2015

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Kertymäfunktio. TKK (c) Ilkka Mellin (2007) 1

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset

JOHDATUS TEKOÄLYYN LUENTO 4.

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Satunnaismuuttujan odotusarvo ja laskusäännöt

1. laskuharjoituskierros, vko 4, ratkaisut

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61

Sovellettu todennäköisyyslaskenta B

Johdatus todennäköisyyslaskentaan Kertymäfunktio. TKK (c) Ilkka Mellin (2005) 1

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Todennäköisyyslaskenta sivuaineopiskelijoille

Tilastollinen aineisto Luottamusväli

Satunnaismuuttujat ja jakaumat

(x, y) 2. heiton tulos y

Otanta ilman takaisinpanoa

Kurssilla esitetään lyhyt katsaus niihin todennäköisyyden ja satunnaisprosessien peruskäsitteisiin ja -ominaisuuksiin, joita tarvitaan digitaalisten

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

tilastotieteen kertaus

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Tilastomatematiikka Kevät 2008

Ilkka Mellin Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat

(b) Tarkista integroimalla, että kyseessä on todella tiheysfunktio.

D ( ) E( ) E( ) 2.917

TILASTOLLINEN OPPIMINEN

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

805306A Johdatus monimuuttujamenetelmiin, 5 op

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Suotuisien tapahtumien lukumäärä Kaikki alkeistapahtumien lukumäärä

TODENNÄKÖISYYS JA TILASTOT MAA6 KERTAUS

Mat Sovellettu todennäköisyyslasku. Aiheet: Todennäköisyyslaskennan peruskäsitteet Todennäköisyyslaskennan peruslaskusäännöt Avainsanat:

Määritelmä 3.1 (Ehdollinen todennäköisyys) Olkoot A ja B otosavaruuden Ω tapahtumia. Jos P(A) > 0, niin tapahtuman B ehdollinen todennäköisyys

4.0.2 Kuinka hyvä ennuste on?

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

Moniulotteiset satunnaismuuttujat ja jakaumat

1. Tilastollinen malli??

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

4. laskuharjoituskierros, vko 7, ratkaisut

031021P Tilastomatematiikka (5 op) Kurssi-info ja lukion kertausta

Väliestimointi (jatkoa) Heliövaara 1

Ilkka Mellin Todennäköisyyslaskenta. Osa 3: Todennäköisyysjakaumia. Diskreettejä jakaumia. TKK (c) Ilkka Mellin (2007) 1

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Estimointi. Vilkkumaa / Kuusinen 1

Satunnaismuuttujan odotusarvo ja laskusäännöt

B. Siten A B, jos ja vain jos x A x

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Todennäköisyyslaskenta IIa, syys lokakuu 2019 / Hytönen 3. laskuharjoitus, ratkaisuehdotukset

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Transkriptio:

Laajasti ymmärtäen jonkin tarkasteltavan ilmiön kuvaamista (esim. matemaattista) kuhunkin tarkoitukseen (ennustaminen, analysointi, visualisointi) parhaiten sopivalla tavalla. Ilmiön pukemista helposti käsiteltävään ja ymmärrettävään muotoon. Teorioita, kokeita ja simulointia Datan ja tietämyksen yhdistämistä Mallintamisesta Suora vastaan kokeellinen (tilastollinen) malli Mallintamisen olisi aina oltava ongelmalähtöistä (vastakohtana menetelmälähtöiselle) Occamin partaveitsiperiaate: pitäydyttävä mahdollisimman yksinkertaisessa käsitteistössä. Mallintamisesta Tarkasteltavassa ilmiöstä erotetaan mallinnuksessa: Olosuhteet (alkutilat, alkuehdot) eli ne taustatiedot, joiden vallitessa oletetaan ilmiön tapahtuvan. Tapahtumat, joilla tarkoitetaan nitä asioita, joiden esiintymistä tarkastellaan mallintamisessa Tietyn tapahtuman ja olosuhteiden suhde voi olla Deterministinen: tietyissä olosuhteissa tapahtuma välttämättä joko esiintyy tai ei esiinny Stokastinen eli satunnainen: tietyissä olosuhteissa tapahtumat voivat joko esiintyä tai olla esiintymättä 1

Mallintamisesta Mallinnettava ilmiö (systeemi) voi olla stationäärinen tai epästationäärinen Stationaarinen: Systeemissä ei tapahdu muutoksia ajan myötä: Ts. jos malli M(t) ajanhetkellä t on voimassa, niin ajanhetkellä t+ t malli M(t+ t)=m(t). Tilastollisessa mallintamisessa yleensä lähdetään olettamuksesta että mallinnettava systeemi on stationäärinen (vaikka se ei läheskään aina pidä paikkansa!). Suora vs. kokeellinen malli Ongelma: Kohteen X lämpötilajakauma u määrittäminen annetuilla reunaehdoilla Fysikaalinen malli: 1) Lämpöyhtälö: 2) reunaehdot: 3) Diskretointi: Au=b 4) Ratkaisu: u=a -1 b 2 u = c u = ur, r Γ Kokeellinen malli: 1) Havainnot: lämpötilat u i kohteen pisteissä x i (paikka) 2) Regressiomalli: u=f(w,x), missä w mallin parametrit 3) PNS ratkaisu w PNS : min {sum i u i f(w,x i ) 2 } 2

Tilastollinen mallintaminen Tehtävä: Käytössä olevaa havaintojoukkoa tutkimalla löytää havaintoja rajoittavat ehdot ja relaatiot Ilmiö ja siitä tehtävät havainnot pyritään selvittämään todennäköisyysteoriaa ja sen malleja käyttämällä Tavoite: Löytää havaintoja selittävä malli, joka riittävällä tarkkuudella kuvaa ja ennustaa havaintoja tuottavan prosessin säännölliset ominaisuudet Tilastollisen mallintamisen vaiheita: 1. Malliperheen valinta 2. Mallin parametrien lukumäärän valinta 3. Mallin parametrien arvojen määrittäminen 4. Mallin hyvyyden määrittäminen Monimutkaisissa mallinnustehtävissä vaiheiden 1-4 ratkaiseminen kaikkea muuta kuin helppoa! Tilastollinen mallintaminen Yksinkertainen esim: Olkoon satunnaismuuttujan X todellinen todennäköisyysjakauma q(x). Estimoi q havainnoista x. Ratkaisu: Oletetaan että X noudattaa jakaumaa p(x θ), missä mallilla p on k parametria θ = (θ 1,, θ k ) Θ. Jakaumaa p kutsutaan myös X:n parametriseksi malliksi, joka on määritelty parametriavaruudessa Θ. Määriteltävä havainnoista (estimoitava) parametreille θ sellaiset arvot jotka parhaiten saavat p:n vastaamaan q:ta. Estimoinnista enemmän myöhemmin 3

Satunnaisilmiö ja havainto Havaintoaineisto on havainto satunnaisilmiöstä ELI: Havaintoaineisto x on vain yksi havainto monien mahdollisten havaintojen joukossa Kaikkien mahdollisten havaintojen joukko on otosavaruus Ω ESIM: Olkoon havainto x = {a,g,c,t,g,a,c,g} Sen voidaan katsoa olevan havainto satunnaisilmiöstä jonka otosavaruutena Ω ={{a,a,a,a,a,a,a,a},,{t,t,t,t,t,t,t,t}}, joka muodostuu 4 8 =65536:sta 8:n merkin jonosta. Tapaus ja todennäköisyys Tapaus: voidaan määrittää satunnaisilmiön havaintoja koskevana väittämänä Esimerkkitapaus (A): "Kaikki kahdeksan umpimähkään poimittua nukleotidia ovat puriineja Tapauksiin liitetään niiden todennäköisyys: 0<=P(A)<=1. Tapaus A: Oletetaan että puriineja ja pyrimidiinejä esiintyy kromosomissa yhtä paljon -> P(A) = 0.5^8=0.0039. Todennäköisyyden tulkinta (1-2 mielletään yleensä samoiksi): 1) Klassinen tulkinta 2) Frekvenssitulkinta 3) Subjektiivinen 4

Todennäköisyysmalli Todennäköisyysfunktio: Sääntö eli funktio P joka liittää tapaukseen A sen todennäköisyyden P(A) ESIM1: Tapauksen A= 8 merkin jonossa ensimmäinen nukleotidi on a todennäköisyys P(A)=1/4 (=4^7/4^8). Todennäköisyysmalli: kolmikko (Ω, L,P), missä Ω - otosavaruus L tapausten joukko (A,B,C, ) P todennäköisyysfunktio ESIM2: Rahanheiton malli: Ω ={K,L}, L={φ,{K},{L}, Ω} ja P(φ)=0, P({K})=0.5, P({L})=0.5 ja P(Ω)=1. Tn-mallin ominaisuuksia 1. 0<= P(A) <=1, A L 2. P(Ω)=1 3. P(A 1 A 2 ) = P(A 1 ) + P(A 2 ) + 4. P(A c ) = 1-P(A) (A c = ei tapaus A) 5. P(A B)=P(A) + P(B)- P(AB) ESIM: tapaus A= 8 merkin jonossa esiintyy ainakin yksi t Miten P(A) kannattaa laskea tässä tapauksessa? Ratkaisu: P(A)=1-P(A c ) = 1-3^8/4^8 = 0.9 5

Venn-diagrammiesitys A B AB c AB A c B A c B c Mitä kuvan mukaan on P(A B), P(AB c ) ja P(A c B)? P(A B)=P(AB c ) + P(AB) + P(A c B) = P(A)+P(B)-P(AB) P(AB c ) = P(A) - P(AB) P(A c B) = P(B) - P(AB) Ehdollinen todennäköisyys Ennakkotieto voi supistaa ilmiön otosavaruutta suppeammaksi ESIM: Arpakuution numeroita 1, 2 ja 3 vastaavat sivut ovat punaisia. Heitetään noppaa ja nähdään että sivu on punainen. Mikä on nyt luvun 1 todennäköisyys? RATK: Mahdollisia tuloksia ovat {1},{2} ja {3}, joten P({1} sivu punainen)=1/3 Ehdollinen todennäköisyys P(A B) määritellään P(A B)=P(AB)/P(B), mistä seuraa P(AB)= P(B A)P(A) = P(A B)P(B) ja yleisesti kertolaskusääntö P(A 1 A n )=P(A n A 1 A n-1 )P(A n-1 A 1 A n-2 ) P(A 2 A 1 )P(A 1 ) 6

Ehdollinen todennäköisyys ESIM: Olkoon kulhossa viisi mustaa, kolme punaista ja kaksi valkoista palloa. Määritä tn tapahtumalle {1. pallo musta, 2. pallo valkea, 3. pallo musta} RATK: Merkitään A = {1. pallo musta}, B={2. pallo valkea} ja C={3. pallo musta} eli laske P(ABC). kertolaskusäännön nojalla P(ABC)= P(C BA)P(B A)P(A) P(A)= 5/10 P(B A)= 2/9 P(C BA)= 4/8 Eli P(ABC)= 4/8 * 2/9 * 5/10 = 1/18 Kokonaistodennäköisyys Olkoon {A 1,A 2, A n } todennäköisyyskentän (Ω, L,P) otosavaruuden Ω ositus, missä A i L ja P(A i ) > 0, i=1,,n. Tällöin jokainen tapahtuma B voidaan esittää unionina B= ΩB = ( i A i )B = i (A ib) jolloin P(B) = i P(A i B) = i P(A i )P(B A i ) jota kutsutaan tapahtuman B kokonaistodennäköisyydeksi ESIM: Koneet K1 ja K2 valmistavat tuotetta A. K1 tekee 1000 kpl tuotetta tunnissa ja K2 2000 kpl. K1 koneella virheellisten tuotteiden osuus on 2% ja K2:lla 5%. Mikä on tn että satunnaisesti tuotannosta otettu tuote on viallinen (=tapahtuma B)? RATK: P(B)= P(K 1 )P(B K 1 ) + P(K 2 )P(B K 2 ) eli P(B) = 1/3 * 2/100 + 2/3 * 5/100 = 4/100 = 4% 7

Kokonaistodennäköisyyden kaavassa P(B) = i P(A i B) = i P(A i )P(B A i ) Bayesin kaava todennäköisyyksiä P(A i ) ovat syitä jotka vaikuttavat tapahtuman B todennäköisyyteen -> P(A i ):tä kutsutaan a priori todennäköisyyksiksi Tällöin Bayesin kaavalla voidaan laskea ns. a posteriori todennäköisyydet P(A k B) eli tn:t joilla vaihtoehtoiset syyt selittävät tapahtuman B esiintymistä: P(A k B) = P(A k B)/P(B) = P(A k B)/ i {P(A i )P(B A i )} Venn-diagrammiesitys A 3 A 1 B A 2 Mitä on P(A 1 B)? = P(A 1 )P(B A 1 )/(P(A 1 )P(B A 1 )+P(A 2 )P(B A 2 )+ P(A 3 )P(B A 3 )) 8

Bayesin kaava Olkoon A tapahtuma ja H taustatieto (hypoteesi joskus) Tällöin P(A H) mittaa A:n todennäköisyyttä tiedon H valossa: P(A H)=1, jos olet varma että A tapahtuu P(A H)=0, jos olet varma että A ei tapahdu P(A H)=0.2 Tällöin A:n liittyy epävarmuutta (mutta ei välttämättä satunnaisuutta) Jos A:n epävarmuus on pienempi kun B:n niin tällöin P(A H)>P(B H) Ongelmat: 1) Kahdella tarkastelijalla voi olla eri käsitys epävarmuudesta (eli eri H) 2) Todennäköisyys saattaa muuttua kun informaatio muuttuu Seuraus: Bayes teoria perustuu subjektiivisiin todennäköisyyksiin Bayesin kaava Jatkoa kone-esimerkkiin: K1 ja K2, tuotanto 1000 ja 2000 kpl, virheellisiä 2% ja 5%. Mikä on tn että satunnaisesti poimittu tuote, joka osoittautuu virheelliseksi (tapahtuma B) on koneelta K1? P(K 1 B)= P(K 1 )P(B K 1 )/(P(K 1 )P(B K 1 )+P(K 2 )P(B K 2 ))= Yhteenvetona: (1/3*2/100)/(4/100) = 1/6 Tapahtuman B sattumista voidaan selittää vaihtoehtoisilla hypoteeseilla {A 1,A 2, A n }. Näiden tn:ksiä kutsutaan prioritodennäköisyyksiksi ja oletetaan tunnetuiksi. Bayesin kaava antaa posterioritodennäköisyydet P(A i B) eli tn:t millä hypoteesit selittävät tapahtuman B esiintymistä 9

Riippumattomuus Tapahtumat A ja B ovat riippumattomat jos P(AB)=P(A)P(B) Heurestisesti: A ja B ovat riippumattomia, jos toisen tietämys ei muuta käsitystä toisen epävarmuudesta: P(AB)=P(A)P(B) on yhtäpitävä kuin P(A B)=P(A)=P(A B c ) tai P(B A)=P(B). ESIM: Tarkastellaan kaksilapsisen perheen vanhemman ja nuoremman lapsen sukupuolta. Otosavaruus = {pp,pt,tp,tt}, joilla alkeistapauksilla samat todennäköisyydet (oletus). Määritellään tapahtumat A={lapset eri sukupuolta}, B={vanhempi lapsi poika}, C={nuorempi lapsi poika}. Tällöin: P(C)= P(C B)=0.5 eli B:n (tai A:n) tapahtuminen ei lisää tietoa C:n esiintymistodennäköisyydestä. Tapahtuma C on siis riippumaton B:stä eikä B:n tapahtuminen anna tietoa C:stä Sen sijaan: P(C) P(C AB). Mitä on P(C AB)? Riippumattomuus Riippumattomuus ei aina ole ihan triviaalia ESIM: Laatikossa on r valkoista ja k mustaa palloa. Poimitaan palloja takaisinpanolla. Olkoon A= saada punainen 1:llä vedolla ja B= saada pun. 2:lla vedolla Tapaus 1: Punaisten suhde p=(r+k)/r tunnetaan. Tällöin P(B A)=p=P(B) eli A ja B ovat riippumattomia ( klassillinen todennäköisyys ) Tapaus 2: Punaisten suhdetta ei tunneta. Tällöin A ja B eivät ole riippumattomia, vaikka otannat ovat. Syy: A:sta saadaan informaatiota punaisten osuudesta ja se vaikuttaa B:n ehdolliseen todennäköisyyteen Mutta vaikka p:tä ei tunneta, voidaan kirjoittaa ehdolliset todennäköisyydet ajattelemalla että p on satunnaismuuttuja (tämä on mallintamista): P(A p)=p(a B,p)=p Eli A ja B ovat ehdollisesti riippumattomia ehdolla p. 10

Bayesin malliesimerkki ESIM: Heitetään rahaa ja halutaan tietää onko raha symmetrinen Jos tehdään pitkä rahanheittokoesarja, yhteensä N heittoa ja lasketaan kruunien esiintymismäärä k. Jos A= Saada kruuna, niin tällöin mallina voi olla (θ=k/n): P(A θ)=θ Rahanheitot tulevat nyt ehdollisesti riippumattomiksi. Tullaan Bayes ja klassisen tulkinnan eroon: Klassinen Rahanheitot ovat riippumattomia, kruunan esiintymistodennäköisyyden ollessa θ. Bayes: Jos θ on tunnettu, silloin rahanheitot ovat ehdollisesti riippumattomia ehdolla θ ja kussakin heitossa kruunan esiintymistodennäköisyys on θ. ERO: Bayes lähestymistavassa on tuntematon suure θ (mutta ei tuntemattomia todennäköisyyksiä). Koska θ on tuntematon, se on satunnaismuuttuja, jonka jakauma perustuu taustatietoon. Satunnaismuuttujista Olkoon (Ω, L,P) todennäköisyyskenttä. Oletetaan että Ω:n jokaiseen alkioon w Ω voidaan liittää reaaliluku X(w). Tällöin Ω:n alkioiden w sijasta on mahdollista tarkastella reaalilukuja X(w). X on siis kuvaus X: Ω -> R. Tämä kuvaus X: Ω -> R on satunnaismuuttuja, jos Ω :n osajoukot kuuluvat L:ään aina, kun x R, ts. kaikille x R: {w Ω X(w)<= x} L Ω A w w 2 w 3 1 X(w 2 ) A= {w Ω X(w)<= x} x 2 x 1 x 3 x 11

Diskreetissä tapauksessa satunnaismuuttuja saa numeroituvan määrän erilaisia arvoja (reaalisaatioita). ESIM: Kolikonheitossa P(X= kruunu )=0.5 ja P(X= klaava )=0.5 Diskreetin satunnaismuuttujan jakaumasta p(x) käytetään nimitystä pistetodennäköisyysfunktio p(x)=p(x=x) Merkintä X ~p(x) = S-muuttuja X noudattaa jakaumaa p(x) Kertymäfunktio on tällöin: F(x)= P(X<=x) = t<=x p(t) Kun satunnaismuuttujan X otosavaruus on jatkuva, X:n jakauma (tiheysfunktio) f(x) saadaan kertymäfunktiosta F(x): f(x)=df(x)/dx, missä F(x) = P(X<=x) = - t f(t)dt Mitäpä on - f(t)dt? Satunnaismuuttujista Yksinkertainen esimerkki Mallinnetaan bakteerin geenin alkukodonia 4:llä tapahtumalla: ATG, CTG, TTG ja CTG Olkoon malli M1 rakennettu bakteerista paha1 saadusta sekvenssitiedosto: p(atg)=0.8 p(ctg)=0.1 p(ttg)=0.07 p(ctg)=0.03 ja 2. malli M2 ( paha2 ): p(atg)=0.6 p(ctg)=0.1 p(ttg)=0.2 p(ctg)=0.1 12

Yksinkertainen esimerkki Havaitaan tuntemattomasta bakteerista X=ATG Haluamme tietää Kummasta bakteerista saatu DNA näyte on. Bayes: Malli M1 on todennäköisempi jos P(M1 X)>P(M2 X) P(M1 X)= P(M1 X)= P(X M1)P(M1)/P(X) P(X M2)P(M2)/P(X), jolloin ehdosta P(X M1)P(M1)/P(X)>P(X M2)P(M2)/P(X) saadaan P(X M1)P(M1) > P(X M2)P(M2) ja edelleen 0.8 P(M1) > 0.6 P(M2) Jos prioritodennäköisyydet P(M1) ja P(M2) ovat samat niin todennäköisin malli on? M1 eli paha1 bakteerista Diskreetissä tapauksessa satunnaismuuttujan X entropia määritellään: H(X)=- x p(x)log p(x) Jatkuva X: H(X)= - p(x) log p(x) dx. Jos logaritmin kantafunktiona käytetään log 2 :sta niin tällöin entropia ilmoitetaan bitteinä. ESIM: Kolikonheitossa p( kruunu )=0.5 ja p( klaava )=0.5. Tällöin H(X)=1 bittiä (kun käytetään log 2 :sta). HUOM! 0 log 0 = 0, koska x log x -> 0 kun x->0. Entropia ei riipu satunnaismuuttujan X arvosta, ainoastaan todennäköisyyksistä. Entropia H(X)>=0. Entropia Todistus: - p(x)log p(x) = p(x)log (1/p(x)). Koska p(x)>=0, niin tällöin 1/p(x) >=0, joten p(x)log (1/p(x)) >=0. 13

ESIM: Olkoon satunnaismuuttujan X otosavaruutena {0,1} todennäköiksyyksillä P(0)=p ja P(1)=1-p. Entropia tällöin: H(X)= - p log p - (1-p) log(1-p) = H(p) jota nimitetään binäärientropiafunktioksi. Jos käytetään log 2 kantafunktiota, niin entropia kertoo kuinka monta bittiä tarvitaan keskimäärin satunnaismuuttujan X kuvaamiseen. ESIM: Olkoon satunnaismuuttujalla X yhteensä 32 alkeistapausta, jotka kaikki ovat yhtä todennäköisiä P(X=x)=1/32. Tällöin entropia (log 2 kannalla) on H(X)=5 bittiä Entropia Tulos voidaan tulkita niin että kyseessä olevat 32 alkeistapausta voidaan koodata keskimäärin 5:llä bitillä. Stokastinen prosessi Mikäli ilmiöön liittyy satunnaisuutta (stokastisuutta), puhutaan stokastisista prosesseista. Stokastinen prosessi voidaan myös nähdä joukkona satunnaismuuttujia X(t) jolla on tietty realisaatio x(t). Prosessi on stationäärinen, jos sen tilastolliset ominaisuudet eivät muutu ajan myötä (esim. odotusarvo, varianssi). Aika t voi olla jatkuva tai diskreetti, samoin X(t) ESIM: yksinkertainen satunnaiskulku: Diskreetti aika t ja X(t):n arvot diskreettejä siten että missä P(a=1)=0.5 ja P(a=-1)=0.5. x(t) = x(t-1) + a Asetetaan x(0)=0. Tällöin X(t) on binomijakautunut t 2 n t 14

Moniulotteisista jakaumista Olkoon (X,Y) kahden satunnaismuuttujan X ja Y satunnaisvektori Yhteistodennäköisyysfunktio p(x,y) (jakauma) X:lle ja Y:lle: p(x,y) = P(X=x,Y=y) (X,Y) diskreetti: Tapahtuman A todennäköisyys P(A)= (x,y) A p(x,y) Kertymäfunktio F(x,y) = P(X<=x,Y<=y) Reunajakaumat: p(x)= y p(x,y) ja p(y)= x p(x,y) (X,Y) jatkuva: A:n todennäköisyys P(A)= A p(x,y)dxdy Kertymäfunktio F(x,y) = - x - y p(x,y)dxdy p(x,y) = d 2 F(x,y)/dxdy Reunajakaumat p(x)= - p(x,y)dy, p(x)= - p(x,y)dx Edellä mainitut yleistettävissä satunnaisvektorin (X 1,,X n ):lle Ehdolliset jakaumat p(x y) = p(x,y)/p(y) -> p(x,y)=p(x y)p(y)=p(y x)p(x) E(Y X=x) = y y p(y x) ja jatkuvassa E(Y X=x) = - y p(y x)dy Diskreetit jakaumat: Jakaumien tunnuslukuja E(X) = µ = x x P(X=x) = x x p(x) Var(X) = σ 2 = E(X- µ) 2 = E(X 2 ) - µ 2 Yleistettynä satunnaismuuttujalle g(x): E(g(X)) = µ g(x) = x g(x) P(X=x) = x Jatkuvat jakaumat: µ = x P(X=x) dx = x p(x) dx σ 2 = (x - µ) 2 p(x) dx g(x) p(x) Var(g(X)) = E(g(X)- µ g(x) ) 2 = E(g(X) 2 ) (µ g(x) ) 2 Moniulotteisille jakaumille: Kovarianssi Cov(X,Y)=E( (X-E(X))(Y-E(Y)) ) = E( (X- µ X )(Y- µ Y ) ) 1.5 2 2 2 1.5 1 1.5 2 Mitä voidaan päätellä seuraavista kovarianssimatreeseista? 2 10 2 2 1 10 4 10 15