Johdatus tn-laskentaan perjantai 17.2.2012 Kahden diskreetin muuttujan yhteisjakauma On olemassa myös monen muuttujan yhteisjakauma, ja jatkuvien muuttujien yhteisjakauma (jota ei käsitellä tällä kurssilla; Tuomisen kirjan kappaleet 5.3 ja 5.5) Reunajakauma Ehdollinen jakauma ja sen tunnusluvut Korrelaatio ja kovarianssi
Olkoot Yhteisjakauma X:n mahdolliset arvot {x 1,,x n } ja Y:n mahdolliset arvot {y 1,,y m } Tällöin parilla (X, Y) on n m mahdollista arvoa Paria koskeva käsityksemme voidaan esittää (n m)- taulukkona, jossa kunkin mahdollisen parin todennäköisyys p(x, y) = P(X=x, Y=y) Taulukon luvut p(x, y) voivat olla mitä tahansa, kunhan Ne eivät ole negatiivisia Niiden summa on 1
Esim: Suomen asuntokunnat Asuntojen lukumäärät Suomessa, ryhmiteltynä asunnon asukasmäärän (A) ja huonemäärän (H) mukaan H A 1 2 3 4 5 6 yht. 1 287 105 458 772 161 720 78 821 29 578 7 779 1 023 775 2 36 073 228 383 244 678 193 763 91 941 24 178 819 016 3 5 392 35 754 94 999 86 347 46 232 13 414 282 138 4 2 719 13 857 52 151 84 853 56 859 18 099 228 538 5 992 4 355 13 862 29 683 25 258 10 495 84 645 6 295 1 242 3 450 7 784 6 516 3 168 22 455 yht. 332 576 742 363 570 860 481 251 256 384 77 133 2 460 567 Lähde: Tilastokeskuksen tietokantataulukko Asuntokunnat ja asuntoväestö asuntokunnan koon, huoneluvun ja talotyypin mukaan 2010. Taulukoista poimittu vain 1...6 asukkaan ja 1...6 huoneen asunnot.
Esim: Suomen asuntokunnat Umpimähkään valitun asuntokunnan muuttujaparilla (A, H) on seuraavat todennäköisyydet p(a, h). Tämä taulukko kuvaa parin (A, H) yhteisjakauman. h a 1 2 3 4 5 6 1 11,67 % 18,64 % 6,57 % 3,20 % 1,20 % 0,32 % 2 1,47 % 9,28 % 9,94 % 7,87 % 3,74 % 0,98 % 3 0,22 % 1,45 % 3,86 % 3,51 % 1,88 % 0,55 % 4 0,11 % 0,56 % 2,12 % 3,45 % 2,31 % 0,74 % 5 0,04 % 0,18 % 0,56 % 1,21 % 1,03 % 0,43 % 6 0,01 % 0,05 % 0,14 % 0,32 % 0,26 % 0,13 % Taulukon lukujen summa = 100 %, koska kyseessä on todennäköisyys
Reunajakaumat Reunajakauma (marginaalijakauma) tarkoittaa tietyn muuttujan jakaumaa. (Sen näkee yhteis-tn-taulukon reunalta rivi- tai sarakesummista; tästä nimi) h a 1 2 3 4 5 6 1 11,67 % 18,64 % 6,57 % 3,20 % 1,20 % 0,32 % 41,61 % 2 1,47 % 9,28 % 9,94 % 7,87 % 3,74 % 0,98 % 33,29 % 3 0,22 % 1,45 % 3,86 % 3,51 % 1,88 % 0,55 % 11,47 % 4 0,11 % 0,56 % 2,12 % 3,45 % 2,31 % 0,74 % 9,29 % 5 0,04 % 0,18 % 0,56 % 1,21 % 1,03 % 0,43 % 3,44 % 6 0,01 % 0,05 % 0,14 % 0,32 % 0,26 % 0,13 % 0,91 % 13,52 % 30,17 % 23,20 % 19,56 % 10,42 % 3,13 % H:n reunajakauma A:n reunajakauma
A:n reunajakauma Kokonaistodennäköisyyden kaavan mukaan esim. 6 6 P( A 2) P( A 2, H h) p(2, h) h 1 h 1 a P(A = a) 1 41,61 % 2 33,29 % 3 11,47 % 4 9,29 % 5 3,44 % 6 0,91 % A:n reunajakauma
H:n reunajakauma Kokonaistodennäköisyyden kaavan mukaan esim. 6 6 PH ( 3) PA ( ah, 3) pa (,3) a 1 a 1 h 1 2 3 4 5 6 P(H = h) 13,52 % 30,17 % 23,20 % 19,56 % 10,42 % 3,13 % H:n reunajakauma Reunajakauma on ihan tavallinen satunnaismuuttujan jakauma, ja sille voidaan laskea tunnuslukuja tutuilla kaavoilla: esim. huonemäärän odotusarvo 6 E( H) [ h P( H h)] 2.93 h 1
Riippuvuus Asuntoesimerkissä on helppo arvata, että A ja H eivät ole riippumattomat: suurilla perheillä on todennäköisemmin paljon huoneita kuin yksin asuvilla, ja kääntäen. Riippuvuus voidaan todeta siitä, että tulokaava rikkoutuu eli P(A=a, H=h) P(A=a) P(H=h) ainakin jossain kohdassa taulukkoa.
Riippuvuus H A 1 2 3 4 5 6 1 11,67 % 18,64 % 6,57 % 3,20 % 1,20 % 0,32 % 41,61 % 2 1,47 % 9,28 % 9,94 % 7,87 % 3,74 % 0,98 % 33,29 % 3 0,22 % 1,45 % 3,86 % 3,51 % 1,88 % 0,55 % 11,47 % 4 0,11 % 0,56 % 2,12 % 3,45 % 2,31 % 0,74 % 9,29 % 5 0,04 % 0,18 % 0,56 % 1,21 % 1,03 % 0,43 % 3,44 % 6 0,01 % 0,05 % 0,14 % 0,32 % 0,26 % 0,13 % 0,91 % 13,52 % 30,17 % 23,20 % 19,56 % 10,42 % 3,13 % Yhden huoneen asuntoja on 13,52 %. Kuuden asukkaan asuntoja on 0,91 %. Jos olisi A H, olisi 1 huoneen 6 asukkaan asuntoja 0,1352 0,0091 0,12 % kaikista asunnoista. Niitä on kuitenkin vain 0,01 % eli selvästi liian vähän (riippumattomuuteen nähden). A ja H ovat riippuvia.
Riippuvuuden lajeja Asukas- ja huonemäärän riippuvuus on kuitenkin ns. stokastista riippuvuutta. Tieto A:sta vaikuttaa käsitykseemme H:n todennäköisyyksistä (ja kääntäen). Vahvempi riippuvuuden laji olisi funktionaalinen riippuvuus, jolloin H:n arvosta suorastaan tiedettäisiin A:n arvo (tai kääntäen). Tällöin olisi olemassa jokin funktio g niin, että H=g(A), tai kääntäen. Tällöin toista sm:aa voitaisiin käsitellä toisen muunnoksena.
Ehdolliset jakaumat (A H=h) Jos tiedetään asukasmäärä A=1, voidaan tarkastella ehdollisia todennäköisyyksiä P(H=h A=1) Ne voidaan laskea tutulla kaavalla P(H=h A=1) = P(H=h, A=1) / P(A=1) Jos nämä lasketaan kaikille h=1,...,6, saadaan H:n ehdollinen jakauma (ehdolla A=1), ts. yksinasuvien huoneluvun jakauma. h 1 2 3 4 5 6 Yht. P(H=h, A=1) 11,67 % 18,64 % 6,57 % 3,20 % 1,20 % 0,32 % 41,61 % P(H=h A=1) 28,04 % 44,81 % 15,80 % 7,70 % 2,89 % 0,76 %
Ehdolliset tunnusluvut Ehdollinen jakauma on taaskin ihan tavallinen satunnaismuuttujan jakauma: se kuvaa huoneluvun H jakaumaa (todennäköisyyksiä) eräässä tilanteessa (nimittäin kun A=1). Sille voidaan laskea tavalliseen tapaan tunnuslukuja, kuten odotusarvo (ns. ehdollinen odotusarvo) h 1 2 3 4 5 6 P(H=h A=1) 28,04 % 44,81 % 15,80 % 7,70 % 2,89 % 0,76 % Huonemäärän odotusarvo (jos 1 asukas) 6 E( H A 1) [ h P( H h A 1)] 2.15 h 1
Ehdollinen vs. reunajakauma Huonemäärän H reunajakauma 1 2 3 4 5 6 P(H = h) 13,52 % 30,17 % 23,20 % 19,56 % 10,42 % 3,13 % Huonemäärän H ehdollinen jakauma (ehdolla A=1) 1 2 3 4 5 6 P(H=h A=1) 28,04 % 44,81 % 15,80 % 7,70 % 2,89 % 0,76 % Jakaumat selvästi erilaiset. Myös tästä nähdään muuttujien riippuvuus. Odotusarvotkin ovat erisuuret: E(H) = 2.93 E(H A=1) = 2.15
Kovarianssi ja korrelaatio Eräs riippuvuuden suuntaa ja vahvuutta kuvaava mittari on kovarianssi tai korrelaatio. Jos E(X)= 1 ja E(Y)= 2, niin kovarianssi on Cov(X,Y) = E[ (X 1 ) (Y 2 ) ]. Kovarianssi kuvaa X:n taipumusta saada suuria arvoja (X > 1 ) samaan aikaan kun Y saa suuria arvoja (Y > 2 ). Voi olla positiivinen tai negatiivinen. Kovarianssi voidaan skaalata välille [ 1, +1] jakamalla se kummankin muuttujan hajonnalla, saadaan korrelaatio Corr(X,Y) = Cov(X) / [ D(X) D(Y) ]. Jos X Y, niin Cov(X,Y)=0 (laske!) Käänteinen ei päde: kovarianssi voi olla nolla riippuvillakin muuttujilla.
Esimerkki: Cov(X,Y)=0 X:llä diskreetti tasajakauma joukossa { 1, 0, 1} Y = X 2 E(X) = 0 E(Y) = E[ (X-EX) (Y-EY) ] = [ ( 1)( ) + (0)( ) + (1)( ) = 0 Selvästi X ja Y ovat riippuvia (peräti funktionaalisesti). Riippuvuus on kuitenkin symmetristä y-akselin eli X:n odotusarvon suhteen, ja siksi se ei näy kovarianssissa.
Esimerkki: Toistokoe n kolikonheittoa, P(kruuna)=p, P(klaava)=q kruunien määrä X ~ Bin(n, p) klaavojen määrä Y ~ Bin(n, q) Selvästikään X ja Y eivät ole riippumattomat (samassa toistokokeessa). Niillä on peräti funktionaalinen riippuvuus Y = n X, ts. jos X:n arvo tiedetään niin silloin Y:n arvo tiedetään täsmälleen: P(Y = x X=x) = 1.
Esimerkki: Multinomikoe 10 nopanheittoa kolmisivuisella nopalla (!), lasketaan eri silmälukujen lukumäärät k 1,k 2,k 3 Kyseessä on multinomikoe, ja esim. P(k 1 =4, k 2 =3, k 3 =3) = (10 yli 4,3,3) (1/3) 10 Toisaalta tietyn silmäluvun määrää voidaan ajatella binomikokeena P(k 1 = 4) = (10 yli 4) (1/3) 4 (2/3) 6 P(k 2 = 3) = (10 yli 3) (1/3) 3 (2/3) 7 P(k 3 = 3) = (10 yli 3) (1/3) 3 (2/3) 7
Yleinen ehdollinen jakauma Toki muuttujan X jakaumaa koskevia todennäköisyyksiä voi laskea millä tahansa ehtotapahtumalla A (muullakin kuin Y=y ) Esim. P( X=x (Y=1 tai Y=2) ) Esim. P( X=x X {1,2,3} ) Esim. P( X>20 X>10) Kyseessä on joka tapauksessa tuttu ehdollinen todennäköisyys jolle voi käyttää esim. ketjusääntöä tai Bayesin kaavaa
Vielä bussiesimerkki Bussi ohittaa pysäkin X minuuttia yli klo 16, missä X ~ Tas(0,10). Jos herra K menee pysäkille klo 16.00, hän ehtii varmasti: bussi tulee 16.00 ja 16.10 välillä. Herra K menee pysäkille kello 16.02 eikä tiedä, onko bussi mennyt. Millä tn se on mennyt? P(X<2) = 0.2 Tasajakauman välin (0, 2) tn. Herra K odottaa 3 minuuttia. Kello on 16.05 eikä bussia näy. Millä tn bussi oli mennyt jo (ennen herra K:n saapumista)? Ratkaisu: Ehdollinen tn. Havaintojensa perusteella herra K tietää tapahtuman (X<2 tai X>5) todeksi bussi oli joko mennyt jo välillä (0,2), tai on vasta tulossa välillä (5,10), mutta ainakaan se ei tullut välillä [2,5]. Tämän tapahtuman tn oli alun perin P(X<2 tai X>5) = 0.2 + 0.5 = 0.7, joten P(X<2 (X<2 tai X>5)) = 0.2 / 0.7 = 0.286
Vielä bussiesimerkki Herra K odottaa edelleen. Kello on 16.09 eikä bussia näy. Millä tn bussi on jo mennyt? P(X<2 (X<2 tai X>9)) = 0.2 / 0.3 = 0.667 Jos kello tulee 16.10 eikä bussia vieläkään näy, se on varmasti mennyt. P(X<2 X<2) = 0.2 / 0.2 = 1.000 Näin siitä huolimatta, että alun perin tapahtumaa X<2 pidettiin melko epätodennäköisenä (tn=0.2). Bussin menosta ennen 16.02 ei saatu suoraa havaintoa, mutta se voidaan todeta poissulkevalla päättelyllä (bussi ei mennyt 16.02 jälkeen).