Luku 5 Satunnaismuuttujien summa ja keskiarvo Lasse Leskelä Aalto-yliopisto 17. marraskuuta 2017 5.1 Satunnaismuuttujien summa Kahden satunnaismuuttujan summa X + Y on satunnaismuuttuja, jonka jakauma voidaan määrittää X:n ja Y :n yhteisjakaumasta f X,Y (x, y). Summan tiheysfunktioksi saadaan f X+Y (s) = { x f X,Y (x, s x) (diskreetti yhteisjakauma), f X,Y (x, s x) dx (jatkuva yhteisjakauma). Jos summan termit ovat stokastisesti riippumattomat, voidaan ylläolevat kaavat kirjoittaa tiheysfunktioiden f X (x) ja f Y (y) avulla 1 muodossa f X+Y (s) = { x f X(x)f Y (s x) (diskreetti yhteisjakauma), f X(x)f Y (s x) dx (jatkuva yhteisjakauma). (5.1) Esimerkki 5.1 (Kahden satunnaismuuttujan summa). Satunnaismuuttujat X 1 ja X 2 ovat toisistaan riippumattomat noudattavat lukujoukon {0, 1, 2,... } geometrista jakaumaa parametrina a = 4/5 ja tiheysfunktiona 1 Kaavan (5.1) yhtälöt voidaan tulkita tiheysfunktioiden f X ja f Y konvoluutioina. Yleisesti funktioiden f ja g konvoluutio h = f g määritellään diskreetissä tilanteessa kaavalla h(z) = x f(x)g(z x) ja jatkuvassa tilanteessa kaavalla h(z) = f(x)g(z x) dx. 63
0.2 f(x) = (1 a)a x. 0.1 0.0 0 5 10 15 20 25 Määritä satunnaismuuttujan X 1 + X 2 jakauma. Satunnaismuuttujan X 1 + X 2 arvojoukko on {0, 1, 2,... } ja tiheysfunktio saadaan määritettyä summakaavasta (5.1). Koska f(x) = 0 pisteissä x < 0, f X1 +X 2 (s) = x f(x)f(s x) = s (1 a)a x (1 a)a s x. x=0 Näin ollen summan jakauma voidaan esittää tiheysfunktiona 0.2 f X1 +X 2 (s) = (1 a) 2 (s + 1)a s. 0.1 0.0 0 5 10 15 20 25 Monen satunnaismuuttujien summa S n = X 1 + + X n ja keskiarvo n 1 S n ovat satunnaismuuttujia, joiden avulla mallinnetaan satunnaisotannan havaintojen esiintyvyyksiä, kohinaisten mittausten keskiarvoja sekä talouden tuottoja kustannuskertymiä. Silloin kun summan termit ovat stokastisesti riippumattomia ja satunnaismuuttujan X kanssa samoin jakautuneita, voidaan summan S n jakauma määrittää X:n jakaumasta. Yksinkertaisimmassa tilanteessa summan termit ovat {0, 1}-arvoisia ja jakautuneet tiheysfunktion { f(x) = (1 p) 1 x p x 1 p, x = 0, = p, x = 1, mukaan. Tämä on Bernoulli-jakauma parametrina p [0, 1], missä parametri p kertoo tapahtuman X = 1 todennäköisyyden. Tällöin summa S n saa arvon x täsmälleen silloin, kun summattavista x saavat arvon 1 ja loput n x saavat arvon 0. Koska n:stä summattavasta voidaan valita ( n x) tavalla x arvon 1 saavaa termiä, havaitaan että summan S n jakauma noudattaa tiheysfunktiota ( ) n f(x) = p x (1 p) n x, x = 0, 1,..., n. x Tämä on binomijakauma parametreina n 1 ja p [0, 1]. Stokastisesti riippumattomien ja samoin jakautuneiden {0, 1}-arvoisten satunnaismuuttujien summan jakauma on siis aina binomijakauma. 64
Esimerkki 5.2. Monivalintakokeessa on 20 kysymystä, joista jokaisessa pitää valita yksi oikea vastaus kolmen vaihtoehdon joukosta. Mikä on todennäköisyys saada kokeesta umpimähkään arvaamalla vähintään 19 oikein? Oikeiden vastausten lukumäärä voidaan esittää summana S n = X 1 + +X n, jossa n = 20 ja X i = { 1, jos kysymyksen i vastaus on oikein, 0, muuten. Umpimähkään arvatessa ovat yksittäisten kysymysten vastaukset toisistaan riippumattomat, ja yksittäinen vastaus on oikein todennäköisyydellä 1. Näin ollen 3 termit X 1,..., X 20 ovat toisistaan riippumattomat ja Bernoulli-jakautuneet parametrina p = 1. Tämän seurauksena summa S 3 n noudattaa binomijakaumaa parametreina n = 20 ja p = 1 ja tiheysfunktiona 3 0.2 f(x) = ( ) 20 (1/3) x (1 1/3) 20 x. x 0.1 Todennäköisyys saada vähintään 19 oikein on siis 0.0 P(S n 19) = f(19) + f(20) 0 5 10 15 20 11.47 10 9 + 0.29 10 9 12 10 9. Tiheysfunktion arvot pisteissä x 17 ovat niin pieniä, että ne eivät näy ylläolevassa tiheysfunktion kuvaajassa. Yleisessä tapauksessa, jossa summattavat eivät ole binaariarvoisia, ovat summan jakauman määrittämiseen tarvittavat konvoluutiokaavat ovat yleensä niin monimutkaisia, että summan jakauman lauseketta ei voi kirjoittaa siistissä suljetussa muodossa. Silloin kun summattavien määrä on suuri, voidaan summan jakaumaa kuitenkin arvioida hyvin tarkasti normaali- tai Poisson-jakauman avulla. Tässä luvussa opitaan soveltamaan normaali- ja Poisson-jakaumia käytännön tilanteissa esiintyvien summien ja keskiarvojen analysoimiseen. 5.2 Summan keskihajonta Luvussa 3 esitetty suurten lukujen laki (fakta 3.3) kertoo, että keskiarvo suuresta määrästä riippumattomia X:n tavoin jakautuneita satunnaislukuja (odotusarvo µ, keskihajonta σ) on suurella todennäköisyydellä likimain 1 n n X i µ. i=1 65
Suurten lukujen laki ei kuitenkaan kerro sitä, miten tarkka kyseinen arvio on, eikä sitä, miten summattavien lukumäärä n ja summattavien keskihajonta σ vaikuttavat approksimaation tarkkuuteen. Approksimaation tarkkuutta voidaan mitata laskemalla summan keskihajonta ( ) ( 1 n n ) SD X i = 1 n n SD X i. i=1 i=1 Tämän auki laskemiseksi tarvitaan laskentakaava summan keskihajonnalle. Tarkastellaan ensiksi kahden muuttujan tapausta seuraavassa esimerkissä. Esimerkki 5.3 (Kahden satunnaismuuttujan summa). Mitä voidaan sanoa summan X + Y keskihajonnasta, kun tunnetaan odotusarvot µ X = 1 ja µ Y = 1 sekä keskihajonnat σ X = 2 ja σ Y = 3? Kovarianssin lineaarisuuden ja symmetrisyyden perusteella Var(X + Y ) = Cov(X + Y, X + Y ) = Cov(X, X) + Cov(Y, X) + Cov(X, Y ) + Cov(Y, Y ) = Var(X) + 2 Cov(X, Y ) + Var(Y ). Ottamalla ylläolevan yhtälön molemmilta puolilta neliöjuuret ja kirjoittamalla oikean puolen kovarianssitermi muodossa Cov(X, Y ) = ρσ X σ Y, missä ρ = Cor(X, Y ) on X:n ja Y :n korrelaatio, saadaan summan keskihajonnalle kaava σ X+Y = ( σ 2 X + 2ρσ X σ Y + σ 2 Y ) 1/2. (5.2) Summan keskihajontaa ei siis voi laskea tuntematta korrelaatiota. Soveltamalla kaavaan (5.2) korrelaation rajoja 1 ρ 1, saadaan summan keskihajonnalle kuitenkin estimaatit σ X σ Y σ X+Y σ X + σ Y, jotka kysymyksenasettelun lukuarvoilla vastaavat tapausta 1 σ X+Y 5. Jos X ja Y voidaan olettaa stokastisesti riippumattomiksi, voidaan kaavaan (5.2) sijoittaa ρ = 0, jolloin σ X+Y = ( ) σx 2 + σy 2 1/2, mikä kysymyksenasettelun lukuarvoilla tuottaa σ X+Y 3.61. Ylläolevassa esimerkissä johdettu summan keskihajonnan lauseke (5.2) yleistyy melko pienellä vaivalla myös kahta useamman satunnaismuuttujan summille. Fakta 5.4. Satunnaismuuttujien X 1,..., X n summan keskihajonta saadaan kaavasta ( ) ( SD X i = σi 2 + ) 1/2, σ i σ j ρ i,j (5.3) i i missä σ i = SD(X i ) ja ρ i,j = Cor(X i, X j ). i 66 j:j i
Todistus. Kovarianssin lineaarisuudesta ( ) ( Var X i = Cov X i, ) X j i i j = Cov(X i, X j ) i j = Cov(X i, X i ) + Cov(X i, X j ) i i j:j i = σi 2 + σ i σ j ρ i,j, i i j:j i joten väite seuraa ottamalla ylläolevasta yhtälöstä neliöjuuret. Tärkeä erityistapaus ylläolevasta tuloksesta on tilanne, missä X 1,..., X n ovat korreloimattomia (ρ i,j = 0) ja samoin jakautuneita (σ i = σ), jolloin kaava (5.3) pelkistyy muotoon ( n ) SD X i = σ n. (5.4) i=1 Ylläoleva kaava on yksi stokastiikan tärkeimpiä tuloksia, sillä se kertoo tarkasti, miten riippumattomien ja samoin jakautuneiden satunnaismuuttujien summan keskihajonta käyttäytyy suhteessa summattavien lukumäärään. Erityisen merkillepantavaa on se, että suurilla n:n arvoilla on summan keskihajonta mitättömän pieni suhteessa summan odotusarvoon ( n ) E X i i=1 = µn. Esimerkki 5.5 (Noppapeli). Pelataan n kierrosta noppapeliä, jossa yksittäisellä kierroksella voittaa nopan silmäluvun mukaisen määrän euroja. Laske kertyneen tuoton S = X 1 + + X n odotusarvo ja keskihajonta tapauksissa n = 10, 100, 1000. Yhden kierroksen tuoton odotusarvo on µ X = 1 6 1 + 1 6 2 + + 1 6 6 = 3.5 ja keskihajonta on kahden desimaalin tarkkuudella σ X = ( 1 6 (1 µ)2 + 1 6 (2 µ)2 + + 1 ) 1/2 (6 µ)2 = 1.71. 6 Koska pelikierrokset ovat stokastisesti riippumattomat ja samoin jakautuneet, saadaan kertyneen tuoton odotusarvoksi µ S = µ X n ja keskihajonnaksi σ S = σ X n. Tulokset eri n:n arvoilla ovat alla. 67
n µ S σ S 10 35 5.4 100 350 17.1 1000 3500 54.0 Allaolevassa kuvassa on simuloimalla tuotettuja kertyneen tuoton S n jakaumia. Jokaisessa kuvassa havaitaan, että käytännössä kaikki simuloidut arvot sisältyvät neljän keskihajonnan sisään odotusarvosta. Chebyshevin epäyhtälön (fakta 4.6) mukaan tiedetään, että näin tapahtuu vähintään todennäköisyydellä 15 = 93.75%. 16 10 20 30 40 50 60 250 300 350 400 450 3200 3400 3600 3800 n = 10 n = 100 n = 1000 Esimerkki 5.6 (Lentoyhtiö). 300 lentolippua myydään lennolle, jossa on 290 matkustajapaikkaa. Arviolta 5% lipun ostaneista jää saapumatta lennolle, toisistaan riippumattomasti. Millä todennäköisyydellä kaikki saapujat mahtuvat lennolle? Lennolle saapuvien matkustajien lukumäärä voidaan kirjoittaa satunnaismuuttujien summana T = X 1 + + X 300, missä { 1, jos lentolipun i ostaja saapuu lennolle, X i = 0, muuten. Indikaattorimuuttujan X i odotusarvo on µ X = 0.05 0 + 0.95 1 = 0.95 ja keskihajonta σ X = ( 0.05 (0 µ X ) 2 + 0.95 (1 µ X ) 2 ) 1/2 = 0.218. Koska satunnaismuuttujat X 1, X 2,... ovat stokastisesti riippumattomat ja samoin jakautuneet, saadaan saadaan satunnaismuuttujan T odotusarvoksi µ T = µ X 300 = 285 ja keskihajonnaksi σ T = σ X 300 = 3.77. Kaikki saapujat 68
mahtuvat lennolle silloin, kun N 290. Tämän tapahtuman todennäköisyyttä voidaan Chebyshevin epäyhtälön avulla arvioida muodossa P(T 290) P(T [280, 290]) = P(T = µ T ±1.32σ T ) 1 1 1.32 2 42.6%. Näin ollen kaikki saapujat mahtuvat lennolle vähintään todennäköisyydellä 42.6%. Tämä alaraja kuulostaa hyvin pessimistiseltä arviolta. Koska T on riippumattomien ja samoin jakautuneiden {0, 1}-arvoisten satunnaismuuttujien summa, tunnetaan sen jakauma itse asiassa tarkasti. Kuten kappaleessa 5.1 todettiin, noudattaa T binomijakaumaa parametreina n = 300 ja p = 0.95. Tietokoneella voidaan laskea tarkka todennäköisyys P(T 290) = 93.5%. Binomijakaumalle Chebyshevin epäyhtälö antaa siis ylipessimistisiä arvioita 2 Alla on kuva satunnaismuuttujan T jakauman tiheysfunktiosta. Tiheysfunktion arvot ovat aidosti positiivisia kaikilla x {0, 1,..., 300}, mutta tähtitieteellisen pieniä kun x 250, joten ne eivät näy kuvassa. 0.100 0.075 0.050 0.025 0.000 0 100 200 300 5.3 Satunnaismuuttujien keskiarvo ja suurten lukujen laki Summan keskihajonnan avulla voidaan todistaa vahvempi versio aiemmasta suurten lukujen laista (fakta 3.3). Summattavien ei tarvitse olla stokastisesti riippumattomia, vaan riittää että ne ovat korreloimattomia. Fakta 5.7. Jos satunnaismuuttujat X 1, X 2,... ovat korreloimattomia, ja kaikilla on sama odotusarvo µ ja keskihajonta σ, niin mielivaltaisen pienellä ɛ > 0, tapahtuman n X k = µ ± ɛ (5.5) n 1 k=1 2 riippumattomien satunnaismuuttujien summille saadaan tarkempia estimaatteja ns. Chernoffin epäyhtälön avulla 69
todennäköisyys lähestyy ykköstä suurilla n:n arvoilla 3. Todistus. Merkitään S n = X 1 + + X n. Tällöin summan S n odotusarvo on µn ja keskihajonta σ n. Tästä seuraa, että satunnaismuuttujan M n = n 1 S n odotusarvo on µ Mn = µ ja keskihajonta σ Mn = σn 1/2. Kun merkitään k = ɛn1/2, σ voidaan tapahtuma (5.5) lausua muodossa M n = µ Mn ± kσ Mn, ja Chebyshevin epäyhtälön tämän tapahtuman todennäköisyys on vähintään P(M n = µ Mn ± kσ Mn ) 1 1 k 2 = 1 σ2 ɛ 2 n. Väite seuraa, koska ylläolevan epäyhtälön oikea puoli lähestyy ykköstä, kun n kasvaa. 5.4 Summan normaaliapproksimaatio Esimerkissä 5.5 simuloitu sadan nopanheiton summan S = S 100 ja esimerkissä 5.6 simuloitu kolmensadan indikaattorimuuttujan summa T ovat muodoltaan samankaltaiset, kuten allaoleva kuva osoittaa. 300 350 400 270 285 300 S = S 100 (esimerkki 5.5) T (esimerkki 5.6) Jakaumat ovat jopa yllättävän samankaltaiset, sillä noppapelin tuottokertymä S = S 100 ja lennolle saapuvien lukumäärä T liittyvät täysin erilaisiin konteksteihin. Ainoa kyseisiä satunnaismuuttujia yhdistävä tekijä on se, että molemmat voidaan tulkita stokastisesti riippumattomien satunnaismuuttujien summana. 3 Tarkemmin ilmaistuna lim n P( n 1 n k=1 X k µ ɛ) = 1. 70
Jakaumien muotoa voi tarkemmin vertailla piirtämällä normitettujen satunnaismuuttujien S = S µ S T µ T ja T = σ S σ T jakaumat. Ne on esitetty kuvassa 5.1. Punaisella piirretty jakaumien muotoa tarkasti approksimoiva funktio on f(t) = 1 2π e t2 /2. (5.6) Kyseinen Gaussin kellokäyränä tunnettu funktio on positiivinen ja integroituu ykköseksi, joten se on erään jatkuvan jakauman tiheysfunktio. Tiheysfunktion (5.6) määrittämä jatkuva jakauma on nimeltään normitettu normaalijakauma. 4 2 0 2 4 4 2 0 2 4 S (esimerkki 5.5) T (esimerkki 5.6) Kuva 5.1: Normitettujen satunnaismuuttujien S ja T simuloidut jakaumat. Normitettujen jakaumien samankaltaisuus on universaali matematiikan laki, joka koskee kaikkia stokastisesti riippumattomia satunnaismuuttujien summia. Tämä tärkeä tulos tunnetaan nimellä keskeinen raja-arvolause. Fakta 5.8 (Keskeinen raja-arvolause). Jos summan S n = X 1 + X n termit ovat stokastisesti riippumattomia ja samoin jakautuneita satunnaismuuttujia, joilla on odotusarvo µ X ja keskihajonta 0 < σ X <, niin normitettu summa S n = S n µ Sn σ Sn, missä µ Sn = µ X n ja σ Sn = σ X n, noudattaa suurilla n arvoilla likimain normitettua normaalijakaumaa. Todistus sivuutetaan tässä yhteydessä. 71
5.5 Normaalijakauma Yleinen normaalijakauma parametreina µ (, ) ja σ (0, ) on yhden muuttujan jatkuva jakauma, jonka tiheysfunktio on f(x) = 1 (x µ)2 e 2σ 2. 2πσ 2 Tiheysfunktiota sopivasti osittain integroimalla voidaan vahvistaa, että µ = xf(x) dx ja σ = ( 1/2 (x µ) 2 f(x) dx), joten parametri µ on normaalijakauman odotusarvo ja parametri σ sen keskihajonta. Normaalijakauman kertymäfunktiota tarkastelemalla havaitaan myös, että jos X on normaalijakautunut parametrein µ X ja σ X, niin tällöin Y = a+bx on normaalijakautunut parametrein µ Y = a + bµ X ja σ Y = b σ X. Tästä seuraa, että normitettu satunnaismuuttuja Z = X µ X σ X (5.7) noudattaa normitettua normaalijakaumaa odotusarvona 0 ja keskihajontana 1. Vastaavasti mikä tahansa parametrin µ ja σ normaalijakautunut satunnaismuuttuja voidaan esittää muodossa X = µ + σz, (5.8) missä Z noudattaa normitettua normaalijakaumaa. Normaalijakauman kertymäfunktiota ei voi esittää siistissä suljetussa muodossa, joten siihen liittyvät todennäköisyydet lasketaan kertymäfunktion taulukoiden tai numeeristen ohjelmistojen avulla. Normaalijakauman taulukoissa yleensä raportoidaan vain normitetun normaalijakauman kertymäfunktion arvot, sillä muut normaalijakaumat voidaan palauttaa normitettuun tapaukseen kaavojen (5.7) (5.8) avulla. Esimerkki 5.9 (Älykkyysosamäärä). Yhdeksäsluokkalaisten älykkyysosamäärä noudattaa likimain normaalijakaumaa (µ = 100, σ = 15). Millä todennäköisyydellä satunnaisesti valitun yhdeksäsluokkalaisen älykkyysosamäärä on (a) yli 130? (b) välillä 85 115? 72
2% 14% 68% 14% 2% σ σ 40 55 70 85 100 115 130 145 160 Normitettu satunnaismuuttuja Z = X µ noudattaa normitettua normaalijakaumaa, joten σ ( ) X µ 130 100 P(X > 130) = P > = P(Z > 2). σ 15 Normitetun normaalijakauman symmetrian ja jatkuvuuden perusteella pätee P(Z > 2) = P(Z < 2) = P(Z 2). Vastaukseksi (a)-kohtaan saadaan normaalijakauman taulukoista P(Z 2) 0.023. Samaan tapaan ( 85 100 P(85 X 115) = P 15 = P( 1 Z 1) = P( 1 < Z 1) X µ σ = P(Z 1) P(Z 1), ) 115 100 15 joten (b)-kohdan vastaukseksi saadaan normaalijakauman taulukoista P(Z 1) P(Z 1) 0.683. Esimerkki 5.10 (Noppapeli). Arvioi normaalijakauman avulla, millä todennäköisyydellä esimerkin 5.5 noppapelissä 100 pelikierrokselta kertynyt tuotto on (a) välillä 316 384 EUR? (b) yli 500 EUR? Merkitään kertynyttä tuottoa S 100 = X 1 + + X 100. Koska yhden kierroksen tuoton odotusarvo ja keskihajonta (yhden desimaalin tarkkuudella) ovat µ X = 3.5 ja σ X = 1.7, ja tuotot ovat stokastisesti riippumattomat, on 100 pelikierroksen tuoton odotusarvo µ S100 = 3.5 100 = 350 73
ja keskihajonta σ S100 = 1.7 100 = 17. Kun normitetun tuottokertymän S 100 350 jakaumaa arvioidaan normitettua normaalijakaumaa noudattavalla satunnaismuuttujalla Z, saadaan tulokseksi 17 ( P(316 S 100 384) = P 2 S ) 100 350 2 17 P( 2 Z 2) = 1 2P(Z 2) 95.4%. ja ( S100 350 P(S 100 > 500) = P 17 P(Z > 8.82) = P(Z 8.82) 6 10 19. ) > 8.82 Esimerkki 5.11 (Lentoyhtiö). Arvioi normaalijakauman avulla, millä todennäköisyydellä esimerkissä 5.6 kaikki lennolle saapuvat matkustajat mahtuvat lennolle. Esimerkissä 5.6 johdettiin lennolle saapuvien matkustajien lukumäärän T odotusarvoksi µ T = 285 ja keskihajonnaksi σ T = 3.77. Lennolle saapuvien matkustajien normitettu lukumäärä on satunnaismuuttuja T µ T σ T = T 285 3.77. Kun satunnaismuuttujan T 285 jakaumaa arvioidaan normitettua normaalijakaumaa noudattavalla satunnaismuuttujalla Z, havaitaan että kaikki matkus- 3.77 tajat mahtuvat lennolle todennäköisyydellä ( ) T 285 290 285 P(T 290) = P 3.77 3.77 ( ) T 285 = P 1.33 3.77 P(Z 1.33) = 90.8%. Hieman tarkemman arvion saa huomaamalla, kokonaislukuarvoiselle satunnais- 74
muuttujalle T pätee P(T 290) = P(T 290.5), jolloin P(T 290) = P(T 290.5) ( ) T 285 290.5 285 = P 3.77 3.77 ( ) T 285 = P 1.46 3.77 P(Z 1.46) = 92.8%. Näin saatu ns. jatkuvuuskorjaus tuottaa hieman tarkemman arvion, sillä tapahtuman tarkka todennäköisyys on binomijakauman mukaan P(T 290) = 93.5%. 5.6 Poisson-approksimaatio Keskeinen raja-arvolause kertoo, että stokastisesti riippumattomien ja samoin jakautuneiden satunnaismuuttujien summa S n = X 1 + X n noudattaa suurilla n:n arvoilla likimain normaalijakaumaa parametrein µ X n ja σ X n, kunhan summattavien keskihajonta σ X on aidosti positiivinen ja äärellinen. Tietyissä tilanteissa tarvitaan arvioita satunnaismuuttujien summalle, jossa σ X on hyvin lähellä nollaa. Tällöin normaaliapproksimaation tarkkuus on heikko. Esimerkki 5.12. Suositun uutissivuston www-palvelimelle saapuu keskimäärin λ = 2.6 sivupyyntöä sekunnissa. Arvioi todennäköisyys, jolla seuraavan sekunnin aikana palvelimelle saapuu yli 10 sivupyyntöä. Luonnollinen malli sekunnin aikana saapuville sivupyynnöille on satunnaismuuttujien summa S n = n i=1 X i, missä n on uutissivustoa seuraavien käyttäjien lukumäärä ja { 1, jos käyttäjältä i saapuu sivupyyntö, X i = 0, muuten. Summattavien indikaattorimuuttujien odotusarvo on µ X = p ja keskihajonta σ X = (p(1 p)) 1/2, missä p = P(X i = 1). Näin ollen saapuvien sivupyyntöjen odotusarvo voidaan kirjoittaa muodossa E(S n ) = np. Parametreja n ja p ei tehtävänannon pohjalta tunneta, mutta tunnetun odotusarvon λ pohjalta voidaan ratkaista p = λ. Kun uutissivustoa seuraavien käyttäjien lukumäärä n on suuri, n on summattavien keskihajonta likimain σ X = (p(1 p)) 1/2 λ 1/2 n 1/2. Koska σ X on hyvin lähellä nollaa, ei normaaliapproksimaation tarkkuudelle ole takeita. 75
Ylläolevan esimerkin tilanteeseen sopiva approksimoiva jakauma on lukujoukon {0, 1, 2,... } diskreetti jakauma tiheysfunktiona f(x) = e λ λx, x = 0, 1, 2,... x! Tämä jakauma on Poisson-jakauma parametrina λ > 0. Jakauma on nimetty ranskalaismatemaatikko Siméon Denis Poissonin (1781 1840) mukaan. Seuraava tulos tunnetaan nimellä pienten lukujen laki. Fakta 5.13. Jos summan S n = X 1 + X n termit ovat stokastisesti riippumattomia ja samoin jakautuneita {0, 1}-arvoisia satunnaismuuttujia odotusarvona µ X λ/n, niin S n noudattaa suurilla n likimain Poisson-jakaumaa parametrina λ. Todistus. Ylläolevien oletusten vallitessa S n noudattaa binomijakaumaa parametreina n ja p = µ X, joten ( ) n P(S n = x) = p x (1 p) n x. x Kun n on suuri, yllä esiintyvä binomikerroin on likimain ( ) n x = 1 x 1 (n k) = nx x 1 ( 1 k ) x! x! n k=0 k=0 nx x!. Lisäksi kun p λ, pätee px n (1 p) n x ( λ n ( 1 λ n) n x = Yhdistämällä nämä kolme arviota havaitaan, että ) x (, ja kaavan limn 1 + x n n) = e x avulla ( 1 λ ) x ( 1 λ n e n n) λ. P(S n = x) = ( n )p x (1 p) n x nx x x! ( λ n ) x e λ λ λx = e x!. Binomijakaumaa parametreina n ja p voidaan siis arvioida kahdella eri jakaumalla: (i) normaalijakauma parametrein µ = np ja σ = (np(1 p)) 1/2, tarkka silloin kun n on suuri ja p ei kovin lähellä nollaa eikä ykköstä (ii) Poisson-jakauma parametrina λ = np, tarkka silloin kun n on suuri ja p lähellä nollaa. 76
Esimerkki 5.14. Suositun uutissivuston www-palvelimelle saapuu keskimäärin λ = 2.6 sivupyyntöä sekunnissa. Arvioi todennäköisyys, jolla seuraavan sekunnin aikana palvelimelle saapuu yli 10 sivupyyntöä. Saapuvien sivupyyntöjen lukumäärää on luonnollista arvioida binomijakaumalla parametreina n ja p λ. Faktan 5.13 mukaan suurella n kyseinen binomijakauma on likimain Poisson-jakauma parametrina λ. Kysytty todennäköisyys n on siis arviolta P(S n > 10) = 1 P(S n 10) 10 x=0 λ λx e x! 0.000087. 5.7 Yhteenveto Satunnaismuuttujien summan S n = n i=1 X i odotusarvo ja keskihajonta määräytyvät ao. taulukon kaavoista. Summan termit E( i X i) SD( i X i) Yleiset i µ i ( i σ2 i + ) 1/2 i j:j i σ iσ j ρ i,j Korreloimattomat i µ i ( i σ2 i ) 1/2 Korreloimattomat ja samoin jakautuneet µn σ n Jos satunnaismuuttujien summan S n = X 1 + X n termit ovat stokastisesti riippumattomia ja samoin jakautuneita, odotusarvona µ X ja keskihajontana σ X, niin summan odotusarvo on µ Sn = µ X n ja keskihajonta σ Sn = σ X n. Silloin kun σ X on aidosti positiivinen ja äärellinen, noudattaa normitettu summa Sn µ Sn σ Sn suurilla n likimain normitettua normaalijakaumaa, joten jakauman näkökulmasta S n µ Sn + σ Sn Z, missä Z noudattaa normitettua normaalijakaumaa. Jos summattavat ovat {0, 1}- arvoisia, on summan tarkka jakauma binomijakauma parametreina n ja p = µ X. Kun p ei ole liian lähellä nollaa tai ykköstä, voidaan kyseistä binomijakaumaa arvioida yo. normaalijakaumaa käyttäen. Pienillä p λ/n arvioilla parempi arvio saadaan Poisson-jakaumasta parametrina λ > 0. 77
5.8 Sanastoa suomi Bernoulli-jakauma binomijakauma keskeinen raja-arvolause konvoluutio korreloitu korreloimaton normaaliapproksimaatio normaalijakauma normitettu normitettu normaalijakauma Poisson-approksimaatio englanti Bernoulli distribution binomial distribution central limit theorem convolution correlated uncorrelated normal approximation normal distribution, Gaussian distribution normalised standard normal distribution Poisson approximation 78
Hakemisto alakvartiili, 76 Bayesin kaava, 15, 92 Bernoulli-jakauma, 59 betajakauma, 96 binomijakauma, 59 binomikerroin, 18 bitti, 43 Chebyshevin epäyhtälö, 50 datajoukko, 72 datakehikko, 72 eksponenttijakauma, 25 entropia, 43 ergodinen, 46 erotus, 9 esiintyvyysharha, 15 estimaattori, 83 harhaton estimaattori, 83 hylkäysalue, 114 hyperparametri, 98 indikaattorifunktio, 26 jakauma, 21 diskreetti, 23 empiirinen, 73 jatkuva, 23 kertoma, 18 kertymäfunktio, 22 keskiarvo, 75 keskihajonta jakauman, 48 satunnaismuuttujan, 48 kombinatoriikka, 16 komplementti, 9 korrelaatio yhteisjakauman, 52 kovarianssi yhteisjakauman, 51 kvantiili, 75 leikkaus, 9 lukumäärä listat, 17 osajoukot, 18 lukumäärä, järjestykset, 18 mediaani, 75 merkitsevyystaso, 111 mitallinen funktio, 34 joukko, 19 momentti, 42 moodi, 75 multinomijakauma, 120 muuttuja, 72 nollahypoteesi, 108 normaalijakauma normitettu, 65 osajoukko, 8 ositus, 8 osituskaava, 14 otoskeskihajonta, 76 otoskorrelaatio, 77 otoskovarianssi, 77 p-arvo, 109 perusjoukko, 7 pistemassafunktio, 23 pistetodennäköisyysfunktio, 23 Poisson-jakauma, 24, 70 posteriorijakauma, 92 123
priorijakauma, 92 prosentiili, 76 reunajakauma diskreetti, 29 jatkuva, 29 reunatiheysfunktio diskreetti, 29 jatkuva, 29 riippumattomat satunnaismuuttujat, 30 tapahtumat, 12 satunnaismuuttuja, 20 diskreetti, 23 sigma-algebra, 19 suppeneminen stokastinen, 37 suurimman uskottavuuden estimaatti, 81 suurten lukujen laki, 37 vahva, 46 uskottavuusfunktio, 81, 92 logaritminen, 81 varianssi jakauman, 48 satunnaismuuttujan, 48 vastahypoteesi, 108 yhdiste, 9 yhteisjakauma, 25 diskreetti, 27 jatkuva, 27 tiheysfunktio, 27 yläkvartiili, 76 tapahtuma, 7 poissulkevat, 8 tasajakauma diskreetti, 24 jatkuva, 24 tiheysfunktio, 23 empiirinen, 73 tilastollinen merkitsevyys, 109 tilastollinen testi, 108 todennäköisyys aksiooma, 10 ehdollinen, 12 frekvenssitulkinta, 39 jakauma, 10 mitta, 10 monotonisuus, 10 summasääntö, 10 tulosääntö, 12 todennäköisyysfunktio, 23 todennäköisyysväli, 105 toteuma, 7 tulojoukko, 9 tyhjä joukko, 9 124
Kirjallisuutta [JP04] Jean Jacod and Philip Protter. Probability Essentials. Springer, second edition, 2004. [Kal02] Olav Kallenberg. Foundations of Modern Probability. Springer, second edition, 2002. [Wil91] David Williams. Probability with Martingales. Cambridge University Press, 1991. 125