Satunnaismuuttujien summa ja keskiarvo

Samankaltaiset tiedostot
Satunnaismuuttujien summa ja keskiarvo

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

Opiskelijanumero Yleisarvio Työläys Hyödyllisyys 12345A K K B U 3 3 3

Satunnaismuuttujan odotusarvo ja laskusäännöt

Keskihajonta ja korrelaatio

Satunnaismuuttujan odotusarvo ja laskusäännöt

Bayesläiset tilastolliset mallit

Liite B. Suomi englanti-sanasto

11.1 Nollahypoteesi, vastahypoteesi ja p-arvo

11.1 Nollahypoteesi, vastahypoteesi ja poikkeavat havainnot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Todennäköisyyden käsite ja laskusäännöt

30A02000 Tilastotieteen perusteet

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Satunnaismuuttujat ja jakaumat

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Otosavaruus ja todennäköisyys Otosavaruus Ë on joukko, jonka alkiot ovat kokeen tulokset Tapahtuma on otosavaruuden osajoukko

Tilastomatematiikka Kevät 2008

11 Raja-arvolauseita ja approksimaatioita

Jatkuvat satunnaismuuttujat

Ilkka Mellin (2008) 1/5

(b) Tarkista integroimalla, että kyseessä on todella tiheysfunktio.

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Harjoitus 2: Matlab - Statistical Toolbox

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Todennäköisyyslaskenta IIa, syys lokakuu 2019 / Hytönen 3. laskuharjoitus, ratkaisuehdotukset

6. laskuharjoitusten vastaukset (viikot 10 11)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

V ar(m n ) = V ar(x i ).

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

Poisson-prosessien ominaisuuksia ja esimerkkilaskuja

Tilastollinen aineisto Luottamusväli

x 4 e 2x dx Γ(r) = x r 1 e x dx (1)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

3.6 Su-estimaattorien asymptotiikka

Moniulotteisia todennäköisyysjakaumia

Johdatus tn-laskentaan torstai

Mat Sovellettu todennäköisyyslasku A

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Sovellettu todennäköisyyslaskenta B

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Johdatus todennäköisyyslaskentaan Jatkuvia jakaumia. TKK (c) Ilkka Mellin (2005) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Todennäköisyyslaskun kertaus. Heliövaara 1

TODENNÄKÖISYYSLASKUN KERTAUS Peruskäsitteitä

Valintahetket ja pysäytetyt martingaalit

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

Todennäköisyyden ominaisuuksia

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

031021P Tilastomatematiikka (5 op) viikko 3

5. laskuharjoituskierros, vko 8, ratkaisut

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Todennäköisyysjakaumia

Väliestimointi (jatkoa) Heliövaara 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Satunnaismuuttujien muunnokset ja niiden jakaumat

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

1. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden heittojen lukumäärä, joilla tuli 1, 2, 3 tai 4.

Sovellettu todennäköisyyslaskenta B

Johdatus todennäköisyyslaskentaan Satunnaismuuttujien muunnokset ja niiden jakaumat. TKK (c) Ilkka Mellin (2004) 1

b) Jos Ville kaataisikin karkit samaan pussiin ja valitsisi sieltä sattumanvaraisen karkin, niin millä todennäköisyydellä hän saisi merkkarin?

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Jatkuvia jakaumia

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

Inversio-ongelmien laskennallinen peruskurssi Luento 7

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Ilkka Mellin Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

,ܾ jaü on annettu niin voidaan hakea funktion

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi

Mat Sovellettu todennäköisyyslasku A

3.7 Todennäköisyysjakaumia

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa I

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa I

4. Todennäköisyyslaskennan kertausta

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

(b) Onko hyvä idea laske pinta-alan odotusarvo lähetmällä oletuksesta, että keppi katkeaa katkaisukohdan odotusarvon kohdalla?

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

k S P[ X µ kσ] 1 k 2.

Stokastiikka ja tilastollinen ajattelu

Transkriptio:

Luku 5 Satunnaismuuttujien summa ja keskiarvo Lasse Leskelä Aalto-yliopisto 17. marraskuuta 2017 5.1 Satunnaismuuttujien summa Kahden satunnaismuuttujan summa X + Y on satunnaismuuttuja, jonka jakauma voidaan määrittää X:n ja Y :n yhteisjakaumasta f X,Y (x, y). Summan tiheysfunktioksi saadaan f X+Y (s) = { x f X,Y (x, s x) (diskreetti yhteisjakauma), f X,Y (x, s x) dx (jatkuva yhteisjakauma). Jos summan termit ovat stokastisesti riippumattomat, voidaan ylläolevat kaavat kirjoittaa tiheysfunktioiden f X (x) ja f Y (y) avulla 1 muodossa f X+Y (s) = { x f X(x)f Y (s x) (diskreetti yhteisjakauma), f X(x)f Y (s x) dx (jatkuva yhteisjakauma). (5.1) Esimerkki 5.1 (Kahden satunnaismuuttujan summa). Satunnaismuuttujat X 1 ja X 2 ovat toisistaan riippumattomat noudattavat lukujoukon {0, 1, 2,... } geometrista jakaumaa parametrina a = 4/5 ja tiheysfunktiona 1 Kaavan (5.1) yhtälöt voidaan tulkita tiheysfunktioiden f X ja f Y konvoluutioina. Yleisesti funktioiden f ja g konvoluutio h = f g määritellään diskreetissä tilanteessa kaavalla h(z) = x f(x)g(z x) ja jatkuvassa tilanteessa kaavalla h(z) = f(x)g(z x) dx. 63

0.2 f(x) = (1 a)a x. 0.1 0.0 0 5 10 15 20 25 Määritä satunnaismuuttujan X 1 + X 2 jakauma. Satunnaismuuttujan X 1 + X 2 arvojoukko on {0, 1, 2,... } ja tiheysfunktio saadaan määritettyä summakaavasta (5.1). Koska f(x) = 0 pisteissä x < 0, f X1 +X 2 (s) = x f(x)f(s x) = s (1 a)a x (1 a)a s x. x=0 Näin ollen summan jakauma voidaan esittää tiheysfunktiona 0.2 f X1 +X 2 (s) = (1 a) 2 (s + 1)a s. 0.1 0.0 0 5 10 15 20 25 Monen satunnaismuuttujien summa S n = X 1 + + X n ja keskiarvo n 1 S n ovat satunnaismuuttujia, joiden avulla mallinnetaan satunnaisotannan havaintojen esiintyvyyksiä, kohinaisten mittausten keskiarvoja sekä talouden tuottoja kustannuskertymiä. Silloin kun summan termit ovat stokastisesti riippumattomia ja satunnaismuuttujan X kanssa samoin jakautuneita, voidaan summan S n jakauma määrittää X:n jakaumasta. Yksinkertaisimmassa tilanteessa summan termit ovat {0, 1}-arvoisia ja jakautuneet tiheysfunktion { f(x) = (1 p) 1 x p x 1 p, x = 0, = p, x = 1, mukaan. Tämä on Bernoulli-jakauma parametrina p [0, 1], missä parametri p kertoo tapahtuman X = 1 todennäköisyyden. Tällöin summa S n saa arvon x täsmälleen silloin, kun summattavista x saavat arvon 1 ja loput n x saavat arvon 0. Koska n:stä summattavasta voidaan valita ( n x) tavalla x arvon 1 saavaa termiä, havaitaan että summan S n jakauma noudattaa tiheysfunktiota ( ) n f(x) = p x (1 p) n x, x = 0, 1,..., n. x Tämä on binomijakauma parametreina n 1 ja p [0, 1]. Stokastisesti riippumattomien ja samoin jakautuneiden {0, 1}-arvoisten satunnaismuuttujien summan jakauma on siis aina binomijakauma. 64

Esimerkki 5.2. Monivalintakokeessa on 20 kysymystä, joista jokaisessa pitää valita yksi oikea vastaus kolmen vaihtoehdon joukosta. Mikä on todennäköisyys saada kokeesta umpimähkään arvaamalla vähintään 19 oikein? Oikeiden vastausten lukumäärä voidaan esittää summana S n = X 1 + +X n, jossa n = 20 ja X i = { 1, jos kysymyksen i vastaus on oikein, 0, muuten. Umpimähkään arvatessa ovat yksittäisten kysymysten vastaukset toisistaan riippumattomat, ja yksittäinen vastaus on oikein todennäköisyydellä 1. Näin ollen 3 termit X 1,..., X 20 ovat toisistaan riippumattomat ja Bernoulli-jakautuneet parametrina p = 1. Tämän seurauksena summa S 3 n noudattaa binomijakaumaa parametreina n = 20 ja p = 1 ja tiheysfunktiona 3 0.2 f(x) = ( ) 20 (1/3) x (1 1/3) 20 x. x 0.1 Todennäköisyys saada vähintään 19 oikein on siis 0.0 P(S n 19) = f(19) + f(20) 0 5 10 15 20 11.47 10 9 + 0.29 10 9 12 10 9. Tiheysfunktion arvot pisteissä x 17 ovat niin pieniä, että ne eivät näy ylläolevassa tiheysfunktion kuvaajassa. Yleisessä tapauksessa, jossa summattavat eivät ole binaariarvoisia, ovat summan jakauman määrittämiseen tarvittavat konvoluutiokaavat ovat yleensä niin monimutkaisia, että summan jakauman lauseketta ei voi kirjoittaa siistissä suljetussa muodossa. Silloin kun summattavien määrä on suuri, voidaan summan jakaumaa kuitenkin arvioida hyvin tarkasti normaali- tai Poisson-jakauman avulla. Tässä luvussa opitaan soveltamaan normaali- ja Poisson-jakaumia käytännön tilanteissa esiintyvien summien ja keskiarvojen analysoimiseen. 5.2 Summan keskihajonta Luvussa 3 esitetty suurten lukujen laki (fakta 3.3) kertoo, että keskiarvo suuresta määrästä riippumattomia X:n tavoin jakautuneita satunnaislukuja (odotusarvo µ, keskihajonta σ) on suurella todennäköisyydellä likimain 1 n n X i µ. i=1 65

Suurten lukujen laki ei kuitenkaan kerro sitä, miten tarkka kyseinen arvio on, eikä sitä, miten summattavien lukumäärä n ja summattavien keskihajonta σ vaikuttavat approksimaation tarkkuuteen. Approksimaation tarkkuutta voidaan mitata laskemalla summan keskihajonta ( ) ( 1 n n ) SD X i = 1 n n SD X i. i=1 i=1 Tämän auki laskemiseksi tarvitaan laskentakaava summan keskihajonnalle. Tarkastellaan ensiksi kahden muuttujan tapausta seuraavassa esimerkissä. Esimerkki 5.3 (Kahden satunnaismuuttujan summa). Mitä voidaan sanoa summan X + Y keskihajonnasta, kun tunnetaan odotusarvot µ X = 1 ja µ Y = 1 sekä keskihajonnat σ X = 2 ja σ Y = 3? Kovarianssin lineaarisuuden ja symmetrisyyden perusteella Var(X + Y ) = Cov(X + Y, X + Y ) = Cov(X, X) + Cov(Y, X) + Cov(X, Y ) + Cov(Y, Y ) = Var(X) + 2 Cov(X, Y ) + Var(Y ). Ottamalla ylläolevan yhtälön molemmilta puolilta neliöjuuret ja kirjoittamalla oikean puolen kovarianssitermi muodossa Cov(X, Y ) = ρσ X σ Y, missä ρ = Cor(X, Y ) on X:n ja Y :n korrelaatio, saadaan summan keskihajonnalle kaava σ X+Y = ( σ 2 X + 2ρσ X σ Y + σ 2 Y ) 1/2. (5.2) Summan keskihajontaa ei siis voi laskea tuntematta korrelaatiota. Soveltamalla kaavaan (5.2) korrelaation rajoja 1 ρ 1, saadaan summan keskihajonnalle kuitenkin estimaatit σ X σ Y σ X+Y σ X + σ Y, jotka kysymyksenasettelun lukuarvoilla vastaavat tapausta 1 σ X+Y 5. Jos X ja Y voidaan olettaa stokastisesti riippumattomiksi, voidaan kaavaan (5.2) sijoittaa ρ = 0, jolloin σ X+Y = ( ) σx 2 + σy 2 1/2, mikä kysymyksenasettelun lukuarvoilla tuottaa σ X+Y 3.61. Ylläolevassa esimerkissä johdettu summan keskihajonnan lauseke (5.2) yleistyy melko pienellä vaivalla myös kahta useamman satunnaismuuttujan summille. Fakta 5.4. Satunnaismuuttujien X 1,..., X n summan keskihajonta saadaan kaavasta ( ) ( SD X i = σi 2 + ) 1/2, σ i σ j ρ i,j (5.3) i i missä σ i = SD(X i ) ja ρ i,j = Cor(X i, X j ). i 66 j:j i

Todistus. Kovarianssin lineaarisuudesta ( ) ( Var X i = Cov X i, ) X j i i j = Cov(X i, X j ) i j = Cov(X i, X i ) + Cov(X i, X j ) i i j:j i = σi 2 + σ i σ j ρ i,j, i i j:j i joten väite seuraa ottamalla ylläolevasta yhtälöstä neliöjuuret. Tärkeä erityistapaus ylläolevasta tuloksesta on tilanne, missä X 1,..., X n ovat korreloimattomia (ρ i,j = 0) ja samoin jakautuneita (σ i = σ), jolloin kaava (5.3) pelkistyy muotoon ( n ) SD X i = σ n. (5.4) i=1 Ylläoleva kaava on yksi stokastiikan tärkeimpiä tuloksia, sillä se kertoo tarkasti, miten riippumattomien ja samoin jakautuneiden satunnaismuuttujien summan keskihajonta käyttäytyy suhteessa summattavien lukumäärään. Erityisen merkillepantavaa on se, että suurilla n:n arvoilla on summan keskihajonta mitättömän pieni suhteessa summan odotusarvoon ( n ) E X i i=1 = µn. Esimerkki 5.5 (Noppapeli). Pelataan n kierrosta noppapeliä, jossa yksittäisellä kierroksella voittaa nopan silmäluvun mukaisen määrän euroja. Laske kertyneen tuoton S = X 1 + + X n odotusarvo ja keskihajonta tapauksissa n = 10, 100, 1000. Yhden kierroksen tuoton odotusarvo on µ X = 1 6 1 + 1 6 2 + + 1 6 6 = 3.5 ja keskihajonta on kahden desimaalin tarkkuudella σ X = ( 1 6 (1 µ)2 + 1 6 (2 µ)2 + + 1 ) 1/2 (6 µ)2 = 1.71. 6 Koska pelikierrokset ovat stokastisesti riippumattomat ja samoin jakautuneet, saadaan kertyneen tuoton odotusarvoksi µ S = µ X n ja keskihajonnaksi σ S = σ X n. Tulokset eri n:n arvoilla ovat alla. 67

n µ S σ S 10 35 5.4 100 350 17.1 1000 3500 54.0 Allaolevassa kuvassa on simuloimalla tuotettuja kertyneen tuoton S n jakaumia. Jokaisessa kuvassa havaitaan, että käytännössä kaikki simuloidut arvot sisältyvät neljän keskihajonnan sisään odotusarvosta. Chebyshevin epäyhtälön (fakta 4.6) mukaan tiedetään, että näin tapahtuu vähintään todennäköisyydellä 15 = 93.75%. 16 10 20 30 40 50 60 250 300 350 400 450 3200 3400 3600 3800 n = 10 n = 100 n = 1000 Esimerkki 5.6 (Lentoyhtiö). 300 lentolippua myydään lennolle, jossa on 290 matkustajapaikkaa. Arviolta 5% lipun ostaneista jää saapumatta lennolle, toisistaan riippumattomasti. Millä todennäköisyydellä kaikki saapujat mahtuvat lennolle? Lennolle saapuvien matkustajien lukumäärä voidaan kirjoittaa satunnaismuuttujien summana T = X 1 + + X 300, missä { 1, jos lentolipun i ostaja saapuu lennolle, X i = 0, muuten. Indikaattorimuuttujan X i odotusarvo on µ X = 0.05 0 + 0.95 1 = 0.95 ja keskihajonta σ X = ( 0.05 (0 µ X ) 2 + 0.95 (1 µ X ) 2 ) 1/2 = 0.218. Koska satunnaismuuttujat X 1, X 2,... ovat stokastisesti riippumattomat ja samoin jakautuneet, saadaan saadaan satunnaismuuttujan T odotusarvoksi µ T = µ X 300 = 285 ja keskihajonnaksi σ T = σ X 300 = 3.77. Kaikki saapujat 68

mahtuvat lennolle silloin, kun N 290. Tämän tapahtuman todennäköisyyttä voidaan Chebyshevin epäyhtälön avulla arvioida muodossa P(T 290) P(T [280, 290]) = P(T = µ T ±1.32σ T ) 1 1 1.32 2 42.6%. Näin ollen kaikki saapujat mahtuvat lennolle vähintään todennäköisyydellä 42.6%. Tämä alaraja kuulostaa hyvin pessimistiseltä arviolta. Koska T on riippumattomien ja samoin jakautuneiden {0, 1}-arvoisten satunnaismuuttujien summa, tunnetaan sen jakauma itse asiassa tarkasti. Kuten kappaleessa 5.1 todettiin, noudattaa T binomijakaumaa parametreina n = 300 ja p = 0.95. Tietokoneella voidaan laskea tarkka todennäköisyys P(T 290) = 93.5%. Binomijakaumalle Chebyshevin epäyhtälö antaa siis ylipessimistisiä arvioita 2 Alla on kuva satunnaismuuttujan T jakauman tiheysfunktiosta. Tiheysfunktion arvot ovat aidosti positiivisia kaikilla x {0, 1,..., 300}, mutta tähtitieteellisen pieniä kun x 250, joten ne eivät näy kuvassa. 0.100 0.075 0.050 0.025 0.000 0 100 200 300 5.3 Satunnaismuuttujien keskiarvo ja suurten lukujen laki Summan keskihajonnan avulla voidaan todistaa vahvempi versio aiemmasta suurten lukujen laista (fakta 3.3). Summattavien ei tarvitse olla stokastisesti riippumattomia, vaan riittää että ne ovat korreloimattomia. Fakta 5.7. Jos satunnaismuuttujat X 1, X 2,... ovat korreloimattomia, ja kaikilla on sama odotusarvo µ ja keskihajonta σ, niin mielivaltaisen pienellä ɛ > 0, tapahtuman n X k = µ ± ɛ (5.5) n 1 k=1 2 riippumattomien satunnaismuuttujien summille saadaan tarkempia estimaatteja ns. Chernoffin epäyhtälön avulla 69

todennäköisyys lähestyy ykköstä suurilla n:n arvoilla 3. Todistus. Merkitään S n = X 1 + + X n. Tällöin summan S n odotusarvo on µn ja keskihajonta σ n. Tästä seuraa, että satunnaismuuttujan M n = n 1 S n odotusarvo on µ Mn = µ ja keskihajonta σ Mn = σn 1/2. Kun merkitään k = ɛn1/2, σ voidaan tapahtuma (5.5) lausua muodossa M n = µ Mn ± kσ Mn, ja Chebyshevin epäyhtälön tämän tapahtuman todennäköisyys on vähintään P(M n = µ Mn ± kσ Mn ) 1 1 k 2 = 1 σ2 ɛ 2 n. Väite seuraa, koska ylläolevan epäyhtälön oikea puoli lähestyy ykköstä, kun n kasvaa. 5.4 Summan normaaliapproksimaatio Esimerkissä 5.5 simuloitu sadan nopanheiton summan S = S 100 ja esimerkissä 5.6 simuloitu kolmensadan indikaattorimuuttujan summa T ovat muodoltaan samankaltaiset, kuten allaoleva kuva osoittaa. 300 350 400 270 285 300 S = S 100 (esimerkki 5.5) T (esimerkki 5.6) Jakaumat ovat jopa yllättävän samankaltaiset, sillä noppapelin tuottokertymä S = S 100 ja lennolle saapuvien lukumäärä T liittyvät täysin erilaisiin konteksteihin. Ainoa kyseisiä satunnaismuuttujia yhdistävä tekijä on se, että molemmat voidaan tulkita stokastisesti riippumattomien satunnaismuuttujien summana. 3 Tarkemmin ilmaistuna lim n P( n 1 n k=1 X k µ ɛ) = 1. 70

Jakaumien muotoa voi tarkemmin vertailla piirtämällä normitettujen satunnaismuuttujien S = S µ S T µ T ja T = σ S σ T jakaumat. Ne on esitetty kuvassa 5.1. Punaisella piirretty jakaumien muotoa tarkasti approksimoiva funktio on f(t) = 1 2π e t2 /2. (5.6) Kyseinen Gaussin kellokäyränä tunnettu funktio on positiivinen ja integroituu ykköseksi, joten se on erään jatkuvan jakauman tiheysfunktio. Tiheysfunktion (5.6) määrittämä jatkuva jakauma on nimeltään normitettu normaalijakauma. 4 2 0 2 4 4 2 0 2 4 S (esimerkki 5.5) T (esimerkki 5.6) Kuva 5.1: Normitettujen satunnaismuuttujien S ja T simuloidut jakaumat. Normitettujen jakaumien samankaltaisuus on universaali matematiikan laki, joka koskee kaikkia stokastisesti riippumattomia satunnaismuuttujien summia. Tämä tärkeä tulos tunnetaan nimellä keskeinen raja-arvolause. Fakta 5.8 (Keskeinen raja-arvolause). Jos summan S n = X 1 + X n termit ovat stokastisesti riippumattomia ja samoin jakautuneita satunnaismuuttujia, joilla on odotusarvo µ X ja keskihajonta 0 < σ X <, niin normitettu summa S n = S n µ Sn σ Sn, missä µ Sn = µ X n ja σ Sn = σ X n, noudattaa suurilla n arvoilla likimain normitettua normaalijakaumaa. Todistus sivuutetaan tässä yhteydessä. 71

5.5 Normaalijakauma Yleinen normaalijakauma parametreina µ (, ) ja σ (0, ) on yhden muuttujan jatkuva jakauma, jonka tiheysfunktio on f(x) = 1 (x µ)2 e 2σ 2. 2πσ 2 Tiheysfunktiota sopivasti osittain integroimalla voidaan vahvistaa, että µ = xf(x) dx ja σ = ( 1/2 (x µ) 2 f(x) dx), joten parametri µ on normaalijakauman odotusarvo ja parametri σ sen keskihajonta. Normaalijakauman kertymäfunktiota tarkastelemalla havaitaan myös, että jos X on normaalijakautunut parametrein µ X ja σ X, niin tällöin Y = a+bx on normaalijakautunut parametrein µ Y = a + bµ X ja σ Y = b σ X. Tästä seuraa, että normitettu satunnaismuuttuja Z = X µ X σ X (5.7) noudattaa normitettua normaalijakaumaa odotusarvona 0 ja keskihajontana 1. Vastaavasti mikä tahansa parametrin µ ja σ normaalijakautunut satunnaismuuttuja voidaan esittää muodossa X = µ + σz, (5.8) missä Z noudattaa normitettua normaalijakaumaa. Normaalijakauman kertymäfunktiota ei voi esittää siistissä suljetussa muodossa, joten siihen liittyvät todennäköisyydet lasketaan kertymäfunktion taulukoiden tai numeeristen ohjelmistojen avulla. Normaalijakauman taulukoissa yleensä raportoidaan vain normitetun normaalijakauman kertymäfunktion arvot, sillä muut normaalijakaumat voidaan palauttaa normitettuun tapaukseen kaavojen (5.7) (5.8) avulla. Esimerkki 5.9 (Älykkyysosamäärä). Yhdeksäsluokkalaisten älykkyysosamäärä noudattaa likimain normaalijakaumaa (µ = 100, σ = 15). Millä todennäköisyydellä satunnaisesti valitun yhdeksäsluokkalaisen älykkyysosamäärä on (a) yli 130? (b) välillä 85 115? 72

2% 14% 68% 14% 2% σ σ 40 55 70 85 100 115 130 145 160 Normitettu satunnaismuuttuja Z = X µ noudattaa normitettua normaalijakaumaa, joten σ ( ) X µ 130 100 P(X > 130) = P > = P(Z > 2). σ 15 Normitetun normaalijakauman symmetrian ja jatkuvuuden perusteella pätee P(Z > 2) = P(Z < 2) = P(Z 2). Vastaukseksi (a)-kohtaan saadaan normaalijakauman taulukoista P(Z 2) 0.023. Samaan tapaan ( 85 100 P(85 X 115) = P 15 = P( 1 Z 1) = P( 1 < Z 1) X µ σ = P(Z 1) P(Z 1), ) 115 100 15 joten (b)-kohdan vastaukseksi saadaan normaalijakauman taulukoista P(Z 1) P(Z 1) 0.683. Esimerkki 5.10 (Noppapeli). Arvioi normaalijakauman avulla, millä todennäköisyydellä esimerkin 5.5 noppapelissä 100 pelikierrokselta kertynyt tuotto on (a) välillä 316 384 EUR? (b) yli 500 EUR? Merkitään kertynyttä tuottoa S 100 = X 1 + + X 100. Koska yhden kierroksen tuoton odotusarvo ja keskihajonta (yhden desimaalin tarkkuudella) ovat µ X = 3.5 ja σ X = 1.7, ja tuotot ovat stokastisesti riippumattomat, on 100 pelikierroksen tuoton odotusarvo µ S100 = 3.5 100 = 350 73

ja keskihajonta σ S100 = 1.7 100 = 17. Kun normitetun tuottokertymän S 100 350 jakaumaa arvioidaan normitettua normaalijakaumaa noudattavalla satunnaismuuttujalla Z, saadaan tulokseksi 17 ( P(316 S 100 384) = P 2 S ) 100 350 2 17 P( 2 Z 2) = 1 2P(Z 2) 95.4%. ja ( S100 350 P(S 100 > 500) = P 17 P(Z > 8.82) = P(Z 8.82) 6 10 19. ) > 8.82 Esimerkki 5.11 (Lentoyhtiö). Arvioi normaalijakauman avulla, millä todennäköisyydellä esimerkissä 5.6 kaikki lennolle saapuvat matkustajat mahtuvat lennolle. Esimerkissä 5.6 johdettiin lennolle saapuvien matkustajien lukumäärän T odotusarvoksi µ T = 285 ja keskihajonnaksi σ T = 3.77. Lennolle saapuvien matkustajien normitettu lukumäärä on satunnaismuuttuja T µ T σ T = T 285 3.77. Kun satunnaismuuttujan T 285 jakaumaa arvioidaan normitettua normaalijakaumaa noudattavalla satunnaismuuttujalla Z, havaitaan että kaikki matkus- 3.77 tajat mahtuvat lennolle todennäköisyydellä ( ) T 285 290 285 P(T 290) = P 3.77 3.77 ( ) T 285 = P 1.33 3.77 P(Z 1.33) = 90.8%. Hieman tarkemman arvion saa huomaamalla, kokonaislukuarvoiselle satunnais- 74

muuttujalle T pätee P(T 290) = P(T 290.5), jolloin P(T 290) = P(T 290.5) ( ) T 285 290.5 285 = P 3.77 3.77 ( ) T 285 = P 1.46 3.77 P(Z 1.46) = 92.8%. Näin saatu ns. jatkuvuuskorjaus tuottaa hieman tarkemman arvion, sillä tapahtuman tarkka todennäköisyys on binomijakauman mukaan P(T 290) = 93.5%. 5.6 Poisson-approksimaatio Keskeinen raja-arvolause kertoo, että stokastisesti riippumattomien ja samoin jakautuneiden satunnaismuuttujien summa S n = X 1 + X n noudattaa suurilla n:n arvoilla likimain normaalijakaumaa parametrein µ X n ja σ X n, kunhan summattavien keskihajonta σ X on aidosti positiivinen ja äärellinen. Tietyissä tilanteissa tarvitaan arvioita satunnaismuuttujien summalle, jossa σ X on hyvin lähellä nollaa. Tällöin normaaliapproksimaation tarkkuus on heikko. Esimerkki 5.12. Suositun uutissivuston www-palvelimelle saapuu keskimäärin λ = 2.6 sivupyyntöä sekunnissa. Arvioi todennäköisyys, jolla seuraavan sekunnin aikana palvelimelle saapuu yli 10 sivupyyntöä. Luonnollinen malli sekunnin aikana saapuville sivupyynnöille on satunnaismuuttujien summa S n = n i=1 X i, missä n on uutissivustoa seuraavien käyttäjien lukumäärä ja { 1, jos käyttäjältä i saapuu sivupyyntö, X i = 0, muuten. Summattavien indikaattorimuuttujien odotusarvo on µ X = p ja keskihajonta σ X = (p(1 p)) 1/2, missä p = P(X i = 1). Näin ollen saapuvien sivupyyntöjen odotusarvo voidaan kirjoittaa muodossa E(S n ) = np. Parametreja n ja p ei tehtävänannon pohjalta tunneta, mutta tunnetun odotusarvon λ pohjalta voidaan ratkaista p = λ. Kun uutissivustoa seuraavien käyttäjien lukumäärä n on suuri, n on summattavien keskihajonta likimain σ X = (p(1 p)) 1/2 λ 1/2 n 1/2. Koska σ X on hyvin lähellä nollaa, ei normaaliapproksimaation tarkkuudelle ole takeita. 75

Ylläolevan esimerkin tilanteeseen sopiva approksimoiva jakauma on lukujoukon {0, 1, 2,... } diskreetti jakauma tiheysfunktiona f(x) = e λ λx, x = 0, 1, 2,... x! Tämä jakauma on Poisson-jakauma parametrina λ > 0. Jakauma on nimetty ranskalaismatemaatikko Siméon Denis Poissonin (1781 1840) mukaan. Seuraava tulos tunnetaan nimellä pienten lukujen laki. Fakta 5.13. Jos summan S n = X 1 + X n termit ovat stokastisesti riippumattomia ja samoin jakautuneita {0, 1}-arvoisia satunnaismuuttujia odotusarvona µ X λ/n, niin S n noudattaa suurilla n likimain Poisson-jakaumaa parametrina λ. Todistus. Ylläolevien oletusten vallitessa S n noudattaa binomijakaumaa parametreina n ja p = µ X, joten ( ) n P(S n = x) = p x (1 p) n x. x Kun n on suuri, yllä esiintyvä binomikerroin on likimain ( ) n x = 1 x 1 (n k) = nx x 1 ( 1 k ) x! x! n k=0 k=0 nx x!. Lisäksi kun p λ, pätee px n (1 p) n x ( λ n ( 1 λ n) n x = Yhdistämällä nämä kolme arviota havaitaan, että ) x (, ja kaavan limn 1 + x n n) = e x avulla ( 1 λ ) x ( 1 λ n e n n) λ. P(S n = x) = ( n )p x (1 p) n x nx x x! ( λ n ) x e λ λ λx = e x!. Binomijakaumaa parametreina n ja p voidaan siis arvioida kahdella eri jakaumalla: (i) normaalijakauma parametrein µ = np ja σ = (np(1 p)) 1/2, tarkka silloin kun n on suuri ja p ei kovin lähellä nollaa eikä ykköstä (ii) Poisson-jakauma parametrina λ = np, tarkka silloin kun n on suuri ja p lähellä nollaa. 76

Esimerkki 5.14. Suositun uutissivuston www-palvelimelle saapuu keskimäärin λ = 2.6 sivupyyntöä sekunnissa. Arvioi todennäköisyys, jolla seuraavan sekunnin aikana palvelimelle saapuu yli 10 sivupyyntöä. Saapuvien sivupyyntöjen lukumäärää on luonnollista arvioida binomijakaumalla parametreina n ja p λ. Faktan 5.13 mukaan suurella n kyseinen binomijakauma on likimain Poisson-jakauma parametrina λ. Kysytty todennäköisyys n on siis arviolta P(S n > 10) = 1 P(S n 10) 10 x=0 λ λx e x! 0.000087. 5.7 Yhteenveto Satunnaismuuttujien summan S n = n i=1 X i odotusarvo ja keskihajonta määräytyvät ao. taulukon kaavoista. Summan termit E( i X i) SD( i X i) Yleiset i µ i ( i σ2 i + ) 1/2 i j:j i σ iσ j ρ i,j Korreloimattomat i µ i ( i σ2 i ) 1/2 Korreloimattomat ja samoin jakautuneet µn σ n Jos satunnaismuuttujien summan S n = X 1 + X n termit ovat stokastisesti riippumattomia ja samoin jakautuneita, odotusarvona µ X ja keskihajontana σ X, niin summan odotusarvo on µ Sn = µ X n ja keskihajonta σ Sn = σ X n. Silloin kun σ X on aidosti positiivinen ja äärellinen, noudattaa normitettu summa Sn µ Sn σ Sn suurilla n likimain normitettua normaalijakaumaa, joten jakauman näkökulmasta S n µ Sn + σ Sn Z, missä Z noudattaa normitettua normaalijakaumaa. Jos summattavat ovat {0, 1}- arvoisia, on summan tarkka jakauma binomijakauma parametreina n ja p = µ X. Kun p ei ole liian lähellä nollaa tai ykköstä, voidaan kyseistä binomijakaumaa arvioida yo. normaalijakaumaa käyttäen. Pienillä p λ/n arvioilla parempi arvio saadaan Poisson-jakaumasta parametrina λ > 0. 77

5.8 Sanastoa suomi Bernoulli-jakauma binomijakauma keskeinen raja-arvolause konvoluutio korreloitu korreloimaton normaaliapproksimaatio normaalijakauma normitettu normitettu normaalijakauma Poisson-approksimaatio englanti Bernoulli distribution binomial distribution central limit theorem convolution correlated uncorrelated normal approximation normal distribution, Gaussian distribution normalised standard normal distribution Poisson approximation 78

Hakemisto alakvartiili, 76 Bayesin kaava, 15, 92 Bernoulli-jakauma, 59 betajakauma, 96 binomijakauma, 59 binomikerroin, 18 bitti, 43 Chebyshevin epäyhtälö, 50 datajoukko, 72 datakehikko, 72 eksponenttijakauma, 25 entropia, 43 ergodinen, 46 erotus, 9 esiintyvyysharha, 15 estimaattori, 83 harhaton estimaattori, 83 hylkäysalue, 114 hyperparametri, 98 indikaattorifunktio, 26 jakauma, 21 diskreetti, 23 empiirinen, 73 jatkuva, 23 kertoma, 18 kertymäfunktio, 22 keskiarvo, 75 keskihajonta jakauman, 48 satunnaismuuttujan, 48 kombinatoriikka, 16 komplementti, 9 korrelaatio yhteisjakauman, 52 kovarianssi yhteisjakauman, 51 kvantiili, 75 leikkaus, 9 lukumäärä listat, 17 osajoukot, 18 lukumäärä, järjestykset, 18 mediaani, 75 merkitsevyystaso, 111 mitallinen funktio, 34 joukko, 19 momentti, 42 moodi, 75 multinomijakauma, 120 muuttuja, 72 nollahypoteesi, 108 normaalijakauma normitettu, 65 osajoukko, 8 ositus, 8 osituskaava, 14 otoskeskihajonta, 76 otoskorrelaatio, 77 otoskovarianssi, 77 p-arvo, 109 perusjoukko, 7 pistemassafunktio, 23 pistetodennäköisyysfunktio, 23 Poisson-jakauma, 24, 70 posteriorijakauma, 92 123

priorijakauma, 92 prosentiili, 76 reunajakauma diskreetti, 29 jatkuva, 29 reunatiheysfunktio diskreetti, 29 jatkuva, 29 riippumattomat satunnaismuuttujat, 30 tapahtumat, 12 satunnaismuuttuja, 20 diskreetti, 23 sigma-algebra, 19 suppeneminen stokastinen, 37 suurimman uskottavuuden estimaatti, 81 suurten lukujen laki, 37 vahva, 46 uskottavuusfunktio, 81, 92 logaritminen, 81 varianssi jakauman, 48 satunnaismuuttujan, 48 vastahypoteesi, 108 yhdiste, 9 yhteisjakauma, 25 diskreetti, 27 jatkuva, 27 tiheysfunktio, 27 yläkvartiili, 76 tapahtuma, 7 poissulkevat, 8 tasajakauma diskreetti, 24 jatkuva, 24 tiheysfunktio, 23 empiirinen, 73 tilastollinen merkitsevyys, 109 tilastollinen testi, 108 todennäköisyys aksiooma, 10 ehdollinen, 12 frekvenssitulkinta, 39 jakauma, 10 mitta, 10 monotonisuus, 10 summasääntö, 10 tulosääntö, 12 todennäköisyysfunktio, 23 todennäköisyysväli, 105 toteuma, 7 tulojoukko, 9 tyhjä joukko, 9 124

Kirjallisuutta [JP04] Jean Jacod and Philip Protter. Probability Essentials. Springer, second edition, 2004. [Kal02] Olav Kallenberg. Foundations of Modern Probability. Springer, second edition, 2002. [Wil91] David Williams. Probability with Martingales. Cambridge University Press, 1991. 125