031021P Tilastomatematiikka (5 op) viikko 3

031021P Tilastomatematiikka (5 op) viikko 3 Jukka Kemppainen Mathematics Division

Jakauman tunnusluvut Jakauman tärkeimmät tunnusluvut ovat odotusarvo ja varianssi. Odotusarvo ilmoittaa jakauman keskikohdan eli arvon, jonka satunnaismuuttuja keskimääräisesti saavuttaa. Varianssi ilmoittaa, kuinka paljon satunnaismuuttujan arvot keskimäärin poikkeavat odotusarvosta. Muita tunnuslukuja ovat mm. Jakauman momentit, eli satunnaismuuttujan sopivien potenssien odotusarvot; Jakauman vinous; Kvartiilit; Keskipoikkeama... Jukka Kemppainen Mathematics Division 2 / 44

Odotusarvo Tarkastellaan odotusarvon määrittelyä erikseen diskreetin ja jatkuvan sm:n tapauksessa. Aloitetaan diskreetistä sm:stä. Määr. 14 Jos X on diskreetti satunnaismuuttuja, jonka arvojoukko on S X = {x 1,x 2,...}, niin lukua E(X) = x k P(X = x k ) k=1 sanotaan X:n odotusarvoksi edellyttäen, että sarja suppenee. Jukka Kemppainen Mathematics Division 3 / 44

Odotusarvo Määr. 15 Jos X on jatkuva satunnaismuuttuja, jonka tiheysfunktio on f X, niin lukua E(X) = xf X (x)dx sanotaan X:n odotusarvoksi edellyttäen, että integraali suppenee. Odotusarvolle käytetään usein merkintää E(X) = µ X tai yksinkertaisesti µ = µ X, jos sekaannuksen vaaraa ei ole. Huomautus 7 Erityisesti, jos diskreetti sm. saa vain äärellisen määrän arvoja, odotusarvo on aina olemassa. Kaikilla satunnaismuuttujilla ei ole odotusarvoa. Jukka Kemppainen Mathematics Division 4 / 44

Esimerkki Esim. 19 Milloin satunnaismuuttujalla X, jonka pistetodennäköisyysfunktio on muotoa P(X = k) = c 1 k p, k = 1,2,...; tiheysfunktio on f(x) = c 1 (1+x 2 ) p, x R, on odotusarvo? Jukka Kemppainen Mathematics Division 5 / 44

Diskreettien jakaumien odotusarvoja (1/2) Tärkeimpien diskreettien jakaumien tunnusluvut löytyy monista lähteistä. Tunnusluvut annetaan kokeisiin jaettavassa kaavakokoelmassa. Esimerkiksi Binomijakauman, X Bin(n, p), odotusarvo on E(X) = np. Poissonin jakauman, X Poi(a), odotusarvo on E(X) = a. Jukka Kemppainen Mathematics Division 6 / 44

Diskreettien jakaumien odotusarvoja (2/2) Laskentakaavojen intuitiivinen perustelu: Binomijakaumalle E(X) = np, sillä yksittäisessä toistossa onnistumisen tn. on p, joten pitkässä juoksussa onnistumisten lkm. on np. Poissonin jakaumalle E(X) = a on selvä, jos Poissonin jakauma ajatellaan binomijakauman raja-jakaumana. Jukka Kemppainen Mathematics Division 7 / 44

Kuvia Kuvissa on esitetty sm:ien X Bin(50, 0.2) ja X Poi(5) pistetodennäköisyysfunktiot ja merkitty odotusarvo. Kuva : X Bin(50, 0.2) ja E(X) = 10 Kuva : X Poi(5) ja E(X) = 5 Jukka Kemppainen Mathematics Division 8 / 44

Jatkuvien jakaumien odotusarvoja Tärkeimpien jatkuvien jakaumien tunnusluvut löytyy monista lähteistä. Tunnusluvut annetaan kokeisiin jaettavassa kaavakokoelmassa. Esimerkiksi Tasajakauman, X Tas(a,b), odotusarvo on E(X) = a+b 2. Normaalijakauman, X N(µ,σ 2 ), odotusarvo on E(X) = µ. Jukka Kemppainen Mathematics Division 9 / 44

Kuva Kuvassa on esitetty sm:n X N(100, 25) tiheysfunktio ja merkitty odotusarvo. Kuten kuvasta nähdään, normaalijakauma on symmetrinen odotusarvon suhteen eli odotusarvo määrää jakauman symmetria-akselin. Vinolla jakaumalla tilanne on toinen. Jukka Kemppainen Mathematics Division 10 / 44

Esimerkkejä Esim. 20 Oletetaan, että eräässä autopesulassa tunnin aikana pestyjen autojen lukumäärä noudattaa jakaumaa x 4 5 6 7 8 9 P(X = x) 1 12 1 12 1 4 (a) Laske X:n odotusarvo. 1 4 1 6 (b) Jos yksi autopesu maksaa keskimäärin 15 euroa, niin mikä on tunnin aikana pestyistä autoista saatava keskimääräinen tulo? 1 6 Jukka Kemppainen Mathematics Division 11 / 44

Esimerkkejä Esim. 21 Jatkuvan satunnaismuuttujan X tiheysfunktio on x, 0 x < 1, f X (x) = 2 x, 1 x 2, 0, muulloin. Laske X:n odotusarvo. Jukka Kemppainen Mathematics Division 12 / 44

Muunnoksen Y = h(x) odotusarvo Sovelluksissa joudutaan usein tarkastelemaan satunnaismuuttujien muunnoksia. Oletetaan, että X on satunnaismuuttuja ja h : S X R sellainen funktio, että Y = h(x) on satunnaismuuttuja. Jos X on diskreetti sm., saadaan Lause 9 Muunnoksen Y = h(x) odotusarvo on E(Y) = E(h(X)) = i:x i S X h(x i )P(X = x i ) edellyttäen, että sarja suppenee itseisesti, eli i:x i S X h(x i ) P(X = x i ) <. Jukka Kemppainen Mathematics Division 13 / 44

Muunnoksen odotusarvo Jos taasen X on jatkuva satunnaismuuttuja, jonka tiheysfunktio on f X, saadaan Lause 10 Muunnoksen Y = h(x) odotusarvo on E(Y) = E(h(X)) = h(x)f X (x)dx edellyttäen, että integraali suppenee itseisesti, eli h(x) f X (x)dx <. Jukka Kemppainen Mathematics Division 14 / 44

Muunnoksen odotusarvo Esim. 22 Olkoon X N(0, 1). Laske log-normaalijakautuneen muuttujan e X odotusarvo. Jukka Kemppainen Mathematics Division 15 / 44

Varianssi Tarkastellaan varianssin määrittelyä erikseen diskreetin ja jatkuvan sm:n tapauksessa. Aloitetaan diskreetistä sm:stä. Määr. 16 Jos X on diskreetti satunnaismuuttuja, jonka arvojoukko on S X = {1,2,...} ja odotusarvo µ X, niin lukua D 2 (X) = k:x k S X (x k µ X ) 2 P(X = x k ) sanotaan X:n varianssiksi ja merkitään D 2 (X) = Var(X) = σ 2 X edellyttäen, että sarja suppenee. Jukka Kemppainen Mathematics Division 16 / 44

Varianssi Vastaavasti jatkuvan sm:n tapauksessa määritellään Määr. 17 Jos X on jatkuva satunnaismuuttuja, jonka tiheysfunktio on f X ja odotusarvo µ X, niin lukua D 2 (X) = (x µ X ) 2 f X (x)dx sanotaan X:n varianssiksi ja merkitään D 2 (X) = Var(X) = σ 2 X edellyttäen, että integraali suppenee. Lukua σ X = Var(X) sanotaan satunnaismuuttujan X keskihajonnaksi. Jukka Kemppainen Mathematics Division 17 / 44

Varianssi Jos katsotaan varianssin määritelmää ja verrataan sitä muunnoksen h(x) = (X µ X ) 2 odotusarvoon, niin havaitaan, että itse asiassa varianssi on muunnoksen h(x) odotusarvo ja siten Var(X) = E((X E(X)) 2 ). Jukka Kemppainen Mathematics Division 18 / 44

Eräiden tärkeimpien jakaumien variansseja Binomijakauman, X Bin(n, p), varianssi on Var(X) = np(1 p). Poissonin jakauman, X Poi(a), varianssi on Var(X) = a. Tasajakauman, X Tas(a,b), varianssi on Var(X) = (b a)2 12. Normaalijakauman, X N(µ,σ 2 ), varianssi on Var(X) = σ 2. Jukka Kemppainen Mathematics Division 19 / 44

Odotusarvon ja varianssin ominaisuuksia Lause 11 Jos sm. X on todennäköisyydellä yksi vakio a, ts. P(X = a) = 1, niin E(X) = a ja Var(X) = 0. Kääntäen, jos Var(X) = 0, niin P(X = a) = 1 jollekin a R. Lause 12 Jos X ja Y ovat satunnaismuuttujia ja a, b R, niin E(aX + by) =ae(x)+be(y), Var(aX + by) =a 2 Var(X)+b 2 Var(Y) + 2abE((X E(X))(Y E(Y))) edellyttäen, että em. suureet ovat äärellisiä. Jukka Kemppainen Mathematics Division 20 / 44

Ominaisuuksia Lause 13 Jos X ja Y ovat riippumattomia, niin E(XY) = E(X)E(Y), Var(aX + by) = a 2 Var(X)+b 2 Var(Y) edellyttäen, että em. suureet ovat äärellisiä. Edelliset tulokset pätee myös n:lle riippumattomalle sm:lle. Korollaari 2 Jos X 1,...,X n ovat riippumattomia satunnaismuuttujia, joilla on odotusarvo ja varianssi, ja a 1,...,a n R, niin E(a 1 X 1 + a n X n ) = a 1 E(X 1 )+ +a n E(X n ), Var(a 1 X 1 + +a n X n ) = a 2 1Var(X 1 )+ +a 2 nvar(x n ). Jukka Kemppainen Mathematics Division 21 / 44

Esimerkki Jatkon kannalta keskeinen esimerkki Korollaarista 2 on Esim. 23 Olkoot X 1,X 2,...,X n riippumattomia satunnaismuuttujia, joille E(X i ) = µ ja D 2 (X i ) = σ 2 kaikilla i = 1,...,n. Laske aritmeettisen keskiarvon n X = 1 n i=1 X i odotusarvo ja varianssi. Jukka Kemppainen Mathematics Division 22 / 44

Todennäköisyyslaskennan raja-arvolauseita Tilastollisessa tutkimuksessa tehdään aineistojen pohjalta päätelmiä tutkittavasta ilmiöstä. Tehtäessä ilmiöstä riippumattomia havaintoja, on toivottavaa, että havaintojen lukumäärän kasvaessa saadaan yhä varmemmin oikea kuva todellisuudesta. Todennäköisyyslaskennan raja-arvolauseet luovat perustan todennäköisyyslaskennan tilastollisille sovelluksille. Jukka Kemppainen Mathematics Division 23 / 44

Tn-laskennan raja-arvolauseita Intuitiivisesti Esimerkin 23 mukaan tehtäessä satunnaismuuttujasta X riippumattomia havaintoja x 1,...,x n keskittyy havaintojen aritmeettinen keskiarvo x = 1 n n i=1 x i yhä varmemmin satunnaismuuttujan X odotusarvon ympäristöön, sillä E(X) = µ ja D 2 (X) 0, kun n. Huomaa, että havaintojen aritmeettinen keskiarvo x on sm:n X saama arvo. Pyritään kvantifioimaan edellä tehty havainto. Jukka Kemppainen Mathematics Division 24 / 44

Heikko suurten lukujen laki Lause 14 (Chebyshev) Olkoon X 1,X 2,... jono parittain riippumattomia, samalla tavalla jakautuneita sm:ia, joilla on odotusarvo E(X i ) = µ ja varianssi D 2 (X i ) = σ 2. Olkoon X (n) = 1 n n i=1 X i satunnaismuuttujien X 1,X 2,...,X n aritmeettinen keskiarvo. Tällöin P( X (n) µ ǫ) 0, kun n kaikilla ǫ > 0. Jukka Kemppainen Mathematics Division 25 / 44

Tulkinta Heikko suurten lukujen laki tarkoittaa seuraavaa: Jos X 1,...,X n ovat riippumattomia havaintoja samasta satunnaismuuttujasta X, jonka odotusarvo on µ ja varianssi σ 2, niin havaintojen lukumäärän kasvaessa havaintojen aritmeettinen keskiarvo (otoskeskiarvo) yhä varmemmin ilmoittaa todellisen odotusarvon. Otoskeskiarvolla voidaan siis estimoida odotusarvoa, kun havaintojen lukumäärä on riittävän suuri. Jukka Kemppainen Mathematics Division 26 / 44

Kuvia Kuvissa on esitetty riippumattomien normaalijakautuneiden sm:ien X i N(0,1) aritmeettisen keskiarvon X (n) tiheysfunktioita. Kun ǫ = 0.01, niin Lauseen 14 tn:ksi saadaan P( X (103 ) ǫ) 0.75 ja P( X (10 6 ) ǫ) 7.6 10 24. Jukka Kemppainen Mathematics Division 27 / 44

Vahva suurten lukujen laki Vahvempi tulos Lauseesta 14 on Lause 15 (Kolmogorov) Olkoon X 1,X 2,... jono parittain riippumattomia, samalla tavalla jakautuneita satunnaismuuttujia, joilla on odotusarvo E(X i ) = µ. Tällöin P( lim n X(n) = µ) = 1. Vahva suurten lukujen laki siis sanoo, että parittain riippumattomien, samalla tavalla jakautuneiden satunnaismuuttujien X 1,...,X n aritmeettinen keskiarvo suppenee todennäköisyydellä yksi kohti odotusarvoa µ. Jukka Kemppainen Mathematics Division 28 / 44

Esimerkki Esim. 24 Pelatessa ruletissa väriä (musta tai punainen) yhden euron panoksella on voittosumman odotusarvo 1 37 euroa. Mitä suurten lukujen laki sanoo voittosummasta, jos peliä pelataan erittäin monta kertaa yhden euron panoksella? Takaako laki, että sinun tappiot ovat pieniä? Entäpä takaako laki, että suurella pelien määrällä häviät? Jukka Kemppainen Mathematics Division 29 / 44

Keskeinen raja-arvolause Suurten lukujen laeilla on lähinnä kvalitatiivinen merkitys satunnaismuuttujien aritmeettisen keskiarvon käyttäytymisestä n:n kasvaessa. Todennäköisyyksien kvantitatiiviseen laskemiseen tarvitaan tarkempaa tietoa aritmeettisen keskiarvon jakauman käyttäytymisestä. Tämän ilmoittaa keskeinen raja-arvolause. Lause 16 (Keskeinen raja-arvolause) Olkoon X 1,X 2,... jono keskinäisesti riippumattomia, samalla tavalla jakautuneita sm:ia, joilla E(e tx i) on olemassa, kun t < δ jollakin δ > 0. Merkitään E(X i ) = µ, D 2 (X i ) = σ 2 ja S n = n i=1 X i. Tällöin ( lim P Sn E(S n ) ) x = Φ(x) = 1 x e u2 2 du. n σ Sn 2π Jukka Kemppainen Mathematics Division 30 / 44

Keskeinen raja-arvolause Keskeisessä raja-arvolauseessa esiintyvä suure voidaan kirjoittaa muodossa S S n E(S n ) n = n µ. σ Sn σ n Siis riittävän suurilla n:n arvoilla keskiarvo X = 1 n S n noudattaa likimain normaalijakaumaa, eli 1 n n i=1 X i N(µ, σ2 n ) likimain, kun n on riittävän suuri. Summan todennäköisyyden arvioimista normaalijakaumalla sanotaan normaalijakauma-approksimaatioksi. Jukka Kemppainen Mathematics Division 31 / 44

Huomioita Joskus n = 3 on riittävä otoksen koko; Joskus n = 100000 ei riitä; Pääsääntöisesti (ainakin tällä kurssilla) approksimaatio on pätevä, kun n 30. Huomautus 8 Keskeisen raja-arvolauseen todisti vuonna 1901 venäläinen A.N. Lyapunov hieman yleisemmillä oletuksilla. Satunnaismuuttujien ei esimerkiksi tarvitse olla samalla tavalla jakautuneita. Jukka Kemppainen Mathematics Division 32 / 44

Kuvia Kuvissa on esitetty jakaumien S n = n i=1 X i ja X N(E(S n ),σs 2 n ) pistetodennäköisyydet ja tiheysfunktio, kun n = 50 ja Kuva : S n Bin(n, 0.2) Kuva : X i Poi(1) Jukka Kemppainen Mathematics Division 33 / 44

Kuvia Kuvissa on esitetty jakauman S n = n i=1 X i kertymäfunktio kokonaislukupisteissä ja ja jakauman X N(E(S n ),σs 2 n ) kertymäfunktio, kun n = 50 ja Kuva : S n Bin(n, 0.2) Kuva : X i Poi(1) Jukka Kemppainen Mathematics Division 34 / 44

Kuvia Kuvissa on esitetty jakaumien S n = n i=1 X i ja X N(E(S n ),σs 2 n ) tiheysfunktiot (tf:t) ja kertymäfunktiot (kf:t), kun n = 3 ja X i Tas(0,1). Kuva : Tf:t f Sn ja f X Kuva : Kf:t F Sn ja F X Jukka Kemppainen Mathematics Division 35 / 44

Kuvia Kuvissa on esitetty jakaumien S n = n i=1 X i ja X N(E(S n ),σs 2 n ) tiheysfunktiot (tf:t) ja kertymäfunktiot (kf:t), kun n = 10 ja X i Exp(1). Kuva : Tf:t f Sn ja f X Kuva : Kf:t F Sn ja F X Jukka Kemppainen Mathematics Division 36 / 44

Esimerkkejä Esim. 25 Olkoon Y n erään osakkeen hinta vuoden n. päivänä. Oletetaan, että erotukset X n = Y n+1 Y n ovat riippumattomia, normaalijakautuneita satunnaismuuttujia, joilla on sama odotusarvo µ = 0 ja varianssi σ 2 = 1 4. Jos Y 1 = 100, niin laske todennäköisyys, että vuoden lopussa osakkeen hinta on (a) 100. (b) 110. (c) 120. Jukka Kemppainen Mathematics Division 37 / 44

Esimerkin 25 realisaatioita Kuvissa on esitetty 2 eri realisaatiota esimerkin 25 osakkeen hinnalle. Jukka Kemppainen Mathematics Division 38 / 44

Binomijakauman normaalijakauma-approksimaatio Tarkastellaan n-kertaista toistokoetta X 1,...,X n, jossa X i ilmoittaa tapahtuuko jokin suotuisa tapahtuma A vai ei Oletetaan, että tapahtuma A sattuu yksittäisissä toistoissa muista toistoista riippumattomasti ja että P(X i = 1) = P(A) = P( A sattuu ) = p ja P(X i = 0) = P(A) = 1 p kaikilla i = 1,...,n. Tällöin S n = X 1 + X 2 + +X n ilmoittaa A:n esiintymiskertojen lukumäärän ja S n Bin(n,p). Koska E(S n ) = np ja D 2 (S n ) = np(1 p), niin keskeisen raja-arvolauseen mukaan S n N(np,np(1 p)) likimain, kun n on riittävän suuri. Jukka Kemppainen Mathematics Division 39 / 44

Binomijakauman approksimaatio Siis binomijakaumaa Bin(n, p) voidaan approksimoida normaalijakaumalla N(np, np(1 p)), kun n on riittävän suuri. Approksimaation tarkkuutta on tutkittu ja todettu, että approksimaatio on erityisen hyvä silloin, kun p 1 2. Luvun n pitäisi olla niin suuri, että varianssi np(1 p) > 9, jolloin käytännössä saadaan riittävän hyviä approksimaatioita. Jukka Kemppainen Mathematics Division 40 / 44

Approksimaatio, p:n vaikutus Kuviin on piirretty binomijakauman X Bin(20, p) pistetodennäköisyyksiä ja normaalijakauman N(20p,( 20p(1 p)) 2 ) tiheysfunktio, kun Kuva : p = 0.1 Kuva : p = 0.5 Jukka Kemppainen Mathematics Division 41 / 44

Approksimaatio, n:n vaikutus Kuviin on piirretty binomijakauman X Bin(n, 0.05) pistetodennäköisyyksiä ja normaalijakauman N(0.05n,( 0.05 0.95n) 2 ) tiheysfunktio, kun Kuva : n = 20 Kuva : n = 1000 Jukka Kemppainen Mathematics Division 42 / 44

Jatkuvuuskorjaus Diskreettejä jakaumia approksimoitaessa voidaan tarkkuutta parantaa tekemällä jatkuvuuskorjaus. Jos a ja b ovat kokonaislukuja, joille 0 a b n, ja X on diskreetti sm., joka saa kokonaislukuarvot 0,1,...,n, niin tn:ää P(a X b) ei approksimoida integraalina a:sta b:hen, vaan integraalina a 1 2 :sta b+ 1 2 :een. Siis P(a X b) = P(a 1 2 X b+ 1 2 ) ( a 1 2 = P E(X) σ X X E(X) σ X ( b+ 1 2 Φ E(X) ) ( a 1 Φ σ X b+ 1 2 E(X) ) σ X 2 E(X) ). σ X Jukka Kemppainen Mathematics Division 43 / 44

Esimerkkejä Esim. 26 Eräästä tuotteesta 10 % on viallisia. Jos ostetaan 10 tuotetta, niin millä tn:llä saadaan korkeintaan yksi viallinen tuote, kun tn. lasketaan tarkasti? normaalijakauma-approksimaatiolla jatkuvuuskorjauksella ja ilman? Poisson-jakauman avulla? Esim. 27 Kannatuskyselyn järjestäjä haluaa estimoida sopivaa otoskokoa tietyn ehdokkaan kannatuosuuden p määräämiseksi. Kuinka suuri otoskoon pitää olla, jotta vähintään 95% varmuudella kannatusosuus on p yhden prosenttiyksikön tarkkuudella? Jukka Kemppainen Mathematics Division 44 / 44