Jatkuvat satunnaismuuttujat

Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään tekemistä sovitun mittaustarkkuuden kanssa. Esimerkki: Ihmisen Pituus on satunnaismuuttuja, joka voi saada periaatteessa mitä vaan arvoja ainakin väliltä 0m 3m. Tietysti käytännössä pituus mitataan ja ilmoitetaan tietyllä tarkkuudella, esimerkiksi senttimentrin tai senttimetrin kymmenesosan tarkkuudella. Tarkkuus yleensä sovitaan etukäteen ja se riippuu tietysti myös siitä kuinka tarkkoja meidän mittausvälineet ovat. Oletetaan, että pituus mitataan sentin tarkkuudella ja ihmisen pituudeksi on ilmoitettu 164 cm. Kun mittaustarkkuus otetaan huomioon, on selvää, että kaikki mitä todellisuudessa tiedetään tämän ihmisen todellisesta pituudesta on se, että pituus sijaitsee välillä [163, 5; 164, 5[ eikä siis välttämättä ole tarkkaasti 164. Mittaustarkuus voidaan parantaa ottamalla käytetään tarkempia mittausvälineitä. Jos saman ihmisen pituus mitataan sentin kymmenesosan tarkkuudella, saman ihmisen kohdalla tulokseksi voidaan saada mikä tahansa kymmenestä vaihtoehdosta 163,5, 163,6,..., 164,4. Saman ihmisen pituus ei siis enää ikään kuin ole välttämättä 164, 0 cm. Koska pituus on suuressa ihmisjoukossa jakautunut kutakuinkin tasaisesti, kaikki, joiden pituus oli ennen (kun mittaus oli suoritettu senttimetrin tarkkuudella) ilmoitettu 164 cm, jakautuvat nyt kymmenteen suurin piirtein suureen joukkoon - ne joiden pituus yhden kymmenesosan tarkkuudella on 163,5, ne joiden 163,6 ja niin edelleen. Tästä seuraa, että niiden joukko joiden pituus on 164, 0 cm on ikään kuin pienentynyt kymmenenkertaisesti, kun mittaustarkuus parantui. Näin voidaan periaatteessa jatkaa parantamalla mittaustarkkuutta mielivaltaisen tarkasti, jolloin tilastollinen todennäköisyys sille, että ihmisen pituus on tasan 164 cm lähestyy nolla. Tämä on tyypillista jatkuville satunnaismuuttujalle. Yleisesti jatkuvan satunnaismuuttujan pistetodennäköisyys P(X = a) on aina nolla. Sillä ei siis tee mitään, mistä syystä jatkuvan muuttujan kohdalla ollaankin kiinnostuneita sen sijaan kertymätodennäköisyydesta F(x) = P(X x) ja yleisemmin todennäköisyydestä, että satunnaismuuttuja osuus tietylle välille P(a X b). Tämä jälkimmäinen voidaan ilmaistaa kertymän avulla - P(a X b) = P(X b) P(X a) = F(b) F(a), missä F on kertymäfunktio. Vastaavasti todennäköisyys P(X a) on ilmastettavissa kertymäfunktion avulla seuraavasti: P(X a) = 1 P(X a) = 1 F(a). 1

Koska pistetodennäköisyys on nolla on ihan sama otetaanko välin päätepisteitä mukaan vai ei, esimerkiksi P(X a) = P(X < a), Tiheysfunktio P(a x b) = P(a < x < b). Koska jatkuvan jakauman kohdalla pistetodennäköisyydet eivät ole mielenkiintoisia, ne korvataan tiheysfunktiolla f. Tällöin kertymä P(X a) tulkitaan tiheysfunktion kuvaajan alla jäävänä pinta-alana välillä ], a[ eli matemaattisesti ilmaistuna integraalina F(X) = P(X a) = a f(x)dx. Koska integraali ja derivaatta ovat toistensa kumoavia operaatioita, tästä saadaan lauseke tiheysfunktiolle - se ei ole mitään muuta kuin kertymäfunktion derivaatta, f(x) = F (x). Tiheysfunktio siis voidaan laskea, jos kertymäfunktio tiedetään. Kääntäen, jos tiheysfunktio on tiedossa, sen avulla voidaan laskea todennäköisyyksiä välien yli, esim. P(X > a) = P(a X b) = a b a f(x)dx, f(x)dx. = P(a X b) f(x) a b P(X a) Koska kokonaistodennäköisyys on 1, näin suuren täytyy olla tiheysfunktion kuvaajan ja x-akselin välin jäävän alueen pinta-alan arvo, f(x)dx = 1. 2

Esimerkki: Erään jatkuvan jakauman tiheysfunktio on määritelty seuraavasti { 2x, jos 0 x 1, f(x) =. 0, muuten Tämä on todellakin tiheysfunktio, sillä f(x)dx = Viimeinen vaihe saadaan laskemalla integraali - 1 0 1 0 2xdx = 1. 2xdx = 1 0 x2 = 1 tai päättelemällä kuvasta - tässä kyse on kolmion pinta-alan laskemisesta. 2 f(x) 0 1 Seuraavat todennäköisyydet voidaan laskea tälle jakaumalle pinta-alana: P(X 0) = 0 f(x)dx = 0 (koska funktio on nolla alueessa x 0). P(X 1/2) = P(X 1/2) = 1/2 1/2 P(X 4) = 1, P(X 4) = 0. f(x) = 1 2, f(x) = 1 2, 3

Normaalijakauma Normaalijakauma on tärkeämpiä jatkuvia jakaumia sekä teoreettisesti, että käytännön sovelluksissa. Teoreettisesti normaalijakauma on eräänlainen binomijakauman raja-arvo kun n kasvaa rajatta. Tästä johtuen suuressa joukossa tapahtuvat ilmiöt hyvin usein noudattavat normaalijakaumaa myös käytännössä (tarpeeksi hyvällä tarkkuudella). Esimerkiksi empiirisesti on havaittu, että sellaiset ihmisten joukossa määritellyt satunnaismuuttujat kuin paino, pituus, älykkyys jne. noudattavat normaalijakaumaa. Tuotannon mittausvirheet, tuotteen painon ja koon vaihtelu sarjatuotannossa noudattavat normaalijakaumaa. Yleisesti muuttuja on usein jakautunut normaalisti silloin kun satunnaismuuttujan arvoon vaikuttavat hyvin monet toisistaan riippumattomat syyt. Normaalijakauman tiheysfunktion lauseke on f(x) = 1 2πσ e 1 2 (x µ σ )2, missä µ on jakauman odotusarvo ja keskihajonta on σ. Tämän funktion kuvaaja on ns. kellokäyrä eli Gaussin käyrä. Jakauma on symmetrinen - se on samanlainen odotusarvon molemmin puoliin ja sillä on maksimiarvo juuri odotusarvon µ kohdalla. Normaalisti jakautunut muuttuja, jolla on odotusarvo µ ja keskihajonta σ, merkitään N(µ, σ). Kuvassa alla esitetään kaksi Gaussin käyrää - sininen käyrä vastaa arvoja µ = 0, σ = 0,5 ja punainen käyrä arvoja µ = 1, σ = 0,75. 0.8 0.6 0.4 0.2 0 2 1 0 1 2 3 4

Normaalijakauman kertymäfunktiolle F ei ole olemassa mitään yksinkertaistaa kaavaa. Sen sijaan sen laskemiseksi käytetään taulukkoja tai nykyään tietokoneita. Myös nykyaikaisissa laskimissa on ohjelmoitu usein valmiiksi toiminto jolla voi laskea normaalijakauman kertymiä. Normaalijakaumalle voimassa seuraavat faktat: Välillä [µ σ,µ+σ] sijaitsee 68% arvoista Välillä [µ 2σ,µ+2σ] sijaitsee 96% arvoista Normitettu normaalijakauma Taulukoissa perinteisesti esitetään vain normaalijakauman kertymän arvoja kun µ = 0 ja σ = 1. Tätä normaalijakaumaa N(0, 1) sanotaan normitetuksi tai standardiksi normaalijakaumaksi ja merkitään usein Z:llä, erottamaan muista normaalijakaumista, jotka merkitään pelkällä Z. Normitetun normaalijakauman kertymäfunktiota merkitään Φ Tästä taulukosta(click!) löytyy standardin normaalijakauman kertymäfunktion arvoja. Miten tällaista taulukkoa käytetään? Ensimmäisestä sarakkeesta löytyvät positiiviset arvot väliltä 0 3, 4 yhden desimaalin tarkkuudella. Muissa sarakkeissa ne tarkennetaan sadasosan tarkkuudella. Esimerkiksi oletetaan, että meidän pitää laskea Φ(1,74) = P(Z 1,74). Ensimmäisestä sarakkeesta poimitaan luku 1,7 ja poimitaan sen rivistä sadasosaa 0,4 vastaava arvo joka on 0,9591. Tämä tarkoittaa sitä, että 95, 91% normitetun normaalijakauman arvoista ovat korkeintaan 1, 74. Taulukossa esitetään kertymäfunktion arvoja vain välillä [0; 3, 4], mutta sen avulla voidaan päätellä muitakin tarpeellisia arvoja. Esimerkiksi P(Z 1,2) = 1 P(Z 1,2) = 1 0,8849 = 0,1151. Yleisesti Vastaavasti Esimerkiksi todennäköisyys P(Z a) = 1 P(Z a) = Φ(a). P(a Z b) = Φ(b) Φ(a). P(0,11 Z 0,54) = 0,7054 0,5438 = 0,1616. Miten siten negatiiviset arvot eli esimerkiksi Φ( 1, 23)? Se päätellään normaalijakauman symmetrian avulla - pinta-ala normaalijakauman tiheysfunktion ala-puolella välillä ], 1,23[ on sama kuin pinta-ala välillä ]1,23; [. Näin ollen Φ( 1,23) = P(Z 1,23) = P(Z 1,23) = 1 P(Z 1,23) = 1 Φ(1,23) = 1 0,8907 = 0,1093. 5

Yleisesti siis Φ( z) = Φ(z). Normitus Jos normaalijakauma ei ole standardi, sen kertymiä ei voi laskea taulukoilla, mistä syystä ne pitää ensin normeerata. Olkoon X = N(µ, σ). Tällöin P(X a) = P(Z a µ σ ) = Φ(a µ σ ). Mielivaltaisen normaalijakauman arvoja siis normeerataan kaavalla z = a µ σ. Esimerkki: 500 gramman spagettipakkausten massan keskiarvo on 508 g ja keskihajonta 9 g. Painon tiedetään olevan normaalisti jakautunut. Kuinka monella prosentilla pakkauksista massa on alle 500 g? Kuinka monella prosentilla massa on välillä 500 520 g? Ratkaisu: a) On laskettava P(X 500). Normitetaan P(X 500) = P(Z 500 508 9 ) = Φ( 500 508 ) Φ( 0,89) = 1 Φ(0,89) = 1 0,8133 = 0,1867. 9 Tässä Φ(0,89) = 0,8133 saadaan taulukosta. Vastaus - noin 18,67% pakkauksista ovat painoltaan pienempi kuin 500 g. b) Kysytään todennäköisyys P(500 X 520) = P(X 520) P(X 500). Tässä P(X 500) = 0, 1867 laskettiin jo edellä. Toinen todennäköisyys lasketaan samalla tavalla normeerauksen ja taulukon avulla. Saadaan joten P(X 520) = P(Z 520 508 ) Φ(1,33) = 0,9082, 9 P(500 X 520) = P(X 520) P(X 500) 0,9082 0,1867 = 0,72. Noin 72%:llä pakkausten massa on välillä 500 520 g. 6

Binomijakauma normaalijakauman avulla Olkoon X Bin(n,p) binomijakauma. Kun n on iso X:n kertymiä P(X k) on isoilla k vaikeata laskea suoraan määritelmästä - täytyy laskea yhteen k + 1 lukua. Tästä syystä X approksimoidaan normaalijakaumalla. Voidaan osoittaa, että kun n kasvaa suureksi kertymän P(X k) arvot lähestyvät sellaisen normaalisti jakautuneen muuttujan X kertymän arvoja, jolla on odotusarvo µ = np ja keskihajonta on σ = np(1 p). Esimerkki: Noppaa heitetään 600 kertaa. Lasketaan todennäköisyys sille, että saadaan korkeintaan 105 kuutosta. Ratkaisu: Kyseessä binomijakauma X Bin(600, 1/6). Osaamme laskea yksittäisiä arvoja esimerkiksi ( ) 600 P(X = 99) = (1/6) 99 (5/6) 501. 99 Kertymän P(X 105) laskeminen tämän avulla on kuitenkin työlästä - täytyy laskea yhteen kaikki 106 arvoa P(X = 0), P(X = 1),..., P(X = 104), P(X = 105). Selvä on, että tämä on työlästä ja kohtuutonta. Koneellakin 106 luvun laskemisessa menee aikaa. Käytetään sen sijaan normaalijakaumaa. Koska n = 600 on suuri, hyvä likiarvo kertymästä saadaan korvaamalla X normaalijakaumalla X jolla ja µ = np = 600 1/6 = 100 σ = np(1 p) = 600 1 6 5 6 9,13. Lasketaan siis kertymä P(X 105). Jos käytetään standardin normaalijakauman taulukkoarvoja, täytyy tämä jakauma normeerata. P(X 105) = P(Z 105 100 ) Φ(0,60) = 0,7257. 9,13 7