Todennäköisyyslaskenta



Samankaltaiset tiedostot
Todennäköisyysjakaumia

B. Siten A B, jos ja vain jos x A x

Harjoitus 2: Matlab - Statistical Toolbox

Kurssilla esitetään lyhyt katsaus niihin todennäköisyyden ja satunnaisprosessien peruskäsitteisiin ja -ominaisuuksiin, joita tarvitaan digitaalisten

Sovellettu todennäköisyyslaskenta B

Jatkuvat satunnaismuuttujat

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

4. Todennäköisyyslaskennan kertausta

Sovellettu todennäköisyyslaskenta B

031021P Tilastomatematiikka (5 op) Kurssi-info ja lukion kertausta

(b) Tarkista integroimalla, että kyseessä on todella tiheysfunktio.

Otosavaruus ja todennäköisyys Otosavaruus Ë on joukko, jonka alkiot ovat kokeen tulokset Tapahtuma on otosavaruuden osajoukko

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

Tilastomatematiikka Kevät 2008

Johdatus tn-laskentaan perjantai

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

TODENNÄKÖISYYSLASKUN KERTAUS Peruskäsitteitä

Testejä suhdeasteikollisille muuttujille

dx=2&uilang=fi&lang=fi&lvv=2015

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Määritelmä 3.1 (Ehdollinen todennäköisyys) Olkoot A ja B otosavaruuden Ω tapahtumia. Jos P(A) > 0, niin tapahtuman B ehdollinen todennäköisyys

Osa 1: Todennäköisyys ja sen laskusäännöt. Klassinen todennäköisyys ja kombinatoriikka

(x, y) 2. heiton tulos y

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Sovellettu todennäköisyyslaskenta B

&idx=2&uilang=fi&lang=fi&lvv=2015

A = B. jos ja vain jos. x A x B

Todennäköisyys (englanniksi probability)

4. laskuharjoituskierros, vko 7, ratkaisut

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Sovellettu todennäköisyyslaskenta B

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Todennäköisyyslaskenta. Osa 3: Todennäköisyysjakaumia. Diskreettejä jakaumia. TKK (c) Ilkka Mellin (2007) 1

Tilastomatematiikka TUDI

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Todennäköisyyslaskenta sivuaineopiskelijoille

Miten hyvin mallit kuvaavat todellisuutta? Tarvitaan havaintoja.

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Suotuisien tapahtumien lukumäärä Kaikki alkeistapahtumien lukumäärä

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

3.7 Todennäköisyysjakaumia

x 4 e 2x dx Γ(r) = x r 1 e x dx (1)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Inversio-ongelmien laskennallinen peruskurssi Luento 7

Luku 1. Johdanto. 1.1 Todennäköisyys ja tilastotiede. 1.2 Havaitut frekvenssit ja empiiriset jakaumat

Johdatus todennäköisyyslaskentaan Diskreettejä jakaumia. TKK (c) Ilkka Mellin (2005) 1

&idx=2&uilang=fi&lang=fi&lvv=2015

TODENNÄKÖISYYS JA TILASTOT MAA6 KERTAUS

FUNKTIONAALIANALYYSIN PERUSKURSSI Johdanto

Otoskoko 107 kpl. a) 27 b) 2654

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo.

30A02000 Tilastotieteen perusteet

031021P Tilastomatematiikka (5 op) viikot 5 6

D ( ) Var( ) ( ) E( ) [E( )]

Johdatus tn-laskentaan torstai

H0: otos peräisin normaalijakaumasta H0: otos peräisin tasajakaumasta

Sovellettu todennäköisyyslaskenta B

Osa 1: Todennäköisyys ja sen laskusäännöt. Todennäköisyyden aksioomat

031021P Tilastomatematiikka (5 op) viikko 3

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden heittojen lukumäärä, joilla tuli 1, 2, 3 tai 4.

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61

7. laskuharjoituskierros, vko 10, ratkaisut

1. Matkalla todennäköisyyteen

D ( ) E( ) E( ) 2.917

Mat Sovellettu todennäköisyyslasku A

tilastotieteen kertaus

Otanta ilman takaisinpanoa

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi

A-osa. Ratkaise kaikki tämän osan tehtävät. Tehtävät arvostellaan pistein 0-6. Taulukkokirjaa saa käyttää apuna, laskinta ei.

Johdatus todennäköisyyslaskentaan Todennäköisyyden aksioomat. TKK (c) Ilkka Mellin (2005) 1

riippumattomia ja noudattavat samaa jakaumaa.

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy Jatkossa ratkaisuehdotukset ovat tyypillisesti paljon lakonisempia.

MONISTE 2 Kirjoittanut Elina Katainen

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

IV. TASAINEN SUPPENEMINEN. f(x) = lim. jokaista ε > 0 ja x A kohti n ε,x N s.e. n n

Diskreetit todennäköisyysjakaumat. Kertymäfunktio Odotusarvo Binomijakauma Poisson-jakauma

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Kertymäfunktio. TKK (c) Ilkka Mellin (2007) 1

0 kun x < 0, 1/3 kun 0 x < 1/4, 7/11 kun 1/4 x < 6/7, 1 kun x 1, 1 kun x 6/7,

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

Varma tapahtuma, Yhdiste, Yhdistetty tapahtuma, Yhteenlaskusääntö

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Satunnaismuuttujien muunnokset ja niiden jakaumat

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

k S P[ X µ kσ] 1 k 2.

Todennäköisyyslaskun kertaus. Heliövaara 1

HY, MTO / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIa, syksy 2018 Harjoitus 3 Ratkaisuehdotuksia.

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Transkriptio:

Todennäköisyyslaskenta Opintomoniste kurssille MAT-25 Todennäköisyyslaskenta, Tampereen teknillinen yliopisto Antti Perttula, Kimmo Vattulainen, Tia Suurhasko Versio 9/212

Sisältö 1 Todennäköisyys 3 1.1 Peruskäsitteitä................................... 3 1.2 Tilastollinen ja klassinen todennäköisyys..................... 5 1.3 Todennäköisyyslaskennan aksiomat........................ 9 1.4 Ehdollinen todennäköisyys............................. 12 1.5 Kokonaistodennäköisyys ja Bayesin kaava..................... 13 1.6 Tapahtumien riippumattomuus.......................... 15 2 Todennäköisyysjakaumia 18 2.1 Empiirisen otoksen kuvailua............................ 18 2.2 Diskreetin satunnaismuuttujan jakauma..................... 2 2.3 Jatkuvan satunnaismuuttujan jakauma...................... 25 2.4 Odotusarvo, varianssi ja keskihajonta....................... 28 2.5 Satunnaismuuttujan funktiot............................ 31 2.6 Satunnaismuuttujan funktion odotusarvo..................... 34 2.7 Tsebyshevin epäyhtälö............................... 36 2.8 Momentit generoiva funktio............................ 37 2.9 Binomijakauma................................... 39 2.1 Poisson jakauma.................................. 42 2.11 Normaalijakauma.................................. 45 3 Yhteisjakaumat ja satunnaismuuttujien funktiot 48 3.1 Diskreetin satunnaisvektorin jakauma....................... 48 3.2 Jatkuvan satunnaisvektorin jakauma....................... 49 3.3 Marginaalijakaumat................................. 51 3.4 Satunnaismuuttujien riippumattomuus...................... 53 3.5 Satunnaismuuttujien funktion odotusarvo..................... 56 3.6 Riippumattomien satunnaismuuttujien summa.................. 59 3.7 Kovarianssi, korrelaatio ja summan varianssi................... 6 3.8 Otoskeskiarvon jakauma.............................. 64 3.9 Keskeinen raja-arvolause.............................. 66 3.1 Tilastollinen testaaminen.............................. 7 3.11 χ 2 -jakauma ja otosvarianssi............................ 72 3.12 t- ja F-jakaumat................................... 76 Liite 1. Todennäköisyysjakaumia 8 Liite 2. Jakaumataulukoita 93 2

1 Todennäköisyys 1.1 Peruskäsitteitä Todennäköisyyslaskennan tavoitteena on kehittää satunnaisluonteisten ilmiöiden kuvaamiseen soveltuvia matemaattisia malleja. Mallintamisen kohde on satunnaisilmiöön liittyvä koe (satunnaiskoe) (random experiment), jonka lopputulosta ei saada selville laskemalla ja päättelemällä vaan tuloksen määrää sattuma. Tavoitteena on malli, jolla voitaisiin mahdollisimman totuudenmukaisesti ennustaa kokeen tuloksia. Jotta mallintaminen on mahdollista, vaaditaan, että koe voidaan toistaa ja koetoistot ovat riippumattomia, ja että koetoistoissa esiintyy tilastollista säännönmukaisuutta; yksityisten tulosten suhteelliset frekvenssit näyttävät koetoistojen lukumäärän kasvaessa stabilisoituvan. Kokeen tulokset eivät välttämättä ole lukuja. Funktiota, joka liittää reaaliluvun tai reaalilukuvektorin jokaiseen koetulokseen, sanotaan satunnaismuuttujaksi (random variable). Tässä monisteessa satunnaismuuttujat usein ilmoitetaan suoraan kokeen numeerisena (numeeriseksi koodattuna) tuloksena, jolloin funktiotulkintaa ei käytetä. Satunnaismuuttujia merkitään isoilla kirjaimilla X, Y,... ja satunnaismuuttujan arvoja vastaavilla pienillä kirjaimilla x, y,.... Esimerkki 1.1.1. Olkoon rahanheitto satunnaiskoe. Kokeen tulos on päälle jäävä kolikon puoli, klaava tai kruunu. Koodataan klaava numeroksi 1 ja kruunu numeroksi 2. Näin saadaan satunnaismuuttuja X=rahanheitos tulos, jonka mahdollisia arvoja ovat 1 ja 2. Esimerkki 1.1.2. Satunnaisesti valitun henkilön ominaisvektori (X 1, X 2, X 3 ), missä X 1 on sukupuoli (1=mies, 2= nainen), X 2 on pituus (m) ja X 3 on paino (kg), on satunnaisvektori (random vector). Sen komponentit ovat skalaarisia satunnaismuuttujia. Komponenteista X 2 ja X 3 riippuva painoindeksi Z = X 3 /X 2 2 on myös satunnaismuuttuja. Kokeen mahdollista yksittäistä koetulosta sanotaan alkeistapaukseksi (sample point). Kaikkien mahdollisten alkeistapausten joukko on otosavaruus (sample space) Ω. Otosavaruuden osajoukko A Ω on tapahtuma (event). Olkoon A Ω. Sanotaan, että kokeessa realisoituu tapahtuma A, jos koetulos on A:n alkio. Myös otosavaruus Ω ja tyhjä joukko ovat otosavaruuden osajoukkoja ja siis tapahtumia. Otosavaruus Ω itse on varma tapahtuma. Mahdotonta tapahtumaa merkitään tyhjän joukon symbolilla ; onhan joukko, jossa ei ole ainuttakaan alkeistapausta. 3

Esimerkki 1.1.3. Olkoon satunnaiskoe nopanheitto ja kokeeseen liittyvä satunnaismuuttuja X='päällimäiseksi jäävä silmäluku'. Sen otosavaruus Ω = {1, 2, 3, 4, 5, 6}. A = {2, 4, 6} = 'parillinen silmäluku' on eräs tapahtuma. Jos heiton tulos X = 2, niin A realisoitui. Tästä samasta nopanheitosta voidaan muodostaa myös muita satunnaismuuttujia, esim. Y ='suurin näkyvissä olevista silmäluvuista'. Piiloon jää vain alapuolinen silmäluku, joten aina on näkyvissä 5 sivutahkoa. Silmäluku 6 on suurin paitsi, jos se on alapuolella. Silloin 5 on suurin. Satunnaismuuttujan Y otosavaruus on siis Ω Y = {5, 6}. Usein haluttu tapahtuma täytyy esittää usean tapahtuman lausekkeena käyttämällä joukkoopin operaatioita. Kerrataan joukko-opin perusoperaatiot ja annetaan niille todennäköisyyslaskennan tapahtumakuvaus sekä graanen esitys ns. Venn-diagrammeina. Tapahtuman A komplementtitapahtuma A (complement, muita merkintöjä: A, A C, C(A)) A = Ω \ A = {x Ω : x / A} =A ei realisoidu Jos A ja B ovat tapahtumia, niin tapahtumia ovat myös Tapahtumien A ja B yhdiste eli unioni (union) A B = {x Ω : x A tai x B}=A tai B realisoituu Tapahtumien A ja B leikkaus (intersection) A B = {x Ω : x A, x B} =A ja B realisoituu Tapahtumien A ja B erotus (dierence) (muita merkintöjä: A B) A \ B = A B = {x Ω : x A, x / B} =A realisoituu mutta B ei Tapahtumien A ja B sanotaan olevan erillisiä (disjoint) eli toisensa poissulkevia (mutually exclusive), jos A:lla ja B:llä ei ole yhteisiä alkeistapauksia eli jos A B = 4

Esimerkki 1.1.4. Venn-diagrammien avulla voidaan todeta oikeiksi (harjoitustehtävänä) demorganin lait A B = A B, A B = A B Kokeen mallintamisessa pyritään löytämään satunnaismuuttujan todennäköisyysjakauma (probability distribution), jolla voidaan ennustaa tapahtumien realisoituminen luvulla. Todennäköisyysjakaumista kerrotaan luvussa 2. Todennäköisyysmitta (probability measure) P on funktio, joka liittää jokaiseen tapahtumaan luvun väliltä [, 1]. Todennäköisyysmitan arvo P (X A) tai vain lyhyesti P (A) on tapahtuman A todennäköisyys (probability). 1.2 Tilastollinen ja klassinen todennäköisyys Arkikielessä todennäköisyydestä voidaan puhua, vaikka taustalla ei olisikaan mitään toistettavissa olevaa koetta tai havaintoa. Tällöin kyse on lähinnä puhujan uskosta, millä todennäköisyydellä jokin tapahtuu, esim. 99%:n todennäköisyydellä pääsen läpi tentistä. Miten sitten voidaan määrittää tapahtuman todennäköisyys? Tässä kappaleessa määritellään kaksi todennäköisyyden määritelmää, jotka vastaavat hyvin sitä intuitiivista käsitystä, mitä sanalla todennäköisyys ymmärretään. Määritelmät eivät ole matemaattisesti täsmällisiä. Sellainen määritellään seuraavassa kappaleessa 1.3. Tilastollinen todennäköisyys Frekvenssitulkinta. Kun sama koe suoritetaan n kertaa samoissa olosuhteissa, puhutaan n-toistokokeesta. Merkitään f n (A):lla tapahtuman A realisoitumisen frekvenssiä n-toistokokeessa. Suhde p n (A) = f n(a) n on tapahtuman A suhteellinen frekvenssi (relative frequency). Frekvenssitulkinnassa määritellään tapahtuman A tilastollinen todennäköisyys (statistical probability) suhteellisen frekvenssin raja-arvona, kun koetoistojen lukumäärä n kasvaa rajatta: P (A) = lim n p n (A) Frekvenssitulkinta todennäköisyysmitalle ei ole matemaattisesti tyydyttävä. Miten määritellään esim. äärettömän pitkä koetoistojen sarja tai suhteellisten frekvenssien muodostaman jonon suppeneminen? 5

Sovellutuksissa frekvenssitulkintaa voidaan käyttää. Reaalimaailmassa on runsaasti kokeita tai havaintoja, joissa tarkasteltavan tapahtuman suhteellinen frekvenssi tuntuu suppenevan; n-toistokokeissa suurilla n:n arvoilla n 1, n 2,..., n k tapahtuman A suhteelliset frekvenssit p n1 (A), p n2 (A),..., p nk (A) poikkeavat toisistaan hyvin vähän. Soveltajan tehtävänä on arvioida suhteellisen frekvenssin raja-arvolle mahdollisimman tarkka arvo. Raja-arvon arviointi helpottuu, jos koetta voidaan simuloida ja toistaa tietokoneilla. Monet käytännön elämän tapahtumien todennäköisyydet ovat juuri tilastollisia todennäköisyyksiä, sillä ne perustuvat havainnoista tehtyihin tilastoaineistoihin. Esim. jos väitetään, että kone rikkuu takuuaikanaan todennäköisyydellä.1, on tiedon perusteena tavallisesti pitkäaikainen seuranta, että keskimäärin yksi sadasta koneesta on rikkoontunut takuuaikanaan ja että jatkossakin oletetaan rikkoontumisen noudattavan tätä säännönmukaisuutta. Klassinen todennäköisyys Olkoon kokeen otosavaruudessa äärellinen määrä N alkeistapausta Ω = {a 1, a 2,..., a N }, jotka ovat kaikki yhtä mahdollisia. Tapahtuman A Ω klassinen todennäköisyys on P (A) = card(a) N missä card(a) tarkoittaa A:n alkioiden lukumäärää (cardinality) eli tapahtumalle A suotuisten (favourable) alkeistapausten lukumäärää. Tapahtuman A todennäköisyys on siis A:lle suotuisten alkeistapausten lukumäärän ja kaikkien alkeistapausten lukumäärän suhde. Kun tätä klassisen todennäköisyyden määritelmää sovelletaan, on siis alkeistapausten määrän oltava äärellinen ja niiden tulee olla yhtä mahdollisia eli niinsanotusti symmetrisiä (symmetric). Havaitaan, että jokaisen alkeistapauksen a i todennäköisyys on tällöin P (a i ) = 1 N Sovellutuksissa satunnaiskokeiden alkeistapaukset eivät yleensä ole symmetrisiä eikä tällöin voida käyttää klassista määritelmää. Huomautus. Tarkkaan ottaen yllä olevaa määritelmää ei voida pitää määritelmänä; mitä siinä sanonta yhtä mahdollista oikein tarkoittaa, kun todennäköisyyttä vasta ollaan määrittelemässä? Klassisen todennäköisyyden määritelmässä suotuisten ja kaikkien alkeistapausten lukumäärien laskeminen saattaa olla mutkikas kombinatorinen tehtävä; seuraavassa annetaan lyhyt tiivistelmä käyttökelpoisia kombinatorisia käsitteitä. 6

Tuloperiaate. Kuvitellaan (yhdistettyä) koetta, joka voidaan suorittaa p:ssä eri vaiheessa. Olkoon i:nnen kokeen tulosmahdollisuuksia N i. Koko kokeessa on eri tulosmahdollisuuksia N = N 1 N 2 N p = Esimerkki 1.2.1. Koe, jossa on N tulosmahdollisuutta, toistetaan p kertaa. Tässä p- toistokokeessa tulosmahdollisuuksia on N p kappaletta. P i=1 N i Permutaatio, variaatio ja kombinaatio Joukon alkioiden asettamista eri järjestykseen sanotaan permutoinniksi. Jokainen näin saatu järjestetty joukko eli jono on permutaatio (permutation). n-alkioisella joukolla on tuloperiaatteen perusteella erilaisia permutaatioita n-kertoma kappaletta, n! = 1 2 n Suurilla arvoilla n voit laskea n-kertomalle likiarvoja Stirlingin kaavalla : n! 2πn n n e n Olkoon joukossa n alkiota. Joukon k-variaatio eli k-permutaatio (k n) on mikä tahansa joukon k:sta eri alkiosta muodostettu jono. Ensimmäinen alkio voidaan valita n:llä, toinen (n 1):llä, kolmas (n 2):lla jne., ja viimeinen (n (k 1)):llä tavalla. Täten n-alkioisella joukolla on erilaisia k-permutaatioita n(n 1)(n 2) (n (k 1)) = n! (n k)! Annetun n-alkioisen joukon k-kombinaatio on joukon k-alkioinen osajoukko. Nyt siis alkioiden järjestyksellä ei ole merkitystä. Lause 1.2.1. n-alkioisen joukon k-kombinaatioiden lukumäärä on binomikerroin ( ) n n! = k =, 1,..., n,! = 1 k k!(n k)! Todistus. Merkitään k-kombinaatioiden lukumäärää x:llä. Koska jokaisella k-kombinaatiolla on k! erilaista permutaatioita, niin k-permutaatioiden lukumäärä on xk!, ja siis xk! = n! (n k)! x = n! k!(n k)! 7

Esimerkki 1.2.2. Tutkitaan erilaisia 'sanoja', jotka voidaan muodostaa kirjaimista a-z. Näitä on 26 kpl, joista vokaaleja on 6 ja konsonantteja 2. a) Erilaisia 5 kirjaimen sanoja tuloperiaatteen mukaan 26 26 26 26 26 = 26 5 = 11881376. Tässä siis jokainen kirjain voidaan valita useamman kerran. b) Sellaisia sanoja, joissa kirjaimet ovat järjestyksessä konsonantti + vokaali + konsonantti + sama kuin edellinen konsonantti + vokaali (siis esimerkiksi 'kello') on tuloperiaatteen mukaan 2 6 2 1 6 = 144. c) Jos yhden kirjaimen voi valita sanaan vain kerran, on kyse kirjainjoukon a-z permutaatioista. Nyt erilaisia 5 kirjaimen sanoja, joissa voi esiintyä yksi kirjain vain kerran on 26 25 24 23 22 = 78936. d) Jos halutaan vaihtaa jonkin sanan kirjaimien järjestystä on kyse ns. anagrammista. Esim. sanan 'aitat' eräs anagrammi on 'taiat'. Sanan 'aitat' anagrammien lukumäärää laskettaessa tulee ottaa huomioon kirjaimien 'a' ja 't' esiintyminen kahdesti. Kaikkiaan 5 eri kirjainta voidaan järjestää 5! = 12 eri tavalla. Näistä on sanan 'aitat' kohdalla sama sana aina neljä kertaa: kaksi a-kirjainta voidaan järjestää 2!=2 eri tavalla samoin kaksi t-kirjainta. Siksi sanan 'aitat' erilaisia anagrammeja on 5!/(2!2!) = 3 erilaista. e) Edellä on ollut kyse sanoista, joissa kirjainten järjestyksellä on merkitystä. Tutkitaan nyt erilaisia kirjainjoukkoja, joissa järjestyksellä ei ole merkitystä. 26 kirjaimesta voidaan valita erilaisia 5 kirjaimen joukkoja ( ) 26 5 = 26! 5!21! = 26 25 24 23 22 5! = 6578 Edellä olevan yhtälöketjun toiseksi viimeisestä muodosta saadaan binomikertoimelle seuraava tulkinta. Erilaisten 5 alkion osajoukkojen määrä saadaan jakamalla 5-permutaatioiden määrä (= 26 25 24 23 22) erilaisilla 5 alkion järjestyksillä (= 5!). f) Sellaisia 5 kirjaimen joukkoja, joissa on kaksi eri vokaalia ja kolme eri konsonanttia on tuloperiaatteen mukaan ( ) 6 2 ( ) 2 = 6! 3 2!4! 2! 3!17! = 171 g) Klassisia todennäköisyyksiä laskettaessa tutkitaan suotuisten alkeistapausten ja kaikkien alkeistapausten lukumäärien osamäärää. Esimerkiksi siis Todennäköisyys, että 5 kirjaimen sanassa on 5 eri kirjainta on 78936/11881376 =.664 (tapaukset a) ja c)). Todennäköisyys, että 5 kirjaimen joukossa on kaksi eri vokaalia ja kolme eri konsonanttia on 171/6578 =.26 (tapaukset e) ja f)). 8

1.3 Todennäköisyyslaskennan aksiomat Klassisella ja frekvenssitulkintaan perustuvalla todennäköisyydellä on omat rajoituksensa. Klassinen todennäköisyys edellyttää äärellisen määrän yhtä mahdollisia alkeistapauksia. Jos klassista todennäköisyyttä käytetään mallina, joudutaan satunnaiskokeelle olettamaan alkeistapaukset yhtä mahdollisiksi. Kuinka hyvin malli toimii, riippuu siitä, miten hyvin oletus sopii yhteen todellisuuden kanssa. Frekvenssitulkinnassa käytetään suhteellisen frekvenssin raja-arvoa. Tällaista raja-arvoa ei voida tarkalleen saavuttaa, koska äärettömiä koesarjoja ei voida toteuttaa. Frekvenssitulkintaa käytettäessä muodostetut todennäköisyydet ovat vain likiarvoja todellisille todennäköisyyksille. Kuten muukin matematiikka todennäköisyyslaskenta on aksiomatisoitu. Tällä on pyritty antamaan todennäköisyyslaskennalle matemaattisesti pitävä perusta. Todennäköisyysmitta P on otosavaruuden Ω osajoukkojen muodostamassa joukossa F määritelty reaaliarvoinen joukkofunktio P : F R, joka toteuttaa seuraavat Kolmogorovin aksiomat : Aksioma 1. P (A) 1 A F Aksioma 2. Jos A 1, A 2, F on (ääretön) jono pareittain erillisiä tapahtumia (pairwise disjoint events), so. A i A j = jos i j, niin Aksioma 3. P (Ω) = 1 ja P ( ) = P (A 1 A 2... ) = P (A 1 ) + P (A 2 ) +... Jos otosavaruus on äärellinen, voidaan todennäköisyysmitan määrittelyjoukoksi F ottaa Ω:n kaikkien osajoukkojen joukko. Ajan, pituuden ym. jatkuvasti muuttuvien suureiden yhteydessä otosavaruus on useimmiten ääretön. Tällöin määrittelyjoukoksi ei voida ottaa Ω:n kaikkien osajoukkojen joukkoa, vaan vain tietyn σ-algebran toteuttavat riittävän säännölliset tapahtumat hyväksytään määrittelyjoukkoon F. Soveltajaa tämä ei haittaa, sillä reaalimaailmassa kokeen tapahtumat ovat säännöllisiä ja muodostavat σ-algebran. Todennäköisyyden ominaisuuksia. Olkoon P otosavaruuden Ω todennäköisyysmitta. Aksiomiin nojautuen johdetaan todennäköisyyksille eräitä hyödyllisiä laskusääntöjä. Lause 1.3.1. Jos A 1, A 2,..., A n on kokoelma pareittain erillisiä tapahtumia, niin P (A 1 A 2 A n ) = P (A 1 ) + P (A 2 ) + + P (A n ) 9

Todistus. Laajennetaan kokoelma pareittain erillisten tapahtumien jonoksi asettamalla A i =, i = n + 1, n + 2,.... Nyt ( n ) ( ) n n Aks 2+3 P A i = P A i = P (A i ) + = P (A i ) i=1 i=1 i=1 i=1 Seuraus. A B = P (A B) = P (A) + P (B) Lause 1.3.2. P (A) = 1 P (A) Todistus. A A =, A A = Ω Seur. P (A) + P (A) = P (Ω) = 1 Esimerkki 1.3.1. Pelaaja heittää kahta noppaa. Hän suorittaa 24 pelikierrosta. Hän voittaa, jos hän saa ainakin kerran kuutosparin. Olkoon A = ainakin kerran kuutospari, jolloin A = ei kertaakaan kuutosparia. Koska tuloperiaatteen mukaan P (A) = ( 35 24, 36) niin voittotodennäköisyys on ( ) 24 35 P (A) = 1 P (A) = 1 =.491 36 Lause 1.3.3. Yhteenlaskusääntö (Additive rule). Mielivaltaisille tapahtumille A ja B pätee P (A B) = P (A) + P (B) P (A B) Todistus. Annetaan A ja A B erillisten tapahtumien yhdisteenä: A = (A B) (A B) A B = B (A B) A B Seurauksen nojalla P (A) = P (A B) + P (A B) P (A B) = P (B) + P (A B) A ÇB A ÇB mistä puolittain vähentämällä seuraa väite. 1

Edellisen lauseen avulla voidaan todistaa (harjoitustehtävänä), että kolmen tapahtuman A 1, A 2, A 3 yhdisteen todennäköisyydelle pätee yhteenlaskusääntö: P (A 1 A 2 A 3 ) =P (A 1 ) + P (A 2 ) + P (A 3 ) P (A 1 A 2 ) P (A 1 A 3 ) P (A 2 A 3 ) + P (A 1 A 2 A 3 ) Induktiotodistuksella yhteenlaskusääntö voidaan yleistää. Tapahtumien A 1, A 2,..., A n yhdisteen todennäköisyydelle pätee kaava ( n ) n P A i = P (A i ) P (Ai A j ) i<j i=1 i=1 + ( n ) P (Ai A j A k ) + ( 1) n+1 P A i i<j<k i=1 Huomautus. Koska joukko-opin Venn-diagrammilla piirrettyjen joukkojen pinta-alat täyttävät myös Kolmogorovin aksiomat, voidaan niiden avulla muistaa ja hahmotella, (mutta ei todistaa!) todennäköisyyslaskennan laskusääntöjä. Esimerkki 1.3.2. Pakasta vedetään yksi kortti. Millä todennäköisyydellä se on (a) pata tai ässä? (b) mustakortti, pata tai ässä? (a) Merkitään A = pata ja B = ässä. Nyt P (A) = 13 52, P (B) = 4 52 P (A B) = P (A) + P (B) P (A B) = 13 + 4 1 52 ja P (A B) = 1 52. Siis = 16 52 = 4 13 (b) Merkitään C = musta. Nyt P (C) = 26 52 P (A B C) = 1 52. Siis 13 2, P (A C) =, P (B C) = ja 52 52 P (A B C) = P (A) + P (B) + P (C) P (A B) P (A C) P (B C) + P (A B C) 13 + 4 + 26 1 13 2 + 1 = 52 = 28 52 = 7 13 11

1.4 Ehdollinen todennäköisyys Olkoon A ja B kaksi tapahtumaa, joista tapahtuman B tiedetään tapahtuneen. Ajatellaan nyt B otosavaruudeksi, jossa tarkastellaan tapahtuman A realisoitumista. Jos lisäksi myös A on tapahtunut, on tämä tapahtuma joukko A B. Nyt tapahtuman A todennäköisyys ehdolla, että tapahtuma B on realisoitunut, on tapahtuman A B B todennäköisyys otosavaruudessa B. Tätä sanotaan A:n ehdolliseksi todennäköisyydeksi ehdolla B ja sitä merkitään P (A B): Määritelmä 1.4.1. Olkoot A ja B tapahtumia ja olkoon P (B) >. Tapahtuman A ehdollinen todennäköisyys ehdolla B (conditional probability) on luku P (A B) = P (A B) P (B) Esimerkki 1.4.1. Liikenneonnettomuuksista 55 % aiheutuu kuljettajan huonosta ajotaidosta, 12 % auton teknillisestä viasta ja 5 %:ssa on syynä sekä huono ajotaito että teknillinen vika. On tapahtunut liikenneonnettomuus ja on havaittu, että onnettomuuden aiheuttaneessa autossa on teknillinen vika. Millä todennäköisyydellä onnettomuuteen vaikutti myös kuljettajan huono ajotaito? Olkoon A = syynä huono ajotaito ja B = syynä tekninen vika. Nyt P (A) =.55, P (B) =.12 ja P (A B) =.5. Kysytty todennäköisyys on P (A B) =.5.12 =.42. Ehdollisen todennäköisyyden määritelmästä seuraa Kertolaskusääntö (Multiplicative rule). Jos P (B) >, niin P (A B) = P (B)P (A B) Kolmen tapahtuman A 1, A 2, A 3 leikkauksen todennäköisyydelle pätee kertolaskusääntö: P (A 1 A 2 A 3 ) = P ((A 1 A 2 ) A 3 ) = P (A 1 A 2 )P (A 3 A 1 A 2 ) = P (A 1 )P (A 2 A 1 )P (A 3 A 1 A 2 ) edellyttäen, että P (A 1 A 2 ) >. Induktiolla voidaan todistaa 12

Kertolaskusäännön yleistys ( n ) ( P A i = P (A 1 )P (A 2 A 1 )P (A 3 A 1 A 2 ) P A n i=1 edellyttäen, että P (A 1 A 2 A n 1 ) >. n 1 i=1 A i ) Esimerkki 1.4.2. Ryhmässä on 3 henkilöä, joista 2:llä on DI-tutkinto. Valitaan satunnaisesti 3 henkilöä. Mikä on todennäköisyys, että kaikilla on DI-tutkinto? Tehtävä voidaan ratkaista suoraan kombinatorisesti: ( 2 ) 3 P (kaikilla DI) = ( 3 ) =.28 3 tai kertolaskusäännöllä: Ajatellaan henkilöt valituksi peräkkäin yksi kerrallaan ja merkitään A i =i:s on DI ja muut mitä tahansa. Nyt P (kaikilla DI) = P (A 1 A 2 A 3 ) = P (A 1 )P (A 2 A 1 )P (A 3 A 1 A 2 ) = 2 3 19 29 18 28 =.28 1.5 Kokonaistodennäköisyys ja Bayesin kaava Oletetaan, että otosavaruudessa Ω on ositus (partition) B 1, B 2,..., B n eli tapahtumat B i ovat pareittain erillisiä ja Ω = B 1 B 2 B n Tällöin tapahtuma A Ω voidaan antaa pareittain erillisten tapahtumien A B i, i = 1,..., n yhdisteenä A = (A B 1 ) (A B 2 ) (A B n ) joten lauseen 1.3.1 perusteella P (A) = n P (A B i ) i=1 Jos nyt P (B i ) >, i = 1,..., n, saadaan tästä kertolaskusäännön nojalla 13

Tapahtuman A kokonaistodennäköisyyden kaava (theorem of total probability): P (A) = n P (B i )P (A B i ) i=1 Kaavalla voit laskea todennäköisyyden P (A), kun tunnet ositteiden B i todennäköisyydet ja tapahtuman A todennäköisyydet ositteissa B i. Ehdolliselle todennäköisyydelle P (B k A) = P (B k A)/P (A) saadaan kertolaskusääntöä P (B k A) = P (B k )P (A B k ) ja kokonaistodennäköisyyden kaavaa käyttäen Bayesin kaava (Bayes' rule). Jos B 1, B 2,..., B n on otosavaruuden Ω ositus ja P (B i ) >, i = 1,..., n, sekä P (A) >, niin P (B k A) = P (B k)p (A B k ) n i=1 P (B i)p (A B i ) Esimerkki 1.5.1. Tehtaan tuotannosta 1 % on viallisia (tapahtuma B 1 ), 5 % huonoja (tapahtuma B 2 ) ja 94 % hyviä (tapahtuma B 3 ). Kehitettiin testauslaite, joka hylkää viallisen tuotteen todennäköisyydellä.9 ja huonon tuotteen todennäköisyydellä.7. Todennäköisyydellä.1 testi saattaa virheellisesti hylätä tuotteen, vaikka tuote olisi hyvä. Olkoon valittu satunnaisesti tuote ja testilaite on hylännyt sen. Mikä on todennäköisyys, että tämä tuote todella on viallinen? Annettujen tietojen perusteella P (B 1 ) =.1, P (B 2 ) =.5 ja P (B 3 ) =.94. Olkoon A =tuote hylätään. Tällöin P (A B 1 ) =.9, P (A B 2 ) =.7, P (A B 3 ) =.1 ja P (B 1 )P (A B 1 ) P (B 1 A) = P (B 1 )P (A B 1 ) + P (B 2 )P (A B 2 ) + P (B 3 )P (A B 3 ).1.9 =.1.9 +.5.7 +.94.1.65 Nimittäjässä oleva lauseke P (B 1 )P (A B 1 ) + P (B 2 )P (A B 2 ) + P (B 3 )P (A B 3 ) on tuotteen hylkäämisen kokonaistodennäköisyys eli P (A) =.1.9 +.5.7 +.94.1.138 14

Esimerkki 1.5.2. Testissä saadaan selville 95% dopingia käyttäneistä. 2% testatuista urheilijoista tulee ns. väärä positiivinen tulos eli heille testi on positiivinen, vaikka he ovatkin puhtaita. Oletetaan, että 1% urheilijoista käyttää dopingia. Jos satunnaisesti valitun urheilijan testitulos on positiivinen, millä todennäköisyydellä hän on käyttänyt dopingia? Määritellään tapahtumat D='käyttää dopingia' ja T ='tulos on positiivinen'. Tietojen perusteella P (D) =.1, P (D) =.99, P (T D) =.95, ja P (T D) =.2 Tapahtumat D ja D (käyttäjät ja ei-käyttäjät) muodostavat otosavaruuden osituksen ja kokonaistodennäköisyyden kaavalla P (T ) = P (T D) + P (T D) Kysytty todennäköisyys on P (D T ). Ehdollisen todennäköisyyden määritelmän perusteella saadaan P (D T ) = = = P (T D) P (T ) = P (T D) P (T D) + P (T D) P (D)P (T D) P (D)P (T D) + P (D)P (T D).1.95.1.95 +.99.2 =.324 1.6 Tapahtumien riippumattomuus Määritelmä 1.6.1. Saman otosavaruuden tapahtumat A ja B ovat (tilastollisesti) riippumattomia ((statistically) independent), jos P (A B) = P (A)P (B) Määritelmästä saadaan seuraus: Jos P (B) >, niin A ja B ovat riippumattomia täsmälleen silloin, kun P (A B) = P (A) Täten sanalla riippumaton on sisältöä sikäli, että toisen tapahtuman realisoituminen ei vaikuta toisen tapahtuman todennäköisyyteen. 15

Esimerkki 1.6.1. Tapahtumien riippumattomuus saattaa olla hyvin muodollista; sille ei löydy selvää tulkintaa. Tarkastellaan nopanheittoa. Olkoot A = {1, 2} ja B = {parillinen} = {2, 4, 6}. Tapahtumat A ja B ovat määritelmän mukaan riippumattomia, sillä P (A B) = P ({2}) = 1 6 ja P (A)P (B) = 2 6 3 6 = 1 6 Esimerkki 1.6.2. Osoitetaan, että jos A ja B ovat riippumattomia, niin myös A ja B ovat riippumattomia. Oletuksen mukaan siis P (A B) = P (A)P (B), jolloin P (A B) = P (A) P (A B) = P (A) P (A)P (B) = P (A)(1 P (B)) = P (A)P (B). Siis myös A ja B ovat riippumattomia. Useamman kuin kahden tapahtuman riippumattomuus määritellään seuraavasti: Määritelmä 1.6.2. Tapahtumat A 1,..., A n ovat riippumattomia, jos jokaiselle näiden tapahtumien joukon osajoukolle A (1), A (2),..., A (m), m n pätee P (A (1) A (2) A (m) ) = P (A (1) )P (A (2) ) P (A (m) ) Esimerkki 1.6.3. Tapahtumat A 1, A 2 ja A 3 ovat riippumattomia, jos ne ovat pareittain riippumattomia ja P (A 1 A 2 A 3 ) = P (A 1 )P (A 2 )P (A 3 ). Huomautus 1. Tapahtumien riippumattomuus säilyy, jos jo(t)kin tapahtuma(t) korvataan komplement(e)illaan. Huomautus 2. Käytännössä, jos ei ole mitään näyttöä tapahtumien riippuvuudesta, oletetaan tapahtumat riippumattomiksi, jolloin siis tapahtumien leikkauksien todennäköisyys on tapahtumien todennäköisyyksien tulo. Esimerkki 1.6.4. Tarkastellaan toistokoetta. Toistot voidaan olettaa toisistaan riippumattomiksi. Olkoon A kokeen tapahtuma, jonka esiintymistä seurataan. Tällöin P (Â1 Â2 Ân) = P (Â1)P (Â2) P (Ân) missä Âi voi olla joko n-toistokokeen tapahtuma i:nnessä toistossa realisoituu A tai tapahtuma i:nnessä toistossa realisoituu A. 16

Esimerkki 1.6.5. Olkoon laitteessa komponenttien K i toiminta toisistaan riippumatonta. Olkoon A i =komponentti K i toimii aikavälin t ja olkoon P (A i ) = p i. Laske todennäköisyys, että laite toimii aikavälin t, kun laite koostuu a) sarjaan b) rinnan kytketyistä komponenteista K 1, K 2,..., K m. c) Entä jos laite on oheisen kuvan mukainen? Olkoon A = laite toimii aikavälin t. a) Komponenttien ollessa kytketty sarjaan laite toimii, jos jokainen komponentti toimii P (A) = P (A 1 A 2 A m ) = P (A 1 )P (A 2 ) P (A m ) = m i=1 p i b) Rinnan kytkennässä taas riittää, että yksikin komponentti toimii. De Morganin säännöllä ( m ) P (A) = P (A 1 A 2 A m ) = 1 P (A 1 A 2 A m ) = 1 (1 p i ) i=1 c) Nyt joko ylä- tai alasarjan täytyy toimia. Merkitään A y =yläsarja toimii ja A a =alasarja toimii P (A) = P (A y A a ) = 1 P (A y A a ) = 1 P (A y )P (A a ( ) ) m m = 1 1 p i (1 p i i=1 ( m = 1 1 2 p i + m = 2 p i m i=1 i=1 i=1 p 2 i m i=1 i=1 p 2 i ) 17

2 Todennäköisyysjakaumia Satunnaismuuttujia koskevan päätöksenteon pohjana on, että satunnaismuuttujan todennäköisyysjakauma tunnetaan. Tässä kappaleessa tutustutaan todennäköisyysjakaumiin yleisesti, niiden tunnuslukuihin sekä muutamiin tavallisimpiin jakaumiin. Käytännön sovelluksissa lähtökohtana on usein empiirinen havaintoaineisto, jolloin sen perusteella voidaan tehdä päätelmiä satunnaismuuttujan jakaumasta tai ainakin jakauman ns. parametreista, jos jakauma on jo etukäteen kiinnitetty, esim. normaalijakaumaksi. Kerrataan aluksi ns. kuvailevaa eli deskriptiivistä tilastotiedettä, jossa empiirisen otosta kuvaillaan tunnusluvuin ja tilastollisen graikan keinoin. 2.1 Empiirisen otoksen kuvailua Tavallisesti satunnaismuuttujan x todennäköisyysjakauman mallintamisessa aluksi koe toistetaan useita kertoja tai havainnoidaan satunnaismuuttujan arvoja muulla tavoin. Näin saadut satunnaismuuttujan havaintoarvot muodostavat (empiirisen) otoksen (sample). Tämän empiirisen otoksen perusteella voidaan tehdä johtopäätöksiä tästä satunnaismuuttujasta. Enemmän näiden johtopäätösten tekemisen perusteista ja itse johtopäätösten tekemisestä kerrotaan jatkokurssilla Tilastomatematiikka. Tässä lyhyesti määritetään empiirisistä otosta kuvaavia tunnuslukuja ja graasia kuvioita. Käsitellään n :n alkion otosta, jonka oletetaan olevan peräisin satunnaismuuttujasta x. Empiirisen otoksen frekvenssijakaumassa (frequency distribution) otos järjestetään taulukkomuotoon, jossa luetteloidaan satunnaismuuttujan erisuuret arvot tai luokittelemalla saadut arvoluokat x i ja arvojen esiintymislukumäärät eli frekvenssit (frequency) f i. Usein on tarkoituksenmukaista käyttää frekvenssien sijasta suhteellisia frekvenssejä (relative frequency) p i = f i /n. Frekvenssijakaumaa voidaan havainnollistaa graasesti esim. (frekvenssi)histogrammilla (frequency histogram). Jos käytetään tasavälistä luokittelua, histogrammin muoto havainnollistaa satunnaismuuttujan todennäköisyysjakaumaa. Kun lasketaan frekvenssien tai suhteellisten frekvenssien kumulatiivisia summia (cumulative sum) saadaan ns. summafrekvenssit F i ja suhteelliset summafrekvenssit F i /n F i = i f j, j=1 F i n = i j=1 f j n = i j=1 p j Nämä arvot vastaavat kysymykseen kuinka monta / kuinka suuri osa koetuloksista on tietyn arvon x i suuruisia tai sitä pienempiä. Otosta voidaan kuvailla ns. tunnusluvuilla, jotka yhdellä luvulla kuvaavat jakauman sijaintia tai arvojen vaihtelua. Otosta x 1, x 2..., x n kuvaavista tunnusluvuista tärkeimpiä ovat 18

keskiarvo (average, sample mean) : x = 1 n n i=1 (otos)varianssi (sample variance) : s 2 = 1 n 1 x i n (x i x) 2 (otos)keskihajonta (sample standard deviation) : s = s 2 i=1 Jos otos on luokiteltu luokkakeskuksina x i ja frekvensseinä f i, i = 1,..., k, niin x = 1 n k f i x i = i=1 k i=1 p i x i ja s 2 = 1 n 1 k f i (x i x) 2 i=1 ( k ) i=1 f i = n, Keskihajonta mittaa havaintotulosten x i jakaantumista keskiarvon x molemmin puolin. Mitä suurempi on keskihajonta s sitä enemmän havaintoarvot x i (keskimäärin) poikkeavat x:sta. Esimerkki 2.1.1. Oletetaan, että elektronisen komponentin ikä (vuosia) on satunnaismuuttuja. On tutkittu 1 komponentin ikä ja on saatu seuraavat mittaustulokset:.24,.62,.66, 4.2,.54, 6.4, 5.4, 1.6, 2.2, 1.6,.3, 1.2,.8, 1.9,.6, 2.4, 5.4,.2,.96, 6.4, 1.5,.8,.2,.96, 3.6, 2.4,.5, 1.6, 2.8, 2.2, 2.2, 1.8, 2.6,.17,.54,.3,.52, 6.4, 3.2, 2.6,.98, 1.2,.2,.92, 1.4,.44,.8, 2.6, 1.2, 6.,.66,.26, 7.8, 1.3, 3.8, 6., 1.8, 1.1,.19, 1.6, 2.6, 4.8, 2.8, 1.4,.34, 1.8, 4.2, 1.2, 3.6,.34, 1.1, 4.4,.24,.74, 2.6,.34, 2.8, 3.,.28, 1.2,.12, 4., 2.4, 2.6, 2.6, 1.3, 1.1, 4., 4.4, 2.,.66,.12,.44,.62,.66, 3.6,.8, 2.8,.8, 5.4 Kun data luokitellaan luokkina 1, 1 2,..., 7 8 saadaan seuraava frekvenssitaulukko Luokka frekvenssi suhteellinen summa- suhteellinen f i frekvenssi frekvenssi summafrekvenssi f i /n F i F i /n 1 39.39 39.39 12 21.21 6.6 23 18.18 78.78 34 6.6 84.84 45 7.7 91.91 56 3.3 94.94 67 5.5 99.99 78 1.1 1 1. 19

Otoksen keskiarvo x = 1.99, varianssi s 2 = 3.18 ja otoskeskihajonta s = 1.78. Alla oleva frekvenssihistogrammi muistuttaa muodoltaan satunnaismuuttujan x todennäköisyysjakaumaa. 2.2 Diskreetin satunnaismuuttujan jakauma Satunnaismuuttuja X on diskreetti, jos se voi saada vain erillisiä arvoja. Siten sen otosavaruudessa Ω on äärellinen tai ääretön määrä alkeistapauksia, joiden todennäköisyydet ovat positiivisia, Ω = {x 1, x 2,..., x n,... } Diskreetin satunnaismuuttujan X todennäköisyysjakauma tunnetaan, kun vain tiedetään, millä todennäköisyydellä X saa eri arvot x i eli mitä on P (X = x i ). Tämä ilmoitetaan määrittelemällä satunnaismuuttujan tiheysfunktio: Funktio f : R [, 1] on diskreetin satunnaismuuttujan X, otosavaruutenaan Ω, tiheysfunktio (density function), jos 1. f(x) 2. f(x) = 1 x Ω 3. f(x) = P (X = x) Huomautus 1. Satunnaismuuttujan X tiheysfunktio f(x) on siis määritelty kaikilla reaaliluvuilla. Tavallisesti tiheysfunktion muoto kerrotaan vain otosavaruudessa ja jätetään mainitsematta itsestään selvä f(x) =, jos x / Ω. 2

Arvoja f(x i ) = P (X = x i ), missä x i Ω, kutsutaan pistetodennäköisyyksiksi. Diskreetin satunnaismuuttujan tiheysfunktiosta käytetäänkin myös nimitystä pistetodennäköisyysfunktio. Mielivaltaisen tapahtuman A Ω todennäköisyys P (A) saadaan summaamalla yhteen A:n alkioiden pistetodennäköisyydet, P (A) = f(x) x A Näin määritelty todennäköisyysmitta P toteuttaa Kolmogorovin aksiomat. Esimerkki 2.2.1. Satunnaismuuttujan X, jonka otosavaruus Ω = {1, 2, 3,... } ja P (X = x) = 1/2 x, kun x N, jakauma ilmoitetaan tiheysfunktiolla f(x) = 1, kun x = 1, 2,.... 2x Diskreetin satunnaismuuttujan X jakaumaa voi havainnollistaa graasesti janadiagrammilla, jossa arvoon x i on liitetty f(x i )-pituinen jana. Lasketaan ehdollinen todennäköisyys P ({X > 2} {X < 4}) P (X > 2 X < 4) = = P (X < 4) = P (X = 3) P (X < 4) f(3) f(1) + f(2) + f(3) = 1/8 1/2 + 1/4 + 1/8 = 1 7 Diskreetin satunnaismuuttujan X kertymäfunktio (cumulative distribution function) F (x) määritellään F (x) = P (X x) = f(t), x R t x 21

Diskreetin satunnaismuuttujan kertymäfunktio on kasvava porrasfunktio (kohdassa x = x i on f(x i ):n suuruinen hyppäys) ja F (x) 1, lim F (x) =, lim x F (x) = 1 x Jos tunnet kertymäfunktion, voit helposti laskea tapahtumien todennäköisyyksiä, esimerkiksi P (a < X b) = F (b) F (a) P (a X b) = F (b) F (a) + P (X = a) Diskreetin satunnaismuuttujan tapahtuman todennäköisyyttä laskettaessa on tärkeää huomata kuuluvatko rajat mukaan tapahtumaan vai eivät. Esimerkki 2.2.2. Määrätään esimerkin 2.2.1 satunnaismuuttujan X kertymäfunktio. Arvolla x N on x 1 geom. summa F (x) = P (X x) = = 1 1 2 t 2 x joten kertymäfunktio on F (x) = t=1 { 1 1, 2 x kun t x < t + 1 (t = 1, 2,... ), kun x < 1 Diskreetti satunnaismuuttuja X noudattaa diskreettiä tasajakaumaa, (discrete uniform distribution), jos sen otosavaruudessa Ω on äärellinen määrä n symmetrisiä=yhtä todennäköisiä alkeistapauksia. Tällöin X:n tiheysfunktio on f(x) = 1 n, kun x Ω Usein alkeistapaukset ovat kokonaislukuja Ω = {a, a + 1, a + 2,..., b}, joita on b a + 1 kappaletta. Tällöin merkitään X Tasd(a, b) ja tiheysfunktio f(x) = 1, kun x Ω = {a, a + 1, a + 2,..., b} b a + 1 22

Esimerkki 2.2.3. Nopanheiton tuloksen X otosavaruus Ω = {1, 2, 3, 4, 5, 6} ja se noudattaa diskreettiä tasajakaumaa X Tasd(1, 6). Tiheysfunktio on f(x) = 1, kun x Ω. 6 Esimerkki 2.2.4. Hypergeometrinen jakauma (hypergeometric distribution). Tiedetään että N kappaleen joukossa on m kappaletta tuotetta A. Poimitaan joukosta n kappaleen satunnaisotos ilman takaisinpanoa. Olkoon satunnaismuuttuja X ='Otoksessa olevien tuotteiden A lukumäärä'. Mitä on P (X = x)? Suotuisia tapahtumia, ( joissa x on tuotetta A ja n x muita kuin tuotteita A, on tuloperiaatteen nojalla N m )( m ) ( x n x kappaletta. Kaikkiaan n alkion otoksia on N n), joten ( m N m ) P (X = x) = x)( n x ( N n) Sanotaan, että satunnaismuuttuja X noudattaa hypergeometrista jakaumaa parametrein (N, m, n), merkitään X Hyperg(N, m, n). Sen otosavaruus Ω on kaikkien sellaisten kokonaislukujen x joukko, että max{, n (N m)} x min{n, m} Laatikossa on m = 5 valkoista ja 7 mustaa palloa, yhteensä siis N = 12 palloa. Näistä valitaan palauttamatta n = 6 palloa. Valkoisten pallojen lukumäärä tässä 6 pallon otoksessa X Hyperg(12, 5, 6), Ω = {, 1, 2, 3, 4, 5} ja sen tiheysfunktio on ( 5 7 ) f(x) = x)( 6 x ( 12 ), x Ω = {, 1, 2, 3, 4, 5} 6 Nyt todennäköisyys, että otoksessa olisi vähintään 4 valkoista palloa on ( 5 )( 7 ( 5 )( 7 4 P (X = 4) + P (X = 5) = f(4) + f(5) = ( 2) 5 12 ) + ) 1) = 5 21 924 + 1 7 924 =.121 6 ( 12 6 23

Esimerkki 2.2.5. Kurssilla on 5 harjoituskertaa=aihealuetta. Tentissä on 4 tehtävää satunnaisesti valitusta 4 aihealueesta, yksi kustakin. Kurssin 25 opiskelijaa valmistautuvat tenttiin opiskelemalla täydellisesti vain kahden aihealueen kaikki harjoitukset, jokainen siis valitsee omat 2 aihealuettaan. Kurssista pääsee läpi osaamalla puolet tehtävistä (2/4). Kuinka moni a) pääsee läpi 1. tenttikerralla b) ei pääse läpi 3 ensimmäisellä tenttikerralla a) 5 aihealueesta voidaan valita neljä ( 5 4) = 5 eri tavalla. Opiskelijan valitsemat kaksi aihealuetta sisältyvät kolmeen näistä eri kombinaatioista. Olkoon satunnaismuuttuja X = 'sen tentin järjestysnumero, jolloin opiskelija pääsee läpi'. Näin todennäköisyys, että hän pääsee läpi 1. tentistä on P (X = 1) = 3 5 =.6 ja 25 opiskelijasta pääsee läpi.6 25 = 15. b) Mikä on satunnaismuuttujan X tiheysfunktio? X on diskreetti satunnaismuuttuja, jonka otosavaruus Ω = {1, 2, 3,...} Jos henkilö pääsee läpi n. kerralla, on hänellä ensin n 1 epäonnistumista ja sitten onnistuminen. Tiheysfunktio on siis f(x) = (.4) x 1.6, kun x {1, 2, 3,...} ja b)-kohdan todennäköisyys on siis P (X > 3) = 1 P (X 3) = 1 [P (X = 1) + P (X = 2) + P (X = 3)] = 1 [ (.4).6 + (.4) 1.6 + (.4) 2.6 ] =.64 ja 3. tentin jälkeen reputtaneita on.64 25 = 16. Tämä todennäköisyysjakauma on ns. geometrinen jakauma (geometric distribution). Jos toistokokeessa on kaksi vaihtoehtoa ja 1 niin satunnaismuuttuja X= 'millä toistokerralla ensimmäisen kerran tapahtuu vaihtoehto 1' noudattaa geometrista jakaumaa Geom(p), missä parametri p= vaihtoehdon 1 todennäköisyys. Sen tiheysfunktio ja otosavaruus ovat X Geom(p) : f(x) = p(1 p) x 1, x Ω = {1, 2, 3,...}, p 1 Usein vaihtoehto 1 nimetään 'onnistumiseksi' (success) ja vaihtoehto 'epäonnistumiseksi' (failure), Tässä esimerkissä X Geom(.6). 24

2.3 Jatkuvan satunnaismuuttujan jakauma Satunnaismuuttujan X, jonka otosavaruus Ω on (äärellinen tai ääretön) reaalilukuväli tai välien yhdiste, sanotaan olevan jatkuva (continuous) tai jatkuvasti jakautunut (continuously distributed). Sen todennäköisyysjakaumaa tavallisesti mallinnetaan tiheysfunktiolla. Funktio f : function), jos 1. f(x), x R R [, ) on jatkuvan satunnaismuuttujan X tiheysfunktio (density 2. f(x) dx = 1 3. P (a X b) = b a f(x) dx, missä a b Huomautus 1. Satunnaismuuttujan X tiheysfunktio f(x) on siis määritelty kaikilla reaaliluvuilla. Usein tiheysfunktion muoto kerrotaan vain otosavaruudessa ja jätetään mainitsematta itsestään selvä f(x) =, jos x / Ω. Tapahtuman {a X b} todennäköisyys lasketaan siis tiheysfunktion määrättynä integraalina P (a X b) = b a f(x) dx kaikilla a b R, myös kun a = ja/tai b =. Määrätyn integraalin ominaisuuksien perusteella yllä määritelty todennäköisyysmitta P toteuttaa Kolmogorovin aksiomat. Huomautus 2. Jatkuvan satunnaismuuttujan yksittäisen muuttujan arvon todennäköisyys on nolla, P (X = a) = P (a X a) = Näin jatkuvalla satunnaismuuttujalla a a f(x) dx = P (a X b) = P (a X < b) = P (a < X b) = P (a < X < b) 25

Siis todennäköisyys sille, että satunnaismuuttuja saa tietyn arvon, on. Tässä ei kuitenkaan ole mitään ristiriitaa todellisuuden kanssa. Nimittäin jatkuvan satunnaismuuttujan arvoa ei voi mitata täysin tarkasti, vaan mittaustulos on aina jokin väli, jonka pituus riippuu mittaustarkkuudesta. Esimerkiksi, mitattakoon satunnaismuuttujan X arvot yhden desimaalin tarkkuudella. Tällöin todennäköisyys, että X:n arvoksi saadaan 5.2 on P (5.15 X < 5.25) = 5.25 5.15 f(x) dx Tiheysfunktion intuitiivinen tulkinta. Olkoon jatkuvasta satunnaismuuttujasta X kerätty luokiteltu frekvenssijakauma. Piirretään tähän luokitukseen perustuva histogrammi siten että kunkin osavälin kohdalle piirretty pylväs pinta-alaltaan kuvaa kyseisen välin todennäköisyyttä eli todennäköisyyttä sille, että X saa arvon ko.väliltä (pylvään korkeus on välille osuneiden mittaus tulosten suhteellinen frekvenssi jaettuna luokitusvälin pituudella). Muuttujan X tiheysfunktion kuvaaja kulkee jostain pylväiden huippukohtien kautta. Jos tihennetään luokitusta rajatta samalla kun koetoistojen määrä kasvaa rajatta, lähestyy pylväiden huiput X:n tiheysfunktion kuvaajaa. Jatkuvan satunnaismuuttujan kertymäfunktio (cumulative distribution function) F määritellään samalla tavalla kuin diskreetille muuttujallekin F (x) = P (X x) = x f(t) dt, x R Kertymäfunktio on kasvava ja F (x) 1, lim F (x) =, lim x F (x) = 1 x Lause 2.3.1. derivaatta Pisteissä x, joissa tiheysfunktio f(x) on jatkuva, on kertymäfunktiolla F (x) = f(x) 26

Todistus. Valitaan vakio a siten että välillä [a, x] on tiheysfunktio jatkuva. Nyt F (x) = x a f(t) dt = f(t) dt + } {{ } vakio x a f(t) dt F (x) = f(x) Kertymäfunktion F avulla voi helposti esittää erilaisten tapahtumien todennäköisyydet, esimerkiksi P (a X b) = F (b) F (a) P (X a) = F (a) P (X a) = 1 F (a) Kaikissa epäyhtälöissä voi yhtäsuuruuden jättää myös pois. Esimerkki 2.3.1. Työpaikassa kahvitauon pituus X minuuteissa on satunnaismuuttuja, jonka tiheysfunktio on { c (15 x) kun 5 x 15 f(x) = muulloin a) Määritetään aluksi vakio c. Koska c(15 x) dx = f(x) dx oltava = 1 eli 15 5 c(15 x) dx = c / 15 5 15x 1 2 x2 = c (15 2 12 152 15 5 + 12 ) 52 b) Kertymäfunktio, kun x on välillä [5, 15] on = 5c = 1 c = 1 5 F (x) = x 5 / x 1 5 (15 t) dt = 1 15t 1 5 2 t2 5 (15x 12 x2 15 5 + 12 ) 52 = 1 5 = 1 1 x2 + 3 1 x 5 4 Kertymäfunktio määritellään paloittain kun x < 5 F (x) = 1 1 x2 + 3 x 5 kun 5 x 15 1 4 1 kun x > 15 27

Satunnaismuuttuja T noudattaa eksponenttijakaumaa (exponential distribution) parametrina λ >, merkitään T Exp(λ), jos sen tiheysfunktio on f(t) = λe λt, kun t Kertymäfunktioksi saadaan arvoilla t : F (t) = P (T t) = = / t t e λu = 1 e λt f(u) du = t λe λu du Esimerkki 2.3.2. Tietyn sähköisen komponentin elinajan T (vuosissa) tiedetään olevan eksponentiaalisesti jakautunut parametrinä λ = 2. Todennäköisyys sille, että komponentti kestää korkeintaan yhden vuoden, kun se on jo kestänyt kaksi vuotta, on ehdollinen todennäköisyys P (T < 2 + 1 T > 2) = P (2 < T < 3) P (T > 2) = = (1 e 6 ) (1 e 4 ) 1 (1 e 4 ) = 1 e 2 F (3) F (2) 1 F (2) = e 4 ( e 2 + 1) e 4 Laskettaessa todennäköisyys P (T < 1) saadaan sama tulos P (T < 1) = 1 e 2. Eli todennäköisyys, että komponentti kestää vielä yhden vuoden on sama uudella komponentilla ja jo kaksi vuotta toimineella komponentilla. Jatkuva satunnaismuuttuja X noudattaa jatkuvaa tasajakaumaa (continuous uniform distribution) välillä [a, b], merkitään X Tas(a, b), jos X:n otosavaruus on väli [a, b] ja tiheysfunktio f(x) on vakio tällä välillä. Tällöin X:n tiheysfunktio on f(x) = 1, kun x [a, b] b a 2.4 Odotusarvo, varianssi ja keskihajonta Vastaavasti kuin frekvenssijakaumia voidaan todennäköisyysjakaumia luonnehtia erilaisin tunnusluvuin. Pelkästään jakauman tyypin ja sen tunnuslukujen avulla voidaan tehdä tarkasteltavasta satunnaiskokeesta hyödyllisiä johtopäätöksiä. Tavallisimmat jakauman sijaintia kuvaavat tunnusluvut ovat odotusarvo, varianssi ja keskihajonta. Odotusarvo ilmoittaa jakauman keskikohdan, varianssi ja keskihajonta mittaavat jakauman hajaantumisen suuruutta. 28

Diskreetit satunnaismuuttujat Diskreetin satunnaismuuttujan X, jonka otosavaruus on Ω ja tiheysfunktio on f(x), odotusarvo, varianssi ja keskihajonta määritellään lukuina odotusarvo (mean, expected value) : E(X) = x Ω xf(x) merk. = µ varianssi (variance) : Var(X) = x Ω (x µ) 2 f(x) merk. = σ 2 keskihajonta (standard deviation) : D(X) = Var(X) = σ Huomautus. Jos otosavaruudessa on ääretön määrä alkioita, on tunnusluku olemassa vain kun sen määrittelevä sarja suppenee ja summa on termien järjestyksestä riippumaton. Diskreetin muuttujan odotusarvo on mahdollisten arvojen x i todennäköisyyksillään P (X = x i ) = f(x i ) painotettu keskiarvo. Varianssi taas on odotusarvosta laskettujen neliöityjen poikkeamien (x i µ) 2 todennäköisyyksillä painotettu keskiarvo. Fysikaalinen tulkinta. Jos ajatellaan, että yhden yksikön verran todennäköisyysmassaa on jaettu x-akselin pisteisiin x i pistetodennäköisyyden f(x i ) verran, niin odotusarvo ilmoittaa massan painopisteen x-akselilla ja varianssi massan hitausmomentin painopisteen suhteen. Esimerkki 2.4.1. Arpanopan silmäluvun X odotusarvo ja varianssi ovat E(X) = 1 x f(x) = (1 + 2 + 3 + 4 + 5 + 6) }{{} 6 = 21 6 = 31 2 x Ω = 1 6 x Var(X) = x Ω(x µ) 2 f(x) [ ( 5 = 1 ) 2 + 6 2 ( ) 2 3 + 2 ( ) 2 1 + 2 ( ) 2 1 + 2 ( ) 2 3 + 2 ( ) ] 2 5 = 35 2 12 Voidaan osoittaa (harjoitustehtävänä), että Diskreettiä tasajakaumaa noudattavan satunnaismuuttujan X Tasd(1, n) odotusarvo ja varianssi ovat E(X) = n + 1 2 ja Var(X) = n2 1 12 29

Jatkuvat satunnaismuuttujat Jos satunnaismuuttuja X on jatkuva ja sen tiheysfunktio on f(x), niin määritellään X:n odotusarvo ja varianssi diskreetin tapauksen summia vastaavilla integraaleilla (edellyttäen, että integraalit suppenevat), odotusarvo : E(X) = varianssi : Var(X) = keskihajonta : xf(x) dx merk. = µ (x µ) 2 f(x) dx merk. = σ 2 D(X) = Var(x) = σ Fysikaalinen tulkinta. Jos ajatellaan, että yhden yksikön verran todennäköisyysmassaa on tiivistynyt x-akselille viivatiheytenä tiheysfunktio f(x), niin odotusarvo on x-akselin painopiste ja varianssi on x-akselin hitausmomentti painopisteen suhteen. Esimerkki 2.4.2. Olkoon X jatkuva satunnaismuuttuja, jonka tiheysfunktio on f(x) = 2x, kun < x < 1. Satunnaismuuttujan X odotusarvo on E(X) = xf(x) dx = 1 2x 2 dx = / 1 2 3 x3 = 2 3 ja varianssi Var(X) = = / 1 ( x 2 3) 2 f(x) dx = 1 2x 3 8 3 x2 + 8 9 x dx 1 2 x4 8 9 x3 + 4 9 x2 = 1 2 8 9 + 4 9 = 1 18 Voidaan osoittaa (harjoitustehtävänä), että Jatkuvaa tasajakaumaa noudattavan satunnaismuuttujan X Tas(a, b) odotusarvo ja varianssi ovat E(X) = a + b 2 ja Var(X) = (b a)2 12 3

2.5 Satunnaismuuttujan funktiot Satunnaismuuttuja X määriteltiin kappaleessa 1.1 kuvaukseksi (funktioksi) otosavaruudesta reaalilukujen joukkoon. Jos muodostetaan satunnaismuuttujan reaaliarvoinen funktio Y = h(x) on kyseessä yhdistetty funktio, joka on myös satunnaismuuttuja. Tällä uudella satunnaismuuttujalla on oma otosavaruutensa ja tiheysfunktionsa. Esimerkki 2.5.1. Olkoon X diskreetti satunnaismuuttuja, jonka tiheysfunktio ja otosavaruus ovat f(x) = x2 1, x Ω X = { 2, 1, 1, 2} Muodostetaan uusi satunnaismuuttuja Y = h(x) = X 2 + 1. Kun x Ω X, voi Y saada arvoja h( 2) = h(2) = 5 ja h( 1) = h(1) = 2. Arvojen todennäköisyydet saadaan laskemalla alkuperäisten arvojen todennäköisyydet P (Y = 2) = P (X = 1) + P (X = 1) = f( 1) + f(1) = ( 1)2 1 P (Y = 5) = P (X = 2) + P (X = 2) = f( 2) + f(2) = ( 2)2 1 + 12 1 = 1 5 + 22 1 = 4 5 Nämä todennäköisyydet voidaan esittää myös funktiomuodossa ja näin saadaan satunnaismuuttujan y tiheysfunktioksi ja otosavaruudeksi g(y) = y 1 5, y Ω Y = {2, 5} Yleisessä tapauksessa jos X on diskreetti, on myös Y diskreetti. Satunnaismuuttujan Y tiheysfunktio g(y) määrätään tavallisesti siten, että lasketaan todennäköisyydet Y :n otosavaruuden pisteissä: g(y) = P (Y = y) = P (h(x) = y) = P (X = x i ) = f(x i ) x i :h(x i )=y x i :h(x i )=y Siinä erikoistapauksessa, että funktiolla y = h(x) on käänteisfunktio, on voimassa Lause 2.5.1. Olkoon diskreetin satunnaismuuttujan X tiheysfunktio f(x) ja Y = h(x). Jos funktio y = h(x) on kääntyvä, y = h(x) x = h 1 (y), niin Y :n tiheysfunktio on g(y) = f ( h 1 (y) ) Todistus. g(y) = P (Y = y) = P (h(x) = y) = P (X = h 1 (y)) = f (h 1 (y)) 31

Esimerkki 2.5.2. Olkoon satunnaismuuttujan X tiheysfunktio f(x) = 3 4 ( ) x 1 1, kun x = 1, 2, 3,... 4 Määrätään satunnaismuuttujan Y = X 2 tiheysfunktio g(y). Muuttujan Y otosavaruus on Ω Y = {1, 4, 9,... }. Koska y = x 2 = h(x) x = y = h 1 (y) niin g(y) = f ( y) = 3 4 ( ) y 1 1, kun y = 1, 4, 9,... 4 Tutkitaan seuraavaksi jatkuvaa satunnaismuuttujaa X. Nyt satunnaismuuttuja Y = h(x) voi olla diskreetti tai jatkuva, tai ei diskreetti eikä jatkuva. Tarkastellaan tilannetta, kun Y on jatkuva ja funktio y = h(x) on aidosti monotoninen. Lause 2.5.2. Olkoon X jatkuva satunnaismuuttuja, jonka tiheysfunktio on f(x) ja Y = h(x). Olkoon funktio y = h(x) derivoituva ja aidosti monotoninen. Funktiolla y = h(x) on olemassa käänteisfunktio y = h(x) x = h 1 (y) ja Y :n tiheysfunktio on g(y) = f ( h 1 (y) ) d dy h 1 (y) Todistus. Tiheysfunktio g(y) voidaan määrätä siten, että lasketaan ensin Y :n kertymäfunktio, joka sitten derivoidaan. Olkoon funktio y = h(x) aidosti kasvava. Tällöin myös sen käänteisfunktio on aidosti kasvava. Nyt Y :n kertymäfunktio voidaan määrätä X :n kertymäfunktion avulla F Y (y) = P (Y y) = P (h(x) y) = P (X h 1 (y)) = F X (h 1 (y)) ja derivoimalla kertymäfunktio saadaan tiheysfunktio lauseen 2.3.1 mukaan g(y) = d dy F Y (y) = d dy F X(h 1 (y)) = F X(h 1 (y)) d dy h 1 (y) = f(h 1 (y)) d dy h 1 (y) koska aidosti kasvavan funktion derivaatta d dy h 1 (y) >. 32

Jos funktio y = h(x) aidosti vähenevä, on sen käänteisfunktio myös aidosti vähenevä. F Y (y) = P (Y y) = P (h(x) y) = P (X h 1 (y)) = 1 F X (h 1 (y)) ja derivoimalla kertymäfunktio saadaan tiheysfunktio lauseen 2.3.1 mukaan g(y) = d dy F Y (y) = d ( 1 FX (h 1 (y) ) = f(h 1 (y)) d dy dy h 1 (y) = f(h 1 (y)) d dy h 1 (y) sillä aidosti vähenevän funktion derivaatta d dy h 1 (y) < ja d dy h 1 (y) = d dy h 1 (y). Esimerkki 2.5.3. Satunnaismuuttujan X tiheysfunktio on f(x) = e x, x Ω X = [, ). Määrätään satunnaismuuttujan Y = X 2 tiheysfunktio g(y). Koska y = x 2 = h(x) (x ) x = y = h 1 (y) (y ), niin g(y) = f ( h 1 (y) ) d dy h 1 (y) = e y 1 2 y, kun y Ω Y = (, ). Esimerkki 2.5.4. Olkoon X jatkuva satunnaismuuttuja, jonka tiheysfunktio f(x) = x 12, x Ω X = [1, 5] Mikä on uuden satunnaismuuttujan Y = 2X 3 tiheysfunktio g(y)? Koska y = 2x 3 = h(x) on h 1 (y) = (y + 3)/2 ja d dy h 1 (y) = 1/2. Tiheysfunktio on g(y) = f ( h 1 (y) ) d dy h 1 (y) = 1 (y + 3) 1 12 2 2 = y + 3 48 Koska muunnosfunktio on aidosti kasvava, on Y :n otosavaruus Ω Y = [h(1), h(5)] = [ 1, 7]. 33

2.6 Satunnaismuuttujan funktion odotusarvo Miten voidaan laskea uuden satunnaismuuttujan Y = h(x) odotusarvo E(Y )? Jos pystyy määrittämään tiheysfunktion g(y) voi odotusarvon laskea kappaleen 2.4 tuloksilla. Odotusarvo E(Y ) voidaan kuitenkin määrittää käyttämällä satunnaismuuttujan X tiheysfunktiota f(x): Lause 2.6.1. Olkoon satunnaismuuttujan X otosavaruus Ω X ja tiheysfunktio f(x). Olkoon Y = h(x). a) Jos X on diskreetti, niin E(Y ) = E(h(X)) = x Ω X h(x)f(x) b) Jos X on jatkuva ja y = h(x) on paloittain jatkuva, niin E(Y ) = E(h(X)) = h(x)f(x) dx Todistus. (a) E(Y ) = yg(y) = yp (h(x) = y) = y Ω Y y Ω Y = h(x)f(x) = h(x)f(x) x Ω X y Ω Y x:h(x)=y y Ω Y y x:h(x)=y (b) Todistus on hankala; rajoitutaan tapaukseen, jossa y = h(x) on aidosti monotoninen ja kääntyvä, y = h(x) x = h 1 (y). Tällöin h(x)f(x) dx = = y f ( h 1 (y) ) d dy h 1 (y) dy } {{ } g(y) yg(y) dy = E(Y ) f(x) sij. x = h 1 (y) dx = d dy h 1 (y) dy Lauseesta seuraa käyttökelpoisia tuloksia. Voidaan osoittaa (todistus harjoitustehtävänä), että Lause 2.6.2. Satunnaismuuttujan X funktion Y = ag(x) + bh(x) odotusarvo E(Y ) = E(ag(X) + bh(x)) = ae(g(x)) + be(h(x)) ja erityisesti E(aX + b) = ae(x) + b 34

Lause 2.6.3. Satunnaismuuttujan X varianssille pätee laskukaava: Var(X) = E(X 2 ) [E(X)] 2 Todistus. Merkitään E(X) = µ. Havaitaan, että Var(X) on funktion Y = (X µ) 2 odotusarvo, Var(X) = E ( (X µ) 2) = E(X 2 2µX + µ 2 ) = E(X 2 ) 2µE(X) + µ 2 = E(X 2 ) µ 2 Esimerkki 2.6.1. Olkoon diskreetin satunnaismuuttujan X tiheysfunktio Nyt f(x) = x, kun x = 1, 2, 3, 4 1 1 E(X) = 1 1 + 2 2 1 + 3 3 1 + 4 4 1 = 3 E(X 2 1 ) = 1 1 + 4 2 1 + 9 3 1 + 16 4 1 = 1 Var(X) = 1 3 2 = 1 Esimerkki 2.6.2. Olkoon X jatkuva satunnaismuuttuja, jonka tiheysfunktio f(x) = 2x, kun < x < 1. Esimerkissä 2.4.2 on laskettu E(X) = 2/3 ja E(X 2 ) = 1 x 2 2x dx = 1 2, joten Var(X) = 1 2 ( 2 3 ) 2 = 1 18 Lause 2.6.4. Var(aX + b) = a 2 Var(X) Todistus. Var(aX + b) Lause 2.6.3 = E((aX + b) 2 ) [E(aX + b)] 2 = E(a 2 X 2 + 2abX + b 2 ) [ae(x) + b] 2 Lause 2.6.2 = a 2 E(X 2 ) + 2abE(X) + b 2 a 2 [E(X)] 2 2abE(X) b 2 = a 2 ( E(X 2 ) [E(X)] 2) = a 2 Var(X) 35

2.7 Tsebyshevin epäyhtälö Jos satunnaismuuttujan X tiheysfunktio tunnetaan, voidaan tapahtumien todennäköisyydet laskea tarkasti. Jos tiheysfunktio on tuntematon, voidaan todennäköisyyttä kuitenkin arvioida, jos satunnaismuuttujan X odotusarvo µ ja varianssi σ 2 tunnetaan. Varianssi on X:n jakauman hajaantumisen mitta; fysikaalista tulkintaa käyttäen varianssi ilmaisee x-akselille tiivistyneen todennäköisyysmassan keskittymistä (kun σ 2 on pieni) tai leviämistä (kun σ 2 on suuri) odotusarvon ympärille. Tsebyshevin epäyhtälön nojalla voidaan sanoa, että todennäköisyysmassan valtaosa sijaitsee odotusarvon ympärillä muutaman σ:n pituisessa välissä. Lause 2.7.1. Tsebyshevin epäyhtälö P ( X µ t) σ2 t 2 P ( X µ < t) 1 σ2 t 2 t > Erityisesti, jos t = kσ, niin P ( X µ kσ) 1 k 2 P ( X µ < kσ) 1 1 k 2 Todistus. Annetaan todistus jatkuvalle satunnaismuuttujalle X, jonka tiheysfunktio on f(x). (x µ) 2 P ( X µ t) = f(x) dx f(x) dx X µ t X µ t } {{ t 2 } 1 = 1 t 2 X µ t (x µ) 2 f(x) dx 1 (x µ) 2 f(x) dx t 2 } {{ } =σ 2 = σ2 t 2 Huomaa, että arvoilla t σ epäyhtälö ei kerro mitään. Jos t = 2σ, niin vähintään todennäköisyydellä.75 satunnaismuuttujan arvo osuu lähemmäksi odotusarvoa kuin 2σ. Jos taas t = 3σ, niin korkeintaan todennäköisyydellä 1/9.11 satunnaismuuttujan arvo osuu välin (µ 3σ, µ + 3σ) ulkopuolelle. Esimerkki 2.7.1. Kuulalaakereiden halkaisija X (mm) on satunnaismuuttuja, jonka odotusarvo ja tiheysfunktio ovat tuntemattomia. Varianssin tiedetään olevan σ 2 =.9. Määrätään Tsebyshevin epäyhtälöllä yläraja todennäköisyydelle, että satunnaisesti valitun kuulan halkaisija poikkeaa odotusarvosta ainakin.7: P ( X µ.7) σ2.7 2 =.9.7 2.184 36