Tilastollisten menetelmien perusteet I TILTP2 Luentorunko, syksy Raija Leppälä

Samankaltaiset tiedostot
Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

Tilastollisten menetelmien perusteet I TILTP2 Luentorunko, lukuvuosi

dx=2&uilang=fi&lang=fi&lvv=2015

&idx=2&uilang=fi&lang=fi&lvv=2015

&idx=2&uilang=fi&lang=fi&lvv=2015

Tilastollisen päättelyn perusteet, MTTTP5. Luentorunko, lukuvuosi

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

dx=5&uilang=fi&lang=fi&lvv=2014

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

riippumattomia ja noudattavat samaa jakaumaa.

1. JOHDANTO. SIS LLYSLUETTELO sivu 1. JOHDANTO 3

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

x=2&uilang=fi&lang=fi&lvv=2016

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Tilastollisten menetelmien perusteet I,TILTP2 Luentorunko, syksy 2000

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

30A02000 Tilastotieteen perusteet

dx=2&uilang=fi&lang=fi&lvv=2015

&idx=2&uilang=fi&lang=fi&lvv=2015

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

(b) Tarkista integroimalla, että kyseessä on todella tiheysfunktio.

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Todennäköisyysjakaumia

&idx=2&uilang=fi&lang=fi&lvv=2015

x=2&uilang=fi&lang=fi&lvv=2017

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Harjoitus 2: Matlab - Statistical Toolbox

Sovellettu todennäköisyyslaskenta B

Teema 8: Parametrien estimointi ja luottamusvälit

D ( ) E( ) E( ) 2.917

g=fi&lvv=2018&uilang=fi#parents

4. laskuharjoituskierros, vko 7, ratkaisut

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Todennäköisyys (englanniksi probability)

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Osa 2: Otokset, otosjakaumat ja estimointi

D ( ) Var( ) ( ) E( ) [E( )]

Tilastollinen aineisto Luottamusväli

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Todennäköisyyden ominaisuuksia

Väliestimointi (jatkoa) Heliövaara 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Suotuisien tapahtumien lukumäärä Kaikki alkeistapahtumien lukumäärä

Sovellettu todennäköisyyslaskenta B

Jatkuvat satunnaismuuttujat

Tilaston esittäminen frekvenssitaulukossa ja graafisesti. Keskiluvut luokittelemattomalle ja luokitellulle aineistolle: moodi, mediaani, keskiarvo.

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

tilastotieteen kertaus

Todennäköisyyslaskun kertaus. Heliövaara 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Sovellettu todennäköisyyslasku A

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Mat Sovellettu todennäköisyyslasku A

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Tilastomatematiikka Kevät 2008

Otosavaruus ja todennäköisyys Otosavaruus Ë on joukko, jonka alkiot ovat kokeen tulokset Tapahtuma on otosavaruuden osajoukko

Todennäköisyyslaskenta sivuaineopiskelijoille

Miten hyvin mallit kuvaavat todellisuutta? Tarvitaan havaintoja.

(x, y) 2. heiton tulos y

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

TODENNÄKÖISYYSLASKUN KERTAUS Peruskäsitteitä

3.7 Todennäköisyysjakaumia

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Sovellettu todennäköisyyslaskenta B

031021P Tilastomatematiikka (5 op) viikko 3

1. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden heittojen lukumäärä, joilla tuli 1, 2, 3 tai 4.

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Tutkimustiedonhallinnan peruskurssi

Johdatus todennäköisyyslaskentaan Jatkuvia jakaumia. TKK (c) Ilkka Mellin (2005) 1

5. laskuharjoituskierros, vko 8, ratkaisut

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Estimointi. Vilkkumaa / Kuusinen 1

Testit laatueroasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille

TODENNÄKÖISYYS JA TILASTOT MAA6 KERTAUS

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Kokonaisuudet johon opintojakso kuuluu Lang=fi&lang=fi&lvv=2014

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Teema 7: Todennäköisyyksien laskentaa

Satunnaismuuttujat ja todennäköisyysjakaumat Kertymäfunktio

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Transkriptio:

Tilastollisten menetelmien perusteet I TILTP2 Luentorunko, syksy 2003 Raija Leppälä 8. tammikuuta 2004

Sisältö 1 Johdanto 4 2 Todennäköisyyslaskentaa 7 2.1 Satunnaisilmiö ja tapahtuma................... 7 2.2 Klassinen todennäköisyys..................... 9 2.3 Todennäköisyyslaskennan aksioomat ja laskusääntöjä........................... 9 2.4 Kombinatoriikkaa......................... 14 2.5 Kokonaistodennäköisyys ja Bayesin kaava............ 17 3 Todennäköisyysjakaumia 18 3.1 Satunnaismuuttuja ja todennäköisyysjakauma......... 18 3.2 Diskreetti satunnaismuuttuja.................. 21 3.3 Jatkuva satunnaismuuttuja.................... 23 3.4 Odotusarvon ja varianssin ominaisuuksia............ 25 3.5 Yleisesti sovellettuja todennäköisyysjakaumia......... 29 3.5.1 Bernoulli-jakauma.................... 29 3.5.2 Binomijakauma...................... 29 3.5.3 Hypergeometrinen jakauma............... 31 1

3.5.4 Poisson-jakauma..................... 33 3.5.5 Geometrinen jakauma.................. 35 3.5.6 Diskreetti tasajakauma.................. 36 3.5.7 Jatkuva tasajakauma................... 37 3.5.8 Normaalijakauma..................... 37 4 Otos, otossuure, otantajakauma 45 4.1 Satunnaisotos........................... 45 4.2 Otossuureet ja otosjakaumat................... 47 5 Parametrien estimointi 50 5.1 Piste-estimointi.......................... 50 5.2 Luottamusvälejä.......................... 54 5.2.1 Populaation odotusarvon luottamusväli......... 54 5.2.2 Prosentuaalisen osuuden luottamusväli......... 59 5.2.3 Kahden populaation odotusarvojen erotuksen luottamusväli....................... 62 5.2.4 Kahden prosentuaalisen osuuden erotuksen luottamusväli....................... 64 5.2.5 SPSS -ohjeita....................... 66 6 Hypoteesien testaus 68 6.1 Erilaisia testejä.......................... 72 6.1.1 Yhden populaation odotusarvoa koskeva päättely... 72 6.1.2 Yhdessä populaatiossa tietyn................ 75 6.1.3 Kahden jakauman sijainnin vertailu........... 76 6.1.4 Vastinparitilanne..................... 78 2

6.1.5 Kahdessa populaatiossa tietyn................ 80 6.2 SPSS -ohjeita........................... 82 3

Luku 1 Johdanto Tilastollinen analyysi voidaan jakaa karkeasti kuvailevaan (descriptive) analyysiin ja tilastolliseen päättelyyn (statistical inference). Kuvaileva tilastotiede pyrkii kuvailemaan tietoaineiston sisältöä erilaisten graafisten esitysten ja tunnuslukujen sekä taulukoiden avulla. Kuvailevaan tilastotieteeseen tutustuttiin johdantokurssilla. Tällä opintojaksolla tutustutaan tilastolliseen päättelyyn. Empiirisissä tutkimuksissa on käytössä satunnaisotos populaatiosta. Otoksen perusteella pyritään tekemään johtopäätelmiä koko populaatiosta. Pyritään selvittämään esim. milloin voidaan sanoa ehdollisten otoskeskiarvojen perusteella, että populaatioissa keskiarvot poikkeavat toisistaan (Esim. 1.2). Voidaan myös haluta arvioida vaikkapa populaation keskiarvoa (Esim. 1.1). Esim. 1.1. Tietyssä yskänlääkkeessä pitäisi tuoteselostuksen mukaan olla alkoholia 5 %. Tiedetään, että alkoholipitoisuus vaihtelee jonkin verran pullosta toiseen. Tietyssä laboratorioissa halutaan tutkia voidaanko valmistajan ilmoittamaa lukua pitää sopivana keskiarvona eri pullojen alkoholipitoisuudelle. Lähdetään oletuksesta, että alkoholipitoisuuden vaihtelu pullosta toiseen on luonnehdittavissa normaalijakauman avulla. Suoritettiin koe, jossa kymmenen pullon alkoholipitoisuus mitattiin ja saatiin seuraavat tulokset: 5.01, 4.87, 5.11, 5.21, 5.03, 4.96, 4.78, 4.98, 4.88 ja 5.06. Onko valmistajan väittämään uskomista? (Helenius) 4

Quantiles maximum 100.0 % 5.2100 99.5 % 5.2100 97.5 % 5.2100 90.0 % 5.2000 quartile 75.0 % 5.0725 median 50.0 % 4.9950 quartile 25.0 % 4.8775 10.0 % 4.7890 2.5 % 4.7800 0.5 % 4.7800 mininmum 0.0 % 4.7800 Moments mean 4.98900 std dev 0.12530 std err mean 0.03962 upper 95 % mean 5.07863 lower 95 % mean 4.89937 N 10 Test mean=value hypothesized value 5 actual estimate 4.989 t-test test statistic -0.278 prob > t 0.788 prob > t 0.606 prob < t 0.394 Esim. 1.2. Ovatko tytöt ja pojat syntyessään keskimäärin samanpituisia? Eräästä aineistosta (http://mtl.uta.fi/tilasto/tiltp_aineistoja/saidit.sav, http://mtl.uta.fi/tilasto/tiltp_aineistoja/saidit.xls, n = 120) laskettuna poikien pituuden keskiarvo oli 50.95 ja tyttöjen 50.24. Otoskeskiarvojen erotus oli siis 0.72. Voidaanko tämän perusteella yleistää ja sanoa, että pojat ovat syntyessään keskimäärin tyttöjä pitempiä? 5

Analyysin tuloksia: Means and Standard Deviations level number mean std dev pojat 65 50,9538 1,97192 tytöt 55 50,2364 2,02726 t-test DF prob > t 1,960 118 0,0523 Tilastollisten päätelmien teko perustuukin satunnaisotoksesta määriteltyjen tunnuslukujen (kuten esim. otoskeskiarvojen) todennäköisyysjakaumiin. Johtopäätelmät tehdään erilaisten tilastollisten testien ja analysointimenetelmien avulla. Tällaiseen päättelyyn sisältyy tiettyä epävarmuutta, jota pyritään hallitsemaan käyttäen hyväksi todennäköisyyslaskentaa ja erilaisia todennäköisyysjakaumia. Opintojaksolla tutustutaankin aluksi lyhyesti todennäköisyyslaskentaa ja todennäköisyysjakaumiin. Pääpaino on kuitenkin tilastollisen päättelyn peruskäsitteiden esittelyssä. Perehdytään otosjakaumiin ja niiden käyttöön tilastollisessa päättelyssä. Käydään läpi estimointiin liittyviä käsitteitä sekä tutustutaan joihinkin tilastollisiin testeihin. 6

Luku 2 Todennäköisyyslaskentaa 2.1 Satunnaisilmiö ja tapahtuma Esim. 2.1.1. Heitettäessä rahaa ei tiedetä saadaanko kruunu vai klaava. Tiedetään, että molemmat vaihtoehdot ovat yhtä todennäköisiä. Heitettäessä noppaa tiedetään, että saadaan silmäluku 1, 2, 3, 4, 5 tai 6, mutta ei tiedetä etukäteen silmälukua. Tiedetään, että jokaisen silmäluvun todennäköisyys on sama. Kortin vetäminen sekoitetusta korttipakasta, lottoaminen, veikkaaminen, bussin saapuminen pysäkille ja päivän sää ovat myös esimerkkejä ilmiöistä, joihin liittyy epävarmuutta. Satunnaisilmiö on mikä tahansa ilmiö, johon liittyy useita eri tulosmahdollisuuksia sekä epävarmuutta ilmiön tuloksesta. Puhutaan myös satunnaiskokeesta. Satunnaisilmiöön liittyvien kaikkien mahdollisten tulosten joukkoa kutsutaan perusjoukoksi (otosavaruudeksi) E. Käytännössä ollaan kiinnostuneita joistain perusjoukon osajoukoista (sekä niiden esiintymistodennäköisyyksistä). Perusjoukon osajoukko on nimeltään tapahtuma. Tapahtumia merkitään A, B, C,... 7

Esim. 2.1.2. Rahanheitto E = kaikki mahdolliset tulokset = {kruunu, klaava} Tapahtumia: A = saadaan kruunu = {kruunu} B = saadaan klaava = {klaava} Nopanheitto E = {1, 2, 3, 4, 5, 6} Tapahtumia: A = saadaan parillinen = {2, 4, 6} B = {1} C = {1, 2, 3} D = saadaan suurempi kuin 4 = {5, 6} Kortin vetäminen sekoitetusta korttipakasta E = kaikki kortit Tapahtumia: A = saadaan pata B = saadaan kuningas C = saadaan punainen ässä Lottoaminen (39 palloa, joista arvotaan palauttamatta 7) E = kaikki mahdolliset lottorivit, joita on 15380937 (ks. kombinatoriikka) Tapahtumia: A = saadaan 7 oikein B = saadaan 6 oikein C = ei saada yhtään oikein Veikkaaminen (13 kohdetta, joissa jokaisessa 3 vaihtoehtoa) E = kaikki mahdolliset rivit, joita on 1594323 (ks. kombinatoriikka) tapahtumia: A = saadaan 13 oikein B = saadaan 12 oikein C = ei saada yhtään oikein 8

2.2 Klassinen todennäköisyys Olkoon tarkasteltavan satunnaisilmiön perusjoukossa n tulosta, jotka ovat kaikki yhtä mahdollisia. Olkoon tapahtumaan A liittyviä tuloksia k kappaletta (0 k n). Tällöin tapahtuman A todennäköisyys Esim. 2.2.1. P (A) = k n Rahanheitto A = saadaan kruunu P(A) = 1 2 Nopanheitto A = saadaan parillinen = {2,4,6} P(A) = 3 6 B = {1} P(B) = 1 6 D = suurempi kuin 4 = {5,6} Lottoaminen P(D) = 2 6 A = saadaan 7 oikein P(A) = 1/kaikkien rivien lkm = 1/15380937 B = saadaan 6 oikein P(B) = rivien lkm, joissa 6 oik./kaikkien rivien lkm Klassisen todennäköisyyden (voidaan liittää vain äärellisiin perusjoukkoihin) yhteydessä lukujen n ja k määrittäminen ei aina ole yksinkertaista. Joudutaan usein käyttämään hyväksi kombinatoriikkaa. Tapahtuman A todennäköisyys voidaan myös määritellä arvoksi, jota tapahtuman suhteellinen frekvenssi lähestyy satunnaiskoetoistojen määrää kasvatettaessa. 2.3 Todennäköisyyslaskennan aksioomat ja laskusääntöjä Matemaattisesti määriteltynä todennäköisyys on joukkofunktio P, joka liittää jokaiseen satunnaisilmiön tapahtumaan A reaaliluvun P(A), jota sanotaan 9

tapahtuman A todennäköisyydeksi ja joka toteuttaa tietyt aksioomat. Aksiooma 1. Jos A on mikä tahansa satunnaisilmiön tapahtuma, niin 0 P (A) 1. Aksiooma 2. P(E) = 1. Tällöin kyseessä varma tapahtuma. Jos A ja B ovat kaksi saman satunnaisilmiön tapahtumaa, niin määritellään niiden yhdiste ja leikkaus A B = A tai B tai molemmat tapahtuvat A B = A ja B molemmat tapahtuvat. Sanotaan, että tapahtumat A ja B ovat erillisiä, jos ne molemmat eivät voi tapahtua samanaikaisesti eli A B = (mahdoton tapahtuma). Aksiooma 3. Jos tapahtumat A ja B ovat erillisiä, eli A B =, niin P(A B) = P(A) + P(B). Esim. 2.3.1. Nopanheitto A = saadaan parillinen = {2, 4, 6} P(A) = 3 6 B = saadaan ykkönen ={1} P(B) = 1 6 A B = saadaan parillinen tai ykkönen A B =, joten P(A B) = P(A) + P(B). Laskusääntö 1. Mahdottoman tapahtuman todennäköisyys on nolla. P ( ) = 0 Määritellään A:n komplementtitapahtuma A C = A ei tapahdu 10

Laskusääntö 2. P (A C ) = 1 P (A) Esim. 2.3.2. Nopanheitto A = silmäluku pienempi kuin 6 A C = silmäluku 6 P (A) = 1 P (A C ) = 1 1 6 Esim. 2.3.3. Heitetään rahaa kaksi kertaa. Olkoon A = saadaan ainakin yksi kruunu. P (A) = 1 P (A C ) = 1 1 4. Laskusääntö 3. Jos tapahtumat A 1, A 2,..., A k ovat pareittain erillisiä eli mitkään kaksi tapahtumaa eivät voi esiintyä samanaikaisesi, niin P (A 1 A 2... A k ) = P (A 1 ) + P (A 2 ) +... + P (A k ) Esim. 2.3.4. Vedetään kortti sekoitetusta pakasta. Laske todennäköisyys, että kortti on ruutu-, hertta- tai ristikortti. (Vast. 39 52 ) Laskusääntö 4. (yleinen yhteenlaskusääntö) Jos A ja B ovat satunnaisilmiön tapahtumia, niin P (A B) = P (A) + P (B) P (A B) Esim. 2.3.5. Vedetään kortti sekoitetusta pakasta. Laske todennäköisyys, että kortti on patakortti tai ässä. P(kortti pata tai ässä) = P(kortti pata) + P(kortti ässä) P(kortti pataässä) = 13 52 + 4 52 1 52 = 16 52 11

Määritellään A:n ehdollinen todennäköisyys ehdolla B: Olkoot A ja B saman satunnaisilmiön tapahtumia siten, että P (B) > 0. Tällöin tapahtuman A ehdollinen todennäköisyys ehdolla, että tiedetään tapahtuman B esiintyneen on P (A B) = P (A B) P (B) Esim. 2.3.6. Tarkastellaan sadasta henkilöstä muodostuvaa populaatiota. Henkilöiltä tiedusteltiin heidän mielipidettään verouudistukseen (puolesta tai vastaan). Saatiin seuraava frekvenssitaulukko: puolesta vastaan mies 10 30 40 nainen 15 45 60 25 75 100 Valitaan satunnaisesti yksi henkilö ko. populaatiosta. Määritä todennäköisyys sille, että valittu on uudistuksen puolesta, kun tiedetään valitun olleen mies. (Helenius) B = {mies}, A = {uudistuksen puolesta} P (A B) = P (A B) P (B) = 10 100 40 100 = 1 4 Laskusääntö 5. (yleinen kertolaskusääntö) Jos P (B) > 0, niin P (A B) = P (B)P (A B) Tapahtumat A ja B ovat (tilastollisesti, stokastisesti) riippumattomia, jos P (A B) = P (A). Tällöin siis B:n tapahtuminen tai tapahtumatta jääminen ei vaikuta A:n tapahtumisen todennäköisyyteen ja A:n tapahtuminen tai tapahtumatta jääminen ei vaikuta B:n tapahtumisen todennäköisyyteen. Jos tapahtumat A ja B ovat riippumattomia, niin P (A B) = P (A)P (B). Tapahtumien riippumattomuus voidaan yleistää: Tapahtumat A 1, A 2,..., A k 12

ovat riippumattomia, jos minkään niistä tapahtuminen tai tapahtumatta jääminen ei vaikuta muiden tapahtumien todennäköisyyksiin. Tällöin P (A 1 A 2... A k ) = P (A 1 )P (A 2 ) P (A k ) Riippumattomuuskäsite ja esitetty todennäköisyyden laskukaava voidaan yleistää myös eri satunnaisilmiöiden välille, jolloin tapahtumat voivat olla eri satunnaisilmiöistä. Puhutaan yhdistetystä satunnaisilmiöstä. Esim. 2.3.7. Heitetään noppaa kaksi kertaa. A = 1. heiton silmäluku 5 B = 2. heiton silmäluku 5, A ja B ovat riippumattomat, joten P( saadaan 5 molemmilla heitoilla ) = P( 1. heiton silmäluku 5 ) P( 2. heiton silmäluku 5 ) = ( 1 6 )( 1 6 Esim. 2.3.8. Heitetään noppaa kolme kertaa (toistetaan samaa satunnaisilmiötä). A 1 = 1. heiton silmäluku pariton A 2 = 2. heiton silmäluku pariton A 3 = 3. heiton silmäluku pariton P( saadaan kaikilla heitoilla pariton ) = P( 1. heitolla pariton ) P( 2. heitolla pariton )P( 3. heitolla pariton ) = 1 8 Esim. 2.3.9. Olkoon laatikossa neljä palloa, joista yksi musta, yksi punainen ja loput kaksi valkoisia. Poimitaan umpimähkään laatikosta kaksi palloa peräkkäin siten, että ensin saatu pallo palautetaan takaisin ennen jälkimmäisen poimintaa (yksinkertainen satunnaisotanta palauttaen). Millä todennäköisyydellä molemmat pallot ovat valkoisia? (Helenius s. 196) P( molemmat ( )( ) pallot ( ) valkoisia ) = P( 1. pallo valk. ) P( 2. pallo valk. ) 2 2 1 = = 4 4 4 Suoritetaan kahden pallon poiminta siten, että ensin poimittua ei palauteta laatikoon ennen jälkimmäisen valintaa (yksinkertainen satunnaisotanta palauttamatta). Millä todennökäisyydellä molemmat pallot nyt ovat valkoisia? P( molemmat pallot valkoisia ) = P( 1. pallo valk. ) P( 2. pallo valk. 1. ) 13

valk. ) = ( )( ) 2 1 = 1 4 3 6 Esim. 2.3.10. Olet tulossa kotiin. Avainnipussasi on 5 avainta, joista yhdellä pääset sisään. Valitset satunnaisesti avaimen, jolla koetat avata ovet. Jollei ovi aukea, valitset jäljellä olevista satunnaisesti uuden avaimen ja koetat avata oven, jne. Laske todennäköisyydet, että 1. yrityksellä saat oven auki, 2. yrityksellä saat oven auki,..., 5. yrityksellä saat oven auki. P( 1. yritys ) = 1 ( 5 )( ) 4 1 P( 2. yritys ) = = 1 5 4 5. P( 5. yritys ) = (Liski & Puntanen) ( 4 5 )( ) 3... 4 ( 1 2 )( ) 1 = 1 1 5 Ks. http://noppa5.pc.helsinki.fi/uudet/da1htm/sanasto.htmlkatso, kohta Todennäköisyys, jossa mm. määritelmät, laskusäännöt ja generointimahdollisuudet. 2.4 Kombinatoriikkaa Tarkastellaan satunnaisilmiötä, jonka voidaan ajatella syntyvän K :ssa eri vaiheessa (yhdistetty satunnaisilmiö). Oletetaan, että i:nnessä vaiheessa on n i eri tulosmahdollisuutta. Tällöin yhdistetyllä satunnaisilmiöllä on n 1 n 2 n K eri tulosta. Esim. 2.4.1. Kuinka monta vakioveikkausriviä voidaan muodostaa? Montako sellaista, joissa ei yhtään oikeaa? (Vast. 3 13 = 1594323, 2 13 = 8192) Esim. 2.4.2. Kuinka moneen erilaiseen jonoon henkilöt A, B ja C voidaan järjestää? (Vast. 3 2 1) 14

Edellä muodostettiin kirjainten permutaatiot. Jonon mitä tahansa uutta järjestystä sanotaan permutaatioksi. Kuinka moneen erilaiseen järjestykseen n erilaista alkiota voidaan asettaa? Erilaisia järjestyksiä (permutaatioita) on n(n 1)(n 2) 2 1 = n! (n-kertoma). Määritellään 0! = 1. Kuinka moneen erilaiseen järjestykseen n:stä erilaisesta alkiosta valitut k alkiota voidaan järjestää? Erilaisia järjestyksiä (permutaatioita) on n(n 1)(n 2) (n k + 1) = n! (n k)! Olkoon n erilaista alkiota. Tällöin k:n alkion osajoukkoja eli kombinaatioita voidaan muodostaa ( ) n! n k!(n k)! = (lue: n yli k:n) k kappaletta. Tämä luku on ns. binomikerroin. Kombinaatio on siis alkioiden joukko, jossa järjestyksellä ei ole väliä. Esim. 2.4.3. Kuinka ( ) monta erilaista lottoriviä? 39 39! = 7 (39 7)!7! = 15380937 Kuinka ( ) monta sellaista, jossa kaikki väärin? 32 32! = 7 (32 7)!7! = 3365856 ( Kuinka )( monta ) sellaista, jossa k oikein? 7 39 7 k 7 k ( Montako ) sellaista vakioveikkausriviä, jossa k oikein? 13 2 13 k k 15

Esim. 2.4.4. Kuinka monta erilaista jonoa 5 henkilöä voi muodostaa? Entä 20 henkilöä? (Vast. 5! = 120, 20! = 3628800) Esim. 2.4.5. Kuinka moneen eri järjestykseen korttipakan 52 korttia voi asettaa? (Vast. 52!) Esim. 2.4.6. Valitaan luvuista 1, 2, 3, 4, 5, 6 kaksi lukua satunnaisesti palauttamatta lukua valinnan jälkeen. Kyse siis yksinkertaisesta satunnaisotonnasta (YSO) palauttamatta. Muodosta kaikki mahdolliset otokset (populaation osajoukkoja, jossa järjestyksellä ei merkitystä) ja määritä otoksen suurin alkio sekä sen eri arvojen todennäköisyydet. ( ) 6 2 = 6! 4! 2! otokset Max 1 2 2 1 3 3 1 4 4 1 5 5 1 6 6 2 3 3 2 4 4 2 5 5 2 6 6 3 4 4 3 5 5 3 6 6 4 5 5 4 6 6 5 6 6 = 15 otosta P(Max=2) = 1 15 P(Max=3) = 2 15 P(Max=4) = 3 15 P(Max=5) = 4 15 P(Max=6) = 5 15 Esim. 2.4.7. Kuten edellä, mutta otanta systemaattisella otannalla. 16

otokset Max 1 4 4 2 5 5 3 6 6 P(Max=4) = P(Max=5) = P(Max=6) = 1 3 2.5 Kokonaistodennäköisyys ja Bayesin kaava Esim. 2.5.1. Tuotetta A valmistetaan koneilla K 1 ja K 2. Kone K 1 tekee 1000 kappaletta aikayksikössä ja virheellisten osuus on keskimäärin 2 %. Kone K 2 tekee 2000 kappaletta ja virheellisten osuus 5 %. Laske todennäköisyys, että tuotannosta satunnaisesti valittu tuote on virheellinen. (Vast. 4 %) (Huuhtanen & Kallinen, Matemaattinen tilastotiede) Esim. 2.5.2. (jatkoa esim. 2.5.1.) On löytynyt virheellinen tuote. Mikä on todennäköisyys, että tuote on valmistettu koneella K 1. (Vast. 1 6 ) 17

Luku 3 Todennäköisyysjakaumia 3.1 Satunnaismuuttuja ja todennäköisyysjakauma Funktiota, joka liittää yksikäsitteisen reaaliluvun jokaiseen tarkasteltavan satunnaisilmiön perusjoukon tulokseen, sanotaan satunnaismuuttujaksi. Eri tuloksiin liittyviä reaalilukuja sanotaan satunnaismuuttujan arvoksi. Jatkossa merkitään (useimmiten) satunnaismuuttujia isoin kirjaimin (X, Y, Z,...) ja satunnaismuuttujan arvoja pienin kirjaimin (x, y, z,...). Esim. 3.1.1. Satunnaisilmiö nopanheitto. Satunnaismuuttuja X = saatu silmäluku. Esim. 3.1.2. Heitetään kolikkoa neljä kertaa. Määritellään satunnaismuuttuja X = klaavojen lukumäärä heittosarjassa. Etukäteen ei tiedetä montako klaavaa saadaan, mutta voidaan laskea eri arvojen todennäköisyydet. Tässä satunnaismuuttujan X mahdolliset arvot ovat 0, 1, 2, 3 ja 4. Erilaisia heittosarjoja on kaikkiaan 16. 18

heittosarja klaavojen lkm heittosarja klaavojen lkm Kl,Kl,Kl,Kl 4 Kr,Kl,Kl,Kr 2 Kr,Kl,Kl,Kl 3 Kl,Kr,Kl,Kr 2 Kl,Kr,Kl,Kl 3 Kr,Kl,Kr,Kl 2 Kl,Kl,Kr,Kl 3 Kl,Kr,Kr,Kr 1 Kl,Kl,Kl,Kr 3 Kr,Kl,Kr,Kr 1 Kl,Kl,Kr,Kr 2 Kr,Kr,Kl,Kr 1 Kr,Kr,Kl,Kl 2 Kr,Kr,Kr,Kl 1 Kl,Kr,Kr,Kl 2 Kr,Kr,Kr,Kr 0 P(X =0)= 1 16 P(X =1)= 4 16 P(X =2)= 6 16 P(X =3)= 4 16 P(X =4)= 1 16 Esim. 3.1.3. Satunnaisilmiönä veikkaaminen (13 kohdetta, joissa jokaisessa 3 vaihtoehtoa). Tällöin voidaan määritellä satunnaismuuttuja X = oikein veikattujen kohteiden lukumäärä. X voi saada arvoja 0, 1, 2,..., 13. Näiden arvojen todennäköisyydet voidaan laskea (ks. binomijakauma). Esimerkissä 3.1.2. ilmoitettiin satunnaismuuttujan mahdolliset arvot ja eri arvojen todennäköisyydet. Tällöin muodostettiin satunnaismuuttujan todennäköisyysjakauma. Satunnaismuuttuja voi olla joko jatkuva tai diskreetti. Edellisissä esimerkeissä satunnaismuuttujat olivat diskreettejä. Satunnaismuuttujaa sanotaan diskreetiksi, jos se voi saada arvokseen äärellisen määrän erisuuria arvoja tai äärettömän määrän siten, että arvot ovat numeroitavissa positiivisia kokonaislukuja käyttäen. Muulloin satunnaismuuttuja on jatkuva. Diskreetin satunnaismuuttujan todennäköisyysjakauma voidaan usein (ainakin periaatteessa) muodostaa kuten esimerkissä 3.1.2. Jatkuvien muuttujien yhteydessä todennäköisyysjakauma määritellään jatkuvan funktion avulla. Funktiota, joka määrittää satunnaismuuttujan todennäköisyysjakauman kutsutaan tiheysfunktioksi, merk. f(x). Diskreetin muuttujan yhteydessä puhutaan myös pistetodennäköisyyksistä. Tarkemmat kuvaukset tiheysfunktioista kohdissa 3.2. ja 3.3. Tiheysfunktion voidaan ajatella kuvaavan populaation jakaumaa (vrt. frekvenssimonikulmio empiiristen (otos)jakaumien yhteydessä). 19

Esim. 3.1.4. Esimerkin 3.1.2. todennäköisyysjakauma graafisesti. Ks. esim. Helenius s. 205. Satunnaismuuttujan X kertymäfunktio F määritellään F (x) = P (X x). Kertymäfunktion arvo pisteessä x kertoo siis todennäköisyyden sille, että satunnaismuuttujan X arvo on x. Kertymäfunktion ominaisuuksia: 1) F ( ) = 0, F ( ) = 1 2) P (a < X b) = F (b) F (a), (a < b) 3) Jos X jatkuva, niin F (a) = P (X a) = P (X < a). 4) P (X > a) = 1 P (X a) = 1 F (a) 5) Jos X jatkuva satunnaismuuttuja, niin F (x) = f(x). Esim. 3.1.5. Heitetään kolikkoa neljä kertaa. Olkoon X = klaavojen lukumäärä heittosarjassa. Määritä ja piirrä X :n kertymäfunktio. Laske P(X < 0), P (X 0), P (X < 2.5), P (X 4). F (x) = P (X x) P (X < 0) = 0 P (X 0) = 1 16 P (X < 2.5) = P (X = 0) + P (X = 1) + P (X = 2) = 11 16 P (X 4) = P (X = 4) = 1 16 20

Kertymäfunktio on nyt porrasfunktio (ks. esim. Helenius s.207), joka voidaan piirtää seuraavien todennäköisyyksien avulla. P(X =0)= 1 16 P(X =1)= 5 16 P(X =2)= 11 16 P(X =3)= 15 16 P(X =4)=1 3.2 Diskreetti satunnaismuuttuja Olkoon diskreetin satunnaismuuttujan X mahdolliset arvot x 1, x 2,..., ja näiden arvojen todennäköisyydet p 1, p 2,..., Tällöin satunnaismuuttujan X todennäköisyysjakauma määritellään pistetodennäköisyyksien { pi, i = 1, 2,... P (X = x i ) = 0 muulloin, perusteella. missä p 1 + p 2 +... = 1, Esim. 3.2.1. Heitetään noppaa. Määritellään X = saatu silmäluku. Piirrä X :n todennäköisyysjakauma sekä kertymäfunktio. todennäköisyysjakauma: P(X = 1) = P(X = 2) =... = P(X = 6) = 1 16 21

kertymäfunktio: 0, x < 1 F (x) = P (X x) = 1 6, 1 x < 2 2 6., 2 x < 3 6 6, x 6 Samalla tavalla kuin empiiristen jakaumien yhteydessä jakaumaa voitiin kuvailla tunnuslukujen avulla, voidaan myös teoreettisia todennäköisyysjakaumin kuvata samantyyppisillä tunnusluvuilla, jotka määritellään todennäköisyysjakauman avulla. Empiirisen jakauman keskiarvoa vastaavaksi tunnusluvuksi todennäköisyysjakauman (populaation) yhteydessä määritellään jakauman odotusarvo (populaation keskiarvo) sekä otosvarianssia ja keskihajontaa vastaaviksi (populaation) varianssi ja keskihajonta. Olkoon diskreetin satunnaismuuttujan X mahdolliset arvot x 1, x 2,..., x k ja näiden arvojen todennäköisyydet p 1, p 2,..., p k. Tällöin satunnaismuuttujan X odotusarvo E(X) määritellään sekä varianssi Var(X) E(X) = p 1 x 1 + p 2 x 2 +... + p k x k = µ V ar(x) = E[(X µ) 2 ] = k p i (x i E(X)) 2 = i=1 k p i (x i µ) 2 = σ 2 i=1 ja keskihajonta Sd(X) = V ar(x) = σ Huom. Edellä k voi siis olla myös ääretön. Esim. 3.2.2. Heitetään noppaa. Määritellään X = saatu silmäluku. Määritä E(X) ja Var(X). 22

P(X = 1) =... = P(X = 6) = 1 6 E(X) = 1 1 6 + 2 1 6 +... + 6 1 6 = 3.5 V ar(x) = (1 3.5) 2 1 6 + (2-3.5)2 1 6 +... + (6-3.5)2 1 6 = 35 12 Esim. 3.2.3. Määritellään rahanheitossa X = 1, jos saadaan kruunu, 0 muulloin. Laske E(X) ja Var(X). P(X = 1) = P(X = 0) = 1 2 E(X) = 1 1 2 + 0 1 2 = 1 2 V ar(x) = (1 1 2 )2 1 2 + (0-1 2 )2 1 2 = 1 4 Esim. 3.2.4. (jatkoa Esim. 2.3.10.) Olet tulossa kotiin. Avainnipussasi on 5 avainta, joista yhdellä pääset sisään. Valitset satunnaisesti avaimen, jolla koetat avata ovet. Jollei ovi aukea, valitset jäljellä olevista satunnaisesti uuden avaimen ja koetat avata oven, jne. Määritellään X = sen yrityksen järjestysnumero, jolla ovi aukeaa. Määritä E(X) ja Var(X). E(X) = 1 1 5 + 2 1 5 + 3 1 5 + 4 1 5 + 5 1 5 = 3 V ar(x) = (1 3) 2 1 5 + (2-3)2 1 5 + (3-3)2 1 5 + (4-3)2 1 5 + (5-3)2 1 5 = 2 3.3 Jatkuva satunnaismuuttuja Olkoon jatkuvan satunnaismuuttujan X tiheysfunktio f. Jotta f olisi tiheysfunktio onf(x) 0, jokaisella x:n arvolla sekä f(x)dx = 1 eli f(x):n ja x- akselin väliin jäävä pinta-ala = 1. Tiheysfunktio kuvaa siis ykkösen suuruisen todennäköisyysmassan jakaumaa. Tällöin X :n odotusarvo E(X) määritellään E(X) = xf(x)dx = µ, 23

sekä varianssi Var(X) ja keskihajonta V ar(x) = E[(x µ) 2 ] = Sd = V ar(x)) = σ. (x E(X)) 2 f(x)dx = σ 2 Odotusarvo kuvaa jakauman keskikohtaa ja varianssi mittaa miten tiiviisti todennäköisyysmassa on keskittynyt odotusarvon ympärille (vrt. empiiriset jakaumat). Olkoon X jatkuva satunnaismuuttuja sekä a ja b reaalilukuja (a b), tällöin P (X a) = P (X < a) = F (a) = a f(x)dx P (X a) = P (X > a) = 1 P (X a) = 1 F (a) P (a < X < b) = P (a X < b) = P (a < X b) = P (a X b) Graafisesti: = F (b) F (a) Esim. 3.3.1. Olkoon X satunnaisesti väliltä [0,1] valittu reaaliluku. Määritä X :n tiheysfunktio sekä kertymäfunktio. Laske lisäksi P(X > 0.25), P (0.5 X 0.75), P (X a). Laske vielä E(X) ja Var(X). F (x) = P (X x) = x 1 = x, 0 x 1 0, x < 0 1, x > 1 P (X > 0.25) = 1 P (X 0.25) = 1 F (0.25) = 1 0.25 = 0.75 P (0.5 X 0.75) = F (0.75) F (0.5) = 0.75-0.5 = 0.25 E(X) = 1 0 1 x dx = 1 2 0 = 1 2 24

V ar(x) = 1 f(x)(x 1 2 )2 dx = 1 1 (x 1 2 )2 dx = 1 0 0 0 (x 2 x + 1 4 )dx = 1 12 Olkoon E(X) = µ ja V ar(x) = σ 2. Tällöin muuttuja X standardoidaan tekemällä muunnos (X µ) Z = σ 3.4 Odotusarvon ja varianssin ominaisuuksia Odotusarvon ominaisuuksia: 1) E(a) = a, a vakio 2) E(aX + b) = ae(x) + b, X satunnaismuuttuja ja a, b vakioita (ax + b myös satunnaismuuttuja) 3) Olkoot X 1, X 2,..., X n satunnaismuuttujia, jolloin myös X 1 + X 2 +... + X n on satunnaismuuttuja ja E(X 1 +X 2 +...+X n ) = E(X 1 )+E(X 2 )+...+E(X n ) 4) Jos satunnaismuuttujat X ja Y ovat riippumattomia, niin E(XY ) = E(X)E(Y ). Satunnaismuuttujien riippumattomuus määritellään vastaavalla tavalla kuin tapahtumien riippumattomuuskin. Diskreetin satunnaismuuttujan yhteydessä: Satunnaismuuttujat ovat riippumattomia, joss P (X = x i, Y = y j ) = P (X = x i )(Y = y j ), i, j Varianssin ominaisuuksia: 1) V ar(a) = 0, a vakio 2) V ar(x) = E(X 2 ) (E(X)) 2 3) V ar(ax + b) = a 2 V ar(x), a, b vakioita 4) Sd(aX + b) = a Sd(X), a, b vakioita 25

5) Jos satunnaismuuttujat X 1, X 2,..., X n ovat riippumattomia, niin V ar(x 1 + X 2 +... + X n ) = V ar(x 1 ) + V ar(x 2 ) +...V ar(x n ) 6) Olkoot X ja Y satunnaismuuttujia. Tällöin V ar(x ± Y ) = V ar(x) + V ar(y ) ± 2Cov(X, Y ), missä Cov(X, Y ) = E((X E(X))(Y E(Y ))) = σ XY on satunnaismuuttujien X ja Y välinen kovarianssi, joka on nolla, jos X ja Y ovat riippumattomia. Kovarianssi liittyy muuttujien X ja Y yhteisjakaumaan. Satunnaismuuttujien X ja Y välinen korrelaatiokerroin ρ XY = Cov(X, Y ) Sd(X)Sd(Y ). Esim. 3.4.1. Olkoon E(X) = µ ja V ar(x) = σ 2 (X µ). Määritellään Z =. Laske E(Z) σ ja V ar(z). ( ) (X µ) E(Z) = E = 1 σ σ (E(X) µ) = 1 (µ - µ) = 0 σ ( ) (X µ) V ar(z) = V ar = 1 σ σ V ar(x µ) = 1 2 σ Var(X) = 1 2 Esim. 3.4.2. Olkoot X ja Y riippumattomia satunnaismuuttujia sekä määritellään Z = X Y. Olkoon Sd(X) = σ X ja Sd(Y ) = σ Y sekä E(X) = µ X ja E(Y ) = µ Y. Laske Z :n odotusarvo ja keskihajonta. E(Z) = E(X Y ) = E(X) E(Y ) = µ X µ Y V ar(z) = V ar(x Y ) = V ar(x) + V ar( Y ) = V ar(x) + ( 1) 2 V ar(y ) = σ 2 X + σ2 Y Sd(Z) = σ 2 X + σ2 Y Esim. 3.4.3. Olkoot X 1, X 2,..., X n riippumattomia satunnaismuuttujia siten, että E(X i ) = µ ja V ar(x i ) = σ 2. Määritellään Y = (X 1 + X 2 +... + X n )/n. Laske E(Y ) ja V ar(y ). ( ) 1 E(Y ) = E n (X 1 + X 2 +... + X n ) = 1 n E(X 1 + X 2 +... + X n ) = 1 n (E(X 1) + E(X 2 ) +... + E(X n )) = 1 n n µ = µ 26

( 1 V ar(y ) = V ar = ( 1 n ) 2 n σ 2 = σ2 n ) n (X 1 + X 2 +... + X n ) = ( ) 2 1 (V ar(x 1 ) +... + V ar(x n )) n Esim. 3.4.4. Sijoitat 1000 mk. Mahdollisia sijoituskohteita A ja B, joissa molemmissa pienin sijoitusmäärä 500 mk. Olkoon X = tuotto 100 mk:n sijoituksesta A:han, Y = tuotto 100 mk:n sijoituksesta B:hen. Olkoon lisäksi P(X = -5) = 0.4, P(X = 20) = 0.6, P(Y = 0) = 0.6, P(Y = 25) = 0.4 sekä sijoitukset toisistaan riippumattomia. Miten sijoittaisit? (Ohje: Paras sijoitus sellainen, jonka tuotolla suurin odotusarvo ja pienin varianssi) (Newbold) Mahdolliset vaihtoehdot 1) 1000 mk A:han 2) 1000 mk B:hen 3) 500 mk kumpaankin E(X) = 5 0.4 + 20 0.6 = 10 E(Y ) = 0 0.6 + 25 0.4 = 10 V ar(x) = 0.4( 5 10) 2 + 0.6(20 10) 2 = 150 V ar(y ) = 0.6(0 10) 2 + 0.4(25 10) 2 = 150 Olkoon W tuotto sijoituksesta 1) W = 10X E(10X) = 10 E(X) = 100 V ar(10x) = 10 2 V ar(x) = 15000 2) W = 10Y E(10Y ) = 10 E(Y ) = 100 V ar(10y ) = 10 2 V ar(y ) = 15000 3) W = 5X + 5Y E(W ) = E(5X) + E(5Y ) = 5E(X) + 5E(Y ) = 100 V ar(w ) = 5 2 V ar(x) + 5 2 V ar(y ) = 7500 Vaihtoehto 3) on paras. Esim. 3.4.5. Sijoitetaan 1000 mk. Mahdollisia kohteita A ja B. Olkoon X = 1 mk:n tuotto kohteesta A, Y = 1 mk:n tuotto kohteesta B. Olkoon X ja Y riippumattomia sekä E(X) = E(Y ) = µ ja V ar(x) = V ar(y ) = σ 2. Miten sijoitat? (Newbold) Sijoitetaan kohteeseen A α mk ja kohteeseen B (1000 α) mk. Tuotto W = α X + (1000 α)y. E(W ) = αe(x) + (1000 α)e(y ) = αµ + (1000 α)µ = 1000µ, 27

siis ei riipu α:sta! V ar(w ) = V ar(αx)+v ar((1000 α)y ) = α 2 V ar(x)+(1000 α) 2 V ar(y ) = α 2 (2α 2 2000α + 1000000) Jos α = 0, niin V ar(w ) = 1000000σ 2 Jos α = 1000, niin V ar(w ) = 1000000σ 2 Minimoidaan f(α) = 2α 2 2000α + 1000000 f (α) = 4α 2000 = 0 α = 500 Tällöin V ar(w ) = 500000σ 2. Kannattaa sijoittaa 500 mk molempiin, koska tällöin tuotolla on pienin varianssi. Esim. 3.4.6. Tarkastellaan kahta satunnaismuuttujaa X ja Y. Todennäköisyydet ovat oheisessa taulukossa. Laske Cov(X, Y ) sekä ρ. X 6 8 10 1 0.2 0 0.2 Y 2 0 0.2 0 3 0.2 0 0.2 Cov(X, Y ) = E[(X E(X))(Y E(Y ))] = E[(X µ X )(Y µ Y )] = E(XY µ X Y µ Y X + µ X µ Y ) = E(XY ) µ X E(Y ) µ Y E(X) + µ X µ Y = E(XY ) µ X µ Y E(XY ) = x i y j P (X = x i )P (Y = y j ) i j E(X) = 6 0.4 + 8 0.2 + 10 0.4 = 8 E(Y ) = 1 0.4 + 2 0.2 + 3 0.4 = 2 E(XY ) = 1 6 0.2 + 8 1 0 + 10 1 0.2 + 2 6 0 + 2 8 0.2 + 2 10 0 + 3 6 0.2 + 3 8 0 + 3 10 0.2 = 16 Cov(X, Y ) = 16 8 2 = 0, ρ XY = 0 28

3.5 Yleisesti sovellettuja todennäköisyysjakaumia 3.5.1 Bernoulli-jakauma Tarkastellaan satunnaisilmiötä, jossa joko onnistutaan (A) tai epäonnistutaan (A C ). Määritellään satunnaismuuttuja X siten, että { 1, jos onnistutaan X = 0, jos epäonnistutaan. Olkoon lisäksi P (A) = P (X = 1) = p ja P (A C ) = P (X = 0) = q = 1 p. Tällöin sanotaan, että X noudattaa Bernoulli-jakaumaa parametrillä p. Merkitään X Ber(p). Jos X Ber(p), niin E(X) = p ja V ar(x) = p(1 p) = pq. Esim. 3.5.1. - Rahanheitto - Veikkauksessa yhden kohteen arvaaminen - Nopanheitto onnistumisena silmäluvun 6 saaminen jne. 3.5.2 Binomijakauma Tarkastellaan vakioveikkausta. Määritellään satunnaismuuttuja X = oikein arvattujen kohteiden kokonaislukumäärä. Tehtävänä on määrittää X :n todennäköisyysjakauma. Tällöin päädytään nk. binomijakaumaan. Olkoon satunnaisilmiössä onnistumisen todennäköisyys p. Toistetaan tätä satunnaisilmiötä n kertaa. Määritellään X = onnistumisten kokonaislukumäärä. Tällöin sanotaan, että X noudattaa binomijakaumaa parametrein n ja p. 29

Merkitään X Bin(n, p). Jos X Bin(n, p), niin ( ) n P (X = k) = p k (1 p) n k, k = 0, 1,..., n k ja E(X) = np sekä V ar(x) = np(1 p) = npq. Binomijakaumaa noudattava satunnaismuuttuja määritellään siis itse asiassa Bernoulli-jakaumaa noudattavien satunnaismuuttujien summana. Olkoon X i Ber(p), jolloin toistettaessa Bernoulli-koetta n kertaa, onnistumisten kokonaislukumäärä voidaan määritellä ja tällöin siis X Bin(n, p). X = X 1 + X 2 +... + X n Tämän summamuuttujan avulla saadaan laskettua binomijakauman odotusarvo ja varianssi. Esim. 3.5.2. Veikataan satunnaisesti yksi rivi. Määritellään X = oikein arvattujen kohteiden kokonaislukumäärä. Määritä X :n jakauma sekä sen odotusarvo. Laske P(X = 0), P(X = 13), P(X > 11), P(X > 3). X Bin(13, 1 3 ) ( )( ) k ( ) 13 k 13 1 2 P (X = k) = k 3 3 ( )( ) 0 ( ) 13 0 ( ) 13 13 1 2 2 P (X = 0) = = 0 3 3 3 ( )( ) 13 ( ) 13 13 ( ) 13 13 1 2 1 P (X = 13) = = 13 3 3 3 ( )( ) 12 ( ) 13 12 13 1 2 P (X = 12) = =... 0.000016 12 3 3 ( )( ) 11 ( ) 13 11 13 1 2 P (X = 11) = =... 0.000196 11 3 3 30

P (X > 11) = P (X = 12) + P (X = 13) Esim. 3.5.3. Pelaat ystäväsi kanssa peliä, jossa heitetään rahaa. Jos tulee klaava saat ystävältäsi markan, jos tulee kruunu annat ystävällesi markan. On heitetty rahaa 20 kertaa ja olet tappiolla 14 markkaa eli on tullut 17 kruunua ja 3 klaavaa. Onko syytä tutkia rahaa tarkemmin? Jos raha harhaton, niin X = klaavojen lukumäärä 20 heitossa olet vähintään 14 mk tappiolla? X Bin(20, 1 2 ), P(X = k) = ( 20 k )( 1 2 Bin(20, 1 ). Millä todennäköisyydellä 2 ) k ( 1 1 2) 20 k = P(X 3) = P(X = 0 tai X = 1 tai X = 2 tai X = 3) = P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) [( ) ( ) ( ) ( )]( ) 20 20 20 20 20 1 = + + + 0 1 2 3 2 [ 20! = 0!20! + 20! 1!19! + 20! 2!18! + 20! ]( ) 20 1 3!17! 2 ( ) 20 ( ) 20 1 1 = (1 + 20 + 190 + 1140) = 1351 2 2 ( 20 k )( 1 2 On siis sattunut tapahtuma, jonka todennäköisyys on hiukan yli 1/1000 tai pelissä oleva raha on harhainen ja antaa kruunun useammin kuin klaavan. Ks. http://noppa5.pc.helsinki.fi/uudet/da1htm/sanasto.html, kohdasta Binomijakauma löytyy mm. eri parametrein binomijakauman graafisia esityksiä. ) 20 3.5.3 Hypergeometrinen jakauma Tarkastellaan lottoamista. Määritellään satunnaismuuttuja X = lottorivissä oikeitten lukumäärä. Lotossa populaation koko on 39, josta arvotaan palauttamatta 7 oikeaa. Kun täytetään lottorivi, niin siinä voi olla oikein 0, 1, 2,... tai 7. Kun halutaan selvittää näiden arvojen todennäköisyydet, voidaan käyttää hyväksi nk. hypergeometrista jakaumaa. Populaatiossa on N alkiota, joista K kpl on viallisia. Tehdään tästä populaatiosta palauttamatta yksinkertainen satunnaisotos, jonka koko on n. 31

Määritellään X = viallisten lukumäärä otoksessa. Tällöin X noudattaa nk. hypergeometrista jakaumaa parametrein N, K, n. Merkitään X Hyp(N, K, n). Jos X Hyp(N, K, n), niin P (X = k) = ( K k )( ) N K n k ( ), k = 0, 1,..., n N n ( ) K E(X) = n N ( K V ar(x) = n N )( 1 K N )( ) N n N 1 Esim. 3.5.4. Laske todennäköisyys sille, että lotossa saa k oikein. Määritä myös odotusarvo oikeiden lukumäärälle. X = oikeiden lkm Hyp(39, 7, 7) ( )( ) 7 39 7 k 7 k P (X = k) = ( ), k = 0, 1,..., 7 39 P (X = 5) = = ( 7 5 )( 7 ) 39 7 7 5 ( ) = 39 7 7! 32! 7! 32! 5! 2! 2! 30! 39! 0.0006772 E(X) = 7 7 39 1, 26 ( )( ) 7 32 5 2 ( ) = 39 7 7! 5! 2! 32! 2! 30! 39! 7! 32! 32

k P(X = k) 0 0.218832962 1 0.412415967 2 0.274943978 3 0.081828565 4 0.011286699 5 0.000677202 6 1.45625 10 5 7 6.50155 10 8 Esim. 3.5.5. Olkoon 15 tuotteen joukossa 5 virheellistä. Valitaan tästä joukosta satunnaisesti 3 tuotetta. Laske todennäköisyys, että valittujen kolmen tuotteen joukossa on korkeintaan yksi virheellinen, kun valinta tehty a) palauttaen b) palauttamatta. (Helenius) X = virheellisten lkm otoksessa a) X Bin(3, 5 15 ) P (X = 0) + P (X = 1) = ( 3 0 )( 1 3 ) 0 ( ) 3 2 + 3 ( 3 1 )( 1 3 ) 1 ( ) 2 2 3 b) X Hyp(15, 5, 3) P (X = 0) + P (X = 1) = ( 5 0 )( ) 15 5 3 0 ( ) + 15 3 ( 5 1 )( ) 15 5 3 1 ( ) 15 3 3.5.4 Poisson-jakauma Esimerkiksi tarkasteltaessa hirvikolareiden (harvinaisten tapahtumien) lukumäärää viikoittain (tietyllä aikavälillä) voidaan lukumäärän todennäköisyysjakaumana käyttää nk. Poisson-jakaumaa. Olkoon satunnaismuuttujan X mahdolliset arvot 0, 1, 2,... ja P (X = k) = λk k! e λ, k = 0, 1, 2,... 33

Tällöin sanotaan X :n noudattavan Poisson-jakaumaa parametrilla λ. Merkitään X P oi(λ). Tällöin E(X) = λ, V ar(x) = λ. Tällaisiin satunnaismuuttujiin törmää, kun on kiinnostunut harvinaisten tapahtumien lukumäärästä tietyllä aikavälillä, tietyllä matkalla... vaikkapa liikenneonnettomuuksien lkm päivässä, painovirheitten lkm sivulla jne. Esim. 3.5.6. Puhelinlaitokselle tulee satunnaisesti vikailmoituksia, keskimäärin kolme viikossa. Millä todennäköisyydellä tietyllä viikolla a) ei tule yhtään vikailmoitusta b) tulee yksi vikailmoitus? (Oletetaan Poisson-jakauma) (Helenius) X = virheellisten lkm otoksessa, X P oi(3) P (X = k) = 3k k! e 3, k = 0, 1, 2,... a) P (X = 0) = 30 0! e 3 0.05 b) P (X = 1) = 31 1! e 3 0.15 Esim. 3.5.7. Sairaalassa seurataan infektioiden lukumäärää. Eräänä vuonna infektioiden lukumäärä oli 900 eli keskimäärin kuukaudessa 75. Voidaan olettaan, että X = infektioiden lkm kuukaudessa P oi(75). Tällöin E(X) =75 ja V ar(x) = 75. Nyt P (X = k) = 75k k! e 75, k = 0, 1, 2,... P (X = 0) = 750 0! e 75 P (X = 1) = 751 1! e 75. Poisson-jakauma soveltuu harvinaisten tapahtumien yhteydessä binomijakauman approksimointiin, kun n on riittävän suuri. 34

Esim. 3.5.8. Suuressa populaatiossa tiedetään aiemmin olleen 4 % värisokeita. Nykyisen tilanteen selvittämiseksi valitaan populaatiosta satunnaisesti 200 henkilöä. Millä todennäköisyydellä 200 valitun joukossa on korkeitaan viisi värisokeaa, jos populaatiossa edelleen on 4 % värisokeita? (Helenius) X = värisokeiden lkm otoksessa ( ) 200 X Bin(200, 0.04), P (X = k) = 0.04 k (1 0.04) 200 k k E(X) = 200 0.04 = 8 P (X 5) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) 5 ( ) 200 + P (X = 4) + P (X = 5) = 0.04 k (1 0.04) 200 k 0.186 k k=0 (voi laskea esim. Excel:illä) X likimain P (X 5) 8k P oi(8), jolloin P (X = k) = k! e 8 ja 5 k=0 ( 8 k 8 0 k! e 8 = 0! + 81 1! + 82 2! + 83 3! + 84 4! + 85 5! + ) e 8 0.191 3.5.5 Geometrinen jakauma Avainnipussa on 5 avainta, joista yksi avaa oven. Valitaan satunnaisesti avaimen, jolla koetetaan avata ovi. Jollei ovi aukea, palautetaan avain nippuun ja valitaa avain satunnaisesti uudelleen. Nyt halutaan selvittää todennäköisyys sille, että k. kerralla onnistutaan. Tässä siis toistetaan satunnaiskoetta, jossa onnistutaan todennäköisyydellä 1/5. Seuraavassa jakaumassa on tilanne yleistettynä. Toistetaan satunnaiskoetta, jossa onnistutaan todennäköisyydellä p, kunnes onnistutaan 1. kerran. Olkoon X sen kerran järjestysnumero. Tällöin sanotaan, että X noudattaa geometrista jakaumaa parametrillä p. Merkitään X Geo(p). Jos X Geo(p), niin P (X = k) = (1 p) k 1 p, k = 1, 2,... ja E(X) = 1 1 p ja V ar(x) =. p p 2 Esim. 3.5.9. 35

Kotiavaimen valinta nipusta palauttaen. Montako kertaa keskimäärin yrityksiä on tehtävä? Olkoon nipussa 5 avainta. ( Olkoon ) X = sen kerran järjestysnumero, jolla 1 onnistuttiin. Nyt X Geo, jolloin E(X) = 1 1 = 5. 5 5 ( ) 1 Yleisesti n avainta: X Geo, E(X) = n. n 3.5.6 Diskreetti tasajakauma Noppaa heitettäessä voidaan määritellä satunnaismuuttuja X = silmäluku. X :n mahdolliset arvot ovat 1, 2, 3, 4, 5, 6 ja jokaisen esiintymistodennäköisyys 1/6. Tätä jakaumaa kutsutaan diskreetiksi tasajakaumaksi välillä (1,6). Jos satunnaismuuttujan X arvot ovat kokonaislukuja a, a + 1, a + 2, a + 3,..., a + (n 1) = b ja kukin n:stä arvo yhtä todennäköinen, niin sanotaan, että X noudattaa diskreettiä tasajakaumaa välillä (a,b). Merkitään X T asd(a, b). Tällöin Esim. 3.5.10. Nopanheitto. X T asd(1, 6) E(X) = 1 + 6 2 E(X) = a + b ja 2 V ar(x) = n2 1 12. = 3.5 V ar(x) = 62 1 12 = 35 12 Esim. 3.5.11. Olkoon X yksinumeroinen satunnaisluku. Mahdolliset arvot ovat siis 0, 1, 2,..., 9 ja jokaisen arvon todennäköisyys 1/10. Tällöin X T asd(0, 9), E(X) = 0 + 9 2 ja V ar(x) = 102 1. 12 36

3.5.7 Jatkuva tasajakauma Satunnaismuuttuja noudattaa jatkuvaa tasajakaumaa välillä [a, b], jos sen tiheysfunktio f on { 1 f(x) = b a, kun a x b 0, muulloin Merkitään X T as(a, b). Tällöin Esim. 3.5.12. Aiemmat esimerkit E(X) = a + b 2 (b a)2 V ar(x) =. 12 X T as(0, 1) E(X) = 1 + 0 2 = 0.5 V ar(x) = (1 0)2 12 = 1 12 3.5.8 Normaalijakauma Seuraava todennäköisyysjakauma on tilastotieteessä hyvin keskeinen. Tarkastellaan jatkuvaa satunnaismuuttujaa X, joka voi saada arvokseen kaikki reaaliluvut. Satunnaismuuttuja X noudattaa normaalijakaumaa parametrein µ ja σ 2 (σ > 0), jos sen tiheysfunktio on ( 1 x µ f(x) = 1 σ 2π e 2 σ ) 2, < x < Tällöin E(X) = µ ja V ar(x) = σ 2. Merkitään X N(µ, σ 2 ). Jos X N(µ, σ 2 ), niin sen tiheysfunktio on yksihuippuinen jakauma, symmetrinen odotusarvon suhteen varianssin kertoessa jakauman levittäytymisestä odotusarvon ympärille. Ks. http://noppa5.pc.helsinki.fi/uudet/da1htm/sanasto.html, kohta Normaalijakauma, jakaumia graafisesti eri parametrein. 37

Jos X N(0, 1), niin sen tiheysfunktio on f(x) = 1 2π e 1 2 x2, < x < Kyseessä nk. standardoitu normaalijakauma. Usein merk. Z N(0, 1), f(z) = φ(z) ja F (z) = P (Z z) = Φ(z). Standardoidun normaalijakauman kertymäfunktion Φ(z) = P (Z z) arvoja on taulukoitu. Taulukoiden avulla voidaan laske erilaisia todennäköisyyksiä. Normaalijakauman symmetrisyydestä seuraa, että Φ(z) = 1 Φ( z). Graafisesti: Esim. 3.5.14. Olkoon Z N(0, 1). Laske P (Z 1), P (Z 1.1), P (Z 1.14), P (Z -1), P (Z 0), P ( 1 Z 1), P ( 2 Z 2), P ( 3 Z 3). P (Z 1) = Φ(1) = 0.8413 P (Z 1.1) = Φ(1.1) = 0.8643 P (Z 1.14) = Φ(1.14) = 0.8729 P (Z 1) = 1 Φ(1) = 1-0.8413 = 0.1587 P (Z 0) = 0.5 P ( 1 Z 1) = Φ(1) Φ( 1) = Φ(1) (1 Φ(1)) = Φ(1) 1 + Φ(1) = 2Φ(1) 1 = 0.6826 P ( 2 Z 2) = Φ(2) Φ( 2) = Φ(2) (1 Φ(2)) = 2Φ(2) 1 = 0.9544 P ( 3 Z 3) = Φ(3) Φ( 3) = Φ(3) (1 Φ(3)) = 2Φ(3) 1 = 0.9974 Esim. 3.5.15. Olkoon Z N(0, 1). Määritä z, kun a) Φ(z) = 0.75 b) Φ(z) = 0.26. a) P (Z z) = 0.75 = z 0.67 38

b) P (Z z) = 0.26 P (Z z) = 1-0.26 = 0.74 = z = 0.64 = z = -0.64 Jos X N(µ, σ 2 ), niin P (X a) voidaan laskea käyttäen standardoitua normaalijakaumaa, sillä on osoitettavissa, että jos X N(µ, σ 2 ), niin Z = X µ σ N(0, 1). Jos siis X N(µ, σ 2 ), niin ( X µ P (X a) = P a µ ) ( ) a µ = Φ, σ σ σ ( X µ P (X a) = 1 P (X a) = 1 P a µ ) ( ) a µ = 1 Φ σ σ σ ja P (a X b) = P (X b) P (X a) ( X µ = P b µ ) ( X µ P σ σ σ ( ) ( ) b µ a µ = Φ Φ. σ σ a µ ) σ Esim. 3.5.16. Tehdas valmistaa sähkölamppuja, joiden käyttöikä vaihtelee tavalla, joka on hyvin luonnehdittavissa normaalijakauman avulla. Valmistettavien lamppujen keskimääräinen kestoikä on 800 tuntia ja vaihtelua esiintyy niin, että keskihajonta on 40 tuntia. a) Millä todennäköisyydellä valmistettavien lamppujen joukosta satunnaisesti valittu lamppu kestää vähintään 700 tuntia mutta korkeintaan 850 tuntia? b) Mikä on sellainen arvo, jonka alle lampun kestoikä jää 0.25 suuruisella todennäköisyydellä? c) Mikä on sellainen arvo, jonka yli lamppu kestää 0.25 suuruisella todennäköisyydellä? (Helenius) X = käyttöikä, X N(800, 40 2 ) ( 700 800 a) P (700 X 850) = P X 800 ) 800 850 ( ) ( 40 40 40 5 = Φ Φ 10 ) = Φ(1.25) (1 Φ(2.5)) = 0.8882 4 4 39

b) P (X( a) = 0.25 X 800 P a 800 ) ( ) a 800 = Φ = 0.25 ( 40 40 40 Φ a 800 ) = 0.75 40 a 800 = 0.67 40 a = 773.2 c) P (X b) = 0.25 P ((X b) = ) 0.75 b 800 Φ = 0.75 40 b 800 = 0.67 40 b = 826.8 Esim. 3.5.17. Laske todennäköisyydet, että normaalijakaumassa satunnaismuuttujan arvo on korkeitaan a) hajonnan päässä odotusarvosta, b) kahden hajonnan päässä odotusarvosta, c) kolmen hajonnan päässä odotusarvosta. X N(µ, σ 2 ) ( a) P ( σ X µ σ) = P =... = 0.6826 ( b) P ( 2σ X µ 2σ) = P =... = 0.9544 ( c) P ( 3σ X µ 3σ) = P =... = 0.9974 σ σ X µ σ 2σ σ X µ σ 3σ σ X µ σ σ ) = Φ(1) Φ( 1) σ 2σ σ 3σ σ Normaalijakaumaan liittyviä keskeisiä teoreettisia tuloksia: ) = Φ(2) Φ( 2) ) = Φ(3) Φ( 3) 1) Jos X N(µ, σ 2 ), niin ax + b N(aµ + b, a 2 σ 2 ), (a, b vakioita) 2) Jos X 1, X 2,..., X n ovat riippumattomia ja X i N(µ i, σ 2 i ), niin X 1 + X 2 +... + X n N(µ 1 + µ 2 +... + µ n, σ 2 1 + σ 2 2 +... + σ 2 n) 40

3) Keskeinen raja-arvolause: Olkoon X 1, X 2,..., X n riippumattomia satunnaismuuttujia, joista kukin noudattaa omaa jakaumaansa. Olkoon E(X i ) = µ i ja V ar(x i ) = σ 2 i, i = 1, 2,..., n. Tällöin (hyvin yleisten ehtojen vallitessa) satunnaismuuttuja X 1 + X 2 +... + X n noudattaa likimain normaalijakaumaa (kun n riittävän iso) parametrein µ 1 + µ 2 +... + µ n ja σ 2 1 + σ 2 2 +... + σ 2 n. Ks. http://noppa5.pc.helsinki.fi/uudet/da1htm/sanasto.html, kohta Keskeinen raja-arvolause. Esim. 3.5.18 Olkoot X 1, X 2, X 3 ja X 4 riippumattomia ja kukin X i N(0, 1). Määritellään U = (X 1 + X 2 + X 3 + X 4 )/4. Laske P (U 1). E(U) = 1 4 E(X 1 + X 2 + X 3 + X 4 ) = 1 4 (E(X 1) + E(X 2 ) + E(X 3 ) + E(X 4 )) = 0 ( ) 2 1 V ar(u) = V ar(x 1 + X 2 + X 3 + X 4 ) 4 ( ) 2 1 = (V ar(x 1 ) + V ar(x 2 ) + V ar(x 3 ) + V ar(x 4 )) = 4 U N(0, 1 4 ) ( U 0 P (U 1) = 1 P (U 1) = 1 P 1 2 ( ) 2 1 4 1 = 1 4 4 1 0 ) = 1 Φ(2) = 0.0228 1 2 Olkoot X 1, X 2,..., X n riippumattomia ja kukuin X i N(µ, σ 2 ), niin tällöin U = X 1 + X 2 +... + X n n N(µ, σ2 n ). Otoskeskiarvon jakauma on siis normaalijakauma (ks. otosjakaumat)! Vaikka X i :t eivät olisikaan normaalisti jakautuneita, niin U olisi likimain normaalisti jakautunut keskeisen raja-arvolauseen perusteella. Binomijakaumaa voidaan approksimoida normaalijakaumalla. Jos X Bin(n, p), niin silloinhan X = X 1 + X 2 +... + X n, missä X i Ber(p). Keskeisen rajaarvolauseen mukaan (jos n on riittävän suuri) X noudattaa likimain normaalijakaumaa parametrein np ja npq. Approksimaatio on hyvä, jos n on suuri 41

ja p ei ole kovin pieni eikä suuri. Myös Poisson-jakaumaa voidaan aproksimoida normaalijakaumalla, jos λ on suuri. Esim. 3.5.19. Henkilö osallistuu tenttiin, jossa sataan väitteeseen vastataan väitteen olevan tosi tai epätosi ja vain toinen vaihtoehto on oikea. Jos henkilö vastaa kaikkiin kohtiin valitsemalla vaihtoehdon aina täysin satunnaisesti, niin millä todennäköisyydellä hän saa korkeintaan 60 oikeaa vastausta? (Helenius) X = oikeiden vastausten lkm X Bin(100, 1 1 ) E(X) = 100 2 2 60 ( 100 P (X 60) = k=0 (laskettu Excel:illä) k )( 1 2 1 = 50 V ar(x) = 100 2 1 2 = 25 ) k ( ) 100 k 1 = 2 60 k=0 ( 100 k )( ) 100 1 0.9824 2 X likimain N(50, 25), jolloin P (X 60) Φ ( 60 50 25 ) = Φ(2) = 0.9772 Kun binomijakaumaa approksimoidaan normaalijakaumalla, niin diskreettiä jakaumaa arvioidaan jatkuvalla. Paremman arvion saamiseksi voidaan tehdä nk. jatkuvuuskorjaus. Arvioitaessa P (X a), missä a on kokonaisluku, lasketaankin P (X ( a+0.5). ) Tässä esimerkissä 60.5 50 P (X 60) Φ = Φ(2.1) = 0.9821 25 Esim. 3.5.20. Levykaupan omistaja arvioi, että 20 % asiakkaista suorittaa ostoksen. Laske todennäköisyys, että 180 asiakkaan joukosta ainakin 45 suorittaa ostoksen (binomijakaumaa voidaan approksimoida normaalijakaumalla). (Newbold) X = ostosten suorittajien lkm X Bin(180, 0.2) E(X) = 180 0.2 = 36 V ar(x) = 180 0.2 0.8 = 28.8 44 ( ) 180 P (X 45) = 1 P (X 44) = 1 0.2 k 0.8 180 k = 1-0.94054 k k=0 42

= 0.059458 (laskettu Excel:illä) Nyt X likimain N(36, 28.8), jolloin ( ) 44.5 36 P (X 45) = 1 P (X 44) 1 Φ = 1 Φ(1.40) = 0.0808 28.8 Ilman jatkuvuuskorjausta: ( 44 36 P (X 45) = 1 P (X 44) 1 Φ )= 0.0681 28.8 Esim. 3.5.21. Muutaman vähäsateisen vuoden jälkeen tietyllä alueella epäillään sääolosuhteissa tapahtuneen pysyvänluonteinen muutos. Vuotuisen sademäärän keskiarvoksi 100 vuoden ajalta oli saatu 42.26 tuumaa ja keskihajonnaksi 6.11 tuumaa. Lisäksi vuotuinen sademäärä oli vaihdellut tavalla, jota voidaan luonnehtia normaalijakaumalla. Viimeisen viiden vuoden sademäärän keskiarvoksi oli saatu 35.72 tuumaa. Millä todennäköisyydellä näin paljon lukua 42.26 pienempi keskiarvo olisi odotettavissa, mikäli viiden viimeisen vuoden havainnon tulkitaan olevan yksinkertainen satunnaisotos normaalijakaumasta odotusarvona 42.26 ja keskihajontana 6.11? (Helenius) X = vuotuinen sademäärä X i N(42.26,6.11 2 ) X = 1 5 (X 1 + X 2 + X 3 + X 4 + X 5 ) X N(42.26, 6.112 5 ) ( ) X 42.26 35.72 42.26 P (X 35.72) = P = Φ( 2.39) = 1 Φ(2.39) 6.11 6.11 5 5 = 0.0084 Esim. 3.5.22. Oletetaan, että opiskelijoiden älykkyysosamäärä N(µ, 225). Kuinka suuri otos tarvitaan, kun halutaan, että otoskeskiarvo poikkeaa µ:stä korkein ±2 pistettä todennäköisyydellä 0.99? X N(µ, 225) X N(µ, 225 n ) ( P ( 2 X µ 2) = P 2 X µ 2 ) 15 15 15 ( ) ( ) ( n ) n ( n ) 2 n 2 n 2 n 2 n = Φ Φ = Φ (1 Φ ) = 2Φ 15 15 15 15 43 ( 2 n 15 ) 1

= 0.99 ( ) 2 n Φ = 1.99 15 2 2 n 15 = 2.58 n = 2.582 15 2 2 2 374 = 0.995 44

Luku 4 Otos, otossuure, otantajakauma Kun populaatio on hyvin suuri tai ääretön ei tietenkään voida tutkia koko populaatiota. Tällöin tilastolliset johtopäätelmät, jotka koskevat populaation l. perusjoukon (äärellinen tai ääretön) ominaisuuksia tehdään otoksen avulla. Jotta erilaisten otoksesta laskettujen tunnuslukujen luotettavuutta voidaan arvioida otos valitaan poimimalla se todennäköisyysotannalla. Todennäköisyysotannassa kaikki mahdolliset n alkion otokset voidaan luetella, tunnetaan jokaisen mahdollisen otoksen poimintatodennäköisyys ja otokset poimitaan näiden todennäköisyyksien mukaan sekä tiedetään, miten otoksen perusteella yleistetään tulokset koko populaatioon. Jatkossa tarkastellaan pääosin vain yksinkertaisella satunnaisotannalla tehtyyn otokseen liittyviä tuloksia. Lisäksi ollaan kiinnostuneita vain yhdestä populaation alkioihin liittyvästä ominaisuudesta, muuttujasta. Yksinkertainen satunnaisotos (YSO) poimitaan siten, että jokaisella n alkion suuruisella otoksella on yhtä suuri todennäköisyys tulla poimituksi. Käytännössä ei muodosteta kaikkia n alkion osajoukkoja, joista sitten satunnaisesti valitaan yksi, vaan alkiot poimitaan yksi kerrallaan kunnes otoskoko on n. YSO voidaan tehdä joko palauttamatta tai palauttaen. 4.1 Satunnaisotos Olkoon X 1, X 2,..., X n n:n satunnaismuuttujan jono. Tätä jonoa sanotaan satunnaisotokseksi, jos X i :t ovat riippumattomia ja noudattavat samaa jakaumaa. 45

Sanonta X 1, X 2,..., X n on satunnaisotos N(µ, σ 2 ):sta tarkoittaa sitä, että jokainen X i N(µ, σ 2 ) ja X i :t ovat riippumattomia. Kun äärettömästä populaatiosta tehdään otanta yksinkertaisella satunnaisotannalla (palauttaen tai palauttamatta) ja tarkastellaan yhtä tiettyä muuttujaa (tilastoyksikön ominaisuutta), on kyse satunnaisotoksesta. Jos populaatio on äärellinen YSO palauttaen johtaa satunnaisotokseen, mutta palauttamatta ei, koska riippumattomuusoletus ei ole voimassa. Kuitenkin, jos populaatio on suuri YSO palauttamattakin johtaa lähes riippumattomiin satunnaismuuttujiin. Satunnaisotos määritellään siis satunnaismuuttujien perusteella. Nämä satunnaismuuttujat saavat arvot, kun otos on tehty. Siis otoksen tekemisen jälkeen satunnaisotokselle saadaan arvot, jotka vaihtelevat otoksesta toiseen. Satunnaismuuttujista muodostetut funktiot kuten summat, tulot, jne. ovat myös satunnaismuuttujia (esim. otoskeskiarvo, otosmaksimi, kruunujen lukumäärä heittosarjassa). Täten myös satunnaisotoksesta muodostetut funktiot ovat satunnaismuuttujia. Esim. 4.1.1. Otoskeskiarvo X = 1 n (X 1 + X 2 +... + X n ) on satunnaismuuttuja, joka saa arvon kun otos on tehty. Arvo vaihtelee otoksesta toiseen. Esim. 4.1.2. Olkoon X N(1, 25). Mikä on 10X:n jakauma? Laske P (0 X 5) ja P (0 10X 5). X N(1, 25) 10X N(10, 10 2 25) ( ) ( ) ( ) ( 5 1 0 1 4 P (0 X 5) = Φ Φ = Φ Φ 1 ) ( ) ( ) 5 5 5 5 4 1 = Φ (1 Φ ) = 0.3674 5 5 ( ) ( ) 5 10 0 10 P (0 10X 5) = Φ Φ = Φ( 0.1) Φ( 0.2) 50 50 = 1 Φ(0.1) (1 Φ(0.2)) = 0.0395 46

Esim. 4.1.3. Mutterin halkaisija X N(100, 1). Valmistuvat mutterit saavat poiketa odotusarvosta korkeintaan yhden yksikön verran. Laske todennäköisyys, että 10 alkion satunnaisotoksessa kaikki alkiot ovat hyväksyttäviä. (Liski & Puntanen) X i N(100, 1) i = 1, 2,..., 10 P (kaikki hyväksyttäviä) = P ( X 1 100 1) P ( X 2 100 1) P ( X 10 100 1) ( = P 1 1 X 1 100 1 ) ( P 1 1 1 1 X 10 100 1 ) 1 1 = (Φ(1) Φ( 1)) (Φ(1) Φ( 1)) = (2Φ(1) 1) 10 = 0.6826 10 0.02 4.2 Otossuureet ja otosjakaumat Satunnaisotoksen avulla määriteltyä funktiota, joka siis on satunnaismuuttuja, kutsutaan otossuureeksi. Koska otossuure on satunnaismuuttuja, liittyy siihen todennäköisyysjakauma. Otossuureen todennäköisyysjakaumasta käytetään nimitystä otanta- tai otosjakauma. Käyttökelpoisia otossuureita esim. otoskeskiarvo, otosvarianssi, otosmaksimi, prosenttiosuus otoksessa... Tarkasteltavan otossuureen todennäköisyysjakauma pyritään määrittämään, jolloin saadaan selville miten otossuure voi vaihdella otoksesta toiseen. Tämä auttaa taas, kun olemme kiinnostuneita populaatioon liittyvistä arvioista perustaen arviot otokseen. Joidenkin otossuureiden otosjakaumia: 1) Otoskeskiarvon jakauma riippuen otantamenetelmästä ja populaatiosta 2) Viallisten %-osuus otoksessa (ks. luku 5.1) 3) Olkoon X 1, X 2,..., X n satunnaisotos T as(0, 1):sta (siis jokainen X i T as(0, 1) ja X i :t riippumattomia). Määritellään otossuure U = max{x i }. Tässä tilanteessa voidaan otosjakauma määrittää täsmällisesti. F (u) = P (U u) = P (X 1 u ja X 2 u ja...ja X n u) = P (X 1 u) P (X n u) = u n, joten f(u) = F (u) = nu n 1 47