1. JOHDANTO. SIS LLYSLUETTELO sivu 1. JOHDANTO 3



Samankaltaiset tiedostot
dx=2&uilang=fi&lang=fi&lvv=2015

Tilastollisten menetelmien perusteet I TILTP2 Luentorunko, lukuvuosi

&idx=2&uilang=fi&lang=fi&lvv=2015

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Testejä suhdeasteikollisille muuttujille

&idx=2&uilang=fi&lang=fi&lvv=2015

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

dx=5&uilang=fi&lang=fi&lvv=2014

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastollisten menetelmien perusteet I TILTP2 Luentorunko, syksy Raija Leppälä

Tilastollinen aineisto Luottamusväli

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Osa 2: Otokset, otosjakaumat ja estimointi

riippumattomia ja noudattavat samaa jakaumaa.

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Sovellettu todennäköisyyslaskenta B

Tilastollisen päättelyn perusteet, MTTTP5. Luentorunko, lukuvuosi

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Todennäköisyysjakaumia

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Otoskoko 107 kpl. a) 27 b) 2654

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

tilastotieteen kertaus

Tilastollisten menetelmien perusteet I,TILTP2 Luentorunko, syksy 2000

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Teema 8: Parametrien estimointi ja luottamusvälit

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Todennäköisyyslaskenta sivuaineopiskelijoille

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

30A02000 Tilastotieteen perusteet

Diskreetit todennäköisyysjakaumat. Kertymäfunktio Odotusarvo Binomijakauma Poisson-jakauma

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

Harjoitus 2: Matlab - Statistical Toolbox

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

x=2&uilang=fi&lang=fi&lvv=2016

Luento JOHDANTO

dx=2&uilang=fi&lang=fi&lvv=2015

Jatkuvat satunnaismuuttujat

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

x=2&uilang=fi&lang=fi&lvv=2017

D ( ) E( ) E( ) 2.917

Sovellettu todennäköisyyslaskenta B

B. Siten A B, jos ja vain jos x A x

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Väliestimointi (jatkoa) Heliövaara 1

g=fi&lvv=2018&uilang=fi#parents

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastomatematiikka TUDI

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

Parametrin estimointi ja bootstrap-otanta

805306A Johdatus monimuuttujamenetelmiin, 5 op

&idx=2&uilang=fi&lang=fi&lvv=2015

4. laskuharjoituskierros, vko 7, ratkaisut

Estimointi. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

H0: otos peräisin normaalijakaumasta H0: otos peräisin tasajakaumasta

&idx=2&uilang=fi&lang=fi&lvv=2015

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Todennäköisyyden ominaisuuksia

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Testit järjestysasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Tutkimustiedonhallinnan peruskurssi

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

TILASTOMATEMATIIKKA. Keijo Ruohonen

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tn-laskentaan perjantai

D ( ) Var( ) ( ) E( ) [E( )]

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

031021P Tilastomatematiikka (5 op) Kurssi-info ja lukion kertausta

Sovellettu todennäköisyyslaskenta B

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

9. laskuharjoituskierros, vko 12-13, ratkaisut

Määritelmä 3.1 (Ehdollinen todennäköisyys) Olkoot A ja B otosavaruuden Ω tapahtumia. Jos P(A) > 0, niin tapahtuman B ehdollinen todennäköisyys

Otanta ilman takaisinpanoa

Suotuisien tapahtumien lukumäärä Kaikki alkeistapahtumien lukumäärä

031021P Tilastomatematiikka (5 op) viikko 3

Hypoteesin testaus Alkeet

Mat Sovellettu todennäköisyyslasku A

(b) Tarkista integroimalla, että kyseessä on todella tiheysfunktio.

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

031021P Tilastomatematiikka (5 op) viikko 4

Transkriptio:

1 2 22.10.2001 Tilastollisten menetelmien perusteet I Syksy 2001 Opintojakson www-sivu: http://www.uta.fi/~strale/p2syksy.html Huom. 1. Luentomateriaali on tarkoitettu ko. opintojakson opiskelijoille. Huom. 2. Dokumentin lopussa on kirjallisuusluettelo, jonka sisšltšviš teoksia on kšytetty tukena tšmšn luentorungon kirjoittamisessa. Huom. 3. KŠyttŠessŠsi verkkomateriaalia kaikki erikoismerkit eivšt všlttšmšttš nšy/tulostu koneellasi oikein. Informoithan tekijšš (raija.leppala@uta.fi), jos teknisiš ongelmia esiintyy. -2,0-1,0 0,0 0,5 1,0 1,5 2,0 2,5 Moments Mean -0,02174 Std Dev 0,96329 Std Err Mean 0,10770 upper 95% Mean 0,19263 lower 95% Mean -0,23611 N 80,00000 Test Mean=value Hypothesized Value 0 Test Statistic -0,202 Prob > t 0,841 Prob > t 0,580 Prob < t 0,420 Raija LeppŠlŠ (puh. 2156301, sšhkšposti strale@uta.fi) Matematiikan, tilastotieteen ja filosofian laitos Tilastotiede Tampereen yliopisto SIS LLYSLUETTELO sivu 1. JOHDANTO 3 2. TODENN K ISYYSLASKENTAA 7 2.1. SATUNNAISILMI JA TAPAHTUMA 7 2.2. KLASSINEN TODENN K ISYYS 10 2.3. TODENN K ISYYSLASKENNAN 11 AKSIOOMAT JA LASKUS NT J 2.4. KOMBINATORIIKKAA 19 2.5. KOKONAISTODENN K ISYYS 22 JA BAYESIN KAAVA 3. TODENN K ISYYSJAKAUMIA 23 3.1. SATUNNAISMUUTTUJA JA 23 TODENN K ISYYSJAKAUMA 3.2. DISKREETTI SATUNNAISMUUTTUJA 28 3.3. JATKUVA SATUNNAISMUUTTUJA 31 3.4. ODOTUSARVON JA VARIANSSIN 33 OMINAISUUKSIA 3.5. YLEISESTI SOVELLETTUJA 37 TODENN K ISYYSJAKAUMIA 4. OTOS, OTOSSUURE, OTANTAJAKAUMA 55 4.1. SATUNNAISOTOS 56 4.2. OTOSSUUREET JA OTOSJAKAUMAT 58 5. PARAMETRIEN ESTIMOINTI 62 5.1. PISTE-ESTIMOINTI 62 5.2. LUOTTAMUSV LEJ 67 6. HYPOTEESIEN TESTAUS 86 KIRJALLISUUTTA 111 1. JOHDANTO Tilastollinen analyysi voidaan jakaa karkeasti kuvailevaan (descriptive) analyysiin ja tilastolliseen pššttelyyn (statistical inference). Kuvaileva tilastotiede pyrkii kuvailemaan tietoaineiston sisšltšš erilaisten graafisten esitysten ja tunnuslukujen sekš taulukoiden avulla.kuvailevaan tilastotieteeseen tutustuttiin johdantokurssilla. TILTP2-opintojaksolla tutustutaan tilastolliseen pššttelyyn. EmpiirisissŠ tutkimuksissa on kšytšssš satunnaisotos populaatiosta. Otoksen perusteella pyritššn tekemššn johtopšštelmiš koko populaatiosta. PyritŠŠn selvittšmššn esim. milloin voidaan sanoa ehdollisten otoskeskiarvojen perusteella, ettš populaatioissa keskiarvot poikkeavat toisistaan (Esim. 2). Voidaan myšs haluta arvioida vaikkapa populaation keskiarvoa (Esim. 1). 3 Esim. 1. TietyssŠ yskšnlšškkeessš pitšisi tuoteselostuksen mukaan olla alkoholia 5 %. TiedetŠŠn, ettš alkoholipitoisuus vaihtelee jonkin verran pullosta toiseen. TietyssŠ laboratorioissa halutaan tutkia voidaanko valmistajan ilmoittamaa lukua pitšš sopivana keskiarvona eri pullojen alkoholipitoisuudelle. LŠhdetŠŠn oletuksesta, ettš alkoholipitoisuuden vaihtelu pullosta toiseen on luonnehdittavissa normaalijakauman avulla. Suoritettiin koe, jossa kymmenen pullon alkoholipitoisuus mitattiin ja saatiin seuraavat tulokset: 5.01, 4.87, 5.11, 5.21, 5.03, 4.96, 4.78, 4.98, 4.88 ja 5.06. Onko valmistajan všittšmššn uskomista? (Helenius)... Quantiles maximum 100.0% 5,2100 99.5% 5,2100 97.5% 5,2100 90.0% 5,2000 quartile 75.0% 5,0725 median 50.0% 4,9950 quartile 25.0% 4,8775 10.0% 4,7890 2.5% 4,7800 0.5% 4,7800 minimum 0.0% 4,7800 4

5 6 Moments Mean 4,98900 Std Dev 0,12530 Std Err Mean 0,03962 upper 95% Mean 5,07863 lower 95% Mean 4,89937 N 10 Test Mean=value Hypothesized Value 5 Actual Estimate 4,989 t Test Test Statistic -0,278 Prob > t 0,788 Prob > t 0,606 Prob < t 0,394... Esim. 2. Ovatko tytšt ja pojat syntyessššn keskimššrin samanpituisia? ErŠŠstŠ aineistosta (SAIDIT- aineisto, n = 120) laskettuna poikien pituuden keskiarvo oli 50,95 ja tyttšjen 50,24. Otoskeskiarvojen erotus oli siis 0.72. Voidaanko tšmšn perusteella yleistšš ja sanoa, ettš pojat ovat syntyessššn keskimššrin tyttšjš pitempiš? Analyysin tuloksia: Means and Std Deviations Level Number Mean Std Dev pojat 65 50,9538 1,97192 tytšt 55 50,2364 2,02726 t-test DF Prob> t 1,960 118 0,0523 Ks. myšs jaettu moniste SPSS:n tulostuksesta. Tilastollisten pšštelmien teko perustuukin satunnaisotoksesta mššriteltyjen tunnuslukujen (kuten esim. otoskeskiarvojen) todennškšisyysjakaumiin. JohtopŠŠtelmŠt tehdššn erilaisten tilastollisten testien ja analysointimenetelmien avulla. TŠllaiseen pššttelyyn sisšltyy tiettyš epšvarmuutta, jota pyritššn hallitsemaan kšyttšen hyvšksi todennškšisyyslaskentaa ja erilaisia todennškšisyysjakaumia. Opintojaksolla tutustutaankin aluksi lyhyesti todennškšisyyslaskentaa ja todennškšisyysjakaumiin. PŠŠpaino on kuitenkin tilastollisen pššttelyn peruskšsitteiden esittelyssš. PerehdytŠŠn otosjakaumiin ja niiden kšyttššn tilastollisessa pššttelyssš. KŠydŠŠn lšpi estimointiin liittyviš kšsitteitš sekš tutustutaan joihinkin tilastollisiin testeihin. 2. TODENN K ISYYSLASKENTAA 2.1. SATUNNAISILMI JA TAPAHTUMA Esim. 2.1.1. HeitettŠessŠ rahaa ei tiedetš saadaanko kruunu vai klaava. TiedetŠŠn, ettš molemmat vaihtoehdot ovat yhtš todennškšisiš. HeitettŠessŠ noppaa tiedetššn, ettš saadaan silmšluku 1, 2, 3, 4, 5 tai 6, mutta ei tiedetš etukšteen silmšlukua. TiedetŠŠn, ettš jokaisen silmšluvun todennškšisyys on sama. Kortin vetšminen sekoitetusta korttipakasta, lottoaminen, veikkaaminen, bussin saapuminen pysškille ja pšivšn sšš ovat myšs esimerkkejš ilmišistš, joihin liittyy epšvarmuutta. 7 Satunnaisilmiš on mikš tahansa ilmiš, johon liittyy useita eri tulosmahdollisuuksia sekš epšvarmuutta ilmišn tuloksesta. Puhutaan myšs satunnaiskokeesta. Satunnaisilmiššn liittyvien kaikkien mahdollisten tulosten joukkoa kutsutaan perusjoukoksi (otosavaruudeksi) E. KŠytŠnnšssŠ ollaan kiinnostuneita joistain perusjoukon osajoukoista (sekš niiden esiintymistodennškšisyyksistš). Perusjoukon osajoukko on nimeltššn tapahtuma. Tapahtumia merkitššn A, B, C,... Esim 2.1.2. Rahanheitto E =Òkaikki mahdolliset tuloksetó ={kruunu, klaava} tapahtumia: A = Òsaadaan kruunuó ={kruunu} B = Òsaadaan klaavaó ={klaava} Nopanheitto E ={1,2,3,4,5,6} tapahtumia: A = Òsaadaan parillinenó = {2,4,6} 8

B = {1} C = {1,2,3} D = Òsaadaan suurempi kuin 4Ó ={5,6} Kortin vetšminen sekoitetusta korttipakasta E= Òkaikki kortitó tapahtumia: A = Òsaadaan pataó B = Òsaadaan kuningasó C = Òsaadaan punainen ŠssŠÓ Lottoaminen (39 palloa, joista arvotaan palauttamatta 7) E = Òkaikki mahdolliset lottorivitó, joita on 15380937 (ks. kombinatoriikka) tapahtumia: A = Òsaadaan 7 oikeinó B = Òsaadaan 6 oikeinó C = Òei saada yhtššn oikeinó Veikkaaminen (13 kohdetta, joissa jokaisessa 3 vaihtoehtoa) E = Òkaikki mahdolliset rivitó, joita on 1594323 (ks. kombinatoriikka) tapahtumia: A = Òsaadaan 13 oikeinó B = Òsaadaan 12 oikeinó C = Òei saada yhtššn oikeinó 9 2.2. KLASSINEN TODENN K ISYYS Olkoon tarkasteltavan satunnaisilmišn perusjoukossa n tulosta, jotka ovat kaikki yhtš mahdollisia. Olkoon tapahtumaan A liittyviš tuloksia k kappaletta (0 k n). TŠllšin tapahtuman A todennškšisyys P(A) = k/n. Esim 2.2.1. Rahanheitto A = Òsaadaan kruunuó P(A) = 1/2 Nopanheitto A = Òsaadaan parillinenó ={2,4,6} P(A) = 3/6 B = {1}, P(B) = 1/6 D = Òsuurempi kuin 4Ó ={5,6}, P(D) = 2/6. Lottoaminen A = Òsaadaan 7 oikeinó P(A) = 1/kaikkien rivien lkm = 1/15380937 B = Òsaadaan 6 oikeinó P(B) = rivien lkm, joissa 6 oik./kaikkien rivien lkm 10 Klassisen todennškšisyyden (voidaan liittšš vain ŠŠrellisiin perusjoukkoihin) yhteydessš lukujen n ja k mššrittšminen ei aina ole yksinkertaista. Joudutaan usein kšyttšmššn hyvšksi kombinatoriikkaa. Tapahtuman A todennškšisyys voidaan myšs mššritellš arvoksi, jota tapahtuman suhteellinen frekvenssi lšhestyy satunnaiskoetoistojen mššršš kasvatettaessa. 2.3. TODENN K ISYYSLASKENNAN AKSIOOMAT JA LASKUS NT J Matemaattisesti mššriteltynš todennškšisyys on joukkofunktio P, joka liittšš jokaiseen satunnaisilmišn tapahtumaan A reaaliluvun P(A), jota sanotaan tapahtuman A todennškšisyydeksi ja joka toteuttaa tietyt aksioomat. Aksiooma 1. Jos A on mikš tahansa satunnaisilmišn tapahtuma, niin 0 P(A) 1. 11 Aksiooma 2. P(E) = 1. TŠllšin kyseessš varma tapahtuma. Jos A ja B ovat kaksi saman satunnaisilmišn tapahtumaa, niin mššritellššn niiden yhdiste A B = ÒA tai B tai molemmat tapahtuvató ja leikkaus A B = ÒA ja B molemmat tapahtuvató. Sanotaan, ettš tapahtumat A ja B ovat erillisiš, jos ne molemmat eivšt voi tapahtua samanaikaisesti eli A B = (mahdoton tapahtuma). Aksiooma 3. Jos tapahtumat A ja B ovat erillisiš, eli A B =, niin P(A B ) = P(A)+P(B) Esim 2.3.1. Nopanheitto A = Òsaadaan parillinenó ={2,4,6} P(A) = 3/6 B = Òsaadaan ykkšnenó ={1} P(B) = 1/6 A B =Òsaadaan parillinen tai ykkšnenó A B =, joten P(A B) = P(A)+P(B) 12

13 14 LaskusŠŠntš 1. P( )=0,eli mahdottoman tapahtuman, todennškšisyys on nolla. MŠŠritellŠŠn A:n komplementtitapahtuma A C = ÒA ei tapahduó LaskusŠŠntš 2. P(A C ) = 1- P(A). Esim 2.3.2. Nopanheitto A = ÒsilmŠluku pienempi kuin 6Ó A C = ÒsilmŠluku 6Ó P(A) = 1-P(A C ) = 1-1/6 Esim 2.3.3. HeitetŠŠn rahaa kaksi kertaa. Olkoon A=Òsaadaan ainakin yksi kruunuó. P(A)=1-P(A C ) = 1-1/4. LaskusŠŠntš 3. Jos tapahtumat A 1, A 2,..., A k ovat pareittain erillisiš eli mitkššn kaksi tapahtumaa eivšt voi esiintyš samanaikaisesi, niin P(A 1 A 2... A k )= P(A 1 )+P(A 2 )+...+ P(A k ). Esim 2.3.4. VedetŠŠn kortti sekoitetusta pakasta. Laske tn, ettš kortti on ruutu-, hertta- tai ristikortti. (Vast. 39/52) LaskusŠŠntš 4 (yleinen yhteenlaskusššntš). Jos A ja B ovat satunnaisilmišn tapahtumia, niin P(A B ) = P(A)+P(B)-P(A B). Esim 2.3.5. VedetŠŠn kortti sekoitetusta pakasta. Laske tn, ettš kortti on patakortti tai ŠssŠ. MŠŠritellŠŠn A:n ehdollinen todennškšisyys ehdolla B: Olkoon A ja B saman satunnaisilmišn tapahtumia siten, ettš P(B)>0. TŠllšin tapahtuman A ehdollinen todennškšisyys ehdolla, ettš tiedetššn tapahtuman B esiintyneen on P(A B)=P(A B)/P(B). Esim 2.3.6. Tarkastellaan sadasta henkilšstš muodostuvaa populaatiota. HenkilšiltŠ tiedusteltiin heidšn mielipidettššn verouudistukseen (puolesta tai vastaan). Saatiin seuraava frekvenssitaulukko: puolesta vastaan mies 10 30 40 nainen 15 45 60 25 75 100 Valitaan satunnaisesti yksi henkilš ko. populaatiosta. MŠŠritŠ todennškšisyys sille, ettš valittu on uudistuksen puolesta, kun tiedetššn valitun olleen mies. (Vast. 1/4) (Helenius) LaskusŠŠntš 5 (yleinen kertolaskusššntš). Jos P(B)>0, niin P(A B) = P(B)P(A B). Tapahtumat A ja B ovat (tilastollisesti, stokastisesti) riippumattomia (merk.æ), jos P(A B)=P(A). TŠllšin siis B:n tapahtuminen tai tapahtumatta jššminen ei vaikuta A:n tapahtumisen todennškšisyyteen ja A:n 15 tapahtuminen tai tapahtumatta jššminen ei vaikuta B:n tapahtumisen todennškšisyyteen. Jos tapahtumat A ja B ovat riippumattomia, niin P(A B ) = P(A)P(B). Tapahtumien riippumattomuus voidaan yleistšš: Tapahtumat A 1, A 2,..., A k ovat riippumattomia, jos minkššn niistš tapahtuminen tai tapahtumatta jššminen ei vaikuta muiden tapahtumien todennškšisyyksiin. TŠllšin P(A 1 A 2... A k ) =P(A 1 )P(A 2 )...P(A k ). RiippumattomuuskŠsite ja esitetty todennškšisyyden laskukaava voidaan yleistšš myšs eri satunnaisilmišiden všlille, jolloin tapahtumat voivat olla eri satunnaisilmišistš. Puhutaan yhdistetystš satunnaisilmišstš. 16

Esim 2.3.7. HeitetŠŠn noppaa kaksi kertaa. A = Ò1. heiton silmšluku 5Ó B = Ò2. heiton silmšluku 5Ó, A Æ B, joten P(Òsaadaan 5 molemmilla heitoillaó) =P( Ò1. heiton silmšluku 5Ó) P( Ò2. heiton silmšluku 5Ó) = (1/6)(1/6) Esim 2.3.8. HeitetŠŠn noppaa kolme kertaa (toistetaan samaa satunnaisilmištš) A 1 = Ò1. heiton silmšluku paritonó A 2 = Ò2. heiton silmšluku paritonó A 3 = Ò3. heiton silmšluku paritonó P(Òsaadaan kaikilla heitoilla paritonó) =P( Ò1. heitolla paritonó) P( Ò2. heitolla paritonó)p( Ò3. heitolla paritonó) = 1/8 17 Esim 2.3.9. Olkoon laatikossa neljš palloa, joista yksi musta, yksi punainen ja loput kaksi valkoisia. Poimitaan umpimšhkššn laatikosta kaksi palloa perškkšin siten, ettš ensin saatu pallo palautetaan takaisin ennen jšlkimmšisen poimintaa (yksinkertainen satunnaisotanta palauttaen). MillŠ todennškšisyydellš molemmat pallot ovat valkoisia? P(Òmolemmat pallot valkoisiaó) =P(1.pallo valk.)p(2.pallo valk.) = (2/4)(2/4) = 1/4. Suoritetaan kahden pallon poiminta siten, ettš ensin poimittua ei palauteta laatikoon ennen jšlkimmšisen valintaa (yksinkertainen satunnaisotanta palauttamatta). MillŠ todennškšisyydellš molemmat pallot nyt ovat valkoisia? P(Òmolemmat pallot valkoisiaó) =P(1.pallo valk.)p(2.pallo valk. 1. valk.) = (2/4)(1/3) = 1/6. (Helenius s. 196) 18 Esim 2.3.10. Olet tulossa kotiin. Avainnipussasi on 5 avainta, joista yhdellš pššset sisššn. Valitset satunnaisesti avaimen, jolla koetat avata ovet. Jollei ovi aukea, valitset jšljellš olevista satunnaisesti uuden avaimen ja koetat avata oven, jne. Laske todennškšisyydet, ettš 1. yrityksellš saat oven auki, 2. yrityksellš saat oven auki,..., 5. yrityksellš saat oven auki. (Vast. 1/5; (4/5)(1/4)=1/5;...; (4/5)(3/4)...(1/2)(1/1)=1/5). (Liski & Puntanen) 2.4. KOMBINATORIIKKAA Tarkastellaan satunnaisilmištš, jonka voidaan ajatella syntyvšn K:ssa eri vaiheessa (yhdistetty satunnaisilmiš). Oletetaan, ettš i:nnessš vaiheessa on n i eri tulosmahdollisuutta. TŠllšin yhdistetyllš satunnaisilmišllš on n 1 n 2...n K eri tulosta. Esim 2.4.1. Kuinka monta vakioveikkausriviš voidaan muodostaa? Montako sellaista, joissa ei yhtššn oikeaa? (Vast. 3 13 = 1594323, 2 13 = 8192) 19 Esim 2.4.2. Kuinka moneen erilaiseen jonoon henkilšt A, B ja C voidaan jšrjestšš? (Vast. 3á2á1) EdellŠ muodostettiin kirjainten permutaatiot. Jonon mitš tahansa uutta jšrjestystš sanotaan permutaatioksi. Kuinka moneen erilaiseen jšrjestykseen n erilaista alkiota voidaan asettaa? Erilaisia jšrjestyksiš (permutaatioita) on n(n-1)(n-2)...2á1 = n! (n-kertoma). MŠŠritellŠŠn 0! = 1. Kuinka moneen erilaiseen jšrjestykseen n:stš erilaisesta alkiosta valitut k alkiota voidaan jšrjestšš? Erilaisia jšrjestyksiš (permutaatioita) on n(n-1)(n-2)...(n-k+1)=n!/(n-k)! 20

Olkoon n erilaista alkiota. TŠllšin k:n alkion osajoukkoja eli kombinaatioita voidaan muodostaa n! merkitään n = k!(n k)! k (lue: n yli k:n) kappaletta. TŠmŠ luku on ns. binomikerroin. Kombinaatio on siis alkioiden joukko, jossa jšrjestyksellš ei ole všliš. Esim 2.4.3. Kuinka monta erilaista lottoriviš? Kuinka monta sellaista, jossa kaikki vššrin? (Vast. 15380937, 3365856) Esim 2.4.4. Kuinka monta erilaista jonoa 5 henkilšš voi muodostaa? EntŠ 20 henkilšš? (Vast. 5!=120, 20!=3628800) Esim 2.4.5. Kuinka moneen eri jšrjestykseen korttipakan 52 korttia voi asettaa? (Vast. 52!) Esim.2.4.6. Valitaan luvuista 1,2,3,4,5,6 kaksi lukua satunnaisesti palauttamatta lukua valinnan jšlkeen. Kyse siis yksinkertaisesta satunnaisotonnasta (YSO) palauttamatta. 21 Muodosta kaikki mahdolliset otokset (populaation osajoukkoja, jossa jšrjestyksellš ei merkitystš) ja mššritš otoksen suurin alkio sekš sen eri arvojen todennškšisyydet. (Vast. Otoksia 15, P(Max=2)=1/15, P(Max=3)=2/15...) Esim.2.4.7. Kuten edellš, mutta otanta systemaattisella otannalla. (Ohje: Otoksia 3) 2.5. KOKONAISTODENN K ISYYS JA BAYESIN KAAVA Esim.2.5.1. Tuotetta A valmistetaan koneilla K 1 ja K 2. Kone K 1 tekee 1000 kappaletta aikayksikšssš ja virheellisten osuus on keskimššrin 2%. Kone K 2 tekee 2000 kappaletta ja virheellisten osuus 5%. Laske todennškšisyys, ettš tuotannosta satunnaisesti valittu tuote on virheellinen. (Vast. 4%) (Huuhtanen & Kallinen, Matemaattinen tilastotiede) Esim.2.5.2. (jatkoa esim. 2.5.1.) On lšytynyt virheellinen tuote. MikŠ on todennškšisyys, ettš tuote on valmistettu koneella K 1. (Vast. 1/6) 22 3. TODENN K ISYYSJAKAUMIA 3.1. SATUNNAISMUUTTUJA JA TODENN K ISYYSJAKAUMA Funktiota, joka liittšš yksikšsitteisen reaaliluvun jokaiseen tarkasteltavan satunnaisilmišn perusjoukon tulokseen, sanotaan satunnaismuuttujaksi. Eri tuloksiin liittyviš reaalilukuja sanotaan satunnaismuuttujan arvoksi. Jatkossa merkitššn (useimmiten) satunnaismuuttujia isoin kirjaimin (X, Y, Z,...) ja satunnaismuuttujan arvoja pienin kirjaimin (x, y, z,...). Esim 3.1.1. Satunnaisilmiš nopanheitto. Satunnaismuuttuja X = saatu silmšluku. 23 Esim 3.1.2. HeitetŠŠn kolikkoa neljš kertaa. MŠŠritellŠŠn satunnaismuuttuja X=klaavojen lukumššrš heittosarjassa. EtukŠteen ei tiedetš montako klaavaa saadaan, mutta voidaan laskea eri arvojen todennškšisyydet. TŠssŠ satunnaismuuttujan X mahdolliset arvot ovat 0, 1, 2, 3 ja 4. Erilaisia heittosarjoja on kaikkiaan 16. klaavojen klaavojen lkm lkm Kl,Kl,Kl,Kl 4 Kr,Kl,Kl,Kr 2 Kr,Kl,Kl,Kl 3 Kl,Kr,Kl,Kr 2 Kl,Kr,Kl,Kl 3 Kr,Kl,Kr,Kl 2 Kl,Kl,Kr,Kl 3 Kl,Kr,Kr,Kr 1 Kl,Kl,Kl,Kr 3 Kr,Kl,Kr,Kr 1 Kl,Kl,Kr,Kr 2 Kr,Kr,Kl,Kr 1 Kr,Kr,Kl,Kl 2 Kr,Kr,Kr,Kl 1 Kl,Kr,Kr,Kl 2 Kr,Kr,Kr,Kr 0 24 P(X=0)= P(X=1)= P(X=2)= P(X=3)= P(X=4)=

Esim 3.1.3. SatunnaisilmišnŠ veikkaaminen (13 kohdetta, joissa jokaisessa 3 vaihtoehtoa). TŠllšin voidaan mššritellš satunnaismuuttuja X = oikein veikattujen kohteiden lukumššrš. X voi saada arvoja 0,1,2,...,13. NŠiden arvojen todennškšisyydet voidaan laskea (ks. binomijakauma). EsimerkissŠ 3.1.2. ilmoitettiin satunnaismuuttujan mahdolliset arvot ja eri arvojen todennškšisyydet. TŠllšin muodostettiin satunnaismuuttujan todennškšisyysjakauma. Satunnaismuuttuja voi olla joko jatkuva tai diskreetti. EdellisissŠ esimerkeissš satunnaismuuttujat olivat diskreettejš. Satunnaismuuttujaa sanotaan diskreetiksi, jos se voi saada arvokseen ŠŠrellisen mššršn erisuuria arvoja tai ŠŠrettšmŠn mššršn siten, ettš arvot ovat numeroitavissa positiivisia kokonaislukuja kšyttšen. Muulloin satunnaismuuttuja on jatkuva. 25 Diskreetin satunnaismuuttujan todennškšisyysjakauma voidaan usein (ainakin periaatteessa) muodostaa kuten esimerkissš 3.1.2. Jatkuvien muuttujien yhteydessš todennškšisyysjakauma mššritellššn jatkuvan funktion avulla. Funktiota, joka mššrittšš satunnaismuuttujan todennškšisyysjakauman kutsutaan tiheysfunktioksi, merk. f(x). Diskreetin muuttujan yhteydessš puhutaan myšs pistetodennškšisyyksistš. Tarkemmat kuvaukset tiheysfunktioista kohdissa 3.2. ja 3.3. Tiheysfunktion voidaan ajatella kuvaavan populaation jakaumaa (vrt. frekvenssimonikulmio empiiristen (otos)jakaumien yhteydessš). Esim 3.1.4. Esimerkin 3.1.2. todennškšisyysjakauma graafisesti. 26 Satunnaismuuttujan X kertymšfunktio F mššritellššn F(x) = P(X x). KertymŠfunktion arvo pisteessš x kertoo siis todennškšisyyden sille, ettš satunnaismuuttujan X arvo on x. KertymŠfunktion ominaisuuksia: 1) F(- )=0, F( )=1 2) P(a<X b)=f(b)-f(a), (a<b) 3) Jos X jatkuva, niin F(a)=P(X a)=p(x<a). 4) P(X>a)=1-P(X a)=1-f(a) 5) Jos X jatkuva satunnaismuuttuja, niin F«(x)=f(x). Esim 3.1.5. HeitetŠŠn kolikkoa neljš kertaa. Olkoon X = klaavojen lukumššrš heittosarjassa. MŠŠritŠ ja piirrš X:n kertymšfunktio. Laske P(X<0),P(X 0),P(X<2.5), P(X 4). (Vast. 0, 1/16, 11/16, 1/16) 27 3.2. DISKREETTI SATUNNAISMUUTTUJA Olkoon diskreetin satunnaismuuttujan X mahdolliset arvot x 1, x 2,..., ja nšiden arvojen todennškšisyydet p 1, p 2,..., TŠllšin satunnaismuuttujan X todennškšisyysjakauma mššritellššn pistetodennškšisyyksien P(X=x i ) = p i, i = 1, 2,..., 0, muulloin missš p 1 + p 2 +... = 1, perusteella. Esim 3.2.1. HeitetŠŠn noppaa. MŠŠritellŠŠn X = saatu silmšluku. PiirrŠ X:n todennškšisyysjakauma sekš kertymšfunktio. Samalla tavalla kuin empiiristen jakaumien yhteydessš jakaumaa voitiin kuvailla tunnuslukujen avulla, voidaan myšs teoreettisia todennškšisyysjakaumin kuvata samantyyppisillš tunnusluvuilla, jotka mššritellššn todennškšisyysjakauman avulla. 28

Empiirisen jakauman keskiarvoa vastaavaksi tunnusluvuksi todennškšisyysjakauman (populaation) yhteydessš mššritellššn jakauman odotusarvo (populaation keskiarvo) sekš otosvarianssia ja keskihajontaa vastaaviksi (populaation) varianssi ja keskihajonta. Olkoon diskreetin satunnaismuuttujan X mahdolliset arvot x 1, x 2,..., x k ja nšiden arvojen todennškšisyydet p 1, p 2,..., p k. TŠllšin satunnaismuuttujan X odotusarvo E(X) mššritellššn E(X) =p 1 x 1 +p 2 x 2 +p 3 x 3 +...+ p k x k = µ sekš varianssi Var(X) Var(X) =E[(X-µ) 2 ] = Sp i (x i - E(X)) 2 =Sp i (x i - µ) 2 =σ 2 29 ja keskihajonta Sd(X)= Var(X) = σ. Huom. EdellŠ k voi siis olla myšs ŠŠretšn. Esim 3.2.2. HeitetŠŠn noppaa. MŠŠritellŠŠn X = saatu silmšluku. MŠŠritŠ E(X) ja Var(X). (Vast. 3.5, 35/12) Esim 3.2.3. MŠŠritellŠŠn rahanheitossa X = 1, jos saadaan kruunu 0, muulloin. Laske E(X) ja Var(X). (Vast. 0.5, 0.25) Esim 3.2.4. (jatkoa Esim. 2.3.10.) Olet tulossa kotiin. Avainnipussasi on 5 avainta, joista yhdellš pššset sisššn. Valitset satunnaisesti avaimen, jolla koetat avata ovet. Jollei ovi aukea, valitset jšljellš olevista satunnaisesti uuden avaimen ja koetat avata oven, jne. MŠŠritellŠŠn X = sen yrityksen jšrjestysnumero, jolla ovi aukeaa. MŠŠritŠ E(X) ja Var(X). (Vast. 3; 2) 30 3.3. JATKUVA SATUNNAISMUUTTUJA Olkoon jatkuvan satunnaismuuttujan X tiheysfunktio f. Jotta f olisi tiheysfunktio on f(x) 0, jokaisella x:n arvolla sekš f(x)dx = 1 eli f(x):n ja x-akselin všliin jššvš pinta-ala = 1. Tiheysfunktio kuvaa siis ykkšsen suuruisen todennškšisyysmassan jakaumaa.tšllšin X:n odotusarvo E(X) mššritellššn E(X) = xf(x)dx = µ, sekš varianssi Var(X) Var(X) =E[(X-µ) 2 ] = (x-e(x)) 2 f(x)dx =σ 2 ja keskihajonta Sd(X)= Var(X) = σ. Odotusarvo kuvaa jakauman keskikohtaa ja varianssi mittaa miten tiiviisti todennškšisyysmassa on keskittynyt odotusarvon ympšrille (vrt. empiiriset jakaumat). 31 Olkoon X jatkuva satunnaismuuttuja sekš a ja b reaalilukuja (a b), tšllšin a P(X a) = P(X<a) = F(a) = f(x)dx P(X a) = P(X>a) = 1-P(X a) = 1-F(a) P(a<X<b)= P(a X<b) = P(a<X b) = P(a X b) = F(b)-F(a) Graafisesti: Esim 3.3.1. Olkoon X= satunnaisesti všliltš [0,1] valittu reaaliluku. MŠŠritŠ X:n tiheysfunktio sekš kertymšfunktio. Laske lisšksi P(X>0.25), P(0.5 X 0.75),P(X a). Laske vielš E(X) ja Var(X) (Vast. f(x)=1, 0 x 1; E(X)=1/2,Var(X)= 1/12). Olkoon E(X)=µ ja Var(X)=σ 2. TŠllšin muuttuja X standardoidaan tekemšllš muunnos Z=(X-µ)/σ 32

3.4. ODOTUSARVON JA VARIANSSIN OMINAISUUKSIA Odotusarvon ominaisuuksia 1. E(a)=a, a vakio 2. E(aX+b)=aE(X)+b, X sat. muuttuja ja a,b vakioita (ax+b myšs satunnaismuuttuja) 3. Olkoon X 1, X 2,..., X n satunnaismuuttujia, jolloin myšs X 1 +X 2 +...+X n on satunnaismuuttuja ja E(X 1 +X 2 +...+X n )=E(X 1 )+E(X 2 )+...+E(X n ) 4. Jos satunnaismuuttujat X ja Y ovat riippumattomia, niin E(XY)=E(X)E(Y). Satunnaismuuttujien riippumattomuus mššritellššn vastaavalla tavalla kuin tapahtumien riippumattomuuskin. Diskreetin satunnaismuuttujan yhteydessš: Satunnaismuuttujat ovat riippumattomia, joss P(X=x i ja Y=y i )=P(X=x i )P(Y=y i ), i,j 33 Varianssin ominaisuuksia 1. Var(a)=0, a vakio 2. Var(X)=E(X 2 )-(E(X)) 2 3. Var(aX+b)=a 2 Var(X), a,b vakioita 4. Sd(aX+b)= a Sd(X), a,b vakioita 5. Jos satunnaismuuttujat X 1,X 2,...,X n ovat riippumattomia, niin Var(X 1 +X 2 +...+X n ) =Var(X 1 )+Var(X 2 )+...+Var(X n ) 6. Olkoon X ja Y satunnaismuuttujia. TŠllšin Var(X±Y)=Var(X)+Var(Y)±2Cov(X,Y), missš Cov(X,Y)=E((X-E(X))(Y-E(Y)) = σ XY on satunnaismuuttujien X ja Y všlinen kovarianssi, joka on nolla, jos X ja Y ovat riippumattomia. Kovarianssi liittyy muuttujien X ja Y yhteisjakaumaan. Satunnaismuuttujien X ja Y všlinen korrelaatiokerroin ρ XY = Cov (X,Y)/Sd(X)Sd(Y). Esim 3.4.1. Olkoon E(X)=µ ja Var(X)=σ 2. MŠŠritellŠŠn Z=(X-µ)/σ Laske E(Z) ja Var(Z). (Vast. 0; 1) 34 Esim 3.4.2. Olkoon X ja Y riippumattomia satunnaismuuttujia sekš mššritellššn Z=X-Y. Olkoon Sd(X) = σx ja Sd(Y) = σy sekš E(X) = µx ja E(Y) = µy. Laske Z:n odotusarvo ja keskihajonta. Esim 3.4.3. Olkoon X 1,X 2,..., X n riippumattomia satunnaismuuttujia siten, ettš E(X i ) = µ ja Var(X i ) = σ 2. MŠŠritellŠŠn Y=(X 1 +X 2 +...+ X n )/n. Laske E(Y) ja Var(Y). (Vast. µ, σ 2 /n) 35 Esim. 3.4.5. Sijoitetaan 1000 mk. Mahdollisia kohteita A ja B. Olkoon X=1 mk:n tuotto kohteesta A, Y=1 mk:n tuotto kohteesta B. Olkoon X ja Y riippumattomia sekš E(X)=E(Y)=µ ja Var(X)=Var(Y)=σ 2. Miten sijoitat? (Newbold) Esim. 3.4.6. Tarkastellaan kahta satunnaismuuttujaa X ja Y. Olkoon P(X=6, Y=1) = P(X=6, Y=3)= P(X=8, Y=2) = P(X=10, Y=1) = P(X=10, Y=3) = 0.2. Laske Cov(X,Y) sekš ρ. (Vast. 0; 0) 36 Esim. 3.4.4. Sijoitat 1000 mk. Mahdollisia sijoituskohteita A ja B, joissa molemmissa pienin sijoitusmššrš 500 mk. Olkoon X=tuotto 100 mk:n sijoituksesta A:han, Y= tuotto 100 mk:n sijoituksesta B:hen. Olkoon lisšksi P(X=-5)=0.4, P(X=20)=0.6, P(Y=0)=0.6, P(Y=25)=0.4 sekš sijoitukset toisistaan riippumattomia. Miten sijoittaisit? (Ohje: Paras sijoitus sellainen, jonka tuotolla suurin odotusarvo ja pienin varianssi) (Newbold)

3.5. YLEISESTI SOVELLETTUJA TODENN K ISYYSJAKAUMIA 1. BERNOULLI-JAKAUMA Tarkastellaan satunnaisilmištš, jossa joko onnistutaan (A) tai epšonnistutaan (A C ). MŠŠritellŠŠn satunnaismuuttuja X siten, ettš X = 1, jos onnistutaan 0, jos epšonnistutaan. Olkoon lisšksi P(A)=P(X=1)=p ja P(A C )=P(X=0)=q=1-p. TŠllšin sanotaan, ettš X noudattaa Bernoullijakaumaa parametrillš p. MerkitŠŠn X~ÊBer(p). Jos X~ÊBer(p), niin E(X)= p ja Var(X) = p(1-p) = pq. Esim. 3.5.1. Rahanheitto, veikkauksessa yhden kohteen arvaaminen, nopanheitto onnistumisena silmšluvun 6 saaminen,... 37 2. BINOMIJAKAUMA Tarkastellaan vakioveikkausta. MŠŠritellŠŠn satunnaismuuttuja X = oikein arvattujen kohteiden kokonaislukumššrš. TehtŠvŠnŠ on mššrittšš X:n todennškšisyysjakauma. TŠllšin pššdytššn nk. binomijakaumaan. Olkoon satunnaisilmišssš onnistumisen todennškšisyys p. Toistetaan tštš satunnaisilmištš n kertaa. MŠŠritellŠŠn X= onnistumisten kokonaislukumššrš. TŠllšin sanotaan, ettš X noudattaa binomijakaumaa parametrein n ja p. MerkitŠŠn X~ÊBin(n,p). Jos X~ÊBin(n,p), niin P(X=k)= n k p k ( 1 p) n k, k=0,1,2,...n ja E(X)=np sekš Var(X)=np(1-p)=npq. Binomijakaumaa noudattava satunnaismuuttuja mššritellššn siis itse asiassa Bernoulli-jakaumaa noudattavien satunnaismuuttujien summana. Olkoon 38 X i ~ÊBer(p), jolloin toistettaessa Bernoullikoetta n kertaa, onnistumisten kokonaislukumššrš voidaan mššritellš X=X 1 +X 2 +... +X n ja tšllšin siis X~ÊBin(n,p). TŠmŠn summamuuttujan avulla saadaan laskettua binomijakauman odotusarvo ja varianssi. Esim. 3.5.2. Veikataan satunnaisesti yksi rivi. MŠŠritellŠŠn X=oikein arvattujen kohteiden kokonaislukumššrš. MŠŠritŠ X:n jakauma sekš sen odotusarvo. Laske P(X=0), P(X=13), P(X>11), P(X>3). (Ohje: X ~ Bin(13, 1/3)) Esim. 3.5.3. Pelaat ystšvšsi kanssa peliš, jossa heitetššn rahaa. Jos tulee klaava saat ystšvšltšsi markan, jos tulee kruunu annat ystšvšllesi markan. On heitetty rahaa 20 kertaa ja olet tappiolla 14 markkaa eli on tullut 17 kruunua ja 3 klaavaa. Onko syytš tutkia rahaa tarkemmin? Jos raha harhaton, niin X=klaavojen lukumššrš 20 heitossa ~ÊBin(20,1/2). MillŠ todennškšisyydellš olet 39 všhintššn 14 mk tappiolla? P(X 3) =P(X=0)+P(X=1)+P(X=2)+P(X=3) =... = 0.0013. On siis sattunut tapahtuma, jonka todennškšisyys on hiukan yli 1/1000 tai pelissš oleva raha on harhainen ja antaa kruunun useammin kuin klaavan. 3. HYBERGEOMETRINEN JAKAUMA Tarkastellaan lottoamista. MŠŠritellŠŠn satunnaismuuttuja X = lottorivissš oikeitten lukumššrš. Lotossa populaation koko on 39, josta arvotaan palauttamatta 7 ÒoikeaaÓ. Kun tšytetššn lottorivi, niin siinš voi olla oikein 0, 1, 2,... tai 7. Kun halutaan selvittšš nšiden arvojen todennškšisyydet, voidaan kšyttšš hyvšksi nk. hypergeometrista jakaumaa. Populaatiossa on N alkiota, joista K kpl on "viallisia". TehdŠŠn tšstš populaatiosta palauttamatta yksinkertainen satunnaisotos, jonka koko on n. MŠŠritellŠŠn X= viallisten 40

lukumššrš otoksessa. TŠllšin X noudattaa nk. hypergeometrista jakaumaa parametrein N, K, n. MerkitŠŠn X~ÊHyp(N,K,n). Jos X~ÊHyp(N,K,n), niin K N K k n k P(X=k)=, k=0,1,2,...n N n E(X)=n(K/N), Var(X)=n(K/N)(1-K/N)((N-n)/(N-1)) Esim. 3.5.4. Laske todennškšisyys sille, ettš lotossa saa k oikein. MŠŠritŠ myšs odotusarvo oikeitten lukumššršlle. (Vast. E(X)=1.26) Esim. 3.5.5. Olkoon 15 tuotteen joukossa 5 virheellistš. Valitaan tšstš joukosta satunnaisesti 3 tuotetta. Laske todennškšisyys, ettš valittujen kolmen tuotteen joukossa on korkeintaan yksi virheellinen, kun valinta tehty a) palauttaen b) palauttamatta. (Vast. 0.741, 0.758) (Helenius) 41 4. POISSON JAKAUMA Esimerkiksi tarkasteltaessa hirvikolareiden (harvinaisten tapahtumien) lukumššršš viikoittain (tietyllš aikavšlillš) voidaan lukumššršn todennškšisyysjakaumana kšyttšš nk. Poisson-jakaumaa. Olkoon satunnaismuuttujan X mahdolliset arvot 0, 1, 2,... ja P(X=k)= λk k! e λ, k=0,1,2,... TŠllšin sanotaan X:n noudattavan Poissonjakaumaa parametrilla λ. MerkitŠŠn X~ÊPoi(λ). TŠllšin E(X)=λ, Var(X)=λ. TŠllaisiin satunnaismuuttujiin tšrmšš, kun on kiinnostunut harvinaisten tapahtumien lukumššršstš tietyllš aikavšlillš, tietyllš matkalla... vaikkapa liikenneonnettomuuksien lkm pšivšssš, painovirheitten lkm sivulla jne. 42 Esim. 3.5.6. Puhelinlaitokselle tulee satunnaisesti vikailmoituksia, keskimššrin kolme viikossa. MillŠ todennškšisyydellš tietyllš viikolla a) ei tule yhtššn vikailmoitusta b) tulee yksi vikailmoitus? (Oletetaan Poissonjakauma) (Vast. 0.05, 0.15) (Helenius) Esim. 3.5.7. Sairaalassa seurataan infektioiden lukumššršš. ErŠŠnŠ vuonna infektioiden lukumššrš oli 900 eli keskimššrin kuukaudessa 75. Voidaan olettaan, ettš X=infektioiden lkm kuukaudessa~ Poi(75). TŠllšin E(X)=75, Var(X)=75, P(X=k)= Poisson-jakauma soveltuu harvinaisten tapahtumien yhteydessš binomijakauman approksimointiin, kun n on riittšvšn suuri. Esim. 3.5.8. Suuressa populaatiossa tiedetššn aiemmin olleen 4% všrisokeita. Nykyisen tilanteen selvittšmiseksi valitaan populaatiosta satunnaisesti 200 henkilšš. MillŠ todennškšisyydellš 200 valitun joukossa on korkeitaan viisi všrisokeaa, jos populaatiossa edelleen on 4% všrisokeita? (Vast. Poisson-jakauman avulla approksimoitu 0.191) (Helenius) 43 5. GEOMETRINEN JAKAUMA Avainnipussa on 5 avainta, joista yksi avaa oven. Valitaan satunnaisesti avaimen, jolla koetetaan avata ovi. Jollei ovi aukea, palautetaan avain nippuun ja valitaa avain satunnaisesti uudellee. Nyt halutaan selvittšš todennškšisyys sille, ettš k. kerralla onnistutaan. TŠssŠ siis toistetaan satunnaiskoetta, jossa onnistutaan todennškšisyydellš 1/5. Seuraavassa jakaumassa on tilanne yleistettynš. Toistetaan satunnaiskoetta, jossa onnistutaan todennškšisyydellš p, kunnes onnistutaan 1. kerran. Olkoon X sen kerran jšrjestysnumero. TŠllšin sanotaan, ettš X noudattaa geometrista jakaumaa parametrillš p. MerkitŠŠn X~ÊGeo(p). Jos X~ÊGeo(p),niin P(X=k)= (1-p) k-1 p, k=1, 2,... ja E(X)=1/p ja Var(X)= (1-p)/p 2. Esim. 3.5.9. Kotiavaimen valinta nipusta palauttaen. Montako kertaa keskimššrin yrityksiš on tehtšvš? 44

45 46 6. DISKREETTI TASAJAKAUMA Noppaa heitettšessš voidaan mššritellš satunnaismuuttuja X = silmšluku. X:n mahdolliset arvot ovat 1, 2, 3, 4, 5, 6 ja jokaisen esiintymistodennškšisyys 1/6. TŠtŠ jakaumaa kutsutaan diskreetiksi tasajakaumaksi všlillš (1,6). Jos satunnaismuuttujan X arvot ovat kokonaislukuja a, a+1, a+2, a+3,...,a+(n-1)=b ja kukin n:stš arvo yhtš todennškšinen, niin sanotaan, ettš X noudattaa diskreettiš tasajakaumaa všlillš (a,b). MerkitŠŠn X~ÊTasd(a,b). TŠllšin E(X)= (a+b)/2 ja Var(X)= (n 2-1)/12. Esim. 3.5.10. Nopanheitto. Esim. 3.5.11. Olkoon X yksinumeroinen satunnaisluku. Mahdolliset arvot ovat siis 0,1,2,...,9 ja jokaisen arvon todennškšisyys 1/10. TŠllšin X~ÊTasd(0,9), E(X)= (0+9)/2 ja Var(X)=(10 2-1)/12. 7. JATKUVA TASAJAKAUMA Satunnaismuuttuja noudattaa jatkuvaa tasajakaumaa všlillš [a,b], jos sen tiheysfunktio f on f(x)=1/(b-a), kun a x b 0, muulloin. MerkitŠŠn X~ÊTas(a,b). TŠllšin E(X)= (a+b)/2 Var(X)=(b-a) 2 /12. Esim. 3.5.12. Aiemmat esim. 8. NORMAALIJAKAUMA Seuraava todennškšisyysjakauma on tilastotieteessš hyvin keskeinen. Tarkastellaan jatkuvaa satunnaismuuttujaa X, joka voi saada arvokseen kaikki reaaliluvut. Satunnaismuuttuja X noudattaa normaalijakaumaa parametrein µ ja σ 2 (σ>0), jos sen tiheysfunktio on 47 48 1 f(x) = σ 2π e 1 2 x µ σ 2 - x TŠllšin E(X)= µ ja Var(X) = σ 2. MerkitŠŠn X~ÊN(µ,σ 2 ). Jos X~ÊN(µ,σ 2 ), niin sen tiheysfunktio on yksihuippuinen jakauma, symmetrinen odotusarvon suhteen varianssin kertoessa jakauman levittšytymisestš odotusarvon ympšrille. Esim. 3.5.13. Erilaisia normaalijakaumia graafisesti. Jos X~ÊN(0,1), niin sen tiheysfunktio on f(x) = 1 2π e 1 2 x2 - x KyseessŠ nk. standardoitu normaalijakauma. Usein merk. Z~ÊN(0,1), f(z)=φ(z) ja F(z)=P(Z z)=φ(z). Standardoidun normaalijakauman kertymšfunktion Φ(z)=P(Z z) arvoja on taulukoitu. Taulukoiden avulla voidaan laske erilaisia todennškšisyyksiš. Normaalijakauman symmetrisyydestš seuraa, ettš Φ(z)=1-Φ(-z). Graafisesti: Esim. 3.5.14. Olkoon Z~ÊN(0,1). Laske P(Z 1), P(Z 1.1), P(Z 1.14), P(Z -1), P(Z 0), P(-1 Z 1), P(-2 Z 2), P(-3 Z 3). Esim. 3.5.15. Olkoon Z~ÊN(0,1). MŠŠritŠ z, kun a) Φ(z)=0.75 b) Φ(z)=0.26. Jos X~ÊN(µ,σ 2 ), niin P(X a) voidaan laskea kšyttšen standardoitua normaalijakaumaa, sillš on osoitettavissa, ettš jos X~ÊN(µ,σ 2 ), niin Z=(X-µ)/σ ~ÊN(0,1).

49 50 Jos siis X~ÊN(µ,σ 2 ), niin P(X a) =P((X-µ)/σ (a-µ)/σ ) = Φ((a-µ)/σ), ja P(X a)=1-p(x a) =1-P((X-µ)/σ (a-µ)/σ ) = 1-Φ((a-µ)/σ) P(a X b)=p(x b)-p(x a) =P((X-µ)/σ (b-µ)/σ) -P((X-µ)/σ (a-µ)/σ) = Φ((b-µ)/σ)-Φ((a-µ)/σ). Esim. 3.5.16. Tehdas valmistaa sšhkšlamppuja, joiden kšyttšikš vaihtelee tavalla, joka on hyvin luonnehdittavissa normaalijakauman avulla. Valmistettavien lamppujen keskimššršinen kestoikš on 800 tuntia ja vaihtelua esiintyy niin, ettš keskihajonta on 40 tuntia. a) MillŠ todennškšisyydellš valmistettavien lamppujen joukosta satunnaisesti valittu lamppu kestšš všhintššn 700 tuntia mutta korkeintaan 850 tuntia? b) MikŠ on sellainen arvo, jonka alle lampun kestoikš jšš 0.25 suuruisella todennškšisyydellš? c) MikŠ on sellainen arvo, jonka yli lamppu kestšš 0.25 suuruisella todennškšisyydellš? (Vast. 0.8882, 773.2, 826.8) (Helenius) Esim. 3.5.17. Laske todennškšisyydet, ettš normaalijakaumassa satunnaismuuttujan arvo on korkeitaan a) hajonnan pššssš odotusarvosta,b) kahden hajonnan pššssš odotusarvosta, c) kolmen hajonnan pššssš odotusarvosta. Normaalijakaumaan liittyviš keskeisiš teoreettisia tuloksia 1) Jos X~ÊN(µ,σ 2 ), niin ax+b~ên(aµ+b,a 2 σ 2 ), (a,b vakioita) 2) Jos X 1, X 2,..., X n ovat riippumattomia ja Xi~ÊN(µ i,σ 2 i ), niin X 1 + X 2 +...+ X n ~ÊN(µ 1 +µ 2 +...+µ n,σ 2 1 +σ2 2 +...+σn 2 ) 3) Keskeinen raja-arvolause: Olkoon X 1, X 2,..., X n riippumattomia satunnaismuuttujia, joista kukin noudattaa omaa jakaumaansa. Olkoon E(X i )=µ i ja 51 yleisten ehtojen vallitessa) satunnaismuuttuja X 1 + X 2 +...+ X n noudattaa likimain normaalijakaumaa (kun n riittšvšn iso) parametrein µ 1 +µ 2 +...+µ n ja σ 1 2 +σ2 2 +...+σn 2. Esim. 3.5.18. Olkoon X 1, X 2, X 3, X 4 riippumattomia ja kukin X i ~ÊN(0,1). MŠŠritellŠŠn U=(X 1 + X 2 + X 3 +X 4 )/4. Laske P(U 1). Olkoon X 1, X 2,..., X n riippumattomia ja kukin X i ~ÊN(µ,σ 2 ), niin tšllšin U=(X 1 + X 2 +...+ X n )/n~ên(µ,σ 2 /n). Otoskeskiarvon jakauma on siis normaalijakauma (ks.. otosjakaumat)! Vaikka X i :t eivšt olisikaan normaalisti jakautuneita, niin U olisi likimain normaalisti jakautunut keskeisen raja-arvolauseen perusteella. 52 Var(X i ) = σ i 2, i=1,2,...,n. TŠllšin (hyvin

Binomijakaumaa voidaan approksimoida normaalijakaumalla. Jos X~ÊBin(n,p), niin silloinhan X=X 1 + X 2 +...+ X n, missš X i ~ÊBer(p). Keskeisen raja-arvolauseen mukaan (jos n on riittšvšn suuri) X noudattaa likimain normaalijakaumaa parametrein np ja npq. Approksimaatio on hyvš, jos n on suuri ja p ei ole kovin pieni eikš suuri. Esim. 3.5.19. Henkilš osallistuu tenttiin, jossa sataan všitteeseen vastataan všitteen olevan tosi tai epštosi ja vain toinen vaihtoehto on oikea. Jos henkilš vastaa kaikkiin kohtiin valitsemalla vaihtoehdon aina tšysin satunnaisesti, niin millš todennškšisyydellš hšn saa korkeintaan 60 oikeaa vastausta? (Helenius) Jatkuvuuskorjaus. Ks. Helenius s.252 Esim. 3.5.20. Levykaupan omistaja arvioi, ettš 20% asiakkaista suorittaa ostoksen. Laske todennškšisyys, ettš 180 asiakkaan joukosta ainakin 45 suorittaa ostoksen (binomijakaumaa voidaan approksimoida normaalijakaumalla). (Newbold) 53 Esim 3.5.21. Muutaman všhšsateisen vuoden jšlkeen tietyllš alueella epšillššn sššolosuhteissa tapahtuneen pysyvšnluonteinen muutos. Vuotuisen sademššršn keskiarvoksi 100 vuoden ajalta oli saatu 42.26 tuumaa ja keskihajonnaksi 6.11 tuumaa. LisŠksi vuotuinen sademššrš oli vaihdellut tavalla, jota voidaan luonnehtia normaalijakaumalla. Viimeisen viiden vuoden sademššršn keskiarvoksi oli saatu 35.72 tuumaa. MillŠ todennškšisyydellš nšin paljon lukua 42.26 pienempi keskiarvo olisi odotettavissa, mikšli viiden viimeisen vuoden havainnon tulkitaan olevan yksinkertainen satunnaisotos normaalijakaumasta odotusarvona 42.26 ja keskihajontana 6.11? (Helenius) Esim. 3.5.22. Oletetaan, ettš opiskelijoiden ŠlykkyysosamŠŠrŠ ~ N(µ,225). Kuinka suuri otos tarvitaan, kun halutaan, ettš otoskeskiarvo poikkeaa µ:stš korkein ±2 pistettš todennškšisyydellš 0.99? 54 4. OTOS, OTOSSUURE, OTANTAJAKAUMA Kun populaation on hyvin suuri tai ŠŠretšn ei tietenkššn voida tutkia koko populaatiota. TŠllšin tilastolliset johtopšštelmšt, jotka koskevat populaation l. perusjoukon (ŠŠrellinen tai ŠŠretšn) ominaisuuksia tehdššn otoksen avulla. Jotta erilaisten otoksesta laskettujen tunnuslukujen luotettavuutta voidaan arvioida otos valitaan poimimalla se todennškšisyysotannalla. TodennŠkšisyysotannassa kaikki mahdolliset n alkion otokset voidaan luetella, tunnetaan jokaisen mahdollisen otoksen poimintatodennškšisyys ja otokset poimitaan nšiden todennškšisyyksien mukaan sekš tiedetššn, miten otoksen perusteella yleistetššn tulokset koko populaatioon. Jatkossa tarkastellaan pššosin vain yksinkertaisella satunnaisotannalla tehtyyn otokseen liittyviš tuloksia. LisŠksi ollaan kiinnostuneita vain yhdestš populaation alkioihin liittyvšstš ominaisuudesta, 55 muuttujasta. Yksinkertainen satunnaisotos (YSO) poimitaan siten, ettš jokaisella n alkion suuruisella otoksella on yhtš suuri todennškšisyys tulla poimituksi. KŠytŠnnšssŠ ei muodosteta kaikkia n alkion osajoukkoja, joista sitten satunnaisesti valitaan yksi, vaan alkiot poimitaan yksi kerrallaan kunnes otoskoko on n. YSO voidaan tehdš joko palauttamatta tai palauttaen. 4.1. SATUNNAISOTOS Olkoon X 1, X 2,..., X n n:n satunnaismuuttujan jono. TŠtŠ jonoa sanotaan satunnaisotokseksi, jos X i :t ovat riippumattomia (merk.æ) ja noudattavat samaa jakaumaa. Sanonta ÒX 1, X 2,..., X n on satunnaisotos N(µ,σ 2 ):staó tarkoittaa sitš, ettš jokainen X i ~ÊN(µ,σ 2 ) ja X i :t ovat riippumattomia. 56

Kun ŠŠrettšmŠstŠ populaatiosta tehdššn otanta yksinkertaisella satunnaisotannalla (palauttaen tai palauttamatta) ja tarkastellaan yhtš tiettyš muuttujaa (tilastoyksikšn ominaisuutta), on kyse satunnaisotoksesta. Jos populaatio on ŠŠrellinen YSO palauttaen johtaa satunnaisotokseen, mutta palauttamatta ei, koska riippumattomuusoletus ei ole voimassa. Kuitenkin, jos populaatio on suuri YSO palauttamattakin johtaa lšhes riippumattomiin satunnaismuuttujiin. Satunnaisotos mššritellššn siis satunnaismuuttujien perusteella. NŠmŠ satunnaismuuttujat saavat arvot, kun otos on tehty. Siis otoksen tekemisen jšlkeen satunnaisotokselle saadaan arvot, jotka vaihtelevat otoksesta toiseen. Satunnaismuuttujista muodostetut funktiot kuten summat, tulot, jne. ovat myšs satunnaismuuttujia (esim. otoskeskiarvo, otosmaksimi, kruunujen lukumššrš 57 heittosarjassa). TŠten myšs satunnaisotoksesta muodostetut funktiot ovat satunnaismuuttujia. Esim. 4.1.1. Otoskeskiarvo X=(X 1 +X 2 +...+X n )/n on satunnaismuuttuja, joka saa arvon kun otos on tehty. Arvo vaihtelee otoksesta toiseen. Esim. 4.1.2. Olkoon X~ÊN(1,25). MikŠ on 10X:n jakauma? Laske P(0 X 5) ja P(0 10X 5). Esim. 4.1.3. Mutterin halkaisija X~ÊN(100,1). Valmistuvat mutterit saavat poiketa odotusarvosta korkeintaan yhden yksikšn verran. Laske todennškšisyys, ettš 10 alkion satunnaisotoksessa kaikki alkiot ovat hyvšksyttšviš. (Liski&Puntanen) 4.2. OTOSSUUREET JA OTOSJAKAUMAT Satunnaisotoksen avulla mššriteltyš funktiota, joka siis on satunnaismuuttuja, kutsutaan otossuureeksi. Koska otossuure on 58 satunnaismuuttuja, liittyy siihen todennškšisyysjakauma. Otossuureen todennškšisyysjakaumasta kšytetššn nimitystš otanta- tai otosjakauma. KŠyttškelpoisia otossuureita esim. otoskeskiarvo, otosvarianssi, otosmaksimi, prosenttiosuus otoksessa... Tarkasteltavan otossuureen todennškšisyysjakauma pyritššn mššrittšmššn, jolloin saadaan selville miten otossuure voi vaihdella otoksesta toiseen. TŠmŠ auttaa taas, kun olemme kiinnostuneita populaatioon liittyvistš arvioista perustaen arviot otokseen. Joidenkin otossuureiden otosjakaumia: 1) Otoskeskiarvon jakauma riippuen otantamenetelmšstš ja populaatiosta. 2) Viallisten %-osuus otoksessa 3) Olkoon satunnaisotos X 1, X 2,..., X n Tas(0,1):sta (siis jokainen X i ~ÊTas(0,1) ja X i :t ovat riippumattomia). MŠŠritellŠŠn otossuure 59 U= max{x i }. TŠssŠ tilanteessa voidaan otosjakauma mššrittšš tšsmšllisesti. 4) Olkoon X 1, X 2,..., X n satunnaisotos jakaumasta, jonka odotusarvo µ on ja varianssi σ 2. TŠllšin tiedetššn, ettš E(X) = µ ja Var (X) =σ 2 /n. Otoskeskiarvon jakauma tunnetaan esim. silloin kun, otos on normaalijakaumasta. Jos X 1, X 2,..., X n on satunnaisotos N(µ,σ 2 ):sta, niin tšllšin X ~ÊN(µ,σ 2 /n). LisŠksi voidaan keskeisen raja-arvolauseen perusteella sanoa, ettš (otoskoon ollessa riittšvšn suuri) otoskeskiarvo on likimain normaalisti jakautunut, vaikka satunnaisotos olisi peršisin jostain muusta kuin normaalijakaumasta. Otoskeskiarvon hajontaa sanotaan otoskeskiarvon keskivirheeksi. 60

Esim. 4.2.1. Olkoon satunnaisotos X 1, X 2,..., X 10 normaalijakaumasta parametrien 0 ja 1. Laske P(-1 X 1 1) ja P(-1 X 1). Esim. 4.2.2. Olkoon tentin tulos sekš miesettš naisopiskelijoilla ~ÊN(20,25). TehdŠŠn mies- ja naisopiskelijoista 25 alkion sat. otokset. Laske todennškšisyys, ettš naisten pistekeskiarvo on ainakin 2 pistettš suurempi kuin miesten. (Liski&Puntanen) Esim. 4.2.3. Olkoon X 1, X 2,..., X n satunnaisotos N(µ 1,σ 1 2 ):sta ja Y1, Y 2,..., Y m on satunnaisotos N(µ 2,σ 2 2 ) :sta. MŠŠritŠ X Y :n jakauma. 61 5. PARAMETRIEN ESTIMOINTI 5.1. PISTE-ESTIMOINTI Estimointi on populaation tuntemattoman parametrin arviointia sopivan otossuureen avulla. NŠin tehtšessš puhutaan pisteestimoinnista. Esimerkiksi voidaan estimoida populaation odostusarvoa otoskeskiarvolla, populaation varianssia otosvarianssilla. Esim. 5.1.1. Olkoon populaatiossa π % viallisia. PyritŠŠn arvioimaan π:tš otoksen perusteella. Olkoon X 1, X 2,..., X n satunnaisotos ko. populaatiosta. MŠŠritellŠŠn X i = 1, jos alkio viallinen = 0, jos alkio viaton. NŠin siis X i ~ÊBer(π/100), jolloin E(X i )=π/100 ja Var(X i ) =(1-π/100)π/100. Viallisten kokonaislukumššrš otoksessa on X=X 1 +X 2 +...+ X n. 62 Luonnollinen arvio π:lle olisi vastaava luku otoksessa eli viallisten prosenttiosuus otoksessa p =100X/n=100(X 1 +X 2 +...+ X n )/n. Kun p on otossuure, jolla estimoidaan π:tš; sanotaan, ettš p on π:n estimaattori. Kun otos on tehty, voidaan p:lle laskea arvo eli estimaatti. Otossuureen p odotusarvo ja varianssi: E(p)= Var(p)= 63 Esim. 5.1.2. TehdŠŠn 205 alkion satunnaisotos aikuisopiskelijoista. HeistŠ 53% aikoo ostaa autoon renkaat seuraavan vuoden kuluessa. Jos populaatiossa renkaiden ostajien osuus oletetaan olevan 50%, niin mikš on todennškšisyys sille, ettš satunnaisotoksessa ostajien osuus on 53% tai suurempi. (Newbold) Yksi tapa estimoida populaation parametri onkin tehdš se otoksesta lasketun vastaavan tunnusluvun avulla (analogiaperiaate): 64 Koska E(p)=π, niin sanotaan, ettš p on π:n harhaton estimaattori. Harhattomuus tarkoittaa siis sitš, ettš estimaattori antaa keskimššrin oikeita arvoja. Otossuureen p hajontaa sanotaan otoksen prosenttiosuuden keskivirheeksi. estimoitava parametri odotusarvo populaation varianssi populaation mediaani viallisten %-osuus populaatiossa estimaattori otoskeskiarvo otosvarianssi otosmediaani viallisten %-osuus otoksessa Keskeisen raja-arvolauseen perusteella voidaan sanoa, ettš p ~ÊN(π,(π(100-π)/n),likimain. Saatiin siis selville otossuureen p otosjakauma. On tietysti monenlaisia muitakin otossuureita, joita voidaan kšyttšš parametrien estimoinnissa. Estimaattorille voidaan asettaa erilaisia vaatimuksia. Harhattomuus on usein toivottu ominaisuus.

Olkoon θ populaation tuntematon, estimoitava parametri ja ˆθ sen estimaattori. TŠllšin sanotaan, ettš ˆθ on θ:n harhaton estimaattori, jos E( ˆθ)=θ. Harhattomuuden lisšksi estimaattorilla toivotaan olevan pienin mahdollinen varianssi. Jos estimaattori on harhaton ja sillš on pienin varianssi parametrin kaikkien harhattomien estimaattoreiden joukossa, sanotaa estimaattoria harhattomaksi minimivarianssiseksi estimaattoriksi eli tehokkaimmaksi estimaattoriksi. Kahdesta parametrin harhattomasta estimaattorista on tehokkaampi se, jolla on pienempi varianssi. Otoskoon kasvaessa toivotaan estimoinnin tarkentuvan eli estimaattorin jakauman keskittyvšn yhš tiiviimmin estimoitavan parametrin ympšrille. Jos estimaattorin varianssi lšhenee nollaa otoskoon kasvaessa rajatta, sanotaan, ettš estimaattori on tarkentuva. Luonnollinen vaatimus tietenkin estimaattorille on myšs se, 65 ettš kšytetššn kaikki otoksessa oleva informaation hyvšksi. Esim. 5.1.3. Olkoon X 1, X 2,..., X n satunnaisotos Tas(0,θ):stŠ. Halutaan estimoida jakauman ylšrajaa θ. TŠllšin 2X ja 2X 1 ovat harhattomia θ:n estimaattoreita, mutta Var(2X)<Var(2X 1 ), kun n>1. (Liski&Puntanen) Esim. 5.1.4. Otoskeskiarvo X on jakauman odotusarvon µ harhaton estimaattori, koska E(X) = µ. Aiemmin on myšs todettu, ettš Var (X) =σ 2 /n. LisŠksi voidaan osoittaa, ettš normaalijakauman tapauksessa µ:n harhattomien estimaattoreiden joukossa, otoskeskiarvolla on pienin varianssi. Esim. 5.1.5. Olkoon X 1, X 2,..., X n satunnaisotos populaatiosta, jonka varianssi on σ 2. Voidaan osoittaa, ettš otosvarianssi s 2 = 1 n 1 n i=1 ( X i X) 2 on σ 2 :n harhaton estimaattori eli E(s 2 ) =σ 2. 66 Vaikka otosvarianssi onkin populaation varianssin harhaton estimaattori, niin otoshajonta ei yleensš ole populaation hajonnan harhaton estimaattori. On olemassa tietysti monenlaisia estimointimenetelmiš edellš esitellyn lisšksi, mm. pienimmšn nelišsumman menetelmš, maximum likelihood -menetelmš. 5.2. LUOTTAMUSV LEJ Piste-estimointi tuottaa siis (otoksen teon jšlkeen) yhden luvun, jolla arvioidaan estimoitavaa parametria. Estimointiin liittyy tietysti aina epšvarmuutta. Usein halutaankin mššrštš yksittšisen arvon sijaan všli, jolla arvellaan tuntemattoman parametrin olevan. TŠllšin puhutaan všliestimoinnista. VŠliestimoinnissa muodostetaan nk. luottamusvšli vastaavan piste-estimaattorin ja piste-estimaattorin otantajakauman keskihajonnan eli estimaattorin keskivirheen avulla. 67 Olkoon A ja B satunnaisotoksen perusteella mššriteltyjš satunnaismuuttujia. VŠli (A,B) on parametrin θ 100(1-α)%:n luottamusvšli, jos P(A θ B)=1-α. KyseessŠ on siis satunnaisvšli, joka sisšltšš populaation tuntemattoman estimoitavan parametrin todennškšisyydellš 1-α. Kun otos on tehty, voidaan A:lle ja B:lle laskea arvot. NŠin saadaan všli (a,b), joka joko sisšltšš parametrin θ tai ei sisšllš. VŠlistŠ (a,b) kšytetššn myšs nimitystš luottamusvšli. Koska pššttely halutaan tehdš melko suurella varmuudella, valitaan α esim. 0.10, 0.05, 0.01; on kyse 90%:n, 95%:n tai 99%:n luottamusvšleistš. MŠŠritellŠŠn kšyttškelpoinen merkintš. Olkoon Z ~ N(0,1). MŠŠritellŠŠn z α siten, ettš P(Z z ) α = α. Samoin z α/2 siten, ettš P(Z z ) α/2 = α/2. Esimerkiksi z = 1.64 ja 0.05 z 0.05/2 = z 0.0025 = 1.96. Graafisesti: 68

69 70 1. Populaation odotusarvon luottamusvšli Halutaan arvioida poikien keskimššršistš syntymšpituutta. Otoksessa 65 pojan syntymšpituuden keskiarvo oli 50,95 cm ja keskihajonta 1.97 cm (SAIDIT - aineisto). Miten voisi arvioida poikapopulaation keskiarvoa? Seuraavaksi arvioidaan normaalijakauman odotusarvoa, kun tunnetaan populaation varianssi. (NŠinhŠn ei tietysti voitu edellš poikien keskipainon arvioinissa edellš olettaa!) Olkoon nyt X 1, X 2,..., X n satunnaisotos N(µ,σ 2 ):sta, missš σ 2 tunnettu. TŠllšin Z = X µ σ / n ~N(0,1), jolloin P 1. 96 X µ 1. 96 σ / n = 0.95 Kirjoittamalla lausuttu tapahtuma toiseen muotoon saadaan P( X 1. 96σ / n µ X + 1. 96σ / n) = 0.95 Voidaan sanoa, ettš epšyhtšlšt toteutuvat todennškšisyydellš 0.95. VŠliŠ ( X 1. 96σ / n,x + 1. 96σ / n) sanotaan µ :n 95%:n luottamusvšliksi. LuottamusvŠlin mššritelmšssš X on siis satunnaismuuttuja, jonka arvot vaihtelevat otoksesta toiseen. Havaitun otoksen perusteella saadaan kiinteš všli, jota myšs kutsutaan luottamusvšliksi. TŠmŠn sššnnšn mukaan laskettu všli pitšš sisšllššn 95 %:n todennškšisyydellš tuntemattoman populaatiokeskiarvon µ. Poimittaessa monta otosta ja laskettaessa joka kerta edellš esitetty luottamusvšli, niin luottamusvšleistš n. 95 % on sellaisia, jotka sisšltšvšt µ:n. Vastaavalla tavalla kuin 95 %:n luottamusvšli, voidaan muodostaa vaikkapa 90 %:n ja 99 %:n luottamusvšlit. Yleisesti, jos 0< α <1 ( tavallisesti 0.1, 0.05, 0.01), niin 100(1-α ) %:n luottamusvšli populaation odotusarvolle µ, kun varianssi tunnettu, on X ± z α/2 σ / n Esim. 5.2.1. Oletetaan, ettš henkilšltš otetusta yhdestš verinšytteestš suoritetut toistuvat kolesteroliarvojen mššritykset erilaisista mittausvirheistš johtuen noudattavat likimain normaalijkaumaa, jonka odotusarvo on henkilšn todellinen kolesteroliarvo. Oletetaan lisšksi, ettš mššrittšmiseen liittyen vaihtelun tiedetššn keskihajonnan avulla ilmaistuna olevan 0.5 yksikšn suuruusluokkaa. NeljŠssŠ mššrityksessš henkilšn kolesteroliarvoiksi saatiin 5.8, 5.7, 4.8, 5.9. MŠŠritŠ všli, jolle henkilšn kolesteroliarvon voidaan arvella kuuluvan. (Helenius) Esim. 5.2.2. TehdŠŠn satunnaisotos N(µ,9):stŠ ja saadaan otoskeskiarvoksi 10. Muodostetaan 90%, 95% ja 99% luottamusvšlit µ:lle, kun otoskoko 10, 50 ja 100. EdellŠ esitetyssš oletettiin, ettš meillš on 71 satunnaisotos normaalijakaumasta, jolloin otoskeskiarvon jakauma on myšs normaalijakauma. EsitettyŠ luottamusvšlin laskukaavaa voidaan kuitenkin kšyttšš otoskoon ollessa suuri siinškin tapauksessa, ettš satunnaisotos on peršisin jostain muusta kuin normaalijakaumasta. TŠllšinhŠn keskeisen raja-arvolauseen perusteella otoskeskiarvon jakauma on likimain normaalijakauma. EdellŠ esitetyssš oletettiin myšs, ettš jakauman varianssi on tunnettu. KŠytŠnnšssŠ harvemmin tietysti populaation varianssia tunnetaan (esim. poikien keskipainon arviointi.) TŠllšin se onkin estimoitava otoksen perusteella, otosvarianssin avulla. Olkoon nyt siis X 1, X 2,..., X n satunnaisotos N(µ,σ 2 ):sta, missš σ 2 tuntematon. TŠllšin satunnaismuuttuja t = X µ s/ n noudattaa ns. Studentin t-jakaumaa vapausastein n-1. 72

73 74 Studentin t-jakauma, joka mššritellššn nk. vapausastein (df), on jatkuva, origon suhteen symmetrinen jakauma. MerkitŠŠn t df (tai t(df)). Suurilla vapausasteilla t-jakauma lšhestyy standardoitua normaalijakaumaa. Studentin t-jakauman kertymšfunktion arvoja eri vapausastein on taulukoitu. Esim. 5.2.3. P(t 10 >1.812) = 0.05 P(t 20 2.086) = 1-0.025 =0.975 P(t 120-1.98) = 0.025 Olkoon t df Studentin t-jakaumaa noudattava satunnaismuuttuja. MŠŠritellŠŠn tα;df siten, ettš P(t df tα;df)=α ja P(t df tα/2;df)=α/2 Graafisesti: Esim. 5.2.4. t 0.05;10 = 1.812; t 0.05;30 = 1.697; t 0.01;10 = 2.821; t 0.01;30 =2.457 Nyt 100(1- α ) %:n luottamusvšli populaation odotusarvolle µ, kun varianssi tuntematon, on X ± t α/2;n 1 s/ n Vaikka otos ei olisikaan peršisin normaalijakaumasta, voidaan taas riittšvšn suurilla n:n arvoilla luottamusvšli laskea edellš esitetyllš tavalla. Esim. 5.2.5. Halutaan arvioida poikien keskimššršistš syntymšpituutta. Otoksessa 65 pojan syntymšpituuden keskiarvo oli 50,95 cm ja keskihajonta 1.97 cm (SAIDIT - aineisto). Esim. 5.2.6. Esimerkki 5.2.1. olettaen kolesteroliarvon mššrittšmiseen liittyvšn vaihtelun olevan tuntematon. NeljŠssŠ mššrityksessš henkilšn kolesteroliarvoiksi saatiin 5.8, 5.7, 4.8, 5.9. TŠsŠt otoksesta laskettu keskiarvo on 5.55 ja keskihajonta 0.51. MŠŠritŠ všli, jolle henkilšn kolesteroliarvon voidaan arvella kuuluvan. Esim. 5.2.7. TietyssŠ yskšnlšškkeessš pitšisi tuoteselostuksen mukaan olla alkoholia 5 %. TiedetŠŠn, ettš alkoholipitoisuus vaihtelee jonkin verran pullosta toiseen. TietyssŠ laboratorioissa halutaan tutkia voidaanko valmistajan ilmoittamaa lukua pitšš sopivana keskiarvona eri pullojen alkoholipitoisuudelle. LŠhdetŠŠn oletuksesta, ettš alkoholipitoisuuden vaihtelu pullosta toiseen on luonnehdittavissa normaalijakauman avulla. Suoritettiin koe, jossa kymmenen pullon alkoholipitoisuus mitattiin ja saatiin seuraavat tulokset: 5.01, 4.87, 5.11, 5.21, 5.03, 4.96, 4.78, 4.98, 4.88 ja 5.06. Onko valmistajan všittšmššn uskomista? (Helenius) Esim 5.2.8. Luottokorttiyhtiš haluaa arvioida paljonko keskimššrin kuukaudessa ostetaan luottokortilla. Kahdentoista kuukauden kuukausiostosten keskiarvot (yhtš korttia kohden, dollareina) olivat 91.21, 98.26, 143.62, 65.93, 95.08, 159.11, 34.27, 127.26, 211.87, 53.91, 139.53, 87.80. Muodosta 95%:n luottamusvšli keskimššršiselle kuukausiostoksen suuruudelle. (Vast. (77.45, 140.53)).(Newbold) 75 2. Prosentuaalisen osuuden luottamusvšli Puolue haluaa arvioida kannatusprosenttinsa ja kysyy sadalta kansalaiselta mielipidettš. Sadan vastaajan joukossa on kannattajia 25%. Todellista kannatusprosenttia π ei siis tiedetš, mutta sitš voidaan arvioida muodostamalla luottamusvšli. Olkoon populaatiossa π % viallisia. Halutaan arvioida tštš lukua π satunnaisotoksen (otoskoko n) perusteella. Olkoon p = viallisten prosenttiosuus otoksessa. Nyt p ~ÊN(π,π(100-π)/n) (likimain), joten p π Z = ~N(0,1) (likimain). π(100 π)/n TŠmŠn perusteella saadaan (menetellen kuten odotusarvon luottamusvšlin yhteydessš ja korvaamalla p:n hajonnassa π estimaattorillaan p) 100(1- α ) %:n luottamusvšli π:lle: p ± z α/2 p(100 p) / n 76

Esim. 5.2.9. Yritys tekee tiettyš komponenttia, jota kšytetššn auton moottorissa. Yritys valvoo tuotantoaan; virheellisten komponenttien osuus ei saisi olla suurempi kuin 4 %. Laaduntarkkailussa tehtiin 500 komponentin otos, jossa 28 komponenttia osoittautui virheellisiksi. Voidaanko pšštellš, ettš prosessi tuottaa virheellisiš komponentteja yli sallitun rajan? Perustele pšštelmšsi. Esim. 5.2.10. Ruotsin EU-ŠŠnestyksen yhteydessš 13.11.1994 tehtiin nk. ovensuukysely, jossa 5000 ŠŠnestŠjŠltŠ kysyttiin miten hšn ŠŠnesti. HeidŠn joukossaan EU:hun liittymisen puolesta ŠŠnestŠneitŠ oli 57.6 %. Jos tšmšn kyselyn perusteella olisit arvioinut vaalitulosta, niin millš všlillš olisit arvellut ŠŠnestystuloksessa kannattajien osuuden olevan? KyllŠ-ŠŠniŠ annettiin 52.2 %. Miten ovensuukyselyn perusteella onnistuttiin ennustamaan kannattajien mššršš? 77 Esim. 5.2.11. Aamulehti 6.1.2000: Aho nousee vahvasti, Uosukaisen luvut laskevat rajusti. Ò... MTV 3:n keskiviikkona julkistamassa, Research International - tutkimuslaitoksella teetetyssš gallupissa Aho noussut selvšsti presidenttikisan kšrkeen 37 prosentin kannatuksellaan. Halonen seuraa tiukasti Ahon kannoilla 32 prosentin kannatuksella.... Tutkimukseen vastasi 2012 ihmistš.... Virhemarginaali on kaksi prosenttiyksikkšš molempiin suuntiin.ó Miten virhemarginaali on laskettu? Presidentin vaalin 1. kierroksella Aho sai ŠŠnistŠ 34.6% ja Halonen 40.0%. 3. Kahden populaation odotusarvojen erotuksen luottamusvšli Jos halutaan selvittšš, ovatko pojat ja tytšt syntyessššn keskimššrin saman pituisia, niin tehdššn tyttš- ja poikapopulaatioista satunnaisotokset ja arvioidaan otoskeskiarvojen avulla kahden populaation 78 odotusarvojen yhtšsuuruutta. KŠytŠnnšssŠ populaatioiden varianssitkin ovat tuntemattomia, mutta lšhdetššn liikkeelle olettaen ne tunnetuiksi. Olkoon X 1, X 2,..., X n satunnaisotos N(µ 1,σ 2 1 ):sta ja olkoon Y 1, Y 2,..., Y m satunnaisotos N(µ 2,σ 2 2 ):sta, missš σ 1 ja σ 2 tunnettuja sekš satunnaisotokset toisistaan riippumattomia. TŠllšin X Y ~ N(µ 1 -µ 2, σ 2 1 /n+σ 2 2 /m), johon perustuen odotusarvojen erotuksen µ 1 - µ 2 100(1- α ) %:n luottamusvšli on 2 σ X Y z 1 α/2 n + σ 2 2 2 m,x Y + z σ 1 α/2 n + σ 2 2 m KŠytŠnnšssŠ tietysti tilanne on sellainen, ettš populaatioiden variansseja ei tunneta. Olettaen varianssit tuntemattomiksi, mutta yhtš suuriksi voidaan otoskeskiarvojen erotuksen varianssia estimoida otosvarianssien avulla ja saadaan odotusarvojen erotuksen µ 1 - µ 2 100(1- α )%:n 79 luottamusvšli X Y ± t α/2;n+m 2 s 1 n + 1 m missä s 2 = (n 1)s 2 2 X + (m 1)s Y n + m 2 Suurten otosten tapauksessa tuloksia voidaan kšyttšš myšs muidenkin kuin normaalijakaumien yhteydessš. Jos populaatioiden varianssit ovat tuntemattomia eikš ole perusteltua olettaa yhtš suuruutta, niin silloin suurten otosten tapauksessa on mahdollista muodostaa odotusarvojen erotukselle luottamusvšli, jonka mššritys riippuu populaatio-oletuksista. (Ks. Helenius s. 315-316) Esim. 5.2.12. Ovatko tytšt ja pojat syntyessššn keskimššrin samanpituisia? Ks. Esim. 2. 80