Luku 8 Tilastolliset luottamusvälit Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017 8.1 Piste-estimaatti ja väliestimaatti Edellisessä luvussa opittii määrittämää parametreille estimaatteja suurimma uskottavuude meetelmällä. Yleisesti parametri piste-estimaatti o joki havaitusta datasta laskettu arvio tutemattomalle parametrille. Käytäössä piste-estimaatti kuiteki lähes aia poikkeaa joki verra estimoitava parametri todellisesta arvosta. Tästä syystä o usei tarpee määrittää arvio myös estimaati tarkkuudelle. Parametri väliestimaatti o joki havaitusta datasta laskettu lukuväli, joho tutemattoma parametri uskotaa kohtuullisella varmuudella sisältyvä. Alla o kaksi esimerkkitilaetta, joissa piste-estimaati havaitu datajouko keskiarvo) rialle haluttaisii määrittää väliestimaatti kuvastamaa piste-estimaati tarkkuutta. Esimerkki 8.1 Kahviautomaatti). Haluttii selvittää, kuika paljo kahvia kahviautomaatti keskimääri laskee yhtee kupillisee. Kahviautomaati toimitaa testattii valuttamalla automaatista 25 kupillista ja mittaamalla kahvi määrät kupeissa yksikköä cl. Mittauksessa havaittii arvot: x = 10.17, 11.23, 9.59, 8.94, 10.14, 9.66, 10.22, 9.59, 11.11, 9.94, 9.76, 9.92, 10.43, 10.05, 9.19, 10, 10.38, 10.02, 10.37, 9.93, 9.97, 10.24, 10.5, 9.38, 9.98) Mittausdata keskiarvo o mx) = 10.03. Oko kahviautomaati valuttamie kahvimäärie todellie keskiarvo µ lähellä lukua 10.03? Esimerkki 8.2 Suomalaiste keskipituus). Ku satuaisotaalla valitu 2500 suomalaise aikuise pituudet mitattii, saatii keskiarvoksi 170.9 cm ja otoskeskihajoaksi 11.42 cm. Mitä voidaa tämä mittaukse perusteella saoa kaikkie suomalaiste aikuiste keskipituudesta? 82
8.2 Normaalimalli odotusarvo väliestimaatti Normaalimalli tarkoittaa oletusta, että datalähtee tuottamat arvot X 1, X 2,... ovat stokastisesti riippumattomia ja ormaalijakautueita odotusarvoa µ ja keskihajotaa σ. Edellisessä luvussa fakta 7.6) johdettii ormaalimalli odotusarvoparametri µ suurimma uskottavuude estimaatiksi havaitu datajouko keskiarvo mx) = 1 x i. Esimerkissä 8.1 saatii kahviautomaati tuottamie kahvimäärie odotusarvo piste-estimaatiksi mx) = 10.03. Jos sama mittaus toistettaisii uudellee, saataisii hyvi todeäköisesti aiemmasta poikkeava piste-estimaatti. Datalähtee stokastise malli luottamusväli luottamustasolla α o havaitusta datajoukosta x = x 1,..., x ) laskettu väliestimaatti [â, ˆb], missä rajat o laskettu käyttämällä estimaattoreita ax) ja bx) site, että jos väliestimaatti laskettaisii uudellee datalähtee mukaa jakautueelle datajoukolle X = X 1,..., X ), ii väli [âx), ˆbX)] peittää tutemattoma parametri todeäköisyydellä α. Fakta 8.3. Normaalimalli odotusarvoparametri µ luottamusväli luottamustasolla 95% saadaa kaavasta i=1 mx) ± z σ, missä mx) = 1 i=1 x i o havaitu datajouko keskiarvo, σ o ormaalimalli keskihajota ja z o luku, jolle ormitettua ormaalijakaumaa oudattava satuaismuuttuja Z toteuttaa P Z z) = 95%. Todistus. Jos voidaa olettaa, että tarkasteltava datalähde käyttäytyy ormaalimalli mukaisesti, voidaa stokastiika meetelmie avulla eustaa todeäköisyys, jolla uudesta mittauksesta saatavista arvoista X 1,..., X ) laskettu keskiarvo X = 1 X i o lähellä ormaalimalli todellista parametria µ. Keskeie havaito o, että ormaalimallista laskettu X o satuaismuuttuja, joka oudattaa ormaalijakaumaa odotusarvoa µ ja keskihajotaa σ/. Tästä seuraa, että satuaismuuttuja Z = X µ σ/ oudattaa ormitettua ormaalijakaumaa, jolloi todeäköisyys, jolla X sisäl- i=1 83
tyy välille [µ δ, µ + δ] o P X = µ ± δ ) = P µ δ X µ + δ ) = P δ X µ δ ) = P δ σ/ X µ σ/ δ ) σ/ = P δ σ/ Z δ ) σ/. Ku ylläolevaa kaavaa sijoitetaa δ = z σ, saadaa P X = µ ± z σ ) = P z Z z) = 0.95. Tästä seuraa väite. Allaoleva taulukko paiottaa havaitu datajouko ja stokastise malli tuottama satuaise hypoteettise datajouko eroa. Datajoukko x = x 1,..., x ) Stokastie malli X = X 1,..., X ) Koostuu mittaamalla havaituista luvuista Määrittämisee ei tarvita mitää matemaattista mallia Esim. kahviautomaati kolme mittausta x 1, x 2, x 3 ) = 10.17, 11.23, 9.59) Koostuu valittuu matemaattisee mallii liittyvistä satuaismuuttujista Määrittämisee ei tarvita laikaa dataa Esim. X 1, X 2, X 3 ) ovat riippumattomia ormaalijakautueita satuaismuuttujia odotusarvoa µ ja keskihajotaa σ Esimerkki 8.4 Kahviautomaatti). Haluttii selvittää, kuika paljo kahvia kahviautomaatti keskimääri laskee yhtee kupillisee. Kahviautomaati toimitaa testattii valuttamalla automaatista 25 kupillista ja mittaamalla kahvi määrät kupeissa yksikköä cl. Mittauksessa havaittii arvot: x = 10.17, 11.23, 9.59, 8.94, 10.14, 9.66, 10.22, 9.59, 11.11, 9.94, 9.76, 9.92, 10.43, 10.05, 9.19, 10, 10.38, 10.02, 10.37, 9.93, 9.97, 10.24, 10.5, 9.38, 9.98) Mittausdata keskiarvo o mx) = 10.03 ja datalähtee keskihajoa tiedetää oleva σ = 0.5. Oko kahviautomaati valuttamie kahvimäärie todellie keskiarvo µ lähellä lukua 10.03? Vastaa kysymyksee määrittämällä 95% luottamusväli. Fakta 8.3 mukaa parametri µ 95% luottamusväliksi saadaa mx) ± z σ = 10.03 ± 0.2 = [9.83, 10.23]. 84
Ylläolevassa esimerkissä havaitusta datajoukosta x laskettu parametri µ piste-estimaatti o mx) = 10.03 parametri µ väliestimaatti o mx) ± 0.2 = [9.83, 10.23] Voidaako päätellä, että väli [9.83, 10.23] peittää µ: 95% t:llä? Ei voida. Jo havaitusta datasta lasketulle lukuvälille ei luottamusväli kerro mitää, vaa luottamusväli auttaa eustamaa, millä todeäköisyydellä uudesta datajoukosta laskettu luottamusväli peittäisi kyseise parametri, olettae että datalähde oudattaa valittua stokastista mallia. Hekilö, joka laskee paljo estimaatteja yo. tyyppisestä datalähteestä käyttäe kaavaa x mx) ± 0.2: Tietää, että 95% lasketuista estimaateista peittää tutemattoma parametri µ mutta ei tiedä, mitkä iistä) Tietää, että 5% lasketuista estimaateista ei peitä µ:tä mutta ei tiedä, mitkä iistä) Allaolevassa kuvassa o 100 väliestimaattia ormaalimallista keskihajotaa σ = 0.5. Jokaie palkki esittää väliestimaattia, joka leveys o 0.4 ja sijaiti o laskettu 25 satuaisluvu keskiarvoa. Siisellä merkityt palkit peittävät tutemattoma odotusarvoparametri µ, joka tässä esimerkissä oli 10. Puaisella merkityt palkit eivät peitä. Siiste palkkie osuus o 96/100. Jos väliestimaattie lukumäärää kasvatettaisii sadasta suuremmaksi, saataisii suurilla arvoilla siiste palkkie osuus lähelle teoreettista raja-arvoa 95%. 9.5 10.0 10.5 8.3 Yleise malli odotusarvo luottamusväli Yleie stokastie malli: X 1, X 2,... riippumattomia odotusarvoa µ tutemato), jakauma yleie. Parametri µ piste-estimaatti o mx) ei välttämät- 85
tä suurimma uskottavuude estimaatti, mutta harhato). Likiarvoise 99% luottamusväli määrittämie: 1. Lasketaa havaitusta datasta keskiarvo mx) ja otoskeskihajota sx) 2. Määritetää luku z > 0, jolle P Z z) = 1 2Φ z) = 0.99 = z = Φ 1 1 0.99 2 ) 2.58 3. Asetetaa parametri µ luottamusväliksi mx) ± z sx)/ Ylläoleva meetelmä tuottaa likiarvoise luottamusväli odotusarvolle. Se luottamustaso ei ole täsmällee 99%, mutta suurilla : arvoilla luottamustaso o likimai 99%. Tämä perustuu siihe, että suurille datajoukoille iso) pätee keskeise raja-arvolausee ja k. Slutsky lemma ojalla P mx) µ z sx) ) ) mx) µ P σ/ z P Z z) = 99%. 8.4 Biaarimalli parametri estimoiti Esimerkki 8.5 Mielipidemittaus). Erää suuriväkilukuise valtio ääioikeutetuista valittii satuaisotaalla = 2000 hekilöä ja heiltä kysyttii, aikovatko ääestää ykyistä presidettiä seuraavissa presidetivaaleissa 0=Ei, 1=Kyllä). Vastaeista 774 vastasi kyllä. Määritä piste-estimaatti ja 95% luottamusväli presideti kaatusosuudelle p koko populaatiossa. Ylläolevaa kysymyksee vastaamiseksi tarvitaa mielipidemittaukse tuloksille stokastie malli. Ku satuaisotokse koko o piei suhteessa koko tutkittavaa populaatioo, voidaa yksittäiste hekilöide vastaukset olettaa toisistaa riippumattomiksi. Tällöi mielipidemittaukse tulos X = X 1,..., X 2000 ) ee tuloste havaitsemista) oudattaa likimai biaarimallia, jossa satuaismuuttujat X 1, X 2,... ovat riippumattomia ja {0, 1}-arvoisia, tiheysfuktioa { 1 p, x = 0, fx p) = 8.1) p, x = 1. Ylläoleva tiheysfuktio määrittämä jakauma o Beroulli-jakauma parametria p sekä erikoistapaus biomijakaumasta parametreia = 1 ja p. Jakauma tutemato parametri p vastaa ykköste esimerkissä 8.5 kyllä-ääte) osuutta koko populaatiossa. Beroullijakauma tiheysfuktio 8.1) voidaa kirjoittaa kompaktissa muodossa fx p) = 1 p) 1 x p x, joka avulla biaarimalli uskottavuusfuktio havaitu datajouko x 1,..., x ) suhtee saadaa muotoo Lθ) = fx 1 p) fx p) = 1 p) 1 x i p x i. 86 i=1
Tätä vastaava logaritmie uskottavuusfuktio voidaa sievetää muotoo lθ) = 1 x i ) log1 p) + x i logp)) i=1 = 1 mx)) log1 p) + mx) logp), missä mx) = 1 i=1 x i o ykköste suhteellie osuus havaitussa datajoukossa x. Ratkaisemalla yhtälö l p) = 0 havaitaa, että parametri p suurimma uskottavuude estimaatti o mx). Koska mx) o myös datajouko keskiarvo, voidaa luottamusväli määrittämisee soveltaa yleise odotusarvoparametri luottamusväli laskuperiaatetta luku 8.3). Käytäö tilateissa havaitusta datasta yleesä raportoidaa vai luvut ja mx), jolloi keskihajotaa ei voida estimoida kaava ) 1/2 1 sx) = x i mx)) 2 1 i=1 pohjalta. Siiä missä ormaalijakauma määräytyy kahdesta parametrista µ, σ), Beroullijakauma määräytyy yhdestä parametrista p. Ku p:lle o saatu piste-estimaatti ˆp = mx), saadaa tästä estimaatti myös Beroulli-jakauma keskihajoalle sitä ei tarvitse eriksee estimoida havaitu data keskihajoasta sx)). Beroulli-jakautuee X i odotusarvo o imittäi EX i ) = p ja keskihajota σ = SDX i ) = EXi 2) EX i) 2 = p p 2 = p1 p). Beroullijakauma odotusarvo ja keskihajoa piste-estimaateiksi saadaa äi olle ˆp = mx) ja ˆσ = ˆp1 ˆp) = mx)1 mx)) Likiarvoise luottamusväli suuri) määrittämie oistuu biaarimallille seuraavasti: 1. Lasketaa havaitusta datasta keskiarvo mx) = 1 i=1 x i eli ykköste suhteellie osuus. 2. Määritetää Beroulli-jakauma keskihajoa piste-estimaatti ˆσx) = mx)1 mx)) 3. Määritetää luku z > 0, jolle P Z z) = 1 2Φ z) = 0.95 = z = Φ 1 1 0.95 2 ) 1.96 4. Asetetaa parametri p luottamusväliksi mx) ± z ˆσx) 87
Joskus halutaa päätellä luottamusväli leveys ee tilastokokee tekemistä. Koservatiivie väliestimaatti saadaa korvaamalla ˆσx) luvulla 1 max p1 p) = p [0,1] 2 1 1 2 ) = 0.5. Koservatiivise likiarvoise luottamusväli suuri) määrittämie: 1. Lasketaa havaitusta datasta keskiarvo mx) 2. Määritetää luku z > 0, jolle P Z z) = 1 2Φ z) = 0.95 = z = Φ 1 1 0.95 2 ) 1.96 3. Asetetaa p: luottamusväliksi mx) ± z 0.5/ Parametri p koservatiivie likiarvoie luottamusväli o siis mx) ± z 0.5. 95% luottamustaso, ku z = Φ 1 1 0.95 2 ) 1.96 99% luottamustaso, ku z = Φ 1 1 0.99 2 ) 2.58 Koservatiivise likiarvoise 95% luottamustaso mx) ± 1.96 0.5 määrittämisee riittää tietää. Tällöi otokse koko määrittää luottamusväli leveyde: = 1000 = mx) ± 3% = 2000 = mx) ± 2% = 9000 = mx) ± 1% 8.5 Kommetteja Luottamusväli käsittee esitteli puolalaislähtöie tilastotieteilijä Jerzy Neyma 1894 1981) vuoa 1937 artikkelissa Outlie of a theory of statistical estimatio based o the classical theory of probability. 88
Hakemisto Bayesi kaava, 15, 96 Beroulli-jakauma, 57 betajakauma, 100 biomijakauma, 57 biomikerroi, 18 bitti, 42 Chebyshevi epäyhtälö, 49 ekspoettijakauma, 25 etropia, 42 ergodie, 45 erotus, 9 esiityvyysharha, 15 estimaattori, 80 harhato estimaattori, 81 hylkäysalue, 118 hyperparametri, 102 idikaattorifuktio, 26 jakauma, 21 diskreetti, 23 empiirie, 70 jatkuva, 23 kertoma, 17 kertymäfuktio, 22 keskihajota jakauma, 47 satuaismuuttuja, 47 kombiatoriikka, 16 komplemetti, 9 korrelaatio yhteisjakauma, 50 kovariassi yhteisjakauma, 50 leikkaus, 9 lukumäärä listat, 17 osajoukot, 18 lukumäärä, järjestykset, 17 merkitsevyystaso, 115 mitallie fuktio, 33 joukko, 19 mometti, 41 multiomijakauma, 124 ollahypoteesi, 112 ormaalijakauma ormitettu, 62 osajoukko, 8 ositus, 8 osituskaava, 14 otoskeskihajota, 73 otoskorrelaatio, 74 otoskovariassi, 74 p-arvo, 113 perusjoukko, 7 pistemassafuktio, 23 pistetodeäköisyysfuktio, 23 Poisso-jakauma, 24, 67 posteriorijakauma, 96 priorijakauma, 96 reuajakauma diskreetti, 28 jatkuva, 28 reuatiheysfuktio diskreetti, 28 jatkuva, 28 riippumattomat satuaismuuttujat, 30 127
tapahtumat, 12 satuaismuuttuja, 20 diskreetti, 23 sigma-algebra, 19 suppeemie stokastie, 36 suurimma uskottavuude estimaatti, 78 suurte lukuje laki, 36 vahva, 45 diskreetti, 26 jatkuva, 26 tiheysfuktio, 27 tapahtuma, 7 poissulkevat, 8 tasajakauma diskreetti, 24 jatkuva, 24 tiheysfuktio, 23 empiirie, 70 tilastollie merkitsevyys, 113 tilastollie testi, 112 todeäköisyys aksiooma, 10 ehdollie, 12 frekvessitulkita, 38 jakauma, 10 mitta, 10 mootoisuus, 10 summasäätö, 10 tulosäätö, 12 todeäköisyysfuktio, 23 todeäköisyysväli, 109 toteuma, 7 tulojoukko, 9 tyhjä joukko, 9 uskottavuusfuktio, 78, 96 logaritmie, 79 variassi jakauma, 47 satuaismuuttuja, 47 vastahypoteesi, 112 yhdiste, 9 yhteisjakauma, 25 128
Kirjallisuutta [JP04] Jea Jacod ad Philip Protter. Probability Essetials. Spriger, secod editio, 2004. [Kal02] Olav Kalleberg. Foudatios of Moder Probability. Spriger, secod editio, 2002. [Wil91] David Williams. Probability with Martigales. Cambridge Uiversity Press, 1991. 129