Teema 8: Parametrien estimointi ja luottamusvälit

Samankaltaiset tiedostot
Sovellettu todennäköisyyslaskenta B

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Estimointi. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

tilastotieteen kertaus

Tilastollinen aineisto Luottamusväli

Osa 2: Otokset, otosjakaumat ja estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Väliestimointi (jatkoa) Heliövaara 1

Testit laatueroasteikollisille muuttujille

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

9. laskuharjoituskierros, vko 12-13, ratkaisut

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

30A02000 Tilastotieteen perusteet

Sovellettu todennäköisyyslaskenta B

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

Luottamusvälit. Normaalijakauma johnkin kohtaan

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

805306A Johdatus monimuuttujamenetelmiin, 5 op

Sovellettu todennäköisyyslaskenta B

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

dx=5&uilang=fi&lang=fi&lvv=2014

Testejä suhdeasteikollisille muuttujille

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

riippumattomia ja noudattavat samaa jakaumaa.

Sovellettu todennäköisyyslaskenta B

Tilastollisia peruskäsitteitä ja Monte Carlo

Tutkimustiedonhallinnan peruskurssi

Todennäköisyyden ominaisuuksia

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Mat Tilastollisen analyysin perusteet, kevät 2007

Harjoitus 2: Matlab - Statistical Toolbox

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

6. laskuharjoitusten vastaukset (viikot 10 11)

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

D ( ) Var( ) ( ) E( ) [E( )]

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Parametrin estimointi ja bootstrap-otanta

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Jatkuvat satunnaismuuttujat

1. Tilastollinen malli??

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Sovellettu todennäköisyyslaskenta B

4. laskuharjoituskierros, vko 7, ratkaisut

Harjoitus 7: NCSS - Tilastollinen analyysi

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

dx=2&uilang=fi&lang=fi&lvv=2015

Normaalijakaumasta johdettuja jakaumia

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

Todennäköisyysjakaumia

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

&idx=2&uilang=fi&lang=fi&lvv=2015

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

MTTTP5, luento Luottamusväli, määritelmä

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

(b) Tarkista integroimalla, että kyseessä on todella tiheysfunktio.

031021P Tilastomatematiikka (5 op) viikko 5

Teema 7: Todennäköisyyksien laskentaa

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Batch means -menetelmä

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

031021P Tilastomatematiikka (5 op) viikko 3

Testit järjestysasteikollisille muuttujille

10. laskuharjoituskierros, vko 14, ratkaisut

Transkriptio:

Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn. Tilastollinen päättely tarkoittaa perusjoukkoa koskevien johtopäätösten tekemistä satunnaisotoksen perusteella. Otantaan ja muihin tiedonkeruun menetelmiin ja käsitteisiin tutustuttiin jo Teemassa 2. Tästä eteenpäin käsitellään enimmäkseen tilanteita, joissa perusjoukko on määriteltävissä ja siitä voidaan poimia edustava satunnaisotos. Käytännössä tilanne ei aina ole näin selkeä, jolloin tilastollinen päättelykin on epävarmemmalla pohjalla. Pitää kuitenkin muistaa, että tilastollinen päättely perustuu joka tapauksessa todennäköisyyksiin, jotka useissa käytännön tutkimustilanteissa tarkoittavat erilaisia riskejä ja epävarmuuksia. Yleisenä tavoitteena on näiden hallinta. Parametrit ja estimaattorit Käsite parametri esiintyi vaivihkaa jo Teeman 7 yhteydessä. Yleisesti parametri on perusjoukon ominaisuus, josta tehdään arvioita otoksen avulla. Tätä arviointia kutsutaan tilastotieteessä estimoinniksi, estimointikeinoa tai -kaavaa estimaattoriksi ja otokseen liittyvää parametrin arvoa estimaatiksi. Tämän kurssin puitteissa keskitytään enimmäkseen seuraaviin: Parametri Estimaattori Odotusarvo µ (Otos)keskiarvo x Hajonta σ (Otos)hajonta s Varianssi σ 2 (Otos)varianssi s 2 Todennäköisyys p Suhteellinen frekvenssi ˆp Myös muut otoksesta lasketut tunnusluvut kuten mediaani tai korrelaatiokerroin (ks. Teemat 3 ja 4) ovat vastaavien perusjoukkoa kuvaavien parametrien estimaattoreita.

Odotusarvo: esimerkkinä odotettu voittosumma Odotusarvo on satunnaismuuttujan odotettavissa oleva arvo. Esimerkki: peli johon osallistuminen maksaa 1.5 e kierrosta kohti. Voittomäärä: 1 e 2 e 3 e Todennäköisyys: 0.6 0.3 0.1 Mitä on odotettavissa, jos peliä pelataan 100 kierrosta? Voitettuja pelejä: 0.6 100 = 60 0.3 100 = 30 0.1 100 = 10 Voitettua rahaa: 60 1 = 60 e 30 2 = 60 e 10 3 = 30 e Voittosumma: 60 + 60 + 30 = 150 e Kierrosta kohti: 150/100 = 1.5 e Peli vaikuttaa reilulta, sillä odotettu voitto kierrosta kohti on sama kuin osallistumismaksu. Tulos on tässä saatu intuitiivisesti laskemalla kierroksen mahdollisten voittomäärien summa painotettuna vastaavilla todennäköisyyksillä. Tarkastellaan asiaa kuitenkin vielä pienen simulointikokeen avulla. Odotusarvo: äskeisen pelin simulointi Survolla Simuloidaan edellä määriteltyä diskreettiä jakaumaa seuraavasti: MATRIX P /// 1 0.6 2 0.3 3 0.1 MAT SAVE P / talletetaan jakauman arvot ja todennäköisyydet FILE MAKE KOE,1,100,x,1 / luodaan tyhjä aineisto 100 koetoistoa varten TRANSFORM KOE BY #DISTR(P) / käytetään satunnaislukugeneraattoria RND=rand(2008) STAT KOE CUR+1 / katsotaan mitä saatiin: Basic statistics: KOE N=100 Variable: x mean=1.42 stddev=0.622475 x f % *=2 obs. 1 65 65.0 ******************************** 2 28 28.0 ************** 3 7 7.0 *** Kierrosta kohti laskettu voittosumma 100 pelin jälkeen olisi x = 1 (1 65 + 2 28 + 3 7) = 1.42 (e). 100 Suuremmilla pelimäärillä (koetoistoilla) suhteelliset frekvenssit tarkentuvat; esimerkiksi 10000 pelin jälkeen x = 1 (1 6045 + 2 2961 + 3 994) = 1.4949 (e). 10000

Diskreetin jakauman odotusarvo Vastaava parametrin arvo, teoreettinen odotusarvo, saadaan diskreetissä jakaumassa laskemalla jakauman mahdollisten arvojen vastaavilla todennäköisyyksillä painotettu summa. Äskeisessä esimerkissä µ = 1 0.6 + 2 0.3 + 3 0.1 = 1.5 (e). Binomijakaumassa päästään helpolla, sillä siinä odotusarvo saadaan suoraan jakauman parametrien n ja p tulona: µ = np. Esimerkki: heitetään harhatonta rahaa 10 kertaa. Mikä on kruunujen lukumäärän odotusarvo? X Bin(n, p), jossa n = 10 ja p = 1 2, joten odotusarvo on µ = np = 10 1 2 = 5. Diskreetin jakauman hajonta Aivan kuten empiirissäkin jakaumissa (ks. Teemat 3 ja 4), on teoreettisissakin jakaumissa kiinnitettävä huomiota odotusarvon ohella hajontaan, siis siihen miten muuttujan arvot jakautuvat odotusarvon ympärille. Diskreeteistä jakaumista tarkastellaan vain binomijakaumaa, jossa hajontakin saadaan suoraan jakauman parametrien n ja p avulla: Jos X Bin(n, p), niin µ = np ja σ = np(1 p). Äskeisessä esimerkissä, jossa n = 10 ja p = 1/2, on siis µ = 5 ja σ = 10 1/2 1/2 = 5/2 1.6. Varianssin lauseke on vielä yksinkertaisempi (ei neliöjuurta), mutta hajonta on helpompi tulkita, koska se ilmaistaan samoissa yksiköissä kuin odotusarvo.

Jatkuvan jakauman odotusarvo ja hajonta Jatkuvissa jakaumissa vastaavat tarkastelut johtavat integraaleihin, jotka tässä yhteydessä sivuutetaan. Normaalijakauman parametrit, odotusarvo µ ja varianssi σ 2 tulivat esille jo Teemassa 7. Vaikka normaalijakauman parametrina onkin varianssi (hajonnan neliö), on käytännön laskelmissa ja tulosten esittämisessä parempi käyttää sen neliöjuurta eli hajontaa (aivan samoin perustein kuin binomijakaumassa edellä). Varianssilla on käyttöä enemmänkin teoreettisissa tarkasteluissa (jotka eivät kuulu tälle kurssille). Normaalijakauman merkinnässä N(µ, σ 2 ) viitataan kuitenkin jakauman parametreihin, odotusarvoon ja varianssiin. Yksinkertainen satunnaisotanta Perusjoukon parametrien estimointiin tarvitaan satunnaisotos. Otannan perusasetelma on yksinkertainen satunnaisotanta, jossa jokaisella perusjoukon alkiolla on sama todennäköisyys tulla valituksi otokseen. Tämä tarkoittaa, että otanta suoritetaan palauttaen, mikä voi vaikuttaa hieman yllättävältä. Otos voidaan poimia 1) palauttaen tai 2) palauttamatta. Poimintatapa vaikuttaa estimoinnissa ja tilastollisessa testauksessa käytettäviin kaavoihin. Palauttamatta perusjoukon koko pienenee joka poiminnalla (esimerkiksi lottoarvonta). Käytännössä poimintatapojen ero on useimmiten merkityksetön. Muutaman satunnaisesti valitun henkilön poistaminen (siis poiminta palauttamatta) ei vaikuta seuraavien henkilöiden poimintatodennäköisyyksiin juuri millään lailla, ellei otos sitten muodosta huomattavan suurta osaa perusjoukosta. Jatkossa oletetaan otanta suoritetuksi palauttaen.

Keskiarvon otantajakauma (normaalinen perusjoukko) Otoksesta laskettu keskiarvo x estimoi odotusarvoa µ. Poimimalla erilaisia otoksia saadaan otantaan liittyvän satunnaisvaihtelun myötä myös eri suuruisia keskiarvoja. Jotta saataisiin käsitys estimaatin tarkkuudesta, pitäisi tietää millainen on x:n jakauma. Luennolla tarkastellaan asiaa simulointikokeiden avulla. Tulos on se, että mikäli havaintoarvot x 1, x 2,..., x n muodostavat riippumattoman otoksen normaalijakaumasta N(µ, σ 2 ), niin x N(µ, σ 2 /n), siis keskiarvo noudattaa normaalijakaumaa, jossa odotusarvo on sama kuin perusjoukossa. Keskiarvon hajonta on sen sijaan σ/ n, siis selvästi pienempi kuin perusjoukon hajonta. Mitä suurempi otoskoko, sen pienempi hajonta keskiarvolla on. Toisin sanoen päättely keskiarvosta on tarkempaa suuremmilla otoksilla. Keskiarvon otantajakauma (yleinen tilanne) Äskeinen tulos on sinänsä hieno, mutta käytännössä ei tiedetä, onko perusjoukko normaalinen, keskiarvon hajonta σ/ n riippuu perusjoukon hajonnasta σ, jonka suuruutta ei myöskään käytännössä tiedetä. Varsinainen käytännön kannalta merkittävä tulos onkin, että perusjoukon jakauman ei tarvitse olla normaalijakauma, ja silti keskiarvon jakauma lähestyy normaalijakaumaa N(µ, σ 2 /n), kunhan otoskoko on riittävän suuri. Tätä tärkeää tulosta kutsutaan todennäköisyyslaskennan keskeiseksi raja-arvolauseeksi. Se tarjoaa selityksen sille, miksi normaalijakauma soveltuu niin hyvin moniin tilastollisen analyysin ja päättelyn tilanteisiin. Asiaa tarkastellaan lähemmin simulointikokeiden avulla, jolloin selviää mm. mitä riittävän suuri voi milloinkin tarkoittaa sekä miltä näyttää kun jakauma lähestyy normaalijakaumaa.

Suhteellinen frekvenssi ja todennäköisyys Alussa mainituista estimaattoreista on vielä käsittelemättä suhteellinen frekvenssi ˆp ( p-hattu ), jota vastaava perusjoukon parametri on suhteellinen osuus tai todennäköisyys p. Ajatellaan että jonkin perusjoukon alkioilla joko on tai ei ole ominaisuutta X. Oletetaan, että on poimittu n riippumattoman havainnon satunnaisotos. Tarkastellaan nyt havaintoyksiköitä, joilla on tuo ominaisuus X. Niiden lukumäärä eli frekvenssi on f, ja vastaava suhteellinen frekvenssi ˆp = f /n. Todennäköisyyslaskennasta tiedetään, että f Bin(n, p), jossa p on niiden perusjoukon alkioiden suhteellinen osuus, joilla on ominaisuus X. (Suhteellinen osuus tulkitaan siis todennäköisyydeksi poimia perusjoukosta sellainen alkio, jolla on ominaisuus X.) Tiedetään myös, että f :n odotusarvo on np ja hajonta np(1 p). Suhteellisen frekvenssin otantajakauma Suhteellisen frekvenssin ˆp otantajakauma voitaisiin myös määrätä binomijakauman ominaisuuksien perusteella, mutta se johtaisi monimutkaisiin lausekkeisiin. Niinpä tähän sovelletaankin jälleen keskeistä raja-arvolausetta, jonka mukaan suhteellisen frekvenssin ˆp otantajakauma lähestyy normaalijakaumaa N(p, p(1 p)/n), kunhan otoskoko on riittävän suuri. Siis odotusarvona on suhteellinen osuus p, mutta hajonta p(1 p)/n riippuu sekä suhteellisesta osuudesta että otoskoosta. Tulos on siinä mielessä teoreettinen, että p on käytännössä tuntematon (aivan vastaavasti kuin σ edellä). Eteenpäin päästään korvaamalla nämä parametrit vastaavilla estimaattoreilla (ˆp ja s). Huomaa, että f :n alunperin diskreettiä binomijakaumaa approksimoidaan jatkuvalla normaalijakaumalla.

Parametrien luottamusvälit Teeman viimeisenä aiheena ovat luottamusvälit, jotka täydentävät edellä käsiteltyä parametrien estimointia. Pelkkä yksittäinen (piste-)estimaatti ei ole välttämättä mielekäs, koska se voi vaihdella huomattavastikin otoksesta toiseen. Luottamusväli antaa konkreettisemman käsityksen parametrin todellisesta arvosta ja samalla estimoinnin tarkkuudesta. Luottamusvälillä tarkoitetaan sellaista otoksen havainnoista riippuvaa väliä, joka valitulla luottamustasolla peittää perusjoukon tuntemattoman parametrin arvon. Seuraavassa tarkastellaan odotusarvon ja suhteellisen osuuden luottamusvälejä, jotka saadaan määrättyä kyseisten parametrien estimaattoreiden otantajakaumien perusteella. Odotusarvon luottamusväli Odotusarvon µ luottamusväli luottamustasolla 1 α on x ± z α/2 s n, jossa x on (otos)keskiarvo, s on (otos)hajonta, n on otoskoko ja z α/2 on N(0, 1)-jakauman z-piste, joka vastaa todennäköisyyttä α/2. Lauseke s/ n on otoskeskiarvon hajonnan estimaattori, jossa perusjoukon hajonta σ on korvattu sen estimaattorilla s. Luottamusväli peittää perusjoukon tuntemattoman odotusarvon todennäköisyydellä 1 α, jossa α voidaan valita. Todennäköisyyden frekvenssitulkinnan mukaan ajatellaan, että perusjoukosta poimitaan riippumattomia satunnaisotoksia, jolloin 100(1 α) % väleistä peittää odotusarvon µ. Täydellistä varmuutta ei saada, sillä 100α %:ssa otoksista näin ei käy.

Odotusarvon luottamusvälin tulkinta Odotusarvon luottamusväli on siis symmetrinen väli keskipisteenään keskiarvo x sitä kapeampi mitä suurempi on otoskoko n sitä leveämpi mitä suurempi on hajonta s Luottamusvälin leveyteen vaikuttaa myös valittu luottamustaso. Käytännössä useimmiten valitaan α = 0.05, jolloin luottamustasoksi tulee 1 0.05 = 0.95 ( 95 % luottamusväli ). Kohta z α/2 saa tällöin arvon 1.96, jota (itseisarvoltaan) suuremmat arvot vastaavat 2.5 % todennäköisyydestä standardoidun normaalijakauman molemmilla hännillä : 0.4 0.3 0.2 0.1 0-1.96 0 1.96 Suhteellisen osuuden luottamusväli Ajatellaan jälleen, että jonkin perusjoukon alkioilla joko on tai ei ole ominaisuutta X, ja että p on niiden perusjoukon alkioiden suhteellinen osuus, joilla on ominaisuus X. Suhteellisen osuuden (tai todennäköisyyden) p luottamusväli luottamustasolla 1 α on ˆp(1 ˆp) ˆp ± z α/2, n jossa ˆp on suhteellinen frekvenssi, n on otoskoko ja z α/2 on N(0, 1)-jakauman z-piste, joka vastaa todennäköisyyttä α/2. ˆp(1 ˆp) Lauseke n on suhteellisen frekvenssin hajonnan estimaattori, joka on saatu korvaamalla tuntematon p sen estimaattorilla ˆp. Luottamusväli peittää perusjoukon tuntemattoman suhteellisen osuuden arvon todennäköisyydellä 1 α, jossa α voidaan valita.

Suhteellisen osuuden luottamusvälin tulkinta Suhteellisen osuuden luottamusväli on siis symmetrinen väli keskipisteenään suhteellinen frekvenssi ˆp sitä kapeampi mitä suurempi on otoskoko n sitä leveämpi mitä suurempi on hajonta ˆp(1 ˆp) n Huomaa, että hajontaan vaikuttaa ˆp: mitä lähempänä se on arvoa 0.5, sitä suurempi on hajonta. Luottamusvälin leveyteen vaikuttaa myös valittu luottamustaso. Kuten edellä, käytännössä useimmiten valitaan α = 0.05, jolloin luottamustasoksi tulee 1 0.05 = 0.95 ( 95 % luottamusväli ). Kaikkiaan luottamusvälin leveyteen vaikuttavat varsin monet seikat, mikä on syytä muistaa luottamusvälien määräämisessä, käytössä ja erityisesti tulkinnassa. Luottamusvälien perustelua ja pohdintaa Esitetyt luottamusvälit ovat approksimatiivisia: niissä esiintyy normaalijakaumasta saatu kerroin z α/2. Perusteluina toimivat keskeinen raja-arvolause ja riittävän suuri otoskoko n. Mikä sitten on käytännössä riittävän suuri otoskoko? Kysymys on vaikea, koska pelkkä otoskoko ei kuitenkaan ratkaise kaikkea tutkimukseen liittyvää epävarmuutta. Käytännössä joudutaan tasapainoilemaan mm. otoksen poimintakustannusten kanssa. Erilaisia (enemmän tai vähemmän karkeita) arvioita voi tietenkin esittää. Tyypillisin vaatimus on, että n > 30, mutta ainakin suhteellisen osuuden yhteydessä se on liian yksinkertaistavaa. Joskus päättelyä tosin joudutaan tekemään pienistäkin otoksista. Pienemmillä otoksilla voidaan normaalijakauman sijasta käyttää t-jakaumaa, johon palataan Teemassa 9. Toisaalta luottamusvälit ovat joka tapauksessa aika epäuskottavia, jos ne perustuvat liian pieniin havaintomääriin.

Riittävän suuren otoskoon karkea arviointi Muistaen mitä edellä todettiin, voidaan esittää karkeita arvioita riittävän suurelle otoskoolle. Esim. kun halutaan estimoida odotusarvoa µ, niin n voisi olla ( zσ ) 2 n, m jossa z on halutun luottamustason kerroin (esim. 1.96), m suurin sallittu virhe (esim. 0.025) ja σ hajonnan σ jonkinlainen arvio. suhteellista osuutta p, niin n voisi olla ( ) z 2 n p (1 p ), m jossa z on halutun luottamustason kerroin (esim. 1.96), m suurin sallittu virhe (esim. 0.025) ja p osuuden p jonkinlainen arvio. Tähdellisten lukujen arvioinnilla on oleellinen vaikutus näillä kaavoilla saataviin otoskokoarvioihin. Otoksesta laskettuja arvioita ei ole käytettävissä, koska arviot tehdään ennen tiedonkeruuta. Binomijakauman Bin(n, p) arvoja, kun n = 100, p = 0.2 x P(X = x) P(X x) x P(X = x) P(X x) x P(X = x) P(X x) 0 0.00000000 0.00000000 16 0.06383207 0.19233758 32 0.00157926 0.99844956 1 0.00000001 0.00000001 17 0.07885138 0.27118896 33 0.00081356 0.99926312 2 0.00000006 0.00000007 18 0.09089812 0.36208708 34 0.00040080 0.99966391 3 0.00000051 0.00000058 19 0.09807429 0.46016137 35 0.00018895 0.99985286 4 0.00000312 0.00000370 20 0.09930021 0.55946158 36 0.00008529 0.99993815 5 0.00001498 0.00001868 21 0.09457163 0.65403322 37 0.00003688 0.99997503 6 0.00005928 0.00007796 22 0.08489953 0.73893275 38 0.00001529 0.99999032 7 0.00019902 0.00027699 23 0.07198004 0.81091279 39 0.00000608 0.99999639 8 0.00057841 0.00085540 24 0.05773399 0.86864678 40 0.00000232 0.99999871 9 0.00147816 0.00233356 25 0.04387783 0.91252462 41 0.00000085 0.99999956 10 0.00336282 0.00569638 26 0.03164267 0.94416728 42 0.00000030 0.99999985 11 0.00687850 0.01257488 27 0.02168109 0.96584837 43 0.00000010 0.99999995 12 0.01275388 0.02532875 28 0.01413142 0.97997979 44 0.00000003 0.99999999 13 0.02158348 0.04691224 29 0.00877123 0.98875102 45 0.00000001 1.00000000 14 0.03353148 0.08044372 30 0.00518964 0.99394066 46 0.00000000 1.00000000 15 0.04806179 0.12850551 31 0.00292964 0.99687030 47 0.00000000 1.00000000......... P(X=x) 0.1 0.08 0.06 0.04 0.02 0 0 10 20 30 40 50 60 70 80 90 100 x