Estimointi Vilkkumaa / Kuusinen 1
Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman muoto voidaan usein olettaa tunnetuksi esim. asiayhteydestä johtuen tai graafisen päättelyn perusteella (esim. "havainnot ovat peräisin normaalijakaumasta") Tärkeä osatehtävä tutkimuksessa on estimoida jakauman tuntemattomat parametrit saatujen havaintojen perusteella ("Mitä ovat tämän normaalijakauman odotusarvo ja varianssi?") Vilkkumaa / Kuusinen 2
Estimaatti ja estimaattori Oletetaan, että satunnaismuuttuja X noudattaa todennäköisyysjakaumaa, jonka pistetodennäköisyys- tai tiheysfunktio f(x; θ) riippuu parametrista θ. Parametrin θ estimoimiseen käytetään havaintojen X 1, X 2,..., X n funktiota, eli tunnuslukua (esim. aritmeettinen keskiarvo odotusarvoa estimoitaessa) T = g(x 1, X 2,..., X n ) = ˆθ Funktiota T kutsutaan parametrin θ estimaattoriksi. Havaintoarvoista x 1, x 2,..., x n laskettua arvoa t = g(x 1, x 2,..., x n ) kutsutaan parametrin θ estimaatiksi. Vilkkumaa / Kuusinen 3
Piste-estimointi ja väliestimointi Todennäköisyysjakauman parametrin arvon estimointia kutsutaan piste-estimoinniksi. Parametrin estimaattiin on aina syytä liittää luottamusväliksi kutsuttu väli, joka sisältää estimoidun parametrin todellisen, mutta tuntemattoman arvon tietyllä valittavissa olevalla todennäköisyydellä. Luottamusvälin määräämistä kutsutaan väliestimoinniksi. Vilkkumaa / Kuusinen 4
Luottamusvälin määritys 1/2 Oletukset: - Satunnaismuuttuja X noudattaa jakaumaa f(x; θ). - X 1, X 2,..., X n on yksinkertainen satunnaisotos jakaumasta f(x; θ). - ˆθ = ˆθ(X 1, X 2,..., X n ) on θ:n estimaattori. Valitaan luottamustaso 1 α ja määrätään satunnaismuuttujat A = A(X 1, X 2,..., X n ) Y = Y (X 1, X 2,..., X n ) siten, että P r(θ ˆθ A) = α 2 P r(θ ˆθ + Y ) = α 2 Vilkkumaa / Kuusinen 5
Luottamusvälin määritys 2/2 Tällöin väli (ˆθ A, ˆθ + Y ) on parametrin θ luottamusväli luottamustasolla (1 α). Luottamusvälin (ˆθ A, ˆθ + Y ) peittää tuntemattoman parametrin θ todellisen arvon todennäköisyydellä (1 α): P r(ˆθ A θ ˆθ + Y ) = 1 α Jos ˆθ:n jakauma on symmetrinen, pätee A = Y ja luottamusväli on muotoa (ˆθ A, ˆθ + A). Vilkkumaa / Kuusinen 6
Normaalijakautuneen estimaattorin määräämä luottamusväli, kun varianssi σ 2 tunnetaan Olkoon satunnaismuuttuja ˆθ N(θ, σ 2 ) parametrin θ harhaton estimaattori. Tällöin satunnaismuuttuja Z = ˆθ θ σ N(0, 1). Nyt pätee P r( z α/2 ˆθ θ σ z α/2 ) = 1 α. Tästä saadaan parametrin θ (1 α)-luottamusväliksi ˆθ z α/2 σ θ ˆθ + z α/2 σ. Vilkkumaa / Kuusinen 7
Normaalijakautuneen satunnaismuuttujan odotusarvon luottamusväli, kun varianssi σ 2 tunnetaan Olkoon X 1,..., X n yksinkertainen satunnaisotos normaalijakaumasta N(μ, σ 2 ). Oletetaan että σ 2 tunnetaan, mutta μ on tuntematon. Tällöin havaintojen aritmeettinen keskiarvo ˉX noudattaa eksaktisti normaalijakaumaa: ) ˉX N (μ, σ2 n Edellisen kalvon kaavasta odotusarvon μ (1 α) -luottamusväliksi saadaan ˉX z α/2 σ n μ ˉX + z α/2 σ n. Vilkkumaa / Kuusinen 8
Normaalijakauman odotusarvon luottamusväli Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos normaalijakaumasta N(μ, σ 2 ) ja olkoon ˉX = havaintojen aritmeettinen keskiarvo s 2 = havaintojen harhaton otosvarianssi n = havaintojen lukumäärä t α/2 = t-jakauman arvo merkitsevyystasolla α/2 ja vapausasteilla (n 1). Normaalijakauman odotusarvon μ luottamusväli luottamustasolla (1 α) on muotoa ( ˉX t α/2 ) s s, ˉX + tα/2 n n Vilkkumaa / Kuusinen 9
Klikkeri-kysely Tutkimuksessa on mitattu 10 naulan pituus, ja keskiarvopituudeksi on saatu 12.5 cm. Mittausten perusteella pituuden keskihajonta on 0.5 cm. Mikä on 95% luottamusväli naulojen todelliselle keskipituudelle? 1. (12.5 2.262 0.5 10, 12.5 + 2.262 0.5 10 ) = (12.14, 12.86) 2. (12.5 1.96 0.5 10, 12.5 + 1.96 0.5 10 ) = (12.19, 12.81) 3. (12.5 2.262 0.25 10, 12.5 + 2.262 0.25 10 ) = (12.32, 12.68) 10-1
Otoskoon määrääminen Oletetaan, että normaalijakauman varianssi σ 2 tunnetaan. Kuinka suuri otos on otettava, jotta odotusarvolle voidaan muodostaa (1 α)-luottamusväli, jonka pituus on 2A? Odotusarvon luottamusväli luottamustasolla (1 α) on σ ˉX ± z α/2 n. Jotta luottamusvälin pituus olisi 2A, on oltava z α/2 σ n = A, josta voidaan ratkaista tarvittava otoskoko n n = ( ) zα/2 σ 2. A Vilkkumaa / Kuusinen 10
Normaalijakauman varianssin luottamusväli Olkoot havainnot X 1,..., X n yksinkertainen satunnaisotos normaalijakaumasta N(μ, σ 2 ) ja olkoon s 2 = havaintojen harhaton otosvarianssi n = havaintojen lukumäärä χ 2 1 α/2 ja χ2 α/2 = χ 2 -jakauman arvot merkitsevyystasoilla 1 α/2 ja α/2 ja vapausasteilla (n 1). Normaalijakauman varianssin σ 2 luottamusväli luottamustasolla (1 α) on muotoa ( (n 1)s 2, χ 2 α/2 (n 1)s2 χ 2 1 α/2 ) Vilkkumaa / Kuusinen 11
Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X i Bernoulli(p), i = 1, 2,..., n. Suhteellinen frekvenssi ˆp = f n on Bernoulli-jakauman odotusarvoparametrin p harhaton estimaattori. Suhteellisen frekvenssin ˆp odotusarvo ja varianssi ovat: E(ˆp) = p V ar(ˆp) = pq n, q = 1 p Vilkkumaa / Kuusinen 12
Bernoulli-jakauman odotusarvon luottamusväli 2/2 Suhteellinen ferkvenssi ˆp noudattaa suurissa otoksissa approksimatiivisesti normaalijakaumaa. Olkoon n = havaintojen lukumäärä z α/2 = häntätodennäköisyyttä α/2 vastaava piste standardoidusta normaalijakaumasta N(0, 1). Bernoulli-jakauman odotusarvoparametrin p approksimatiivinen luottamusväli luottamustasolla (1 α) on ( ) ˆp(1 ˆp) ˆp(1 ˆp) ˆp z α/2, ˆp + z α/2. n n Vilkkumaa / Kuusinen 13
Otoskoon määrääminen 1/2 Kuinka suuri otos on otettava, jotta Bernoulli-jakauman odotusarvoparametrille p voidaan muodostaa 2A pituinen luottamusväli luottamustasolla (1 α)? Parametrin p luottamusväli luottamustasolla (1 α) on ( ) ˆp(1 ˆp) ˆp(1 ˆp) ˆp z α/2, ˆp + z α/2. n n Ennakkotiedon perusteella oletetaan, että ˆp = p. Vilkkumaa / Kuusinen 14
Otoskoon määrääminen 2/2 Jotta luottamusvälin pituus olisi 2A, on oltava z α/2 p(1 p) n = A, josta voidaan ratkaista tarvittava otoskoko n: n = ( ) zα/2 p(1 p) 2. A Huomaa, että otoskoko saavuttaa maksiminsa n = ( zα/2 2A ) 2, kun p = 1/2. Vilkkumaa / Kuusinen 15
Klikkeri-kysely Oletetaan, että koripallopelaaja on saanut 30 vapaaheitosta 18 sisään. Tällöin todellinen vapaaheitto-osuus noudattaa appr. jakaumaa N(0.6, 0.09 2 ). Mikä on pelaajan todellisen vapaaheittoprosentin 95% luottamusväli? 1. [0.51, 0.69] 2. [0.57, 0.63] 3. [0.42, 0.78] Miten luottamusväliä voisi saada kavennettua? Vilkkumaa / Kuusinen 16
Yhteenveto Havaintoaineiston ajatellaan olevan peräisin jostakin jakaumasta, jonka muoto on tunnettu, mutta jotkin parametrit tuntemattomia Tuntemattomat parametrit voidaan estimoida havaintoaineistosta Parametrin estimaattiin on hyvä liittää luottamusväli, joka kertoo estimaatin tarkkuudesta Esim. 95% luottamusväli peittää parametrin todellisen arvon 95% todennäköisyydellä Vilkkumaa / Kuusinen 17