Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20
Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden välisiä riippuvuuksia kuvaa matemaattinen malli Mallin parametrit tuntemattomia koejärjestely = havaintoaineisto Parametrien estimointi tilastollisin menetelmin Tilastollinen aineisto p.2/20
Tilastollinen havaintoaineisto numeerinen; tai väännettävä vaikka väkisin numeeriseen muotoon; Tutkittava ominaisuus on voitava yksikäsitteisesti määrätä jokaisesta yksilöstä; tilastolliset menetelmät ovat havainnoivia (toteavia), eivät määrääviä. Tilastollinen aineisto p.3/20
Aineiston keruu Perusjoukosta l. populaatiosta satunnaisotoksella; Populaation jokaisella yksilöllä on sama mahdollisuus tulla valituksi otokseen; X tutkittava satunnaismuuttuja; Satunnaisotos on reaalilukujoukko {x 1,x 2,...,x n }; Satunnaisotoksen avulla pyritään arvioimaan satunnaismuuttujan X tunnuslukuja. Tilastollinen aineisto p.4/20
Tunnuslukuja Vaihteluväli: R = [ min 1 i n x i, max 1 i n x i]. n Aritmeettinen keskiarvo: x = 1 x n i. i=1 n Otoskeskihajonta: s = (x i x) 2. 1 n 1 i=1 Mediaani M d on se luku, jonka alapuolella on puolet havainnoista: #{x i M d } n = 0.5. Tilastollinen aineisto p.5/20
Lisää tunnuslukuja P-prosenttipisteen M p alapuolella on p prosenttia havainnoista. Tavallisesti: p = 25 %, 50 % ja 75 %. Otosmoodi: Havaintoaineisto voidaan jakaa k:hon eri luokkaan E 1,E 2,...,E k (tavallisesti k = n). Luokassa E i olevien alkioiden lukumäärä on silloin n i. Otosmoodi on se luokka, jossa on eniten havaintoja. Tilastollinen aineisto p.6/20
Tunnuslukujen estimoinnista Otos {x 1,x 2,...,x n } Otostunnusluvut satunnaismuuttujan X jakauman tunnuslukujen estimaatteja. Parametrin estimaattori θ = g(x 1,X 2,...,X n ) on satunnaismuuttuja. ˆθ = g(x 1,x 2,...,x n ) on realisaatio l. parametrin estimaatti. Estimaatti on todellinen (luku), estimaattori on malli (laskentakaava). Tilastollinen aineisto p.7/20
Harhattomuus Estimoitava parametri θ Estimaattori on harhaton, jos E(θ ) = θ Otoskeskiarvo on harhaton estimaattori satunnaismuuttujan X odotusarvolle µ = E(X). Estimaattori on tarkentuva, jos kaikille ǫ > 0 lim n P( θ n θ > ǫ) = 0. Otoskeskiarvo on tarkentuva (suurten lukujen laki) Otoskeskihajonta s on sekä harhaton että tarkentuva keskihajonnan σ estimaattori. Tilastollinen aineisto p.8/20
Normaalijakaumasta johdettuja jakaumia χ 2 -jakauma; Studentin l. t-jakauma; F-jakauma Tilastollinen aineisto p.9/20
χ 2 -jakauma Riippumattomat satunnaismuuttujat Z i N(0, 1),i = 1, 2, 3,...,ν Satunnaismuuttuja χ 2 ν = Z 2 1 + Z 2 2 + + Z 2 ν on χ 2 -jakautunut vapausasteilla ν Jakauman tiheysfunktio on f ν (x) = 1 Γ( ν 2 )2 ν 2 x ν 2 1 e x 2 Odotusarvo E(χ 2 ν) = ν ja varianssi σ 2 ν = 2ν. Tilastollinen aineisto p.10/20
Studentin l. t-jakauma Satunnaismuuttujat Z i N(0, 1), i = 1, 2, 3,...,ν riippumattomia; Satunnaismuuttuja t ν = 1 ν Z ν i=1 Z 2 i noudattaa Studentin jakaumaa Tiheysfunktio on f tν (x) = 1 Γ( ν+1 2 ) x2 (1 + πν ) ν Γ( ν 2 ) ν+1 2. Tilastollinen aineisto p.11/20
F-jakauma Riippumattomat satunnaismuuttujat X 2 χ 2 m, Y 2 χ 2 n; Satunnaismuuttuja noudattaa F-jakaumaa F m,n = X2 /m Y 2 /n Tilastollinen aineisto p.12/20
Lause 1 Lause 1. Aritmeettinen keskiarvo ja otosvarianssi X = 1 n n i=1 X i (n 1)S 2 = n (X i X) 2 i=1 ovat riippumattomia satunnaismuuttujia. Tilastollinen aineisto p.13/20
Lause 2 Satunnaismuuttujan X odotusarvo µ = E(X); varianssi σ 2 ja varianssin estimaattorina S 2 = n 1 1 n i=1 (X i X) 2 Lause 2. Tällöin 1. 2. (n 1)S 2 σ χ 2 2 n 1. x µ s t n 1. n Tilastollinen aineisto p.14/20
Luottamusväli Estimoitava suure θ (odotusarvo, hajonta tai joku muu) Havaintoaineiston avulla lasketaan luottamusväli [θ 1,θ 2 ] Varmuus 1 α tarkoittaa: Todennäköisyydellä 1 α estimoitu suure sisältyy välille [θ 1,θ 2 ], ts. P(θ 1 θ θ 2 ) 1 α. Tai toisin; Todennäköisyys, että estimoitu suure ei ole ko. välillä on α. Tavallisesti riskitasona on α = 0.05. Tilastollinen aineisto p.15/20
Esim. 1 Esim 1. Olkoon {x 1,x 2,...,x n } satunnaisotos normaalijakautuneesta satunnaismuuttujasta X N(µ,σ 2 ). Määrää odotusarvon µ luottamusväli riskitasolla α, kun varianssia ei tunneta. Tilastollinen aineisto p.16/20
Ratkaisu Lause 2 = x µ s t n 1. n t-jakauman taulukosta luvut t 1 ja t 2 s.e. P(t 1 x µ s n t 2 ) = P(t 1 s n x µ t 2 s n ) = P(x t 2 s n µ x t 1 s n ) 1 α. Odotusarvon luottamusväli [x t 2 s n, x t 1 s n ]. Tilastollinen aineisto p.17/20
Välin valinta Luvut t 1 ja t 2 valitaan tavallisesti seuraavasti: Yksisuuntainen luottamusväli: µ µ 0 : t 2 = ja t 1 äärellinen; µ µ 0 : t 1 = ja t 2 äärellinen. Kaksisuuntainen luottamusväli: Valinnallat 1 = t 2, t 2 > 0 luottamusväli on otoskeskiarvon suhteen symmetrinen väli: x t 2 s n µ x + t 2 s n. Luottamusväli pienenee, kun otoskoko kasvaa. Tilastollinen aineisto p.18/20
%-osuuden luottamusväli Binomijakauman parametrin luottamusväli riskitasolla α; Toistokokeen satunnaismuuttuja X Bin(n, p); p = E(X) tapahtuman esiintymistodennäköisyys Binomijakauman normaalijakauma approksimaatio: X N(np,np(1 p)), kunhan n > 9 p(1 p). Tapahtuman frekvenssi m: m n p Tilastollinen aineisto p.19/20
%-osuuden luottamusväli t 1,t 2 N(0, 1)-jakaumasta (riskitaso α) s.e. P(t 1 m np np(1 p) t 2 ) 1 α P(m t 2 np(1 p) np m t1 np(1 p)) 1 α P( m n t 2 m np(1 p) p n n t 1 np(1 p)) 1 α. n Neliöjuurilausekkeissa approksimaatio p m n P {p [ m t 2 n n m(1 m ), m t 1 n n n m(1 m)]} = 1 α. n Tavallisesti: t 1 = t 2 ja t 2 > 0. Tilastollinen aineisto p.20/20