Tilastotieteen kertaus Kuusinen/Heliövaara 1
Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa ilmiöitä koskeviin tietoihin liittyy epävarmuutta ja satunnaisuutta. Kuusinen/Heliövaara 2
Kuvailun ja päättelyn menetelmiä Kuvailun menetelmiä: - Tilastografiikka - Tilastolliset tunnusluvut - Tilastolliset mallit Päättelyn menetelmiä: - Tilastolliset mallit - Tilastollinen testaus Kuusinen/Heliövaara 3
Aineiston kerääminen Kohdistuuko tutkimus koko perusjoukkoon vai vain johonkin sen osaan? - Tutkimusta kutsutaan kokonaistutkimukseksi, jos perusjoukon kaikki alkiot tutkitaan. - Tutkimusta kutsutaan otantatutkimukseksi, jos perusjoukon alkioista vain osa tutkitaan (otoksen valitsemiseen on useita erilaisia tapoja). Muutetaanko tutkimuksessa aktiivisesti tutkimuksen kohteiden olosuhteita? - Tutkimus on koe, jos tutkitaan olosuhteiden muuttamisen vaikutusta tutkimuksen kohteisiin. - Jos olosuhteita ei muuteta aktiiivisesti, sanomme, että tutkimus perustuu suoriin havaintoihin. Kuusinen/Heliövaara 4
Kontrolloidut kokeet Kokeesta ei voida tehdä luotettavia johtopäätöksiä, ellei koe ole kontrolloitu: - Kokeessa on vertailtava vähintään kahden erilaisen käsittelyn vaikutuksia. - Käsittelyjen kohdistamisessa on käytettävä satunnaistusta. - Kokeessa on tehtävä riittävästi koetoistoja. Kuusinen/Heliövaara 5
Aineistojen kuvaaminen Kuusinen/Heliövaara 6
Frekvenssit ja havaintoarvojen jakauma Jos muuttuja on diskreetti, havaittujen arvojen jakaumaa kuvataan frekvessijakaumalla ja sitä vastaavalla graafisella esityksellä, joka on pylväsdiagrammi. Jos muuttuja on jatkuva, havaittujen arvojen jakaumaa kuvataan luokitellulla frekvessijakaumalla ja sitä vastaavalla graafisella esityksellä, joka on histogrammi. Histogrammissa frekvenssiä vastaa pinta-ala ja pylväsdiagrammissa korkeus. Muuttujan x mahdolliset arvot y 1, y 2,..., y m yhdessä niiden havaittujen frekvenssien f 1, f 2,..., f m kanssa muodostavat muuttujan x havaittujen arvojen x 1, x 2,... x n frekvenssijakauman. Siinä missä todennäköisyyksien summa on aina yksi, niin f i = n. Kuusinen/Heliövaara 7
Havaintoaineiston tunnuslukuja 1/2 Aritmeettinen keskiarvo: n x = 1 n i=1 x i Otosvarianssi: s 2 = 1 n 1 n i=1 (x i x) 2 = 1 n 1 ( n i=1 x 2 i n x 2 ) Otoskeskihajonta: s = s 2 Kuusinen/Heliövaara 8
Havaintoaineiston tunnuslukuja 2/2 Origomomentit: n a k = 1 n i=1 x k i Keskusmomentit: m k = 1 n n (x i x) k i=1 Kuusinen/Heliövaara 9
Standardointi ja tilastollinen etäisyys Standardoitujen havaintoarvojen z i = x i x s x aritmeettinen keskiarvo ja otosvarianssi ovat, i = 1, 2,..., n z = 1 n n i=1 z i = 0 s 2 z = 1 n 1 n (z i z) 2 = 1 i=1 Havaintoarvojen x k ja x l tilastollinen etäisyys d kl on d kl = x k x l s x Kuusinen/Heliövaara 10
Tunnuslukuja järjestysasteikollisille aineistolle Järjestystunnusluvut: Suuruusjärjestyksessä k. havaintoarvoa z k kutsutaan k. järjestystunnusluvuksi. Minimi ja maksimi eli pienin ja suurin arvo. Vaihteluväli ja sen pituus. Prosenttipisteet z p : p. prosenttipiste jakaa aineiston kahteen osaan: p% havainnoista on prosenttipistettä pienempiä ja loput (100 p)% suurempia. Mediaani eli Me = z 50 jakaa aineiston kahteen yhtä suureen osaan. Kvartiilit: Q 1 = z 25, Q 2 = z 50 = Me ja Q 3 = z 75. Kvartiilipoikkeama: (Q 3 Q 1 )/2 Kuusinen/Heliövaara 11
Tunnuslukuja laatueroasteikollisille aineistoille Suhteelliset frekvenssit f i /n. Moodi eli tyyppiarvo eli yleisin havaintoarvo. Kuusinen/Heliövaara 12
Vinous Olkoot m 2 = 1 n n (x i x) 2 m 3 = 1 n i=1 havaintoarvojen 2. ja 3. keskusmomentti. n (x i x) 3 i=1 Tunnuslukua c 1 = m 3 m 3/2 2 käytetään kuvaamaan havaintoarvojen jakauman vinoutta. - Jos c 1 0, on havaintoarvojen jakauma symmetrinen painopisteensä suhteen. - Jos c 1 > 0, on havaintoarvojen jakauma positiivisesti vino. - Jos c 1 < 0, on havaintoarvojen jakauma negatiivisesti vino. Kuusinen/Heliövaara 13
Huipukkuus Olkoot m 2 = 1 n n (x i x) 2 m 4 = 1 n i=1 havaintoarvojen 2. ja 4. keskusmomentti. n (x i x) 4 i=1 Tunnuslukua c 2 = m 4 m 2 2 3 käytetään kuvaamaan havaintoarvojen jakauman huipukkuutta. - Normaalijakautuneella havaintoaineistolla c 2 0. - Jos c 2 > 0, on havaintoarvojen jakauma huipukas (Normaalijakautuneeseen havaintoaineistoon verrattuna). - Jos c 2 < 0, on havaintoarvojen jakauma laakea (Normaalijakautuneeseen havaintoaineistoon verrattuna). Kuusinen/Heliövaara 14
Otos ja otosjakaumat Kuusinen/Heliövaara 15
Tilastollinen aineisto Tilastollinen aineisto koostuu tutkimuksen kohteita kuvaavien muuttujien havaituista arvoista. Tilastollisissa tutkimusasetelmissa havaintoarvoihin liittyy aina epävarmuutta ja satunnaisuutta. Kuusinen/Heliövaara 16
Tilastollinen malli Tilastollisella mallilla tarkoitetaan tutkimuksen kohteita kuvaavien satunnaismuuttujien todennäköisyysjakaumaa, jonka ajatellaan generoineen ko. satunnaismuuttujien havaitut arvot. Nämä todennäköisyysjakaumat riippuvat tavallisesti parametreista, joiden arvoja ei yleensä tunneta. Tilastollista mallia sovellettaessa kohdataan tavallisesti seuraavat parametreja koskevat ongelmat: - Parametrien arvoja ei tunneta ja ne on estimoitava eli arvioitava havaintoaineistosta. - Parametrien arvoista on olemassa oletuksia, joita halutaan testata havaintoaineiston antaman informaation avulla. Kuusinen/Heliövaara 17
Yksinkertainen satunnaisotos Olkoot X 1, X 2,..., X n riippumattomia, identtisesti jakautuneita satunnaismuuttujia, joilla on sama pistetodennäköisyys- tai tiheysfunktio f(x). Tällöin satunnaismuuttujat X 1, X 2,..., X n muodostavat yksinkertaisen satunnaisotoksen jakaumasta f(x). Kuusinen/Heliövaara 18
Havainnot ja havaintoarvot Olkoon X 1, X 2,..., X n yksinkertainen satunnaisotos jakaumasta f(x). Satunnaismuuttujia X 1, X 2,..., X n kutsutaan havainnoiksi. Kun otos on poimittu, satunnaismuuttujat X 1, X 2,..., X n saavat havaituiksi arvoikseen havaintoarvot jotka eivät ole satunnaisia. x 1, x 2,..., x n, Kuusinen/Heliövaara 19
Otostunnusluvut ja otosjakaumat Olkoon T = g(x 1, X 2,..., X n ) jokin satunnaismmuuttujien X 1, X 2,..., X n (mitallinen) funktio. Satunnaismuuttujaa T kutsutaan otostunnusluvuksi. Tunnusluvun T jakaumaa kutsutaan T :n otosjakaumaksi. Kuusinen/Heliövaara 20
Aritmeettisen keskiarvon odotusarvo ja varianssi Oletetaan, että havainnot X 1, X 2,..., X n muodostavat yksinkertaisen satunnaisotoksen satunnaismuuttujan X jakaumasta, jonka odotusarvo ja varianssi ovat E(X) = µ ja V ar(x) = σ 2. Havaintojen aritmeettisen keskiarvon X odotusarvo ja varianssi ovat E( X) = µ V ar( X) = σ2 n Aritmeettisen keskiarvon standardipoikkeamaa D( X) = σ/ n kutsutaan keskiarvon keskivirheeksi. Kuusinen/Heliövaara 21
Aritmeettisen keskiarvon otosjakauma, kun otos on normaalijakautunut Oletetaan, että havainnot X 1, X 2,..., X n muodostavat yksinkertaisen satunnaisotoksen normaalijakaumasta N(µ, σ 2 ). Tällöin havaintojen aritmeettinen keskiarvo X noudattaa eksaktisti normaalijakaumaa: ) X N (µ, σ2 n Standardoitu satunnaismuuttuja Z = X µ σ/ n noudattaa eksaktisti standardoitua normaalijakaumaa: Z N(0, 1) Kuusinen/Heliövaara 22
Otosvarianssin odotusarvo ja varianssi Oletetaan, että havainnot X 1, X 2,..., X n muodostavat yksinkertaisen satunnaisotoksen satunnaismuuttujan X jakaumasta, jonka odotusarvo ja varianssi ovat E(X) = µ ja V ar(x) = σ 2. Havaintojen otosvarianssin s 2 odotusarvo ja varianssi ovat E(s 2 ) = σ 2 V ar(s 2 ) = 2σ4 n 1 Kuusinen/Heliövaara 23
Otosvarianssin otosjakauma, kun otos on normaalijakautunut Oletetaan, että havainnot X 1, X 2,..., X n muodostavat yksinkertaisen satunnaisotoksen normaalijakaumasta N(µ, σ 2 ). Tällöin satunnaismuuttuja V = (n 1)s2 σ 2 = n i=1 ( Xi X σ ) 2 noudattaa eksaktisti χ 2 -jakaumaa vapausastein (n 1): V χ 2 (n 1) Kuusinen/Heliövaara 24
Frekvenssi ja suhteellinen frekvenssi Olkoon A jokin otosavaruuden S alkioiden ominaisuus. Poimitaan otosavaruudesta yksinkertainen satunnaisotos, jonka koko on n. Ominaisuuden A omaavien alkioiden lukumäärä satunnaisotoksessa, jonka koko on n, vastaa ominaisuuden A omaavien alkioiden frekvenssiä ja sitä merkitään f :llä. Ominaisuuden A suhteellinen frekvenssi ˆp määritellään: ˆp = f n Kuusinen/Heliövaara 25
Frekvenssien odotusarvo ja varianssi Frekvenssi f noudattaa eksaktisti binomijakaumaa parametrein n ja P r(a) = p: f Bin(n, p) Frekvenssin f odotusarvo ja varianssi ovat siis: jossa q = 1 p. E(f) = np V ar(f) = npq, Suhteellisen frekvenssin ˆp odotusarvo ja varianssi ovat: E(ˆp) = p V ar(ˆp) = pq n Kuusinen/Heliövaara 26
Suhteellisen frekvenssin normaaliapproksimaatio Suhteellinen frekvenssi ˆp noudattaa suurissa otoksissa approksimatiivisesti normaalijakaumaa: Standardoitu satunnaismuuttuja ˆp a N ( p, pq ) n Z = ˆp p pq/n noudattaa siten suurissa otoksissa approksimatiivisesti standardoitua normaalijakumaa: Z a N(0, 1) Kuusinen/Heliövaara 27
Estimointi Kuusinen/Heliövaara 28
Estimointi Tilastollisen tutkimuksen tärkeimpiä osatehtäviä on estimoida eli arvioida tutkimuksen kohteena olevaa ilmiötä koskevat havainnot generoineen prosessin mallina käytettävän todennäköisyysjakauman tuntemattomat parametrit ilmiötä koskevien havaintojen perusteella. Havaintojen funktiota, joka tuottaa estimaatteja parametrin todelliselle arvolle, kutsutaan parametrin estimaattoriksi. Kuusinen/Heliövaara 29
Estimaatti ja estimaattori Oletetaan, että satunnaismuuttuja X noudattaa todennäköisyysjakaumaa, jonka pistetodennäköisyys- tai tiheysfunktio f(x; θ) riippuu parametrista θ. Parametrin θ estimoimiseen käytetään havaintojen X 1, X 2,..., X n funktiota, eli tunnuslukua (eng. statistic) T = g(x 1, X 2,..., X n ) = ˆθ Funktiota T kutsutaan parametrin θ estimaattoriksi. Havaintoarvoista x 1, x 2,..., x n laskettua arvoa t = g(x 1, x 2,..., x n ) kutsutaan parametrin θ estimaatiksi. Kuusinen/Heliövaara 30
Hyvä estimaattori Todennäköisyysjakauman parametreille on tavallisesti tarjolla useita vaihtoehtoisia estimaattoreita. Seuraavat hyvyyskriteerit täyttävä estimaattori tuottaa järkeviä arvoja estimoitavalle parametrille: - Harhattomuus - Tyhjentävyys - Tehokkuus - Tarkentuvuus Kuusinen/Heliövaara 31
Piste-estimointi ja väliestimointi Todennäköisyysjakauman parametrin arvon estimointia kutsutaan piste-estimoinniksi. Parametrin estimaattiin on aina syytä liittää luottamusväliksi kutsuttu väli, joka sisältää estimoidun parametrin todellisen, mutta tuntemattoman arvon tietyllä valittavissa olevalla todennäköisyydellä. Luottamusvälin määräämistä kutsutaan väliestimoinniksi. Kuusinen/Heliövaara 32
Luottamusvälin määritys 1/2 Oletukset: - Satunnaismuuttuja X noudattaa jakaumaa f(x; θ). - X 1, X 2,..., X n on yksinkertainen satunnaisotos jakaumasta f(x; θ). - ˆθ = ˆθ(X 1, X 2,..., X n ) on θ:n estimaattori. Valitaan luottamustaso 1 α ja määrätään satunnaismuuttujat A = A(X 1, X 2,..., X n ) Y = Y (X 1, X 2,..., X n ) siten, että P r(θ ˆθ A) = α 2 P r(θ ˆθ + Y ) = α 2 Kuusinen/Heliövaara 33
Luottamusvälin määritys 2/2 Tällöin väli (ˆθ A, ˆθ + Y ) on parametrin θ luottamusväli luottamustasolla (1 α). Luottamusvälin konstruktiosta seuraa, että väli (ˆθ A, ˆθ + Y ) peittää tuntemattoman parametrin θ todellisen arvon todennäköisyydellä (1 α): P r(ˆθ A θ ˆθ + Y ) = 1 α Jos ˆθ:n jakauma on symmetrinen, pätee A = Y ja luottamusväli on muotoa (ˆθ A, ˆθ + A). Kuusinen/Heliövaara 34
Normaalijakautuneen estimaattorin määräämä luottamusväli, kun varianssi σ 2 tunnetaan Olkoon satunnaismuuttuja ˆθ N(θ, σ 2 ) parametrin θ harhaton estimaattori. Tällöin satunnaismuuttuja Z = ˆθ θ σ N(0, 1). Nyt pätee P r( z α/2 ˆθ θ σ z α/2 ) = 1 α. Tästä saadaan parametrin θ (1 α)-luottamusväliksi ˆθ z α/2 σ θ ˆθ + z α/2 σ. Kuusinen/Heliövaara 35
Normaalijakautuneen satunnaismuuttujan odotusarvon luottamusväli, kun varianssi σ 2 tunnetaan Olkoon X 1,..., X n yksinkertainen satunnaisotos normaalijakaumasta N(µ, σ 2 ). Oletetaan että σ 2 tunnetaan, mutta µ on tuntematon. Tällöin havaintojen aritmeettinen keskiarvo X noudattaa eksaktisti normaalijakaumaa: ) X N (µ, σ2 n Edellisen kalvon kaavasta odotusarvon µ (1 α) -luottamusväliksi saadaan X z α/2 σ n µ X + z α/2 σ n. Kuusinen/Heliövaara 36
Normaalijakauman odotusarvon luottamusväli Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos normaalijakaumasta N(µ, σ 2 ) ja olkoon X = havaintojen aritmeettinen keskiarvo s 2 = havaintojen harhaton otosvarianssi n = havaintojen lukumäärä t α/2 = t-jakauman arvo merkitsevyystasolla α/2 ja vapausasteilla (n 1). Normaalijakauman odotusarvon µ luottamusväli luottamustasolla (1 α) on muotoa ( X t α/2 ) s s, X + tα/2 n n Kuusinen/Heliövaara 37
Otoskoon määrääminen Oletetaan, että normaalijakauman varianssi σ 2 tunnetaan. Kuinka suuri otos on otettava, jotta odotusarvolle voidaan muodostaa (1 α)-luottamusväli, jonka pituus on 2A? Odotusarvon luottamusväli luottamustasolla (1 α) on σ X ± z α/2 n. Jotta luottamusvälin pituus olisi 2A, on oltava z α/2 σ n = A, josta voidaan ratkaista tarvittava otoskoko n n = ( ) zα/2 σ 2. A Kuusinen/Heliövaara 38
Normaalijakauman varianssin luottamusväli Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos normaalijakaumasta N(µ, σ 2 ) ja olkoon s 2 = havaintojen harhaton otosvarianssi n = havaintojen lukumäärä χ 2 1 α/2 ja χ2 α/2 = χ 2 -jakauman arvot merkitsevyystasoilla 1 α/2 ja α/2 ja vapausasteilla (n 1). Normaalijakauman varianssin σ 2 luottamusväli luottamustasolla (1 α) on muotoa ( (n 1)s 2, χ 2 α/2 (n 1)s2 χ 2 1 α/2 ) Kuusinen/Heliövaara 39