Tilastotieteen kertaus Vilkkumaa / Kuusinen 1
Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin jostakin jakaumasta Havaintojen perusteella tätä jakaumaa voidaan kuvailla ja mallintaa, ja jakaumaan liittyviä oletuksia voidaan testata Tilastotiede kehittää ja soveltaa tällaisia kuvailun, mallinnuksen ja testauksen menetelmiä Vilkkumaa / Kuusinen 2
Kuvailun ja päättelyn menetelmiä Kuvailun menetelmiä: - Tilastografiikka - Tilastolliset tunnusluvut - Tilastolliset mallit Päättelyn menetelmiä: - Tilastolliset mallit - Tilastollinen testaus Vilkkumaa / Kuusinen 3
Aineiston kerääminen Kohdistuuko tutkimus koko perusjoukkoon vai vain johonkin sen osaan? - Tutkimusta kutsutaan kokonaistutkimukseksi, jos perusjoukon kaikki alkiot tutkitaan. - Tutkimusta kutsutaan otantatutkimukseksi, jos perusjoukon alkioista vain osa tutkitaan Muutetaanko tutkimuksessa aktiivisesti tutkimuksen kohteiden olosuhteita? - Jos olosuhteita ei muuteta aktiivisesti, tutkimus perustuu suoriin havaintoihin. - Jos tutkitaan olosuhteiden muuttamisen vaikutusta tutkimuksen kohteisiin, tutkimus on koe. Vilkkumaa / Kuusinen 4
Kontrolloidut kokeet Kokeesta ei voida tehdä luotettavia johtopäätöksiä, ellei koe ole kontrolloitu: - Kokeessa on vertailtava vähintään kahden erilaisen käsittelyn vaikutuksia. - Käsittelyjen kohdistamisessa on käytettävä satunnaistusta. - Kokeessa on tehtävä riittävästi koetoistoja. Vilkkumaa / Kuusinen 5
Aineistojen kuvaaminen Vilkkumaa / Kuusinen 6
Frekvenssit ja havaintoarvojen jakauma Jos muuttuja on diskreetti, havaittujen arvojen jakaumaa kuvataan frekvessijakaumalla ja sitä vastaavalla graafisella esityksellä, joka on pylväsdiagrammi. Jos muuttuja on jatkuva, havaittujen arvojen jakaumaa kuvataan luokitellulla frekvessijakaumalla ja sitä vastaavalla graafisella esityksellä, joka on histogrammi. Histogrammissa frekvenssiä vastaa pinta-ala ja pylväsdiagrammissa korkeus. Muuttujan x mahdolliset arvot y 1, y 2,..., y m yhdessä niiden havaittujen frekvenssien f 1, f 2,..., f m kanssa muodostavat muuttujan x havaittujen arvojen x 1, x 2,... x n frekvenssijakauman. Siinä missä todennäköisyyksien summa on aina yksi, niin f i = n. Vilkkumaa / Kuusinen 7
Esimerkki 1 Pylväsdiagrammi 30 heiton frekvenssijakaumasta harhattomalla nopalla 8 Frequency 6 4 2 0 1 2 3 4 5 6 Vilkkumaa / Kuusinen 8
Esimerkki 2 Histogrammi 30 havainnon otoksesta jakaumasta N(0, 1) Vilkkumaa / Kuusinen 9
Havaintoaineiston tunnuslukuja Aritmeettinen keskiarvo: n ˉx = 1 n i=1 x i Otosvarianssi: s 2 = 1 n 1 n i=1 (x i ˉx) 2 = 1 n 1 ( n i=1 x 2 i nˉx 2 ) Otoskeskihajonta: s = s 2 Vilkkumaa / Kuusinen 10
Standardointi Standardoitujen havaintoarvojen z i = x i ˉx s x aritmeettinen keskiarvo ja otosvarianssi ovat, i = 1, 2,..., n ˉz = 1 n n i=1 z i = 0 s 2 z = 1 n 1 n (z i ˉz) 2 = 1 i=1 Vilkkumaa / Kuusinen 11
Vinous Olkoot m 2 = 1 n n (x i x) 2 m 3 = 1 n i=1 havaintoarvojen 2. ja 3. keskusmomentti. n (x i x) 3 i=1 Tunnuslukua c 1 = m 3 m 3/2 2 käytetään kuvaamaan havaintoarvojen jakauman vinoutta. - Jos c 1 0, on havaintoarvojen jakauma symmetrinen painopisteensä suhteen. - Jos c 1 > 0, on havaintoarvojen jakauma positiivisesti vino. - Jos c 1 < 0, on havaintoarvojen jakauma negatiivisesti vino. Vilkkumaa / Kuusinen 12
Huipukkuus Olkoot m 2 = 1 n n (x i x) 2 m 4 = 1 n i=1 havaintoarvojen 2. ja 4. keskusmomentti. n (x i x) 4 i=1 Tunnuslukua c 2 = m 4 m 2 2 3 käytetään kuvaamaan havaintoarvojen jakauman huipukkuutta. - Normaalijakautuneella havaintoaineistolla c 2 0. - Jos c 2 > 0, on havaintoarvojen jakauma huipukas (Normaalijakautuneeseen havaintoaineistoon verrattuna). - Jos c 2 < 0, on havaintoarvojen jakauma laakea (Normaalijakautuneeseen havaintoaineistoon verrattuna). Vilkkumaa / Kuusinen 13
Esimerkki - 30 havainnon otos jakaumasta N(0,1) Mean SD Min Q 1 Q 3 Max Skew Kurtosis Otos 0.08 1.23-2.04-0.57 0.99 2.66-0.40 0.06 N(0, 1) 0 1 - -0.68 0.68-0 0 Vilkkumaa / Kuusinen 14
Klikkeri-kysely Kuva esittää 50 havainnon aineiston histogrammia. Mistä jakaumasta arvelet aineiston olevan peräisin? 1. Tasajakaumasta, 2. Normaalijakaumasta, 3. F-jakaumasta, 4. Bernoulli-jakaumasta. 5 Frequency 4 3 2 1 0 0 0.5 1 1.5 2 2.5 3 3.5 4 Vilkkumaa / Kuusinen 15
Otos ja otosjakaumat Vilkkumaa / Kuusinen 16
Tilastollinen aineisto Tilastollinen aineisto koostuu tutkimuksen kohteita kuvaavien muuttujien havaituista arvoista. Tilastollisissa tutkimusasetelmissa havaintoarvoihin liittyy aina epävarmuutta ja satunnaisuutta. Vilkkumaa / Kuusinen 17
Tilastollinen malli Tilastollisella mallilla tarkoitetaan tutkimuksen kohteita kuvaavien satunnaismuuttujien todennäköisyysjakaumaa, jonka ajatellaan generoineen ko. satunnaismuuttujien havaitut arvot. Nämä todennäköisyysjakaumat riippuvat tavallisesti parametreista, joiden arvoja ei yleensä tunneta. Tilastollista mallia sovellettaessa kohdataan tavallisesti seuraavat parametreja koskevat ongelmat: - Parametrien arvoja ei tunneta ja ne on estimoitava eli arvioitava havaintoaineistosta. - Parametrien arvoista on olemassa oletuksia, joita halutaan testata havaintoaineiston antaman informaation avulla. Vilkkumaa / Kuusinen 18
Yksinkertainen satunnaisotos Olkoot X 1, X 2,..., X n riippumattomia, identtisesti jakautuneita satunnaismuuttujia, joilla on sama pistetodennäköisyys- tai tiheysfunktio f(x). Tällöin satunnaismuuttujat X 1, X 2,..., X n muodostavat yksinkertaisen satunnaisotoksen jakaumasta f(x). Vilkkumaa / Kuusinen 19
Havainnot ja havaintoarvot Olkoon X 1, X 2,..., X n yksinkertainen satunnaisotos jakaumasta f(x). Satunnaismuuttujia X 1, X 2,..., X n kutsutaan havainnoiksi. Kun otos on poimittu, satunnaismuuttujat X 1, X 2,..., X n saavat havaituiksi arvoikseen havaintoarvot jotka eivät ole satunnaisia. x 1, x 2,..., x n, Vilkkumaa / Kuusinen 20
Aritmeettisen keskiarvon odotusarvo ja varianssi Oletetaan, että havainnot X 1, X 2,..., X n muodostavat yksinkertaisen satunnaisotoksen satunnaismuuttujan X jakaumasta, jonka odotusarvo ja varianssi ovat E(X) = μ ja V ar(x) = σ 2. Havaintojen aritmeettisen keskiarvon ˉX odotusarvo ja varianssi ovat E( ˉX) = μ V ar( ˉX) = σ2 n Aritmeettisen keskiarvon standardipoikkeamaa D( ˉX) = σ/ n kutsutaan keskiarvon keskivirheeksi. Vilkkumaa / Kuusinen 21
Aritmeettisen keskiarvon otosjakauma, kun otos on normaalijakautunut Oletetaan, että havainnot X 1, X 2,..., X n muodostavat yksinkertaisen satunnaisotoksen normaalijakaumasta N(μ, σ 2 ). Tällöin havaintojen aritmeettinen keskiarvo ˉX noudattaa eksaktisti normaalijakaumaa: ) ˉX N (μ, σ2 n Standardoitu satunnaismuuttuja Z = ˉX μ σ/ n noudattaa eksaktisti standardoitua normaalijakaumaa: Z N(0, 1) Vilkkumaa / Kuusinen 22
Keskeinen raja-arvolause Olkoon X i, i = 1, 2,..., n, riippumattomia, samoin jakautuneita satunnaismuuttujia, joiden odotusarvo ja varianssi ovat E(X i ) = μ ja D 2 (X i ) = σ 2. Keskeisen raja-arvolauseen mukaan n:n suurille, mutta äärellisille arvoille pätee: ˉX n = 1 n n i=1 ) X i a N (μ, σ2 n Vilkkumaa / Kuusinen 23
Keskeinen raja-arvolause Beta(0.5,0.5), μ=0.5, σ=0.35 n=4 n=20 0 0.2 0.4 0.6 0.8 1 LogN(0,1), μ=1.65, σ=2.16 0 0.2 0.4 0.6 0.8 1 n=10 0 0.2 0.4 0.6 0.8 1 n=40 0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5 Vilkkumaa / Kuusinen 24
Otosvarianssin odotusarvo ja varianssi Oletetaan, että havainnot X 1, X 2,..., X n muodostavat yksinkertaisen satunnaisotoksen satunnaismuuttujan X jakaumasta, jonka odotusarvo ja varianssi ovat E(X) = μ ja V ar(x) = σ 2. Havaintojen otosvarianssin s 2 odotusarvo ja varianssi ovat E(s 2 ) = σ 2 V ar(s 2 ) = 2σ4 n 1 Vilkkumaa / Kuusinen 25
Otosvarianssin otosjakauma, kun otos on normaalijakautunut Oletetaan, että havainnot X 1, X 2,..., X n muodostavat yksinkertaisen satunnaisotoksen normaalijakaumasta N(μ, σ 2 ). Tällöin satunnaismuuttuja V = (n 1)s2 σ 2 = n i=1 ( Xi ˉX σ ) 2 noudattaa eksaktisti χ 2 -jakaumaa vapausastein (n 1): V χ 2 (n 1) Vilkkumaa / Kuusinen 26
Frekvenssi ja suhteellinen frekvenssi Olkoon A jokin otosavaruuden S alkioiden ominaisuus Poimitaan otosavaruudesta yksinkertainen satunnaisotos, jonka koko on n Ominaisuuden A omaavien alkioiden lukumäärä satunnaisotoksessa, jonka koko on n, vastaa ominaisuuden A omaavien alkioiden frekvenssiä ja sitä merkitään f :llä Ominaisuuden A suhteellinen frekvenssi ˆp määritellään: ˆp = f n Vilkkumaa / Kuusinen 27
Frekvenssien odotusarvo ja varianssi Frekvenssi f noudattaa eksaktisti binomijakaumaa Bin(n, p). Frekvenssin f odotusarvo ja varianssi ovat siis: missä q = 1 p. E(f) = np V ar(f) = npq, Suhteellisen frekvenssin ˆp odotusarvo ja varianssi ovat: E(ˆp) = p V ar(ˆp) = pq n Vilkkumaa / Kuusinen 28
Suhteellisen frekvenssin normaaliapproksimaatio Keskeisestä raja-arvolauseesta johtuen suhteellinen frekvenssi ˆp noudattaa suurissa otoksissa approksimatiivisesti normaalijakaumaa: Standardoitu satunnaismuuttuja ˆp a N ( p, pq n ) Z = ˆp p pq/n noudattaa siten suurissa otoksissa approksimatiivisesti standardoitua normaalijakumaa: Z a N(0, 1) Vilkkumaa / Kuusinen 29
Klikkeri-kysely Oletetaan, että koripallopelaajan todellinen vapaaheittoprosentti on 70%. Pelaaja heittää testissä 30 vapaaheittoa. Mitä jakaumaa koriin menneiden heittojen suhteellinen osuus approksimatiivisesti noudattaa? 1. N(0.7, 0.08 2 ) 2. N(0.4, 0.007 2 ) 3. N(0.7, 0.21 2 ) Mieti, millä todennäköisyydellä em. jakaumasta saadaan havaintoja, jotka ovat joko pienempiä kuin 0 tai suurempia kuin 1. Vilkkumaa / Kuusinen 30