TUTKIMUSKURSSI I (407040A-02), OSA A), KVANTITATIIVISEN TUTKIMUKSEN PERUSKURSSI, TILASTOLLISET ANALYYSIMENETELMÄT Jouni Peltonen, 2016 jouni.peltonen@oulu.fi ktk331 Jouni Peltonen
Miten kurssi suoritetaan, perustapaus: -TA-luentosarja ja harjoitusryhmät suoritetaan yhtenä kokonaisuutena (3 op) tekemällä joukko tilastoaineiston analyysiin liittyviä tehtäviä -analyysitehtäviä ja vuokaaviotehtävä Jouni Peltonen
Jos suoritat vain TA-luentosarjan (-02) -tee ensimmäisen pienryhmäkerran tehtävä- Kokonaisuus ja -joukko luentosarjaan perustuvia analyysitehtäviä ja vuokaaviotehtävä Jos suoritat vain harjoitusryhmät -tee joukko tietokonepohjaisia analyysitehtäviä Jouni Peltonen
TA-luentosarja: -johdanto -yksiulotteisen jakauman kuvaaminen -kaksiulotteisen jakauman kuvaaminen -tilastollisen päättelyn perusteita -estimointi -tilastollinen testaus Jouni Peltonen
1. JOHDANTO 1.1 Mitä tilastotiede on Empiirinen tutkimus: (1) tietojen hankinnan suunnittelu ja toteuttaminen, (2) aineiston analysointi, joka voidaan jakaa kahteen tilastotieteen osa-alueeseen (a) kuvailu ja (b) päättely ja (4) tulosten esittäminen. Jouni Peltonen
2. OTANTA JA OTANTAMENETELMÄT 2.1. Otantaan liittyvät peruskäsitteet -perusjoukko eli populaatio (population) -kokonaistutkimus ja otantatutkimus -otos (sample) ja otanta (sampling) -näyte Jouni Peltonen
2. OTANTA JA OTANTAMENETELMÄT 2.1. Otantaan liittyvät peruskäsitteet -perusjoukko eli populaatio (population) -kokonaistutkimus ja otantatutkimus -otos (sample) ja otanta (sampling) -näyte Jouni Peltonen
Otantatutkimus, jos (1) perusjoukko on hyvin suuri tai ääretön, (2) koko perusjoukon tutkiminen maksaisi liikaa, kestäisi pitkään tai olisi liian monimutkaista (3) mittaus tuhoaa tutkittavat yksiköt ja/tai (4) ei-otantavirheet saadaan näin pienenemään Edustava otos ja harhainen otos, demonstraatio Jouni Peltonen
Edustavuusanalyysi, esimerkki: Jouni Peltonen
Edustavuusanalyysi, esimerkki: Jouni Peltonen
2.3. Otantamenetelmät 2.3.1. Yksinkertainen satunnaisotanta (YSO) (Simple random sampling) Esimerkki YSO:sta: Jouni Peltonen
2.3.2. Systemaattinen otanta (SO) (systematic sampling) Esimerkki SO:sta: Jouni Peltonen
Nimi 1. A 2. B 3. C 4. D 5. E 6. F 7. G 8. H 9. I 10. J 11. K 12. L Poiminta N = 12 n = 4 k = N/n = 12/4 = 3, joka kolmas havaintoyksikkö poimitaan. Aloituskohta arvotaan a) koko listasta b) 1. poimintavälistä. Jouni Peltonen
Nimi Poiminta 1. A 2. B 3. C 4. D 5. E 6. F 7. G 8. H 9. I 10. J 11. K 12. L Jouni Peltonen
Nimi Poiminta 1. A 2. B X 3. C 4. D 5. E X 6. F 7. G 8. H X 9. I 10. J 11. K X 12. L Jouni Peltonen
Nimi Poiminta 1. A 2. B X 3. C 4. D 5. E X 6. F 7. G 8. H X 9. I 10. J 11. K X 12. L MIHIN TÄTÄ ENÄÄ TARVITAAN? Jouni Peltonen
Nimi ja ikä Poiminta 1. A 18 2. B 21 X 3. C 22 4. D 25 5. E 29 X 6. F 32 7. G 37 8. H 41 X 9. I 45 10. J 50 11. K 55 X 12. L 62 Jouni Peltonen
2.3.3. Ositettu otanta (OO) (stratified sampling) Tasainen kiintiöinti Jokaisesta ositteesta poimitaan otokseen yhtä monta havaintoa eli n 1 = n 2 =... = n L = n/l. Esimerkki: Jouni Peltonen
2.3.3. Ositettu otanta (OO) (stratified sampling) Tasainen kiintiöinti Jokaisesta ositteesta poimitaan otokseen yhtä monta havaintoa eli n 1 = n 2 =... = n L = n/l. Esimerkki: Jouni Peltonen
Suhteellinen kiintiöinti Ositteiden otoskoot määrätään perusjoukon suhteessa. Suuresta ositteesta valitaan suuri otos ja pienestä ositteesta pieni. Ositteen i otoskoko voidaan määrätä seuraavalla kaavalla: n n N / i i N Jouni Peltonen
Esimerkki: L 1 : N 1 = 379 L 2 : N 2 = 6621 N = 7000 n = 300 n1 n N1 / N 300 379 / 7000 16,24 16 n2 n N2 / N 300 6621/ 7000 283,76 284 Jouni Peltonen
Perusjoukko: Otos, suhteellinen kiintiöinti: Otos, tasainen kiintiöinti: Jouni Peltonen
2.3.4. Ryväsotanta (RO) (cluster samplig) Poiminta on yksi- tai monivaiheista: (1) Valitaan havaintoyksikköä suurempia kokonaisuuksia ja tutkitaan näin saatuihin ryppäisiin kuuluvat havaintoyksiköt tai (2) Valitaan suurempia kokonaisuuksia (esimerkiksi kouluja, koululuokkia) ja tämän jälkeen suoritetaan valituksi tulleiden ryppäiden sisällä uusi varsinaisiin havaintoyksikköihin kohdistuva otanta. Jouni Peltonen
Esimerkki: N = 500, IQ kiinnostaa Jos YSO, n = 30 Jos ryväsotanta, neljä ryvästä, n 100 Jouni Peltonen
1) Jos ryvästyminen on tutkittavien ominaisuuksien suhteen sattumavaraista Poimitaan neljä arvottua ryvästä: vrt. Jouni Peltonen
2) Jos ryvästyminen ei ole tutkittujen ominaisuuksien suhteen sattumanvaraista: Poimitaan neljä arvottua ryvästä: vrt. Jouni Peltonen
3.TAUSTAA KVANTITATIIVISEN/ TILASTOLLISEN AINEISTON ANALYYSILLE 3.1. Mittaus ja mitta-asteikot Havainto- tai tilastoyksikkö, tilastollinen muuttuja ja mittaus Jouni Peltonen
-havainnointi on mittausta -mittauksen kohde on havainto- tai tilastoyksikkö a i, erityisesti jokin siihen liittyvä ominaisuus x, y, z, Näitä ominaisuuksia kutsutaan tilastollisiksi muuttujiksi. -mittaustapahtumassa tilastoyksikön a i ominaisuuteen eli tilastolliseen muuttujaan x j liitetään mittaluku tai mittasymboli x ij. Jouni Peltonen
-esimerkkejä mittaustapahtumasta: Jouni Peltonen
Mittaustulokset kootaan yleensä havaintomatriisiin: Jouni Peltonen
-mittari eli mittafunktio: -sääntö tai sääntökokoelma, ohje, neuvo Jouni Peltonen
Mitta-asteikot Jouni Peltonen
(A) luokitteluasteikko: Jouni Peltonen
(B) Järjestysasteikko: Jouni Peltonen
Esimerkki 3.5, sidoksen käsite. On mitattu järjestysasteikollinen tuntiaktiivisuus-muuttuja, tehdään raaka-arvoille muunnos järjestysluvuiksi: Jouni Peltonen
Esimerkki 3.5, sidoksen käsite. On mitattu järjestysasteikollinen tuntiaktiivisuus-muuttuja, tehdään raaka-arvoille muunnos järjestysluvuiksi: (x) R(x) 4,5 3 1,5 1,5 6 4,5 7 8,5 8,5 Jouni Peltonen
(C) Välimatka-asteikko: Jouni Peltonen
(C) Suhdeasteikko ja absoluuttinen asteikko: Jouni Peltonen
johdetut suureet: -"suhdesuureet", pinta-ala jne. -myös summamuuttujaa voi ajatella johdettuna suureena! Moniulotteiset suureet eli vektorisuureet Joissain tapauksissa mittaustaso voi asettua edellä esitettyjen asteikkojen väliin! Erityiskysymys: Likert-skaalan tuottaman aineiston mitta-asteikko? Jouni Peltonen
4. MUUTTUJIEN KUVAAMINEN Huomio: kaikki empiirinen "tieto" on jo olemassa havaintomatriisissa! Jouni Peltonen
Correlati ons Spearman's rho KodinSES Älykkyy s Koulumenes ty s Correlation Coef ficient Sig. (2-t ailed) N Correlation Coef ficient Sig. (2-t ailed) N Correlation Coef ficient Sig. (2-t ailed) N Koulume KodinSES Älykkyy s nesty s 1, 000,062,498.,827,059 15 15 15,062 1, 000,454,827.,089 15 15 15,498,454 1, 000,059,089. 15 15 15 Jouni Peltonen
Miten valita tilastollinen/graafinen esitystapa? (1) mitä taulukon tai kuvion avulla halutaan sanoa ja (2) mille mittaustasolle tai mittaasteikoille sopii mikäkin esitys. Jouni Peltonen
4.1.1. Yksiulotteinen frekvenssijakauma eli suora jakauma Tiettyyn luokkaan Ei kuuluvaa havaintojen lukumäärää kutsutaan frekvenssiksi ja merkitään fi. Jouni Peltonen
Jouni Peltonen
Esimerkki: Seuraava aineistossa on esitetty erään opiskelijajoukon tilanne opintojen valmistumisen suhteen (0 = keskeytti opinnot, 1 = valmistui ja 2 = muu tilanne): 0 0 0 0 0 1 1 1 1 1 2 2 2 Jouni Peltonen
Kysymys: frekvenssitaulu antaa ilman muuta nopeamman yleiskuvan kuin matriisi tai vastaava, mutta samalla menetetään informaatiota. Mitä menetettiin? Jouni Peltonen
Esimerkki 4.2. Seuraava aineisto on eräälle kurssille osallistuneiden opiskelijoiden iät. 17 17 18 18 18 19 19 19 19 22 24 26 27 28 28 28 28 29 29 31 31 32 32 35 35 Luokitus voi olla (1) tasavälinen Jouni Peltonen
Luokitus voi olla (1)Tasavälinen Add 1. Miten saadaan alkuperäisestä kvantitatiivisesta aineistosta tasavälinen luokitus halutulla luokkien lukumäärällä? (Keinänen 2008) Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Pyöristetyt luokkarajat 16 17 20 21 24 25 28 29 32 33 36 37 16,5 20,5 24,5 28.5 32,5 36,5 ikä (vuosia) Todelliset luokkarajat Jouni Peltonen
Luokkavälin pituus luokituksessa voidaan laskea (4.1.)c i = luokan E i todellinen yläraja - luokan E i todellinen alaraja. Esim. c 1 = 20,5-16,5 = 4 Luokan E i todellinen luokkakeskus x i määrätään pyöristetyn ylärajan ja alarajan keskiarvona: Jouni Peltonen
(4.2.) x i = ½ ( luokan E i yläraja + luokan E i alaraja) Esim. x 1 = ½ ( 20 + 17) = ½ 37 = 18,5. Jouni Peltonen
Taulukko 4.2. Kurssille osallistuneiden opiskelijoiden iän frekvenssijakauma Jouni Peltonen
i l cp c V1 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 T SM T Jouni Peltonen
Varoitus: luokitusta voi käyttää tulosten manipulointiin! Huomio: luokitus - pyöristys - mittaustarkkuus Jouni Peltonen
Luokkien sopiva lukumäärä? Jouni Peltonen
Luokkien sopiva lukumäärä? Jouni Peltonen
Suhteellinen frekvenssi fi/n on frekvenssin fi osuus kaikista muuttujan saamista arvoista: Tavallisesti suhteelliset frekvenssit esitetään prosentteina (100 % fi). Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
4.1.2. Yksiulotteisen frekvenssijakauman graafisesta kuvaamisesta Pylväsdiagrammi Jouni Peltonen
Jouni Peltonen
Histogrammi Histogrammi muodostuu suorakulmioista, joiden kantojen kärkipisteinä ovat todelliset luokkarajat, i = 1, 2,, l ja korkeuksina vastaavat frekvenssit f i. Jouni Peltonen
Jouni Peltonen
Add. Histogrammi vs. Pylväsdiagrammi Muuttuja x 1 on saatu arpomalla z- jakaumasta arvoja. Jouni Peltonen
Pylväsdiagrammi Histogrammi Jouni Peltonen
Jouni Peltonen
4.1.3. Yhden muuttujan tilastollisesta kuvaamisesta - empiirisen jakauman tunnuslukuja Jouni Peltonen
Jouni Peltonen
(B) Mediaani (Md) on keskimmäinen havaintoarvo (tai sitä vastaava ekvivalenssiluokka) järjestetyssä havaintojoukossa, kun havaintojen määrä n on pariton. Jos n on parillinen, mediaani on jompikumpi keskimmäisistä arvoista tai (vähintään välimatkaasteikolla) niiden keskiarvo. Jouni Peltonen
Jouni Peltonen
(C) Fraktiilit, laatikko-janakuvio: -mediaani on 50 % fraktiili. -yleisesti p-prosentin fraktiili x p jakaa järjestetyn havaintoaineiston kahteen osaan siten, että korkeintaan fraktiilin x p suuruisia havaintoja on p % kaikista havainnoista 25 % fraktiilia kutsutaan alakvartiiliksi (merkitään Q 1 ) 75 % fraktiili on nimeltään yläkvartiili (merkitään Q 3 ). Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Desiilit ovat 10 %, 20 %,..., 90% fraktiileja. Jouni Peltonen
x x x Suurin arvo 90 % desiili Äärimmäiset arvot Yläkvartiili Q3 Mediaani Md 50 % arvoista Alakvartiili Q1 x x 10 % desiili Pienin arvo Äärimmäiset arvot Jouni Peltonen
ulompi yläraja * 119 extreme-/far outeli voimakkaasti poikkeava arvo sisempi yläraja askel askel sisempi alaraja Q 3 Md Q 1 (2. askel) (2. askel) Joko a) 1,5. ( Q 3 -Q 1 ) = askel tai b) x ( n ) - Q 3 Q 3 -Q 1 (kvartiilivälin pituus) Joko a) 1,5. ( Q 3 -Q 1 ) = askel tai b) - x (1) Q 1 Outlier-/outsideeli poikkeava arvo ulompi alaraja Jouni Peltonen
Jouni Peltonen
( x,, (C) Aritmeettinen keskiarvo (M, ) Kysymys: mitä aritmeettinen keskiarvo muuttujan jakaumasta kertoo? Jouni Peltonen
Jouni Peltonen
( x,, Leikattu keskiarvo, Winsoroitu keskiarvo ja muut robustit keskiarvoestimaattorit Esimerkki: Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Figure 7. Mean and standard deviation of male and female subjects in IQ (RPM) Jouni Peltonen
Figure 7. Distributions of male and female subjects in IQ (RPM) Jouni Peltonen
Figure 8. Pre-treatment and post-treatment means of IQ Jouni Peltonen
Hajontaluvut Miksi hajonnan mittaaminen tieteellisessä tutkimuksessa on vähintään yhtä tärkeää kuin jakauman sijainnin? Jouni Peltonen
(A) Luokitteluasteikolle sopivia hajontalukuja: entropia ja entropiasuhde, laadullisen vaihtelun indeksi (B) Vähintään järjestysasteikolle sopivia hajonnan mittoja: (C) Vähintään intervalliasteikolle sopivia hajonnan mittoja: Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Esimerkki: keskipoikkeaman, otosvarianssin ja otoskeskihajonnan laskeminen Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Momentit, vinous ja huipukkuus Muuttujan x k:s momentti origon suhteen eli origomomentti on Muuttujan x k:s keskusmomentti eli momentti keskiarvon suhteen on Jouni Peltonen
Kuvio 4.16. Oikealle vino eli positiivisesti vino jakauma Jouni Peltonen
Kuvio 4.17. Vasemmalle vino eli negatiivisesti vino jakauma Jouni Peltonen
Vinousmittoja: Jouni Peltonen
Huipukkuus ja huipukkuusmitat: Mesokurtinen (normaalijakauma) Leptokurtinen (normaalijakaumaa huipukkaampi) Platykurtinen (normaalijakaumaa latteampi/ laakeampi) Jouni Peltonen
Esimerkki: Tarkastellaan empiirisen muuttujan jakauman vinoutta ja huipukkuutta. Kuvio 4.14. Läheisesti normaalijakaumaa noudattavan muuttujan histogrammi Jouni Peltonen
Esimerkki: Tarkastellaan empiirisen muuttujan jakauman vinoutta ja huipukkuutta. Jouni Peltonen
4.2. Kaksiulotteisen jakauman (kahden muuttujan) kuvaaminen Kaksiulotteisen jakauman käsite Jouni Peltonen
4.2. Kaksiulotteisen jakauman (kahden muuttujan) kuvaaminen Kaksiulotteisen jakauman käsite Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Muuttujaparin (x, y) kaksiulotteisella empiirisellä jakaumalla tarkoitetaan taulukkoa Jouni Peltonen
Luokitteluasteikollisten muuttujien kaksiulotteinen kuvaaminen
Havaittu (solu)frekvenssi f o Odotettu frekvenssi f e Ehdollinen prosenttinen frekvenssi tai riviprosentti Jouni Peltonen
Kysymys: mitä keskeistä taulukosta havaitaan ehdollisia prosentuaalisia osuuksia tarkastelemalla?
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Luokitteluasteikolliset muuttujat: kontingenssitauluun perustuvat riippuvuusluvut Jouni Peltonen
Jouni Peltonen
Tehtävä: laske edellisen esimerkin Khiin neliö arvon perusteella C:n arvo esimerkkiaineistossa. Jouni Peltonen
Vähintään järjestysasteikolliset muuttujat Jouni Peltonen
Jouni Peltonen
Kysymys: Mitä Spearmanin järjestyskorrelaatiokerroin ilmaisee? Mitä kaavassa "tapahtuu"? Jouni Peltonen
Vähintään välimatka-asteikolliset muuttujat Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Kysymys: Mitä Pearsonin tulomomenttikorrelaatiokerroin ilmaisee? Mitä kaavassa "tapahtuu"? Jouni Peltonen
......... y.................................................. y........................................................ y............................................................................... a) ei korrelaatioita, r = 0 x b)positiivinen lineaarinen korrelaatio, r saa positiivisen arvon x c) negatiivinen lineaarinen korrelaatio, r saa negatiivisen arvon x y......... y......... y........................... d) täydellinen posiitivinen lineaarinen riippuvuus, r =1 x e) täydellinen negatiivinen lineaarinen riippuvuus, r =-1 x f) nonlineaarinen riippuvuus, r = lähellä nollaa x Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
a RP S N RP S N Korrelaatiokertoimien tulkinnasta ja käyttämisestä (1) mitta-asteikot; (2) Jos r xy = 0, on silti mahdollista, että x-y (3) kaksiulotteiset outlier-arvot: Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
Jouni Peltonen
(4) Ryhmien yhdistäminen ja erottaminen: Jouni Peltonen
(4) Huomio: tutkimusongelmat voivat olla myös muotoa Miten x:n ja y:n yhteydet eroavat toisistaan ryhmissä 1, 2,, k? Miten z moderoi x:n ja y:n yhteyttä? Miten z:n tavat moderoida x:n ja y:n yhteyttä eroavat toisistaan ryhmissä 1, 2,, k? Jouni Peltonen
(4) Ryhmien yhdistäminen ja erottaminen: (5) Muuttujien mittayksiköt ja niiden vaihtelun määrä vaikuttavat diagrammiin (6) Vain Pearsonin tulomomenttikorrelaatiokerroin on perusjoukon korrelaatiokertoimen estimaattori. (7) Kahden muuttujan välinen korkea korrelaatio ei osoita kausaalisuhdetta. Miksi ei? Jouni Peltonen
Esimerkki 5.7. Keskustan pysäkiltä lähtee linja-autoja linnanmaalle 10 minuutin välein. Pysäkille saapuvan matkustajan minuutteina ilmoitettu odotusaika on satunnaismuuttuja, jonka arvona voi olla mikä hyvänsä välillä [0, 10[ oleva reaaliluku. Jos matkustaja ei tunne aikataulua, ovat kaikki odotusajat (ainakin matkustajan subjektiivisesta näkökulmasta) yhtä mahdollisia. Jakaumaa voidaan tällöin kuvata funktiolla, joka saa vakioarvon a välillä [0, 10[. Vakion a arvoa määriteltäessä otetaan lähtökohdaksi mahdollisten odotusaikojen muodostama väli [0, 10[. Tämän ja suoran p i = a väliin jää suorakulmion muotoinen alue, jonka pintaala asetetaan vastaamaan varman tapauksen todennäköisyyttä (1). Täten 10 a = 1, josta a = 1/10. Näin saatu funktio f(x) = 1/10, kun 0 x < 10 on kyseisen satunnaismuuttujan tiheysfunktio.
Pyöristyksistä:
Olkoon koeryhmä 1 ja kontrolliryhmä 2. Jokaiselle näiden ryhmien jäsenelle lasketaan erotuspistemäärä d lopputestin ja alkutestin erotuksena. Testauskelpoiset tilastolliset Hypoteesit voidaan nyt muotoilla esimerkiksi seuraavasti: H 0 : d 1 d 2 H 0 : d 1 > d 2