Määrälliset tutkimusmenetelmät

Samankaltaiset tiedostot
OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Perusnäkymä yksisuuntaiseen ANOVAaan

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Harjoittele tulkintoja

I Keskiarvot ja hajonnat muuttujista 3-26 niin, että luokittelevana muuttujana on muuttuja 2 eli sukupuoli

HAVAITUT JA ODOTETUT FREKVENSSIT

1. a) Luettele hyvän kvantitatiivisen tutkimuksen perusvaatimukset. b) Miten tutkimusraportissa arvioit tutkimuksen luotettavuutta?

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Muuttujien väliset riippuvuudet esimerkkejä

Kandidaatintutkielman aineistonhankinta ja analyysi

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Ohjeita kvantitatiiviseen tutkimukseen

RISTIINTAULUKOINTI JA Χ 2 -TESTI

Testejä suhdeasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille

Hypoteesin testaus Alkeet

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Aki Taanila TILASTOLLINEN PÄÄTTELY

TUTKIMUSOPAS. SPSS-opas

Johdatus tilastotieteeseen Testit järjestysasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

ARVIOINTIPERIAATTEET

KAHDEN RYHMÄN VERTAILU

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

II Tilastollisen aineiston ja analyysin edellytysten tarkistaminen

Ratkaisuja luvun 15 tehtäviin

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Estimointi. Otantajakauma

Kvantitatiiviset menetelmät

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTP5, luento Luottamusväli, määritelmä

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

Teema 9: Tilastollinen merkitsevyystestaus

Mediaanikorko on kiinteäkorkoiselle lainalle korkeampi. Tämä hypoteesi vastaa taloustieteen käsitystä korkojen määräytymismekanismista.

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

MTTTP1, luento KERTAUSTA

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Tutkimusmenetelmät I Määrällisen tutkimuksen osuus (2.5 op)

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Tutkimusmenetelmät I

Aki Taanila TILASTOLLINEN PÄÄTTELY

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Mat Tilastollisen analyysin perusteet. Testit suhdeasteikollisille muuttujille. Avainsanat:

Tutkimuksen suunnittelu / tilastolliset menetelmät. Marja-Leena Hannila Itä-Suomen yliopisto / Terveystieteiden tdk

Frequencies. Frequency Table

MTTTP1, luento KERTAUSTA

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

1 TILASTOJEN KÄYTTÖ 7. Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

TESTINVALINTATEHTÄVIEN VASTAUKSET

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Lauri Tarkkonen: Erottelu analyysi

Raija Leppälä. Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla

I Tilastollisen aineiston ja analyysin edellytysten tarkistaminen. - Muunnokset, uudelleen koodaaminen, summamuuttujien luominen

10. laskuharjoituskierros, vko 14, ratkaisut

SPSS-perusteet. Sisältö

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Sisällysluettelo SISÄLLYSLUETTELO...6 LYHYT SANASTO VASTA-ALKAJILLE JOHDATUS PARAMETRITTOMIIN MENETELMIIN...9

Sovellettu todennäköisyyslaskenta B

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Harjoitus 7: NCSS - Tilastollinen analyysi

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Tutkitaan iän vaikutusta vastauksiin monella vaihtoehtoisella tavalla

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

BIOSTATISTIIKKAA ESIMERKKIEN AVULLA. Kurssimoniste (luku 4) Janne Pitkäniemi. Helsingin Yliopisto Kansanterveystieteen laitos

Sovellettu todennäköisyyslaskenta B

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu

Hierarkkiset koeasetelmat. Heliövaara 1

Otoskoko 107 kpl. a) 27 b) 2654

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

MTTTP1, luento KERTAUSTA

Väliestimointi (jatkoa) Heliövaara 1

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?

UNIVERSITY OF JYVÄSKYLÄ SCHOOL OF BUSINESS AND ECONOMICS. Heikki Karjaluoto. SPSS opas markkinatutkijoille

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Transkriptio:

Määrälliset tutkimusmenetelmät I (4 op) Taina I. Lehtinen 09-191 28 307 PL 53 Fabianinkatu 32-00014 Helsingin yliopisto Taina.Lehtinen@Helsinki.FI 4. Tilastolliset testit Reliabiliteettikerroin Parametriset testit t-testit Yhden otoksen t-testi Kahden riippumattoman otokset t-testi Kahden riippuvan otoksen t-testi Varianssianalyysi Ei-parametriset testit Mann-Whitneyn U-testi Wilcoxonin merkittyjen järjestyslukujen testi Kruskal-Wallis Taina I. Lehtinen 1

Reliabiliteetti (ks. Nummenmaa 2009, 356) Testimuuttuja on usein useasta väittämästä (osio) muodostettu summamuuttuja Ennen summamuuttujan muodostamista on tutkittava, miten summattavat osiot sopivat yhteen Cronbachin alfa-kerroin soveltuu yhdistettyjen muuttujien (summamuuttujien) ja useita osioita sisältävien testien sisäisen konsistenssin (yhdenmukaisuuden) tarkasteluun Cronbachin alfa () 0 1 Heikkilä, T. (2001): ' mielellään yli 0.70 Nunnally (1970): 0.50 riittävä Esim. 'Ammatillisen peruskoulutuksen hankkiminen on ollut minulle tuskien taival' (1=TSM,, 5=TEM) 'Opiskelu on aina ollut minulle helppoa' (1=TSM,, 5=TEM) 'Osaan nostaa luettavasta materiaalista olennaisen esiin (1=TSM,, 5=TEM) vaihtelee 0 ja 1 välillä, mitä lähempänä 1:stä, sitä paremmin osiot sopivat yhteen (korrelaatiot vahvoja) voidaan muodostaa yhdistetty muuttuja (summamuuttuja) 4 Taina I. Lehtinen 2

Analyze Scale Reliability Analysis Scale: SUBJEKTIIVINEN ONNELLISUUS Case Processing Summary N % Cases Valid 41 97,6 Excluded a 1 2,4 Total 42 100,0 a. Listwise deletion based on all variables in the procedure. Reliability Statistics Cronbach's Alpha N of Items 0,635 4 Subjektiivinen onnellisuus 1. muuttuja Subjektiivinen onnellisuus 2. muuttuja Subjektiivinen onnellisuus 3. muuttuja Subjektiivinen onnellisuus 4. muuttuja Scale Mean if Item Deleted Item-Total Statistics Scale Variance if Item Deleted Corrected Item-Total Correlation Cronbach's Alpha if Item Deleted 12,12 12,910,506,530 12,98 8,274,672,332 12,80 10,261,622,411 14,71 15,512,027,823 5 Tilastolliset testit Tilastollisilla testeillä tarkoitetaan menetelmiä, joiden avulla tehdään hypoteeseja koskevia johtopäätöksiä edellä hahmottelimme testaamisen perusteita keskiarvon keskivirheen ja normaalijakauman todennäköisyyksiin perustuvan päättelyn avulla (yhden otoksen z- testi) Tilastolliset testit noudattavat yleisemminkin samaa logiikkaa: lasketaan testisuure ja katsotaan mihin kohtaan tunnettua todennäköisyysjakaumaa se sijoittuu eri testit perustuvat erilaisiin tn.jakaumiin, mutta tulkinta sama jos testisuure sijoittuu sellaiselle alueelle, jonne sijoittumisen tn. on pieni (alle 0.05), H 0 hylätään 6 Taina I. Lehtinen 3

Tilastolliset testit jaetaan parametrisiin ja eiparametrisiin sen perusteella, millaisia jakaumia testit hyödyntävät Parametrinen testi: testimuuttujat vaaditun jakauman mukaisia (esim. normaalijakauma) testimuuttujat vähintään välimatka-asteikollisia aineistot riittävän suuria (yli 30 tilastoyksikköä) mahdollisia lisäoletuksia Ei-parametrinen testi: testimuuttujat eivät ole vaaditun jakauman mukaisia (esim. normaalijakauma) testimuuttujat luokittelu- tai järjestysasteikollisia aineistot pieniä (alle 30 tilastoyksikköä) 7 Normaalisuuden tarkastelu muuttuja vähintään välimatka-asteikollinen 1. Shapiro-Wilkin testi (n 50) tai Kolmogorov-Smirnovin testi (n 50) ovat herkkiä arvioimaan jakauman ei-normaaliksi, vaikka poikkeama olisi hyvin pieni 2. lasketaan vinous (skewness g 1 ) ja huipukkuus (kurtosis g 2 ) jakauma normaali jos sekä g 1 että g 2 itseisarvoltaan ykköstä pienempiä (Nummenmaa 2009, 155) jakauma normaali, jos (Heikkilä 2008, 173) -1.96 g 1 jaettuna keskivirheellään +1.96-1.96 g 2 jaettuna keskivirheellään +1.96 3. jakauman muodon visuaalinen tarkastelu 8 Taina I. Lehtinen 4

Testauksen suorittaminen Aiemmin testisuureet laskettiin kaavojen avulla ja kriittisten p-arvojen taulukosta katsottiin merkitsevyystaso Nykyään tilasto-ohjelmat laskevat valitun testin testisuureen (z, t, U, F, 2 ) Ohjelma laskee myös, mihin kohtaan otantajakaumaa laskettu testisuure sijoittuu (mikä on tn. saada testisuureen arvo), p-value tai Sig. 9 t-testit Parametrsisia testejä tehdään jakaumien keskiarvoa koskevia päätelmiä pohjautuvat Studentin t-jakaumaan tietyin vapausastein df testit perustuvat keskiarvon keskivirheen käyttöön jakaumien vertailussa Yhden otoksen t-testi (One-sample t-test) Kahden riippumattoman otoksen t-testi (Independent-Samples t-test) Kahden riippuvan otoksen t-testi, toistettujen mittausten t-testi (Paired-Samples t-test) 10 Taina I. Lehtinen 5

Yhden otoksen t-testi Otoksesta laskettua keskiarvoa voidaan verrata kriittiseen keskiarvoon (esim. aiemmassa tutkimuksessa saatu arvo, populaation tunnettu keskiarvo) määrittelemällä testisuure (t-testisuure) hieman toisella tavalla kuin aiemmin z-testissä, eli populaation hajonta korvataan otoksesta lasketulla keskihajonnalla H 0 : otoksen x = populaation tai joku muu tunnettu H 1 : otoksen x populaation tai joku muu tunnettu t = x μ s n df = n 1 11 12 Taina I. Lehtinen 6

Kahden riippumattoman otoksen t-testi Testataan poikkeavatko kaksi ryhmää toisistaan jonkin ominaisuuden (testimuuttuja) suhteen, poikkeavatko kahden ryhmän keskiarvot Ryhmissä eri henkilöt (siis mittaukset toisistaan riippumattomia) Riippumattomien otosten t-testin oletukset testimuuttuja vähintään välimatka-asteikko testimuuttujan jakaumat noudattavat normaalijakaumaa varianssit molemmissa ryhmissä yhtä suuret otoskoko molemmissa ryhmissä n 20 jos oletukset eivät päde, valitaan ei-parametrinen Mann-Whitneyn U-testi 13 H 0 : ryhmien keskiarvot samat H 1 : ryhmien keskiarvot poikkeavat toisistaan H 0 : x ryhmä1 = x ryhmä2 H 1 : x ryhmä1 x ryhmä2 t = x1 x2 s1 2 n1 s12 n2 t-testisuure noudattaa t-jakaumaa vapausastein df = n 1 + n 2 2 14 Taina I. Lehtinen 7

Kiusaaminen = Lapsen kokemus siitä, kuinka paljon häntä kiusataan koulussa 1=ei ollenkaan, 10=erittäin paljon 15 16 Taina I. Lehtinen 8

17 Kiusatuksi tuleminen, 1=ei ollenkaan, 10=erittäin paljon Group Statistics Sukupuoli Std. Std. Error N Mean Deviation Mean Tyttö 10 4,60 2,797,884 Poika 10 4,50 2,321,734 Kiusatuksi tuleminen, 1=ei ollenkaan, 10=erittäin paljon Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances Independent Samples Test F Sig. t df t-test for Equality of Means Sig. (2-tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference Lower Upper 1,361,259,087 18,932,100 1,149 2,315 2,515,087 17,409,932,100 1,149 2,321 2,521 18 Taina I. Lehtinen 9

Kahden riippuvan otoksen t-testi (toistettujen mittausten t -testi) Samoille henkilöille tehty kaksi mittausta, ei luokittelumuuttujaa Tutkittavat: Mittaus1 Käsittely Mittaus2 Riippuvien otosten t-testin oletukset testimuuttujat vähintään välimatka-asteikko testimuuttujien jakaumat noudattavat normaalijakaumaa jos oletukset eivät päde, voidaan valita ei-parametrisista esim. Wilcoxonin merkittyjen järjestyslukujen testi 19 20 Taina I. Lehtinen 10

Matriisin muuttuja Re_aika kuvaa reaktioaikaa perustilanteessa ja muuttuja Re_aika16cl kuvaa reaktioaikaa sen jälkeen kun koehenkilö on nauttinut 16 cl alkoholia Esim. Tutkitaan onko perustilanteen reaktioajan ja alkoholin nauttimisen jälkeisen reaktioajan keskiarvoissa eroa H 0 : x Reaktioaika = x Reaktioaika 16 cl jälkeen H 1 : x Reaktioaika x Reaktioaika 16 cl jälkeen 21 Paired Samples Statistics Mean N Std. Deviation Std. Error Mean Pair 1 Re_aika 239,60 10 53,125 16,800 Re_aika_16cl 356,90 10 77,192 24,410 Paired Samples Correlations N Correlation Sig. Pair 1 Re_aika & Re_aika_16cl 10,351,320 Paired Samples Test Paired Differences Pair 1 Re_aika - Re_aika_16cl Mean Std. Deviation Std. Error Mean 95% Confidence Interval of the Difference Lower Upper t df Sig. (2-tailed) -117,300 76,833 24,297-172,263-62,337-4,828 9,001 22 Taina I. Lehtinen 11

Alkoholin nauttimisen jälkeinen reaktioaika (x=356.90) on suurempi kuin perustilanteen reaktioaika (x=239.60) Ero = -117.3, eron otantajakauman keskivirhe = 24.297, ero sijoittuu otantajakaumassa 4.828 keskihajonnan mitan päähän keskiarvon alapuolelle, jonne sijoittumisen tn. p=0.001 H 0 hylätään, riski tehdä hylkäämisvirhe pieni (alle 0.05) kahden ryhmän reaktioaikojen x:t eroavat Tulkinta: Reaktioaika pitenee alkoholin nauttimisen jälkeen t(9) = -4.828, p = 0.001 23 Mann-Whitneyn U-testi Ei-parametrinen testi (eli vapaampi jakauman muotoa koskevista oletuksista) kahden riippumattoman otoksen t-testin ei-parametrinen vastine Perustuu järjestyslukujakaumien tarkasteluun eli havainnot muutetaan järjestysluvuiksi verrataan testimuuttujan mediaaneja luokitteluasteikkoisen muuttujan kahdessa ryhmässä U = n 1 * n 2 + n1(n1+1) 2 U 1 = n 1 * n 2 U (valitaan U tai U 1 ) R 1 n 1 = ryhmän 1 otoskoko n 2 = ryhmän 2 otoskoko R = järjestyslukujen summa jommassa kummassa ryhmässä 24 Taina I. Lehtinen 12

Aiemmin verrattiin tyttöjen ja poikien kokemuksia kiusatuksi tulemisesta parametrisella riippumattomien otosten t-testillä, t(18)=0.087, p > 0.05 Kiusatuksi tuleminen, 1=ei ollenkaan, 10=erittäin paljon Ranks Sukupuoli N Mean Rank Sum of Ranks Tyttö 10 10,65 106,50 Poika 10 10,35 103,50 Total 20 Test Statistics a Kiusatuksi tuleminen, 1=ei ollenkaan, 10=erittäin paljon Mann-Whitney U 48,500 Wilcoxon W 103,500 Z -,114 Asymp. Sig. (2-tailed),909 Exact Sig. [2*(1-tailed Sig.)] a. Grouping Variable: Sukupuoli b. Not corrected for ties. Sama tulos ei-parametrisella testillä: Tyttöjen ja poikien kokemukset kiusatuksi tulemisesta eivät eroa, U=48.500, p > 0.05 25,912 b Wilcoxonin merkittyjen järjestyslukujen testi Ei-parametrinen testi (eli vapaampi jakauman muotoa koskevista oletuksista) kahden riippuvan otoksen t-testin ei-parametrinen vastine Perustuu järjestyslukujakaumien vertailuun H 0 : kaksi järjestyslukujakaumaa ovat samanlaiset H 1 : kaksi järjestyslukujakaumaa poikkeavat toisistaan SPSS-ohjelma tulostaa Wilcoxonin testille Z-testisuureen 26 Taina I. Lehtinen 13

Aiemmin verrattiin parametrisella riippuvien otosten t-testillä reaktioaikaa perustilanteessa ja sen jälkeen, kun koehenkilöt olivat nauttineet 16 cl alkoholia. Todettiin reaktioajan pitenevän alkoholin nauttimisen jälkeen t(9) = -4.828, p = 0.001 Re_aika_16cl - Re_aika a. Re_aika_16cl < Re_aika b. Re_aika_16cl > Re_aika c. Re_aika_16cl = Re_aika Negative Ranks Positive Ranks Ranks N Ties 0 c Total 10 Mean Rank Sum of Ranks 2 a 1,50 3,00 8 b 6,50 52,00 Test Statistics a Re_aika_16cl - Re_aika Z -2,497 b Asymp. Sig. (2-,013 tailed) a. Wilcoxon Signed Ranks Test b. Based on negative ranks. Sama tulos ei-parametrisella testillä: Reaktioaika pitenee alkoholin nauttimisen jälkeen, Z=-2.497 p = 0.013 27 Yksisuuntainen varianssianalyysi Riippumattomien otosten t-testin laajennus Riippumattomia otoksia enemmän kuin 2, esim. koulukiusaamiskokemukset neljässä eri kaupungissa F-testisuure kertoo, poikkeaako jonkun ryhmän keskiarvo muista, poikkeavatko kaikkien ryhmien keskiarvot tai jotain siltä väliltä Käytetään lyhennettä ANOVA (Analysis Of Variance) Oneway ANOVA Muita varianssiperheen analyysejä ANCOVA (ANalysis of COVAriance), kovarianssianalyysi Multiway ANOVA (MANOVA), useampisuuntainen varianssianalyysi 28 Taina I. Lehtinen 14

Riippumaton muuttuja luokitteluasteikkoinen, enemmän kuin 2 luokkaa, riippuva testimuuttuja vähintään välimatka-asteikko Varianssianalyysin oletukset otos normaalisti jakautuneesta populaatiosta ryhmien varianssit yhtä suuria jokaisessa ryhmässä N 20 Jos ehdot eivät täyty, valitaan ei-parametrinen testi, esim. Kruskal-Wallis -testi 29 Varianssianalyysi tarkastelee nimensä mukaisesti muuttujissa havaittavaa hajontaa eli varianssia Tarkastellaan kolmenlaista varianssia: yhteisvarianssi = ryhmien välinen varianssi + ryhmien sisäinen varianssi 30 Taina I. Lehtinen 15

Ryhmien sisäiset varianssit lasketaan ensin erikseen ja sitten yhteen saadaan s 2 WG (= ryhmien sisäiset varianssit, within groups) Ryhmien välinen vaihtelu lasketaan kunkin ryhmän keskiarvoista, saadaan s 2 BG (= ryhmäkeskiarvojen välinen vaihtelu eli otoskeskiarvojen varianssi, between groups) Varianssianalyysi selvittää, onko ryhmien välinen vaihtelu suurempaa kuin ryhmien sisäinen vaihtelu Hypoteesit: H 0 : Ryhmä1 = Ryhmä2 = Ryhmä3 H 1 : ainakin yksi poikkeaa 31 Neliösummat Varianssianalyysin kehitelmät esitetään yleensä ns. neliösummien avulla Kokonaisneliösumma lasketaan siten, että jokaisesta havaintoarvosta vähennetään yhteiskeskiarvo Total, erotukset neliöidään ja lasketaan yhteen, saadaan SS Total Ryhmien sisäinen neliösumma lasketaan siten, että jokaisesta havaintoarvosta vähennetään oman ryhmän keskiarvo, erotukset neliöidään ja lasketaan yhteen, saadaan SS WG Ryhmien välinen neliösumma lasketaan siten, että jokaisesta ryhmäkeskiarvosta k vähennetään yhteiskeskiarvo Total, erotukset neliöidään ja painotetaan kunkin ryhmän koolla n, lopuksi lasketaan yhteen, saadaan SS BG 32 Taina I. Lehtinen 16

SS Total = SS WG + SS BG Vapausasteet yksisuuntaisessa varianssianalyysissä yhteisvapausastet: df Total = N 1 ryhmien sisäiset vapausasteet df WG = N k ryhmien väliset vapausasteet df BG = k 1 otoskoko N, ryhmien lukumäärä k F-testisuure lasketaan keskineliösummien osamääränä kun neliösummat on jaettu vapausasteilla F = SS Between k 1 / SS Within n k F-testisuuretta verrataan F- jakaumiin 33 Jos F-testisuure on tilastollisesti merkitsevä, halutaan tietää, mitkä ryhmät poikkeavat toisistaan 1. Kontrastit (suunnitellut vertailut): on teoreettista pohjaa olettaa jonkun ryhmän keskiarvon olevan suurempi kuin muiden 2. Post hoc -vertailut: kun ei ole teoreettisia olettamuksia ryhmien eroista (tavallisin tilanne) Ks. Nummenmaa 2004, 236; 2009, 205. 34 Taina I. Lehtinen 17

Esim. Titanic-aineistossa on muuttujat pclass (matkustusluokka 1,2,3) ja age (ikä vuosina). Tutkitaan eroaako keskimääräinen ikä eri matkustusluokissa Ikä N Mean Std. Deviation Descriptives Std. Error 95% Confidence Interval for Mean Lower Bound Upper Bound 1st class 284 39,16 14,548,863 37,46 40,86 1 80 2nd class 261 29,51 13,639,844 27,84 31,17 1 70 3rd class 501 24,82 11,958,534 23,77 25,87 0 74 Total 1046 29,88 14,413,446 29,01 30,76 0 80 Min Max Test of Homogeneity of Variances Ikä Levene df1 df2 Sig. Statistic 12,541 2 1043,000 Ikä Between Groups Sum of Squares ANOVA df Mean Square F Sig. 37339,391 2 18669,695 108,326,000 Within Groups 179758,287 1043 172,347 08.08.2015 Total Taina I. Lehtinen 217097,677 1045 35 Taulukko 1: Ikä matkustusluokittain Matkustusluokka N Ka Ha 1st class 284 39.2 14.6 2nd class 261 29.5 13.6 3rd class 501 24.8 12.0 Yhteensä 1046 29.9 14.4 F(2, 1043)=108.326 p< 0.001 Nollahypoteesi hylätään, ikä eroaa eri matkustusluokissa (p<0.001). Minkä ryhmien välillä ero? Tutkittava post hoc -testillä 36 Taina I. Lehtinen 18

ANOVAn ehto: varianssit yhtä suuret ryhmissä ei toteudu Levenen testin hypoteesit: H 0 : varianssit yhtä suuret ryhmissä H 1 : varianssit eroavat joissakin ryhmissä Ikä Test of Homogeneity of Variances Levene Statistic df1 df2 Sig. 12,541 2 1043 0,000 siirrytään ei-parametriseen testiin 37 Kruskal-Wallis -testi KW-testi on ANOVAN ei-parametrinen vastine, samalla Mann-Whitney U-testin laajennus Käytetään mikäli ANOVAN oletukset eivät ole voimassa tai jos testimuuttuja on mitattu järjestysasteikolla Perustuu järjestyslukujakaumien tarkasteluun eli havaintoarvot muutetaan järjestysluvuiksi verrataan testimuuttujan mediaaneja luokitteluasteikkoisen muuttujan ryhmissä KW-testisuure noudattaa 2 jakaumaa vapausastein df = k 1 (k = ryhmien lukumäärä) 38 Taina I. Lehtinen 19

Titanic esimerkki Kruskal-Wallis-testillä Matkustusluokka Ikä Ranks N Mean Rank 1st 284 710,16 2nd 261 526,01 3rd 501 416,38 Total 1046 Raportoitavaan taulukkoon Mean Rankin sijasta keskiarvot ja hajonnat, on informatiivisempaa Test Statistics a,b Ikä Chi-Square 171,535 df 2 Asymp. Sig. 0,000 a. Kruskal Wallis Test b. Grouping Variable: Matkustusluokka Tulos ei-parametrisella KW-testillä sama: H 0 hylätään, eri luokissa matkustavien keskimääräinen ikä eroaa ( 2 (2) = 171.535, p < 0.001) Korjattu 14.9.2015 39 Tähän saakka on käsitelty keskiarvojen erojen testaamista parametrisilla testeillä yksi keskiarvo, jota verrataan kriteeriarvoon (onesample t-test) kahden riippumattoman ryhmän keskiarvojen ero (independent samples t-test) kahden riippuvan ryhmän keskiarvon ero toistomittaus (paired samples t-test) useamman kuin kahden riippumattoman ryhmän keskiarvojen ero (oneway ANOVA) ja niiden ei-parametrisilla vastineilla; U-testi, Wilcoxonin testi, Kruskal-Wallisin testi 40 Taina I. Lehtinen 20

Alkoholia veressä Yhteisvaihtelun tutkiminen - korrelaatio Vaihdetaan näkökulmaa, tarkastellaan kahden muuttujan x ja y yhteisvaihtelua/riippuvuutta Riippuvuuksia tutkitaan mm. korrelaation avulla Korrelaatiokerroin Pearsonin tulomomenttikorrelaatiokerroin Spearmanin järjetyskorrelaatiokerroin Osittaiskorrelaatiokerroin Hajontakuvio (scatter plot) Jos x- ja y-muuttuja ovat vähintään välimatkaasteikollisia, niiden välistä yhteisvaihtelua voidaan graafisesti tarkastella hajontakuvion avulla 41 10 y-muuttuja 8 6 4 Positiivinen riippuvuus (korrelaatio) 2 R Sq Linear = 0,892 0 2 3 4 5 6 7 8 08.08.2015 x-muuttuja Taina I. Lehtinen 42 Drinkkien määrä Taina I. Lehtinen 21

Motivaatio 7 6 y-muuttuja 5 4 3 Negatiivinen riippuvuus (korrelaatio) 2 1 R Sq Linear = 0,908 0 2 3 4 5 6 7 8 08.08.2015 x-muuttuja Taina I. Lehtinen 43 Ahdistuneisuus 10 8 y-muuttuja 6 4 Ei lineaarista riippuvuutta (korrelaatiota) 2 0 0 2 4 6 8 10 x-muuttuja 44 Taina I. Lehtinen 22

Esim. Henkilöiden (N=5) pituudet (x) ja painot (y) Pituus (x) cm Paino (y) kg 1.60 50 1.70 60 1.75 65 1.70 55 1.80 70 45 46 Taina I. Lehtinen 23

Riippuvuus voi myös olla epälineaarista 47 Riippuvuudelle voidaan laskea tunnusluku korrelaatiokerroin 1. Pearsonin tulomomenttikorrelaatiokerroin (r xy ) parametrinen korrelaatio vaihteluväli 1 r xy +1 2. Spearmanin järjestyskorrelaatiokerroin (r s ) ei-parametrinen korrelaatio vaihteluväli 1 r s +1 3. Osittaiskorrelaatiokerroin (r xy.z ) parametrinen korrelaatio vaihteluväli 1 r xy.z +1 Korrelaatiokertoimen hypoteesit: H 0 : r = 0 H 1 : r 0 48 Taina I. Lehtinen 24

Taina I. Lehtinen 25 49 Positiivinen korrelaatio, kun r on + -merkkinen, negatiivinen korrelaatio, kun r on -merkkinen, ei korrelaatiota, kun r on lähellä 0 Mitä lähempänä korrelaatiokerroin on +1:stä, sitä voimakkaampi positiivinen korrelaatio Mitä lähempänä korrelaatiokerroin on -1:stä, sitä voimakkaampi negatiivinen korrelaatio 50 2 N 1 i N 1 i i 2 i N 1 i 2 N 1 i i 2 i N 1 i N 1 i N 1 i i i i i xy y y N x x N y x y x N r Pearsonin tulomomenttikorrelaatiokerroin (r xy ) Muuttujat x ja y vähintään välimatka-asteikollisia Muuttujat normaalijakautuneita Ryhmäkoko mielellään vähintään 50

Esim. Koulukiusaaminen -aineisto, jossa muuttujat Kiusatuksi tuleminen ja Itsetunto Correlations Kiusatuksi tuleminen, 1=ei ollenkaan, 10=erittäin paljon Itsetunto, 1=erittäin matala, 10=erittäin korkea Kiusatuksi tuleminen, 1=ei ollenkaan, 10=erittäin paljon Itsetunto, 1=erittäin matala, 10=erittäin korkea Pearson Correlation 1 -,919 Sig. (2-tailed),000 N 20 20 Pearson Correlation -,919 1 Sig. (2-tailed),000 N 20 20 51 Negatiivinen yhteys: Mitä vähemmän oppilas kokee kiusaamista, sitä parempi itsetunto mitä enemmän oppilas kokee kiusaamista, sitä heikompi itsetunto Kiusaamisen kohteena olevien itsetunto on matala, r = -0.92, p<0.001 52 Taina I. Lehtinen 26

Spearmanin järjestyskorrelaatiokerroin rho (r s ) Muuttujat x ja y järjestysasteikollisia N 2 6di i1 1 N(N 1) rs 2 d i = järjestyspisteiden erotus N = havaintojen lukumäärä Koulukiusaamisen ei-parametrinen Spearmanin kerroin yhdenmukainen Pearsonin kanssa: Kiusaamisen kohteena olevien itsetunto on matala, r s = -0.93, p<0.001 53 Riippuvuus? Korrelaation pitäisi havahduttaa tutkimaan, onko muuttujien välillä todellista riippuvuutta Muuttujat saattavat korreloida, vaikka todellista riippuvuutta ei olisikaan Jäätelönmyynti x Hukkumiskuolemat y Korrelaatio ei ilmaise, kumpi on syy ja kumpi seuraus 54 Taina I. Lehtinen 27

Osittaiskorrelaatiokerroin (partial correlation r xy.z ) Pearsonin tulomomenttikorrelaatiokertoimen muunnos Jos useat muuttujat korreloivat (x, y, z, ), voidaan yhden tai useamman muuttujan (esim. z) vaikutus osittaa pois, jolloin jäljelle jäävien x- ja y-muuttujien välinen korrelaatio on puhdistettu r xy. z r xy r (1 r 2 xz xz * r yz )(1 r 2 yz ) 55 Esim. (Nummenmaa 2004, 277; 2009, 289): Luetun ymmärtäminen (x) ja lukunopeus (y) r = 0.67 Tekninen lukutaito (z) ja luetun ymmärtäminen r= 0.57 Tekninen lukutaito ja lukunopeus r = 0.71 Kun tekninen lukutaito ositetaan, luetun ymmärtäminen (x) ja lukunopeus (y) r = 0.47 x 0.67 y 0.57 z 0.71 56 Taina I. Lehtinen 28

57 Korrelaatiokertoimen tulkinta r = 1.0 r.90 r.70 r.50 r.30 r = 0 muuttujien välillä täysin lineaarinen yhteys muuttujien välillä voimakas lineaarinen yhteys muuttujien välillä melko voimakas lineaarinen yhteys muuttujien välillä keskinkertainen lineaarinen yhteys muuttujien välillä heikko lineaarinen yhteys muuttujien välillä ei ole lineaarista yhteyttä Korrelaatiokertoimen hypoteesit: H 0 : r = 0 H 1 : r 0 58 Taina I. Lehtinen 29

Käyttäytymistieteiden ilmiöiden väliset korrelaatiot usein melko matalia tutkimuksessa voidaan 0.50 suuruisia korrelaatiokertoimia pitää osoituksena voimakkaasta muuttujien välisestä yhteydestä (Nummenmaa 2004, 280; 2009, 292). Tilastollinen merkitsevyys sidoksissa otoskokoon N siten, että mitä suurempi otos, sitä pienempi korrelaatiokertoimen arvo on merkitsevä Jos r ei ole tilastollisesti merkitsevä (p<0.05), ei voida tulkita muuttujien välillä olevan yhteyttä/riippuvuutta Korrelaation heikkoudet: herkkä poikkeaville arvoille ilmaisee yhteyden vain keskimäärin ( hajontakuvio) 59 2 -testit (ei-parametrisia testejä) 1. Yhteensopivuustesti Yksi kategorinen (luokitteluasteikko) muuttuja, jonka frekvenssijakaumaa tarkastellaan (ks. Nummenmaa 2004, 291; 2009, 303) Hypoteesit: H 0 : otoksen frekvenssijakauma vastaa oletusjakaumaa H 1 : otoksen frekvenssijakauma ei vastaa oletusjakaumaa 60 Taina I. Lehtinen 30

Esim. aineisto Ympäristöasenteet N=1522 satunnaisotos muuttuja Sukupuoli Testataan poikkeaako otoksen sukupuolijakauma populaatiossa vallitsevasta 5050-sukupuolijakaumasta? 61 Sukupuolenne? Observed N Expected N Residual Mies 681 761,0-80,0 Nainen 841 761,0 80,0 Total 1522 Test Statistics Sukupuolenne? 2 Chi-Square 16,820 a df 1 Asymp. Sig.,000 a. 0 cells (0,0%) have expected frequencies less than 5. The minimum expected cell frequency is 761,0. 2 -testin oletukset Tulos: Sukupuolen otantajakauma ei vastaa jakaumaa populaatiossa ( 2 (1)=16.820, p<0.001) 62 Taina I. Lehtinen 31

2. Riippumattomuustesti Kaksi kategorista (luokitteluasteikko) muuttujaa x ja y, joiden yhteyttä/riippuvuutta tarkastellaan (ks. Nummenmaa 2004, 293; 2009, 305) Hypoteesit: H 0 : x ja y ovat riippumattomia (ei yhteyttä) H 1 : x ja y eivät ole riippumattomia (on yhteyttä) 63 Esim. aineisto Ympäristöasenteet N=1522 muuttujat x=sukupuoli ja y=asenne2. Mitä mieltä olette väittämästä: Talouskasvu vahingoittaa aina ympäristöä? Ovatko muuttujat riippumattomia vai onko miesten ja naisten näkemyksissä eroa? 64 Taina I. Lehtinen 32

Asenne2: Mitä mieltä olette seuraavista väittämistä: Talouskasvu vahingoittaa Count Asenne2: Mitä mieltä olette seuraavista väittämistä: Talouskasvu vahingoittaa aina ympäristöä? aina ympäristöä? * Sukupuolenne? Crosstabulation Sukupuolenne? Mies Nainen Total Täysin samaa mieltä 52 37 89 Samaa mieltä 144 205 349 En ole samaa mieltä enkä eri 121 191 312 mieltä Eri mieltä 226 242 468 Täysin eri mieltä 76 59 135 Total 619 734 1353 Taulukossa havaitut frekvenssit (f o ) (observed) Verrataan odotettuihin frekvensseihin (f e ) (expected) = frekvenssit, jotka saataisi jos muuttujien x ja y välillä ei olisi riippuvuutta 65 Asenne2: Mitä mieltä olette seuraavista väittämistä: Talouskasvu vahingoittaa aina ympäristöä? * Sukupuolenne? Crosstabulation Sukupuolenne? Asenne2: Mitä mieltä olette seuraavista väittämistä: Talouskasvu vahingoittaa aina ympäristöä? Mies Nainen Total Täysin samaa mieltä Count 52 37 89 Expected Count 40,7 48,3 89,0 Samaa mieltä Count 144 205 349 Expected Count 159,7 189,3 349,0 En ole samaa mieltä Count 121 191 312 enkä eri mieltä Expected Count 142,7 169,3 312,0 Eri mieltä Count 226 242 468 Expected Count 214,1 253,9 468,0 Täysin eri mieltä Count 76 59 135 Expected Count 61,8 73,2 135,0 Total Count 619 734 1353 Expected Count 619,0 734,0 1353,0 2 = N fo f e 2 ij f o 2 -testisuure noudattaa 2 -jakaumaa vapausasteilla df = (rivien lkm 1) * (sarakkeiden lkm 1) 66 Taina I. Lehtinen 33

Chi-Square Tests Value df Asymp. Sig. (2-sided) Pearson Chi-Square 21,967 a 4,000 Likelihood Ratio 22,004 4,000 Linear-by-Linear Association 2,684 1,101 N of Valid Cases 1353 a. 0 cells (0,0%) have expected count less than 5. The minimum expected count is 40,72. 2 -testin käytön edellytykset: muuttujat kategorisia korkeintaan 20% odotetuista arvoista saa olla pienempiä kuin 5 jokaisen odotetun arvon tulee olla suurempi kuin 1 67 Pyydetään % selittävän (riippumattoman) x-muuttujan suuntaisesti Asenne2: Mitä mieltä olette seuraavista väittämistä: Talouskasvu vahingoittaa aina ympäristöä? * Sukupuolenne? Crosstabulation Sukupuolenne? Asenne2: Mitä mieltä olette seuraavista väittämistä: Talouskasvu vahingoittaa aina ympäristöä? Mies Nainen Total Täysin samaa mieltä Count 52 37 89 % within Sukupuolenne? 8,4% 5,0% 6,6% Samaa mieltä Count 144 205 349 % within Sukupuolenne? 23,3% 27,9% 25,8% En ole samaa mieltä Count 121 191 312 enkä eri mieltä % within Sukupuolenne? 19,5% 26,0% 23,1% Eri mieltä Count 226 242 468 % within Sukupuolenne? 36,5% 33,0% 34,6% Täysin eri mieltä Count 76 59 135 % within Sukupuolenne? 12,3% 8,0% 10,0% Total Count 619 734 1353 % within Sukupuolenne? 100,0% 100,0% 100,0% 68 Taina I. Lehtinen 34

Taulukko 2. Asenne2: Mitä mieltä olette seuraavista väittämistä: Talouskasvu vahingoittaa aina ympäristöä? sukupuolittain (%) Asenne2: Mitä mieltä olette seuraavista väittämistä: Talouskasvu vahingoittaa aina ympäristöä? 2 (4)=21.967, p<0.001 Sukupuolenne? Mies Nainen Yhteensä Täysin samaa mieltä 8.4 5.0 6.6 Samaa mieltä 23.3 27.9 25.8 En ole samaa mieltä enkä eri mieltä 19.5 26.0 23.1 Eri mieltä 36.5 33.0 34.6 Täysin eri mieltä 12.3 8.0 10.0 Yhteensä 100.0% 100.0% 100.0% N 619 734 1353 Miehet ovat naisia useammin eri mieltä siitä, että talouskasvu vahingoittaa aina ympäristöä ( 2 (4)=21.967, p<0.001) 69 Yhteenveto Jatkuva Muuttuja Kategorinen Yhtä muuttujaa koskeva testaus Kahden ryhmän vertailu Useamman ryhmän vertailu Normaalisuuden testaus (Kolmogorov-Smirnov -testi ja Shapiro-Wilk - testi) Kaksi riippumatonta otosta: riippumattomien otosten t-testi Mann-Whitney U-testi Kaksi riippuvaa otosta: riippuvien otosten t-testi Wilcoxin merkittyjen sijalukujen testi Yksisuuntainen varianssianalyysi Kruskal-Wallis-testi 2 -yhteensopivuustesti 2 -riippumattomuustesti 2 -riippumattomuustesti Kahden muuttujan Korrelaatiokertoimen testaus välinen riippuvuus 2 -riippumattomuustesti 70 Taina I. Lehtinen 35

Lähteet: Hirsjärvi, S., Remes, P. & Sajavaara, P. (1997): Tutki ja kirjoita. 3.-4. painos. Tampere: Kirjayhtymä. Heikkilä, T. (2008): Tilastollinen tutkimus. (7., uudistettu painos). Helsinki: Edita. Ketokivi, M. (2009): Tilastollinen päättely ja tieteellinen argumentointi. Palmenia-sarja 67. Helsinki: Gaudeamus. Nummenmaa, L. (2004): Käyttäytymistieteiden tilastolliset menetelmät. Helsinki: Tammi. Nummenmaa, L. (2009): Käyttäytymistieteiden tilastolliset menetelmät. (Uud. laitos) Helsinki: Tammi. Nunnally, J. C. (1970): Introduction to psychological measurement. New York: McGraw-Hill. Rautopuro, J. (2010): Sisyfoksen kivi? Tilastollisten menetelmien opetus ja oppiminen kasvatustieteissä. Väitöskirja: Joensuu: Itä-Suomen yliopisto. Koulutuksen tutkimuslaitoksen tutkimuksia 27. Jyväskylä: Jyväskylän yliopisto, koulutuksen tutkimuslaitos. 71 Taina I. Lehtinen 36