RISTIINTAULUKOINTI JA Χ 2 -TESTI



Samankaltaiset tiedostot
Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

TUTKIMUSOPAS. SPSS-opas

SPSS ohje. Metropolia Business School/ Pepe Vilpas

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

Tilastotieteen johdantokurssin harjoitustyö. 1 Johdanto Aineiston kuvaus Riippuvuustarkastelut...4

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

voidaan hylätä, pienempi vai suurempi kuin 1 %?

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Kvantitatiiviset tutkimusmenetelmät maantieteessä

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

SPSS OPAS. Metropolia Liiketalous

HAVAITUT JA ODOTETUT FREKVENSSIT

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Ohjeita kvantitatiiviseen tutkimukseen

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Summamuuttujat, aineiston pilkkominen ja osa-aineiston poiminta 1

Harjoittele tulkintoja


1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Pertti Vilpas Metropolia 1. KVANTITATIIVINEN TUTKIMUS

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin millaista se on?

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Til.yks. x y z

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Perhevapaiden palkkavaikutukset

Sovellettu todennäköisyyslaskenta B

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

KAHDEN RYHMÄN VERTAILU

1. a) Luettele hyvän kvantitatiivisen tutkimuksen perusvaatimukset. b) Miten tutkimusraportissa arvioit tutkimuksen luotettavuutta?

Sisällysluettelo SISÄLLYSLUETTELO...6 LYHYT SANASTO VASTA-ALKAJILLE JOHDATUS PARAMETRITTOMIIN MENETELMIIN...9

SPSS-ohjeita. Metropolia Pertti Vilpas

(Jos et ollut mukana viime viikolla, niin kopioi myös SPSS-havaintoaineistotiedostot Yritys2 ja neljän kunnan tiedot.)

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

4.1 Frekvenssijakauman muodostaminen tietokoneohjelmilla

BIOSTATISTIIKKAA ESIMERKKIEN AVULLA. Kurssimoniste (luku 3) Janne Pitkäniemi. Helsingin Yliopisto Kansanterveystieteen laitos

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Määrällisen aineiston esittämistapoja. Aki Taanila

Tilastolliset ohjelmistot A. Pinja Pikkuhookana

Testit järjestysasteikollisille muuttujille

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Til.yks. x y z

805306A Johdatus monimuuttujamenetelmiin, 5 op

Kvantitatiiviset menetelmät

Perusnäkymä yksisuuntaiseen ANOVAaan

1 Johdanto 2. 2 Aineistot 2. 3 Henkilöstön koulutustausta ja työkokemus 3. 4 Aikuissosiaalityön sisältö 5. 5 Henkilöstön osaaminen 12

Mat Tilastollisen analyysin perusteet. Testit suhdeasteikollisille muuttujille. Avainsanat:

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Väliestimointi (jatkoa) Heliövaara 1

MTTTP1, luento KERTAUSTA

5 Lisa materiaali. 5.1 Ristiintaulukointi

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Muuttujien väliset riippuvuudet esimerkkejä

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

11. laskuharjoituskierros, vko 15, ratkaisut

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Opinnäytetyön kvantitatiivinen osuus

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Kandidaatintutkielman aineistonhankinta ja analyysi

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

MTTTP1, luento KERTAUSTA

Ratkaisuja luvun 15 tehtäviin

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Opinnäytetyön ja harjoitustöiden tekijöille

Mat Tilastollisen analyysin perusteet, kevät 2007

SEM1, työpaja 2 ( )

Mat Tilastollisen analyysin perusteet, kevät 2007

Testejä suhdeasteikollisille muuttujille

Genetiikan perusteet 2009

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Tilastomenetelmien lopputyö

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Teema 5: Ristiintaulukointi

Suhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Sisältö. Perusteiden Kertaus. Tilastollinen analyysi. Peruskäsitteitä. Peruskäsitteitä. Kvantitatiivinen metodologia verkossa

2. Ohitettiin ja tehtiin vasta tehtävän 3 yhteydessä. 3. Ensin tehtiin ja

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MONISTE 2 Kirjoittanut Elina Katainen

Transkriptio:

RISTIINTAULUKOINTI JA Χ 2 -TESTI Kvantitatiiviset tutkimusmenetelmät maantieteessä Ti 27.10.2015, To 2.11.2015 Miisa Pietilä & Laura Hokkanen miisa.pietila@oulu.fi laura.hokkanen@outlook.com

KURSSIKERRAN SISÄLTÖ 1. Kuinka tehdä ja tulkita X 2- testi? 2. Esimerkkejä 3. Yhteisharkka 4. Oppimispäiväkirjaa

JOHDANTO Χ 2 -TESTIIN Vastaa kysymykseen: onko muuttujien välillä riippuvuutta? Erittäin käyttökelpoinen testi Esimerkiksi kyselyt Solujen, luokkien ja ryhmien lukumäärää ei ole rajoitettu Pienille aineistoille olemassa oma exact p-arvo Ei-parametrinen eli jakaumasta riippumaton, ei vaadita perusjoukon jakauman tuntemista Muuttujat Esivalmistelujen myötä sopii kaikille muuttujille Vaatii luokitellun aineiston Automaattisesti luokiteltuja: luokitteluasteikon ja järjestysasteikon muuttujat Luokittelu tulee suorittaa erikseen: välimatka-asteikon ja suhdeasteikon muuttujat Tarkastele muuttujaa kuvana: esim. boxplot, histogrammi, Visual Binning

RISTIINTAULUKKO ELI KONTINGENSSITAULUKKO Rivimuuttujalla/sarakemuuttujalla ei väliä testin tulokseen. (Tarkkana prosenttien tulkinnassa!) Count = havaintoja yhteensä Expected count = paljonko havaintoja olisi, jos ne olisivat tasaisesti jakautuneet eli muuttujien välillä ei olisi riippuvuutta Sarakkeen total * Rivin total / N Esim. 88 * 159 / 163 = 85,8 % within sukupuoli = montako prosenttia esim. miehistä on ollut tietoinen kuntaliitoksesta Taulukon jakaumat ovat hyvin lähellä odotettuja, joten aineiston miehet ja naiset ovat yhtä tietoisia kuntaliitoksesta

Χ 2 -TESTI χ 2 -testisuure lasketaan solujen residuaalien perusteella Residuaali = havaittu arvo odotettu arvo Esim. 87 85,8 = 1,2 Std. Residual Residuaalin vaihteluväli riippuu aineistosta Std. Residual -luvut on suhteellisia ja vertailukelpoisia Jos arvo on pienempi kuin -2 tai suurempi kuin 2, on residuaali suuri

Χ 2 -TESTIN EHDOT korkeintaan 20 % odotetuista frekvensseistä on pienempiä kuin 5 ja kaikki odotetut frekvenssit ovat suurempia kuin 1 (Ranta ym. 1994: 135) Mikäli tämä ei täyty, toimi seuraavasti 1) jos mahdollista, yhdistele muuttujan luokkia: vähemmän luokkia on enemmän havaintoja per luokka (Recode-toiminto) 2) laske exact p-arvo Viereisessä taulukossa ehdot eivät täyty: Kaikki odotetut frekvenssit ovat suurempia kuin 1 Mutta 50 % frekvensseistä on pienempiä kuin 5

Χ 2- TESTIN TULKINTA Erojen merkitsevyys tulkitaan χ2-testin p-arvosta p 0,001 (erittäin merkitsevä) 0,001<p 0,01 (merkitsevä) 0,01<p 0,05 (melkein merkitsevä) (Holopainen & Pulkkinen 2003: 157) Jos ehdot eivät täyty eikä luokkien yhdisteleminen auta, voidaan tulkita exact p-arvo

1,387 Kuvan jakaumissa on mainittu pienin χ 2 -arvo jolla saavutetaan tilastollinen merkitsevyys (0,05) kyseisellä vapausasteella df = degrees of freedom (sarakkeiden lkm 1) * (rivien lkm 1) Esim. (2-1) * (2-1) = 1 * 1 = 1 Jokaiselle vapausasteelle on olemassa oma χ 2 -jakaumansa, koska testisuureen suuruus vaihtelee solujen määrän mukaan Mitä enemmän soluja => sitä enemmän residuaaleja => sitä suuremmaksi testisuure (χ2) voi kasvaa Testisuureen aineistosidonnaisuus ja solujen määrä huomioidaan vapausasteiden ja jakauman muodon kautta

ESIMERKKI TULKINNASTA Onko testi tulkittavissa? Eli täyttyvätkö testin ehdot Taulukossa p-arvo: Asymp. Sig. (2-sided)/Pearson Chi-Square Exact p-arvo: Exact Sig. (2-sided)/Pearson Chi-Square 0,335 = muuttujien välillä ei ole riippuvuutta TULKINTA = kyselyyn vastanneet miehet ja naiset olivat yhtälailla tietoisia vireillä olevasta monikuntaliitoshankkeesta vuonna 2009

FISCHERIN NELIKENTTÄTESTI 2 * 2 -taulukolle χ 2 -testiä varovaisempi P- arvo, joka kannattaa tulkita erityisesti tilanteissa joissa Odotettujen havaintojen määrä jossain soluissa on pienempi kuin 5 Otoskoko on pieni (alle 20) SPSS tulostaa testin arvon automaattisesti χ 2 -testin yhteydessä 2 * 2 -taulukolle

ESIMERKKEJÄ

AINEISTON EDUSTAVUUS Table 1. Characteristics of PPGIS respondents and all ONP Visitor Survey participants. PPGIS survey respondents (n=170) Visitor Survey respondents (n=756) df X 2 p-value Gender 1 0,5 0,48 Male 46 % 49 % Female 54 % 51 % Education 2 2,9 0,23 No vocational education 5 % 7 % Vocational education 41 % 47 % Higher education 53 % 46 % Age 3 1,0 0,80 15 30 17 % 20 % 31 45 32 % 30 % 46 60 36 % 34 % 60 and plus 15 % 16 % Nationality 1 0,2 0,66 Finnish 86 % 85 % Foreigner 14 % 15 % Previous park visits 1 1,9 0,17 Repeat visitor 64 % 58 % First-time visitor 36 % 42 % Length of visit 1 4,9 0,03* Day visitor 59 % 68 % Overnight visitor 41 % 32 % * Significant difference in the Pearson s chi-square tests p<0,05

MIELIPIDE-EROT

HARJOITUKSET

TEHTÄVÄ 1 EROAVATKO MIESTEN JA NAISTEN VASTAUKSET VÄITTEESEEN MONIKUNTALIITOSKESKUSTELU ON LIIAN OULU -PAINOTTEISTA? (KLIIT_OULU30) Muuttujien mitta-asteikot Luokittelu ja järjestys Rivimuuttujaksi sukupuoli Sarakemuuttujaksi väite Voit valita Display clustered bar charts, voi auttaa tulkinnassa Avaa laatikko Statistics Rastita Chi-square Avaa laatikko Cells Rastita observed, expected ja row (makuasia..) Std. Residuals Display clustered bar charts (jos haluat kuvan)

Huom! Aineistossa on koodausvirhe. Vaihtoehtoa 0 ei pitäisi olla olemassa. Jos huomaat aineistossasi tällaisia, ne tulee etsiä ja korjata. Nyt tulosta ei saa vielä tulkita. Kun huomaat koodausvirheitä, tarkista alkuperäisestä aineistosta Tilalle joko oikea numero tai jos kysymykseen on jätetty vastaamatta, silloin tyhjä

Täyttyvätkö ehdot? 16,7 % soluista odotettu luku on alle 5 Pienin odotettu luku on 3,63 Kyllä => p-arvon voi tulkita: 0,004 (merkitsevä)

Tulkitaan ristiintaulukon ja pylväskuvion avulla, mistä on kysymys Suurimmat erot näyttäisivät olevan vastauksessa täysin eri mieltä ja eos Miehet ovat odotettua useammin täysin eri mieltä ja naiset eivät odotettua useammin osaa sanoa On TODELLA TÄRKEÄÄ paneutua tuloksen tulkintaan. Loppujen lopuksi tämä tulos ei ehkä olisi kovin mielenkiintoinen ja voi olla ettei sitä tutkielmassa edes tuotaisi esille. Toisin sanottuna merkitsevä p-arvo ei ole tutkimuksen tulos. Tutkimuksen tulos on vastaus tutkimuskysymykseen!

TEHTÄVÄ 2 EROAVATKO MIESTEN JA NAISTEN VASTAUKSET KYSYMYKSEEN ARVIOIKAA O MIA MAHDOLLISUUKSIANNE VAIKUTTAA ASUINKUNTANNE KEHITTÄMISTÄ KOSKEVAAN PÄÄTÖKSENTEKOON (KYSYMYS 29)? Muuttujien mitta-asteikot: luokittelu ja järjestys

1) Yhdistetään luokkia (Recode) erittäin hyvät + hyvät => hyvät (arvo 1) ei hyvät eikä huonot (arvo 2) erittäin huonot + huonot => huonot (arvo 3) eos (arvo 4) 2) Toistetaan testi uudella luokituksella: onko tulos nyt tulkittavissa? 3) Tee alkuperäiselle luokitukselle χ2-testi valitsemalla exact p-arvo

TEHTÄVÄ 3 ONKO MIELIPIDE KUNTALIITOSTA KOHTAAN ERILAINEN RIIPPUEN SIITÄ MINKÄ IKÄINEN VASTAAJA ON? Mitta-asteikot Ikä: suhdeasteikko (Kysymys 2) Mielipide kuntaliitosta kohtaan: luokitteluasteikko (Kysymys 17) 1) Luokitellaan ikä-muuttuja Transform => visual binning Luokat: 30 ja alle, 31-40, 41-50 ja yli 50 2) Ristiintaulukointi ja χ2-testi Luokiteltu ikä rivimuuttujaksi 3) Tulkitaan testin ehdot ja P-arvo (0,074)

Yksinkertaistetaan mielipide-muuttujaa (Kysymys 17) yhdistämällä kyllä-luokat - Transform => Recode into different variables - 1 = kyllä, kaikkien => 1 = kyllä - 2 = kyllä, osan => 1 = kyllä - 3 = ei - 4 = eos - Variable view: täydennä muuttujan tiedot - Tarkista kuvasta - Tee ristiintaulukointi ikä-muuttujalle ja uudelle mielipide-muuttujalle - P-arvo 0,036 - Ristiintaulukon tulkinta kuitenkin paljastaa, että suurin ero on yli 50-vuotiaiden eos - sarakkeessa eli odotettua suurempi osa heistä on jotain mieltä asiasta

LÄHTEET Tenttimonisteen lisäksi.. Mankinen, M. (2004). Tilastotieteen perusmenetelmät I (806109P/806309A). Luentomoniste. Oulun yliopisto. Mankinen, M. (2005). Tilastotieteen perusmenetelmät II (806110P/806310A). Luentorunko, osa I, luvut 1-7. Oulun yliopisto. Ranta, E., H. Rita & J. Kouko (1994). Biometria. Tilastotiedettä ekologeille. 2. p. 569 s. Yliopistopaino, Helsinki. Rasi, Lepola & Kanniainen (2005). SPSS 13.0 for Windows perusteet. Oulun yliopisto, tietohallinto. Mehta, C. R. & N. R. Patel (1996). SPSS exact tests for windows. 220 s. SPSS Inc, Chicago. Holopainen, M. & P. Pulkkinen (2003). Tilastolliset menetelmät. 1. 2. painos. 338 s. Dark Oy, Vantaa.