RISTIINTAULUKOINTI JA Χ 2 -TESTI Kvantitatiiviset tutkimusmenetelmät maantieteessä Ti 27.10.2015, To 2.11.2015 Miisa Pietilä & Laura Hokkanen miisa.pietila@oulu.fi laura.hokkanen@outlook.com
KURSSIKERRAN SISÄLTÖ 1. Kuinka tehdä ja tulkita X 2- testi? 2. Esimerkkejä 3. Yhteisharkka 4. Oppimispäiväkirjaa
JOHDANTO Χ 2 -TESTIIN Vastaa kysymykseen: onko muuttujien välillä riippuvuutta? Erittäin käyttökelpoinen testi Esimerkiksi kyselyt Solujen, luokkien ja ryhmien lukumäärää ei ole rajoitettu Pienille aineistoille olemassa oma exact p-arvo Ei-parametrinen eli jakaumasta riippumaton, ei vaadita perusjoukon jakauman tuntemista Muuttujat Esivalmistelujen myötä sopii kaikille muuttujille Vaatii luokitellun aineiston Automaattisesti luokiteltuja: luokitteluasteikon ja järjestysasteikon muuttujat Luokittelu tulee suorittaa erikseen: välimatka-asteikon ja suhdeasteikon muuttujat Tarkastele muuttujaa kuvana: esim. boxplot, histogrammi, Visual Binning
RISTIINTAULUKKO ELI KONTINGENSSITAULUKKO Rivimuuttujalla/sarakemuuttujalla ei väliä testin tulokseen. (Tarkkana prosenttien tulkinnassa!) Count = havaintoja yhteensä Expected count = paljonko havaintoja olisi, jos ne olisivat tasaisesti jakautuneet eli muuttujien välillä ei olisi riippuvuutta Sarakkeen total * Rivin total / N Esim. 88 * 159 / 163 = 85,8 % within sukupuoli = montako prosenttia esim. miehistä on ollut tietoinen kuntaliitoksesta Taulukon jakaumat ovat hyvin lähellä odotettuja, joten aineiston miehet ja naiset ovat yhtä tietoisia kuntaliitoksesta
Χ 2 -TESTI χ 2 -testisuure lasketaan solujen residuaalien perusteella Residuaali = havaittu arvo odotettu arvo Esim. 87 85,8 = 1,2 Std. Residual Residuaalin vaihteluväli riippuu aineistosta Std. Residual -luvut on suhteellisia ja vertailukelpoisia Jos arvo on pienempi kuin -2 tai suurempi kuin 2, on residuaali suuri
Χ 2 -TESTIN EHDOT korkeintaan 20 % odotetuista frekvensseistä on pienempiä kuin 5 ja kaikki odotetut frekvenssit ovat suurempia kuin 1 (Ranta ym. 1994: 135) Mikäli tämä ei täyty, toimi seuraavasti 1) jos mahdollista, yhdistele muuttujan luokkia: vähemmän luokkia on enemmän havaintoja per luokka (Recode-toiminto) 2) laske exact p-arvo Viereisessä taulukossa ehdot eivät täyty: Kaikki odotetut frekvenssit ovat suurempia kuin 1 Mutta 50 % frekvensseistä on pienempiä kuin 5
Χ 2- TESTIN TULKINTA Erojen merkitsevyys tulkitaan χ2-testin p-arvosta p 0,001 (erittäin merkitsevä) 0,001<p 0,01 (merkitsevä) 0,01<p 0,05 (melkein merkitsevä) (Holopainen & Pulkkinen 2003: 157) Jos ehdot eivät täyty eikä luokkien yhdisteleminen auta, voidaan tulkita exact p-arvo
1,387 Kuvan jakaumissa on mainittu pienin χ 2 -arvo jolla saavutetaan tilastollinen merkitsevyys (0,05) kyseisellä vapausasteella df = degrees of freedom (sarakkeiden lkm 1) * (rivien lkm 1) Esim. (2-1) * (2-1) = 1 * 1 = 1 Jokaiselle vapausasteelle on olemassa oma χ 2 -jakaumansa, koska testisuureen suuruus vaihtelee solujen määrän mukaan Mitä enemmän soluja => sitä enemmän residuaaleja => sitä suuremmaksi testisuure (χ2) voi kasvaa Testisuureen aineistosidonnaisuus ja solujen määrä huomioidaan vapausasteiden ja jakauman muodon kautta
ESIMERKKI TULKINNASTA Onko testi tulkittavissa? Eli täyttyvätkö testin ehdot Taulukossa p-arvo: Asymp. Sig. (2-sided)/Pearson Chi-Square Exact p-arvo: Exact Sig. (2-sided)/Pearson Chi-Square 0,335 = muuttujien välillä ei ole riippuvuutta TULKINTA = kyselyyn vastanneet miehet ja naiset olivat yhtälailla tietoisia vireillä olevasta monikuntaliitoshankkeesta vuonna 2009
FISCHERIN NELIKENTTÄTESTI 2 * 2 -taulukolle χ 2 -testiä varovaisempi P- arvo, joka kannattaa tulkita erityisesti tilanteissa joissa Odotettujen havaintojen määrä jossain soluissa on pienempi kuin 5 Otoskoko on pieni (alle 20) SPSS tulostaa testin arvon automaattisesti χ 2 -testin yhteydessä 2 * 2 -taulukolle
ESIMERKKEJÄ
AINEISTON EDUSTAVUUS Table 1. Characteristics of PPGIS respondents and all ONP Visitor Survey participants. PPGIS survey respondents (n=170) Visitor Survey respondents (n=756) df X 2 p-value Gender 1 0,5 0,48 Male 46 % 49 % Female 54 % 51 % Education 2 2,9 0,23 No vocational education 5 % 7 % Vocational education 41 % 47 % Higher education 53 % 46 % Age 3 1,0 0,80 15 30 17 % 20 % 31 45 32 % 30 % 46 60 36 % 34 % 60 and plus 15 % 16 % Nationality 1 0,2 0,66 Finnish 86 % 85 % Foreigner 14 % 15 % Previous park visits 1 1,9 0,17 Repeat visitor 64 % 58 % First-time visitor 36 % 42 % Length of visit 1 4,9 0,03* Day visitor 59 % 68 % Overnight visitor 41 % 32 % * Significant difference in the Pearson s chi-square tests p<0,05
MIELIPIDE-EROT
HARJOITUKSET
TEHTÄVÄ 1 EROAVATKO MIESTEN JA NAISTEN VASTAUKSET VÄITTEESEEN MONIKUNTALIITOSKESKUSTELU ON LIIAN OULU -PAINOTTEISTA? (KLIIT_OULU30) Muuttujien mitta-asteikot Luokittelu ja järjestys Rivimuuttujaksi sukupuoli Sarakemuuttujaksi väite Voit valita Display clustered bar charts, voi auttaa tulkinnassa Avaa laatikko Statistics Rastita Chi-square Avaa laatikko Cells Rastita observed, expected ja row (makuasia..) Std. Residuals Display clustered bar charts (jos haluat kuvan)
Huom! Aineistossa on koodausvirhe. Vaihtoehtoa 0 ei pitäisi olla olemassa. Jos huomaat aineistossasi tällaisia, ne tulee etsiä ja korjata. Nyt tulosta ei saa vielä tulkita. Kun huomaat koodausvirheitä, tarkista alkuperäisestä aineistosta Tilalle joko oikea numero tai jos kysymykseen on jätetty vastaamatta, silloin tyhjä
Täyttyvätkö ehdot? 16,7 % soluista odotettu luku on alle 5 Pienin odotettu luku on 3,63 Kyllä => p-arvon voi tulkita: 0,004 (merkitsevä)
Tulkitaan ristiintaulukon ja pylväskuvion avulla, mistä on kysymys Suurimmat erot näyttäisivät olevan vastauksessa täysin eri mieltä ja eos Miehet ovat odotettua useammin täysin eri mieltä ja naiset eivät odotettua useammin osaa sanoa On TODELLA TÄRKEÄÄ paneutua tuloksen tulkintaan. Loppujen lopuksi tämä tulos ei ehkä olisi kovin mielenkiintoinen ja voi olla ettei sitä tutkielmassa edes tuotaisi esille. Toisin sanottuna merkitsevä p-arvo ei ole tutkimuksen tulos. Tutkimuksen tulos on vastaus tutkimuskysymykseen!
TEHTÄVÄ 2 EROAVATKO MIESTEN JA NAISTEN VASTAUKSET KYSYMYKSEEN ARVIOIKAA O MIA MAHDOLLISUUKSIANNE VAIKUTTAA ASUINKUNTANNE KEHITTÄMISTÄ KOSKEVAAN PÄÄTÖKSENTEKOON (KYSYMYS 29)? Muuttujien mitta-asteikot: luokittelu ja järjestys
1) Yhdistetään luokkia (Recode) erittäin hyvät + hyvät => hyvät (arvo 1) ei hyvät eikä huonot (arvo 2) erittäin huonot + huonot => huonot (arvo 3) eos (arvo 4) 2) Toistetaan testi uudella luokituksella: onko tulos nyt tulkittavissa? 3) Tee alkuperäiselle luokitukselle χ2-testi valitsemalla exact p-arvo
TEHTÄVÄ 3 ONKO MIELIPIDE KUNTALIITOSTA KOHTAAN ERILAINEN RIIPPUEN SIITÄ MINKÄ IKÄINEN VASTAAJA ON? Mitta-asteikot Ikä: suhdeasteikko (Kysymys 2) Mielipide kuntaliitosta kohtaan: luokitteluasteikko (Kysymys 17) 1) Luokitellaan ikä-muuttuja Transform => visual binning Luokat: 30 ja alle, 31-40, 41-50 ja yli 50 2) Ristiintaulukointi ja χ2-testi Luokiteltu ikä rivimuuttujaksi 3) Tulkitaan testin ehdot ja P-arvo (0,074)
Yksinkertaistetaan mielipide-muuttujaa (Kysymys 17) yhdistämällä kyllä-luokat - Transform => Recode into different variables - 1 = kyllä, kaikkien => 1 = kyllä - 2 = kyllä, osan => 1 = kyllä - 3 = ei - 4 = eos - Variable view: täydennä muuttujan tiedot - Tarkista kuvasta - Tee ristiintaulukointi ikä-muuttujalle ja uudelle mielipide-muuttujalle - P-arvo 0,036 - Ristiintaulukon tulkinta kuitenkin paljastaa, että suurin ero on yli 50-vuotiaiden eos - sarakkeessa eli odotettua suurempi osa heistä on jotain mieltä asiasta
LÄHTEET Tenttimonisteen lisäksi.. Mankinen, M. (2004). Tilastotieteen perusmenetelmät I (806109P/806309A). Luentomoniste. Oulun yliopisto. Mankinen, M. (2005). Tilastotieteen perusmenetelmät II (806110P/806310A). Luentorunko, osa I, luvut 1-7. Oulun yliopisto. Ranta, E., H. Rita & J. Kouko (1994). Biometria. Tilastotiedettä ekologeille. 2. p. 569 s. Yliopistopaino, Helsinki. Rasi, Lepola & Kanniainen (2005). SPSS 13.0 for Windows perusteet. Oulun yliopisto, tietohallinto. Mehta, C. R. & N. R. Patel (1996). SPSS exact tests for windows. 220 s. SPSS Inc, Chicago. Holopainen, M. & P. Pulkkinen (2003). Tilastolliset menetelmät. 1. 2. painos. 338 s. Dark Oy, Vantaa.