Kvantitatiiviset tutkimusmenetelmät maantieteessä Harjoitukset: 2 Muuttujan normaaliuden testaaminen, merkitsevyys tasot ja yhden otoksen testit FT Joni Vainikka, Yliopisto-opettaja, GO218, joni.vainikka@oulu.fi
Luennon rakenne Jatkuvan muuttujan tarkastelu ja luokittelu Merkitsevyyden testaaminen ja p-arvon tulkinta Muuttujan normaaliuden testaaminen Muuttujamuunnokset Yhden otoksen testit ²-yhteensopivuustesti (chi-square) t-testi 2
Mitta-asteikot Tilastotieteessä mittaaminen on laajempi käsite kuin fysikaalisten suureiden mittaaminen Mittaustason ilmaisukykyä kuvataan mitta-asteikon käsitteellä, ja mittaaminen on tilastoyksiköiden ominaisuuksien määrittämistä Tilastollisen tutkimuksen tutkimusobjekti on tilastoyksikkö (esim. äänestäjä) Tilastollinen muuttuja (esim. puoluekanta) on tilastoyksikön ominaisuus Tilastolliset muuttujat voidaan jakaa kategorisiin ja numeerisiin muuttujiin Tilastolliset muuttujat Kategoriset muuttujat Jatkuvat (numeeriset) muuttujat Luokittelu- eli nominaaliasteikko Järjestys- eli ordinaaliasteikko Välimatka- eli intervalliasteikko Suhdeasteikko 3
Jatkuvat (numeeriset) muuttujat 4
Jatkuvan muuttujan tarkastelu Havaintoaineiston tilastollinen käsittely alkaa aineistoon tutustumisella ja tunnuslukujen laskemisella (pelkistetään muuttujan arvot) Jatkuvien muuttujien tunnusluvut: Keskiluvut, hajontaluvut, momentit Tilastolliset tunnusluvut SPSS:ssä Analyze Descriptive Statistics Descriptives Keskiluvut kuvaavat jakauman sijaintia Keskiarvo (mean), ei voida laskea kategorisille muuttujille. Aritmeettinen keskiarvo: Havaintoarvojen summa jaettuna havaintoarvojen määrällä Ei kannata käyttää mikäli aineistossa on paljon poikkeavia arvoja (esim 0,1,1,2, 2,100; keskiarvo on 17,7) Painotettu keskiarvo: Jos halutaan antaa eri tapauksille eri painoarvo Esim. kurssisuoritusten eri osiot Luokitellun aineiston keskiarvo: Aineisto järjestetty samanarvoisiin luokkiin, ja keskiarvoa laskettaessa kutakin luokkaa painotetaan kyseisen luokan frekvenssin verran Geometrinen keskiarvo: Muunnosfunktiona toimii logaritmifunktio Harmoninen keskiarvo: Muunnosfunktiona toimii käänteisfunktio Geom. ja harm. keskiarvo muuttavat vinojakaumaa symmetrisemmäksi. Lähinnä indeksilaskennassa 5
Jatkuvan muuttujan tarkastelu Mediaani (median) Md suuruusjärjestykseen asetetun havaintoarvojen joukon keskimmäinen luku, jos havaintoarvoja on pariton määrä. Jos havainto arvoja on parillinen määrä, mediaani on kahden keskimmäisen arvon keskiarvo. (Järjestysasteikolla mitatun muuttujan mediaani on keskimmäinen havaintoarvo tai jompikumpi keskimmäisistä arvoista). Mediaanin molemmin puolin on yhtä monta havaintoarvoa. Moodi (mode) eli tyypillinen arvo/tyyppiarvo, havaintoaineiston yleisin muuttujan arvo. Arvo, jonka frekvenssi on suurin Fraktiili (fractile) p % fraktiili jakaa havaintoaineiston kahteen osaan siten, että havaintoarvoista p % on pienempiä kuin kyseinen fraktiili. Tärkeimpiä ovat kvartiiilit (quartiles) ja desiilit (deciles). Kvartiileillä voidaan aineisto jakaa neljäs osaan ja desiileillä kymmeneen osaan. Kvantiili on säännöllisten luokkien määrä 6 Alakvartiili (Q1) 25 %, keskikvartiili (=mediaani) (Q2) 50 %, yläkvartiili (Q3) 75%, (huom. mediaani) 4-kvantiilit ovat kvartiileja 10-kvantiilit ovat desiilejä (1., 2. 3., 10. desiili)
Jatkuvan muuttujan tarkastelu Hajontaluvut kertovat, kuinka leveälle tai kapealle alueelle havainnot sijoittuneet Vaihteluväli (range) on pienimmän ja suurimman arvon rajaama väli, R = xmax xmin Käytetään etenkin silloin, kun muuttujan rajoittuminen nollaan tai johonkin muuhun arvoon ei ole itsestäänselvyys Voidaan myös laskea kvartiilivälejä, yläkvartiilin ja alakvartiilin erotus Keskihajonta (Standard deviation) eli standardipoikkeama kuvaa sitä, kuinka hajallaan arvot ovat keskiarvon ympärillä. Tärkein eri sovellutuksissa käytetty hajontaluku. Määritetään hieman eri tavoin populaatioille ja otoksille, käytännössä otoskeskihajonta Varianssi (variance) on keskihajonnan neliö, kuvaa miten muuttujan arvot ovat jakautuneet keskiarvon ympärille, neliöön korotettujen poikkeamien keskiarvo 7 Keskihajonnan avulla voidaan laskea variaatiokerroin ja keskiarvon keskivirhe
Jatkuvan muuttujan tarkastelu Toistettaessa mitä tahansa satunnaiskoetta tarpeeksi monta kertaa, kokeeseen liittyvän satunnaismuuttujan summan jakauma lähenee normaalijakaumaa Monet tilastolliset testit perustuvat olettamukseen jakauman symmetrisyydestä Momentit kuvaavat jakauman muotoa Vinous (skewness): Kuvaa jakauman vinoutta verrattuna normaalijakaumaan. Jos keskiarvo > mediaani on jakauma oikealle (positiivisesti) vino ja jos keskiarvo < mediaani on jakauma vasemmalle (negatiivisesti) vino. Huipukkuus (kurtosis): jos huipukkuus > 0 jakauma on positiivisesti huipukas ja jos huipukkuus < 0 jakauma on negatiivisesti huipukas; kuvaa arvojen keskittymistä lähelle keskiarvoa Viittaa siihen, miten piikikäs tai lattea jakauma on normaalijakaumaan verrattuna 8
N Mean Median Std. Deviation Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Range Minimum Maximum Statistics et_tori nelhinta Valid 700 700 Missing 0 0 7,17 1682,60 6,40 1623,90 5,24 594,20,905 1,642,092,092 1,05 8,368,185,185 30,51 6450,190 293 30,70 6743 9
Jatkuvan muuttujan luokittelu Valmiiksi luokitellun aineiston luokittelu voi olla enintään luokkien yhdistelyä Jatkuvan muuttujan kohdalla luokittelun perusteena voidaan käyttää tilastollisia tunnuslukuja, esim. kvartiileja tai desiilejä Luokat voidaan muodostaa esim. min-q1 Q1-Q2 Q2-Q3 Q3-max Etenkin vinot ja huipukkaat jakaumat vaativat monesti oman luokittelun Luokittelun tulee aina perustua johonkin loogiseen näkökulmaan! 10
Merkitsevyyden testaaminen ja p-arvon tulkinta 11
Merkitsevyyden testaaminen Tilastollisten testien avulla tutkitaan väittämien eli hypoteesien paikkansapitävyyttä Koska testin tuloksen perusteella tehtävät päätelmät perustuu otokseen, ei täyttä varmuutta tutkittavasta asiasta voida koskaan saada antaa vain apua päätöksentekoa varten Merkitsevyyden testaamisella pyritään vähentämään tulosten tulkinnanvaraisuutta Merkitsevyystaso kertoo hypoteesien testauksessa väärän johtopäätöksen todennäköisyyden Ei ole keino tulosten tärkeyden arviointiin Merkitsevä tulos on vain sellainen, joka on epätodennäköistä saada sattumalta Merkitsevyys ei ole sama kuin merkittävä! 12
p-arvon tulkinta Hypoteesit H 0 = ei eroja, ei riippuvuutta H 1 = on eroja, on riippuvuutta Näistä jompikumpi hylätään/hyväksytään p-arvon perusteella p-arvot ja niiden merkitsevyydet (significance, josta lyhenne Sig. tulostaulukoissa) tulostuvat automaattisesti esim. p-arvo 0.01 tarkoittaa, että jos nollahypoteesi on tosi, niin on vain 1 % mahdollisuus että, hypoteesi hylätään 13
Muuttujan normaaliuden testaaminen ja muuttujamuunnos 14
Muuttujan normaaliuden testaaminen Aineiston jakauman muodon tutkiminen on tärkeää, sillä monet tilastolliset testit perustuvat normaalijakaumaoletukselle Parametriset testit normaalisti jakautuneille muuttujille Parametrittomat/ei-parametriset testit muille jakaumille Normaalijakaumaoletusta testataan Kolmogorov-Smirnovin testillä H 0 : tutkittava muuttuja on jakautunut normaalisti H 1 : tutkittava muuttuja ei ole jakautunut normaalisti 15
Muuttujan normaaliuden testaaminen Kolmogorov-Smornovin testissä normaalisuuden raja-arvo on normaalia korkeampi (p 0.200, jotta H 0 on tosi) Merkitsevyystaso 0,200 on alin arvo, jolla muuttuja noudattaa H 0 :aa eli on normaalisti jakautunut Normaalijakaumaoletuksen voimassaolon tarkastelu SPSS:ssä Analyze Descriptive Statistics Explore Valitaan Dependent List kohtaan tutkittava muuttuja Plots-välilehdeltä rastitetaan ainakin Histograms ja Normality plots with tests Tests of Normality Kolmogorov-Smirnov a Shapiro-Wilk Statistic df Sig. Statistic df Sig. et_tori,091 700,000,934 700,000 nelhinta,071 700,000,915 700,000 a. Lilliefors Significance Correction 16
Muuttujamuunnokset Jos aineisto ei ole normaalisti jakautunut, voidaan sitä kokeilla normalisoida sopivalla muunnoksella (esim. logaritmimuunnos) Muunnosten teko on kuitenkin aina riskialtista, koska yhden ominaisuuden korjaaminen saattaa rikkoa muita aineistossa toteutuneita testien käyttöedellytyksiä Testien tulokset eivät ole suoraan siirrettävissä alkuperäistä aineistoa koskeviksi Tulkinta vaikeutuu! Muunnosten tekeminen edellyttää oman tutkimusalan hallintaa Muunnosten teko SPSS:ssä: Transform Compute Variable Target Variable: Nimeä uusi muuttuja, Numeric Expression laatikkoon esim. LN(alkuperäinen muuttuja) 17
Yhden otoksen testit 18
Yhden otoksen testit Yksi otos, jota verrataan valittuun jakaumaan tai testisuureeseen sopivalla testimenetelmällä Epäparametrisiä testejä käytetään kun hautaan selvittää muuttujan jakaumaa havaittujen frekvenssien avulla. Sopii luokittelu- ja järjestysasteikoilla mitattujen muuttujien testaamiseen Parametrisiä testejä käytetään testattaessa perusjoukon parametrien (keskiarvo, keskihajointa, suhteellinen osuus) arvoja. Välimatka- tai suhdeasteikko muuttujat. Epäparametrinen (ei normaalijakaumaoletusta) ²-yhteensopivuustesti Analyze Nonparametric Tests One Sample.. Parametrinen (normaalijakaumaoletus) T-testi Analyze Compare Means One-Sample T Test 19
²-yhteensopivuustesti (chi-square) Vertaa muuttujan jakaumaa hypoteesin mukaisiin frekvensseihin Havaittu frekvenssi f 0 ja teoreettinen frekvenssi f e 2 = (f 0 f e ) 2 f e Testaa, onko luokittelumuuttujan jakauma satunnainen tai tietyn odotetun jakauman mukainen oletushypoteesijakaumana SPSS käyttää tasajakaumaa Nollahypoteesina on, että tarkasteltava jakauma noudattaa hypoteesijakaumaa Testi voidaan suorittaa, jos enintään 20 % kaikista teoreettisista frekvensseistä jää alla viiden 20
t-testi Parametrinen yhden otoksen testi Testataan poikkeaako yhden muuttujan keskiarvo jostakin tietystä vakiosta tai annetusta keskiarvosta T-testiä voidaan käyttää, kun otos on peräisin normaalijakautuneesta populaatiosta ja tilastomuuttuja on jatkuva/numeerinen mittaus on suoritettu vähintään välimatka-asteikollisella mittarilla Tosin melko jäykkä normaalista poikkeaville arvoille SPSS:ssä muuttujien mitta-asteikkona Scale, tarkoittaa välimatka- tai suhdeasteikkoa 21