SPSS-OPAS Opinnäytetyön ja harjoitustöiden tekijöille Petri Kainulainen 15.5.2008 Iisalmen tulosalue Opas
SISÄLTÖ 1 YLEISTÄ... 3 2 AINEISTON TALLENNUS... 3 3 MUUTTUJIEN MITTA-ASTEIKOT... 7 4 MUUTTUJIEN MUOKKAAMINEN... 9 4.1 Laskutoimitukset... 9 4.2 Luokittelu... 11 5 TILASTOLLISTEN TUNNUSLUKUJEN LASKEMINEN... 14 5.1 Luokittelevat muuttujat... 14 5.2 Jatkuvat muuttujat... 16 6 MUUTTUJIEN VÄLINEN RIIPPUVUUS... 17 6.1 Kaksi luokittelevaa muuttujaa... 17 6.2 Luokitteleva ja jatkuva muuttuja... 20 6.2.1 Menetelmän valintaan vaikuttavat tekijät... 22 6.2.2 Jatkuvan muuttujan normaalisuuden toteaminen... 23 6.2.3 Riippumattomien otosten t-testi... 27 6.2.4 Mann Whitneyn U testi... 29 6.2.5 Yksisuuntainen varianssianalyysi... 30 6.2.6 Kruskall Wallisin H testi... 33 6.3 Kaksi jatkuvaa muuttujaa... 36 6.3.1 Pearsonin korrelaatiokerroin... 37 6.3.2 Spearmanin järjestyskorrelaatiokerroin... 39 7 KUVIOIDEN LUOMINEN... 41 8 LOPUKSI... 43
3 1 YLEISTÄ Tämä opas on laadittu pääosin Savonia-ammattikorkeakoulun opiskelijoille. Opiskelijat voivat käyttää opasta tukena tutkimusmenetelmiä käsittelevillä opintojaksoilla ja opinnäytetyötä tehdessä. Oppaan avulla SPSS-ohjelmiston toimintaan voi tutustua myös itsenäisesti. Opas on tehty käyttäen SPSS for Windows 16 ohjelmistoa. Ohjeet toimivat suurelta osin myös vanhemmissa SPSS-versioissa, joskin ulkoasu voi poiketa hieman. 2 AINEISTON TALLENNUS Aineiston tallennus aloitetaan Variable View välilehdeltä (kuvio 1), joka löytyy vasemmasta alareunasta. Tässä näkymässä kullekin aineiston muuttujalle tulee pääsääntöisesti yksi rivi. Poikkeuksena ovat sellaiset kyselylomakkeen monivalintakysymykset, joissa vastaaja voi valita useamman kuin yhden vaihtoehdon. KUVIO 1. SPSS-ohjelmiston välilehdet Näkymän sarakkeet ovat kullekin muuttujalle kuuluvia ominaisuuksia. Ominaisuudet ovat: Name: Muuttujan nimi, joka on lyhyt ja ytimekäs kuvaus muuttujasta. Muuttujan nimi kannattaa aloittaa kyselylomakkeen kysymyksen numeroon viitaten, kuten esimerkiksi K1sukupuoli. Nimi ei saa alkaa numerolla, eikä se saa si-
4 sältää joitakin erikoismerkkejä, kuten? ja +. Myöskään välilyönti ei ole sallittu. Type: Muuttujan tyyppi, joka kertoo, millaista informaatiota muuttuja sisältää. Tyyppiä voi vaihtaa klikkaamalla kerran aktiivisen solun oikeassa reunassa sijaitsevaa kolmea pistettä. Yleisimmät tyypit ovat numeerinen (Numeric) ja merkkijono (String). Huom! Monivalintakysymykset ovat numeerisia kullekin vastausvaihtoehdolle tulee antaa numeroarvo (esim. Sukupuoli: 1 = Nainen, 2 = Mies). Width: Leveys kertoo, kuinka monta merkkiä muuttujalle varataan tilaa. Numeerisille muuttujille riittää hyvinkin pieni tila (esim. pituus 178 = kolme merkkiä). Merkkijonoille kannattaa varata enemmän tilaa. Desimals: Numeeristen muuttujien osalta, näytettävien desimaalien lukumäärä. Lukua voi muuttaa päälle kirjoittamalla tai solun oikeassa reunassa sijaitsevilla nuolilla. Label: Tarkempi kuvaus muuttujasta. Muuttujan nimi on yleensä lyhyt ja ytimekäs, muttei useinkaan kovin kuvaava. Tähän kenttään voi kirjoittaa tarkemman kuvauksen, joka voi sisältää mitä tahansa merkkejä. Suosittelen, että Label-kenttään kirjoitetaan kyselylomakkeen kysymys. Values: Kenttä täytetään ainoastaan monivalintakysymyksille. Monivalintakysymysten tyyppi on numeerinen, jolloin tässä kentässä määritellään, mitä mikin numeroarvo tarkoittaa. Määrittely aloitetaan klikkaamalla kerran aktiivisena olevan solun oikean reunan kolmea pistettä. Avautuvan ikkunan Valuekenttään tallennetaan numeroarvo ja Label-kenttään tekstiä. Kukin pari siirretään alempaan laatikkoon Add-napin avulla (kuvio 2). Missing: Puuttuvan tiedon käsittely. Tätä ei yleensä tarvitse muuttaa. Columns: Data View välilehdellä näytettävien sarakkeiden leveys. Ei vaikuta soluun sopivien merkkien lukumäärään. Tätä ei yleensä tarvitse muuttaa. Align: Mihin kohtaan (vasen, keskikohta, oikea) solua aineisto tasataan. Tätä ei yleensä tarvitse muuttaa.
5 Measure: Muuttujan mitta-asteikko. Tätä ei yleensä tarvitse muuttaa. KUVIO 2. Value Label -ikkuna Esimerkki Kyselytutkimuksessa kysyttiin seuraavanlaisia tietoja (kuvio 3): Sukupuoli: Monivalinta, ensin Nainen ja sitten Mies. Ikä: Vuosissa, ei monivalinta. Asuinkunta: Vastaaja on voinut kirjoittaa asuinkuntansa itse. Koulutus: Monivalinta. Vastaaja on ohjeistettu rastittamaan kaikki käymänsä koulutusasteet (Peruskoulu, lukio, ammattikoulu, ammattikorkeakoulu, yliopisto ja joku muu). Lisäksi Joku muu kohdan jälkeen on vapaa tekstikenttä, johon vastaaja on voinut kirjoittaa koulutuksen. Kysymyksille 1-3 luodaan yksi muuttuja kullekin. Kysymys 4 vaatii yhteensä seitsemän muuttujaa. Kullekin vaihtoehdolle luodaan omansa, jotka koodataan nollaksi (0 = ei valittu) ja ykköseksi (1 = on valittu). Lisäksi, vapaalle tekstikentälle ( Joku muu, mikä ) luodaan oma merkkijono-tyyppinen muuttuja. Varsinaisten kyselylomakkeen kysymysten lisäksi tallennuspohjaan luodaan muuttuja, joka kertoo kunkin vastaajan tunnisteen. Tämä tunniste kirjataan lomakkeille juoksevana numerona siten, että ensimmäinen vastaaja saa numeron yksi ja viimeinen vastaajien lukumäärän.
6 KUVIO 3. Esimerkkikyselylomake Kuviossa 4 on valmis tallennuspohja Variable View näkymästä katsottuna. Kuviossa on peruskoulu-muuttujan Values-ikkuna avattuna. KUVIO 4. Esimerkkiaineiston tallennuspohja Varsinainen aineisto tallennetaan Data View välilehdelle (kuvio 1). Monivalintakysymyksissä käytetään niitä numeroarvoja, jotka on määritelty Variable View välilehden Values-kohdassa. Muutoin, tallennetaan ne luvut ja tekstit, jotka kyselylomakkeilla. Kuviossa 4 on esimerkkiaineisto tallennettuna. Aineistossa on 15 havaintoa, eli vastaajaa.
7 KUVIO 5. Esimerkkiaineisto tallennettuna Jos aineistossa on puuttuvia havaintoja (ei vastausta), tulee nämä jättää aineistossa tyhjiksi. Poikkeuksena ovat monivalintakysymykset, joissa vastaaja voi valita useamman kuin yhden vaihtoehdon (esim. kouluasteet edellisessä esimerkissä). Tällaisissa muuttujissa ei-valittuihin tallennetaan 0 vastaaja ei ole käynyt kyseistä kouluastetta. 3 MUUTTUJIEN MITTA-ASTEIKOT Tutkittavia tekijöitä voidaan mitata monella eri tavalla. Esimerkiksi kyselylomakkeella kysyttävä ikä voi olla monivalintakysymys tai avoin kenttä, johon vastaaja voi kirjoittaa ikänsä vuosissa. Muuttujien mitta-asteikoilla tarkoitetaan niiden luokittelua useimmiten neljään kategoriaan muuttujan ominaisuuksien mukaisesti. Mitta-asteikko vaikuttaa erittäin paljon tilastollisten menetelmien valintaa. Siksi ne esitellään ominaisuuksineen tässä kappaleessa. Taulukossa 1 on esitetty neljä mitta-asteikkoa. Luokittelevat muuttujat jaetaan kahteen ryhmään, luokka- ja järjestysasteikollisiin. Luokka-asteikollisessa muuttujassa havainnot jaetaan luokkiin, joiden välillä ei ole minkäänlaista suuruus- tai paremmuusjärjestystä. Esimerkkejä luokka-asteikollisesta muuttujasta ovat
8 sukupuoli (mies ja nainen) asuinkunta (Iisalmi, Kuopio ja Kajaani). Järjestysasteikollisessa muuttujassa havainnot jaetaan myös luokkiin. Erona edelliseen on se, että nyt luokkien välillä on jokin suuruus- tai paremmuusjärjestys. Esimerkkejä järjestysasteikollisesta muuttujasta ovat luokiteltu ikä (alle 30 vuotta, 30-40 vuotta ja yli 40 vuotta) mielipideväittämän vastausvaihtoehdot (täysin samaa mieltä, jokseenkin samaa mieltä, jokseenkin eri mieltä ja täysin eri mieltä) Jatkuvat muuttujat jaetaan myös kahteen ryhmään, välimatka- ja suhdeasteikollisiin. Jatkuvalla muuttujalla ei ole luokkia. Sen sijaan se voi saada mitä tahansa arvoja jollain tietyllä välillä. Välimatka-asteikollisen muuttujan ominaisuuksiin kuuluu se, että peräkkäisten arvojen välille lasketulla erotuksella on jokin luonnollinen merkitys. Välimatka-asteikollisella muuttujalla ei myös ole nollakohtaa. Esimerkkejä välimatkaasteikollisista muuttujista ovat syntymävuosi (vuosi 0 on sovittu ) lämpötila celsius-asteina (lämpötila 0 on sovittu ). Suhdeasteikollinen muuttuja poikkeaa välimatka-asteikollisesta muuttujasta hyvin vähän. Suhdeasteikollisen muuttujan peräkkäisten arvojen suhteella on jokin merkitys ja suhdeasteikollisella muuttujalla on absoluuttinen nollapiste, jonka alle ei voi mennä. Esimerkkejä suhdeasteikollisista muuttujista ovat vastaajan ikä (ei voi mennä alle nollan) lämpötila Kelvin-asteina (lämpötila ei voi mennä alle nollan).
9 TAULUKKO 1. Muuttujien mitta-asteikot Luokitteleva muuttuja Jatkuva muuttuja Luokka-asteikko Järjestysasteikko Välimatka- Suhdeasteikko Luokat, joiden Luokat, joiden asteikko Ei luokkia, on ab- välillä ei ole suu- välillä on suuruus- Ei luokkia, ei ab- soluuttinen nolla- ruusjärjestystä. järjestys. soluuttista nolla- kohta. kohtaa. 4 MUUTTUJIEN MUOKKAAMINEN Melkein jokaisessa tutkimuksellisessa opinnäytetyössä joudutaan muuttujia muokkaamaan ja käsittelemään jollain tavalla. Syynä voi esimerkiksi olla liian moniportainen monivalintakysymys. Kyselylomaketta suunniteltaessa ei aina osata ottaa kaikkea huomioon, eikä tarvitsekaan, koska aineistoa voi muokata myös jälkikäteen. Seuraavissa kappaleissa käydään lyhyesti läpi yleisimmät tavat muokata muuttujia jälkikäteen SPSS-ohjelmistolla. 4.1 Laskutoimitukset Olemassa olevien muuttujien perusteella voidaan tehdä uusia muuttujia hyvin monipuolisesti. Käytössä ovat, yksinkertaisten laskutoimitusten (yhteen-, vähennys-, kertoja jakolasku) lisäksi, hyvin monipuolinen joukko erilaisia funktioita. Seuraavassa kaksi esimerkkiä, joista ensimmäisessä sovelletaan yksinkertaisia laskutoimituksia ja toisessa funktiota. Esimerkkien laskutoimitukset saadaan, kun valitaan valikosta Transform Compute Variable. Esimerkki Kyselylomakkeella on kysytty syntymävuotta, jonka perusteella halutaan laskea ikä vuosissa (kuvio 6). Vasemman yläreunan Target Variable kenttään tulee kirjoittaa luotavalle uudelle muuttujalle jokin nimi. Kyseessä ei ole varsinainen kyselylomak-
10 keen kysymys, joten nimen ei tarvitse viitata mihinkään kysymyksen numeroon. Huomaa, etteivät erikoismerkit sovellu edelleenkään. Laskukaava kirjoitetaan Numeric Expression kenttään. Aineiston muuttujat (tässä tapauksessa syntymävuosi) siirretään vasemmanpuoleisesta kentästä Numeric Expression kenttään kenttien välissä sijaitsevalla nuolella. Kun toimenpide on valmis, klikataan OK uusi muuttuja tulee Data View näkymän oikeaan reunaan, eli viimeiseksi. KUVIO 6. Iän laskeminen syntymävuoden avulla Esimerkki Tutkimuksessa on mitattu ihmisen pituus yhden desimaalin tarkkuudella. Analysointia varten pituus täytyy kuitenkin pyöristää pyöristyssääntöjen mukaisesti. Tässä tapauksessa kannattaa käyttää SPSS:n RND-funktiota (kuvio 7). Tulevalle muuttujalle täytyy antaa nimi, joka kirjoitetaan vasemman reunan Target Varieble -kenttään. RNDfunktio löytyy Functions and Special Variables listasta. Oikean funktion löytäminen on helpompaa, jos osaa valita oikean ryhmän Function group listasta. Kyseinen funktio löytyy Aritmetic kategoriasta.
11 KUVIO 7. Pituuden pyöristäminen RND-funktiolla 4.2 Luokittelu Luokittelua tarvitaan, kun jatkuva muuttuja (esim. ikä vuosissa) halutaan luokitella tai monivalintakysymyksen luokittelua halutaan tiivistää, eli vähentää luokkien lukumäärää. Seuraavassa esitetään esimerkit kummastakin edellä mainitusta tapauksesta. Luokittelu tapahtuu valikosta Transform Recode into different variables (olemassa olevan muuttujan perusteella luodaan uusi ja alkuperäinen säilytetään). Esimerkki Tutkimuksessa ikä on kysytty vuosissa ja se halutaan luokitella luokkiin < 20 vuotta, 20-30 vuotta ja yli 30 vuotta. Ensin tulee päättää, mitkä numeroarvot näille luokille annetaan. Loogisinta lienee antaa ensimmäiselle luokalle numeroarvoksi 1, toiselle 2 ja kolmannelle 3. Luokittelu tehdään kahdessa vaiheessa, joista ensimmäinen on nähtävissä kuviosta 8. Luokiteltava muuttuja, eli tässä tapauksessa ikä, siirretään vasemman puoleisesta kentästä keskimmäiseen. Tämän jälkeen luotava, uusi muuttuja tulee nimetä. Uusi nimi
12 annetaan Output Variable Name kenttään. Tarkempi kuvaus voidaan kirjoittaa Label-kenttään. Tämän jälkeen klikataan Change-painiketta. KUVIO 8. Jatkuvan muuttujan luokittelu, ensimmäinen vaihe Varsinainen luokittelu päästään toteuttamaan klikkaamalla Old and New Values painiketta, josta aukeaa kuvion 9 kaltainen ikkuna. Kullekin uudelle luokalle, joita tässä esimerkissä on kolme kappaletta, tulee tehdä seuraavat vaiheet: 1. Määrittele luokkaväli käyttäen Range-vaihtoehtoja. Esim. luokka alle 20 vuotta : valitaan Range, LOWEST through value ja kirjoitetaan kenttään 20. Vastaavasti luokka 20-30 vuotta : valitaan Range ja kirjoitetaan valkoisiin kenttiin 21 ja 30. Viimeisessä luokassa yli 30 vuotta valitaan Range, value through HIGHEST ja kirjoitetaan kenttään 31. 2. Kunkin luokkavälin määrittämisen jälkeen klikataan Add-painiketta. Viimeisen luokan jälkeen Old -> New kentässä tulee olla kaikkien kolmen luokan määrittelyt. 3. Lopuksi klikataan Continue-painiketta, jolloin palataan kuvion 8 ikkunaan, jossa klikataan OK-painiketta. Uusi muuttuja muodostuu Data view-välilehden oikeaan reunaan.
13 4. Muuttujan luomisen jälkeen kannattaa numeerisille arvoille antaa sanalliset merkitykset, eli määritellä Values-kenttä Variable view välilehdeltä (ks. kappale 2 ja kuvio 2) KUVIO 9. Jatkuvan muuttujan luokittelu, toinen vaihe Esimerkki Edellisessä esimerkissä muodostettu luokittelu osoittautui huonoksi, koska nuorimmassa ikäluokassa (alle 20 vuotta) ei ole yhtään vastaajaa. Tällöin on tarve luokitella muuttuja uudestaan. Uudelleenluokittelu tehdään siten, että alle 20 vuotta ja 20-30 vuotta yhdistetään ja yli 30 säilytetään omana luokkanaan. Luokkien numeroarvoja käyttäen uudelleenluokittelu näyttää seuraavanlaiselta: 1 (alle 20 vuotta) => 1 (30 vuotta tai alle) 2 (20-30 vuotta) => 1 (30 vuotta tai alle) 3 (yli 30 vuotta) => 2 (yli 30 vuotta) Uudelleenluokittelu toteutetaan pääpiirteissään samalla tavalla kuin edellisen esimerkin luokittelu, eli valikosta Transform Recode Into different variables. Ensimmäinen vaihe menee edellisen esimerkin mukaisesti (uudelle muuttujalle on määriteltävä nimi), toisessa vaiheessa voidaan käyttää Range-kenttien sijaan Value-kenttää. Vasemman puoleiseen Value-kenttään kirjoitetaan vanhan luokittelun mukainen luok-
14 kanumero ja oikeanpuoleiseen uuden luokittelun mukainen. Kunkin parin jälkeen klikataan Add-painiketta ja lopuksi Continue-painiketta (kuvio 10). Kun uusi muuttuja on luotu, tulee sen Values-kenttä määritellä kuten edellisessä esimerkissä. KUVIO 10. Uudelleenluokittelun toinen vaihe 5 TILASTOLLISTEN TUNNUSLUKUJEN LASKEMINEN Tässä kappaleessa kerrotaan tilastollisten tunnuslukujen laskeminen yhdelle muuttujalle kerrallaan. Jos tunnuslukuja halutaan laskea jonkin toisen muuttujan suhteen, se on kuvattu kappaleessa 6. Tunnuslukuja voi SPSS-ohjelmistolla laskea hyvin monella eri tavalla. Tässä kappaleessa on esitetty hyvin yksinkertaiset tavat. 5.1 Luokittelevat muuttujat Luokittelevasta muuttujasta, eli esimerkiksi monivalintakysymyksestä lasketaan yleensä kuhunkin luokkaan kuuluvien lukumäärä (frekvenssi), prosentuaalinen tai suhteellinen osuus (suhteellinen frekvenssi). Jossain tapauksessa käytetään myös suhteellisten osuuksien summaa (suhteellinen summafrekvenssi). Seuraavassa yksinkertainen esimerkki frekvenssin ja suhteellisen frekvenssin laskemisesta.
15 Esimerkki Lasketaan frekvenssi ja suhteellinen frekvenssi sukupuolelle, eli selvitetään, kuinka moni vastaajista on miehiä ja kuinka moni naisia sekä samat prosentuaalisesti. Frekvenssit saadaan valikosta Analyze Descriptive Statistics Frequencies. Haluttu muuttuja, eli sukupuoli, siirretään vasemman reunan muuttujalistasta oikealla sijaitsevaan kohdelaatikkoon (kuvio 11). Statistics-painikkeen avulla voidaan määritellä ne tunnusluvut, joita halutaan laskea ja Charts-painikkeen avulla ne kuviot, jotka halutaan piirtää. Tässä esimerkissä tyydytään yksinkertaisiin tunnuslukuihin, eikä piirretä kuvioita. Kun haluttu muuttuja on siirretty, klikataan OK-painiketta. KUVIO 11. Luokittelevan muuttujan tunnuslukujen laskeminen OK-painikkeen klikkaamisen jälkeen avautuu uusi Output-ikkuna, johon tulokset kertyvät. Halutut tunnusluvut löytyvät Output-ikkunan toisesta taulukosta (kuvio12). Frekvenssit, eli vastaajien lukumäärät löytyvät Frequency-sarakkeesta. Tässä esimerkissä naisia on siis 8 ja miehiä 7 kappaletta. Suhteelliset frekvenssit, eli osuudet prosentteina löytyvät kahdesta sarakkeesta: Percent ja Valid Percent. Näiden sarakkeiden erona on se, että mahdolliset puuttuvat havainnot (vastaamata jättäminen) ovat mukana Percent-sarakkeen luvuissa, mutta eivät Valid Percent sarakkeen vastaavissa. Käytettäessä Percent-saraketta, voidaan puhua kyselyyn vastanneista ja Valid Percent lukuja käytettäessä voidaan puhua kysymykseen vastanneista. Tässä esimerkissä puuttuvia havaintoja ei ole. Voimme siis mainita, että Vastaajista 53,3 % oli naisia ja 46,7 % miehiä..
16 KUVIO 12. Luokittelevan muuttujan tunnusluvut Output-ikkunassa 5.2 Jatkuvat muuttujat Yleisimmät jatkuvan muuttujan tilastolliset tunnusluvut ovat keskiarvo, keskihajonta, pienin arvo (minimi) ja suurin arvo (maksimi). Nämä tunnusluvut saadaan laskettua hyvinkin monella eri tavalla, seuraavassa esimerkissä on ehkä se yksinkertaisin. Esimerkki Lasketaan edellä mainitut tilastolliset tunnusluvut esimerkkiaineiston iälle. Tunnusluvut saadaan valikosta Analyze Descriptive Statistics Descriptives. Haluttu muuttuja, eli ikä, siirretään vasemmalla sijaitsevasta muuttujaluettelosta oikealla sijaitsevaan kohdelaatikkoon (kuvio 13). Options-painikkeen avulla voidaan määritellä, mitä tunnuslukuja lasketaan. Tässä esimerkissä tyydytään oletusarvona saataviin tunnuslukuihin. Lopuksi klikataan OK-painiketta. KUVIO 13. Jatkuvan muuttujan tunnuslukujen laskeminen Output-ikkunaan muodostuu kuvion 14 mukainen taulukko, jossa tunnusluvut ovat. Englanninkieliset selitykset ja lyhenteet ovat:
17 N = vastaajien lukumäärä Minimum = pienin arvo, eli nuorimman vastaajan ikä Maximum = suurin arvo, eli vanhimman vastaajan ikä Mean = keskiarvo, eli keski-ikä vuosissa Std. Deviation = keskihajonta keski-iälle vuosissa. KUVIO 14. Jatkuvan muuttujan tunnusluvut Output-ikkunassa 6 MUUTTUJIEN VÄLINEN RIIPPUVUUS Usein tutkimuksissa ollaan kiinnostuneita, vaikuttaako jokin asia (esim. taustatekijä) toiseen. Tällöin voidaan puhua kahden muuttujan välisestä riippuvuudesta. Riippuvuutta tulee ensin tarkastella tilastollisten tunnuslukujen avulla. Tämän lisäksi voidaan tehdä tilastollinen testi tai käyttää jotain muuta tilastollista menetelmää. Tässä kappaleessa käsitellään yleisimmin opinnäytetöissä esille tulevat tapaukset. 6.1 Kaksi luokittelevaa muuttujaa Kun halutaan tarkastella kahden luokittelevan muuttujan, eli esimerkiksi, kahden monivalintakysymyksen välistä riippuvuutta, aloitetaan tarkastelu muodostamalla ristiintaulukko (kontingenssitaulukko). Ristiintaulukossa toinen muuttujista toimii rivi- ja toinen sarakemuuttujana. Ristiintaulukko luodaan valikosta Analyze Descriptive Statistics Crosstabs. Esimerkki Tutkimuksessa haluttiin selvittää, ovatko naiset ja miehet yhtä hyvin koulutettuja. Sukupuoli on kaksiluokkainen (1 = mies, 2 = nainen) ja ammatillinen koulutus neliluokkainen (1 = Ei tutkintoa, 2 = Koulutasoinen tutkinto, 3 = Opistotasoinen tutkinto ja 4 = Akateeminen tutkinto) muuttuja. Kuviossa 15 on esitetty ikkuna, joka avautuu edellä mainitun valikkopolun kautta.
18 KUVIO 15. Ristiintaulukon luominen Toinen muuttujista siirretään vasemman laidan muuttujalistasta Row(s)- ja toinen Column(s)-laatikkoon. Käytännössä ei ole merkitystä, kumman muuttujista siirtää Row(s)- tai Column(s) laatikkoon. Crosstabs tulostaa oletuksena pelkät lukumäärät (frekvenssit), joiden perusteella johtopäätösten tekeminen on hieman hankalaa. Ristiintaulukkoon saadaan käyttökelpoiset prosentit Cells-painikkeen avulla, josta kannattaa ruksata Row ja Column (kuvio 16). KUVIO 16. Rivi- ja sarakeprosenttien lisääminen
19 Rivi- ja sarakeprosenttien valinnan jälkeen klikataan Continue-painiketta ja sen jälkeen Crosstabs-ikkunan OK-painiketta. Tuloksena saadaan Output-ikkunaan kuvion 17 kaltainen ristiintaulukko. KUVIO 17. Ristiintaulukko Ristiintaulukon kussakin solussa on ensin vastaajien lukumäärä, sen jälkeen riviprosentti ja lopuksi sarakeprosentti. Riviprosentteja voidaan tulkita esimerkiksi Niistä, joilla ei ole tutkintoa, 92,9 % on miehiä ja 7,1 % naisia. Vastaavasti, sarakeprosentteja voidaan tulkita seuraavalla tavalla Miehistä 32,8 prosentilla ei ole tutkintoa. Vastaava luku naisille on 12,5 %. Jos johtopäätöksen tueksi halutaan tehdä tilastollinen testi, on se tässä tapauksessa 2 - riippumattomuustesti. Testin voi valita klikkaamalla kuvion 15 Statistics-painiketta, jolloin avautuu kuvion 18 kaltainen ikkuna.
20 KUVIO 18. Riippumattomuustestin valinta Testin tulos on nähtävissä kuvion 19 ensimmäiseltä riviltä. Value on testisuureen arvo, df vapausasteet. Testin tulkinnan kannalta tärkeä p-arvo löytyy Asymp. Sig. sarakkeesta. Riippumattomuustestin nollahypoteesi on yleisessä muodossa Muuttujat eivät riipu toisistaan. Jos p-arvo on merkitsevyystasoa (yleensä 0,05) pienempi, nollahypoteesi hylätään. Esimerkin tapauksessa p-arvo (0,003) on viiden prosentin merkitsevyystasoa pienempi, joten nollahypoteesi hylätään. Sukupuoli siis vaikuttaa ammatillisen koulutuksen tasoon. KUVIO 19. Riippumattomuustestin tulos 6.2 Luokitteleva ja jatkuva muuttuja Tässä kappaleessa esitellään ainoastaan toisistaan riippumattomien otosten (esimerkiksi naiset vs. miehet) välisiä eroja. Jos otosten välillä on riippuvuutta (esimerkiksi kaksi eri ajankohtina suoritettavaa mittausta), on käytettävä niin sanottuja parittaisia menetelmiä.
21 Luokittelevan ja jatkuvan muuttujan välisen riippuvuuden tarkastelu aloitetaan laskemalla tilastolliset tunnusluvut (esim. keskiarvo ja keskihajonta) jatkuvalle muuttujalle kunkin luokittelevan muuttujan luokissa erikseen. Yksi tapa tämän toteuttamiselle on valita valikosta Analyze Compare Means Means. Esimerkki Tutkimuksessa haluttiin selvittää, ovatko naiset ja miehet samanikäisiä. Ikä on kysytty vuosissa, joten se on jatkuva muuttuja. Sukupuoli on koodattu kahteen luokkaan seuraavasti: 1 = Mies, 2 = Nainen. Edellä mainitusta valikosta saadaan kuvion 20 kaltainen ikkuna. Jatkuva muuttuja siirretään Dependent List laatikkoon ja luokitteleva muuttuja Independent List laatikkoon. Lopuksi painetaan OK-painiketta. KUVIO 20. Ryhmäkohtaisten keskiarvojen laskeminen Tuloksena saadaan kuvion 21 kaltainen taulukko, jossa Mean = keskiarvo N = havaintojen lukumäärä Std. Deviation = keskihajonta KUVIO 21. Ryhmäkohtaiset tilastolliset tunnusluvut jatkuvalle muuttujalle.
22 Kuvion 21 mukaan voidaan todeta, että miesten keski-ikä on 61,7 (± 12,2) vuotta ja vastaava luku naisille on 60,1 (± 13,9) vuotta. Keski-ikien erotus on siis 1,6 vuotta, jota ei voi pitää kovin suurena. Luokittelevan ja jatkuvan muuttujan välinen riippuvuustarkastelu on monivaiheinen toimenpide, jossa vaihtoehtoja on useita. Seuraavissa kappaleissa on esitelty nämä vaihtoehdot ja menetelmän valintaan vaikuttavat tekijät. 6.2.1 Menetelmän valintaan vaikuttavat tekijät Luokittelevan ja jatkuvan muuttujan riippuvuuksia tarkastellessa tilastollisen menetelmän valintaan vaikuttavat: Luokittelevan muuttujan luokkien lukumäärä (2 tai enemmän kuin 2). Jatkuvan muuttujan jakauma (normaalijakauma tai siitä poikkeava).. KUVIO 22. Tilastollisen menetelmän valinta jatkuva muuttuja Kuviossa 22 on esitelty polku, jonka mukaan menetelmän valinta etenee. Ensin kysytään, kuinka monta luokkaa, monivalintakysymyksessä on. Jos kaksi, niin päädytään joko riippumattomien otosten t-testiin tai Mann Whitneyn U testiin riippuen siitä, noudattaako jatkuva muuttuja normaalijakaumaa. Jos monivalintakysymyksessä on enemmän kuin kaksi luokkaa, menetelminä ovat joko yksisuuntainen varianssianalyysi tai Kruskall Wallisin H testi. Niin sanotut parittaiset vertailut (luokkien väliset)
23 vertailut voidaan näissä menetelmissä hoitaa varianssianalyysissä post hoc menetelmillä ja Kruskall Wallisin H testissä käyttäen Mann Whitneyn U testejä 6.2.2 Jatkuvan muuttujan normaalisuuden toteaminen Tilastollisen menetelmän valintaan vaikuttaa se, noudattaako jatkuva muuttuja normaalijakaumaa. Niin sanottujen parametristen menetelmien (riippumattomien otosten t-testi ja varianssianalyysi) käyttö edellyttää, että normaalijakaumaoletus pitää paikkansa kaikissa luokittelevan muuttujan luokissa. Normaalijakautuneisuutta voidaan tarkastella sekä graafisesti että tilastollisen testin avulla. Seuraavassa esitellään graafisista menetelmistä laatikkokuvio (boxplot) ja tilastollisista menetelmistä Kolmogorov-Smirnovin testi. Esimerkki Tutkitaan laatikkokuvion avulla silmämääräisesti, noudattaako ikä normaalijakaumaa molemmissa sukupuolen luokissa (miehet ja naiset). Kuvio piirretään valikosta Graphs -> Legacy Dialogs -> Boxplot. Versiossa 16 on kuvioiden tekemiseen oma käyttöliittymä, jota ei tässä esitellä. KUVIO 23. Laatikkokuvion valinta Kuviosta 23 huomataan, että laatikkokuvioita voi piirtää monella eri tavalla. Simple valitaan, kun halutaan piirtää kuvio yhdelle jatkuvalle muuttujalle. Summaries for groups of cases tarkoittaa, että laatikot piirretään luokittelevan muuttujan mukaisesti, esimerkiksi miehille ja naisille oma. Kun edellä mainitut on valittu painetaan Definepainiketta.
24 Jatkuva muuttuja (ikä) siirretään Variable-kohtaan ja luokitteleva muuttuja (sukupuoli) Category Axis kohtaan (Kuvio 24). Lopuksi painetaan OK-painiketta. KUVIO 24. Laatikkokuvion luominen Tulos on nähtävillä kuviosta 25. Laatikkokuviosta voidaan nähdä monenlaista informaatiota yhdellä silmäyksellä. Laatikon keskellä sijaitseva paksumpi viiva on mediaani, joka on tässä aineistossa miehillä hieman yli 60 vuotta. Laatikon sisällä on 50 % havainnoista. Miehillä tämä väli on noin 52 71 vuotta. Laatikon ylä- ja alapuolella sijaitsevat viikset kuvaavat minimiä ja maksimia, eli nuorin mies on noin 33- ja vanhin noin 90-vuotias. Joskus viiksien ulkopuolella on niin sanottuja ulkopuolisia havaintoja. Normaalijakautuneisuutta tarkastellessa tärkeintä on kuvioiden symmetrisyys mediaanin suhteen. Jos Molemmat laatikkokuviot ovat symmetrisiä, voidaan jatkuvan muuttujan (ikä) olettaa noudattavan normaalijakaumaa. Silmämääräisessä tarkastelussa on aina omat riskinsä. Jos normaalisuuden tarkastelulle haluaa varmistuksen, kannattaa sitä testata Kolmogorov-Smirnovin testin avulla. Testin nollahypoteesi voidaan kirjoittaa muotoon Jatkuva muuttuja ei poikkea normaalijakaumasta..
25 KUVIO 25. Iän jakautuminen sukupuolittain Esimerkki Tutkitaan Kolmogorov-Smirnovin testin avulla, noudattaako ikä normaalijakaumaa molemmissa sukupuolen luokassa. Testi tulee tehdä kummallekin sukupuolelle erikseen. Aloitetaan tässä esimerkissä miehistä, jotka pitää ensin poimia valikosta Data -> Select Cases, jonka jälkeen avautuu kuvion 26 kaltainen ikkuna. Tästä ikkunasta tulee valita kohta If condition is satisfied. Sen jälkeen painetaan If-painiketta, jotta päästään kirjoittamaan varsinainen ehto. KUVIO 26. Miesten poiminta jatkoanalyysiä varten
26 Ehdon määrittely on nähtävissä kuviosta 27. Sukupuoli siirretään muuttujien listasta yläreunassa sijaitsevaan laatikkoon. Lisäksi perään kirjoitetaan =1, koska miehet on koodattu tässä aineistossa numerolla 1. Lopuksi painetaan Continue-painiketta ja kuvion 26 OK-painiketta. Valinta on nähtävissä aineiston Data View välilehdellä, jonka vasemmassa reunassa on poikkiviivat naisten kohdalla. KUVIO 27. Ehdon määrittäminen osajoukkoa valittaessa Miesten valinnan jälkeen Kolmogorov-Smirnovin testi valitaan valikosta Analyze -> Nonparametric Tests -> 1-Sample K-S. Ikä siirretään kuvion 28 mukaisesti Test Variable List laatikkoon. Test Distribution kohdassa tulee olla Normal, jonka jälkeen painetaan OK. KUVIO 28. Kolmogorov-Smirnovin testin tekeminen
27 Testin tulos on nähtävissä kuviosta 29. Samaan kuvioon on lisätty naisten vastaava analyysi. Tätä varten naiset tulee ensin valita ja testi toistaa edellä kuvatun kaltaisesti. KUVIO 29. Kolmogorov-Smirnovin testin tulos Nollahyopteesin (ikä ei poikkea normaalijakaumasta) paikkansapitävyyden asriointiin käytettävä p-arvo löytyy kuvion 29 taulukon viimeiseltä riviltä, Asymp Sig (2-tailed) kohdasta. Tulokseksi saadun p-arvon tulkinta on sama kuin 2 -riippumattomuustestin yhteydessä (kappale 6.2). Jos p-arvo on pienempi kuin valittu merkitsevyystaso (yleensä 0,05), nollahypoteesi hylätään. Tässä tapauksessa molemmat p-arvot (0,264 ja 0,987) ovat tuota merkitsevyystasoa suurempia, jolloin nollahypoteesi jää voimaan. Voidaan siis todeta, että ikä noudattaa normaalijakaumaa molempien sukupuolten osalta. Tämä tulos vahvistaa laatikkokuviosta tehtyä päätelmää. Laatikkokuvion, Kolmogorov-Smirnovin testin ja kuvion 22 mukaan voimme päättää, että sukupuolten välisten ikäerojen tutkimiseen käytetään riippumattomien otosten t- testiä. Jos luokittelevassa muuttujassa on enemmän kuin kaksi luokkaa, tulee näistä kutakin arvioida erikseen. Jos jatkuva muuttuja noudattaa normaalijakaumaa kaikissa luokissa, voidaan luokkien välisiä eroja tarkastella varianssianalyysin avulla. 6.2.3 Riippumattomien otosten t-testi Riippumattomien otosten t-testillä testataan, poikkeavatko kahden toisistaan riippumattoman populaation (esimerkiksi miehet ja naiset) keskiarvot toisistaan. Testin nollahypoteesi voidaan kirjoittaa muotoon Kahden populaation keskiarvot ovat yhtä suuret., joka edellisen kappaleen esimerkissä voisi olla myös muodossa Miesten ja naisten välillä ei ole ikäeroa..
28 Esimerkki Testataan riippumattomien otosten t-testillä, onko miesten ja naisten välinen ikäero tilastollisesti merkitsevä. Testi valitaan valikosta Analyze -> Compare Means -> Independent Samples T Test. Jatkuva muuttuja (ikä) siirretään Test Variables(s) laatikkoon ja luokitteleva muuttuja (sukupuoli) Grouping Variable laatikkoon (kuvio 30). Vertailtavat ryhmät määritellään painamalla Define Groups painiketta, josta avautuvaan ikkunaan annetaan luokittelevan muuttujan ryhmien numeeriset arvot. Tässä aineistossa miehet on koodattu arvolla 1 ja naiset arvolla 2. Lopuksi painetaan Continue- ja OK-painikkeita. KUVIO 30. Riippumattomien otosten t-testin suorittaminen Tulokseksi saadaan kaksi taulukkoa, joista ensimmäisestä on nähtävissä ryhmäkohtaiset keskiarvot, eli keski-ikä sukupuolittain. Toisen taulukon informaatio on nähtävissä kuviosta 31. Tässä esitellään tuosta informaatiosta ehkä se merkittävin osa. KUVIO 31. Riippumattomien otosten t-testin tulos Ensimmäisessä vaiheessa päätellään, ovatko ryhmien väliset varianssit (vrt. keskihajonnat) yhtä suuria. Päätös tehdään Levenen testin avulla. Testin nollahypoteesi voidaan kirjoittaa muotoon Ryhmien varianssien välillä ei ole eroa ja sen paikkansapitävyyttä kuvaava p-arvo löytyy Sig-sarakkeesta. Tässä tapauksessa p-arvo on 0,279, jonka mukaan nollahypoteesi jää voimaan. Tämän tuloksen perusteella voidaan päätel-
29 lä, että varsinainen t-testin tulos luetaan kuvion 31 taulukon ylemmältä riviltä (Equal variances assumed). T-testin nollahypoteesin ( Naisten ja miesten välillä ei ole ikäeroa ) paikkansapitävyyteen liittyvä p-arvo löytyy Sig (2-tailed) sarakkeesta. Testiin liittyvä testisuure vastaavastit-sarakkeesta ja vapausasteet df-sarakkeesta. Tässä tapauksessa t-testin p- arvo on 0,398, joka kertoo nollahypoteesin jäävän voimaan (suurempi kuin 0,05). Voimme siis todeta, että tässä aineistossa miesten ja naisten välillä ei ole tilastollisesti merkitsevää ikäeroa. 6.2.4 Mann Whitneyn U testi Jos jatkuva muuttuja ei noudata normaalijakaumaa jossakin luokittelevan muuttujan luokassa (ks. kappale 6.2.2), tulee kahden ryhmän välistä erotusta tarkastella epäparametrisellä Mann Whitneyn U testillä. Testin nollahypoteesi voidaan kirjoittaa muotoon Kahden populaation mediaanit ovat yhtä suuret.. Esimerkki Tarkastellaan Mann Whitney U testin avulla, onko kiinteistöjen lämmitettävä pintaala (m 2 ) erilainen riippuen siitä, onko vastaaja mies tai nainen. Tutkimusongelma ei sinänsä ole mielenkiintoinen, mutta esimerkin kannalta havainnollinen. Lämmitettävän asunnon pinta-ala ei miesten osalta noudata normaalijakaumaa, joka on todettavissa kuvion 32 Kolmogorov-Smirnovin testin tuloksista. KUVIO 32. Lämmitettävän asunnon pinta-alan normaalijakautuneisuus Seuraavaksi lasketaan lämmitettävän asunnon pinta-aloille keskiarvot sukupuolittain aivan kuten kappaleen 6.2 alussa. Miesten osalta keskipinta-ala on 131,6 (± 39,9) m 2 ja naisten osalta 138,0 (± 59,3) m 2.
30 Mann Whitneyn U testi saadaan valikosta Analyze -> Nonparametric Tests -> 2 Independent Samples. Jatkuva muuttuja (pinta-ala) siirretään Test Variable List laatikkoon ja luokitteleva (sukupuoli) Grouping Variable laatikkoon (kuvio 33). Vertailtavien ryhmien numeeriset arvot (1 ja 2) määritellään Define Groups painikkeen avulla. Test Type kohdassa tulee olla valittuna Mann-Whitney U. Lopuksi painetaan Continue ja OK painikkeita. KUVIO 33. Mann Whitneyn U testin toteuttaminen Tulokseksi saadaan kaksi taulukkoa, joista jälkimmäinen sisältää testin tuloksen (kuvio 34). Nollahypoteesin (pinta-alassa ei eroa miesten ja naisten välillä) paikkansapitävyyden arviointiin liittyvä p-arvo löytyy taulukon viimeiseltä riviltä (Asymp. Sig. (2- tailed)). Tässä tapauksessa p-arvo on 0,940, jonka perusteella nollahypoteesi jää voimaan. Voidaan siis todeta, ettei pinta-alassa ole eroa mies- ja naisvastaajien välillä. KUVIO 34. Mann Whitneyn U testin tulos 6.2.5 Yksisuuntainen varianssianalyysi Jos luokittelevassa muuttujassa, eli monivalintakysymyksessä, luokkia on enemmän kuin kaksi ja jatkuva muuttuja noudattaa normaalijakaumaa (ks. kappale 6.2.1), tutki-
31 taan luokkien välisten keskiarvojen eroja yksisuuntaisen varianssianalyysin alulla. Varianssianalyysin nollahypoteesi voidaan kirjoittaa muotoon Keskiarvot ovat yhtä suuret kaikissa tutkittavissa monivalintakysymysten luokissa.. Jos luokkien välillä on eroa, sen paikallistaminen toteutetaan niin sanotulla post hoc menetelmällä. Esimerkki Tutkitaan, onko vastaajan iällä vaikutusta ammatillisen koulutuksen tasoon. Ikä on jatkuva muuttuja ja ammatillinen koulutus luokitteleva. Koulutusmuuttujassa on neljä luokkaa, jotka on koodattu seuraavasti: 1 = Ei tutkintoa 2 = Ammatillinen koulutus 3 = Opistotasoinen koulutus 4 = Akateeminen koulutus Ikä noudattaa normaalijakaumaa jokaisessa ammatillisen koulutuksen luokassa. Tämä todettiin käyttämällä Kolmogorov-Smirnovin testiä (ks. kappale 6.2.2). Seuraavaksi laskettiin vastaajien keski-ikä ammattikoulutusluokittain (ks. kappaleen 6.2 alku). Tulokseksi saatiin kuvion 35 kaltainen taulukko. Taulukosta nähdään, että ne, joilla ei ole tutkintoa, näyttäisi olevan hieman vanhempia muihin verrattuna. KUVIO 35. Vastaajien keski-ikä koulutusluokittain Varianssianalyysi saadaan valikosta Analyze -> Compare Means -> One-Way ANOVA, josta avautuu kuvion 36 kaltainen ikkuna. Jatkuva muuttuja (ikä) siirretään Dependent List laatikkoon ja luokitteleva muuttuja (ammatillinen koulutus) Factorlaatikkoon. Lisäksi, valitaan menetlmä, jolla tutkitaan ryhmien välisiä parittaisia eroja
32 painamalla Post Hoc painiketta. Post Hoc menetelmiä on useita, joskin ehkä yleisin niistä on Tukeyn menetelmä. Valitaan se ja painetaan Continue- ja OK-painiketta. KUVIO 36. Yksisuuntaisen varianssianalyysin toteuttaminen Tulokseksi saadaan kaksi taulukkoa, joista ensimmäinen on kuviossa 37. Varianssianalyysin nollahypoteesi voidaan tässä esimerkissä kirjoittaa muotoon Keski-ikä on yhtä suuri kaikilla ammattikoulutustasoilla. Sen paikkansapitävyyttä kuvaava p-arvo löytyy ensimmäisen rivin Sig-sarakkeesta. Tulos on selkeä, koska p-arvo on niin pieni, ettei kolme desimaalia riitä sen esittämiseen (p < 0,001). Tästä voimme päätellä, että nollahypoteesi hylätään ja voimme todeta, etteivät keski-iät ole yhtä suuria eri ammatillisten koulutustasojen välillä. KUVIO 37. Varianssianalyysin tulos Tässä vaiheessa ei tiedetä, minkä ryhmien välinen ero on merkitsevä. Tieto löytyy Post Hoc analyysiä kuvaavasta taulukosta (kuvio 38). Taulukosta löytyy kaikki koulutustasojen väliset parittaiset vertailut kahteen kertaan. Ensimmäinen sarake kertoo, mistä parista on kyse. Sig-sarakkeesta löytyy p-arvot kullekin parille. Tähän p-arvoon liittyvä nollahypoteesi voidaan kirjoittaa muotoon Keski-ikä on yhtä suuri molemmilla koulutustasoilla. Tilastollisesti merkitsevät (p < 0,05) erot löytyvät kolmelta ensimmäiseltä riviltä sekä riveiltä, joissa samat parit ovat toisin päin.
33 KUVIO 38. Post Hoc analyysin tulos Post Hoc analyysin perusteella voidaan siis todeta, että Ei tutkintoa ryhmän keskiikä poikkeaa muista ryhmistä. Muiden ryhmien välinen ikäero ei sen sijaan ole tilastollisesti merkitsevä. 6.2.6 Kruskall Wallisin H testi Jos jatkuva muuttuja ei noudata normaalijakaumaa jossakin luokittelevan muuttujan luokassa (ks. kappale 6.2.2) ja luokittelevan muuttujan luokkien lukumäärä on enemmän kuin kaksi, varianssianalyysi voi antaa virheellisiä johtopäätöksiä. Tällöin tulee käyttää epäparametrista Kruskall Wallisin H testiä. Testin nollahypoteesi on varianssianalyysin kaltainen, eli voidaan kirjoittaa muotoon Keskipinta-aloissa ei ole ero koulutustasojen välillä. Ryhmien väliset parittaiset vertailut tehdään Mann Whitneyn U testillä (ks. kappale 6.2.4). Esimerkki Tutkitaan, vaikuttaako ammatillisen koulutuksen taso asunnon pinta-alaan. Lämmitettävän asunnon pinta-ala ei noudata normaalijakaumaa kolmessa ammatillisen koulutuksen luokassa. Tämä todettiin käyttämällä Kolmogorov-Smirnovin testiä (ks. kappale 6.2.2). Seuraavaksi laskettiin keskimääräinen asunnon pinta-ala ammattikoulutusluokittain (ks. kappaleen 6.2 alku). Tulokseksi saatiin kuvion 39 kaltainen taulukko. Taulukosta nähdään, että asunnon koko kasvaa koulutuksen myötä aika selkeästi. Kysymys kuuluukin, ovatko erot merkitseviä ja jos ovat, minkä koulutusluokkien välillä.
34 KUVIO 39. Lämmitettävä asuinpinta-ala koulutusluokittain Kruskall Wallisin H testi saadaan valikosta Analyze -> Nonparametric Tests -> K Independent Samples, jonka tuloksena avautuu kuvion 40 kaltainen ikkuna. Jatkuva muuttuja (pinta-ala) siirretään Test Variable List laatikkoon ja luokitteleva muuttuja (ammatillinen koulutus) Grouping Variable laatikkoon. Test Type kohdassa tulee olla valittuna Kruskall-Wallis H. Lisäksi tulee määritellä, mitkä ovat luokittelevan muuttujan suurin ja pienin numeerinen arvo. Tässä tapauksessa Ei tutkintoa on koodattu numerolla 1 ja Akateeminen tutkinto numerolla 4. Nämä määritellään painamalla Define Range painiketta ja kirjoittamalla 1 Minumum-kenttään ja 4 Maximum-kenttään. Lopuksi painetaan Continue ja OK. KUVIO 40. Kruskall Wallisin H testin toteuttaminen Tulokseksi saadaan kaksi taulukkoa. Kruskall Wallisin H testi perustuu varsinaisten pinta-alojen sijaan järjestyslukuihin. Ensimmäinen taulukko kertoo informaatiota näistä järjestysluvuista. Nollahypoteesin paikkansapitävyydestä kertova p-arvo löytyy jälkimmäisestä taulukosta (kuvio 41), viimeiseltä riviltä. Koska p-arvo on hyvin pieni (p
35 < 0,001), nollahypoteesi hylätään, eli asuntojen pinta-aloissa on eroa eri koulutustasojen välillä. KUVIO 41. Kuskall Wallisin H testin tulos Kruskall Wallisin H testi ei kerro, minkä koulutustasojen välinen pinta-alaero on merkitsevä. Tätä varten kaikki parittaiset vertailut tehdään Mann Whitneyn U testillä (ks. kappale 6.2.4). Koska luokittelevassa muuttujassa on neljä luokkaa, tulee Mann Whitneyn U testi toistaa yhteensä kuusi kertaa (kuusi eri paria). Näiden vertailujen tulokseksi saadaan kuvion 42 mukaiset taulukot. KUVIO 42. Parittaiset vertailut Mann Whitneyn U testeillä
36 Kuvion 42 taulukoista nähdään, että tilastollisesti merkitsevät erot asuntojen pintaaloissa löytyy seuraavilla pareilla: Ei tutkinto vs. opistotasoinen tutkinto (p = 0,009) Ei tutkintoa vs. akateeminen tutkinto (p < 0,001) Koulutasoinen vs. opistotasoinen tutkinto (p = 0,027) Koulutatoinen vs. akateeminen tutkinto (p < 0,001) Opistotasoinen vs. akateeminen tutkinto (p = 0,006) 6.3 Kaksi jatkuvaa muuttujaa Jos molemmat muuttujat ovat jatkuvia (ks. kappale 3), niiden välistä riippuvuutta voidaan tarkastella korrelaatiokertoimen avulla. Korrelaatiokerroin on luku, jonka pienen mahdollinen arvo on -1 ja suurin mahdollinen arvo +1. Korrelaatiokertoimen tulkinta on seuraavanlainen: Jos korrelaatiokerroin on lähellä arvoa 0, kahden muuttujan välillä ei ole riippuvuutta. Jos korrelaatiokerroin on riittävän lähellä arvoa -1, kahden muuttujan välillä on negatiivinen riippuvuus. Tällöin toisen muuttujan arvot kasvavat samalla kuin toisen muuttujan arvot laskevat. Jos korrelaatiokerroin on riittävän lähellä arvoa +1, kahden muuttujan välillä on positiivinen riippuvuus. Tällöin molempien muuttujien arvot kasvavat samanaikaisesti. Korrelaatiokertoimen suuruutta on joskus hieman hankala tulkita. Sitä varten on olemassa testi, joka kertoo, onko korrelaatiokerroin riittävän lähellä ääripäitä. Testiin liittyvä p-arvo tulostuu korrelaatiokertoimen yhteyteen. Seuraavassa esitellään kaksi eri korrelaatiokerrointa 1) Pearsonin ja 2) Spearmanin kertoimet. On muistettavaa, että korrelaatiokerroin kuvastaa ainoastaan muuttujien välistä suoraviivaista riippuvuutta.
37 6.3.1 Pearsonin korrelaatiokerroin Pearsonin korrelaatiokerroin soveltuu tilanteeseen, jossa molemmat tarkasteltavat muuttujat ovat aidosti jatkuvia. Korrelaatiokertoimen yhteydessä tulevan kertoimen merkitsevyystestin nollahypoteesi voidaan kirjoittaa muotoon Muuttujien välillä ei ole riippuvuutta, eli korrelaatiokerroin on 0.. Esimerkki Tutkitaan, vaikuttaako vastaajan ikä asunnon pinta-alaan. Johtopäätöksen helpottamiseksi kannattaa ensin piirtää kuvio, joka on nimeltään hajontakuvio (scatterplot). Se saadaan valikosta Graphs -> Legacy Dialogs -> Scatter/Dot, jonka tuloksena avautuu kuvion 43 kaltainen ikkuna. Valittavina olevista kuviotyypeistä poimitaa Simple Scatter ja painetaan Define-painiketta. Tämän jälkeen avautuu uusi ikkuna, jossa toinen tutkittavista muuttujista siirretään Y Axis ja toinen X Axis laatikkoon. Lopuksi painetaan OK. KUVIO 43. Hajontakuvion piirtäminen
38 Tulokseksi saadaan kuvion 44 kaltainen hajontakuvio. Muuttujien välillä on suoraviivaista riippuvuutta, jos kuvioon voi sovittaa suoran viivan, joka kulkee kohtuullisen läheltä kaikkia pisteitä. Tässä tapauksessa riippuvuutta on vaikea havaita graafisesti. KUVIO 44. Iän ja lämmitettävän asunnon pinta-alan välinen hajontakuvio Pearsonin korrelaatiokerroin saadaan valikosta Analyze -> Correlate -> Bivariate, jolloin avautuu kuvio 45 kaltainen ikkuna. Molemmat tutkittavista muuttujista siirretään Variables-laatikkoon ja varmistetaan, että Correlation Coefficient kohdassa on valittuna Pearson. Lopuksi painetaan OK. KUVIO 45. Pearsonin korrelaatiokertoimen toteuttaminen
39 Tulokseksi saadaan kuvion 46 kaltainen taulukko. Korrelaatiokerroin löytyy taulukosta kahdesta kohtaa Pearson Correlation riviltä. Tässä tapauksessa korrelaatiokerroin on -0,082. Kertoimen suuruutta kuvaava p-arvo on Sig. (2-tailed) rivillä. Koska p- arvo on suurempi kuin 0,05 (p = 0,149), nollahypoteesi jää voimaan, eli muuttujien välillä ei ole riippuvuutta. Korrelaatiokerroin ei siis ole riittävän lähellä arvoa -1, jotta se olisi tilastollisesti merkitsevä. KUVIO 46. Pearsonin korrelaatiokertoimen tulostaulukko 6.3.2 Spearmanin järjestyskorrelaatiokerroin Korrelaatiokerroin on myös mahdollista laskea, jos toinen tai molemmat muuttujat ovat järjestysasteikollisia. Tällöin tulee käyttää Pearsonin korrelaatiokertoimen sijaan Spearmanin järjestyskorrelaatiokerrointa. Esimerkki Tutkitaan, vaikuttaako asunnon koko siihen, kuinka todennäköisesti kiinteistöjen omistajat aikovat tulevaisuudessakin jatkaa öljylämmityksellä. Lämmitettävän asunnon pinta-ala on jatkuva. Öljylämmityksellä jatkamisen aikeet on kysytty seitsenportaisella asteikolla, jonka ääripäät ovat: 1 = Ei todennäköinen 7 = Erittäin todennäköinen Loput luokat ovat ääripäiden välillä ja niille ei ole annettu sanallisia merkityksiä. Tämä muuttuja ei ole aidosti jatkuva, mutta täyttää järjestysasteikollisen muuttujan tunnusmerkit (ks. kappale 3).
40 Muuttujien välinen hajontakuvio on nähtävissä kuviosta 47. Hajontakuvion piirtäminen on esitetty edellisessä kappaleessa. Tässäkin tapauksessa muuttujien välinen riippuvuus on hankala selvittää hajontakuvion perusteella. KUVIO 47 Pinta-alan ja öljylämmityksellä jatkon välinen hajontakuvio Spearmanin järjestyskorrelaatiokerroin saadaan samasta valikosta kuin Pearsonin korrelaatiokerroin (ks. kappale 6.4). Muuttujat siirretään Variables-laatikkoon kuviosta 45 nähtävällä tavalla. Correlation Coefficients kohdassa tulee olla valittuna Spearman. Tulokseksi saadaan kuvion 48 kaltainen taulukko. Korrelaatiokerroin on -0,216 ja se on tilastollisesti merkitsevä (p = 0,001), eli näiden muuttujien välillä on merkitsevä riippuvuus. Riippuvuuden suunta on negatiivinen. Öljylämmityksen valinnan todennäköisyydessä suuret arvot merkitsevät suurta todennäköisyyttä ja pienet pientä. Tulkinnan voisi kirjoittaa seuraavasti: Mitä suurempi asuintalo, sitä pienemmällä todennäköisyydellä tulevaisuudessa jatketaan öljylämmityksellä.. KUVIO 48. Spearmanin järjestyskorrelaatiokertoimen tulostaulukko
41 7 KUVIOIDEN LUOMINEN SPSS-ohjelmalla voi luoda erilaisia kuvioita. Niiden ulkoasu ei ole kovinkaan mielekäs, joten kuviot kannattaa usein piirtää esimerkiksi Excelillä. Tässä oppaassa esitellään ainoastaan sellaisia kuviotyyppejä, jotka ovat ehkä järkevämmin toteutettavissa SPSS-ohjelmalla. Jos kuviot tehdään Excelillä, SPSS-ohjelman output-ikkunan taulukoita voidaan kopioida suoraan Exceliin. Kuviosta 49 on nähtävissä SPSS-ohjelmalla ja Excelillä toteutettujen kuvioiden välinen ero. Vasemmanpuoleinen sektoridiagrammi on piirretty SPSS-ohjalmella ja oikeanpuoleinen Excelillä. KUVIO 49. Esimerkit sektoridiagrammeista. Tässä oppaassa on jo esitelty kaksi kuviotyyppi, jotka ovat laatikkokuvio (ks. kappale 6.2.2) ja hajontakuvio (ks. kappale 6.4). Excelistä löytyy monia hyviä kuviotyyppejä luokittelevan muuttujan kuvaamiseen. Jatkuvan muuttujan havainnollistamiseen voidaan käyttää jo edellä mainittua laatikkokuviota tai niin sanottua Histogrammia. Esimerkki Vastaajien iän (jatkuva muuttuja) kuvaaminen histogrammin avulla. Histogrammi saadaan valikosta Graphs -> Legacy Dialogs -> Histogram, jolloin saadaan kuvion 50 kaltainen valikko. Tutkittava muuttuja siirretään Variable-laatikkoon. Lisäksi voidaan rastittaa Display normal curve, jos kuvioon halutaan normaalijaukaumaa kuvaava käyrä. Lopuksi painetaan OK.
42 KUVIO 50. Histogrammin laatiminen Tulokseksi saadaan kuvion 51 kaltainen histogrammi, jossa x-akselilla on jatkuvan muuttujan arvot pieniin luokkiin jaettuna ja y-akselilla havaintojen lukumäärä. KUVIO 51. Vastaajien iän histogrammi
43 8 LOPUKSI Tämä opas on hyvin suppea esittely SPSS-ohjelman toiminnosta ja tulosten tulkinnasta. Oppaaseen on kerätty yleisimmin opinnäytetöissä ja tutkimusmenetelmätopintojaksolla tarvittavat toiminnot ja tilastolliset menetelmät. Kuvioiden piirtämiseen on paneuduttu hyvin vähän, koska kuvioiden piirtäminen suositellaan tehtäväksi Excelillä. Kirjallisuudessa ja internetissä on paljon hyödyllistä tietoa, jota kannattaa käyttää lisämateriaalina ja tukena. Tilastollisten menetelmien hallintaan löytyy paljon tilastomatematiikan kirjallisuutta.