Kaisa Kirves. kaisa.kirves@uta.fi. Tampereen yliopisto, YKY, psykologia



Samankaltaiset tiedostot
TUTKIMUSOPAS. SPSS-opas

Kvantitatiiviset menetelmät

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Usean selittävän muuttujan regressioanalyysi

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

Tilastolliset ohjelmistot A. Pinja Pikkuhookana

SPSS ohje. Metropolia Business School/ Pepe Vilpas

4.1 Frekvenssijakauman muodostaminen tietokoneohjelmilla

RISTIINTAULUKOINTI JA Χ 2 -TESTI

, Määrälliset tutkimusmenetelmät 2 4 op

Perusnäkymä yksisuuntaiseen ANOVAaan

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Summamuuttujat, aineiston pilkkominen ja osa-aineiston poiminta 1

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Sisällysluettelo 6 VARIANSSIANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

HARJOITUSKERTA 1: SPSS-OHJELMAN PERUSKÄYTTÖ JA MUUTTUJAMUUNNOKSET

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

Yleistetyistä lineaarisista malleista

4 Riippuvuus 1. Esimerkki 4. Korrelaation laskeminen SPSS-ohjelmalla rajatusta aineistosta

HAVAITUT JA ODOTETUT FREKVENSSIT

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Kandidaatintutkielman aineistonhankinta ja analyysi

Määrällisen aineiston esittämistapoja. Aki Taanila

SPSS-perusteet. Sisältö

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Harjoituksessa tarkastellaan miten vapaa-ajan liikunta on yhteydessä..

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Kvantitatiiviset menetelmät

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet


Aki Taanila VARIANSSIANALYYSI

Tilastomenetelmien lopputyö

MONIMUUTTUJAMENETELMISTÄ RAKENNEYHTÄLÖMALLINNUKSEEN MUUTTUJIEN NORMAALISUUS. Statistics

Kvantitatiiviset tutkimusmenetelmät maantieteessä

2. Aineiston kuvailua

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat:

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Muuttujien määrittely

Frequencies. Frequency Table

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

MTTTP5, luento Luottamusväli, määritelmä

Aineistokoko ja voima-analyysi

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Lähijohtajuus ja työntekijän työuupumusja depressio-oireet selittävätkö johtajuuden piirteet myöhempää oireilua?

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Yhdessä vai erillään?

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

Ihminen ja tekniikka seminaari Käyttäjäkokemuksen kvantitatiivinen analyysi

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

YLEISKUVA - Kysymykset

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

805306A Johdatus monimuuttujamenetelmiin, 5 op

SPSS OPAS. Metropolia Liiketalous

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Harjoitukset 4 : Paneelidata (Palautus )

Teema 5: Ristiintaulukointi

(Jos et ollut mukana viime viikolla, niin kopioi myös SPSS-havaintoaineistotiedostot Yritys2 ja neljän kunnan tiedot.)

Sukupuolistereotypiat opettajien kokemina

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi

pitkittäisaineistoissa

Til.yks. x y z

Monivalintamuuttujien käsittely

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

MONISTE 2 Kirjoittanut Elina Katainen

MTTTP1, luento KERTAUSTA

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Opinnäytetyön ja harjoitustöiden tekijöille

Regressioanalyysi. Kuusinen/Heliövaara 1

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

SEM1, työpaja 2 ( )

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

... Vinkkejä lopputyön raportin laadintaan. Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset)

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

4.2 Useampi selittävä muuttuja (kertausta)

Tehtävä 1. Hypoteesi: Liikuntaneuvonta on hyvä keino vaikuttaa terveydentilaan. Onko edellinen hypoteesi hyvä tutkimushypoteesi? Kyllä.

pitkittäisaineistoissa

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

IBM SPSS Statistics 21 (= SPSS 21)

Aki Taanila TILASTOLLINEN PÄÄTTELY

Testejä suhdeasteikollisille muuttujille

Transkriptio:

Ma a ra lliseen aineistoon perustuvien tutkielmien menetelma opas Kaisa Kirves kaisa.kirves@uta.fi Tampereen yliopisto, YKY, psykologia

Esipuhe Ohjasin kevään 2013 aikana Tampereen yliopiston psykologian opiskelijoita heidän pro gradu - töiden menetelmäosioiden työstämisessä. Ohjauksen aikana kokosin erillisiä ohjeistuksia niihin tilastollisiin menetelmiin, joista opiskelijoilla heräsi kysymyksiä. Tämä opetusmoniste kerää yhteen näin syntyneen materiaalin. Opetusmonisteen tarkoitus on opastaa ja auttaa määrällisiin opinnäytetöihin liittyvissä tilastollisissa analyyseissa. Moniste antaa apuja oikean tilastollisen menetelmän valintaan, muuttujamuunnoksien tekemiseen sekä yleisimmin käytettyjen tilastollisten menetelmien suorittamisen SPSS-ohjelmalla. Koska psykologian oppiaineessa on jo käytössä erinomainen opas tutkielmien ja tieteellisten raporttien laadintaan (Kinnunen ym., 2004), niin tässä monisteessa ei käydä läpi yksityiskohtaisesti tulosten raportointia. Tampereella elokuussa 2013 Kaisa Kirves 2

Sisältö OIKEAN MENETELMÄN VALINTA... 4 MUUTTUJAMUUNNOKSET... 6 Uuden muuttujan laskeminen matemaattisella kaavalla... 6 Vanhan muuttujan uudelleenluokittelu... 7 RELIABILITEETTI... 11 RISTIINTAULUKOINTI JA KHIIN NELIÖ -TESTAUS... 13 REGRESSIOANALYYSI... 16 Erikoistapaukset... 18 Pitkittäisaineisto... 19 Interaktiot (eli moderaatio-vaikutus)... 19 Polynomiset termit... 20 VARIANSSIANALYYSI ELI ANOVA... 21 Yksisuuntainen varianssianalyysi... 21 Kaksisuuntainen varianssianalyysi... 24 Kovarianssianalyysi... 27 Monen y-muuttujan varianssianalyysi... 32 Toistomittausten varianssianalyysi... 36 LOGISTINEN REGRESSIOANALYYSI... 39 Binaarinen logistinen regressioanalyysi... 39 Multinomiaalinen logistinen regressioanalyysi... 43 KATOANALYYSI... 47 3

OIKEAN MENETELMÄN VALINTA Kun tutkimuskysymykset on määritelty tarkasti, voidaan siirtyä etsimään vastauksia aineistosta. Kannattaa ottaa työn alle aina yksi tutkimuskysymys kerrallaan. Jokaisen kohdalla seuraavan listan läpikäyminen varmistaa oikean tilastollisen menetelmän valinnan. 1. Määrittele tutkimuskysymyksesi riippuva/selitettävä/y ja riippumaton/selittävä/x -muuttuja. Sekä riippuvia että riippumattomia muuttujia voi myös olla useita samassa tutkimuskysymyksessä. Lisäksi saatat haluta kontrolloida joitakin muuttujia (usein esim. ikä tai sukupuoli). Listaa kaikki muuttujat omiin sarakkeisiin. 2. Määritä listassa olevien muuttujien mitta-asteikot. Tämä vaihe on erittäin oleellinen oikean menetelmän valinnassa. Onko kyseessä 1) Kategorinen/kvalitatiivinen muuttuja eli - luokittelu/laatueroasteikko (esim. sukupuoli, koulutusaste) - järjestysasteikko (esim. kilpailun kolme parasta, Likert-asteikko) 2) Jatkuva/kvantitatiivinen muuttuja eli - välimatka-asteikko (esim. Celsius-aste) - suhdeasteikko (esim. pituus senttimetreinä, Likert-asteikollisesta muuttujasta muodostettu summamuuttuja) 3. Käytä menetelmän valinnassa seuraavaa taulukkoa: Riippuva / selitettävä / y Kategorinen Jatkuva Riippumaton / selittävä / x Kategorinen Jatkuva Ristiintaulukointi Varianssianalyysi Logistinen regressioanalyysi Regressioanalyysi 4

Huom! Useampi x-muuttujia ja kontrollimuuttujia on mahdollista ottaa mukaan varianssianalyysiin ja regressioanalyyseihin. Lisäksi varianssianalyysi on mahdollista toteuttaa niin, että samassa analyysissa on mukana useampi y-muuttuja. Muiden menetelmien kohdalla pitää tehdä niin monta analyysia kuin y-muuttujia on. 5

MUUTTUJAMUUNNOKSET Uuden muuttujan laskeminen matemaattisella kaavalla Joskus eteen tulee tilanteita, joissa on tarpeen laskea uusi muuttuja alkuperäisiä aineistossa olevia muuttujia käyttäen muodostamalla matemaattinen kaava. Yleisimpiä tällaisia tilanteita ovat summamuuttujan ja iän laskeminen, jos ikä on ilmoitettu syntymävuoden eikä ikävuosien avulla alkuperäisessä aineistossa. SPSS: Uusi muuttuja päästään laskemaan valitsemalla Transform Compute Variable Tähän nimetään uusi muuttuja. Huom! Nimessä ei saa käyttää välilyöntejä Tähän muodostetaan matemaattinen kaava. Tässä esimerkissä lasketaan ikää, kun aineistosta löytyy vain syntymävuosi. Aineisto on kerätty vuonna 2008, joten kaava on 2008-syntymävuosi. Syntymävuosi-muuttuja valitaan vasemmanpuoleisesta muuttujalistasta. OK:ta klikkaamalla uusi muuttuja lasketaan ja se ilmestyy aineistoon viimeiseksi muuttujaksi. 6

Summamuuttujan voi laskea kahdella eri tavalla: TAPA 1 Lasketaan väittämät yhteen ja jaetaan väittämien lukumäärällä eli Numeric Expression -kohtaan kirjoitetaan (mja1 + mja2 + mja3 + mja4)/4 Summamuuttuja lasketaan kaikille niille henkilöille, jotka ovat vastanneet kaikkiin neljään väittämään. TAPA 2 Lasketaan summamuuttuja MEAN-komennon avulla eli Numeric Expression -kohtaan kirjoitetaan MEAN(mja1,mja2,mja3,mja4) Summamuuttuja lasketaan kaikille niille henkilöille, jotka ovat vastanneet vähintään yhteen näistä väittämistä. Jos alkuperäisissä väittämissä on vain muutamia puuttuvia havaintoja (tämä selviää muodostamalla frekvenssitaulukot näistä väittämistä), niin suosittelen muodostamaan summamuuttujat MEANkomennon avulla, jotta käytettävissä olevan aineiston koko ei suotta pienene. Vanhan muuttujan uudelleenluokittelu Hyvin usein tulee eteen tilanne, jossa vanha muuttuja halutaan luokitella uudestaan. Vanha muuttuja voi olla joko kategorinen tai jatkuva muuttuja. SPSS: Vanha muuttuja päästään luokittelemaan uudestaan valitsemalla Transform Recode into Different Variables Seuraavilla sivuilla käydään yksityiskohtaisesti läpi muuttujan uudelleenluokittelun vaiheet. 7

Valitaan listasta muuttuja, joka halutaan luokitella uudelleen Syötetään uuden muuttujan nimi ja klikataan Changepainiketta Tehdään luokittelu klikkaamalla Old and New Values -painiketta 8

Vasemmalla puolella määritellään mikä vanhan muuttujan osa luokitellaan uudelleen Oikealla puolella annetaan uusi arvo vasemmalle puolelle tehdylle valinnalle Vaihtoehdot: Value = Yksittäinen luku Range = Lukujen väli, määritetään ala- ja yläarvo Range, LOWEST through value: Kaikki tämän luvun alla olevat luvut ja myös tämä luku Range, value through HIGHEST: Kaikki tämän luvun yllä olevat luvut ja myös tämä luku Uuden muuttujan arvo. Koska tässä muodostetaan kategorista muuttujaa, niin yleensä numerointi aloitetaan ykkösestä ja jatketaan siitä eteenpäin. Tässä esimerkissä ikä on luokiteltu kolmeen luokkaan: alle 35-vuotiaat 1 35 49 -vuotiaat 2 yli 49-vuotiaat 3 Jos on tarvetta esimerkiksi muuttaa aineistossa oleva puuttuvan havainnon arvo 99 sellaiseksi puuttuvaksi havainnoksi minkä SPSS tajuaa, niin vasemmalle kirjoitetaan 99 ja oikealta valitaan System-missing 9

Klikkaamalla Continue ja OK uusi muuttuja ilmestyy aineiston loppuun. Kannattaa vielä nimetä uuden muuttujan luokkien selitykset Variable View -välilehdellä ko. muuttujan kohdalla Valuessarakkeeseen: 10

RELIABILITEETTI Psykologisessa tutkimuksessa mittareiden reliabiliteettia on totuttu tutkimaan Cronbachin alfalla, joka merkitään α. Näin halutaan varmistaa, että mittarin muodostavat väittämät ovat mitanneet riittävän vahvasti samaa ilmiötä. Yleisesti ottaen hyväksyttävä raja α:lle on.60, mutta mieluiten α >.70. SPSS: 1. Analyze Scale Reliability Analysis 2. Items: valitaan ne väittämät, jotka ovat muodostaneet kyseisen mittarin eli summamuuttujan. Tähän ei siis laiteta itse summamuuttujaa vaan ne väittämät, joista ko. summa muodostuu. 3. Scale label: tähän voidaan kirjoittaa mittarin nimi, jotta muistetaan paremmin outputikkunaa lukiessa, että minkä mittarin reliabiliteettia tulikaan laskettua. 4. OK Esimerkki: Lasketaan uupumusasteisen väsymykselle Cronbachin alfa. Uupumusasteinen väsymys muodostuu tässä aineistossa kolmesta väittämästä. Tulokset näyttävät tältä: Nyt ylemmästä taulukosta nähdään, että otoskoko on ollut 1197. Cronbachin alfa on.88 eli oikein hyvä (yli.70). 11

Raportointi: Tässä esimerkki siitä, miten reliabiliteetit usein raportoidaan tekstissä (Kirves, 2009). Palautumisen mekanismeista on ilmoitettu kaksi alfaa, joista ensimmäinen on ajasta 1 ja jälkimmäinen ajasta 2 (kyseessä siis pitkittäisaineisto). Huomaa, ettei itsearvioidusta terveydestä ole laskettu alfaa, sillä kyseessä on vain yhden väittämän mittari. Jos mittarissa on kaksi väittämää, niin alfan sijasta voi raportoida näiden kahden väittämän korrelaation. 12

RISTIINTAULUKOINTI JA KHIIN NELIÖ -TESTAUS Ristiintaulukointi ja Khiin neliö -testaus (merkitään χ 2 ) on sopiva menetelmä silloin, kun tutkitaan kahden kategorisen muuttujan välistä yhteyttä. Periaatteessa näissä kahdessa kategorisessa muuttujassa voi olla luokkia miten paljon tahansa, mutta käytännössä ristiintaulukkoa on vaikea lukea, jos luokkia on valtavasti (esim. molemmissa muuttujissa yli neljä luokkaa). Lisäksi χ 2 -testi on luotettava vain, jos tietyt oletukset toteutuvat (näistä jäljempänä) ja yleensä nämä ehdot eivät toteudu, jos muuttujissa on luokkia valtavasti. Kannattaa siis jo ennen ristiintaulukon muodostamista miettiä, onko muuttujissa sopivasti luokkia vai pitäisi joitakin luokkia ehkä yhdistää. χ 2 -testaus perustuu siihen, että vertaillaan ristiintaulukossa näkyviä havaittuja frekvenssejä (eli lukumääriä) ja laskennallisesti muodostettavia odotettuja frekvenssejä. Nämä odotetut frekvenssit lasketaan sillä periaatteella, että ristiintaulukossa olevien kahden muuttujan välillä ei ole mitään riippuvuutta. Tästä seuraa se, että mitä suurempi havaittujen ja oletettujen frekvenssien välinen ero on, sitä todennäköisemmin taulukossa olevat muuttujat ovat toisistaan riippuvia. χ 2 -testiin liittyvät oletukset koskevat odotettuja frekvenssejä ja ne ovat: 1) korkeintaan 20 % odotetuista frekvensseistä saa olla alle 5 2) pienimmän odotetun frekvenssin pitää olla vähintään 1 Näiden oletuksien pitää ehdottomasti täyttyä, jotta analyysi on luotettava. Huom! Jos kummassakin muuttujassa on vain kaksi luokkaa, niin näitä oletuksia ei tarvitse tarkistaa. SPSS: 1. Analyze Descriptive Statistics Crosstabs 2. Row: riippuva/selitettävä/y-muuttuja 3. Column: riippumaton/selittäjä/x-muuttuja 4. Statistics-välilehti: valitaan Chi-square (antaa χ 2 -testauksen) 5. Cells-välilehti: valitaan Percentages-kohdasta Columns (laskee ristiintaulukkoon prosenttiluvut); valitaan lisäksi Residuals-kohdasta Adjusted standardized (laskee luvut, joiden avulla voidaan arvioida, miten mahdollinen muuttujien välinen riippuvuus esiintyy) 6. OK 13

Esimerkki: Tässä esimerkissä tarkastellaan kysymystä Onko ikä yhteydessä koulutustasoon?. Jotta voidaan käyttää ristiintaulukointia ja χ 2 -testausta, pitää molempien muuttujien olla kategorisia. Niinpä ikä on luokiteltu seuraavasti: 1 = alle 35-vuotiaat, 2 = 35-49 -vuotiaat, 3 = yli 49-vuotiaat. Koulutus onkin jo valmiiksi luokiteltu näin: 1 = peruskoulu, 2 = lukio/ammattikoulu, 3 = ammattikorkeakoulu, 4 = maisterin tutkinto, 5 = lisensiaatin tai tohtorin tutkinto. Tässä analyysissa ajatellaan, että ikä on x- muuttuja ja koulutus on y-muuttuja, sillä on todennäköisempää että ikä vaikuttaa koulutukseen kuin että koulutus vaikuttaa ikään. Seuraavassa käydään läpi SPSS-tulosteet ja vastataan tutkimuskysymykseen. Tässä on siis ristiintaulukointi. Taulukkoa ei laiteta tällaisenaan graduun. Tässä alla esimerkki siitä, millaisen taulukon voi tehdä: TAULUKKO 1. Koulutustaso ikäluokittain Alle 35-vuotias 35 49 -vuotias Yli 49-vuotias Yhteensä n % n % n % N % Peruskoulu 0 0,0 A 2 0,4 A 17 4,6 T 19 1,6 Lukio/Ammattikoulu 38 10,4 36 8,0 25 6,8 99 8,3 Ammattikorkeakoulu 16 4,4 A 57 12,6 59 15,9 T 132 11,1 Maisterin tutkinto 257 70,4 T 178 39,4 A 111 30,0 A 546 46,0 Lis. tai tohtorin tutkinto 54 14,8 A 179 39,6 T 158 42,7 T 391 32,9 Yhteensä 365 100,0 452 100,0 370 100,0 1187 100,0 A = odotettua pienempi osuus, mukautettu standardoitu jäännös -2, T = odotettua suurempi osuus, mukautettu standardoitu jäännös 2. 14

Taulukosta voi nähdä useita eri asioita ja tutkijan on valittava, mitä hän haluaa nostaa taulukosta esiin. Esimerkiksi taulukosta nähdään, että alle 35-vuotiaiden keskuudessa maisterin tutkinnon suorittaneiden osuus on korostunut. Lisäksi nähdään, että peruskoulutasoinen koulutus keskittyy yli 49-vuotialle. Nähdään myös, että vaikka lisensiaatin ja tohtorin tutkinnon suorittaneita on myös nuorimmassa ikäryhmässä, niin silti tässä yliopistoaineistossa nämä korkeammat tutkinnot ovat pääasiassa yli 35-vuotiaiden saavutus. Tässä taulukossa on χ 2 -testauksen tulos. Katsotaan ensin taulukon alta, toteutuvatko testauksen ehdot. Prosenttiluku on 0 % ja se on alle 20 % eli ensimmäinen ehto toteutuu. Minimiluku on 5,84 ja se on suurempi kuin 1 eli myös toinen ehto toteutuu. Näin ollen testaus on luotettava. Testin tulosta luetaan taulukon ensimmäiseltä riviltä ja se raportoidaan näin: χ 2 (8, N = 1187) = 182.42, p <.001 Tämä puolestaan tarkoittaa, että iän ja koulutuksen välillä on tilastollisesti merkitsevä yhteys. Toisin sanoen ristiintaulukossa nähdyt erot ovat tilastollisesti merkitseviä eli eivät johdu sattumasta. 15

REGRESSIOANALYYSI Regressioanalyysiin liittyvät seuraavat vaatimukset: Selitettävän (y) muuttujan tulee olla jatkuva muuttuja ja normaalijakautunut Selittäjien (x-muuttujat) tulee olla joko jatkuvia muuttujia tai kaksiluokkaisia (esim. sukupuoli) muuttujia Selittäjät eivät saisi korreloida vahvasti keskenään (r >.50) SPSS: 1. Analyze -> Regression -> Linear 2. Valitaan Dependent -kenttään y-muuttuja 3. Valitaan Independent(s) -kenttään ensimmäisellä askeleella mahdolliset taustamuuttujat 4. Painetaan Next -näppäintä saadaan seuraava askel 5. Valitaan Independent(s) -kenttään toisella askeleella x-muuttujat 6. Statistics-välilehden alta valitaan jo olemassa olevien valintojen lisäksi R squared change, Collinearity diagnostics. 7. OK Esimerkki: Tämä esimerkki näyttää hierarkkisen regressioanalyysin poikkileikkausaineistossa. Esimerkissä on mukana taustamuuttujat sukupuoli (kaksiluokkainen, 1 = nainen, 2 = mies) ja ikä (jatkuva) sekä - x-muuttuja työllistymisusko (jatkuva summamuuttuja) - y-muuttuja työn epävarmuus (jatkuva summamuuttuja) Tulkintaan tarvitaan taulukoita Model Summary, ANOVA ja Coefficients ; muut ovat turhia. Seuraavilla sivuilla käydään nämä taulukot yksityiskohtaisesti läpi. 16

R Square = Mallin selitysaste: Ensimmäisen askeleen jälkeen mallin selitysaste on.03 ja toisen askeleen jälkeen.09 R Square Change = Selitysasteen muutos: Ensimmäinen askel lisäsi.03 ja toinen askel.06 Sig. F Change = Tilastollinen merkitsevyys selitysasteen muutokselle: Kummatkin askeleet lisäsivät merkitsevästi mallin selitysvoimaa (p <.05) Sig. = Mallin selittäjien merkitsevyys: Sekä ensimmäinen että toisen askeleen jälkeen mallilla on tilastollisesti merkitsevää selitysvoimaa. Eli edellisen taulukon selitysasteet.03 ja.09 ovat tilastollisesti merkitseviä (p <.05). 17

Unstandardized B = Standardoimaton regressiokerroin; eli kertoimeen vaikuttaa se, millä asteikolla muuttuja on mitattu; ei raportoida Standardized Beta = Standardoitu regressiokerroin; eli eri muuttujien kertoimien suuruuksia voidaan nyt vertailla keskenään, koska muuttujan asteikko ei enää vaikuta; nämä raportoidaan taulukossa: Nyt sukupuolella on positiivinen yhteys työn epävarmuuteen eli miehet kokevat enemmän työn epävarmuutta kuin naiset. Korkeampi ikä ja korkeampi työllistymisusko puolestaan ovat yhteydessä matalampaan työn epävarmuuteen. Sig. = Regressiokertoimen tilastollinen merkitsevyys, luetaan normaalisti viimeiseltä askeleelta: Nyt kaikki selittäjät ovat tilastollisesti merkitseviä (p <.05). Tolerance = Toleranssi, kertoo siitä, onko aihetta huolestua muuttujien multikolineaarisuudesta, luku voi olla välillä 0-1, mitä lähempänä ollaan nollaa, sitä enemmän on huolta, tarkkaa huolestumisen rajaa ei ole olemassa mutta esim. 50 alkaa jo olla hälyttävää. Tosin joidenkin lähteiden mukaan toleranssin tulee olla niinkin pieni kuin.10 ennen kuin on syytä toimenpiteisiin (eli x-muuttujien poistamiseen). Nyt viimeisellä askeleella toleranssit ovat välillä.98-.97 eli ei varmasti syytä huoleen. Erikoistapaukset Regressioanalyysi taipuu monenlaisiin tilanteisiin. Yleisimpiä ovat pitkittäisaineiston analysointi, moderaatio-analyysit ja polynomisten termien käyttö. Nämä analyysit noudattavat samoja periaatteita kuin ns. tavallinen regressioanalyysi ja siksi seuraavassa käydään läpi analyysit vain niiltä osin kun ne poikkeavat edellä esitetystä. 18

Pitkittäisaineisto Muuten menetellään kuten edellä, mutta nyt y-muuttuja on jälkimmäiseltä mittauskerralta (T2) kun kaikki x-muuttujat ovat ensimmäiseltä mittauskerralta (T1). Tämän lisäksi analyysiin lisätään vielä viimeiseksi uusi askel, jolla otetaan mukaan y-muuttuja ensimmäiseltä mittauskerralta (T1). Näin katsotaan, säilyvätkö aikaisemmalla askeleella olevat yhteydet vielä senkin jälkeen kun y-muuttujan perustaso kontrolloidaan. Interaktiot (eli moderaatio-vaikutus) Regressioanalyysin vaiheet ovat nyt seuraavat: 1. Interaktioon tulevat jatkuvat muuttujat standardoidaan, sillä näin vähennetään multikolineaarisuutta.jos interaktioon tulevista muuttujista toinen on kaksiluokkainen, muutetaan tämän luokan arvot siten, että toinen luokka saa arvon 0 ja toinen 1. a. Standardointi tapahtuu helpoiten seuraavasti: Analyze -> Descriptive Statistics -> Descriptives -> Laatikkoon valitaan standardoitavat muuttujat -> Laitetaan rasti alalaidan ruutuun, jolloin standardoidut arvot tallentuvat aineiston loppuun -> OK b. Muuttujien uudelleen luokittelu tapahtuu valikosta Transform -> Recode into different variables 2. Interaktio-termi lasketaan käyttäen edellisessä vaiheessa saatuja muuttujia. Transform -> Compute variable -> Target variable = uuden interaktiotermin nimi (muista, ei välilyöntejä nimeen) -> Numeric expression = kerrotaan *-mekkiä käyttäen interaktiotermin muodostavat kaksi muuttujaa. 3. Regressioanalyysin askeleet ovat seuraavat: Askel 1: Taustamuuttujat Askel 2: Moderaattori Askel 3: X-muuttuja Askel 4: Interaktiotermi 4. Muuten regressioanalyysin asetukset valitaan samalla tavalla kuin edellä mainittiin. Myös tulkittavat taulukot ovat samat. 5. Jos interaktiotermi on tilastollisesti merkitsevä, pitää interaktio vielä purkaa auki piirtämällä tilanteesta kuva ja laskemalla ns. simple slopet a. Kuvan piirtämiseen on olemassa excel-tiedosto (saa pyynnöstä ohjaajalta tai minulta) b. Simple slopien laskemiseen käytetään valmista syntaxia, joka saadaan osoitteesta: 19

http://www.johannjacoby.de/stattools/sissy1.12.4.html Polynomiset termit Edellä esitetyt regressiomallit mallintavat muuttujien välisiä lineaarisia suhteita. On kuitenkin mahdollista, että muuttujat ovatkin epälineaarisesti eli käyräviivaisesti yhteydessä toisiinsa. Tällaisten yhteyksien tutkimiseen käytetään polynomisia termejä. Jos halutaan tutkia, onko muuttujien välinen yhteys U:n muotoista tai käännetyn U:n muotoista, niin tällöin käytetään toisen asteen termejä. Toisin sanoen, mallinnetaan sellainen käyrä, joka vastaa termeiltään toisen asteen käyrän yhtälöä (y = a + b 1 *x + b 2 *x 2 ). Myös tässä tilanteessa käytetään standardoituja muuttujia (ks. edellinen osio), jotta multikolineaarisuus olisi mahdollisimman pientä. Polynomisia termejä laskettaessa kerrotaan muuttuja itsensä kanssa eli x*x = x 2 (mikä on siis toisen asteen polynominen termi). Regressioanalyysin askeleet ovat seuraavat: Askel 1: Taustamuuttujat (tarvittaessa) Askel 2: X-muuttuja(t) Askel 3: Toisen asteen polynomiset termit Askel 4: Kolmannen asteen polynomiset termit (tarvittaessa, jos tutkitaan vielä monimutkaisempaa muuttujien välistä yhteyttä) 20

VARIANSSIANALYYSI ELI ANOVA Varianssianalyysi on yleisnimitys menetelmäperheelle, jossa yleiset vaatimukset ovat: Selitettävän (y) muuttujan tulee olla jatkuva muuttuja Selittäjien (x-muuttujat) tulee olla vähintään 2-luokkaisia kategorisia muuttujia Tämä kappale pitää sisällään yleisimmät varianssianalyysin versiot, mutta on mahdollista, että näitä perusmuotoja tarvitsee yhdistellä, jotta omaan tutkimuskysymykseen on mahdollista vastata. Yksisuuntainen varianssianalyysi Yksisuuntaisen varianssianalyysin avulla tutkitaan sitä, ovatko selitettävän muuttujan keskiarvot tilastollisesti merkitsevästi erisuuruisia selittävän muuttujan luokissa. Eli sekä y- että x-muuttujia on vain yksi. SPSS: 1. Analyze -> General Linear Model -> Univariate 2. Dependent Variable: y-muuttuja 3. Fixed Factor: x-muuttuja 4. Kun x-muuttujassa on enemmän kuin kaksi luokkaa, tarvitsee Post Hoc -välilehdeltä pyytää testaus: siirretään x-muuttuja oikeanpuoleiseen lokeroon ja valitaan testit -> Bonferroni ja Dunnett s T3 5. Options-välilehti: valitaan descriptive statistics, estimates of effect size ja homogeneity tests 6. OK Esimerkki: Tässä käydään läpi esimerkki iän (luokiteltu kolmeen luokkaan) ja työtyytyväisyyden välisestä yhteydestä. Kaikki tulosteen taulukot ovat tarpeellisia ja ne käydään seuraavaksi yksityiskohtaisesti läpi. 21

Tämä taulukko esittelee x-muuttujan luokat ja niiden koot. Tämä taulukko puolestaan näyttää y- muuttujan keskiarvot ja hajonnat x- muuttujan luokissa. Eli tässä työtyytyväisyyden keskiarvon kolmessa ikäluokassa. Näyttäisi siltä, että työtyytyväisyys kasvaa iän myötä. Tässä taulukossa on Levenen testi varianssien yhtäsuuruudelle. Tämän perusteella valitaan myöhemmin tarvittaessa post hoc -testi. Jos p >.05, niin taulukosta luetaan Bonferroni. Jos p <.05 luetaan Dunnett s T3. Nyt p =.334 >.05 Jos ikä osoittautuu merkitseväksi selittäjäksi, luetaan parivertailujen taulukosta vain Bonferroni-testauksen tulokset. 22

Tässä taulukossa on varsinaisen testaukset tulokset. Nyt iän vaikutuksen testaus on seuraava: F(2, 1174) = 11.77, p <.001, η 2 =.02. Toisin sanoen ikäryhmät erosivat toisistaan tilastollisesti merkitsevästi, mutta toisaalta ikä selitti vain 2 % työtyytyväisyyden vaihtelusta. Nyt tiedetään, että ikäryhmät erosivat toisistaan työtyytyväisyyden mukaan, mutta vielä ei tiedetä, miten ryhmät erosivat toisistaan. On mahdollista, että kaikki ryhmät erosivat toisistaan, mutta on yhtä hyvin mahdollista että vain kaksi ryhmää erosivat toisistaan. Tämä selviää parivertailuista eli post hoc -testeistä. Tässä taulukossa ovat parivertailut eli post hoc -testit. Vasemmasta reunasta nähdään, että testejä tehtiin kaksi erilaista: Bonferroni ja Dunnett T3. Kuten aikaisemmin jo selitettiin, Levenen testin tulos ratkaisee sen, kumpaa näistä luetaan. Tässä tapauksessa Levenen testi siis osoitti ryhmien varianssien olevan yhtä suuret (p >.05) ja siksi tästä taulukosta tarvitaan vain Bonferroni-tulokset. Taulukosta nähdään, että alle 35-vuotiaat ja 35 49 -vuotiaat p =.054 >.05 ei til. merk. eroa alle 35-vuotiaat ja yli 49-vuotiaat p =.000 <.05 til. merk. ero 35 49-vuotiaat ja yli 49-vuotiaat p =.020 <.05 til. merk. ero 23

Johtopäätöksenä voimme siis todeta, että aineistossamme ikä oli yhteydessä raportoituun työtyytyväisyyteen siten, että alle 35-vuotiaiden ja 35 49 -vuotiaiden ryhmät arvioivat työtyytyväisyytensä matalammaksi kuin yli 49-vuotiaat. Kaksisuuntainen varianssianalyysi Kaksisuuntaisen varianssianalyysin avulla tutkitaan sitä, ovatko selitettävän muuttujan keskiarvot tilastollisesti merkitsevästi erisuuruisia kahden selittävän muuttujan luokissa. Eli analyysissa on mukana yksi y-muuttuja ja kaksi x-muuttujaa. Nyt voidaan myös tutkia, onko x-muuttujilla yhteisvaikutusta (eli interaktiota) suhteessa y-muuttujaan. Periaatteessa varianssianalyysissa voidaan käyttää useampaakin kuin kahta x-muuttujaa, mutta silloin mahdollisten yhteisvaikutusten määrä kuitenkin kasvaa suureksi, mikä tekee tulkinnan monimutkaisemmaksi. SPSS: 1. Analyze -> General Linear Model -> Univariate 2. Dependent Variable: y-muuttuja 3. Fixed Factor: x-muuttujat 4. Plots-välilehti: valitaan horizontal axis -kohtaan se muuttuja, jossa on enemmän luokkia; valitaan separate lines -kohtaan jäljelle jäänyt muuttuja; lisätään kuvio add-painikkeella 5. Kun jommassakummassa tai molemmissa x-muuttujissa on enemmän kuin kaksi luokkaa, tarvitsee Post Hoc -välilehdeltä pyytää testaus: siirretään x-muuttuja(t) oikeanpuoleiseen lokeroon ja valitaan testi -> Bonferroni 6. Options-välilehti: valitaan descriptive statistics, estimates of effect size ja homogeneity tests 7. OK Esimerkki: Tässä käydään läpi esimerkki iän (luokiteltu kolmeen luokkaan) ja sukupuolen yhteydestä työtyytyväisyyteen. Jälleen kaikki taulukot ovat tarpeellisia. 24

Nyt tämä taulukko näyttää luokat molempiin x-muuttujiin ja näiden luokkien koot. Tässä taulukossa on esitetty samaan aikaan kummatkin x-muuttujat. Eli alle 35-vuotiaat naiset, alle 35-vuotiaat miehet, 35-49 -vuotiaat naiset jne. Taulukossa on keskiarvot, hajonnat ja ryhmäkoot. Tässä kuvassa on edellisen taulukon keskiarvot havainnollisemmassa muodossa. Näyttäisi siltä, että iän ja sukupuolen välillä saattaisi olla interaktiovaikutus, sillä nuoremmissa luokissa naisten työtyytyväisyys on korkeampaa, mutta vanhimmassa ikäluokassa tilanne kääntyy toisin päin ja miehet ovat tyytyväisimpiä. 25

Tässä on Levenen testi varianssien yhtä suuruudelle edellisen kuvan kuudelle ryhmälle. Nyt p =.086 >.05 eli varianssit ovat yhtä suuria. Toisaalta, vaikka varianssit eivät olisi yhtä suuria, niin asia ei vaikuta mihinkään, koska post hoc -testiä ei voi suorittaa Dunnett T3:lla kuten 1-ANOVAssa oli mahdollista. Tästä taulukosta nähdään, että iän vaikutus on tilastollisesti merkitsevä, F(2, 1171) = 11.77, p <.001, η 2 =.02, mutta sen sijaan sukupuolen ei, F(1, 1171) = 0.26, p =.610, η 2 =.00. Myöskään yhdysvaikutus ei ole tilastollisesti merkitsevä, F(2, 1171) = 1.68, p =.186, η 2 =.00. Eli vaikka kuvio näytti, että yhdysvaikutus voisi olla olemassa, ei erot sitten kuitenkaan olleet riittävän suuria, jotta tilastollinen merkitsevyys olisi saavutettu. Iän parivertailut antavat samat tulokset kuin 1-ANOVAssakin. 26

Kovarianssianalyysi Kovarianssianalyysissa halutaan vakioida tai poistaa jonkin tai joidenkin muiden tekijöiden mahdollinen vaikutus tutkittuun ilmiöön (y-muuttujaan). Vakioitavan muuttujan tulee olla asteikoltaan kaksiluokkainen (esim. sukupuoli), järjestysasteikollinen (esim. koulutus) tai jatkuva (esim. ikä vuosina). SPSS: 1. Analyze -> General Linear Model -> Univariate 2. Dependent Variable: y-muuttuja 3. Fixed Factor: x-muuttujat 4. Covariate: kovariaatti 5. Plots-välilehti: valitaan horizontal axis -kohtaan se muuttuja, jossa on enemmän luokkia; valitaan separate lines -kohtaan jäljelle jäänyt muuttuja; lisätään kuvio add-painikkeella 6. Options-välilehti: 1. valitaan kaikki muuttujat vasemman puoleisesta laatikosta oikean puoleiseen laatikkoon, laitetaan ruksi kohtaan compare main effects ja pudotusvalikosta valitaan Bonferroni (tästä lisää ohjauksessa) 2. valitaan descriptive statistics, estimates of effect size ja homogeneity tests 7. OK Esimerkki: Jatketaan edellistä esimerkkiä. Edelleen ollaan siis kiinnostuneita siitä, miten ikä ja sukupuoli ovat yhteydessä työtyytyväisyyteen. Nyt kuitenkin halutaan vakioida/ottaa huomioon vastaajan taipumus optimistiseen ajatteluun. Taulukot Between-Subjects Factors, Descriptive Statistics ja Levene s Test of Equality of Error Variances tulkitaan kuten kaksisuuntaisen varianssianalyysin kohdalla. 27

Tästä taulukosta nähdään, että analyysissa kontrolloitu optimismi oli tilastollisesti merkitsevästi yhteydessä työtyytyväisyyteen, F(1, 1170) = 147.67, p <.001, η 2 =.11. Nyt ei sinällään olla kiinnostuneita siitä, miten yhteys näyttäytyi (esim. positiivinen vai negatiivinen yhteys) vaan nyt halutaan katsoa, miltä tulokset iän ja sukupuolen suhteen näyttävät, kun optimismi on vakioitu. Ikä on edelleen til. merk. selittäjä, joskin selitysaste putosi 1 %:iin. Sukupuoli ei ole vieläkään merkitsevä selittäjä. Sen sijaan interaktion (ikä * sukupuoli) kohdalla on tapahtunut muutos: nyt interaktio on til. merk., F(2, 1170) = 3.22, p =.041, η 2 =.01. Seuraavaksi katsotaan, miten erot ikäryhmissä esiintyivät ja millainen interaktio oli. Estimated Marginal Mean -otsikon alta löytyy tämä taulukko, jossa on laskettu työtyytyväisyyden keskiarvot ikäryhmittäin kun optimismi on otettu huomioon. Eli kyseessä ei ole enää sama raaka keskiarvo, jota analysoitiin edellisissä kahdessa esimerkissä. 28

Tässä seuraavassa taulukossa on Bonferroni-parivertailut ikäryhmien välillä. Taulukkoa tulkitaan samalla tavalla kuin 1-ANOVAssa. Myös lopputulos on sama: kaksi nuorempaa ikäryhmää eroaa vanhimmasta ikäryhmästä siten, että vanhemmat työntekijät raportoivat korkeampaa työtyytyväisyyttä kun optimismi on kontrolloitu. Tässä taulukossa on keskiarvot iän ja sukupuolen interaktiolle kun optimismi on otettu huomioon. Ja tässä sama kuvion muodossa: 29

Tämä kuvio osoittaa selvästi, miten tilastollisesti merkitsevä interaktio aineistossa esiintyy. Naisilla ikäryhmien väliset erot ovat hyvin pieniä, mutta sen sijaan miehillä erot ovat suuria: mitä vanhempi mies, sitä tyytyväisempi on omaan työhönsä. Nyt on huomattava, että valitettavasti SPSS ei tarjoa suoraan tämän enempää tietoa interaktiosta. Se ei siis laske, mitkä kuviossa havaittavat erot ovat tilastollisesti merkitseviä ja mitkä ei. Analyysia pitää siis vielä jatkaa. Vielä pitää selvittää 1 Miten ikäluokat eroavat naisten keskuudessa? 2 Miten ikäluokat eroavat miesten keskuudessa? 3 Miten naiset ja miehet eroavat alle 35-vuotiaiden keskuudessa? 4 Miten naiset ja miehet eroavat 35-49 -vuotiaiden keskuudessa? 5 Miten naiset ja miehet eroavat yli 49 -vuotiaiden keskuudessa? Ja koska tämä interaktio havaittiin vain, kun optimismi oli vakioitu, niin myös näissä jatkoanalyyseissa pitää vakioida optimismi. 30

Tehdään siis seuraavat kovarianssianalyysit: Selvitettävä Y-muuttuja X-muuttuja Kovariaatti Select cases kysymys 1 työtyytyväisyys ikäryhmät optimismi valitaan vain naiset 2 työtyytyväisyys ikäryhmät optimismi valitaan vain miehet 3 työtyytyväisyys sukupuoli optimismi valitaan vain alle 35-vuotiaat 4 työtyytyväisyys sukupuoli optimismi valitaan vain 35 49 -vuotiaat 5 työtyytyväisyys sukupuoli optimismi valitaan vain yli 49-vuotiaat Huom! Koska nyt tehdään monta analyysia samasta kuvasta, pitää saaduille p-arvoille tehdä vielä Bonferroni-korjaus eli kertoa p-arvot tehtyjen analyysien lukumäärällä (joka siis on tässä esimerkissä viisi). Select cases -valinta pitää tehdä aina ennen kovarianssianalyysiin menoa. Select cases tehdää seuraavasti: 1. Data -> Select cases 2. Valitaan If condition is satisfied 3. Painetaan If-painiketta 4. Valitaan laatikkoon aina kulloinenkin muuttuja ja määritetään oikea ehto: valitaan vain naiset -> gender3 = 1 valitaan vain miehet -> gender3 = 2 valitaan vain alle 35-vuotiaat -> age_classes = 1 valitaan vain alle 35-49 -vuotiaat -> age_classes = 2 valitaan vain yli 49-vuotiaat -> age_classes = 3 5. Continue ja ok 6. Suoritetaan kovarianssianalyysi. Nyt x-muuttujia on vain yksi, joten ei tarvita kuvaajaa eikä tietenkään mitään interaktioita enää tule. 7. Tulokset tulkitaan kuten edellä on opetettu. Esimerkissä saadut p-arvot pitää kertoa viidellä ja tällöin tehdystä viidestä tarkastelusta vain yksi p- arvo oli <.05. Toisin sanoen, miehien keskuudessa kaikki kolme ikäryhmää erosivat toisistaan tilastollisesti merkitsevästi. Muita eroja ei ilmennyt. 31

Monen y-muuttujan varianssianalyysi Jos tarkoituksena on tutkia useampaa riippuvaa muuttujaa ja nämä muuttujat ovat korreloituneita keskenään, on syytä valita analyysimenetelmäksi monen y-muuttujan varianssianalyysi, MANOVA. Analyysissa on siis useampi kuin yksi y-muuttuja. Selittäjiä voi olla yksi tai useampia. Lisäksi analyysiin on mahdollista lisätä kovariaatti/kovariaatteja. SPSS: 1. Analyze General Linear Model Multivariate 2. Dependent variables: y-muuttujat; Fixed factors: x-muuttuja(t); Covariates: kovariaatit, jos sellaisia on 3. Post hoc-testit ja Options-välilehden valinnat tehdään aivan kuten 1-ANOVAssa. (Jos sinun mallissa on useampi x-muuttuja, katso ohjeet 2-ANOVAsta. Jos sinulla on kovariaatteja, katso ohjeet kovarianssianalyysista.) 4. OK Esimerkki: Tässä esimerkki siitä, miten ikä (luokiteltu kolmeen luokkaan) on yhteydessä työtyytyväisyyteen, tarmokkuuteen ja uupumusasteiseen väsymykseen. Eli analyysissa on yksi x-muuttuja ja kolme y- muuttujaa. Useamman x-muuttujan ja kovariaattien tapauksessa yhdistetään tämän ohje aikaisempiin ohjeisiin. Tämä taulukko kertoo ryhmien koot. 32

Ja tässä taulukossa näkyy keskiarvot ja keskihajonnat kaikille kolmelle y-muuttujalle: työtyytyväisyys, tarmokkuus ja uupumusasteinen väsymys. Tämä taulukko kertoo, onko luokiteltu ikä yhteydessä näihin kolmeen y-muuttujaan kun niitä tarkastellaan yhtenäisenä könttinä. Luetaan age_class-osastoa ja sieltä riviä Pillai s Trace. Nyt siis MANOVAn tulos on: F(6, 2346) = 17.04, p <.001, η 2 =.04. Tästä nähdään, että ikäluokat selittävät yhteensä 4 prosenttia näiden kolmen selitettävän muuttujan vaihtelusta ja tämä on tilastollisesti merkitsevä tulos. Seuraavissa tulosteissa tarkastellaankin sitten jokaista y-muuttujaa erikseen eli siirrytään 1- ANOVAn tulosten tulkintaan. 33

Tässä Levenen testien tulokset. Kaikkien kolmen muuttujan kohdalla ryhmien varianssit ovat yhtä suuret, joten jatkossa luetaan Bonferroni-parivertailut. (Katso tarkemmat ohjeet 1-ANOVAn ohjeista.) Age_class-osastosta nähdään tulokset: Työtyytyväisyys, F(2, 1174) = 11.77, p <.001, η 2 =.02 34

Tarmokkuus, F(2, 1174) = 41.27, p <.001, η 2 =.07 Uupumusasteinen väsymys, F(2, 1174) = 4.50, p =.011, η 2 =.01 Toisin sanoen, ikäryhmät erosivat toisistaan arvioissaan työtyytyväisyydestä, tarmokkuudesta ja väsymyksestä. Selitysaste oli korkein tarmokkuuden kohdalla, 7 %. Työtyytyväisyydestä ikäryhmät selittivät vain 2 %:ia ja väsymyksestä 1 %:n. Mutta miten erot ilmenivät ikäryhmien välillä? Katsotaan tämä käyttäen apuna alun keskiarvo-taulukkoa ja alla olevaa parivertailut sisältävää taulukkoa. 35

Nyt siis luetaan vain Bonferroni-tulokset, koska ikäryhmien varianssit näissä ko. muuttujissa voitiin todeta yhtä suuriksi. Tulokset ovat: Alle 35-vuotiaat ja 35 49 -vuotiaat arvioivat työtyytyväisyytensä heikommaksi kuin yli 49-vuotiaat. Tarmokkuus kasvaa, mitä vanhemmasta ikäryhmästä on kyse eli kaikki kolme ikäryhmää eroavat toisistaan. Nuorin ikäryhmä raportoi enemmän väsymystä kuin vanhin ikäryhmä. MANOVAlla oli siis mahdollista tarkastella useampaa y-muuttujaa samaan aikaan ja varmistaa, että vaikka y-muuttujat ovat keskenään korreloituneita, niin silti x-muuttuja on niihin kaikkiin yhteydessä. Toistomittausten varianssianalyysi Toistomittausten varianssianalyysissa on kyse pitkittäisaineiston analysoinnista eli samoja henkilöitä on tutkittu vähintään kahtena eri ajankohtana tai erilaisissa tilanteissa. Yksinkertaisimmillaan tutkitaan vain yhtä muuttujaa kahtena ajankohtana/kahdessa eri tilanteessa. Analyysi muuttuu monimutkaisemmaksi, jos lisätään a) mittauskertoja, b) useampia tarkastelun kohteena olevia muuttujia, c) ryhmitteleviä muuttujia, d) kaikkia edellä mainittuja. Tarkastelun kohteena oleva muuttuja on asteikoltaan jatkuva. Ryhmittelevät tai luokittelevat muuttujat ovat kaksi- tai useampiluokkaisia kategorisia muuttujia. Kovariaatit ovat joko jatkuvia tai kaksiluokkaisia muuttujia. SPSS: 1. Analyze Genreal Linear Model Repeated Measures 2. Within-Subject Factor Name: nimeä within-tekijä, tässä aika Number of Levels: kuinka monta toistoa aineistossa on, tässä kolme Measure Name: nimeä halutessasi tarkastelun kohteena oleva ilmiö, tässä työtyytyväisyys Klikataan Define 3. Within-Subjects Variables: kiinnostuksen kohteena oleva muuttuja eri ajankohtina Between-Subjects Factor(s): mahdolliset luokittelevat muuttujat, esim. sukupuoli Covariates: mahdolliset kovariaatit 4. Plots: jos mukana on ryhmittelevä muuttuja, niin kuvan piirtäminen selkiyttää tilannetta Post Hoc: lasketaan, jos mukana on vähintään kolmiluokkainen ryhmittelevä muuttuja 36

Options: siirretään vasemassa laatikossa oleva(t) muuttuja(t) oikeanpuoleiseen laatikkoon, klikataan compare mean effects ja valitaan pudotusvalikosta bonferroni ; lisäksi valitaan Descriptive statistics, Estimates of effect size. Homogeneity tests valitaan jos mukana on ryhmittelevä muuttuja. 5. OK Esimerkki: Tässä esitellään nyt yksinkertainen tapaus, jossa työtyytyväisyyttä on tutkittu kolmena ajankohtana. Tässä analyysissa tulee paljon taulukoita, joista osaa ei tarvita lainkaan ja suurimmassa osassa on myös turhaa tietoa. Tässä käydään läpi ne taulukot, jotka ovat tarpeellisia esimerkin kaltaisessa tilanteessa. Tässä taulukossa on tarkastelun kohteena olevan muuttujan keskiarvot ja hajonnat kolmena eri ajankohtana. 37

Ylemmästä taulukosta nähdään ensin, että ns. sfäärisyysehto toteutuu kun p =.156 >.05. Tämän vuoksi alemmasta taulukosta luetaan nyt riviä Sphericity Assumed. Jos ylemmässä taulukossa p <.05, niin sitten alemmasta taulukosta luetaan riviä Greenhouse-Geisser. Alemmassa taulukossa on siis tulos kysymykseen Muuttuiko työtyytyväisyyden taso kolmen mittauskerran aikana?. Vastaus on ei, F(2, 988) = 2.15, p =.117, η 2 =.00. Nyt, koska vastaus on ei, analyysia ei ole enää tarvetta jatkaa. Jos muutosta olisi ollut, niin alla olevasta parivertailutaulukosta olisi nähty, minkä mittauskertoja välillä eroja oli. 38

LOGISTINEN REGRESSIOANALYYSI Logistinen regressioanalyysi soveltuu tilateisiin, joissa selitettävä muuttuja on luokiteltu. Jos muuttujan luokkia on kaksi, otetaan käyttöön binaarinen logistinen regressioanalyysi. Jos luokkia on enemmän kuin kaksi, niin käytetään multinomiaalista logistista regressioanalyysia. Lisäksi: Selittäjien (x-muuttujat) tulee olla kaksiluokkaisia, järjestysasteikollisia tai jatkuvia muuttujia Selittäjät eivät saisi korreloida vahvasti keskenään (r >.50) Binaarinen logistinen regressioanalyysi SPSS: 1. Analyze Regression Binary Logistic 2. Dependent: kaksiluokkainen y-muuttuja; Covariates: x-muuttujat (jatkuvia ja/tai kaksiluokkaisia); Huom! Voit laittaa x-muuttujia malliin mukaan askeltaen, aivan kuten lineaarisessa regressiossa. Jos mallissasi on taustamuuttujia (esim. sukupuoli, ikä), laita ne ensimmäisellä askeleella ja sitten toisella askeleella ns. varsinaiset selittäjät. 3. Categorical-välilehdelle pitää määritellä, mitkä x-muuttujista ovat kategorisia. Lisäksi tällä välilehdellä määritellään, kumpi kyseisen x-muuttujan luokista on ns. referenssikategoria. Oletusasetuksena on, että x-muuttujan jälkimmäistä luokkaa käytetään referenssikategoriana ja yleisesti ottaen tämä oletusasetus on ok. Tulosten tulkinnan yhteydessä käydään läpi, mitä tämä referenssikategoria tarkoittaa. 4. OK Esimerki: Esimerkkinä tällä kertaa toimii tutkimuskysymys Ovatko sukupuoli, ikä ja uupumusasteisen väsymyksen määrä yhteydessä työttömyysjaksojen puuttumiseen?. Muuttujat tässä analyysissa ovat siis seuraavat: 39

Y: Onko ollut työttömänä viimeisen viiden vuoden aikana? 1 = kyllä, 2 = ei X: Sukupuoli 1 = nainen, 2 = mies; Ikä (jatkuva); Väsymys (jatkuva) Ensimmäisellä askeleella malliin laitetaan sukupuoli ja ikä, ja toisella askeleella väsymys. SPSS tulostaa paljon taulukoita, joista tulosten ymmärtämiseen ja raportoimiseen tarvitaan vain muutamia. Nämä taulukot esitellään nyt. Tästä taulukosta voi vielä kerran tarkistaa, mitä malli oikein ennustaa, sillä malli ennustaa aina sitä luokkaa, joka saa tässä taulukossa arvon 1. Tässä esimerkissä siis malli ennustaa kuulumista luokkaan Ei ole kokenut työttömyyttä. Otsikon Block 1: Method = Enter alla on tuloksen analyysin ensimmäiselle askeleelle, jolla lisättiin sukupuoli ja ikä malliin mukaan. Tämä taulukko kertoo, onko rakennettu malli tilastollisesti merkitsevä. Step kuvaa tämän kyseisen askeleen merkitsevyyttä ja Model koko mallin merkitsevyyttä. Block-riviä tarvitaan, jos muuttujien lisäysmenetelmänä on ollut jokin muu kuin enter (mutta psykologiassa käytetään aina entermenetelmää). Nyt tämä lisätty askel on tilastollisesti merkitsevä, p <.001. 40

Tämän taulukon Nagelkerke R Square kertoo mallin selitysasteen. Nyt ikä ja sukupuoli selittävät 8,7 %:ia siitä, miksei henkilö ole kokenut työttömyyttä. Ja tästä taulukosta nähdään, miten sukupuoli ja ikä sitten ovat yhteydessä siihen, miksei työttömyyttä ole koettu. Havaitaan ensimmäiseksi, että sekä sukupuolen että iän kohdalla p <.001 eli molemmat selittäjät ovat tilastollisesti merkitseviä. Sarake Exp(B) kertoo yhteyden suunnan; tätä lukua kutsutaan riskikertoimeksi. Muistetaan, että sukupuolen referenssikategoria oli jälkimmäinen luokka eli miehet ja riskikerroin sukupuolelle on 0,520. Tämä tarkoittaa, että naisten riski kuulua ryhmään ei ole kokenut työttömyyttä on 0,520-kertaa pienempi kuin miesten. Suomeksi sanottuna tämähän tarkoittaa, että miehillä on suurempi riski kuulua niihin, jotka eivät ole kokeneet työttömyyttä. Tulos olisi ollut helpompi lukea, jos sukupuolen referenssikategoriaksi olisikin valittu naiset. Tässä taulukko tämän muutoksen jälkeen: Nyt sukupuolen kohdalla riskikerroin on 1,923 ja tulkinta on suoraviivaisempi: miehillä on 1,923- kertainen riski kuulua niihin työntekijöihin, jotka eivät ole kokeneet työttömyyttä. Eli miehet ovat kokeneet vähemmän työttömyyttä kuin naiset. Iän kohdalla tulkinta on helpompaa, koska kyseessä on jatkuva muuttuja. Nyt iän riskikerroin on 1,056 ja tulkinta on: vuotta vanhemmalla työntekijällä on 1,056-kertainen riski kuulua heihin, 41

jotka eivät ole kokeneet työttömyyttä. Eli yleistäen vanhemmilla työntekijöillä on vähemmän työttömyyden kokemuksia kuin nuoremmilla. Seuraavalla askeleella (Block 2) lisättiin uupumusasteinen väsymys ja tulosteet näyttävät tältä: Ensimmäisestä taulukosta nähdään, että tämä askel ei ollut tilastollisesti merkitsevä, p =.531. Mallin selitysastekaan ei juuri muuttunut edellisestä askeleesta, nyt 8,8 %. Viimeinen taulukko puolestaan kertoo, että sukupuoli ja ikä ovat edelleen merkitseviä selittäjiä, mutta väsymys sen sijaan ei ole, p =.532. Tämän analyysin tuloksia raportoidessa kerrotaan yleensä selityaste, mallin merkitsevyys, selittäjien merkitsevyys ja riskikertoimet. Nämä raportoidaan siis jokaiselta askeleelta. Jos selittäjiä ei ole paljoa, taulukkoa ei tarvita. 42

Multinomiaalinen logistinen regressioanalyysi SPSS: 1. Analyze Regression Multinomial Logistic 2. Dependent: vähintään kolmiluokkainen y-muuttuja valitaan referenssikategoriaksi joku y-muuttujan luokista. Multinomiaalinen logistinen regressio (multinomial logistic regression) on tavallisen logistisen regressioanalyysin laajennus, jossa selitettävä muuttuja voi saada useampia kuin pelkästään kaksi vaihtoehtoa. Kuvitellaan esimerkiksi tilanne, jossa luokitteluasteikolla mitattu selitettävä muuttuja voi saada kolme eri vaihtoehtoa: A, B ja C. Multinomiaalisessa logistisessa regressioanalyysissa tutkitaan, mitkä tekijät vaikuttavat siihen, että vastaaja on valinnut tietyn vaihtoehdon suhteessa muihin vaihtoehtoihin. Käytännössä tämä tarkoittaa sitä, että tässä esimerkkitapauksessa tuloksena saadaan kolme erilaista mallia. Yhdessä verrataan vaihtoehdon A valintaa suhteessa vaihtoehtoon B, toisessa A:n valintaa suhteessa C:hen ja kolmannessa B:n valintaa suhteessa C:hen. (http://www.fsd.uta.fi/menetelmaopetus/logregressio/logistinen.html) 3. Factor(s): kaksi-luokkaiset selittävät muuttujat; Covariate(s): jatkuvat selittävät muuttujat; Huomaa että tässä analyysissa laitetaan yleensä kaikki selittäjät samalla askeleella. 4. OK Esimerkki: Esimerkkinä tällä kertaa toimii tutkimuskysymys Ovatko sukupuoli ja ikä ovat yhteydessä ammattiryhmään?. Muuttujat tässä analyysissa ovat siis seuraavat: Y: Ammattiryhmä? 1 = opetus ja tutkimus, 2 = tutkimus, 3 = avustava henkilökunta X: Sukupuoli 1 = nainen, 2 = mies; Ikä (jatkuva) Y-muuttujan referenssikategoriaksi on valittu opetus ja tutkimus. Jälleen SPSS tulostaa myös taulukoita, joita ei tarvita. Tässä esitellään tarvittavat taulukot. 43

Tästä taulukosta nähdään vielä y-muuttujan ja kategoristen x-muuttujien jakaumat. Tämä taulukko kertoo, onko nyt muodostettu malli tilastollisesti parempi kuin sellainen malli, jossa ei ole lainkaan selittäjiä. Nyt p <.001 eli nyt muodostettu malli selittää y-muuttujan vaihtelusta enemmän kuin malli ilman selittäjiä. Tämä taulukko kertoo mallin selitysasteen. Luetaan riviä Nagelkerke. Eli nyt muodostettu malli selittää 18,3 %:ia siitä, mihin ammattiryhmään vastaaja kuuluu. 44

Tämä taulukko kertoo sen, miten ikä ja sukupuoli ovat yhteydessä ammattiryhmään. Muistetaan, että opetusta ja tutkimusta tekevät ovat nyt referenssikategoriana. Nyt siis taulukossa verrataan aluksi pelkkää tutkimusta tekeviä tähän referenssikategoriaan. Huomataan, että ikä on merkitsevä selittäjä (p <.001) ja riskikerroin on 0,911 pelkkää tutkimusta tekevät ovat nuorempia kuin ne, joilla on sekä opetus että tutkimustehtäviä. Sukupuoli ei ole merkitsevä selittäjä (p =.126). Sitten taulukossa verrataan avustavaa henkilökuntaa ja referenssikategoriaa. Huomataan, että ikä ei ole merkitsevä selittäjä (p =.112). Sen sijaan sukupuoli on merkitsevä (p <.001) ja riskikerroin on 1,763 naiset kuuluvat miehiä todennäköisemmin avustavaan henkilökuntaan kun verrataan miesten ja naisten jakaumaa opetusta ja tutkimusta tekevään henkilöstöön. Tämä analyysi ei paljasta nyt mitään tutkimushenkilöstön ja avustavan henkilöstön välisestä suhteesta. Tätä varten pitäisi tehdä uusi analyysi, jossa y-muuttujan referenssikategoriaksi valittaisiin avustava henkilöstö. Ja tässä ko. analyysin tulos: 45

Mallin merkitsevyys ja selitysaste pysyvät siis samoina, joten niitä ei ole enää tarpeen raportoida toista kertaa. Tämän taulukon alemmasta osasta nähdään, että ikä on merkitsevä selittäjä kun verrataan tutkimushenkilöstä ja avustavaa henkilökuntaa (p <.001) ja riskikerroin on 0,921 tutkimushenkilöstö on nuorempaa. Myös sukupuoli on merkitsevä selittäjä (p =.040) ja riskikerroin on 0,720 naisia on vähemmän tutkimushenkilöstössä verrattuna avustavaan henkilökuntaan. 46

KATOANALYYSI Kun samoja vastaajia on seurattu kahden tai useamman ajankohdan verran, pitää tälle pitkittäisaineistolle tehdä katoanalyysi. Tällöin arvioidaan, voidaanko jollakin oman analyysin keskeisellä muuttujalla selittää sitä, mikseivät jotkut osallistuneet tutkimukseen kuin ensimmäisellä tutkimuskerralla. Katoanalyysia varten tarvitaan aineisto, jossa on mukana sekä ne, jotka vastasivat vain ensimmäisessä ajankohdassa ja ne, jotka vastasivat molemmissa ajankohdissa (tai useammassa, riippuen aineiston mittauskertojen määrästä). Katoanalyysiin otetaan mukaan ne muuttujat, joita on käyttänyt muissa gradun analyyseissa. Yleensä tämä tarkoittaa, että mukana on joitakin taustamuuttujia (esim. sukupuoli, ikä jne.) ja tutkimuksen ns. varsinaiset muuttujat (esim. työtyytyväisyys, tarmokkuus jne.). Katoanalyysi voidaan tehdä kahdella eri tavalla: 1) Jokainen muuttuja tarkastellaan erikseen suhteessa vastaajaryhmään (1 = vain eka mittauskerta, 2 = molemmat mittauskerrat) käyttämällä Khiin neliö -testiä tai riippumattomien otosten t-testiä riippuen muuttujan mittaustasosta. 2) Käytetään binaarista logistista regressioanalyysia, jossa ensimmäisellä askeleella malliin laitetaan taustamuuttujat ja toisella askeleella ns. varsinaiset muuttujat. Binaarisen logistisen regressioanalyysin ohjeet löytyvät learning-alustalta. Omassa gradussani toteutin katoanalyysin tuon ensimmäisen vaihtoehdon mukaisesti. Ja näin kirjoitin tulososioon: 47

Käsittääkseni kuitenkin nykyisin yleisempi ja suositellumpi tapa on käyttää binaarista logistista regressioanalyysia. Tässä näyte eräästä artikkelista (De Cuyper et al., 2012, s. 778): We first inspected the pattern of dropout between Time 1 and Time 2. From the 2137 respondents who participated at Time 1, 1314 participated also at T2. Hence, 823 respondents dropped out. We performed a logistic regression analysis to test whether participation at both times versus drop out after Time 1 (participation at Time 1 and Time 2 was 0; dropout between Time 1 and Time 2 was 1) was predicted by (i) organizational membership, occupational position, gender, contract type, and age in step 1; and (ii) PEE, job insecurity, and exhaustion at Time 1 in step 2. Chi-square for step 1 was significant, χ 2 (5) = 56.91, p <.001. Dropout was higher among respondents from University 1 than among respondents from University 2, OR = 1.73, p <.001, and lower among permanent compared with temporary workers, OR = 0.68, p <.001. Step 2 did not significantly contribute to the prediction of participation at Time 2 versus dropout, χ 2 (3) = 3.31, p =.35. This suggests that dropout was not significantly predicted by the core study variables. (Lähde: De Cuyper, N., Mäkikangas, A., Kinnunen, U., Mauno, S., & De Witte, H. (2012). Cross-lagged associations between perceived external employability, job insecurity, and exhaustion: Testing gain and loss spirals according to the Conservation of Resources Theory. Journal of Organizational Behavior, 33, 770-788. doi: 10.1002/job.1800) 48