Christina Gustafsson. Tilastollinen tietojenkäsittely STAT2100 IBM SPSS Statistics 22 for Windows Osa 3



Samankaltaiset tiedostot
54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Kvantitatiiviset menetelmät

, Määrälliset tutkimusmenetelmät 2 4 op

Perusnäkymä yksisuuntaiseen ANOVAaan

KAHDEN RYHMÄN VERTAILU

Graph. COMPUTE x=rv.normal(0,0.04). COMPUTE y=rv.normal(0,0.04). execute.

Kandidaatintutkielman aineistonhankinta ja analyysi

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501


Kvantitatiiviset tutkimusmenetelmät maantieteessä

SPSS-perusteet. Sisältö

Frequencies. Frequency Table

Yleistetyistä lineaarisista malleista

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

TUTKIMUSOPAS. SPSS-opas

MTTTP1, luento KERTAUSTA

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Ohjeita kvantitatiiviseen tutkimukseen

MONIMUUTTUJAMENETELMISTÄ RAKENNEYHTÄLÖMALLINNUKSEEN MUUTTUJIEN NORMAALISUUS. Statistics

805306A Johdatus monimuuttujamenetelmiin, 5 op

MTTTP1, luento KERTAUSTA

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Harjoittele tulkintoja

MTTTP5, luento Luottamusväli, määritelmä

Soveltuvan menetelmän valinta. Kvantitatiiviset menetelmät. Faktorianalyysi. Faktorianalyysi. Faktorianalyysin perusidea.

Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin millaista se on?

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Ihminen ja tekniikka seminaari Käyttäjäkokemuksen kvantitatiivinen analyysi

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Muuttujien väliset riippuvuudet esimerkkejä

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Regressioanalyysi. Kuusinen/Heliövaara 1

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

HAVAITUT JA ODOTETUT FREKVENSSIT

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Aki Taanila VARIANSSIANALYYSI

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Väliestimointi (jatkoa) Heliövaara 1

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Aki Taanila TILASTOLLINEN PÄÄTTELY

Faktorianalyysi. Tarja Heikkilä. Esimerkki

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

Mat Tilastollisen analyysin perusteet, kevät 2007

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

voidaan hylätä, pienempi vai suurempi kuin 1 %?

VIIKON VINKKI: Kannattaa tutustua ensin koko tehtävänantoon ja tehdä tehtävä vasta sitten.

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

MTTTP1, luento KERTAUSTA

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Kvantitatiivinen genetiikka moniste s. 56

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Sisällysluettelo 6 VARIANSSIANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

Mat Tilastollisen analyysin perusteet, kevät 2007

Usean selittävän muuttujan regressioanalyysi

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

4.2 Useampi selittävä muuttuja (kertausta)

2. Aineiston kuvailua

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

IBM SPSS Statistics 21 (= SPSS 21)

Aki Taanila TILASTOLLINEN PÄÄTTELY

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Mat Tilastollisen analyysin perusteet, kevät 2007

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Teema 9: Tilastollinen merkitsevyystestaus

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Christina Gustafsson. Tilastollinen tietojenkäsittely STAT2100 IBM SPSS Statistics 22 for Windows Osa 2

Transkriptio:

Christina Gustafsson Tilastollinen tietojenkäsittely STAT2100 IBM SPSS Statistics 22 for Windows Osa 3 Kevät 2014

SISÄLLYSLUETTELO 9. REGRESSIOSTA... 2 10. EPÄPARAMETRISIA TESTEJÄ... 7 10.1. Kahden riippumattoman otoksen vertailu... 7 10.2. Usean riippumattoman otoksen vertailu... 8 10.3. Muita epäparametrisia testejä... 10 11. AINEISTON TIIVISTAMINEN... 11 11.1. Keskiarvomuuttuja... 11 11.2. Eksploratiivisestä faktorianalyysistä... 13

2 9. REGRESSIOSTA Regressioanalyysiä käytetään pääasiassa silloin, kun yhden muuttujan (selitettävä eli riippuva muuttuja eli vastemuuttuja) vaihtelua halutaan selittää yhden tai useamman muuttujan (selittävä(t) muuttuja(t), selittäjä(t)) vaihtelun avulla. Regressioanalyysityyppejä on useita. Analyze-valikon Regression-valinnan proseduurilla Linear (kuvio 68) voidaan muodostaa lineaarinen regressiomalli. Selitettävä määrällinen muuttuja valitaan kohtaan Dependent (esimerkissä Ansiotyönmäärä ) ja selittävät (yleensä määrällisiä) muuttujat kohtaan Independents (esimerkissä Ikä ja Osallistuminen ). Jos selittäjä on laadullinen, on se esitettävä dummy muuttujien avulla. Dummy-muuttuja on apumuuttuja, jonka arvot ovat luvut 0 ja 1. Lineaarisessa regressiossa oletuksena on, että selitettävän ja selittäjien välinen riippuvuus on lineaarista. Jos selittäjiä on useita, ne eivät saisi korreloida keskenään (ainakaan voimakkaasti). Lisäksi selitettävän muuttujan jakauman pitäisi olla normaalijakauma jokaisella selittävän muuttujan arvolla siten, että varianssi on vakio. Näitä jälkimmäisiä oletuksia tutkitaan kuitenkin jäännösten eli residuaalien avulla vasta sen jälkeen, kun malli on muodostettu: jäännösten jakauman tulisi olla sellainen normaalijakauma, jonka keskiarvo on 0 ja lisäksi jäännösten varianssin tulisi olla vakio (jolloin jäännökset ovat homoskedastiset) Kohdassa Method voidaan valita, miten usean selittäjän mallissa selittäjät valitaan, mm. Enter kaikki Independents-listan muuttujat pakotetaan samaan malliin Forward etenevä regressio, jolloin muodostuu useita malleja: ensin yhden selittäjän malli, sitten kahden selittäjän malli jne. Stepwise askeltava regressio, jolloin muodostuu useita malleja: ensin yhden selittäjän malli, sen jälkeen malliin lisätään uusi muuttuja, mutta mallista voidaan myös poistaa siinä ollut muuttuja jne. Remove ensin muodostuu malli, jossa on mukana kaikki selittäjät, sitten muodostuu malli, jossa kaikki selittäjät on pudotettu pois Backward muodostuu useita malleja: ensin malli, jossa on mukana kaikki selittäjät, sen jälkeen pudotetaan selittäjiä yksi kerrallaan mallista pois. Selection Variable -kohdassa voidaan valita tutkittava osajoukko. Statistics-lisävalinnan avulla valitaan mallista tulostettavat tunnusluvut. Regressiokertoimien (Regression Coeffiecients) estimaatit saadaan valinnalla Estimates, luottamusvälit valinnalla Confidence Intervals ja kovarianssimatriisi valinnalla Covariance Matrix. Model Fit -valinnalla muodostuu mm. selitysaste ja ANOVA-taulukko. R squared change -valinnalla saadaan mallin selitysasteen muutos, kun malliin lisätään tai mallista poistetaan muuttujia. Descriptivesvalinnalla saadaan kuvailevia tunnuslukuja ja korrelaatiomatriisi. Part and partial correlations - valinnalla saadaan mm. osittaiskorrelaatiot. Collinearity diagnostics -valinnalla saadaan usean selittäjän regressionallin multikollineaarisuustarkastelut. Jäännösten (Residuals) autokorreloituneisuutta voidaan selvittää Durbin-Watson testillä ja yksittäisten tilastoyksiköiden residuaaleja voidaan tutkia valinnalla Casewise Diagnostics. Plots-lisävalinnalla voidaan muodostaa pisteparvikuvioita (Scatter) mm. seuraaville arvoille: DEPENDNT selitettävän muuttujan arvot *ZPRED standardoidut ennustearvot *ZRESID standardoidut jäännökset eli residuaalit *DRESID muunnetut residuaalit, jotka esittävät jäännöksiä silloin, kun ko. tilastoyksikköä ei ole otettu mukaan regressiokertoimien estimointiin

3 *ADJPRED *SRESID ennustearvot, jotka muodostuvat, kun ko. tilastoyksikköä ei ole otettu mukaan regressiokertoimien estimointiin studentisoidut residuaalit Standardized Residual Plots -valinnoilla voidaan muodostaa residuaaleista frekvenssihistogrammi (Histogram) tai kuvio, jolla voidaan tutkia residuaalien normaalisuutta (Normal probability plot). Kuvio 68. Linear Regression määrittelyikkunoita Save-lisävalinnalla voidaan havaintoaineistoon lisätä muuttujiksi erilaisia versioita mallin ennustearvoista (Predicted), residuaaleista (Residuals) ja etäisyystunnusluvut (Distances). Influence

4 Statistics -valinnoilla voidaan muodostaa tunnuslukuja, jotka esittävät mm. yksittäisten tilastoyksiköiden vaikutusta regressiokertoimiin. Prediction Intervals -valinnoilla voidaan muodostaa ennustearvojen keskiarvolle (Mean) tai yksittäisille havainnoille (Individuals) luottamusväli (Confidence Interval). Kuviossa 69 on lineaarisen regression perustuloksia. Selitettävä muuttuja (Dependent Variable) on Ansiotyön määrä viikossa tunteina ja selittävät muuttujat ovat Osallistuminen opetukseen ja Ikä. Model Summary -taulukosta nähdään mallin selitysaste (R Square), joka on 0.288, joten muodostuneella mallilla voidaan selittää Ansiotyön määrän vaihtelusta n. 29 %. ANOVA-taulukon F- testin hypoteesit ovat H 0 : populaatiossa mallin selitysaste on 0 eli mallin kaikki regressiokertoimet i ovat nollia H 1 : populaatiossa mallin selitysaste on suurempi kuin 0 eli mallissa ainakin yksi regressiokerroin on nollasta eroava F-testin arvo on 13.736 ja sen havaittu merkitsevyystaso (Sig.) on nyt 0.000, joten ainakin jompikumpi selittävistä muuttujista selittää Ansiotyön määrän vaihtelua. Coefficients-taulukossa näkyvät regressiokertoimet (Unstardardized Coefficients B), joten estimoitu malli on nyt = 0.102 + 0.953 Ikä 0.468 Osallistuminen opetukseen. Malli tulkintaa: jos Ikä kasvaa yhdellä vuodella, kasvaa Ansiotyön määrä keskimäärin 0.953 tuntia/vko, kun Osallistuminen opetukseen muuttujan arvo ei muutu. Jos Osallistuminen opetukseen kasvaa yhden tunnin/vko, pienenee Ansiotyön määrä keskimäärin 0.468 tuntia/vko, kun Ikä-muuttujan arvo ei muutu. Stanrdardoidut regressiokertoimet (Stardardized Coefficients Beta) ovat käyttökelpoisia selittäjien keskinäiseen vertailuun erityisesti silloin, kun selittäjillä on erilaiset mittayksiköt. Koska Ikä-muuttujalla on itseisarvoltaan suurempi stardardoitu regressiokerroin (0.458) kuin Osallistuminen opetukseen - muuttujalla (-0.229), on Ikä-muuttuja merkittävämpi selittäjä Ansiotyön määrälle. Coefficients-taulukossa näkyvät myös regressiokertoimien merkitsevyystestit (t) ja niiden havaitut merkitsevyystasot (Sig.). Ko. testeissä hypoteesit ovat H 0 : populaatiossa selittäjän x i regressiokerroin i = 0 H 1 : populaatiossa ko. muuttujan regressiokerroin i 0 Vakion (Constant) havaittu merkitsevyystaso on 0.988, joten vakio voidaan tulkita nollaksi. Ikä ja Osallistuminen opetukseen muuttujien p-arvot ovat vastaavasti 0.000 ja 0.029, joten Ikä on tilastollisesti erittäin merkitsevä selittäjä ja Osallistuminen opetukseen tilastollisesti melkein merkitsevä selittäjä tässä lineaarisessa regressiomallissa. Kuviossa 70 on jäännösten histogrammikuvio sekä pisteparvikuvio standardoiduista ennusteista ja jäännöksistä. Ensimmäisen kuvion perusteella jäännösten jakauma vaikuttaa lähes normaalijakaumalta, jonka keskiarvo on nolla. Toisen kuvion perusteella jäännösten varianssi on lähes samanlainen eri ennustearvoilla, joten jäännökset ovat homoskedastiset. Näiden kuvioiden perusteella lineaarisen regression jäännöksiin liittyvät oletukset näyttävät siis toteutuvan.

5 Model 1 Model Summary Adjusted Std. Error of R R Square R Square the Estimate,536 a,288,267 8,58 a. Predictors: (Constant), Osallistuminen opetukseen (tuntia v iikossa), Ikä v uosina ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 2022,118 2 1011,059 13,736,000 a Residual 5005,065 68 73,604 Total 7027,183 70 a. Predictors: (Constant), Osallistuminen opetukseen (tuntia viikossa), Ikä vuosina b. Dependent Variable: Ansiotyön määrä viikossa tunteina Coefficients a Unstandardized Coefficients Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant),102 6,614,015,988 Ikä vuosina,953,215,458 4,438,000 Osallistuminen opetukseen (tuntia viikossa) -,468,210 -,229-2,225,029 a. Dependent Variable: Ansiotyön määrä viikossa tunteina Kuvio 69. Linear Regression -proseduurin perustulostusta Kuvio 70. Linear Regression -proseduurin kuvioita

6 Lineaarisen regression lisäksi regressioproseduurina on mm. Curve Estimation. Curve Estimation - proseduurilla voidaan yhden selittäjän lineaarisen regressionmallin lisäksi/sijasta muodostaa epälineaarisia yhden selittäjän regressiomalleja. Mallissa on aina yksi määrällinen selitettävä muuttuja ja yksi määrällinen selittävä muuttuja tai selittävänä muuttujana on aika (= havainnon järjestysnumero). Malliksi voidaan valita esim. toisen asteen polynomimalli (Quadratic), kolmannen asteen polynomimalli (Qubic) ja eksponentiaalinen malli (Exponential). Tämän proseduurin tulokset esitetään oletusarvoisesti sellaisena pisteparvikuviona, jonka päälle piirtyy valitun mallin estimoitu. Lisäksi saadaan tulostukseen taulukkoesitys mallin selitysasteesta ja mallin regressiokertoimista.

7 10. EPÄPARAMETRISIA TESTEJÄ Luvussa 8 käsitellyt keskiarvotestit ovat tyypillisiä parametrisia testejä, joissa tehdään oletuksia muuttujien jakaumien muodosta (esim. että tarkasteltavan muuttujan jakauma on normaalijakauma) ja muuttujien mitta-asteikoista (esim. että tarkasteltava muuttuja on määrällinen). Epäparametriselle (eli parametrittomalle) testille on tyypillistä se, että edellä esitetyn tapaisia oletuksia kevennetään, joten epäparametristen testien käyttömahdollisuudet ovat laajemmat kuin parametristen testien Epäparametriset testit ovat kuitenkin testivoimakkuuksiltaan huonompia kuin parametriset testit, joten parametristä testiä kannattaa käyttää, jos sen oletukset ovat voimassa. Aiemmin käsitellyistä testeistä ristiintaulukosta muodostettu 2 -riippumattomuustesti on epäparametrinen testi. Analyze-valikon kohdassa Nonparametric Tests on kokoelma ns. epäparametrisiä testejä. Valinnan Legacy Dialogs avulla päästään tekemään näitä testejä niin, että testitulosten yhteydessä saadaan tarvittaessa myös esille tilastollisten tunnuslukujen arvoja. Jos käytetään suoraan valintoja One Sample, Indepedent Samples tai Related Samples, voi testejä tehdä puolittain ohjatusti/automaattisesti, mutta tällöin saadaan esille vain testien tulokset: hyväksytäänkö vai hylätäänkö testin nollahypoteesi. 10.1. Kahden riippumattoman otoksen vertailu 2 Independent-Samples -proseduurilla voidaan vertailla kahden ryhmän eroa sellaisen muuttujan suhteen, joka on vähintään järjestysasteikon mittausta. Määrittelyikkunassa (kuvio 71) ruutuun Test Variable List valitaan testattavat muuttujat (esimerkissä Ikä ) ja kohtaan Grouping Variable se muuttuja, jonka perusteella vertailtavat kaksi ryhmää muodostuvat (esimerkissä tdk). Define Groups - valinnalla määritetään ryhmittelevän muuttujan arvoista ne kaksi arvoa, joiden perusteella ryhmät muodostuvat. Kuvio 71. 2 Independent-Samples -proseduurin päämäärittelyikkuna Testiksi voidaan valita (Test Type): Mann-Whitney U, joka on ns. epäparametrinen versio kahden riippumattoman otoksen keskiarvotestistä. Testillä tutkitaan, onko kahden otosta samasta populaatiosta erityisesti sijainnin suhteen. Testiä voi käyttää korvaamaan kahden riippumattoman otoksen keskiarvotesti silloin,

8 kun keskiarvotestin normaalijakaumaoletus ei toteudu tai jos otoskoot ovat pieniä. Testin hypoteesit ovat H 0 : populaatioissa ko. muuttujan jakaumasijainnit ovat samanlaiset H 1 : populaatioissa ko. muuttujan jakaumasijainnit ovat erilaiset Moses extreme reactions, jolla voidaan testata, onko koemuuttujan ja kontrollimuuttujan arvojen vaihteluvälit samat. Kolmogorov-Smirnov Z, jolla voidaan tutkia, onko kaksi otosta (ryhmää) samasta populaatiosta. Testi reagoi millaiseen eroon tahansa. Wald-Wolfowitz runs, jolla voidaan tutkia, onko kaksi otosta samasta populaatiosta Testi reagoi millaiseen eroon tahansa. Kuviossa 72 on em. proseduurin tulostusta silloin, kun testityypiksi on valittu Mann-Whitney U. Tulostuksesta Ranks-taulukosta nähdään mm. että humanistisen tiedekunnan opiskelijoiden otoskoko on 219 ja keskimääräinen ikäsijaluku on 162.36 sekä yhteiskuntatieteellisen tiedekunnan opiskelijoiden otoskoko on 103 ja keskimääräinen ikäsijaluku on 159.67. Test Statistics -taulukossa on esitetty Mann-Whitney U-testin arvo 11090 ja sen havaittu merkitsevyystaso 0.807. Eri tiedekuntien opiskelijoiden ikäjakaumien sijainneilla ei siis ole tilastollisesti merkitsevää eroa. Ranks Tiedekunta N Mean Rank Sum of Ranks Ikä vuosina humanistinen 219 162,36 35557,00 yhteiskuntatieteellinen 103 159,67 16446,00 Total 322 Test Statistics a Ikä vuosina Mann-Whitney U 11090,000 Wilcoxon W 16446,000 Z -,245 Asymp. Sig. (2-tailed),807 a. Grouping Variable: Tiedekunta Kuvio 72. 2 Independent-Samples -proseduurin tulostusta 10.2. Usean riippumattoman otoksen vertailu K Independent Samples -proseduurilla voidaan vertailla kolmen tai useamman ryhmän eroja sellaisen muuttujan suhteen, joka on vähintään järjestysasteikon mittausta. Määrittelyikkunassa (kuvio 73) ruutuun Test Variable List valitaan testattavat muuttujat (esimerkissä Opintojen ) ja kohtaan Grouping Variable se muuttuja, jonka perusteella vertailtavat kaksi ryhmää muodostuvat (esimerkissä paaaine). Define Range -valinnalla määritetään ryhmittelevän muuttujan arvoista ne arvot, joiden perusteella ryhmät muodostuvat.

9 Kuvio 73. K Independent-Samples -proseduurin päämäärittelyikkuna Testiksi voidaan valita (Test Type): Kruskal-Wallis H, joka on epäparametrinen versio yksisuuntaisesta varianssianalyysistä. Testillä voidaan tutkia, ovatko otokset peräisin samasta populaatiosta erityisesti sijainnin suhteen. Testi on yleistys Mann-Whitneyn U-testistä. Testiä voi käyttää yksisuuntainen varianssianalyysi silloin, kun varianssianalyysin normaalijakaumaoletus ei toteudu tai jos otoskoot ovat pieniä. Testin hypoteesit ovat H 0 : populaatioissa ko. muuttujan jakaumasijainnit ovat samanlaiset H 1 : populaatioissa ko. muuttujan jakaumasijainnit ovat erilaiset Median, joka on mediaanitesti, joka perustuu ristiintaulukkoon, jossa jokaisesta otoksesta esitetään mediaania suurempien havaintoarvojen frekvenssi sekä niiden havaintojen määrä, jotka ovat pienempiä tai yhtäsuuria kuin mediaani. Testi on voimakkuudeltaan heikompi kuin Kruskal- Wallisin H-testi. Testin hypoteesit ovat H 0 : populaatioissa ko. muuttujan mediaanit ovat yhtä suuret H 1 : populaatioissa ko. muuttujan mediaanit eivät ole yhtä suuret Kuviossa 74 on em. proseduurin tulostusta silloin, kun testityypiksi on valittu Kruskal-Wallis H. Tulostuksesta Ranks-taulukosta nähdään mm. että eri pääaineiden opiskelijoiden otoskoot (14, 33, 66, 48 ja 54) sekä opintojen edistymisen keskimääräiset sijaluvut (129.71, 115.77 jne). Keskimääräisten sijalukujen perusteella ruotsin opiskelijat näyttävät edistyvän opinnoissaan muita hitaammin (pienin sijalukukeskiarvo). Test Statistics -taulukossa on esitetty Kruskl-Wallisin H-testin arvo on 8.680 sen havaittu merkitsevyystaso 0.070. Eri pääaineopiskelijoiden edistymisjakaumien sijainneilla ei siis ole tilastollisesti merkitsevää eroa. Ranks

10 Opintojen edistyminen Pääaine N Mean Rank englanti 14 129,71 nykysuomi 33 115,77 ruotsi 66 94,57 saksa 48 106,35 viestintätieteet 54 115,50 Total 215 Test Statistics a,b Opintojen edistyminen Chi-Square 8,680 df 4 Asymp. Sig.,070 a. Kruskal Wallis Test b. Grouping Variable: Pääaine Kuvio 74. K Independent-Samples -proseduurin tulostusta 10.3. Muita epäparametrisia testejä Proseduurilla Chi-Square Test voidaan tehdä 2 -yhteensopivuustesti, jolla vertaillaan Test Variable List -kohtaan valitun muuttujan luokkien havaittuja frekvenssejä haluttuihin teoreettisiin frekvensseihin. Expected Range -kohdassa valitaan muodostuvien luokkien määrä: Get from data-vaihtoehdolla luokkia muodostuu niin paljon kuin muuttujalla on erilaisia arvoja, ja Use specified range -valinnalla Lower- ja Upper-kokonaislukujen suljettuun väliin jäävät arvot muodostavat luokat. Luokkien frekvenssejä vertaillaan teoreettisiin frekvensseihin, jotka muodostetaan valinnan Expected Values avulla: All categories equal -vaihtoehdolla luokkien teoreettiset frekvenssit asetetaan yhtäsuuriksi (tasajakaumavertailu), kun taas Values-kohdassa voidaan ilmoittaa luokkien teoreettiset frekvenssit tai prosentuaaliset osuudet yksitellen luokkia vastaavassa järjestyksessä. Proseduurilla Runs voidaan testata, onko muuttujan kahden arvon esiintymisjärjestys satunnainen. Cut Point -kohdassa valintaan tunnusluku (Mean, Median, Mode) tai luku (Custom), jonka perusteella muuttujan arvot jaetaan kahteen luokkaan. Ensimmäiseen luokkaan kuuluvat valittua lukua pienemmät havaintoarvot ja toiseen luokkaan valittua lukua suuremmat tai yhtäsuuret havaintoarvot. 2 Related Samples-proseduurilla voidaan vertailla kahden riippuvan muuttujan jakaumia. Testiksi voidaan valita (Test Type): Wilcoxon, jolla voidaan tutkia, onko kahdella riippuvalla muuttujalla sama jakauma. Muuttujien jakaumien muodosta ei tehdä mitään alkuoletuksia. Sign, jolla voidaan tutkia, onko kahdella riippuvalla muuttujalla sama jakauma. McNemar, jolla voidaan tutkia kahta riippuvaa dikotomista muuttujaa. Sopii erityisesti silloin, kun tarkastellaan ennen-jälkeen-kokeiden muutossuuntia. K Related Samples-proseduurilla voidaan vertailla kahden tai useamman riippuvan muuttujan jakaumia. Testiksi voidaan valita (Test Type): Friedman, jolla testataan nollahypoteesia: k riippuvaa muuttujaa ovat samasta populaatiosta. Kendall s W, jolla testataan nollahypoteesia: k otosta on samasta populaatiosta. Testi sopii erityisesti silloin, kun halutaan mitata arvostelijoiden tai tuomareiden samankaltaisuutta annettujen sijalukujen tai -pisteiden suhteen. Cochran s Q, jolla testataan nollahypoteesia: k:lla riippuvalla dikotomisella muuttujalla on jakauman keskikohta sama. Testi on McNemarin testin yleistys.

11 11. AINEISTON TIIVISTAMINEN Erityisesti kyselytutkimuksissa on muuttujien lukumäärä niin suuri, että yksittäisen muuttujien käsittely on vaivalloista ja aikaa vievää. Samaan asiaan liittyvien muuttujien sisältämää informaatiota voidaan tiivistää yhdeksi muuttujaksi, jota voidaan analysoida tilastomenetelmillä. 11.1. Keskiarvomuuttuja Keskiarvomuuttujalla (joskus käytetään myös nimitystä summamuuttuja) tarkoitetaan sellaista muuttujaa, jonka arvot saadaan laskemalla kahden tai useamman vähintään järjestysasteikollisen muuttujan keskiarvo. Tällaista keskiarvomuuttujaa käytetään paljon kyselytutkimuksissa, jossa tietty kysymysjoukko liittyy samaan asiaan. Keskiarvomuuttujan laatiminen kannattaa aloittaa niin, että käy läpi samaan asiaan liittyvät kysymykset/väitteet ja tarkistaa, että väitteet ovat samansuuntaisia. Jos näin ei ole, täytyy esimerkiksi kielteisesti esitettyjen väitteiden vastaukset muuntaa myönteisiksi. Esim. väite: Tilastotiede on hauskaa on myönteinen, mutta väite Tilastotiede on turhaa on kielteinen. Jos muuttujien arvokoodeina on ollut esim. alun perin 1 = täysin eri mieltä, 5 = täysin samaa mieltä, vaihdetaan kielteisten väittämien muuttuja-arvot (käyttäen esim. Transform-valikon Recode into Different Variables -proseduuria) niin, että luvun 1 tilalle laitetaan 5, luvun 2 paikalle 4, luku 3 säilyy ennallaan, luvun 4 tilalle 2 ja luvun 5 tilalle 1 ja samalla vaihdetaan myös väitteen nimi (esim. Tilastotiede EI ole turhaa ). Seuraavaksi tarkistetaan, ovatko ko. muuttujat yhteismitallisia esim. Cronbachin tunnusluvun avulla. Cronbachin :n arvo riippuu muuttujien korrelaatioista ja lukumäärästä Mitä suurempi on (maksimiarvo 1), sitä enemmän muuttujat ovat yhteismitallisia. Cronbachin saadaan laskettua Analyzevalikon Scale-valinnan proseduurilla Reliablity Analysis. Ko. proseduurin päämärittelyikkunassa (kuvio 75) valitaan mahdollisesti yhdistettävät muuttujat kohtaan Items (esimerkissä k4501, k4502, jne). Model-valinta Alpha tuottaa tulokseksi Cronbachin - tunnusluvun. Statistics-lisävalinnalla Scale if item deleted saadaan tuloksiin Cronbachin -tunnusluvun arvo silloinkin, kun joku tietty valittu muuttuja jätettäisiin yhdistämisestä pois. Kuvio 75. Reliability Analysis -proseduurin määrittelyikkunoita

12 Kuviossa 76 on em. proseduurin tuloksia. Reliability Statistics taulukosta Cronbachin :n arvo 0.888, joten valittujen kuuden muuttujan yhteismitallisuus on hyvä. Item-Total Statistics taulukon viimeisessä sarakkeessa olevat Cronbachin :n arvot ovat lukua 0.888 pienempiä, joten minkään muuttujan poistaminen ei parantaisi jäljelle jäävien 5 muuttujan yhteismitallisuutta. Reliability Statistics Cronbach's Alpha N of Items,888 6 Item-Total Statistics [k4501] Kuinka huolissaan mahdollisuudesta joutua seuraavan rikoksen uhriksi asuinkunnassa: Moottoriajoneuvo varastetaan [k4502] Kuinka huolissaan mahdollisuudesta joutua seuraavan rikoksen uhriksi asuinkunnassa: Moottoriajoneuvoa vahingoitetaan [k4503] Kuinka huolissaan mahdollisuudesta joutua seuraavan rikoksen uhriksi asuinkunnassa: Kotiin murtaudutaan [k4504] Kuinka huolissaan mahdollisuudesta joutua seuraavan rikoksen uhriksi asuinkunnassa: Polkupyörä varastetaan [k4505] Kuinka huolissaan mahdollisuudesta joutua seuraavan rikoksen uhriksi asuinkunnassa: Muuta henkilökohtaista omaisuutta varastetaan [k4506] Kuinka huolissaan mahdollisuudesta joutua seuraavan rikoksen uhriksi asuinkunnassa: Henkilökohtaista omaisuutta vahingoitetaan Scale Mean if Item Deleted Scale Variance if Item Deleted Corrected Item- Total Correlation Cronbach's Alpha if Item Deleted 10,01 7,978,720,865 9,90 7,948,735,863 10,10 8,505,602,884 9,68 8,267,606,884 10,00 7,768,777,856 10,00 7,756,784,855 Kuvio 76. Reliability Analysis -proseduurin tulostusta Nyt on siis vahvat perusteet laskea ko. muuttujista keskiarvomuuttuja, jonka arvot kuvaavat sitä, kuinka huolissaan vastaajat ovat mahdollisuudesta joutua omaisuusrikoksen uhriksi. Keskiarvomuuttuja muodostetaan käyttäen esim. Transform-valikon Compute Variable proseduuria niin, että Target Variable ruutuun tulee keskiarvomuuttujan nimi (esim. huoli_omaisuusrikoksista) ja Numeric Expression -ruutuun kaavaksi (k4501 + k4502 + k4503 + k4504 + k4505 + k4506)/6. Näin saadun keskiarvomuuttujan pieni arvo tarkoittaa, että vastaaja ei ole huolestunut ja suuri arvo, että

13 vastaaja on huolestunut, koska alkuperäisilläkin muuttujilla pieni arvo tarkoitti sitä, ettei ole huolestunut ja suuri arvo sitä, että on huolestunut. Keskiarvomuuttujaa voidaan analysoida kuten muitakin määrällisiä muuttujia (yksittäisten muuttujien sijasta), kun esim. vertaillaan, ovatko miehet ja naiset yhtä huolissaan siitä, että joutuvat jonkinlaisen omaisuusrikoksen uhriksi. 11.2. Eksploratiivisestä faktorianalyysistä Faktorianalyysistä voidaan erottaa kaksi lähestymistapaa, joista eksploratiivinen faktorianalyysi pyrkii löytämään muuttujajoukosta faktoreita (eli latentteja muuttujia), jotka pystyvät selittämään havaittujen muuttujien vaihtelua ilman, että ennalta on vahvoja odotuksia löydettävien määrästä tai tulkinnasta, kun taas konfirmatorisessa faktorianalyysissä on jo ennalta olemassa käsitys aineiston faktorirakenteesta ja analyysin tehtävänä on joko vahvistaa tai kumota tämä käsitys. Eksploratiivinen faktorianalyysi on siis aineistolähtöinen tutkimusmenetelmä. Analyysin tuloksena voidaan löytää yksi tai useampia faktoreita, joita käytetään hyväksi tulosten tulkinnassa. Analyze-valikon Dimension Reduction -valinnan proseduurilla Factor (kuvio 77) voidaan muodostaa faktorimalli. Faktoroitavat muuttujat valitaan kohtaan Variables (esimerkissä k1601, k1602, jne). Faktoroitavien muuttujien tulisi korreloida keskenään (muttei liikaa), muuttujien tulisi olla määrällisiä ( hyvä järjestysasteikkokin käy, nyt kyseessä Likertin asteikko: kaikilla valituilla muuttujilla muuttujaarvokoodit 1 = erittäin tyytymätön,, 5 = erittäin tyytyväinen), muuttujien olisi hyvä olla mittayksiköiltään samankaltaisia sekä normaalijakautuneita. Selection Variable -kohdassa voidaan valita tutkittava osajoukko, jos sen muodostaminen perustuu vain yhteen aineiston muuttujaan. Descriptives-lisävalinnan avulla valitaan tulostukseen tunnuslukuja ja testejä. Statistics kohdan Univariate descriptives valinnalla saadaan muuttujien keskiarvot ja hajonnat sekä Initial solution - valinnalla saadaan kommunaliteetit ja ominaisarvot. Correlation Matrix -kohdan Coefficientsvalinnalla saadaan korrelaatiomatriisi, valinnalla Reproduced saadaan faktoriratkaisun perusteella estimoidut korrelaatiot, valinnalla Significance levels korrelaatioiden merkitsevyystestauksen p-arvot ja esim. KMO and Bartlett s test of Sphericity valinnalla saadaan Kaiser-Meyer-Olkin -indeksin sekä Bartlettin testin tulokset. Extraction-lisävalinnalla voidaan valita faktorilatausten estimointimenetelmä (Method): Principal components valinnalla tehdään pääkomponenttianalyysi (joka ei ole sama asia kuin faktorianalyysi), useimmiten käytetään joko Principal axis factoring (pääakseli-) tai Maximum Likelihood menetelmää. Display-kohdassa valitaan tulostetaanko rotatoimaton faktorilatausmatriisi (Unrotated factor solution) ja Scree Plot kuvio. Faktoreiden määrä voi perustua joko faktoreiden ominaisarvoon (Based on Eigenvalue, oletusrajana 1) tai itse valittuun lukumäärään (Fixed number of factors). Rotation-lisävalinnalla valitaan rotatointimenetelmä (Method). Jos halutaan suorakulmainen rotaatio (korreloimattomat faktorit), valitaan Varimax (tai Quartimax). Jos halutaan vinorotaatio, valitaan esim. Direct Oblimin. Display-kohdassa valitaan tulostetaanko rotatoitu faktorilatausmatriisi (Rotated solution) ja faktoreista muuttujien latausten pisteparvet (Loading plots). Scores-lisävalinnalla voidaan laskea faktoripistemäärät ja tallettaa ne havaintoaineistoon Save as variables valinnalla. Options-lisävalinnalla voidaan mm. estää itseisarvoltaan pienten latausten esittäminen latausmatriisissa valinnalla Suppress small coefficients (usein rajana käytetään lukua 0.3)

14 Kuvio 77. Factor-proseduurin määrittelyikkunoita

15 Kuviossa 78 on faktorianalyysituloksia. Correlation Matrix taulukko on korrelaatiomatriisi. Muutamien muuttujien välillä on korrelaatiota, joten on luultavaa, että muuttujien korrelaatioiden taustalla on faktoreita. KMO and Bartlett s Test taulukon Kaiser-Meyer-Olkin (=KMO) indeksin arvo on kohtalainen 0.789 (pitäisi olla ehdottomasti yli 0.5), joten sen perusteella voidaan todeta muuttujajoukon olevan sen verran homogeenisen, että faktorointi on järkevää. Bartlett s Test testin p-arvo 0.000, joka osoittaa, että korrelaatiomatriisi ei ole yksikkömatriisi, joten ainakin joidenkin muuttujien välillä on korrelaatiota, ja siten tämänkin testin perusteella faktorointi on järkevää. KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy.,789 Bartlett's Test of Sphericity Approx. Chi-Square 1012,773 df 78 Sig.,000 Kuvio 78. Factor-proseduurin tulostusta: korrelaatioita, testituloksia ja kommunaliteetteja

16 Kuviossa 78 on esillä osa faktoroitujen muuttujien kommunaliteeteista (Communalities). Alkuperäinen kommunaliteetti muuttujalle k1601 on 0.224, eli kaikki faktorit selittävät vain 22.4 % ko. muuttujan vaihtelusta. Faktoroinnin jälkeen (kun mukana on 4 faktoria, tämä tulos myöhemmin) ko. muuttujan kommunaliteetti on 0.269. Jos muuttujan kommunaliteetti on hyvin alhainen (esim. pienempi kuin 0.2), voidaan harkita sen pudottamista analyysistä pois. Analyysiä on nyt kuitenkin jatkettu niin, että kaikki alun perin mukana olleet muuttujat pidetään analyysissä mukana. Kuvio 79. Factor-proseduurin tulostusta: ominaisarvot ja Scree Plot Kuviossa 79 on esillä faktoreiden ominaisarvot (Eigenvalues) ja Scree Plot kuvio, joiden avulla päätellään faktoreiden määrää. Ominaisarvot kuvaavat, kuinka hyvin faktorit pystyvät selittämään

17 analysoitavien muuttujien vaihtelua. Jatkoanalyysiin otetaan (oletusarvoisesti) mukaan ne faktorit, joiden ominaisarvo on suurempi kuin 1. Nämä 4 faktoria selittävät lähes 50 % analysoitavien muuttujien yhteisvaihtelusta. Faktoreiden määrää voi harkita Cattelin scree plot kuvion avulla: sovitetaan silmämääräisesti suora pienten ominaisarvojen faktoreille (itse piirretty kuvion päälle jälkikäteen) ja katsotaan montako alkupään faktoria jää suoran yläpuolelle (nyt myös 4). Seuraavaksi tulostuu Factor Matrix, joka on rotatoimaton faktorimatriisi. Se koostuu faktorilatauksista. Rotatointi kuitenkin tekee faktorirakenteesta yleensä selvemmän, joten kannattaa tulkita rotatoitua faktorimatriisia (Rotated Factor Matrix), joka on esitetty kuviossa 80. Faktorilataus on muuttujan ja faktorin välinen korrelaatio. Ensimmäisellä faktorilla erityisen vahvat lataukset ovat muuttujilla k1610, k1611 ja k1613, joten ko. faktori kuvannee tyytyväisyyttä palveluihin. Toisella faktorilla latautuvat vahvasti muuttujat k1607 ja k1608, joten faktori kuvaa tyytyväisyyttä ympäristöön. Kolmannella faktorilla vahvat lataukset osuvat muuttujiin k1603-k1605, joten faktori kuvaa tyytyväisyyttä liikennejärjestelyihin. Viimeisellä faktorilla isoimmat lataukset ovat muuttujilla k1601 ja k1602, joten faktori kuvannee tyytyväisyyttä asuntoon. Tämän faktorianalyysin tuloksena saatiin 13 muuttujan sisältämä tieto tiivistettyä 4 faktoriin. Rotated Factor Matrix a Factor [k1601] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Asunnon koko ja varusteet [k1602] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Asumisen kustannukset [k1603] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Työmatkakustannukset [k1604] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Liikenneyhteydet [k1605] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Liikenneturvallisuus [k1606] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Puistojen ja viheralueiden laatu [k1607] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Rauhallisuus ja yleinen järjestys alueella [k1608] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Melutaso ja ilmanlaatu [k1609] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Asuinalueen katujen ja teiden hoito [k1610] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Kaupallisten palvelujen sijainti [k16011] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Kaupungin/ kunnan palvelujen sijainti [k16012] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Asuinalueen arvostus [k16013] Tyytyväisyys seuraaviin asumiseen ja asuinalueeseen liittyviin asioihin: Asuinalueen palvelutason kokonaisuus 1 2 3 4,472,762,466,345,658,412,581,484,826,704,429,824,673,390,360,794 Extraction Method: Principal Axis Factoring. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 7 iterations. Kuvio 80. Factor-proseduurin tulostusta: rotatoitu faktorimatriisi Jos faktoripistemäärät muodostetaan Scores-lisävalinnalla, tulevat ne aineistoikkunaan (kuvio 81) esille uusina muuttujina (nyt siis 4 faktoria eli 4 uutta muuttujaa: FAC1_1 FAC4_1). Esimerkiksi vastaaja

18 numero 7 on tyytymättömämpi asuinalueensa palveluihin kuin vastaaja numero 2, koska vastaajan numero 7 faktoripistemäärä -2.17189 on selvästi pienempi kuin vastaajan numero 2 faktoripistemäärä 0.37096. Faktoripistemääriä voi käyttää tilastoanalyyseissä määrällisten muuttujien tapaan, esim. voitaisiin tutkia, ovatko nais- ja miesvastaajat keskimäärin yhtä tyytyväisiä asuinalueensa palveluihin. Kuvio 81. Factor-proseduurin muodostamat faktorit aineistoikkunassa