Sisällysluettelo 6 VARIANSSIANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Sisällysluettelo ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...5 SISÄLLYSLUETTELO... 6 LYHYT SANASTO VASTA-ALKAJILLE... 7 1. MONIMUUTTUJAMENETELMÄT IHMISTIETEISSÄ... 9 1.1 MONIMUUTTUJA-AINEISTON ERITYISPIIRTEITÄ... 10 1.2 AINEISTON ALUSTAVA TARKASTELU... 13 1.2.1. Korrelaatio ja käyräviivainen yhteys...13 1.2.2 Outlierit... 14 1.2.3 Normaalisuus... 16 1.2.4 Multikollineaarisuus ja singulaarisuus... 17 1.3 KIRJAN RAKENTEESTA... 18 2.... 19 2.1 YKSI- JA MONISUUNTAINEN (ANOVA)... 20 2.1.1 Missä tilanteessa toimii parhaiten... 20 2.1.2 Rajoitukset ja oletukset... 20 2.1.3 Lyhyesti teoriasta ja käsitteistä... 21 2.1.4 Lisätestit ja jatkoanalyysit... 23 2.1.5 Tekninen suoritus SPSS-ohjelmistolla ja tulkinta... 23 2.2 KO (ANCOVA)... 33 2.2.1 Missä tilanteessa toimii parhaiten... 33 2.2.2 Rajoitukset ja oletukset... 33 2.2.3 Lyhyesti teoriasta ja käsitteistä... 34 2.2.4 Lisätestit ja jatkoanalyysit... 36 2.2.5 Tekninen suoritus SPSS-ympäristössä ja tulkinta... 37 2.3 MONIMUUTTUJAINEN (MANOVA)... 47 2.3.1 Missä tilanteessa toimii parhaiten... 47 2.3.2 Rajoitukset ja oletukset... 47 2.3.3 Lyhyesti teoriasta ja käsitteistä... 48 4.3.4 Lisätestit ja jatkoanalyysit... 51 2.3.5 Tekninen suoritus SPSS-ympäristössä ja tulkinta... 51 3. LOPUKSI... 63 LIITE A. AINEISTOSSA KÄYTETYT ALKUPERÄISET MUUTTUJAT... 64 LIITE B. MATRIISILASKENNASTA KEVYESTI... 67 LÄHTEET... 70 ASIA- JA HENKILÖHAKEMISTO... 72 METODOLOGIA-SARJAN KIRJOITTAJASTA... 78 6

on vähemmän. Myös Sidakin t-testi on Bonferroni-menetelmää konservatiivisempi. Tukeyn testiäkin konservatiivisempi on Scheffén testi, joka saattaa tosin jo olla liiankin kriittinen; se ottaa vertailuun keskiarvojen lisäksi myös erilaiset keskiarvojen lineaarikombinaatiot. Tukeyn testi on yleensä tehokkaampi kuin Hochbergin GT2, jossa vertailu tehdään samaan tapaan kuin Tukeyn testissä. Gabrielin parittainen vertailu on tehokkaampi kuin Hochbergin GT2, kun ryhmien koot eroavat toisistaan. Dunnetin testi vertailee keskiarvoja kontrollikeskiarvoon, eikä yleensä sovellu perinteiseksi post hoc -testiksi. SPSS-manuaali ei suosittele käytettäväksi Dunnetin testiä eikä Student-Newman-Keuls (S-N-K) -testejä, sillä uudemmissa ns. Monte Carlo -simuloinneissa ne eivät ole osoittautuneet niin hyviksi kuin on ajateltu. Mikäli ryhmien variansseissa on eroa, voidaan käyttää Tamhanen T2 - testiä, joka on konservatiivinen t-testiin perustuva menettely tai Dunnetin T3 tai Dunnetin C -testejä. Oletusten toteutumista testataan samoilla menetelmillä kuin regressioanalyysin ja MANO- VAn yhteydessä on kuvattu. Lisätesteistä ehkä mainittavaa on se, että SPSS-ohjelmistossa kanoninen korrelaatio (kirja 7B) voidaan suorittaa teknisesti kovarianssianalyysina. Tällöin Factors-muuttujiksi valitaan X-muuttujat ja Covariates-muuttujiksi valitaan Y-muuttujat. 2.2.5 Tekninen suoritus SPSS-ympäristössä ja tulkinta Tarkoituksemme on jatkaa aiempaa kaksisuuntaista ANOVA -esimerkkiä ja selvittää, onko eri harrastusryhmien (X 1 ) ja eri sukupuolten (X 2 ) välillä tilastollisesti merkitseviä eroja faktorianalyysilla löydettyjen dimensioiden suhteen (Y 1 ), kun vakiodaan taitotaso (C 1 ) (Taulukko 4.3). Erityisesti meitä tällä kertaa kiinnostaa faktoreista (ja pääkomponenteista) ensimmäinen: liikuntamotiivit ja se, onko eri harrastusalueilla eri sukupuolten välillä tilastollisesti merkitsevää eroa motiivien painokkuuden suhteen, kun huomioidaan se, että vastaajat saattavat olla eri tasoisia harrastajia. Muuttujille ei tehdä muunnoksia. Taulukko 4.3 Analyysiin mukaan tulevat muuttujat Mja selite Merkitys mallissa F1 Ensimmäinen faktoripistemuuttuja Selitettävä muuttuja (Liikunnallisuusmotiivit) HARA Harrastusalue 1=urheiluharrastus 2=kuvataideharrastus 3=musiikkiharrastus 4=luontoharrastus 5=käsityöharrastus 6=matematiikkaharrastus 7=kieliharrastus 8=kirjallisuusharrastus Ryhmittelevä muuttuja SUK Sukupuoli 1=nainen 2=mies TAI Taitotaso 0=vasta-alkaja - 4=asiantuntija Ryhmittelevä muuttuja Kovariaatti Perusnäkymä ANCOVA SPSS-ympäristössä alkaa valinnoilla Analyze General Linear Model Univariate aivan kuten useampisuuntainen ANOVAkin. MANCOVAn vallinnat vastaavat seuraavassa 37

luvussa esiteltävän MANOVAn valintoja, joka alkaa hieman nyt esitellystä poikkeavasti: Analyze General Linear Model Multivariate Nyt päävalikko näyttää seuraavalta: Valinnat ANCOVAssa ja MANCOVAssa muuttuja, jonka suhteen keskiarvoja verrataan, on riippuva muuttuja eli Dependent Variable. Tekijät, joiden suhteen keskiarvoja verrataan toisiinsa, ovat ryhmitteleviä tekijöitä eli Factors. Harrastusalue on tyypillisesti satunnainen tekijä (Random Factors): emme ole tutkineet kaikkia mahdollisia harrastusryhmiä, ja vastaajat ovat satunnaisesti sijoittuneet eri harrastusryhmiin. Sukupuoli sen sijaan edustaa ns. kiinteitä tekijöitä (Fixed Factors), sillä kaikki sen ryhmät ovat analyysissa tarkastelun alaisina. Mallimme on ns. Mixed-effects model, jossa tyypillisesti joku tai jotkut tekijöistä ovat satunnaisia ja joku tai jotkut kiinteitä. Useampisuuntaiseen ANOVAan verrattuna uutta on se, että kovariaatiksi (Covariate) valitaan jokin (tai joitakin) tekijöitä, joiden suhteen halutaan tuloksia vakioida ja näin poistaa epämääräistä vaihtelua. Näitä tekijöitä kutsutaan kovatiaateiksi (Covariates). MANCOVAssa kuten MANOVAssakin voidaan tehdä kuudenlaisia valintoja: voidaan säädellä mallia (Model) ja kontrasteja (Contrasts), tehdä kuvia (Plots, huomattakoon, että myös Options-valinnassa määritellään kuvia), parittaisvertailuja (Post Hoc, joka toimii vain kun vaikutukset ovat kiinteitä), tallentaa diagnostisia arvoja (Save) sekä tehdä tulostukseen ja kuviin liittyviä valintoja (Options). Mallin muotoon, kontrasteihin ja ryhmävertailuanalyyseihin (Post hoc) emme puutu tällä kertaa. Malliksi valitaan oletuksena oleva Full-Factorial -vaihtoehto. Kontrasteja voitaisi käyttää esimerkiksi hyvinkin monimutkaisissa keskiarvojen vertailutilanteissa. Näiden suhteen voi konsultoida esimerkiksi SPSS-manuaalia. Koska ryhmittelevä muuttujamme SUK (sukupuoli) sai vain kaksi arvoa, ei ole mielekästä valita post hoc -testejä. Sen sijaan muutamme Model-, Plots-, Save- ja Options -valintoja. Option valinnalla saamme lisäksi muuttujakohtaisen parittaisvertailun. Teemme oletusten lisäksi seuraavat valinnat: Plots Horisontal Axis: hara Separate Lines: suk [Valinta tuottaa kuvan, jossa eri harrastuksissa verrataan sukupuolia.] Save Predicted value: Unstandardized 38

Diagnostics: Cook s Distance, Leverage values Residuals: Standardized, Studentized, Deleted [Saamme monipuolisen kuvan mallin oletusten toteutumisesta residuaalien normaaliuden ja outliereiden näkökulmasta.] Options Display Means for HARA SUK HARA*SUK Compare mean effects Confidence interval Adjustment: Bonferroni Display: Descriptive statistics, Estimates of effect size, Parameter Estimates, Homogeneity tests, Spread vs. level plot, Residual plot [Saamme perustunnusluvut näkyviin ja pystymme siten arvioimaan mahdollisten erojen suuntaa. Näemme myös ryhmien sisällä parittaiset vertailut, joissa ilmeneviä p- arvoja halutaan korjata. Saamme lisäksi laajan kuvan perustunnusluvuista, malliin tulevien termien beeta-arvot, ryhmittelevien tekijöiden vaikutuksesta mallissa, virhevarianssien yhtäsuuruudesta eri ryhmissä (soluissa) sekä saamme residuaaleihin liittyviä kuvia.] Tulokset ja niiden tulkinta Tulosten tulkinta alkaa kuvailemalla aineisto: Descriptive Statistics Between-Subjects Factors SUK HARA 1 2 1 2 3 4 5 6 7 8 N 504 209 168 109 152 50 120 11 77 26 SUK HARA Mean Std. Deviation N 1 1 1,2485941,58606839 102 2 -,5118743,52182823 86 3 -,4501730,54400758 105 4,5271513,80432461 18 5 -,6479909,49396843 106 6-1,00297, 1 7 -,4991722,63128962 67 8 -,5095654,31545432 19 Total -,1334530,91304328 504 2 1 1,3212414,57249936 66 2 -,3323348,47634863 23 3 -,2871493,59397764 47 4,6447657,79507437 32 5 -,5758834,46521197 14 6 -,3801470,54113977 10 7 -,2818360,72443437 10 8 -,5021364,54887034 7 Total,3277396,96882451 209 Total 1 1,2771341,58014392 168 2 -,4739898,51570545 109 3 -,3997644,56304697 152 4,6024245,79222943 50 5 -,6395784,48936843 120 6 -,4367671,54663812 11 7 -,4709467,64315226 77 8 -,5075653,37942272 26 Total,0017353,95251104 713 39

Ensimmäinen taulu (Between-Subjects Factor) kertoo ANOVAn tapaan vain sen, kuinka monta havaintoa on kussakin pääryhmässä. Huomamme, että naisia on enemmän kuin kaksi kertaa enemmän kuin miehiä ja että matematiikan harrastajien ryhmässä (HARA=6) on vain 11 havaintoa. Perustunnuslukuja koskeva taulu (Descriptive Statisticss) kertoo ryhmien koot (N) ja niiden keskiarvot (Mean) ja hajonnat (Std. Deviation). Tähän tauluun palaamme, kun haluamme tietää, minkä suuntainen ero solujen välillä kumpi keskiarvo oli suurempi tai pienempi. Levene's Test of Equality of Variances a F df1 df2 Sig. 2,859 15 697,000 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a. Design: Intercept+TAI+SUK+HARA+SUK * HARA Seuraavaksi saamme testituloksen, joka kertoo ovatko mallin virhevarianssit samat kaikissa ryhmissä (Levene s Test of Equality of Variances). Oletushan F-testin käyttöön oli, että ryhmien varianssit olisivat yhtäsuuret. Onneksi F-testi on vakaa (Robust) oletusten rikkoutumista vastaan; voimme kohtuullisella varmuudella luottaa jatkossa kuvailtaviin tuloksiin, vaikka varianssit eroavat toisistaan tilastollisesti merkitsevästi (p<0.0001). Mallin residuaalit ovat kohtuullisen normaalisia, kuten tullaan myöhemmin huomaamaan. Tests of Between-Subjects Effects Source Type III Sum of Squares df Mean Square F Sig. Partial Eta Squared Intercept Hypothesis 5,201 1 5,201 1,072,331,119 38,408 7,914 4,853 a TAI Hypothesis 2,494 1 2,494 7,718,006,011 224,935 696,323 b SUK Hypothesis 1,013 1 1,013 4,154,042,011 94,428 387,100,244 c HARA Hypothesis 301,041 7 43,006 548,316,000,998,599 7,640 7,843E-02 d SUK * Hypothesis,531 7 7,586E-02,235,977,002 HARA 224,935 696,323 b a.,106 MS(HARA) +,894 MS() b. MS() c.,320 MS(SUK * HARA) +,680 MS() d.,990 MS(SUK * HARA) + 1,038E-02 MS() Varsinainen varianssitaulu (Test of Between-Subject Effects) kertoo varianssianalyysin tai oikeastaan regressioanalyysin tuloksen. Muistettakoon, että regressiomalli, jota tutkimme on seuraava: F1 (Liikuntamotiivit) = vakio + β 1 *suk + β 2 *hara + β 3 *suk*hara + β c *TAI + virhe Taulu kertoo mallin kunkin osatekijän omavaikutuksen ja yhdysvaikutuksen tilastollisen merkitsevyyden. ANOVAn malliin verrattuna ANCOVA-mallissa ylimääräistä on korvari- 40