6206209, Määrälliset tutkimusmenetelmät 2 4 op Jyrki Reunamo, Helsingin yliopisto, Opettajankoulutuslaitos 19.2.2015 1
Varianssianalyysi (Pallant 2007, Tähtinen & Isoaho 2001) Verrataan ryhmien keskiarvoja. Selitettävä (riippuva) muuttuja (dependent variable) on muuttuja, jonka keskiarvojen eroja tutkitaan. Selittävä (riippumaton) muuttuja (independent variable, SPSS: Fixed factor) on muuttuja, jonka eri luokkia vertailussa käytetään. Yksisuuntaisessa varianssianalyysissä yksi selittävä muuttuja, Kaksisuuntaisessa varianssianalyysissa on kaksi selittävää muuttujaa ja analyysissä saadaan esiin myös näiden kahden yhteisvaikutus. Jos yhdysvaikutus löytyy, päävaikutusten teosta tulee epävarmaa > merkitsevyydet riippuvat toisistaan. 2
Varianssianalyysin vaatimukset Riippuvan muuttujan on oltava välimatka-asteikollinen (voitava laskea keskiarvoja, kasv.tiet. Käytetään myös järjestysasteikollisia), riippumattoman asteikolla ei rajoituksia. Jakaumien eri luokissa pitää olla normaalijakauman mukaisia (testataan esim. Kolmogorov-Smirnov testillä, suurilla aineistoilla tulos lähes aina ei-normaali) ja niiden varianssit eivät saa olla erisuuret (testataan esim. Levenen testillä, arvo ei saa olla <.05) Ryvästyminen (esim. otosryhmät) voi tuottaa sisäkorrelaatioita ja ei-normaalisuutta. 3
Yksisuuntainen varianssianalyysi Verrattaessa yhden ryhmittelymuuttujan (esim. asuinpaikka) vaikutusta jatkuvan muuttujan vaihteluun (esim. bruttotulot) käytetään yksisuuntaista varianssianalyysiä. Se tutkii sekä havaintojen vaihtelua ryhmien sisällä että ryhmäkeskiarvojen vaihtelua koko tutkittavassa joukossa. Varianssianalyysia käytetään ryhmäkeskiarvojen väliseen vertailuun silloin, kun ryhmiä on enemmän kuin kaksi (jolloin käytetään usein t-testiä). Jos ei haluta kaikkia luokkia analyysiin, käytä select cases - valintaa. Ennen varianssianalyysin suorittamista on tarkasteltava muuttujan normaalisuutta ja mahdollisia ääriarvoja. 19.2.2015 4
Kaksisuuntainen varianssianalyysi, lisäanalyysit Analyysissä on kaksi riippumatonta muuttujaa (esim. sukupuoli ja koulutustaso) sekä riippuva muuttuja (vähintään hyvän järjestysasteikon muuttuja, esim. palkka). Tällöin verrataan ryhmien välisiä eroja. Kaksisuuntainen varianssianalyysi voidaan tehdä myös toistettujen mittausten varianssianalyysilla. Testillä voidaan arvioida riippumattomien muuttujien vaikutusta esim. palkan suuruuteen ja niiden yhdysvaikutusta (esim. vaikuttaako koulutus enemmän miehillä vai naisilla). Post Hoc: minkä luokkien välillä erot ilmenevät 2 riippumatonta muuttujaa (Fixed factors): yhdysvaikutus Kontrasti: väliintulevan muuttujan poistaminen 5
12. Ajatellaan että olet pelaamassa peliä jonkun kanssa ja toinen ei noudata pelin sääntöjä. Mitä sinä teet? 19.2.2015 6
Tutkimusasetelma Lasten näkemykset riippumattomina muuttujina! Observoitu toiminta, lasten taidot ja kaverisuhteet riippumattomina muuttujina. 19.2.2015 7
Regressioanalyysi Reggressioanalyysin avulla voidaan tutkia kuinka paljon yksi tai useampi muuttuja (Independent) selittää tai ennustaa jotakin toista muuttujaa (Dependent). Muuttujien on oltava jatkuvia ja normaalisti jakautuneita Samaa muuttujaa testattaessa yksinään arvioidaan mallissa sen koko vaikutusta riippuvaan muuttujaan. Kun vaikuttavia muuttujia on useita, ei jokaisen muuttujan kokonaisvaikutusta voi enää lisätä malliin pelkästään yhteenlaskulla. Useita riippumattomia muuttujia käytettäessä täytyy erikseen huomioida käytettävä metodi Linear Regression -ikkunan valintaikkunassa Method. 8
Regressioanalyysi 9
b 1 = Σ [ (x i - x)(y i - y) ] / Σ [ (x i - x) 2 ] b 1 = 470/730 = 0.644 10
Regressioanalyysi SPSSohjelmalla Muuttujien on oltava jatkuvia ja normaalisti jakautuneita. Analyze-valikosta valitaan Regression > Linear. Siirretään riippuva muuttuja Dependent-ikkunaan ja yksi tai useampi riippumaton muuttuja Independentikkunaan. Painetaan OK. 19.2.2015 11
Tulosten tulkinta SPSSohjelmalla Model summary taulukossa R Square sarake kertoo miten monta prosenttia muuttuja selittää riippuvasta muuttujasta. Anova-taulukossa sarake F antaa F-testiarvon, sarake df vapausasteet (sekä rivin Regression että rivin Residual vapausasteet tarvitaan raportointiin). Sarakkeesta Sig. selviää muuttujien välisen yhteyden tilastollinen merkitsevyys (kun arvo <.05, ero merkitsevä). 19.2.2015 12
Ennustava malli Regressioanalyysiä voi käyttää riippuvan muuttujan ennustamiseen. Coefficients -taulukosta sarakkeesta B otetaan tekijät yhtälöön: (Constant) on yhtälön vakio ja muuttujien kertoimet saadaan saman sarakkeen alemmilta riveiltä. Esim. riippuvan muuttujan arvo voi olla (y) = 1,134 + 0.213*x 1 +0,186*x 2 (x 1 ja x 2 ovat muuttujan arvot, esimerkiksi harjoituskerrat x 1 = 10 ja harjoitusten kesto x 2 = 10 minuuttia). 19.2.2015 13
Useita riippumattomia muuttujia Samaa muuttujaa testattaessa yksinään arvioidaan mallissa sen koko vaikutusta riippuvaan muuttujaan. Kun vaikuttavia muuttujia on useita, ei jokaisen muuttujan kokonaisvaikutusta voi enää lisätä malliin pelkästään yhteenlaskulla. Useita riippumattomia muuttujia käytettäessä täytyy erikseen huomioida käytettävä metodi Linear Regression -ikkunan valintaikkunassa Method. 19.2.2015 14
Useita riippumattomia muuttujia malli Enter Useimmin käytetty metodi on Enter, jossa ennustemuuttujat liitetään mailliin yhtäaikaa ja niiden merkitsevyys ilmoitetaan vain siltä osin kuin ne selittävät riippuvan muuttujan muutosta muiden muuttujien lisäksi. Esiin tulee vain siis muutos joka johtuu vain tästä nimenomaisesta muuttujasta. Enter mallissa pitäisi olla vähintään 15 tapausta per ennustemuuttuja. 19.2.2015 15
Useita riippumattomia muuttujia, hierarkkinen malli Hierarkisessa mallissa analysoidaan muuttujien vaikutus tietyssä järjestyksessä, jolloin voidaan poistaa esimerkiksi iän vaikutus jatkoanalyysista. Esimerkiksi kun Ikä-muuttuja on sijoitettuindependent(s) -ikkunaan painetaan Next ja tehdään jatkoanalyysi, jolloin iän vaikutus on eliminoitu tuloksista. 19.2.2015 16
Useita riippumattomia muuttujia, askeltava malli Askeltavassa mallissa SPSS lisää ja poistaa ennustemuuttujia niiden tilastollisen merkitsevyyden perusteella kunnes mallin tilastollisesti merkitsevien muuttujat eivät enää vaihdu. Näin saadaan tiivis ja ehkä runsaita vaikutuksia kuvaava malli, mutta esimerkiksi Pallant (2007) kehottaa varovaisuuteen mallin käytössä. Askeltavassa mallissa riippumatonta muuttujaa kohden tulisi olla vähintään 40 tapausta. 19.2.2015 17
Regressioanalyysin oletuksia Reggressioanalyysin on täytettävä runsaasti oletuksia. Analyysiin tarvitaan noin 15 tapausta per muuttuja. Muuttujat eivät saa olla singulaarisia (muuttujat eivät saa olla osia jostakin isommasta kokonaisuudesta, esim. kahdesta muuttujasta tehdystä summamuuttujasta). 19.2.2015 18
Regressioanalyysin oletuksia 2. Riippumattomat muuttujat eivät saa olla multikollineaarisia (ne eivät saa korreloida liian voimakkaasti). Multikollineaarisuutta voi testata korrelaatiokertoimilla. Linear Regression analyysissastatistics painikkeen alta ruksaa Part and partial correlations sekä Collinearity diagnostics. 19.2.2015 19
Regressioanalyysin oletuksia 3. Reggressioanalyysissa oletetaan että muuttujien residuaalit (selittymättä jäänyt vaihtelu) ovat normaalisti jakautumisen lisäksi myös lineaarisia (suoraviivaisia), homoskedanttisia (selittymättä jääneen vaihtelun hajonta pitäisi olla yhtä suurta eri mittauskerroilla tai ryhmissä, esimerkiksi tuloerojen pitäisi olla yhtä suuria pieni- ja suurituloisilla) sekä toisistaan riippumattomia. Statistics painikkeen alta ruksaa Casewise diagnostics > Continue. Plots painikkeen alta valitse SDRESID> Y- laatikkoon ja ZPRED > X-laatikkoon (versiossa SPSS 16 paina Next), sekä ZPRED y-laatikkoon ja DEPENDNT x- laatikkoon, ruksaa Normal probability plot (SPSS 16 versiossa ruksaa molemmissa vaiheissa) > Continue. 19.2.2015 20
Regressioanalyysin oletuksia 4. Save painikkeen alta voidaan vielä ruksata Cook s > Continue (residuaalit tallennetaan uusiksi muuttujiksi muuttujalistan loppuun) > OK. Correlate taulukossa riippumattomien muuttujien tulisi korreloida jonkin verran muttei mielellään yli.7. Coefficients taulukossa Tolerance arvon ei tulisi olla alle.10 eikä VIF arvon yli 10. Taulukossa Casewise Diagnostics voidaan arvioida suuresti havainnoista poikkeavien ennustearvojen (outliers) merkitystä mallissa. Taulukossa Residual Statistics tulisi Cook s Distance arvon olla alle yhden, muuten pitäisi tutkia datasta yli yhden menevät arvot (muuttuja COO_1) Normal P-P Plot kuviossa pisteiden tulisi olla melko suorassa linjassa lävistäjän kanssa. Scatterplot kuviossa soikion muotoinen pistepilvi pitäisi olla ryhmittynyt nollakohdan ympärille. 19.2.2015 21
Muuttujamuunnokset 1. Jos jakauma ei ole normaali, voidaan testaamiseen käyttää eiparametrisiä menetelmiä (esim. Mann-Whitney tai Kruskal-Wallis, regressioanalyysissa korrelaatiot ja osittaiskorrelaatiot). Jos kuitenkin halutaan käyttää parametristen testien edistyneitä ominaisuuksia tai monimuuttujamenetelmiä, voidaan kokeilla muuttuja-muunnoksia. Valitse Transform > Compute Variable. Pikkuikkunaan Target Variable luo uusi muuttuja esim. SqrDistance (jos otat neliöjuuren muuttujasta Distance). Ikkunasta Function Group valitse Arithmetic. 19.2.2015 22
Muuttujamuunnokset 2. Ikkunasta Functions and Special Variables valitse sopiva muuttujamuunnos: Jos muuttuja on oikealle vino (vasemmalla paljon arvoja ja oikealla pitkä häntä), muuttujaa voi suoristaa SQRT(Distance), LN(Distance), LG10(Distance), 1/(Distance) valinnoilla (sitä enemmän muuttuja painottuu oikealle mitä myöhemmin funktio on yllä olevassa listassa mainittu). Jos muuttuja on vasemmalle vino, käytetään samoja funktioita, mutta kaava on SQRT(K - SqrDistance), LN(K - Distance), LG10(K - Distance), 1/(K - Distance), K on suurin arvo + 1. Nuolinäppäimellä funktio siirtyy Numeric Expression ikkunaan. Muuttuja josta uudet arvot lasketaan tulee sulkeiden sisään samoin kuin tarvittaessa K. Arvioi uudestaan jakauman normaalisuus. 19.2.2015 23
Regressioanalyysin raportoinnin esimerkki Työkokemuksen keston (M = 24.9 kk, SD = 51,6 kk) ja opiskelijan sosiaalisten taitojen opetustaidon (M = 4,0, SD =.74) vaikutusta opiskelijan osallistuvaan harjoittelijan rooliin (M = 3,3, SD = 1,1,) testattiin lineaarisella regressioanalyysilla. Työkokemus ja sosiaalisten taitojen opetustaito selittivät yhteensä 21,2 % osallistujan roolista, F (2, 525) = 70,67, p <,0005. Työkokemuksen beta-arvo oli korkeampi (beta =.400, p <.0005) kuin sosiaalisten taitojen opetustaidon (beta =.178, p <.0005). On kuitenkin huomattava, että muuttuja työkokemus ei täyttänyt testin oletuksia: jakauma oli vahvasti vasemmalle vino ja se sisälsi useita ääriarvoja (joillakin opiskelijoilla oli yli 300 kuukautta työkokemusta). Myöskään residuaalit eivät olleet normaalisti jakautuneet. Tapausten suuren määrän takia (n = 527) muuttujien ei-normaalisuus ei liene ratkaiseva asia. Tuloksen varmistamiseksi tarkastettiin tulos vielä ei-parametrisellä Spearmanin järjestyskorrelaatiolla, r=.426, p <,0005, jonka selitysaste oli myös 18,1 %, eli sama kuin ANOVA-testin tulos työkokemukselle. 19.2.2015 24