, Määrälliset tutkimusmenetelmät 2 4 op

Samankaltaiset tiedostot
54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

4 Riippuvuus 1. Esimerkki 4. Korrelaation laskeminen SPSS-ohjelmalla rajatusta aineistosta

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

TUTKIMUSOPAS. SPSS-opas

Usean selittävän muuttujan regressioanalyysi

Yleistetyistä lineaarisista malleista

Perusnäkymä yksisuuntaiseen ANOVAaan

Summamuuttujat, aineiston pilkkominen ja osa-aineiston poiminta 1

Kvantitatiiviset menetelmät

Kandidaatintutkielman aineistonhankinta ja analyysi

SPSS ohje. Metropolia Business School/ Pepe Vilpas

HARJOITUSKERTA 1: SPSS-OHJELMAN PERUSKÄYTTÖ JA MUUTTUJAMUUNNOKSET

Aki Taanila VARIANSSIANALYYSI

2. Aineiston kuvailua

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]


1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Mat Tilastollisen analyysin perusteet, kevät 2007

HAVAITUT JA ODOTETUT FREKVENSSIT

Frequencies. Frequency Table

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Tilastolliset ohjelmistot A. Pinja Pikkuhookana

SPSS-perusteet. Sisältö

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

I Tilastollisen aineiston ja analyysin edellytysten tarkistaminen. - Muunnokset, uudelleen koodaaminen, summamuuttujien luominen

MONIMUUTTUJAMENETELMISTÄ RAKENNEYHTÄLÖMALLINNUKSEEN MUUTTUJIEN NORMAALISUUS. Statistics

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Opinnäytetyön ja harjoitustöiden tekijöille

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Kaisa Kirves. Tampereen yliopisto, YKY, psykologia

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

IBM SPSS Statistics 21 (= SPSS 21)

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Regressioanalyysi. Kuusinen/Heliövaara 1

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Sisällysluettelo 6 VARIANSSIANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

MTTTP1, luento KERTAUSTA

4.2 Useampi selittävä muuttuja (kertausta)

MTTTP1, luento KERTAUSTA

MTTTP5, luento Luottamusväli, määritelmä

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

vkp 4*(1+0)/(32-3)-1= vkp 2*(1+0)/(32-3)=

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

I Keskiarvot ja hajonnat muuttujista 3-26 niin, että luokittelevana muuttujana on muuttuja 2 eli sukupuoli

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

SPSS OPAS. Metropolia Liiketalous

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Sovellettu todennäköisyyslaskenta B

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

Mat Tilastollisen analyysin perusteet, kevät 2007

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Vaikuttamisindeksi

Harjoituksessa tarkastellaan miten vapaa-ajan liikunta on yhteydessä..

4.1 Frekvenssijakauman muodostaminen tietokoneohjelmilla

Christina Gustafsson. Tilastollinen tietojenkäsittely STAT2100 IBM SPSS Statistics 22 for Windows Osa 3

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

VIIKON VINKKI: Kannattaa tutustua ensin koko tehtävänantoon ja tehdä tehtävä vasta sitten.

MTTTP1, luento KERTAUSTA

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Muuttujien väliset riippuvuudet esimerkkejä

Kvantitatiiviset menetelmät

Mat Tilastollisen analyysin perusteet, kevät 2007

Harjoitus 9: Excel - Tilastollinen analyysi

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

YLEISKUVA - Kysymykset

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin millaista se on?

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

RISTIINTAULUKOINTI JA Χ 2 -TESTI

805306A Johdatus monimuuttujamenetelmiin, 5 op

Estimointi. Otantajakauma

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

SEM1, työpaja 2 ( )

Teema 9: Tilastollinen merkitsevyystestaus

... Vinkkejä lopputyön raportin laadintaan. Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset)

Ihminen ja tekniikka seminaari Käyttäjäkokemuksen kvantitatiivinen analyysi

Transkriptio:

6206209, Määrälliset tutkimusmenetelmät 2 4 op Jyrki Reunamo, Helsingin yliopisto, Opettajankoulutuslaitos 19.2.2015 1

Varianssianalyysi (Pallant 2007, Tähtinen & Isoaho 2001) Verrataan ryhmien keskiarvoja. Selitettävä (riippuva) muuttuja (dependent variable) on muuttuja, jonka keskiarvojen eroja tutkitaan. Selittävä (riippumaton) muuttuja (independent variable, SPSS: Fixed factor) on muuttuja, jonka eri luokkia vertailussa käytetään. Yksisuuntaisessa varianssianalyysissä yksi selittävä muuttuja, Kaksisuuntaisessa varianssianalyysissa on kaksi selittävää muuttujaa ja analyysissä saadaan esiin myös näiden kahden yhteisvaikutus. Jos yhdysvaikutus löytyy, päävaikutusten teosta tulee epävarmaa > merkitsevyydet riippuvat toisistaan. 2

Varianssianalyysin vaatimukset Riippuvan muuttujan on oltava välimatka-asteikollinen (voitava laskea keskiarvoja, kasv.tiet. Käytetään myös järjestysasteikollisia), riippumattoman asteikolla ei rajoituksia. Jakaumien eri luokissa pitää olla normaalijakauman mukaisia (testataan esim. Kolmogorov-Smirnov testillä, suurilla aineistoilla tulos lähes aina ei-normaali) ja niiden varianssit eivät saa olla erisuuret (testataan esim. Levenen testillä, arvo ei saa olla <.05) Ryvästyminen (esim. otosryhmät) voi tuottaa sisäkorrelaatioita ja ei-normaalisuutta. 3

Yksisuuntainen varianssianalyysi Verrattaessa yhden ryhmittelymuuttujan (esim. asuinpaikka) vaikutusta jatkuvan muuttujan vaihteluun (esim. bruttotulot) käytetään yksisuuntaista varianssianalyysiä. Se tutkii sekä havaintojen vaihtelua ryhmien sisällä että ryhmäkeskiarvojen vaihtelua koko tutkittavassa joukossa. Varianssianalyysia käytetään ryhmäkeskiarvojen väliseen vertailuun silloin, kun ryhmiä on enemmän kuin kaksi (jolloin käytetään usein t-testiä). Jos ei haluta kaikkia luokkia analyysiin, käytä select cases - valintaa. Ennen varianssianalyysin suorittamista on tarkasteltava muuttujan normaalisuutta ja mahdollisia ääriarvoja. 19.2.2015 4

Kaksisuuntainen varianssianalyysi, lisäanalyysit Analyysissä on kaksi riippumatonta muuttujaa (esim. sukupuoli ja koulutustaso) sekä riippuva muuttuja (vähintään hyvän järjestysasteikon muuttuja, esim. palkka). Tällöin verrataan ryhmien välisiä eroja. Kaksisuuntainen varianssianalyysi voidaan tehdä myös toistettujen mittausten varianssianalyysilla. Testillä voidaan arvioida riippumattomien muuttujien vaikutusta esim. palkan suuruuteen ja niiden yhdysvaikutusta (esim. vaikuttaako koulutus enemmän miehillä vai naisilla). Post Hoc: minkä luokkien välillä erot ilmenevät 2 riippumatonta muuttujaa (Fixed factors): yhdysvaikutus Kontrasti: väliintulevan muuttujan poistaminen 5

12. Ajatellaan että olet pelaamassa peliä jonkun kanssa ja toinen ei noudata pelin sääntöjä. Mitä sinä teet? 19.2.2015 6

Tutkimusasetelma Lasten näkemykset riippumattomina muuttujina! Observoitu toiminta, lasten taidot ja kaverisuhteet riippumattomina muuttujina. 19.2.2015 7

Regressioanalyysi Reggressioanalyysin avulla voidaan tutkia kuinka paljon yksi tai useampi muuttuja (Independent) selittää tai ennustaa jotakin toista muuttujaa (Dependent). Muuttujien on oltava jatkuvia ja normaalisti jakautuneita Samaa muuttujaa testattaessa yksinään arvioidaan mallissa sen koko vaikutusta riippuvaan muuttujaan. Kun vaikuttavia muuttujia on useita, ei jokaisen muuttujan kokonaisvaikutusta voi enää lisätä malliin pelkästään yhteenlaskulla. Useita riippumattomia muuttujia käytettäessä täytyy erikseen huomioida käytettävä metodi Linear Regression -ikkunan valintaikkunassa Method. 8

Regressioanalyysi 9

b 1 = Σ [ (x i - x)(y i - y) ] / Σ [ (x i - x) 2 ] b 1 = 470/730 = 0.644 10

Regressioanalyysi SPSSohjelmalla Muuttujien on oltava jatkuvia ja normaalisti jakautuneita. Analyze-valikosta valitaan Regression > Linear. Siirretään riippuva muuttuja Dependent-ikkunaan ja yksi tai useampi riippumaton muuttuja Independentikkunaan. Painetaan OK. 19.2.2015 11

Tulosten tulkinta SPSSohjelmalla Model summary taulukossa R Square sarake kertoo miten monta prosenttia muuttuja selittää riippuvasta muuttujasta. Anova-taulukossa sarake F antaa F-testiarvon, sarake df vapausasteet (sekä rivin Regression että rivin Residual vapausasteet tarvitaan raportointiin). Sarakkeesta Sig. selviää muuttujien välisen yhteyden tilastollinen merkitsevyys (kun arvo <.05, ero merkitsevä). 19.2.2015 12

Ennustava malli Regressioanalyysiä voi käyttää riippuvan muuttujan ennustamiseen. Coefficients -taulukosta sarakkeesta B otetaan tekijät yhtälöön: (Constant) on yhtälön vakio ja muuttujien kertoimet saadaan saman sarakkeen alemmilta riveiltä. Esim. riippuvan muuttujan arvo voi olla (y) = 1,134 + 0.213*x 1 +0,186*x 2 (x 1 ja x 2 ovat muuttujan arvot, esimerkiksi harjoituskerrat x 1 = 10 ja harjoitusten kesto x 2 = 10 minuuttia). 19.2.2015 13

Useita riippumattomia muuttujia Samaa muuttujaa testattaessa yksinään arvioidaan mallissa sen koko vaikutusta riippuvaan muuttujaan. Kun vaikuttavia muuttujia on useita, ei jokaisen muuttujan kokonaisvaikutusta voi enää lisätä malliin pelkästään yhteenlaskulla. Useita riippumattomia muuttujia käytettäessä täytyy erikseen huomioida käytettävä metodi Linear Regression -ikkunan valintaikkunassa Method. 19.2.2015 14

Useita riippumattomia muuttujia malli Enter Useimmin käytetty metodi on Enter, jossa ennustemuuttujat liitetään mailliin yhtäaikaa ja niiden merkitsevyys ilmoitetaan vain siltä osin kuin ne selittävät riippuvan muuttujan muutosta muiden muuttujien lisäksi. Esiin tulee vain siis muutos joka johtuu vain tästä nimenomaisesta muuttujasta. Enter mallissa pitäisi olla vähintään 15 tapausta per ennustemuuttuja. 19.2.2015 15

Useita riippumattomia muuttujia, hierarkkinen malli Hierarkisessa mallissa analysoidaan muuttujien vaikutus tietyssä järjestyksessä, jolloin voidaan poistaa esimerkiksi iän vaikutus jatkoanalyysista. Esimerkiksi kun Ikä-muuttuja on sijoitettuindependent(s) -ikkunaan painetaan Next ja tehdään jatkoanalyysi, jolloin iän vaikutus on eliminoitu tuloksista. 19.2.2015 16

Useita riippumattomia muuttujia, askeltava malli Askeltavassa mallissa SPSS lisää ja poistaa ennustemuuttujia niiden tilastollisen merkitsevyyden perusteella kunnes mallin tilastollisesti merkitsevien muuttujat eivät enää vaihdu. Näin saadaan tiivis ja ehkä runsaita vaikutuksia kuvaava malli, mutta esimerkiksi Pallant (2007) kehottaa varovaisuuteen mallin käytössä. Askeltavassa mallissa riippumatonta muuttujaa kohden tulisi olla vähintään 40 tapausta. 19.2.2015 17

Regressioanalyysin oletuksia Reggressioanalyysin on täytettävä runsaasti oletuksia. Analyysiin tarvitaan noin 15 tapausta per muuttuja. Muuttujat eivät saa olla singulaarisia (muuttujat eivät saa olla osia jostakin isommasta kokonaisuudesta, esim. kahdesta muuttujasta tehdystä summamuuttujasta). 19.2.2015 18

Regressioanalyysin oletuksia 2. Riippumattomat muuttujat eivät saa olla multikollineaarisia (ne eivät saa korreloida liian voimakkaasti). Multikollineaarisuutta voi testata korrelaatiokertoimilla. Linear Regression analyysissastatistics painikkeen alta ruksaa Part and partial correlations sekä Collinearity diagnostics. 19.2.2015 19

Regressioanalyysin oletuksia 3. Reggressioanalyysissa oletetaan että muuttujien residuaalit (selittymättä jäänyt vaihtelu) ovat normaalisti jakautumisen lisäksi myös lineaarisia (suoraviivaisia), homoskedanttisia (selittymättä jääneen vaihtelun hajonta pitäisi olla yhtä suurta eri mittauskerroilla tai ryhmissä, esimerkiksi tuloerojen pitäisi olla yhtä suuria pieni- ja suurituloisilla) sekä toisistaan riippumattomia. Statistics painikkeen alta ruksaa Casewise diagnostics > Continue. Plots painikkeen alta valitse SDRESID> Y- laatikkoon ja ZPRED > X-laatikkoon (versiossa SPSS 16 paina Next), sekä ZPRED y-laatikkoon ja DEPENDNT x- laatikkoon, ruksaa Normal probability plot (SPSS 16 versiossa ruksaa molemmissa vaiheissa) > Continue. 19.2.2015 20

Regressioanalyysin oletuksia 4. Save painikkeen alta voidaan vielä ruksata Cook s > Continue (residuaalit tallennetaan uusiksi muuttujiksi muuttujalistan loppuun) > OK. Correlate taulukossa riippumattomien muuttujien tulisi korreloida jonkin verran muttei mielellään yli.7. Coefficients taulukossa Tolerance arvon ei tulisi olla alle.10 eikä VIF arvon yli 10. Taulukossa Casewise Diagnostics voidaan arvioida suuresti havainnoista poikkeavien ennustearvojen (outliers) merkitystä mallissa. Taulukossa Residual Statistics tulisi Cook s Distance arvon olla alle yhden, muuten pitäisi tutkia datasta yli yhden menevät arvot (muuttuja COO_1) Normal P-P Plot kuviossa pisteiden tulisi olla melko suorassa linjassa lävistäjän kanssa. Scatterplot kuviossa soikion muotoinen pistepilvi pitäisi olla ryhmittynyt nollakohdan ympärille. 19.2.2015 21

Muuttujamuunnokset 1. Jos jakauma ei ole normaali, voidaan testaamiseen käyttää eiparametrisiä menetelmiä (esim. Mann-Whitney tai Kruskal-Wallis, regressioanalyysissa korrelaatiot ja osittaiskorrelaatiot). Jos kuitenkin halutaan käyttää parametristen testien edistyneitä ominaisuuksia tai monimuuttujamenetelmiä, voidaan kokeilla muuttuja-muunnoksia. Valitse Transform > Compute Variable. Pikkuikkunaan Target Variable luo uusi muuttuja esim. SqrDistance (jos otat neliöjuuren muuttujasta Distance). Ikkunasta Function Group valitse Arithmetic. 19.2.2015 22

Muuttujamuunnokset 2. Ikkunasta Functions and Special Variables valitse sopiva muuttujamuunnos: Jos muuttuja on oikealle vino (vasemmalla paljon arvoja ja oikealla pitkä häntä), muuttujaa voi suoristaa SQRT(Distance), LN(Distance), LG10(Distance), 1/(Distance) valinnoilla (sitä enemmän muuttuja painottuu oikealle mitä myöhemmin funktio on yllä olevassa listassa mainittu). Jos muuttuja on vasemmalle vino, käytetään samoja funktioita, mutta kaava on SQRT(K - SqrDistance), LN(K - Distance), LG10(K - Distance), 1/(K - Distance), K on suurin arvo + 1. Nuolinäppäimellä funktio siirtyy Numeric Expression ikkunaan. Muuttuja josta uudet arvot lasketaan tulee sulkeiden sisään samoin kuin tarvittaessa K. Arvioi uudestaan jakauman normaalisuus. 19.2.2015 23

Regressioanalyysin raportoinnin esimerkki Työkokemuksen keston (M = 24.9 kk, SD = 51,6 kk) ja opiskelijan sosiaalisten taitojen opetustaidon (M = 4,0, SD =.74) vaikutusta opiskelijan osallistuvaan harjoittelijan rooliin (M = 3,3, SD = 1,1,) testattiin lineaarisella regressioanalyysilla. Työkokemus ja sosiaalisten taitojen opetustaito selittivät yhteensä 21,2 % osallistujan roolista, F (2, 525) = 70,67, p <,0005. Työkokemuksen beta-arvo oli korkeampi (beta =.400, p <.0005) kuin sosiaalisten taitojen opetustaidon (beta =.178, p <.0005). On kuitenkin huomattava, että muuttuja työkokemus ei täyttänyt testin oletuksia: jakauma oli vahvasti vasemmalle vino ja se sisälsi useita ääriarvoja (joillakin opiskelijoilla oli yli 300 kuukautta työkokemusta). Myöskään residuaalit eivät olleet normaalisti jakautuneet. Tapausten suuren määrän takia (n = 527) muuttujien ei-normaalisuus ei liene ratkaiseva asia. Tuloksen varmistamiseksi tarkastettiin tulos vielä ei-parametrisellä Spearmanin järjestyskorrelaatiolla, r=.426, p <,0005, jonka selitysaste oli myös 18,1 %, eli sama kuin ANOVA-testin tulos työkokemukselle. 19.2.2015 24