Keskeisin opittu asia (%) Regressioanalyysi Y250. Kvantitatiiviset menetelmät (6 op) Hanna Wass tutkijatohtori hanna.wass@helsinki.fi vastaanotto ke 4-5 tai sopimuksen mukaan % N ristiintaulukointi ja sen käyttö 4 4 kokonaisuus 3 korrelaatiokertoimien eri muodot 7 2 p-arvon määrittäminen 7 2 tilastollinen päättely 7 2 keskeiset käsitteet 4 asteikkojen ja menetelmien yhteen sovittaminen 4 2 -testin lukeminen 4 taulukoiden tulkitseminen 4 käsitteiden operationalisointi 4 summamuuttuja 4 otantamenetelmät 4 eri mitta-asteikot ja niiden käyttäminen 4 selitettävä ja selittävä muuttuja 4 terminologia 4 muu 3 ei vastausta 7 2 yhteensä 00 28 Keskeisin kertausta vaativa asia (%) Soveltuvan menetelmän valinta % N mittausasteikot 4 4 kaikki 4 4 p-arvo, merkitsevyyden testaus 3 ei mikään 7 2 luottamusväli 7 2 summamuuttuja 7 2 korrelaatio ja korrelaatiokertoimet 7 2 eri tilastollisten testien hyöty käytännön työssä 4 keskivirhe 4 monimuuttujamenetelmät (korrelaatiokertoimet ja ristiintaulukointi 4 opittujen asioiden soveltaminen harjoitustyössä 4 otantajakauma 4 selittävän ja selitettävän muuttujan ero 4 tilastollinen päättely 4 muu 7 2 selittävä muuttuja laatuero- tai järjestysasteikko välimatka- tai suhdelukuasteikko selitettävä muuttuja laatuero- tai välimatka- tai järjestysasteikko suhdelukuasteikko ristiintaulukointi log-lineaariset mallit varianssianalyysi logistinen regressioanalyysi regressioanalyysi multinomiaalinen regressioanalyysi yhteensä 00 28 Regressioanalyysi I Regressioanalyysi II käytetään tutkittaessa yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan työkokemuksen pituus työssäviihtyvyyteen (numeerisesti mitattuna) yleisimmin käytetty monimuuttujamenetelmä yhteiskuntatieteissä mahdollista tutkia yhtä aikaa usean selittävän muuttujan vaikutusta selitettävään muuttujaan, jolloin yhteen regressiotaulukkoon saadaan runsaasti informaatiota selitettävä muuttuja vähintään välimatka-asteikollinen (esim. kouluarvosana, ikä) selittävät muuttujat vähintään välimatka-asteikollisia tai niin sanottuja dummy-muuttujia kaikki luokittelu- tai järjestysasteikon muuttujat mahdollista muuntaa dummy-muuttujiksi
Regressioanalyysi III Regressiosuora kaksi pääasiallista käyttötapaa, ennustava ja selittävä analyysi ennustava regressioanalyysi tavoitteena muodostaa malli, jonka perusteella voida tehdään mahdollisimman tarkkoja ennusteita selitettävästä muuttujasta selittävien muuttujien arvojen perusteella selittävä analyysi tavoitteena tutkia, onko selittävällä muuttujalla vaikutusta selitettävään muuttujaan ja mikä on mahdollisen vaikutuksen voimakkuus regressiosuora osoittaa muuttujien välisen riippuvuuden voimakkuuden regressiosuora: Y = a + bx Y on selitettävä muuttuja X on selittävä muuttuja B on regressiokerroin A on vakiotekijä regressiokerroin kertoo suoran kulmakertoimen, Pearsonin korrelaatiokerroin sen, kuinka lähellä suoraa havainnot ovat korrelaatiokerroin on symmetrinen, regressiokerroin ei Regressiokerroin Regressiomallin ennustekyky regressiokerroin b kertoo kuinka paljon Y muuttuu, kun X muuttuu yhden yksikön regressiomallin ennustekykyyn vaikuttaa se, kuinka lähellä havainnot ovat regressiosuoraa mikäli b<0, yhteys negatiivinen (X:n kasvaessa Y pienenee) mikäli b>0, yhteys positiivinen (X:n kasvaessa Y suurenee) mikäli b=0, muuttujien väliltä puuttuu lineaarinen yhteys mikäli havainnot ovat lähellä, mallilla hyvä ennustekyky mikäli havainnot ovat kaukana, mallilla heikko ennustekyky virhetermi (residuaali) on havainnon arvon erotus regressiosuorasta (eli mallin ennustearvosta) PNS-menetelmä Mallin hyvyyden arviointi PNS = pienimmän neliösumman menetelmä (eng. OLS, ordinary least squares) regressiosuoran kulmakertoimen ja vakiotekijän laskeminen perustuu PNS-menetelmään minimoidaan havaintojen ja regressiosuoran etäisyyksien erot (residuaalien neliöt) R²-luku kertoo mallin selitysosuuden kuinka suuri osuus Y:n vaihtelusta voidaan selittää X:n vaihtelulla vaihtelee nollan ja yhden välillä (vrt. eta²-tunnusluku) F-testi kertoo, pystyvätkö selittävät muuttujat (X) ylipäänsä selittämään selitettävän muuttujan (Y) vaihtelua estimaatin keskivirhe (SEE, sum of squared errors) T-testi kertoo, millä todennäköisyydellä regressiokerroin eroaa nollasta perusjoukossa (mikäli regressiokerroin on 0, muuttujien väliltä puuttuu lineaarinen yhteys) 2
Monimuuttujaregressio Dummy-muuttujat Y = a + b X + b X + b X selittävien muuttujien määrällä ei ole varsinaista ylärajaa (käytännössä tutkimusongelma ja havaintojen määrä rajoittavat määrää) regressiokertoimet ilmaisevat kuinka paljon y muuttuu kun X muuttuu yhden yksikön ja kaikki muut selittävät tekijät pysyvät vakioina luokittelu- tai järjestysasteikon muuttujia voidaan sisällyttää analyysiin tekemällä niistä dummy-muuttujia dummy-muuttuja saa vain kaksi arvoa: 0 tai regressiokerroin ilmaisee, kuinka paljon tutkittu ryhmä (dummy-muuttujan arvo ) eroaa muista (dummymuuttujan arvo 0 mikäli luokittelumuuttujassa on n vaihtoehtoa, tehdään n- dummy-muuttujaa Dummy-muuttujat: esimerkki kolmiasteisesta koulutusmuuttujasta ( = perusaste, 2 = keskiaste, 3=korkea-aste) tehdään kaksi dummymuuttujaa keskiaste (saa arvon mikäli vastaaja on suorittanut kyseisen koulutusasteen, arvon 0 mikäli vastaaja on suorittanut perus- tai korkea-asteen koulutuksen) korkea-aste (saa arvon mikäli vastaaja on suorittanut kyseisen koulutusasteen, arvon 0 mikäli vastaaja on suorittanut perus- tai keski-asteen koulutuksen) perusaste jää vertailuluokaksi (vertailuluokaksi voidaan valita voi olla mikä tahansa luokista) Kuvio 6. Luottamushenkilöiden ja kuntalaisten vastaukset kysymykseen Kuinka tärkeänä pidätte ihmisten valinnanmahdollisuuksien lisäämistä seuraavissa palveluissa? vanhuspalvelut lasten päivähoito terveyspalvelut perusopetus muut sosiaalipalvelut 3,9 3,3 Yksisuuntainen varianssianalyysi, keskiarvot ( = ei lainkaan tärkeä, 2 = ei kovin tärkeä, 3 = melko tärkeä, 4 = erittäin tärkeä). Ryhmien väliset erot ovat vanhuspalveluja lukuun ottamatta tilastollisesti merkitseviä (lasten päivähoito p<0,05, perusopetus p<0,00, vanhuspalvelut p<0,0, terveyspalvelut p<0,00, muut sosiaalipalvelut p < 0,00).,94 2,44 3,05 3, 3,38 3,46 3,26 3,49 2 3 4 luottamushenkilöt kuntalaiset Lähde: Fredriksson ym. 2009, 39. Taulukko 6.2 Vastaajien näkemykset valinnanvapauden lisäämiseen eri toimialoilla. Standardoimattomat regressiokertoimet (b), keskivirhe suluissa (*p<0,, **p<0,05, ***p<0,0, (*)p<0,0). luottamushenkilö kuntalaiset kaikki status luottamushenkilö -0,96*** (0,2) sukupuoli nainen 0,60-0,52** -0,22 (0,34) (0,9) (0, 7) ikä -0,02 0,00 0, 00 (0,02) (0,0) (0,0) koulutus keskiaste -0,35-0,4-0,20 (0,63) (0,23) (0, 23) korkea-aste -,3 -,30*** -,4*** (0,64) (0,30) (0,27) työmarkkina-asema töissä 0,55-0,28-0,42 (,42) (0,39) (0, 40) työelämän ulkopuolella,50 0,02-0,0 (,47) (0,40) (0,4) puoluekanta Kansallinen Kokoomus,5* -0,00 0,46(*) (0,52) (0,27) (0, 25) Suomen Sosialidemokraattinen puolue -,60** 0,34-0,20 (0,53) (0,26) (0,24) Vasemmistoliitto -2,26*** 0,0-0,79* (0,6) (0,36) (0, 3) Vihreä liitto -0,67-0,83** -0,78* (0,80) (0,32) (0, 3) Kristillisdemokraatit 0,52-0,27 0, 05 (0,79) (0,44) (0,40) vakio 2,62*** 4,67*** 5,34 (,87) (0,58) (0, 58) R 2 0,7 0,07 0, 0 N 285 675 960 Selitettävä muuttuja: neljästä valinnanvapauden lisäämistä eri toimialoilla mittaavasta kysymyksestä muodostettu summamuuttuja, jossa suuremmat arvot viittaavat haluun lisätä valinnanvapautta (kysymysten tarkasta muotoilusta ks. kuvio 6.). Selittävät muuttujat: status, sukupuoli, koulutus, työmarkkina-asema ja puoluekanta ovat dummy-muuttujia, joiden vertailuluokat ovat kuntalainen, mies, perusaste, työtön ja Suomen Keskusta. tehdään summamuuttuja taulukon 6. neljästä ensimmäisestä muuttujasta transform-compute variable valitaan muodostunut summamuuttuja regressioanalyysin selitettäväksi muuttujaksi (dependent variable) analyze-regression-linear valitaan selittävät muuttujat (independent(s)) luokittelu-ja järjestysasteikonmuuttujista tehty ensin dummymuuttujat, yksi jätetään pois analyysista vertailuryhmäksi Lähde: Fredriksson ym. 2009, 74. 3
Summary Adjusted Std. Error of R R Square R Square the Estimate,445 a,98,70 2,7380 a. Predictors: (Constant), Kristillisdemokraatit, E. vastaajan sukupuoli, töissä, VAS, keskiaste, vihreät, KOK, ikä, SDP, korkeaaste, ulkopuolella -korjattu R²-luku kertoo mallin selitysosuuden, tässä tapauksessa 7 prosenttia selitettävän muuttujan vaihtelusta on selitettävissä malliin valittujen selittävien muuttujien avulla (mallin selittämä vaihtelu / kokonaisvaihtelu) - viimeinen sarake kertoo estimaatin keskivirheen (SEE) eli virhetermien keskihajonnan -mitä suurempi SEE on, sitä suurempi on virhetermien hajonta ja samalla sitä pienempi mallin selitysvoima (mikäli R²=, SEE=0) -SEE:n suuruus riippuu aina regressiomallin hyvyyden lisäksi selitettävän muuttujan mittaluokasta, tässä 2,7 (suhteellisen paljon suhteutettuna selitettävän muuttujan vaihteluväliin 4-6) Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig. 577,45 52,496 7,034,000 a 2343,300 34 7,463 2920,752 325 a. Predictors: (Constant), Kristillisdemokraatit, E. vastaajan sukupuoli, töissä, VAS, keskiaste, vihreät, KOK, ikä, SDP, korkeaaste, ulkopuolella b. Dependent Variable: summa -F-testi kertoo, pystyvätkö selittävät muuttujat (X) ylipäänsä selittämään selitettävän muuttujan vaihtelua -tässä tapauksessa <0.00 todennäköisyys sille, että sama F:n arvo olisi saatu käyttämällä havaintojen keskiarvoa mallin regressiokertoimen sijaan -voidaan päätellä, että valitut selittävät muuttujat kykenevät selittämään kilpailuttamiseen liittyviä näkemyksiä varsin hyvin (Constant) E. vastaajan sukupuoli ikä keskiaste korkeaaste töissä ulkopuolella KOK SDP VAS vihreät Kristillisdemokraatit a. Dependent Variable: summa Coefficients a Unstandardized Coefficients Standardized Coefficients B Std. Error Beta t Sig. 4,2,34 0,743,000,679,37, 2,40,033 -,09,06 -,072 -,60,247 -,528,558 -,087 -,947,345 -,295,578 -,26-2,242,026 -,843,70 -,36 -,203,230,035,738,005,048,962,903,434,33 2,082,038 -,862,436 -,274-4,267,000-2,440,533 -,273-4,579,000 -,943,746 -,070 -,265,207,400,77,03,558,577 huom. taulukon regressiokertoimet hieman erilaisia kuin taulukossa 6. muuttujien erilaisesta luokittelusta johtuen ennen regressiokertoimien tulkintaa kiinnitetään huomiota niiden tilastolliseen merkitsevyyteen jokaisen selitettävän muuttujan osalta testataan, onko niillä vaikutusta selitettävään muuttujaan eli eroavatko ne tilastollisesti merkitsevästi nollasta testataan niin sanotulla t-testillä, jonka tuloksena jokaiselle selittävälle muuttujalle saadaan t-arvo, jonka suuruus ratkaisee sen, voidaanko muuttujan kerrointa pitää nollaa suurempana tilastollisten kriteerien mukaan regressiokerroin kertoo, kuinka paljon selitettävä muuttuja muuttuu, kun selittävä muuttuja kasvaa yhden yksikön esimerkissä näkemys valinnanmahdollisuuksien lisäämisen tärkeydestä vähenee 0,02 yksikköä (asteikolla 4-6) ikävuoden mukaan (vaikutus ei kuitenkaan tilastollisesti merkitsevä) dummy-muuttujat tulkitaan vertailuluokkaan suhteuttaen regressioanalyysi kertoo myös kunkin regressiokertoimen keskivirheen 95 prosentin luottamustasolla kertoimeen lisätään kaksi keskivirhettä ja vähennetään kaksi keskivirhettä, jotta saadaan todellisen arvon vaihteluväli jakamalla kunkin muuttujan regressiokerroin sen keskivirheellä, saadaan t-testisuure, jonka avulla voidaan selvittää p-arvo 4
vakiotermi kertoo, minkä arvon selitettävä muuttuja saa silloin, kun selitettävän muuttujan arvo on nolla, usein vaikea antaa mielekästä tulkintaa beta-kertoimet ovat standardoituja (välillä --), niiden pohjalta mahdollista vertailla muuttujan vaikutuksen suuruuss suhteessa johonkin toiseen muuttujaan itseisarvoltaan suurimmat arvot vaikuttavat selitettävään muuttujaan voimakkaimmin I Taulukko 4 Peilikuvamallin kannatukseen vaikuttavat tekijät. Regressioanalyysin (OLS) standardoimattomat regressiokertoimet (b), keskivirhe suluissa (*** p<0,00, **p<0,0, *p<0,05, (*)<0,0). peilikuvamallin kannatus sukupuoli (mies) -0.3*** (0.02) ikä/00 0.3* (0.06) koulutus -0.** (0.03) yhteiskuntaluokka -0.08* (0.04) vähemmistöasema (ruotsinkielinen) poliittinen tietotaso kiinnostus politiikkaa kohtaan ulkoinen kansalaispätevyys subjektiivinen kansalaispätevyys puoluesamastuminen -0.08* (0.04) sijoittuminen vasemmisto oikeistoulottuvuudella (oikea) äänestäminen vuoden 2007 eduskuntavaaleissa (äänesti) vakio 0.6*** 0.04 R² 0.08 korjattu R² 0.08 F-arvo (merkitsevyys) 6.46*** N 92 Selitettävä muuttuja: väitteistä Eduskunnan tulee vastata kansalaisia sukupuolijakaumaltaan ja Eduskunnan tulee vastata kansalaisia ikäjakaumaltaan muodostettu jatkuva muuttuja Selittävät muuttujat: kaikki muuttujat on luokiteltu asteikolla 0-. Muuttujien operationalisointi on selitetty tarkemmin liitteessä. Muuttujien välinen multikollineaarisuus on tarkistettu erikseen. Taulukossa on esitetty lopulliset mallit, joissa on mukana vain ne muuttujat, joilla on tilastollisesti merkitsevä vaikutus tarkasteltavaan ilmiöön. Lähde: & Wass 2009, 99. Regressiomallin rajoitukset I Regressiomallin rajoitukset II lineaarisuusoletus voidaan usein korjata muuttujien muunnoksilla esimerkiksi iän vaikutusta voi tarkastella sisällyttämällä malliin sekä iän että iän neliön vaikutuksen Y = a + b ikä + b ikä² poikkeavat havainnot eli outlierit voivat vääristää tuloksia multikollineaarisuus selittävät muuttujat korreloivat liian voimakkaasti keskenään voi aiheuttaa ongelmia tulosten tarkkuuden kannalta ongelmia heteroskedastisuus regressiomallin virhetermien hajonta vaihtelee suuresti ja systemaattisesti x-muuttujien arvojen muuttuessa ei varsinaisesti haitallista vaikutusta regressiokertoimien arvoon, mutta sen sijaan niiden tilastolliseen merkitsevyyteen havaintojen aikariippuvuus oletuksena, että eri havaintojen virhetermit toisistaan riippumattomia ongelma esimerkiksi aikasarja-aineistossa 5