Kvantitatiiviset menetelmät Soveltuvan menetelmän valinta HUOM! Tentti pidetään tiistaina 22.2. klo 6-8 V2 ls. Uusintamahdollisuus on rästitentissä 25.5. ke 4 6 PR sali. Siihen tulee ilmoittautua WebOodissa 9. 8.5. välisenä aikana. SELITTÄVÄ MUUTTUJA Laatuero- tai järjestysasteikko Välimatka- tai suhdelukuasteikko SELITETTÄVÄ MUUTTUJA Laatuero- tai järjestysasteikko - Ristiintaulukointi - Log-lineaariset mallit - Logistinen regressio - Multinomiaalinen regressio Välimatka- tai suhdelukuasteikko -Varianssianalyysi -Regressioanalyysi Mikko Mattila 25 Mikko Mattila 25 2 Regressioanalyysi Regressioanalyysin avulla tutkitaan yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan Esim. vaikuttaako koulutuksen pituus palkan suuruuteen? Regressioanalyysi on yleisimmin käytetty monimuuttujamenetelmä yhteiskuntatieteissä Regressioanalyysi Etu: voidaan tutkia yhtä aikaa monen muuttujan vaikutusta selitettävään muuttujaan yhteen regressiotaulukkoon mahtuu paljon informaatiota Selitettävän muuttujan oltava vähintään välimatka-asteikollinen Selittävät muuttujat vähintään välimatkaasteikollisia tai ns. dummy-muuttujia Kaikki luokittelu- tai järjestysasteikon muuttujat on mahdollista muuntaa dummy-muuttujiksi Mikko Mattila 25 3 Mikko Mattila 25 4 Koulutusmenot & lukutaidottomuus Lukutaidottomuus (%) 8 6 4 2 INTIA Lukutaidottomuus 48% Koulutusmenot 3,3% 2 Koulutusmenot (% BKT:sta) 4 6 8 Mikko Mattila 25 5 2 Regressiosuora =8-7,9 Regressiosuora Regressiosuora osoittaa muuttujien välisen riippuvuuden voimakkuuden Regressiosuora: = a + b selitettävä muuttuja selittävä muuttuja b on regressiokerroin a on vakiotekijä Huom. regressiokerroin kertoo suoran kulmakertoimen, Pearsonin korrelaatiokerroin sen kuinka lähellä suoraa havainnot ovat Korrelaatiokerroin on symmetrinen, regressiokerroin ei Mikko Mattila 25 6
Regressiokerroin Regressiokerroin b kertoo kuinka paljon muuttuu, kun muuttuu yhden yksikön Jos b<, yhteys negatiivinen (:n kasvaessa pienenee) Jos b> yhteys positiivinen (:n kasvaessa suurenee) Jos b=, ei lineaarista yhteyttä muuttujien välillä Regressiomallin ennustekyky Regressiomallin ennustekyky riippuu siitä, kuinka lähellä havainnot ovat regressiosuoraa Jos ne ovat lähellä hyvä ennustekyky Jos ne ovat kaukana huono ennustekyky Virhetermi (residuaali) on havainnon arvon erotus regressiosuorasta (eli mallin ennustearvosta) Mikko Mattila 25 7 Mikko Mattila 25 8 PNS-menetelmä PNS=pienimmän neliösumman menetelmä (engl. ordinary least squares eli OLS) regressiosuoran kulmakertoimen ja vakion laskeminen perustuu PNS-menetelmään minimoidaan havaintojen ja regressiosuoran etäisyyksien (residuaalien) neliöt Mallin hyvyyden arviointi R 2 -luku kertoo selitysosuuden kuinka suuri osuus :n vaihtelusta voidaan selittää :n vaihtelulla? vaihtelee nolla ja yhden välillä F-testi kertoo pystyvätkö -muuttujat ylipäänsä selittämään :n vaihtelua (SEE) kertoo virhetermien keskihajonnan t-testi kertoo millä todennäköisyydellä regressiokerroin eroaa nollasta perusjoukossa Mikko Mattila 25 9 Mikko Mattila 25 HIV & eliniän odote Esimerkki: selittääkö HIVin levinneisyys odotettavissa olevaa elinikää? Vakio 68,4** 9,5 p<, HIV tapaukset -,27** -,3 p<, (/ henkilöä) R 2,44 Korjattu R 2,44 F-testi 28,** p<, 8,7 Mikko Mattila 25 HIV & eliniän odote Regressiokaava voidaan käyttää ennusteiden tekoon Kaava: = 68,4,27 Kun HIV määrä kasvaa yhdellä (/ henkeä), lyhenee eliniän odote,27 vuotta Jos Suomessa (,2) HIV-levinneisyys sama kuin Ranskassa (2,2) elinikä lyhenisi,54 vuotta (2,2-,2)*,27=,54 Jos sama kuin Tansaniassa (39,6) elinikä lyhenisi,6 vuotta (39,6-,2)*,27=,6 Mikko Mattila 25 2 2
Monimuuttujaregressio HIV + BKT & eliniän odote Kaavana: = a + b + b 2 2 selittävien muuttujien määrällä ei ole varsinaisesti ylärajaa (käytännössä tutkimusongelma ja havaintojen määrä rajoittavat määrää) Regressiokertoimet ilmaisevat kuinka paljon muuttuu kun muuttuu yhden yksikön ja kaikki muut selittävät muuttujat pysyvät vakiona. Mikko Mattila 25 3 Vakio 64,4** 87, p<, HIV tapaukset -,23** -,6 p<, (/ henkilöä) BKT /henkilö,57** 9,44 p<, R 2,64 Korjattu R 2,63 F-testi 43,2** p<, 7,4 Mikko Mattila 25 4 Dummy-muuttujat Luokittelu- tai järjestysasteikon muuttuja voidaan sisällyttää analyysiin tekemällä niistä dummymuuttujia Dummy-muuttuja saa vain kaksi arvoa: tai Regressiokerroin ilmaisee, kuinka paljon tutkittu ryhmä (dummy=) eroaa muista (dummy=) Jos luokittelumuuttujassa n vaihtoehtoa, täytyy luoda n- dummy-muuttujaa Esim: koulutus mitattu kolmella vaihtoehdolla (=peruskoulu, 2=keskiaste, 3=korkeakoulu) luodaan kaksi dummy-muuttujaa peruskoulu /, keskiaste / (vertailukohtana korkeakoulu) vertailukohdan valinnalla ei väliä HIV + BKT + Afrikka & eliniän odote Vakio 67,3** 98,8 p<, HIV tapaukset (/ henkilöä) -,4** -7, p<, BKT /henkilö,44** 8,4 p<, Afrikka-dummy -,2** -8,76 p<, R 2,76 Korjattu R 2,75 F-testi 65,7** p<, 5,8 Mikko Mattila 25 5 Mikko Mattila 25 6 Regressioanalyysin rajoitteet Regressioanalyysin rajoitteet Lineaarisuusoletus Voidaan usein korjata muuttujien muunnoksilla Poikkeavat havainnot eli outlierit voivat vääristää tuloksia Mikko Mattila 25 7 Mikko Mattila 25 8 3
Tutkitaan regressioanalyysin avulla, miten taustatekijät liittyvät poliittisen osallistumisen aktiivisuuteen Selittävät muuttujat: ikä sukupuoli koulutus kiinnostus politiikasta Ensin täytyy tehdä hieman valmisteluja: aineiston sukupuolimuuttuja q on koodattu =mies, 2=nainen, joten se muutetaan dummy-muuttujaksi uudelleenkoodaamalla nainen=, mies= Samoin koulutus on mitattu useilla vaihtoehdoilla luodaan kaksi uutta muuttujaa, yliopisto ja keskiaste Ikä- ja kiinnostusmuuttujat voidaan lisätä malliin sellaisenaan Mikko Mattila 25 9 Mikko Mattila 25 2 Summary,35 a,93,9 2,575 a. Predictors:, Ensivaiheessa tarkastellaan ainoastaan ikämuuttujan vaikutusta a 6,55,42 4,27, 5,9E-2,8,35 6,292, Mikko Mattila 25 2 Mikko Mattila 25 22 Summary,3 a,96,92 2,556 a. Predictors:, NAINEN, Lisätään sukupuolta kuvaava muuttuja malliin Summary,349 a,22,2 2,47694 a. Predictors:, KESKIAST, NAINEN,, LIOPIST Lisätään koulutus NAINEN a 6,734,429 39,2, 4,999E-2,8,299 6,54, -,39,257 -,59 -,23,23 a 7,9,464 36,889, 4,9E-2,8,294 5,969, NAINEN -,298,255 -,57 -,72,242 LIOPIST -,242,384 -,62-3,236, KESKIAST -,453,28 -,83 -,64,7 Mikko Mattila 25 23 Mikko Mattila 25 24 4
Summary,393 a,54,43 2,4257 a. Predictors:, [q22] Kuinka kiinnostunut olette politiikasta, NAINEN,, LIOPIST, KESKIAST NAINEN LIOPIST KESKIAST [q22] Kuinka kiinnostunut olette politiikasta a Ja lopuksi kiinnostus politiikasta 5,599,597 26,24, 4,99E-2,8,3 6,94, -,343,25 -,65 -,375,7 -,894,385 -,7-2,32,2 -,25,279 -,46 -,9,368,596,5,92 3,958, Mikko Mattila 25 25 Mitkä tekijät selittävät EU-budjetin nettorahavirtoja? Kuinka paljon EU:n laajentuminen maksaisi, jos uudet jäsenvaltiot saisivat samat edut kuin vanhat? Selitettävä muuttuja: EU:n vuosittaiset nettokustannukset henkeä kohden 5 jäsenvaltiossa (mitattu euroissa, vuodet 995-2) Mikko Mattila 25 26 Net transfers per capita (euros/year) 8 6 4 2-2 -4 4 6 Greece Portugal Spain Finland Italy France UK Sweden 8 Ireland Denmark Belgium Austria Netherlands Germany 2 4 6 Luxembourg 8 2 Regressioyhtälö: NET=896.7-9.6GDP GDP per capita (EU5=) Mikko Mattila 25 27 Country GDP per capita Net transfers Fair net transfers (EU5=) (euros/capita) (euros/capita) Greece 67 39 288 Portugal 73 266 238 Spain 8 6 7 Finland - -7 France -24-5 UK -46-7 Sweden 2-8 -27 Italy 3-6 -38 Ireland 4 598-49 Germany 7-28 -75 Belgium -24 - Austria -85-7 Netherlands 3-95 -24 Denmark 2 27-87 Luxembourg 79-69 -725 Mikko Mattila 25 28 Country GDP per capita (EU5=) Fair net transfers (euros/capita) Total costs (billion euros) Romania 24 679 5.24 Bulgaria 27 652 5.33 Lithuania 29 634 2.34 Latvia 33 598.44 Estonia 37 56.8 Poland 39 543 2. Slovakia 48 462 2.49 Hungary 5 444 4.45 Malta 55 398.6 Czech 59 362 3.72 Slovenia 69 27.54 Cyprus 85 26.8 Total 57.6 Mikko Mattila 25 29 5