Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Samankaltaiset tiedostot
Frequencies. Frequency Table

Kvantitatiivinen genetiikka moniste s. 56


Teema 3: Tilastollisia kuvia ja tunnuslukuja

Harjoittele tulkintoja

SPSS ohje. Metropolia Business School/ Pepe Vilpas

Teema 10: Regressio- ja varianssianalyysi

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

TUTKIMUSOPAS. SPSS-opas

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

SPSS-perusteet. Sisältö

SPSS OPAS. Metropolia Liiketalous

Perusnäkymä yksisuuntaiseen ANOVAaan

2. Aineiston kuvailua

Kvantitatiiviset menetelmät

Tilastotieteen johdantokurssin harjoitustyö. 1 Johdanto Aineiston kuvaus Riippuvuustarkastelut...4

SPSS-ohjeita. Metropolia Pertti Vilpas

Usean selittävän muuttujan regressioanalyysi

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

MONIMUUTTUJAMENETELMISTÄ RAKENNEYHTÄLÖMALLINNUKSEEN MUUTTUJIEN NORMAALISUUS. Statistics

Ohjeita kvantitatiiviseen tutkimukseen

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

RISTIINTAULUKOINTI JA Χ 2 -TESTI

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

MTTTP1, luento KERTAUSTA

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

MTTTP1, luento KERTAUSTA

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

1. a) Luettele hyvän kvantitatiivisen tutkimuksen perusvaatimukset. b) Miten tutkimusraportissa arvioit tutkimuksen luotettavuutta?

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Yleistetyistä lineaarisista malleista

Harjoitus 9: Excel - Tilastollinen analyysi

4.1 Frekvenssijakauman muodostaminen tietokoneohjelmilla

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Kandidaatintutkielman aineistonhankinta ja analyysi

Tilastolliset ohjelmistot A. Pinja Pikkuhookana

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

, Määrälliset tutkimusmenetelmät 2 4 op

vkp 4*(1+0)/(32-3)-1= vkp 2*(1+0)/(32-3)=

Tutkimus peliohjaimen käytöstä Super Smash Bros. Melee pelissä. Aleksanteri Karanka

Ohjeita tilastollisen tutkimuksen toteuttamiseksi SPSS for Windows -ohjelmiston avulla

Demotehtävä + liitteet (muuttujaluettelo, käytettävät analyysimenetelmät hypoteeseineen, osa SPSS-ohjelman tulostuslistasta)

MTTTP5, luento Luottamusväli, määritelmä

Kvantitatiiviset tutkimusmenetelmät maantieteessä

VIIKON VINKKI: Kannattaa tutustua ensin koko tehtävänantoon ja tehdä tehtävä vasta sitten.

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat:

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

A250A0050 Ekonometrian perusteet Tentti

TKMS7a-f/LRS20a-f/MAS2/KVS2/TMS82a-f/JOM/TJM/YRM Monimuuttujamenetelmien soveltaminen taloustieteissä. Tentti

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Raija Leppälä. Ohjeita tilastollisen tutkimuksen toteuttamiseksi IBM SPSS Statistics -ohjelmiston avulla

Määrällisen aineiston esittämistapoja. Aki Taanila

Regressioanalyysi. Kuusinen/Heliövaara 1

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

Esimerkki 1: auringonkukan kasvun kuvailu

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Pertti Vilpas Metropolia 1. KVANTITATIIVINEN TUTKIMUS

MTTTP1, luento KERTAUSTA

Johdatus regressioanalyysiin. Heliövaara 1

Menestyminen valintakokeissa ja todennäköisyyslaskussa

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

4 Riippuvuus 1. Esimerkki 4. Korrelaation laskeminen SPSS-ohjelmalla rajatusta aineistosta

BIOSTATISTIIKKAA ESIMERKKIEN AVULLA. Kurssimoniste (luku 4) Janne Pitkäniemi. Helsingin Yliopisto Kansanterveystieteen laitos

... Vinkkejä lopputyön raportin laadintaan. Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset)

Kulttuuri-, mielipide- ja tiedelehtien liitto Kultti ry:n jäsenkyselyyn osallistui 75 lehteä kesällä 2005

Muuttujien väliset riippuvuudet esimerkkejä

Sisällysluettelo 6 VARIANSSIANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

ATH-aineiston tilastolliset analyysit SPSS/PASW SPSS analyysit / Risto Sippola 1

Tilastomenetelmien lopputyö

E80. Data Uncertainty, Data Fitting, Error Propagation. Jan. 23, 2014 Jon Roberts. Experimental Engineering

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

SELVITTÄJÄN KOMPETENSSISTA

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

Viherseinien efekti Tilastoanalyysi

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Ratkaisuja luvun 15 tehtäviin

II Tilastollisen aineiston ja analyysin edellytysten tarkistaminen

Transkriptio:

Data-analyysi II [Type the document subtitle] Simo Kolppo 26.3.2014 Sisällysluettelo Johdanto... 1 Tutkimuskysymykset... 1 Aineistojen esikäsittely... 1 Economic Freedom... 1 Nuorisobarometri... 2 Aineistojen analysointi... 2 Economic Freedom... 2 Kaupan vapauden ja vapauden korruptiosta välinen yhteys... 3 Regressioanalyysi... 5 Nuorisobarometri... 9 Johtopäätökset... 10

Johdanto Tässä harjoitustyössä käsitellään kahta eri aineistoa: Nuorisobarometri vuodelta 2010 ja Economic Freedom vuodelta 2013. Nuorisobarometrissa on selvitetty 15-29 -vuotiaiden asenteita ja mielipiteitä ulkopolitiikkaa ja kansainvälisyyttä koskevissa asioissa. Aineistossa on 232 muuttujaa ja 2100 havaintoa. Economic Freedom aineistossa on selvitetty 187 eri maan taloudellisia tekijöitä sekä muita siihen liittyviä tekijöitä, kuten esimerkiksi korruption määrää. Tutkimuskysymykset Economic Freedom aineistosta päätin tarkastella kaupan vapauden (trade freedom) vaikutusta vapauteen korruptiosta (freedom from corruption). Nuorisobarometrista halusin tarkastella epävarmuuden tai turvattomuuden tunnetta maahanmuuttajien määrän lisääntymisestä (k2_2) ja miten se riippuu vastaajan iästä (t2). Aineistojen esikäsittely Economic Freedom Aloitin kaupan vapaus muuttujan tarkastelun selvittämällä miten puuttuvat vastaukset on merkitty aineistoon. Selvisi, että 185:stä kuudelta maalta puuttuu tämä vastaus (Analyze -> Descriptive Statistics -> Frequencies), joten näyttäisi, että puuttuvat vastaukset on merkitty aineistoon oikein. Halusin vielä tarkempia tietoja vastausten arvoista, keskiarvoista sekä hajonnasta (Analyze -> Descriptive Statistics -> Descriptives). Trade Freedom Statistics N Valid 179 Missing 6 Descriptive Statistics N Minimum Maximum Mean Std. Deviation Trade Freedom 179 33,40 90,00 75,0196 11,14300 Valid N (listwise) 179 Nähdään, että suurin taloudellisen vapauden arvo on 90 ja pienin on 33,40. Suurin arvo kuuluu Liechtensteinille ja pienin Seyshelleille. Keskiarvo on kohtalaisen lähellä maksimia, joten arvot ovat selvästi painottuneet asteikon yläpäähän. Statistics Selvitin vielä vastaavat luvut valtioiden vapaudesta korruptiosta ja sain seuraavat tulokset. Ainoa valtio, jolta puuttuu tieto vapaudesta korruption suhteen on Liechtenstein. Freedom from Corruption N Valid 184 Missing 1 1

Descriptive Statistics N Minimum Maximum Mean Std. Deviation Freedom from Corruption 184,00 95,00 39,7772 21,15670 Valid N (listwise) 184 Pienin arvo on Belizellä ja suurin arvo Uudella Seelannilla. Tämän aineiston kohdalla ei sen enempää tarvinnut esikäsittelyä tehdä. Nuorisobarometri Päätin jakaa Ikämuuttujan (t2) viiteen eri ikäluokkaan analysoinnin helpottamiseksi. Tämä tapahtui seuraavalla komennolla: RECODE t2 (15 thru 17=1)(18 thru 20=2)(21 thru 23=3)(24 thru 26=4)(27 thru 29=5) INTO ikaluokat. VALUE LABELS ikaluokat 1. "15-17" 2. "18-20" 3. "21-23" 4. "24-26" 5. "27-29". Piirsin uusista ikäluokista kuvaajan havainnollistamaan kunkin ikäluokan osuutta vastaajista (Graphs -> Chart Builder -> Simple Bar). Kuvaajasta nähdään, että kyselyyn vastaajat ovat jakautuneet eri ikäluokkiin melko tasaisesti. Kuva 1: Histogrammi ikäluokista Aineistojen analysointi Economic Freedom Tarkastellaan aluksi kaupan vapaus muuttujan jakaumaa (Graphs -> Chart Builder -> Simple Bar ja asetuksista Show Distribution Curve). 2

Kuva 2: Kaupan vapauden histogrammi Huomataan, että jakauma poikkeaa jonkin verran normaalijakaumasta. Erityisesti 90:n kohdalla on iso poikkeama. Lähemmällä tarkastelulla selvisi, että Singaporella, Macaulla, Liechtensteinilla ja Hong Kongilla oli kaikilla kaupan vapaus arvo tasan 90. Lisäksi usealla maalla tämä arvo oli niin lähellä 90:tä, että nekin laskettiin mukaan tähän normaalijakaumasta poikkeavaan arvoon. Päätin piirtää kaupan vapaudesta vielä todennäköisyyspaperikuvan havainnollistamaan paremmin normaalijakaumasta poikkeavia arvoja. Asteikon yläpäässä olevat poikkeavat arvot selvisivätkin jo. Asteikon alapäässä olevat normaalijakaumasta poikkeavat arvot kuuluivat Iranille, Malediiveille, Seyshelleille, Vanuatulle ja Bahamasaarille. Näille poikkeaville arvoille löytyy kuitenkin luonnollinen selitys, joten ne saavat jäädä aineistoon. Kuva 3: Kaupan vapaus todennäköisyyspaperilla 3

Tarkastellaan vielä vastaavia kuvaajia vapaudesta korruptiosta -muuttujasta. Histogrammin perusteella vapaus korrtuptiosta muuttujan jakauma ei näyttäisi olevan kovin hyvin normaalisti jakautunut. Kuva 4: Vapaus korruptiosta muuttujan histogrammi Tarkastellaan todennäköisyyspaperikuvasta, että minkä maiden arvot poikkeavat merkittävästi normaalijakaumasta. Eniten normaalijakaumasta poikkeavat arvot sijjaitsevat kuvaajan alapäässä ja ne kuuluvat Belizelle, Pohjois-Korealle ja Somalialle. Mielenkiintoisesti Belizen arvo oli itse asiassa 0, joten ilmeisesti Belize on täysin korruptoitunut maa, sillä Liechtensteinilla oli tässä muuttujassa puuttuva arvo, joten nolla ei tässä tapauksessa oletettavasti tarkoita puuttuvaa arvoa. Kuva 5: Vapaus korruptiosta todennäköisyyspaperilla 4

Kaupan vapauden ja vapauden korruptiosta välinen yhteys Tarkastellaan maan vapauden ja vapauden korruptiosta välistä yhteyttä piirtämällä hajontakuva ja siihen regressiosuora (Graphs -> Chart Builder -> Simple Scatter, jonka jälkeen kuvaan lisätään regressiosuora valitsemalla Add Fit Line at Total). Kuva 6: Kaupan vapauden ja vapauden korruptiosta hajontakuva Hajontakuvan perusteella jonkinasteinen korrelaatio kaupan vapauden ja vapauden korruptiosta välillä on olemassa. Lasketaan Correlations korrelaatiokerroin asian Trade Freedom from vahvistamiseksi (Analyze -> Correlate Freedom Corruption -> Bivariate). Korrelaatio on 0,450, joten se on tilastollisesti merkittävä positiivinen korrelaatio. Trade Freedom Freedom Pearson Correlation 1,450 ** Sig. (2-tailed),000 N 179 178 Pearson Correlation,450 ** 1 from Corruption Sig. (2-tailed),000 N 178 184 **. Correlation is significant at the 0.01 level (2-tailed). Regressioanalyysi Tehdään regressioanalyysi kaupan vapauteen ja vapauteen korruptiosta (Analyze -> Regression -> Linear). Koska muuttujilla on vahva riippuvuus, niin niiden pitäisi soveltua hyvin regressioanalyysiin. Selitettävänä muuttujana käytän vapautta korruptiosta ja selittävänä muuttujana kaupan vapautta. 5

Mallin yhteenvedosta nähdään, että selitysaste on 20,3%. Kaupan vapaus selittää vapautta korruptiosta siis noin viidesosan eli ei erityisen hyvin, mutta kuitenkin merkittävästi. Model Summary Model R R Square Adjusted R Square Std. Error of the Estimate 1,450 a,203,198 18,82729 a. Predictors: (Constant), Trade Freedom ANOVA a Model Sum of Squares df Mean Square F Sig. 1 Regression 15871,506 1 15871,506 44,776,000 b Residual 62386,185 176 354,467 Total 78257,691 177 a. Dependent Variable: Freedom from Corruption b. Predictors: (Constant), Trade Freedom Anova-taulukosta nähdään, että p-arvo on pyöristynyt nollaksi. P-arvo kertoo, että pystytäänkö selittävällä muuttujalla selittämään selitettävän muuttujan vaihtelua. Nollaksi pyöristynyt p-arvo tarkoittaa, että selittävällä muuttujalla voidaan selittää selitettävän muuttujan vaihtelua. Coefficients a Unstandardized Coefficients Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant) -23,261 9,643-2,412,017 Trade Freedom,852,127,450 6,691,000 a. Dependent Variable: Freedom from Corruption 6

Kuva 7: Jäännösvaihtelukuva Jäännösvaihtelukuvassa suurin osa arvoista näyttäisi sijoittuvan sovitteen alapuolelle, mutta jakauma ei kuitenkaan ole täysin yksipuolinen. Kuvassa on lisäksi harhaisuutta, jonka aiheuttaa selvästi muista arvoista eroavat arvot. Maat, joille nämä arvot kuuluvat todettiinkin jo aiemmin ja näitä olivat muun muassa Seyshellit ja Bahamasaaret. Kuvien 8 ja 9 perusteella jakauma ei täysin noudata normaalijakaumaa, mutta ei kuitenkaan poikkea siitä kovinkaan paljoa. Mielestäni voidaan todeta, että jakauma muistuttaa normaalijakaumaa tarpeeksi paljon, jotta voidaan todeta mallin olevan pätevä. Kuva 8: Jäännösvaihtelu todennäköisyyspaperilla 7

Kuva 9: Jäännösvaihtelun histogrammi 8

Nuorisobarometri Ristiintaulukointi Tarkastellaan ensin ikäluokan vaikutusta maahanmuuttajien määrän lisääntymisestä aiheutuneen epävarmuuden tai turvattomuuden tunteeseen ristiintaulukoimalla muuttujat. Ennen ristiintaulukoimista poistin kuitenkin EOS vastaukset komennolla: MISSING VALUES k2_2(6). Ristiintaulukoimisesta (Analyze -> Descriptive Statistics -> Crosstabs) sain seuraavanlaiset taulukot. Ristiintaulukoinnin perusteella enemmistö vastaajista ei koe maahanmuuttajien määrän lisääntymisen aiheuttavan epävarmuutta tai turvattomuutta ollenkaan tai vain melko vähän. Ikäluokista 21-23 vuotiaat kokevat vähiten epävarmuutta tai turvattomuutta maahanmuuttajien määrän lisääntymisestä. Vastaajia, jotka kokevat epävarmuuden tai turvattomuuden lisääntyneen maahanmuuttjien takia erittäin paljon on jokaisessa ikäluokassa vain hyvin pieni osa. Suurin tällainen vastaajaryhmä löytyy kuitenkin vanhimmasta ikäluokasta eli 27-29 vuotiaista. Count Maahanmuuttajien määrän lisääntyminen aiheuttama epävarmuus tai turvattomuus (k2_2). Erittäin vähän tai ei ollenkaan Melko vähän Ei paljon eikä vähän Melko paljon Erittäin paljon Total Ikä viidessä 15-17 101 86 82 24 6 299 luokassa 18-20 150 107 110 53 14 434 21-23 204 107 113 13 3 440 24-26 166 93 57 25 11 352 27-29 214 136 105 61 20 536 Total 835 529 467 176 54 2061 % within Ikä viidessä luokassa Maahanmuuttajien määrän lisääntyminen aiheuttama epävarmuus tai turvattomuus (k2_2). Erittäin vähän tai ei ollenkaan Melko vähän Ei paljon eikä vähän Melko paljon Erittäin paljon Total Ikä 15-17 33,8% 28,8% 27,4% 8,0% 2,0% 100,0% viidessä 18-20 34,6% 24,7% 25,3% 12,2% 3,2% 100,0% luokassa 21-23 46,4% 24,3% 25,7% 3,0% 0,7% 100,0% 24-26 47,2% 26,4% 16,2% 7,1% 3,1% 100,0% 27-29 39,9% 25,4% 19,6% 11,4% 3,7% 100,0% Total 40,5% 25,7% 22,7% 8,5% 2,6% 100,0% 9

Tein vielä lisäksi taulukon eri ikäryhmien vastausten keskiarvoista havainnollistamaan paremmin eri ikäryhmien mielipiteitä maahahnmuuttajien määrän lisääntymisestä. Report [k2_2] Entä kuinka paljon koet epävarmuutta tai turvattomuutta seuraavien asioiden takia? Maahanmuuttajien määrän lisääntyminen Ikä viidessä luokassa Mean N Std. Deviation 15-17 2,16 299 1,045 18-20 2,25 434 1,148 21-23 1,87 440,941 24-26 1,93 352 1,094 27-29 2,14 536 1,171 Total 2,07 2061 1,098 Kuva 10: Histogrammi kysymyksestä k2_2 Seuraavaksi piirsin kaikista kysymyksen Kuinka paljon koet epävarmuutta tai turvattomuutta seuraavien asioiden takia? vastauksista histogrammin ja lisäsin siihen normaalikäyrän. Histogrammista nähdään, että vastaukset poikkeavat jonkin verran normaalijakaumasta, sillä suuri osa vastauksista painottuu jakauman alapäähän. 10

Johtopäätökset Economic Freedom Tämän aineiston tutkimuskysymys oli siis, että vaikuttaako kaupan vapaus maan vapauteen korruptiosta. Tutkimuskysymyksessä päädyin siihen tulokseen, että kaupan vapaus vaikuttaa merkittävästi maan vapauteen korruptiosta. Tämä lopputulos käykin hyvin järkeen ja olikin jossain määrin odotettavissa. Kuitenkin olisi voinut tutkia vielä laajemmin muita vapauteen korruptiosta vaikuttavia tekijöitä, sillä selvästi siihen vaikuttaa vielä monet muutkin tekijät. Nuorisobarometri 11