Perusestimointi 5 Analyysiä survey-datalla Tee Suomen datalla jokin oma kokeilu käyttäen tätä mallia Esimerkki PISA 2006:sta SAS:lla

Transkriptio

1 Perusestimointi 5 Analyysiä survey-datalla Tee Suomen datalla jokin oma kokeilu käyttäen tätä mallia Esimerkki PISA 2006:sta SAS:lla proc surveymeans data=pisa.impuoecd; where cnt='fin' or cnt='deu' or cnt='usa' or cnt='can' or cnt='ita'; var meanscie meanread SCIEFUT WEALTH; domain cnt ST04Q01; title 'Yso: Keskiarvot viidelle maalle sukupuolen mukaan'; run; proc surveymeans data=pisa.impuoecd; where cnt='fin' or cnt='deu' or cnt='usa' or cnt='can' or cnt='ita'; var meanscie meanread SCIEFUT WEALTH; domain cnt ST04Q01; strata stratum; cluster schoolid; weight w_fstuwt; title 'Ositettu kaksiasteinen ryväsotanta: Keskiarvot viidelle maalle sukupuolen mukaan'; run; 127

2 Perusestimointi 6 Analyysiä survey-datalla Tehtävänäsi on vertailla tuloksia (seuraavat sivut) ja jos haluat voit laskea myös DEFF-luvut. Muistat että DEFF vertaa varianssiestimaattia kullakin asetelmalla yksinkertaisella satunnaisotannalla saatuun varianssiin, mikä nähdään ensimmäisestä tulosteesta. Toisesta tulosteesta taas saadaan PISA:n asetelman keskivirheet. Muistanet että DEFF on varianssien suhde. Tuloksissa on sen sijaan keskivirheet, joiden neliö on varianssi. Muuttujat: SCIEFUT Future-oriented science motivation PISA 2006 (WLE) WEALTH Family wealth PISA 2006 (WLE) meanscie Luonnontieteellisen osaamisen keskiarvo oppilastasolla meanread luetun tekstin ymmärtämisen keskiarvo oppilastasolla 128

3 Perusestimointi 7 Analyysiä survey-datalla Yso: Keskiarvot viidelle maalle sukupuolen mukaan 6 Domain Analysis: Country code 3-character Country code Std Error 3-character Variable Mean of Mean 95% CL for Mean ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Canada meanscie meanread SCIEFUT WEALTH Germany meanscie meanread SCIEFUT WEALTH Finland meanscie meanread SCIEFUT WEALTH Italy meanscie meanread SCIEFUT WEALTH United States meanscie meanread SCIEFUT WEALTH ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 129

4 Perusestimointi 8 Analyysiä survey-datalla Ositettu kaksiasteinen ryväsotanta: Keskiarvot viidelle maalle sukupuolen mukaan 8 Data Summary Number of Strata 135 Number of Clusters 2242 Number of Observations Sum of Weights Domain Analysis: Country code 3-character Country code Std Error 3-character Variable Mean of Mean 95% CL for Mean ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Canada meanscie meanread SCIEFUT WEALTH Germany meanscie meanread SCIEFUT WEALTH Finland meanscie meanread SCIEFUT WEALTH Italy meanscie meanread SCIEFUT WEALTH United States meanscie meanread SCIEFUT WEALTH

5 Perusestimointi 9 Analyysiä survey-datalla Yso: Keskiarvot viidelle maalle sukupuolen mukaan Domain Analysis: Gender Q4 Gender Std Error Q4 Variable Mean of Mean 95% CL for Mean ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Female meanscie meanread SCIEFUT WEALTH Male meanscie meanread SCIEFUT WEALTH ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Ositettu kaksiasteinen ryväsotanta: Keskiarvot viidelle maalle sukupuolen mukaan 8 Domain Analysis: Gender Q4 Gender Std Error Q4 Variable Mean of Mean 95% CL for Mean ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Female meanscie meanread SCIEFUT WEALTH Male meanscie meanread SCIEFUT WEALTH ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 131

6 Kolmiulotteinen pylväs- ym. diagrammi CAED 132

7 Analyysiä surveydatalla - Mallittamisesta 1 Tällä kurssilla ei ole käydä mallittamista läpi laajasti, joten kiinnostuneen on tarpeen osallistua muillekin kursseille ja/tai opiskella asioita kirjallisuudesta. Oikean datan kanssa kokeilu auttaa erityisen paljon avartamaan mallittamista. Edellä on jo kuvattu mallityypit. Kun mallittamisen käyttö on selvitetty, on mietittävä, mikä malli sopii ao. tilanteeseen. Vaihtoehtojahan on. Tässä keskustelen lähinnä lineaarisista tai linearisoiduista malleista. Linearisointi viittaa siihen, että jos aineisto ei näytä sellaiselta että lineaarinen malli sopisi (eli selitettävän jakaumafunktio on normaalinen ja yhteydet siitä selittäjiin ovat lineaarisia), niin on tehtävä operaatioita joilla nämä saadaan aikaan. Puhutaan yleistetyistä lineaarisista malleista (Generalized Linear Models). * Ohjelmistoissa on tällaiseen hyviä vaihtoehtoja, osa siten että sillä saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen. Tämä oli jo esillä vastaamisen mallittamisessa. * Toinen strategia on käyttää yleisempää ohjelmistoa, johon voi valita kuhunkin tilanteeseen sopivat linkit ja jakaumat (SAS:ssa Proc Genmod). 133

8 Analyysiä surveydatalla - Mallittamisesta 2 Kuten on jo todettu, uusissa ohjelmistoissa on mahdollista sisällyttää malliin myös ryväs jos sellainen on otanta-asetelmassa ja osite jos sellaista on käytetty. Kuten keskiarvoesimerkissä edellä on havaittu, ryväs-vaikutus on usein suurempi kuin osite-vaikutus. SAS:ssa voi nämä mallit tehdä SurveyLogistic:lla ja SPSS:ssä on logistic Complex Samples -ohjelmassa. Siten tämän tyypin malli on varsin helppo surveyaineistolla. SAS:ssa on myös SurveyREG jolla saa tavallisen lineaarisen mallin estimaatit oikein keskivirheiden osalta. Se toimii ihan samoin kuin perussas:in GLM jossa on kuitenkin vain otospainon mahdollisuus. SPSS:ssä GLM:ää vastaa General Linear Model joka on samalla nimellä sekä perusspss:n että Complex Samples:n puolella. Kysehän on monimuuttujaisesta regressiomallista, jossa on yksi selitettävä ja voit asettaa selittäjiksi sekä jatkuvia että luokiteltuja (kategorisia) muuttujia. Muuttujan luonne on ilmaistava (SAS:ssa asettamalla luokitellut CLASS-ryhmään, SPSS:ssä asettamalla nämä Factorslaatikkoon). 134

9 Analyysiä survey-datalla - Mallittamisesta 3 Kuten edeltä ilmenee, ei kaikkiin ohjelmistoihin ole SAS:ssa eikä SPSS:ssä kaikkia monimutkaisen surveyn optioita, mutta painopuuttuja on eli minimi. Voi olla myös niin, ettei aineistossa ole niitä, vaikka otanta olisi perustunut ryppäisiin yms. Miten tällöin menetellä. Piste-estimointi siis tulee oikein. Mieti vielä, MITEN? Entäpä keskivirheet, luottamusvälit ja p-arvot? En kykene antamaan tyhjentävää vastausta, mutta jotakin: - Ole konservatiivinen eli älä vedä suuria johtopäätöksiä vähäisestä tilastollisesta merkitsevyydestä. - Arvioi vaikkapa SurveyMeans:n kautta kuinka suuri voisi DEFF olla. On onneksi usein niin että mallissa DEFF on pienempi (lähempänä ykköstä) kuin keskiarvolaskelmissa, ja erityisesti jos otantaasetelmamuuttujia on mukana mallin selittäjissä tai muissa osioissa. 135

10 Analyysiä survey-datalla - Malliesimerkit 1 Kurssin lopun mallitusharjoitukset tehdään yleisellä lineaarisella (regressio)mallilla. Teknisesti muut ohjelmat (vaikkapa logit tai probit tai monitasovaihtoehdot) toimivat samaan tapaan. Yleinen lineaarinen tilanne on ehkä yleisin tilanne eikä välttämättä monimutkainen, joten valinta tehtiin tästä syystä. Muilla kursseilla voit laajentaa tietämystäsi, myös teoreettiselta kannalta. Regressiotyyppisessä mallissa selitettävän tulee olla jatkuva muuttuja tai sellaisena käsitelty. ESS:ssä on esimerkiksi runsaasti järjestysasteikollisia muuttujia joita voi siten asettaa selitettäviksi malliin ja etsiä selittäjät teorian ja yleisen tietämyksen mukaan. PISA:n osaamismuuttujat näyttävät jatkuvilta vaikka ovat nekin järjestysasteikollisia. Ne ja monet muut sopivat siis selitettäviksi. Seuraavaksi otan esimerkin kummastakin. Ensin PISA. 136

11 Analyysiä survey-datalla - Malliesimerkit 2 (PISA) Otan esimerkkiin melkoisen yksinkertaisen selitettävän eli PISA2006:n päämuuttujan = luonnontieteellisen osaamisen. Koska se on laskettua 5 eri uskottavan eli osin imputoidun osaamisarvon keskiarvona, se on nimetty pvmeanscie Aloitan mallittamisen melko nollasta asettamatta malliin selittäjiä ollenkaan. SAS-ohjelma on seuraava: proc surveyreg data=pisa.fi; model pvmeanscie = /solution; cluster schoolid; strata stratum; weight w_fstuwt; title 'Luonnontieteellisen osaamisen malli 1: vakio'; run; Näet että otanta-asetelmatekijät on sijoitettu malliin samoin kuin edellä SURVEYMEANS:ssa. 137

12 Analyysiä survey-datalla - Malliesimerkit 3 (PISA) Luonnontieteellisen osaamisen malli 1: vakio The SURVEYREG Procedure Regression Analysis for Dependent Variable pvmeanscie Data Summary Number of Observations 4714 Sum of Weights Weighted Mean of pvmeanscie Weighted Sum of pvmeanscie Design Summary Number of Strata 12 Number of Clusters 155 Fit Statistics R-square Root MSE Denominator DF 143 Tests of Model Effects Effect Num DF F Value Pr > F Model 0.. Intercept <.0001 NOTE: The denominator degrees of freedom for the F tests is 143. Estimated Regression Coefficients Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 Tällainen pohjamalli voi olla hassu mutta näet kuitenkin että se tuottaa Intercept:n eli vakion joka on tasan sama kuin keskiarvo. Lisäksi saat keskivirheen (noin 2 pistettä) ja tavalliset tunnusluvut jotka olivat täysin odotetut 138

13 Analyysiä survey-datalla - Malliesimerkit 4 (PISA) Tässä on kaksi selittäjää, taustatekijöitä. Nyt selitysasteella on mieltä, päinvastoin kuin edellisessä. Vanhempien koulutusvuosien määrä PARED on merkittävä selittäjä. Onko sukupuoli? Huom. Tuloste on supistettu. Fit Statistics R-square Root MSE Denominator DF 143 Class Level Information Class Variable Label Levels Values ST04Q01 Gender Q4 2 Female Male Tests of Model Effects Effect Num DF F Value Pr > F Model <.0001 Intercept <.0001 ST04Q PARED <.0001 NOTE: The denominator degrees of freedom for the F tests is 143. Estimated Regression Coefficients Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 ST04Q01 Female ST04Q01 Male PARED <

14 Analyysiä survey-datalla - Malliesimerkit 5 (PISA) Luonnontieteellisen osaamisen malli 1: koulumuuttujia myös R-square The SURVEYREG Procedure Regression Analysis for Dependent Variable pvmeanscie Estimated Regression Coefficients Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 ST04Q01 Female ST04Q01 Male PARED <.0001 student_discussion student_debate <.0001 student_ideas teacher_explain <.0001 practical_work <.0001 Tässä on estimaatteja kun malliin on lisätty joukko koulutason muuttujia eli koulun opetuksen toimintatapoja mutta oppilaiden näkemyksen mukaan. Et ehkä ymmärrä täysin muuttujan merkitystä mutta nimi on annettu kuvaamaan itse asiaa ja selittävän muuttujan skaala on [0, 100]. 140

15 Analyysiä survey-datalla - Malliesimerkit 1 (ESS) Tässä osastossa kokeilen mallittaa ESS-datalla 15+ -ikäisten onnellisuutta, mikä on viime vuosina noussut kiintoisaksi aiheeksi taloustieteilijöiden, psykologien ja sosiaalitieteilijöiden tutkimuksissa. En ratkaise tässä tätä vaan esitän muutamia hahmotuksia mallin rakentamiseksi. Lue lisää vaikkapa Blanchflowerin, Oswaldin, Easterlinin ja Narsin julkaisuista. ESS-datasta tuotin painottamattoman frekvenssijakauman pohjakatselua ja mallin hahmottelua varten. Tein alkuperäiseen skaalaan [0,10] lineaarisen muunnoksen siten että tässä skaala on [0,100]. Painotettu keskiarvo = 71,7 ja cv= 28,2 141

16 Analyysiä survey-datalla - Malliesimerkit 2 (ESS) Onnellisuusjakauma ei ole erityisen normaalinen mutta tässä en kanna siitä huolta, koska tutkimusten valtavirtakaan ei ole niin tehnyt. Mieti kuitenkin voisitko kokeilla jotain muuta mallia? Jo edellisestä esimerkistä olet oppinut että jos selität onnellisuutta maalla, saat maakohtaiset onnellisuuden keskiarvot (vakioon kun lisäät maan estimaatin). Vastaavasti jos selität onnellisuutta muuttujien maa = CNTRY ja ESS-kierroksen = ESSROUND vuorovaikutusmuuttujalla, saat kunkin maan ESS-kierroksittaiset keskiarvot. Tässä en näin tehnyt vaan käytin ESS-kierrosta 4 jossa on siis mukana 18 maata tässä vaiheessa. Otin kurssilaisten esille tuomista muuttujista muutaman sekä lisäksi perinteisiä. Näiden tarkempi kuvaus esitetään SAS:n avulla. 142

17 Analyysiä survey-datalla - Malliesimerkit 3 (ESS) Tests of Between-Subjects Effects b Dependent Variable:onnellisuus Type III Sum of Partial Eta Tulkitse tuloksia tällä yleisellä tasolla sekä jatka seuraavan sivun tarkemman kuvauksen kanssa. Source Squares df Mean Square F Sig. Squared Corrected Model 1,087E ,066 81,106,000,150 Intercept , , ,438,000,114 siviilisaaty , ,721 56,824,000,025 INWTM 25, ,112,081,777,000 vas_oik 20542, ,628 65,910,000,003 ika , , ,118,000,010 ika 78899, , ,144,000,013 rukoilu 12, ,264,039,843,000 personal , ,701 62,923,000,003 liika_etu 552, ,149 1,772,183,000 CNTRY , ,739 96,779,000,073 GNDR 5837, ,948 18,731,000,001 INWMME 5629, ,914 1,806,054,001 Error , ,678 Total 1,321E Corrected Total , Tässä on kaikkien selittäjien merkitsevyyttä ym kuvaava SPSS-tuloste. Poikkeaa SAS:n vastaavasta mutta samat asiat ovat mukana. a. R Squared =,150 (Adjusted R Squared =,148) b. Weighted Least Squares Regression - Weighted by Design weight 143

18 Dependent Variable:onnellisuus 95% Confidence Interval Tästä estimaattitason tulosteesta on jätetty kaksi muuttujaa pois koska oli vaikeuksia saada tuloste jonnekin mahtumaan. Nytkin sulla lienee vaikeuksia hahmottaa kaikkea hyvin. Yritä kuitenkin. Muuttujan nimi paria poikkeusta lukuunottamatta asetettu mahdollisimman hyvin kuvaamaan sen luonnetta. Skaalat ovat usein [0,100] kuten rukoilu jossa iso arvo merkitsee tiheämpää rukoilemista ja arvo = 0 ettei koskaan rukoile. Parameter B Std. Error t Sig. Lower Bound Upper Bound Partial Eta Squared Intercept 72,451 1,166 62,154,000 70,167 74,736,158 INWTM,001,005,186,853 -,008,010,000 vas_oik,055,006 9,563,000,044,066,004 ika2,003,000 7,353,000,002,004,003 ika -,326,035-9,264,000 -,394 -,257,004 rukoilu,004,003 1,037,300 -,003,010,000 personal20,031,004 7,165,000,022,039,002 liika_etu,004,005,773,439 -,006,014,000 [CNTRY=BE] 7,712,795 9,702,000 6,154 9,270,005 [CNTRY=BG] -10,510,783-13,419,000-12,046-8,975,009 [CNTRY=CH] 10,709,724 14,785,000 9,289 12,128,011 [CNTRY=CY] 9,880,841 11,750,000 8,232 11,528,007 [CNTRY=DE] 5,357,721 7,426,000 3,943 6,771,003 [CNTRY=DK] 14,106,853 16,541,000 12,434 15,777,013 [CNTRY=EE],599,887,675,500-1,141 2,338,000 [CNTRY=ES] 9,722,748 13,004,000 8,257 11,188,008 [CNTRY=FI] 11,532,740 15,591,000 10,082 12,982,012 [CNTRY=FR] 4,844,739 6,554,000 3,395 6,292,002 [CNTRY=GB] 6,660,705 9,443,000 5,277 8,042,004 [CNTRY=NO] 11,279,813 13,869,000 9,685 12,873,009 [CNTRY=PL] 4,516,828 5,451,000 2,892 6,139,001 [CNTRY=PT],913,774 1,180,238 -,604 2,431,000 [CNTRY=RU] -5,272,809-6,520,000-6,857-3,687,002 [CNTRY=SE] 10,008,782 12,791,000 8,474 11,541,008 [CNTRY=SI] 6,125,903 6,782,000 4,355 7,895,002 [CNTRY=SK] 0 a [GNDR=1] -1,004,243-4,137,000-1,480 -,528,001 [GNDR=2] 0 a......

19 Harjoitusosio Edellä on jo tuotu esille harjoitusmahdollisuuksia. Omakohtaiset mutta mikroluokassa ohjatut harjoitukset sisältävät seuraavaa: -Näytän Nielsenin tiedonkeruussa käytettävän skannerin toimintatavan. -Itsekukin tekee estimointeja Irak-datalla koskien kuolleiden lukumääriä yms. estimaatteja koko maan tasolla; mukana voi olla taustamuuttujia. Nyt panostetaan keskivirheisiin ja luottamusväleihin edellisessä vaiheessa tehdyn pohjalta. -Itsekukin tekee minimissään kolmenlaisten estimointien kokeilun PISAn Suomi-datalla itse valitsemilleen muuttujille ja mahdollisille taustamuuttujille: (i) keskiarvoja, (ii) frekvenssejä, (iii) monimuuttujainen regressiomalli. Keskivirheet eri tavoilla laskettuna (huonommilla ja paremmilla) ovat tärkeitä myös. SAS-ajojen ohjeet on edellä näytetty. Seuraavilla sivuilla on lähtökohdat SPSS:lle. 145

20 SPSS-ajon lähtökohdat 1 146

25 SPSS-ajon lähtökohdat 6 Hieman tuloksiakin tässä, tulkitse 151