Perusestimointi 5 Analyysiä survey-datalla Tee Suomen datalla jokin oma kokeilu käyttäen tätä mallia Esimerkki PISA 2006:sta SAS:lla

Samankaltaiset tiedostot
Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

A250A0050 Ekonometrian perusteet Tentti

Health 2000/2011 Surveys. Statistical Analysis using SAS and SAS-Callable SUDAAN Packages Esa Virtala.

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

(78143) Syksy 2009 TEEMAT 3 & 4. Risto Lehtonen Teema 3 ERITYISKYSYMYKSIÄ. Risto Lehtonen 2

VARIANSSIANALYYSI ANALYSIS OF VARIANCE


Otanta-aineistojen analyysi

ATH-aineiston tilastolliset analyysit SPSS/PASW SPSS analyysit / Risto Sippola 1

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 4: Asetelmaperusteinen monimuuttuja-analyysi

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

Helsingin yliopisto Sosiaalitieteiden laitos Seppo Tammikuu 2013 Surveymetodiikan koe

Opetus talteen ja jakoon oppilaille. Kokemuksia Aurajoen lukion tuotantoluokan toiminnasta Anna Saivosalmi

Otanta-aineistojen analyysi Kevät 2010 TEEMA 5: Tilastollinen mallinnus II Mallit, analyysimenetelmiä ja ohjelmia, PISA-esimerkki

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Perusnäkymä yksisuuntaiseen ANOVAaan

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

voidaan hylätä, pienempi vai suurempi kuin 1 %?

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

ATH-koulutus: Stata 11 THL ATH-koulutus / Tommi Härkänen 1

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

Frequencies. Frequency Table

SPSS-perusteet. Sisältö

Kvantitatiiviset menetelmät

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?

Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista.

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Kvantitatiivinen genetiikka moniste s. 56

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

MTTTP5, luento Luottamusväli, määritelmä

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

pisteet Frekvenssi frekvenssi Yhteensä

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Estimaattoreiden asetelmaperusteinen

Harjoittele tulkintoja

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Ohjeita kvantitatiiviseen tutkimukseen

Load

2. Tietokoneharjoitukset

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

SEM1, työpaja 2 ( )

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

805306A Johdatus monimuuttujamenetelmiin, 5 op

Viherseinien efekti Tilastoanalyysi

Opiskelija viipymisaika pistemäärä

Otantamenetelmät (78143) Syksy 2008 OSA 2: Malliavusteinen estimointi. Risto Lehtonen

Hierarkkisen aineiston mallintaminen ja otanta/pre-kurssi

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Suhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä

Liite artikkeliin Intohimo tasa-arvoon

Otantamenetelmät. Syksy

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

Tommi Härkänen, Teppo Juntunen, Eero Lilja Analyysiohjeita Maahanmuuttajien terveys- ja hyvinvointitutkimusaineiston käsittelemiseksi.

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs)

Usean selittävän muuttujan regressioanalyysi

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Otanta-aineistojen analyysi

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). tulee katettua (complete replicate). Havaintojen

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Laskelmia puoluekannatuksesta Seppo

SPSS ohje. Metropolia Business School/ Pepe Vilpas

ABHELSINKI UNIVERSITY OF TECHNOLOGY

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

E80. Data Uncertainty, Data Fitting, Error Propagation. Jan. 23, 2014 Jon Roberts. Experimental Engineering

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

1 TILASTOJEN KÄYTTÖ 7. Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10

Painotusmenetelmät survey-datalle Helsingin yliopiston lyhytkurssi, kevät 2009 Seppo Laaksonen

Tavoite on eliminoida sen vaikutus koetuloksista. 4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Eliminointimenetelmiä:

RISTIINTAULUKOINTI JA Χ 2 -TESTI

Johdatus regressioanalyysiin. Heliövaara 1

Graph. COMPUTE x=rv.normal(0,0.04). COMPUTE y=rv.normal(0,0.04). execute.

Regressioanalyysi. Vilkkumaa / Kuusinen 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

Harjoitus 9: Excel - Tilastollinen analyysi

Sisällysluettelo 6 VARIANSSIANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Harjoitukset 4 : Paneelidata (Palautus )

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Teema 8: Parametrien estimointi ja luottamusvälit

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Transkriptio:

Perusestimointi 5 Analyysiä survey-datalla Tee Suomen datalla jokin oma kokeilu käyttäen tätä mallia Esimerkki PISA 2006:sta SAS:lla proc surveymeans data=pisa.impuoecd; where cnt='fin' or cnt='deu' or cnt='usa' or cnt='can' or cnt='ita'; var meanscie meanread SCIEFUT WEALTH; domain cnt ST04Q01; title 'Yso: Keskiarvot viidelle maalle sukupuolen mukaan'; run; proc surveymeans data=pisa.impuoecd; where cnt='fin' or cnt='deu' or cnt='usa' or cnt='can' or cnt='ita'; var meanscie meanread SCIEFUT WEALTH; domain cnt ST04Q01; strata stratum; cluster schoolid; weight w_fstuwt; title 'Ositettu kaksiasteinen ryväsotanta: Keskiarvot viidelle maalle sukupuolen mukaan'; run; 127

Perusestimointi 6 Analyysiä survey-datalla Tehtävänäsi on vertailla tuloksia (seuraavat sivut) ja jos haluat voit laskea myös DEFF-luvut. Muistat että DEFF vertaa varianssiestimaattia kullakin asetelmalla yksinkertaisella satunnaisotannalla saatuun varianssiin, mikä nähdään ensimmäisestä tulosteesta. Toisesta tulosteesta taas saadaan PISA:n asetelman keskivirheet. Muistanet että DEFF on varianssien suhde. Tuloksissa on sen sijaan keskivirheet, joiden neliö on varianssi. Muuttujat: SCIEFUT Future-oriented science motivation PISA 2006 (WLE) WEALTH Family wealth PISA 2006 (WLE) meanscie Luonnontieteellisen osaamisen keskiarvo oppilastasolla meanread luetun tekstin ymmärtämisen keskiarvo oppilastasolla 128

Perusestimointi 7 Analyysiä survey-datalla Yso: Keskiarvot viidelle maalle sukupuolen mukaan 6 Domain Analysis: Country code 3-character Country code Std Error 3-character Variable Mean of Mean 95% CL for Mean ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Canada meanscie 522.523293 0.613824 521.320195 523.726390 meanread 512.318449 0.632880 511.077998 513.558899 SCIEFUT 0.257585 0.007095 0.243678 0.271492 WEALTH 0.085487 0.004586 0.076499 0.094475 Germany meanscie 516.206675 1.388157 513.485882 518.927469 meanread 496.530138 1.543957 493.503970 499.556306 SCIEFUT -0.153333 0.015136-0.182998-0.123667 WEALTH 0.241345 0.011343 0.219114 0.263577 Finland meanscie 563.379017 1.196954 561.032982 565.725052 meanread 547.080464 1.118021 544.889135 549.271793 SCIEFUT -0.166362 0.012596-0.191049-0.141674 WEALTH 0.400162 0.010679 0.379232 0.421092 Italy meanscie 487.153036 0.632060 485.914197 488.391876 meanread 477.008107 0.695491 475.644939 478.371275 SCIEFUT 0.112834 0.006259 0.100566 0.125103 WEALTH -0.162371 0.004848-0.171873-0.152869 United States meanscie 488.290911 1.366549 485.612470 490.969353 meanread 478.515607 1.257594 476.050717 480.980497 SCIEFUT 0.212386 0.012976 0.186952 0.237820 WEALTH 0.150960 0.010691 0.130006 0.171914 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 129

Perusestimointi 8 Analyysiä survey-datalla Ositettu kaksiasteinen ryväsotanta: Keskiarvot viidelle maalle sukupuolen mukaan 8 Data Summary Number of Strata 135 Number of Clusters 2242 Number of Observations 59635 Sum of Weights 5433873.59 Domain Analysis: Country code 3-character Country code Std Error 3-character Variable Mean of Mean 95% CL for Mean ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Canada meanscie 534.469777 2.096610 530.358234 538.581321 meanread 527.011295 2.266225 522.567129 531.455462 SCIEFUT 0.202674 0.014836 0.173579 0.231768 WEALTH 0.155705 0.014736 0.126808 0.184603 Germany meanscie 515.649130 5.082070 505.683073 525.615186 meanread 494.944418 5.800636 483.569236 506.319600 SCIEFUT -0.150840 0.020130-0.190315-0.111364 WEALTH 0.241042 0.020835 0.200185 0.281900 Finland meanscie 563.322834 2.012347 559.376564 567.269104 meanread 546.868281 2.222051 542.510776 551.225787 SCIEFUT -0.170775 0.015194-0.200570-0.140979 WEALTH 0.396974 0.014315 0.368901 0.425046 Italy meanscie 475.397220 2.309913 470.867341 479.927100 meanread 468.523109 2.629278 463.366935 473.679282 SCIEFUT 0.196975 0.016020 0.165559 0.228392 WEALTH -0.120927 0.012365-0.145176-0.096678 United States meanscie 488.906837 4.893079 479.311395 498.502279 meanread 478.850105 4.409943 470.202105 487.498104 SCIEFUT 0.201740 0.014077 0.174134 0.229347 WEALTH 0.150898 0.031162 0.089788 0.212008 130

Perusestimointi 9 Analyysiä survey-datalla Yso: Keskiarvot viidelle maalle sukupuolen mukaan Domain Analysis: Gender Q4 Gender Std Error Q4 Variable Mean of Mean 95% CL for Mean ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Female meanscie 508.021161 0.534470 506.973597 509.068724 meanread 520.685393 0.563625 519.580682 521.790103 SCIEFUT 0.093977 0.005756 0.082695 0.105259 WEALTH -0.008827 0.004236-0.017129-0.000525 Male meanscie 510.189483 0.577763 509.057065 511.321900 meanread 478.456622 0.630157 477.221510 479.691733 SCIEFUT 0.174581 0.005830 0.163153 0.186008 WEALTH 0.085481 0.004362 0.076931 0.094030 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Ositettu kaksiasteinen ryväsotanta: Keskiarvot viidelle maalle sukupuolen mukaan 8 Domain Analysis: Gender Q4 Gender Std Error Q4 Variable Mean of Mean 95% CL for Mean ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Female meanscie 494.890425 3.203572 488.607931 501.172919 meanread 515.892143 2.903679 510.197768 521.586519 SCIEFUT 0.069997 0.013949 0.042641 0.097352 WEALTH 0.114305 0.022265 0.070641 0.157969 Male meanscie 497.131693 3.956830 489.371990 504.891396 meanread 475.987262 3.359295 469.399379 482.575145 SCIEFUT 0.211679 0.015411 0.181457 0.241901 WEALTH 0.169271 0.023587 0.123015 0.215528 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 131

Kolmiulotteinen pylväs- ym. diagrammi CAED 132

Analyysiä surveydatalla - Mallittamisesta 1 Tällä kurssilla ei ole käydä mallittamista läpi laajasti, joten kiinnostuneen on tarpeen osallistua muillekin kursseille ja/tai opiskella asioita kirjallisuudesta. Oikean datan kanssa kokeilu auttaa erityisen paljon avartamaan mallittamista. Edellä on jo kuvattu mallityypit. Kun mallittamisen käyttö on selvitetty, on mietittävä, mikä malli sopii ao. tilanteeseen. Vaihtoehtojahan on. Tässä keskustelen lähinnä lineaarisista tai linearisoiduista malleista. Linearisointi viittaa siihen, että jos aineisto ei näytä sellaiselta että lineaarinen malli sopisi (eli selitettävän jakaumafunktio on normaalinen ja yhteydet siitä selittäjiin ovat lineaarisia), niin on tehtävä operaatioita joilla nämä saadaan aikaan. Puhutaan yleistetyistä lineaarisista malleista (Generalized Linear Models). * Ohjelmistoissa on tällaiseen hyviä vaihtoehtoja, osa siten että sillä saa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen. Tämä oli jo esillä vastaamisen mallittamisessa. * Toinen strategia on käyttää yleisempää ohjelmistoa, johon voi valita kuhunkin tilanteeseen sopivat linkit ja jakaumat (SAS:ssa Proc Genmod). 133

Analyysiä surveydatalla - Mallittamisesta 2 Kuten on jo todettu, uusissa ohjelmistoissa on mahdollista sisällyttää malliin myös ryväs jos sellainen on otanta-asetelmassa ja osite jos sellaista on käytetty. Kuten keskiarvoesimerkissä edellä on havaittu, ryväs-vaikutus on usein suurempi kuin osite-vaikutus. SAS:ssa voi nämä mallit tehdä SurveyLogistic:lla ja SPSS:ssä on logistic Complex Samples -ohjelmassa. Siten tämän tyypin malli on varsin helppo surveyaineistolla. SAS:ssa on myös SurveyREG jolla saa tavallisen lineaarisen mallin estimaatit oikein keskivirheiden osalta. Se toimii ihan samoin kuin perussas:in GLM jossa on kuitenkin vain otospainon mahdollisuus. SPSS:ssä GLM:ää vastaa General Linear Model joka on samalla nimellä sekä perusspss:n että Complex Samples:n puolella. Kysehän on monimuuttujaisesta regressiomallista, jossa on yksi selitettävä ja voit asettaa selittäjiksi sekä jatkuvia että luokiteltuja (kategorisia) muuttujia. Muuttujan luonne on ilmaistava (SAS:ssa asettamalla luokitellut CLASS-ryhmään, SPSS:ssä asettamalla nämä Factorslaatikkoon). 134

Analyysiä survey-datalla - Mallittamisesta 3 Kuten edeltä ilmenee, ei kaikkiin ohjelmistoihin ole SAS:ssa eikä SPSS:ssä kaikkia monimutkaisen surveyn optioita, mutta painopuuttuja on eli minimi. Voi olla myös niin, ettei aineistossa ole niitä, vaikka otanta olisi perustunut ryppäisiin yms. Miten tällöin menetellä. Piste-estimointi siis tulee oikein. Mieti vielä, MITEN? Entäpä keskivirheet, luottamusvälit ja p-arvot? En kykene antamaan tyhjentävää vastausta, mutta jotakin: - Ole konservatiivinen eli älä vedä suuria johtopäätöksiä vähäisestä tilastollisesta merkitsevyydestä. - Arvioi vaikkapa SurveyMeans:n kautta kuinka suuri voisi DEFF olla. On onneksi usein niin että mallissa DEFF on pienempi (lähempänä ykköstä) kuin keskiarvolaskelmissa, ja erityisesti jos otantaasetelmamuuttujia on mukana mallin selittäjissä tai muissa osioissa. 135

Analyysiä survey-datalla - Malliesimerkit 1 Kurssin lopun mallitusharjoitukset tehdään yleisellä lineaarisella (regressio)mallilla. Teknisesti muut ohjelmat (vaikkapa logit tai probit tai monitasovaihtoehdot) toimivat samaan tapaan. Yleinen lineaarinen tilanne on ehkä yleisin tilanne eikä välttämättä monimutkainen, joten valinta tehtiin tästä syystä. Muilla kursseilla voit laajentaa tietämystäsi, myös teoreettiselta kannalta. Regressiotyyppisessä mallissa selitettävän tulee olla jatkuva muuttuja tai sellaisena käsitelty. ESS:ssä on esimerkiksi runsaasti järjestysasteikollisia muuttujia joita voi siten asettaa selitettäviksi malliin ja etsiä selittäjät teorian ja yleisen tietämyksen mukaan. PISA:n osaamismuuttujat näyttävät jatkuvilta vaikka ovat nekin järjestysasteikollisia. Ne ja monet muut sopivat siis selitettäviksi. Seuraavaksi otan esimerkin kummastakin. Ensin PISA. 136

Analyysiä survey-datalla - Malliesimerkit 2 (PISA) Otan esimerkkiin melkoisen yksinkertaisen selitettävän eli PISA2006:n päämuuttujan = luonnontieteellisen osaamisen. Koska se on laskettua 5 eri uskottavan eli osin imputoidun osaamisarvon keskiarvona, se on nimetty pvmeanscie Aloitan mallittamisen melko nollasta asettamatta malliin selittäjiä ollenkaan. SAS-ohjelma on seuraava: proc surveyreg data=pisa.fi; model pvmeanscie = /solution; cluster schoolid; strata stratum; weight w_fstuwt; title 'Luonnontieteellisen osaamisen malli 1: vakio'; run; Näet että otanta-asetelmatekijät on sijoitettu malliin samoin kuin edellä SURVEYMEANS:ssa. 137

Analyysiä survey-datalla - Malliesimerkit 3 (PISA) Luonnontieteellisen osaamisen malli 1: vakio The SURVEYREG Procedure Regression Analysis for Dependent Variable pvmeanscie Data Summary Number of Observations 4714 Sum of Weights 61387.0 Weighted Mean of pvmeanscie 563.32283 Weighted Sum of pvmeanscie 34580690 Design Summary Number of Strata 12 Number of Clusters 155 Fit Statistics R-square 0.9791 Root MSE 82.2705 Denominator DF 143 Tests of Model Effects Effect Num DF F Value Pr > F Model 0.. Intercept 1 78362.6 <.0001 NOTE: The denominator degrees of freedom for the F tests is 143. Estimated Regression Coefficients Standard Parameter Estimate Error t Value Pr > t Intercept 563.322834 2.01234725 279.93 <.0001 Tällainen pohjamalli voi olla hassu mutta näet kuitenkin että se tuottaa Intercept:n eli vakion joka on tasan sama kuin keskiarvo. Lisäksi saat keskivirheen (noin 2 pistettä) ja tavalliset tunnusluvut jotka olivat täysin odotetut 138

Analyysiä survey-datalla - Malliesimerkit 4 (PISA) Tässä on kaksi selittäjää, taustatekijöitä. Nyt selitysasteella on mieltä, päinvastoin kuin edellisessä. Vanhempien koulutusvuosien määrä PARED on merkittävä selittäjä. Onko sukupuoli? Huom. Tuloste on supistettu. Fit Statistics R-square 0.04300 Root MSE 80.0972 Denominator DF 143 Class Level Information Class Variable Label Levels Values ST04Q01 Gender Q4 2 Female Male Tests of Model Effects Effect Num DF F Value Pr > F Model 2 88.36 <.0001 Intercept 1 3801.67 <.0001 ST04Q01 1 1.06 0.3054 PARED 1 176.63 <.0001 NOTE: The denominator degrees of freedom for the F tests is 143. Estimated Regression Coefficients Standard Parameter Estimate Error t Value Pr > t Intercept 462.848247 7.73360330 59.85 <.0001 ST04Q01 Female 2.587664 2.51562093 1.03 0.3054 ST04Q01 Male 0.000000 0.00000000.. PARED 6.900300 0.51919624 13.29 <.0001 139

Analyysiä survey-datalla - Malliesimerkit 5 (PISA) Luonnontieteellisen osaamisen malli 1: koulumuuttujia myös R-square 0.1302 The SURVEYREG Procedure Regression Analysis for Dependent Variable pvmeanscie Estimated Regression Coefficients Standard Parameter Estimate Error t Value Pr > t Intercept 457.127120 8.12594084 56.26 <.0001 ST04Q01 Female 0.766337 2.35962872 0.32 0.7458 ST04Q01 Male 0.000000 0.00000000.. PARED 6.312026 0.48769981 12.94 <.0001 student_discussion -0.093062 0.04806734-1.94 0.0548 student_debate -0.899094 0.05486628-16.39 <.0001 student_ideas 0.045172 0.05902113 0.77 0.4453 teacher_explain 0.569431 0.09131187 6.24 <.0001 practical_work 0.379530 0.07060081 5.38 <.0001 Tässä on estimaatteja kun malliin on lisätty joukko koulutason muuttujia eli koulun opetuksen toimintatapoja mutta oppilaiden näkemyksen mukaan. Et ehkä ymmärrä täysin muuttujan merkitystä mutta nimi on annettu kuvaamaan itse asiaa ja selittävän muuttujan skaala on [0, 100]. 140

Analyysiä survey-datalla - Malliesimerkit 1 (ESS) Tässä osastossa kokeilen mallittaa ESS-datalla 15+ -ikäisten onnellisuutta, mikä on viime vuosina noussut kiintoisaksi aiheeksi taloustieteilijöiden, psykologien ja sosiaalitieteilijöiden tutkimuksissa. En ratkaise tässä tätä vaan esitän muutamia hahmotuksia mallin rakentamiseksi. Lue lisää vaikkapa Blanchflowerin, Oswaldin, Easterlinin ja Narsin julkaisuista. ESS-datasta tuotin painottamattoman frekvenssijakauman pohjakatselua ja mallin hahmottelua varten. Tein alkuperäiseen skaalaan [0,10] lineaarisen muunnoksen siten että tässä skaala on [0,100]. Painotettu keskiarvo = 71,7 ja cv= 28,2 141

Analyysiä survey-datalla - Malliesimerkit 2 (ESS) Onnellisuusjakauma ei ole erityisen normaalinen mutta tässä en kanna siitä huolta, koska tutkimusten valtavirtakaan ei ole niin tehnyt. Mieti kuitenkin voisitko kokeilla jotain muuta mallia? Jo edellisestä esimerkistä olet oppinut että jos selität onnellisuutta maalla, saat maakohtaiset onnellisuuden keskiarvot (vakioon kun lisäät maan estimaatin). Vastaavasti jos selität onnellisuutta muuttujien maa = CNTRY ja ESS-kierroksen = ESSROUND vuorovaikutusmuuttujalla, saat kunkin maan ESS-kierroksittaiset keskiarvot. Tässä en näin tehnyt vaan käytin ESS-kierrosta 4 jossa on siis mukana 18 maata tässä vaiheessa. Otin kurssilaisten esille tuomista muuttujista muutaman sekä lisäksi perinteisiä. Näiden tarkempi kuvaus esitetään SAS:n avulla. 142

Analyysiä survey-datalla - Malliesimerkit 3 (ESS) Tests of Between-Subjects Effects b Dependent Variable:onnellisuus Type III Sum of Partial Eta Tulkitse tuloksia tällä yleisellä tasolla sekä jatka seuraavan sivun tarkemman kuvauksen kanssa. Source Squares df Mean Square F Sig. Squared Corrected Model 1,087E6 43 25279,066 81,106,000,150 Intercept 789928,749 1 789928,749 2534,438,000,114 siviilisaaty 159396,485 9 17710,721 56,824,000,025 INWTM 25,112 1 25,112,081,777,000 vas_oik 20542,628 1 20542,628 65,910,000,003 ika2 59878,955 1 59878,955 192,118,000,010 ika 78899,475 1 78899,475 253,144,000,013 rukoilu 12,264 1 12,264,039,843,000 personal20 19611,701 1 19611,701 62,923,000,003 liika_etu 552,149 1 552,149 1,772,183,000 CNTRY 482619,826 16 30163,739 96,779,000,073 GNDR 5837,948 1 5837,948 18,731,000,001 INWMME 5629,140 10 562,914 1,806,054,001 Error 6163433,718 19775 311,678 Total 1,321E8 19819 Corrected Total 7250433,539 19818 Tässä on kaikkien selittäjien merkitsevyyttä ym kuvaava SPSS-tuloste. Poikkeaa SAS:n vastaavasta mutta samat asiat ovat mukana. a. R Squared =,150 (Adjusted R Squared =,148) b. Weighted Least Squares Regression - Weighted by Design weight 143

Dependent Variable:onnellisuus 95% Confidence Interval Tästä estimaattitason tulosteesta on jätetty kaksi muuttujaa pois koska oli vaikeuksia saada tuloste jonnekin mahtumaan. Nytkin sulla lienee vaikeuksia hahmottaa kaikkea hyvin. Yritä kuitenkin. Muuttujan nimi paria poikkeusta lukuunottamatta asetettu mahdollisimman hyvin kuvaamaan sen luonnetta. Skaalat ovat usein [0,100] kuten rukoilu jossa iso arvo merkitsee tiheämpää rukoilemista ja arvo = 0 ettei koskaan rukoile. Parameter B Std. Error t Sig. Lower Bound Upper Bound Partial Eta Squared Intercept 72,451 1,166 62,154,000 70,167 74,736,158 INWTM,001,005,186,853 -,008,010,000 vas_oik,055,006 9,563,000,044,066,004 ika2,003,000 7,353,000,002,004,003 ika -,326,035-9,264,000 -,394 -,257,004 rukoilu,004,003 1,037,300 -,003,010,000 personal20,031,004 7,165,000,022,039,002 liika_etu,004,005,773,439 -,006,014,000 [CNTRY=BE] 7,712,795 9,702,000 6,154 9,270,005 [CNTRY=BG] -10,510,783-13,419,000-12,046-8,975,009 [CNTRY=CH] 10,709,724 14,785,000 9,289 12,128,011 [CNTRY=CY] 9,880,841 11,750,000 8,232 11,528,007 [CNTRY=DE] 5,357,721 7,426,000 3,943 6,771,003 [CNTRY=DK] 14,106,853 16,541,000 12,434 15,777,013 [CNTRY=EE],599,887,675,500-1,141 2,338,000 [CNTRY=ES] 9,722,748 13,004,000 8,257 11,188,008 [CNTRY=FI] 11,532,740 15,591,000 10,082 12,982,012 [CNTRY=FR] 4,844,739 6,554,000 3,395 6,292,002 [CNTRY=GB] 6,660,705 9,443,000 5,277 8,042,004 [CNTRY=NO] 11,279,813 13,869,000 9,685 12,873,009 [CNTRY=PL] 4,516,828 5,451,000 2,892 6,139,001 [CNTRY=PT],913,774 1,180,238 -,604 2,431,000 [CNTRY=RU] -5,272,809-6,520,000-6,857-3,687,002 [CNTRY=SE] 10,008,782 12,791,000 8,474 11,541,008 [CNTRY=SI] 6,125,903 6,782,000 4,355 7,895,002 [CNTRY=SK] 0 a...... [GNDR=1] -1,004,243-4,137,000-1,480 -,528,001 [GNDR=2] 0 a......

Harjoitusosio Edellä on jo tuotu esille harjoitusmahdollisuuksia. Omakohtaiset mutta mikroluokassa ohjatut harjoitukset sisältävät seuraavaa: -Näytän Nielsenin tiedonkeruussa käytettävän skannerin toimintatavan. -Itsekukin tekee estimointeja Irak-datalla koskien kuolleiden lukumääriä yms. estimaatteja koko maan tasolla; mukana voi olla taustamuuttujia. Nyt panostetaan keskivirheisiin ja luottamusväleihin edellisessä vaiheessa tehdyn pohjalta. -Itsekukin tekee minimissään kolmenlaisten estimointien kokeilun PISAn Suomi-datalla itse valitsemilleen muuttujille ja mahdollisille taustamuuttujille: (i) keskiarvoja, (ii) frekvenssejä, (iii) monimuuttujainen regressiomalli. Keskivirheet eri tavoilla laskettuna (huonommilla ja paremmilla) ovat tärkeitä myös. SAS-ajojen ohjeet on edellä näytetty. Seuraavilla sivuilla on lähtökohdat SPSS:lle. 145

SPSS-ajon lähtökohdat 1 146

SPSS-ajon lähtökohdat 2 147

SPSS-ajon lähtökohdat 3 148

SPSS-ajon lähtökohdat 4 149

SPSS-ajon lähtökohdat 5 150

SPSS-ajon lähtökohdat 6 Hieman tuloksiakin tässä, tulkitse 151