Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa



Samankaltaiset tiedostot
Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

(78143) Syksy 2009 TEEMAT 3 & 4. Risto Lehtonen Teema 3 ERITYISKYSYMYKSIÄ. Risto Lehtonen 2

Otanta-aineistojen analyysi Kevät 2010 TEEMA 5: Tilastollinen mallinnus II Mallit, analyysimenetelmiä ja ohjelmia, PISA-esimerkki

Otanta-aineistojen analyysi

Hierarkkisen aineiston mallintaminen ja otanta/pre-kurssi

Health 2000/2011 Surveys. Statistical Analysis using SAS and SAS-Callable SUDAAN Packages Esa Virtala.

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 4: Asetelmaperusteinen monimuuttuja-analyysi

Otanta-aineistojen analyysi

SAS ja R yhteiskäyttö

Tommi Härkänen, Teppo Juntunen, Eero Lilja Analyysiohjeita Maahanmuuttajien terveys- ja hyvinvointitutkimusaineiston käsittelemiseksi.

Otanta-aineistojen analyysi

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?

Testejä suhdeasteikollisille muuttujille

Pienalue-estimointi (78189) Kevät Risto Lehtonen Helsingin yliopisto

Perusestimointi 5 Analyysiä survey-datalla Tee Suomen datalla jokin oma kokeilu käyttäen tätä mallia Esimerkki PISA 2006:sta SAS:lla

A250A0050 Ekonometrian perusteet Tentti

Tilastotieteen aihehakemisto

Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Osa 2: Otokset, otosjakaumat ja estimointi

Otantamenetelmät. (78143) Syksy 2010 TEEMA 1. Risto Lehtonen

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Testit järjestysasteikollisille muuttujille

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Epävarmuuden hallinta bootstrap-menetelmillä

Timo Hurme Maa- ja elintarviketalouden tutkimuskeskus MTT

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

Tilastollinen aineisto Luottamusväli

Testit laatueroasteikollisille muuttujille

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

Perhevapaiden palkkavaikutukset

9.1 Hierarkiset asetelmat (Nested Designs)

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs)

9. Muita koeasetelmia. Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9.1 Hierarkiset asetelmat (Nested Designs)

pitkittäisaineistoissa

SAS:n käyttö Työterveyslaitoksessa. Pertti Mutanen

Sisältö. Perusteiden Kertaus. Tilastollinen analyysi. Peruskäsitteitä. Peruskäsitteitä. Kvantitatiivinen metodologia verkossa

Tilastollisten aineistojen kerääminen ja mittaaminen

Pienalue-estimointi (78189) Kevät 2011 Risto Lehtonen

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Kyselytutkimusten. Erkki Pahkinen Kyselytutkimusten otantamenetelmät ja aineistoanalyysi. Erkki Pahkinen OTANTAMENETELMÄT JA AINEISTOANALYYSI

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Liite artikkeliin Intohimo tasa-arvoon

Henkilöstön työkyky ja yrityksen menestyminen

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Puuttuvan tiedon ongelmat pitkittäistutkimuksissa

SAS-ratkaisut Tilastokeskuksen sosiaalietuuksien ja tuloverojen mikrosimulointimallissa

Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista.

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

ATH-aineiston tilastolliset analyysit SPSS/PASW SPSS analyysit / Risto Sippola 1

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Dynaamista ja joustavaa ohjelmointia - maukasta makrokielellä

2. Aineiston kuvailua

Estimaattoreiden asetelmaperusteinen

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollisen tutkimuksen vaiheet

Sovellettu todennäköisyyslaskenta B

Regressioanalyysi. Vilkkumaa / Kuusinen 1

ATH-koulutus: Stata 11 THL ATH-koulutus / Tommi Härkänen 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

tilastotieteen kertaus

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Research plan for masters thesis in forest sciences. The PELLETime 2009 Symposium Mervi Juntunen

VIIKON VINKKI: Kannattaa tutustua ensin koko tehtävänantoon ja tehdä tehtävä vasta sitten.

HARJOITUS- PAKETTI A

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Tutkimustiedonhallinnan peruskurssi

Harha mallin arvioinnissa

Ilkka Mellin Aikasarja-analyysi Aikasarjat

Simulation and modeling for quality and reliability (valmiin työn esittely) Aleksi Seppänen

MTTTP1, luento KERTAUSTA

Monte Carlo -menetelmä optioiden hinnoittelussa (valmiin työn esittely)

Parametrin estimointi ja bootstrap-otanta

TUTKIMUSOPAS. SPSS-opas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Tilastollisia peruskäsitteitä ja Monte Carlo

MTTTP1, luento KERTAUSTA

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

KLIINISTEN TUTKIMUSTEN SUUNNITTELU JA KOEASETELMAT. Vesa Kiviniemi (FL) Itä-Suomen yliopisto

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Mitä IHMEttä on MIXTURE -mallintaminen?

Uusi sosiaalietuuksien ja tuloverojen mikrosimulointimalli. Olli Kannas

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1

Identifiointiprosessi

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence

Tutkimuksen suunnittelu / tilastolliset menetelmät. Marja-Leena Hannila Itä-Suomen yliopisto / Terveystieteiden tdk

Regressioanalyysi. Kuusinen/Heliövaara 1

Transkriptio:

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa Risto Lehtonen Helsingin yliopisto Kela 1 Tilastokeskuksen SAS-seminaari 16.11.2009

Aiheita Kelan tutkimustoiminta SAS-sovellukset vaativien tutkimusasetelmien yhteydessä Otantamenetelmät Imputointimenetelmät Estimointi- ja analyysimenetelmät 2

Kelan tutkimustoiminta Tutkimus on Kelalle lailla säädetty tehtävä Kelan tutkimusosasto (Hki ja Turku) Hankeluettelossa noin 60 tutkimusnimikettä Yhteiskuntatieteellinen tutkimus Toimeentuloturva ja sen vaihtoehtoiset mallit, sosiaaliturvan kustannukset, Kelan asiakaspalvelu Terveystieteellinen tutkimus Sairausvakuutuksen ja kuntoutuksen arviointi ja kehittäminen Menetelmällinen t&k 3

Tutkimusasetelmat ja aineistot Väestötutkimukset Otosperusteiset kysely- ja haastattelututkimukset Kelan omia tutkimuksia ja muualta saatuja aineistoja Kokeelliset ja vastaavat aineistot Kelan etuusrekistereihin perustuvat tutkimukset Rekisteritutkimus: Laajeneva toiminto Laskentamenetelmien kehittäminen sosiaaliturvan muutosten vaikutuksista Mikrosimulointimallit JUTTA ja SOMA 4

Esimerkkejä (ulkopuolisista) otosaineistoista ECHP ja EU-SILC (TK) Kulutustutkimusaineisto 1966 2006 (TK) Tulonjakotilasto (TK) Työolotutkimus (TK) Eurobarometer European Social Survey (ESS) European Working Conditions Survey (EWCS) Luxembourg Income Study (LIS) Terveys 2000 World Values Survey 5

Vaatimuksia analyysityökaluille Mutkikkaita tutkimusasetelmia Pitkittäisaineistoja ja kokeellisia tutkimusasetelmia Mutkikkaita otanta-asetelmia Moniasteiset ositetut ryväsotanta-asetelmat Korreloituneet havainnot Tutkimus- ja otanta-asetelmat otettava huomioon analyysin yhteydessä Painokertoimet, ositus, ryvästyminen Havaintojen mahdollinen korreloituneisuus 6

Analyysimenetelmiä ja työkaluja Tilastollinen mallinnus Lineaariset mallit Yleistetyt lineaariset mallit Yleistetyt lineaariset sekamallit GLMM SAS - tilastolliset proseduurit SUDAAN - tilastolliset proseduurit STATA - tilastolliset proseduurit svy-ohjelmat 7

SAS-käyttö väestötutkimuksissa: Historiaa Työterveyshuollon arviointitutkimus 1985 Terveysturvan väestötutkimus 1987 ja 1995 Terveys 2000 -tutkimus (KTL) SAS Vers. 5 lähtien Alkuvaiheissa IBM pääkoneversiot Myöhemmin myös PC SAS Analyysit SAS- ja SUDAAN-proseduureilla 8

SAS-sovellukset Otantamenetelmät SAS 9.1 SAS Procedure SURVEYSELECT PROC SURVEYSELECT options ; STRATA variables ; CONTROL variables ; SIZE variable ; ID variables ; 9

PROC SURVEYSELECT Monte Carlo -simulointi Poimitaan perusjoukosta 5000 riippumatonta 100 alkion otosta PPS-otannalla proc surveyselect data=population out=simu_otokset method=pps sampsize=100 rep=5000 seed=987654; size kokovar; 10

PROC SURVEYMEANS Monte Carlo -simulointi Tutkitaan totaaliestimaattorin jakaumaa (odotusarvo ja varianssi) empiirisesti simuloidun aineiston perusteella proc surveymeans data=simu_otokset sum; by replicate; var y; weight samplingweight; 11

PROC SURVEYSELECT Bootstrap-menetelmä keskivirheiden estimoinnissa proc surveyselect data=population out=otos method=srs seed=987654 sampsize=100; proc surveyselect data=otos out=boot_otokset method=urs samprate=1 outhits rep=1000; 12

SAS-sovellukset Imputointimenetelmät Eräkadon (item nonresponse) paikkaus sekä tilastollisesti pätevä keskivirheiden estimointi SAS Procedure MI (Multiple Imputation) Moni-imputointi (Donald Rubin, Rod Little, Joe Schafer) Imputointimallin määrittelyn rajoitukset Kiinteiden tekijöiden malli (ei sekamallia) Vrt: R-ohjelma pan: MI of panel data and clustered data (Schafer) SAS Procedure MIANALYZE Moni-imputoidun datan tilastollinen analyysi 13

SAS-sovellukset Korreloituneiden havaintojen analyysimenetelmät Asetelmaperusteiset menetelmät PROC SURVEYREG PROC SURVEYLOGISTIC Overview Malliperusteiset menetelmät PROC GENMOD yleistetyt lineaariset mallit GEE-menetelmällä (Generalized Estimating Equations) PROC MIXED ja GLIMMIX (Yleistetyt) lineaariset sekamallit 14

PROC SURVEYLOGISTIC < options >; BY variables ; CLASS variable <(v-options)>... >; CLUSTER variables ; CONTRAST 'label' effect values <,... /options >; FREQ variable ; MODEL events/trials = < effects > < / options >; MODEL variable < (variable_options) > = < effects > < / options >; STRATA variables < / options > ; < label: > TEST equation1 <,..., < equationk >> < /option >; UNITS independent1 = list1 <... /option > ; WEIGHT variable </ option >; 15

Korreloituneen binäärisen datan mallinnus: Esimerkiksi kahdella tavalla proc surveylogistic data=otos; strata osite; cluster ryvas; model y=x1 x2 x3/ link logit; proc genmod data=otos; class ryvas; model y=x1 x2 x3/ dist=bin link=logit; repeated subject=ryvas / type=exch; Ks: VLISS-sovellus Training Key 298 16

SAS 9.2 Korreloituneiden havaintojen analyysimenetelmät SAS Procedure GLIMMIX Yleistetyt lineaariset sekamallit Uutta: ML-estimointi täydentämään PML-menetelmää SAS Procedure HPMIXED (experimental) Lineaariset sekamallit The HPMIXED procedure is specifically designed to cope with estimation problems involving a large number of fixed effects, a large number of random effects, or a large number of observations. 17

Tilastolliset SAS-makrot Pienalue-estimointi (small area estimation) Tunnuslukujen estimointi perusjoukon (pienille tai suurille) osajoukoille otosaineiston ja lisäinformaation perusteella GREG-estimaattorit EBLUP-estimaattorit SAS macro EBLUPGREG EURAREA-projekti 18

Menetelmällinen t&k (Tutkimusohjelma 2009) Kvantitatiivisen tutkimuksen menetelmäkehittäminen Vastauskadon ja mittausvirheiden tilastolliset menetelmät (uudelleenpainotus, imputointi, mallinnus) Seuranta-aineistojen analyysimenetelmät Mikrosimulointisovellusten tilastolliset menetelmät Rekisteriperusteisten aineistojen ja useaan eri tietolähteeseen perustuvien aineistojen hallinta-, käsittelyja analyysimenetelmät 19