Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa Risto Lehtonen Helsingin yliopisto Kela 1 Tilastokeskuksen SAS-seminaari 16.11.2009
Aiheita Kelan tutkimustoiminta SAS-sovellukset vaativien tutkimusasetelmien yhteydessä Otantamenetelmät Imputointimenetelmät Estimointi- ja analyysimenetelmät 2
Kelan tutkimustoiminta Tutkimus on Kelalle lailla säädetty tehtävä Kelan tutkimusosasto (Hki ja Turku) Hankeluettelossa noin 60 tutkimusnimikettä Yhteiskuntatieteellinen tutkimus Toimeentuloturva ja sen vaihtoehtoiset mallit, sosiaaliturvan kustannukset, Kelan asiakaspalvelu Terveystieteellinen tutkimus Sairausvakuutuksen ja kuntoutuksen arviointi ja kehittäminen Menetelmällinen t&k 3
Tutkimusasetelmat ja aineistot Väestötutkimukset Otosperusteiset kysely- ja haastattelututkimukset Kelan omia tutkimuksia ja muualta saatuja aineistoja Kokeelliset ja vastaavat aineistot Kelan etuusrekistereihin perustuvat tutkimukset Rekisteritutkimus: Laajeneva toiminto Laskentamenetelmien kehittäminen sosiaaliturvan muutosten vaikutuksista Mikrosimulointimallit JUTTA ja SOMA 4
Esimerkkejä (ulkopuolisista) otosaineistoista ECHP ja EU-SILC (TK) Kulutustutkimusaineisto 1966 2006 (TK) Tulonjakotilasto (TK) Työolotutkimus (TK) Eurobarometer European Social Survey (ESS) European Working Conditions Survey (EWCS) Luxembourg Income Study (LIS) Terveys 2000 World Values Survey 5
Vaatimuksia analyysityökaluille Mutkikkaita tutkimusasetelmia Pitkittäisaineistoja ja kokeellisia tutkimusasetelmia Mutkikkaita otanta-asetelmia Moniasteiset ositetut ryväsotanta-asetelmat Korreloituneet havainnot Tutkimus- ja otanta-asetelmat otettava huomioon analyysin yhteydessä Painokertoimet, ositus, ryvästyminen Havaintojen mahdollinen korreloituneisuus 6
Analyysimenetelmiä ja työkaluja Tilastollinen mallinnus Lineaariset mallit Yleistetyt lineaariset mallit Yleistetyt lineaariset sekamallit GLMM SAS - tilastolliset proseduurit SUDAAN - tilastolliset proseduurit STATA - tilastolliset proseduurit svy-ohjelmat 7
SAS-käyttö väestötutkimuksissa: Historiaa Työterveyshuollon arviointitutkimus 1985 Terveysturvan väestötutkimus 1987 ja 1995 Terveys 2000 -tutkimus (KTL) SAS Vers. 5 lähtien Alkuvaiheissa IBM pääkoneversiot Myöhemmin myös PC SAS Analyysit SAS- ja SUDAAN-proseduureilla 8
SAS-sovellukset Otantamenetelmät SAS 9.1 SAS Procedure SURVEYSELECT PROC SURVEYSELECT options ; STRATA variables ; CONTROL variables ; SIZE variable ; ID variables ; 9
PROC SURVEYSELECT Monte Carlo -simulointi Poimitaan perusjoukosta 5000 riippumatonta 100 alkion otosta PPS-otannalla proc surveyselect data=population out=simu_otokset method=pps sampsize=100 rep=5000 seed=987654; size kokovar; 10
PROC SURVEYMEANS Monte Carlo -simulointi Tutkitaan totaaliestimaattorin jakaumaa (odotusarvo ja varianssi) empiirisesti simuloidun aineiston perusteella proc surveymeans data=simu_otokset sum; by replicate; var y; weight samplingweight; 11
PROC SURVEYSELECT Bootstrap-menetelmä keskivirheiden estimoinnissa proc surveyselect data=population out=otos method=srs seed=987654 sampsize=100; proc surveyselect data=otos out=boot_otokset method=urs samprate=1 outhits rep=1000; 12
SAS-sovellukset Imputointimenetelmät Eräkadon (item nonresponse) paikkaus sekä tilastollisesti pätevä keskivirheiden estimointi SAS Procedure MI (Multiple Imputation) Moni-imputointi (Donald Rubin, Rod Little, Joe Schafer) Imputointimallin määrittelyn rajoitukset Kiinteiden tekijöiden malli (ei sekamallia) Vrt: R-ohjelma pan: MI of panel data and clustered data (Schafer) SAS Procedure MIANALYZE Moni-imputoidun datan tilastollinen analyysi 13
SAS-sovellukset Korreloituneiden havaintojen analyysimenetelmät Asetelmaperusteiset menetelmät PROC SURVEYREG PROC SURVEYLOGISTIC Overview Malliperusteiset menetelmät PROC GENMOD yleistetyt lineaariset mallit GEE-menetelmällä (Generalized Estimating Equations) PROC MIXED ja GLIMMIX (Yleistetyt) lineaariset sekamallit 14
PROC SURVEYLOGISTIC < options >; BY variables ; CLASS variable <(v-options)>... >; CLUSTER variables ; CONTRAST 'label' effect values <,... /options >; FREQ variable ; MODEL events/trials = < effects > < / options >; MODEL variable < (variable_options) > = < effects > < / options >; STRATA variables < / options > ; < label: > TEST equation1 <,..., < equationk >> < /option >; UNITS independent1 = list1 <... /option > ; WEIGHT variable </ option >; 15
Korreloituneen binäärisen datan mallinnus: Esimerkiksi kahdella tavalla proc surveylogistic data=otos; strata osite; cluster ryvas; model y=x1 x2 x3/ link logit; proc genmod data=otos; class ryvas; model y=x1 x2 x3/ dist=bin link=logit; repeated subject=ryvas / type=exch; Ks: VLISS-sovellus Training Key 298 16
SAS 9.2 Korreloituneiden havaintojen analyysimenetelmät SAS Procedure GLIMMIX Yleistetyt lineaariset sekamallit Uutta: ML-estimointi täydentämään PML-menetelmää SAS Procedure HPMIXED (experimental) Lineaariset sekamallit The HPMIXED procedure is specifically designed to cope with estimation problems involving a large number of fixed effects, a large number of random effects, or a large number of observations. 17
Tilastolliset SAS-makrot Pienalue-estimointi (small area estimation) Tunnuslukujen estimointi perusjoukon (pienille tai suurille) osajoukoille otosaineiston ja lisäinformaation perusteella GREG-estimaattorit EBLUP-estimaattorit SAS macro EBLUPGREG EURAREA-projekti 18
Menetelmällinen t&k (Tutkimusohjelma 2009) Kvantitatiivisen tutkimuksen menetelmäkehittäminen Vastauskadon ja mittausvirheiden tilastolliset menetelmät (uudelleenpainotus, imputointi, mallinnus) Seuranta-aineistojen analyysimenetelmät Mikrosimulointisovellusten tilastolliset menetelmät Rekisteriperusteisten aineistojen ja useaan eri tietolähteeseen perustuvien aineistojen hallinta-, käsittelyja analyysimenetelmät 19