Tommi Härkänen, Teppo Juntunen, Eero Lilja Analyysiohjeita Maahanmuuttajien terveys- ja hyvinvointitutkimusaineiston käsittelemiseksi.

Transkriptio

1 Tommi Härkänen, Teppo Juntunen, Eero Lilja Analyysiohjeita Maahanmuuttajien terveys- ja hyvinvointitutkimusaineiston käsittelemiseksi Taustaa Otoksen ositus kunnittain ja maahanmuuttajaryhmittäin Katso otospoiminnasta, Maamu-raportin ( luku 2. Koska painokertoimet on kalibroitu maahanmuuttajaryhmittäin, tuloksia ei tule esittää maahanmuuttajat yhteensä -tyyppisesti. Otos on joissakin ositteissa huomattavan suuri suhteessa perusjoukon kokoon. Tällöin alueiden/kuntien välinen vertailu on mahdollista, koska eri alueilla/kunnissa perusjoukon koko vaihtelee huomattavasti, mutta kaikista kunnista on poimittu vähintään tietty minimimäärä henkilöitä tutkimusotokseen. Suorat keskiarvot ovat virheellisiä yhdistettäessä ositteita analyyseissa tarvitaan painokertoimet kuntakohtaisia tietoja yhdistettäessä Ositettu otanta ja kunnittain sekä tutkimusryhmittäin vaihtelevat poimintatodennäköisyydet vaikuttavat varianssiestimaatteihin p-arvot pienempiä ja luottamusvälit kapeampia Tarvitaan äärellisen populaation korjaus Äärellisen populaation korjaus (FPC) Miksi populaation rajallisuus vaikuttaa tulosten tarkkuuteen? Jos koko perusjoukko tutkittaisiin, saisimme tarkan tiedon väestön senhetkisestä tilasta, koska otannasta johtuvaa vaihtelua ei olisi esim. keskiarvon luottamusvälin leveys olisi nolla Jos otoksen osuus perusjoukosta on suuri kuten Maamu -aineistossa, niin tutkimatta jääneiden vaikutus väestökeskiarvoon on pieni, jolloin keskivirheet ja p-arvot ovat pääsääntöisesti pienempiä sekä luottamusvälit kapeampia kuin oletettaessa tavanomainen satunnaisotos (äärettömän) suuresta populaatiosta. Jos otos olisi vain pieni osa perusjoukosta, niin kyseessä olisi likimain tavallinen yksinkertainen satunnaisotanta (SRS), eikä FPC:ta tarvita. Painokertoimien taustaa: kato Osallistumisaktiivisuus vaihtelee ryhmittäin. Tarkemmat tiedot kadosta löytyvät Maamu-raportin luvusta 2, joka kuvaa myös miten kato on huomioitu painokertoimien muodostamisessa. Jos aktiivisuuteen vaikuttavat tekijät voidaan mitata sekä osallistuneista että katotapauksista, erot voidaan korjata hyvin (esim. rekisteritiedot: ikä, sukupuoli ja koulutus) oletus osallistuneiden ja katoon jääneiden henkilöiden samankaltaisuudesta vain osallistuneista, erojen huomioiminen on vaikeaa (esim. terveyteen ja toimintakykyyn liittyvät tekijät) kadon vaikutuksia ei voida täysin korjata painokertoimien avulla vaihtoehtoisia menetelmiä (esim. imputointi) on syytä harkita kadon vaikutuksien korjaamiseksi

2 Erilaiset painokertoimet Osallistuminen voidaan määritellä erilaisten kriteerien mukaan, jolloin saadaan erilaisia painokertoimia: Terveystarkastus Analysoitaessa terveystarkastusmuuttujia käytetään w_analysis_tt-painokerrointa. Haastattelut Analysoitaessa haastattelumuuttujia käytetään w_analysis_lhaa painokerrointa, jos muuttuja löytyy sekä pitkästä että lyhyestä lomakkeesta. Jos kysymys on ollut vain pitkässä lomakkeessa, käytetään w_analysis_haa-painokerrointa. Kun samassa analyysissä on sekä terveystarkastus- että haastattelumuuttujia, käytetään vastemuuttujan (selitettävä muuttuja) mukaista painokerrointa. Terveystarkastuksen painokertoimia voi käyttää myös haastattelukysymyksiin jos tutkimus rajautuu vain terveystarkastukseen osallistuneisiin. Edellä mainituista painoista on olemassa myös kahdenlaiset versiot: Analyysipainoja käytetään estimoitaessa erilaisia kuvailevia tunnuslukuja (esim. keskiarvoja) ja regressioanalyyseissä, eli lähes kaikissa analyyseissä. Korottavia painoja käytetään estimoitaessa väestössä olevia kokonaismääriä, esim. perusjoukossa olevien, tiettyä sairautta sairastavien henkilöiden lukumääriä. Nämä kertoimet tutkija voi tilata tarvittaessa tutkimusaineistoon. Painokertoimien kalibrointitavan takia kaikki ryhmät saa laittaa samaan malliin vain ryhmien välisiä eroja tutkittaessa (OSITUS muuttuja mallissa selittäjänä). Kaikki muut analyysit tulee tehdä kullekin ryhmälle erikseen. Muuta huomioitavaa Suositeltavia ohjelmistoja ovat SAS, SUDAAN sekä Stata. Näillä pystytään huomioimaan monimutkaiset otanta-asetelmat sekä tekemään mallivakiointia. SPSS:n ominaisuudet eivät ole riittäviä otanta-asetelman huomioitiin ilman Complex Samples lisämoduulia. R:llä ei toistaiseksi pysty tekemään mallivakiointia, mutta otanta-asetelman pystyy huomioimaan survey-paketin avulla. Jos mielenkiinnon kohteena on vain jokin tietty väestöryhmä, aineistosta ei saa poistaa kohderyhmään kuulumattomia havaintoja, jotta varianssiestimointi tapahtuu oikein. Jos tutkimus rajautuu esim. vain nuoriin naisiin, niin aineistosta ei saa poistaa miesten tai vanhempien ikäryhmien havaintoja. Osa-aineistoja saa käyttää vain maahanmuuttajaryhmittäin (esim. OSITUS = 1), joiden otoskoot ovat ennalta määrättyjä Tehtäessä vertailuja koko maan väestöön (Terveys2011-tutkimuksesta poimittu verrokkiaineisto mukana analyyseissa) tulee kiinnittää huomioita muuttujien vastaavuuteen ja otoskoon riittävyyteen. Erityisesti T2011:n osalta alle 30 vuotiaista on hyvin vähän terveystarkastuksessa käyneitä. Tutkijoiden käyttöön annettavaan aineistoon on valittu mukaan vain sellaisia muuttujia, joissa kysymysmuodot ovat riittävän vertailukelpoisia Maamu- ja Terveys 2011 tutkimuksissa. Tutkijan kannattaa kuitenkin aina tarkastaa kysymysten vastaavuus alkuperäisistä tutkimuslomakkeista ( ja ja huomioida myös erot tarkasteltavaa kysymystä edeltävissä kysymyksissä. Aineisto on tarkastettu, mutta virheitä ja epätarkkuuksia on silti voinut jäädä havaitsematta. Ennen analyysejä on syytä verrata aineistoa (analyyseissa käytettävien muuttujien frekvenssit, jakaumat, ristiintaulukointi) ja lomaketta sekä tarkastaa, että hyppykäskyt yms. on huomioitu ja kirjattu aineistoon oikein. Dataan valmiiksi luodut yhdistelmämuuttujat on myös syytä tarkistaa ennen analyysejä.

3 Analyysiesimerkkejä SAS/Sudaan-ohjelmistolla Muuttujan uudelleen luokittelu Tässä esimerkkinä jatkuvan ikä-muuttujan luokittelu. DATA MAAMU; SET MAAMU; IF NOT MISSING (IKA2) THEN DO; IF IKA2 <= 24 THEN IKA_LUOK = 1; ELSE IF (IKA2 > 24 AND IKA2 <= 34) THEN IKA_LUOK = 2; ELSE IF (IKA2 > 34 AND IKA2 <= 44) THEN IKA_LUOK = 3; ELSE IF (IKA2 > 44 AND IKA2 <= 54) THEN IKA_LUOK = 4; ELSE IF (IKA2 > 54 AND IKA2 <= 64) THEN IKA_LUOK = 5; END; Esimerkki moniluokkaisen muuttujan muuntamisesta kaksiluokkaiseksi. DATA MAAMU; SET MAAMU; IF NOT MISSING (A104_LUOK) THEN DO; IF A104_LUOK = 1 THEN A104_LUOK_YHD = 1; ELSE IF A104_LUOK in (2,3,4,5) THEN A104_LUOK_YHD = 0; END; Muuttujamuunnoksen toimivuus on syytä tarkastaa vielä FREQ-proseduurin avulla. proc freq data=maamu; table A104_LUOK*A104_LUOK_YHD / list missing; Esivalmistelut SAS ja SUDAANin analyysejä varten aineisto pitää järjestää STRATA/NEST-lauseessa olevan muuttujan mukaisesti. Osajoukkoanalyyseissa aineisto pitää järjestää myös osajoukon määrittävän muuttujan mukaan (esim. sukupuoli). proc sort data=maamu; by osite sukupuoli; SAS-analyysien äärellisen populaation korjausta varten ositteiden koot pitää viedä erilliseen tiedostoon. Sudaan osaa lukea ne suoraan datasta. proc freq data=maamu ; tables N*osite*ositus / out=nnn noprint; data NNN; set NNN; _TOTAL_ = N ; drop N COUNT PERCENT ; proc sort data=nnn; by osite;

4 Aineiston kuvailu DESIGN-optio ja TOTCNT/TOTAL-lause huomioivat äärellisen populaation korjauksen. NEST/STRATA-lause huomioi alue- ja tutkimusryhmäosituksen. WEIGHT-lauseella otetaan käyttöön painokertoimet, joilla huomioidaan ositekohtaiset poimintatodennäköisyydet ja kadon vaikutuksia. CLASS-lauseella kerrotaan analyysissä olevat luokitellut muuttujat. VAR-lause kertoo analysoitavan muuttujan. Jos muuttuja ei ole jatkuva, se tulee laittaa myös CLASSlauseeseen. Jos luvut halutaan laskea jonkin muun muuttujan eri tasoilla (esim. sukupuolittain), tulee käyttää TABLES/DOMAIN lausetta. Tällöin varianssiestimointi tapahtuu oikein. Tähteä(*) käyttämällä voidaan ristiintaulukoida tuloksia. Esim. SUKUPUOLI*IKA_3LK. SAS:ssa tulostettavat luvut määritellään SURVEYMEANS proseduurin PROC lauseessa ja SURVEYFREQ -proseduurin TABLES lauseessa. SETENV-lauseella määritellään desimaalien lukumäärä Sudaanin tulosteessa. PRINT-lauseella, joka on vapaaehtoinen, määritetään Sudaanissa tulostettavat sarakkeet ja niiden muotoilu. Tällä lauseella tulosteet voi myös viedä omaan tiedostoon filename ja filetype -optioilla. Tulosteet näkyvät oletuksena Output -ikkunassa. SAS:ssa tulokset voi viedä omaan tiedostoon lisäämällä alkuun ja loppuun ods-komennot. Print- ja ods-komennot toimivat samalla tavalla kaikissa SAS- ja Sudaanajoissa. Alla lihavoinnilla korostetut kohdat pitää sisällyttää kaikkia analyysiproseduureja käytettäessä, jotta otantaasetelma tulee huomioiduksi oikein. Tunnusluvut PROC DESCRIPT DATA=MAAMU DESIGN=STRWOR; CLASS koettuterveys SUKUPUOLI OSITUS; VAR koettuterveys; TABLES OSITUS*SUKUPUOLI; PRINT NSUM MEAN SEMEAN LOWMEAN UPMEAN / STYLE=NCHS filename="c:\desc_terv.rtf" filetype=rtf; proc surveymeans data=maamu total=nnn mean median nobs var clm ; strata osite; class koettuterveys ; var koettuterveys ; domain ositus*sukupuoli; Ristiintaulukointi, frekvenssit luokitelluilla muuttujilla PROC CROSSTAB DATA=MAAMU DESIGN=STRWOR; CLASS ositus A104_LUOK_YHD; TABLES sukupuoli*a104_luok_yhd; RBY ositus; PRINT NSUM WSUM ROWPER SEROW / STYLE=NCHS filename="c:\desc_a104.rtf" filetype=rtf; ods rtf file="c:\desc_a104.rtf"; proc surveyfreq data=maamu total=nnn; tables sukupuoli*a104_luok_yhd / OR row col chisq; by ositus; ods rtf close;

5 Regressioanalyysit CLASS-lauseella kerrotaan analyysissä olevat luokitellut selittävät muuttujat. MODEL-lauseella määritetään malli. TEST-lauseella, voidaan valita suoritettavat testit. EFFECTS/ESTIMATE lausetta käytetään kun halutaan testata luokitellun muuttujan eri luokkien välisiä yhteyksiä. Testisuureet ja niiden p-arvot lasketaan oletuksena vain referenssiluokan suhteen ja globaalisti. Sudaanin tulosteen Contrast-tauluun tulee kolme riviä lisää, jossa testataan valitun selittävän muuttujan eri luokkien välisiä eroja. Lineaarinen regressioanalyysi WEIGHT w_analysis_tt; CLASS IKA_3LK A201; MODEL R_BMI = IKA_3LK A201; RBY OSITUS; EFFECTS A201=(-1,1,0,0,0) / NAME="A201 1 vs 2"; EFFECTS A201=(0,0,-1,1,0) / NAME="A201 3 vs 4"; EFFECTS A201=(-1,0,0,0,1) / NAME="A201 1 vs 5"; proc surveyreg data=maamu total=nnn; weight w_analysis_tt; class IKA_3LK A201 ; model R_BMI = IKA_3LK A201 / solution; domain ositus; estimate "A201 1 vs 2" A ; estimate "A201 3 vs 4" A ; estimate "A201 1 vs 5" A ; Logistinen regressioanalyysi MULTILOG proseduurissa myös selitettävä muuttuja pitää laittaa CLASS-lauseeseen. Logistinen regressio tuottaa vetokertoimet (Odds Ratios (OR)). SAS:n CLASS lauseen param=ref optiolla voidaan säätää moniluokkaisen selittävän muuttujan referenssiluokka. Sudaanissa se onnistuu REFLEVEL lauseella. Alla olevissa koodeissa iän referenssiluokaksi on valittu alin luokka. Oletusarvo on aina ylin luokka. PROC MULTILOG DATA=MAAMU DESIGN=STRWOR; CLASS A601_LUOK IKA_3LK OSITUS; MODEL A601_LUOK = IKA_3LK OSITUS; REFLEVEL IKA_3LK = 1; EFFECTS ositus=(-1,1,0) / NAME="Venäjä vs Somali"; EFFECTS ositus=(-1,0,1) / NAME="Venäjä vs Kurdi"; EFFECTS ositus=(0,-1,1) / NAME="Somali vs Kurdi"; proc surveylogistic data=maamu total=nnn; class IKA_3LK (ref='1') OSITUS / param=ref; model A601_LUOK = IKA_3LK OSITUS ; estimate "Venäjä vs Somali" ositus ; estimate "Venäjä vs Kurdi" ositus ; estimate Somali vs Kurdi" ositus 0-1 1;

6 Mallivakiointi Mallivakioidut keskiarvot ja prevalenssit ovat saatavilla vain Sudaanissa. Regressioanalyysin avulla tapahtuva mallivakiointi (predictive margins, Graubard&Korn 1999, Biometrics) tapahtuu Sudaanin regressioproseduureissa PREDMARG-lauseen avulla. PREDMARG-lauseella kerrotaan muuttujat joille halutaan mallivakiointi. REGRESS proseduurissa lause tuottaa mallivakioidut keskiarvot ja MULTILOG proseduurissa mallivakioidut prevalenssit. Alla oleva koodi tuottaa ikävakioidut keskiarvot tutkimusryhmittäin. CLASS IKA_3LK OSITUS; MODEL Y = IKA_3LK OSITUS; PREDMARG OSITUS; Mallivakiointiin sukupuolittain on kaksi tapaa, jotka tuottavat keskenään hieman erilaiset luvut. Ensimmäinen tapa, joka tuottaa molempien sukupuolien luvut saman mallin avulla, on pääsääntöisesti suositeltavampi. Toinen tapa laskee luvut sukupuolittain erillisten mallien avulla. Jälkimmäistä tapaa on syytä käyttää jos tutkittava ilmiö on miehillä ja naisilla huomattavan erilainen. *Tapa 1; CLASS IKA_3LK OSITUS SUKUPUOLI; MODEL Y = IKA_3LK OSITUS*SUKUPUOLI; PREDMARG OSITUS*SUKUPUOLI; *Tapa 2; CLASS IKA_3LK OSITUS SUKUPUOLI; MODEL Y = IKA_3LK OSITUS*SUKUPUOLI; RBY SUKUPUOLI; PREDMARG OSITUS; Osajoukkoanalyysit Analyysit pitää tehdä aina erillisinä kullekin maahanmuuttajaryhmälle muulloin kuin maahanmuuttajatyhmien välisiä eroja tutkittaessa (jolloin OSITUS-muuttuja on mallissa selittävänä tekijänä). Kullekin osajoukolle erilliset analyysit saadaan RBY/DOMAIN lauseen avulla. Tällöin keskivirheisiin, p- arvoihin ja luottamusväleihin vaikuttava varianssiestimointi tapahtuu oikein. Jos analyysit halutaan tehdä vain jollekin tietylle osajoukolle (esim. tutkittaessa vain miehiä), se onnistuu Sudaanin SUBPOPN lauseen avulla. RBY ja SUBPOPN lauseita voi käyttää myös yhtä aikaa. Alla oleva Sudaan-koodi tuottaa analyysin vain miehille, kullekin maahanmuuttajaryhmälle erikseen. SAS-koodi tuottaa analyysin molemmille sukupuolille erikseen. PROC MULTILOG DATA=MAAMU DESIGN=STRWOR; CLASS A601_LUOK IKA_3LK A507_LUOK; MODEL A601_LUOK = IKA_3LK A507_LUOK; RBY OSITUS; SUBPOPN SUKUPUOLI=1; proc surveylogistic data=maamu total=nnn; class IKA_3LK A507_LUOK; model A601_LUOK = IKA_3LK A507_LUOK ; domain ositus*sukupuoli;

7 Analyysiesimerkkejä Stata-ohjelmistolla Otanta-asetelma kuvataan Stataa käytettäessä yhdellä komennolla aineiston lukemisen jälkeen, esim. haastattelupainot saadaan käyttöön komennolla svyset _n [pw=w_analysis_lhaa], strata(osite) fpc(n) Vastaavasti terveystarkastuspainot muuttamalla [pw=w_analysis_tt]. Tämän jälkeen analyysit tehdään kirjoittamalla kunkin analyysikomennon eteen svy: -etuliite. Tässä esimerkkeinä kahden proseduurin käyttö. Vastaavat, alla lihavoinnilla korostetut kohdat pitää sisällyttää myös muita proseduureja käytettäessä. fpc(n)-optio huomioi äärellisen populaation korjauksen. strata(osite) huomioi alue- ja tutkimusryhmäosituksen. [pw=w_analysis_lhaa] otetaan käyttöön painokertoimet, joilla huomioidaan ositekohtaiset poimintatodennäköisyydet ja kadon vaikutuksia. Kuvailevat tunnusluvut Haastattelupaino: svy: mean ika Regressioanalyysi svy: regress y i.ika_3lk ositus Mallivakiointi Regressioanalyysin avulla tapahtuva mallivakiointi (predictive margins, Graubard&Korn 1999, Biometrics) tapahtuu Statassa regressioanalyysin jälkeen annettavalla margins-komennolla. Esim. edellisessä kohdassa olevan lineaarisen regressioanalyysin jälkeen margins ositus, vce(unconditional) tuottaa ikävakioidut vastemuuttujan y keskiarvot tutkimusryhmittäin. Osajoukkoanalyysit Jos analyysit tehdään jossakin osajoukossa, esim. ikä-, sukupuoli- tai muita rajauksia käytettäessä, rajaus on suoritettava subpop()-optiota käyttämällä. Tällöin keskivirheisiin, p-arvoihin ja luottamusväleihin vaikuttava varianssiestimointi tapahtuu oikein. Esim. keskiarvot sukupuolittain: svy: mean weight, over(sex) Regressioanalyysi pelkästään miehille: svy, subpop(if sex==1): regress weight height