Tommi Härkänen, Teppo Juntunen, Eero Lilja Analyysiohjeita Maahanmuuttajien terveys- ja hyvinvointitutkimusaineiston käsittelemiseksi.

Samankaltaiset tiedostot
ATH-koulutus THL ATH-koulutus / Tommi Härkänen 1

ATH-koulutus: Stata 11 THL ATH-koulutus / Tommi Härkänen 1

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

Health 2000/2011 Surveys. Statistical Analysis using SAS and SAS-Callable SUDAAN Packages Esa Virtala.

1 Aineiston rakenne ja erikoisvaatimukset

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

Otanta-aineistojen analyysi

(78143) Syksy 2009 TEEMAT 3 & 4. Risto Lehtonen Teema 3 ERITYISKYSYMYKSIÄ. Risto Lehtonen 2

ATH-aineiston tilastolliset analyysit SPSS/PASW SPSS analyysit / Risto Sippola 1

Kvantitatiiviset menetelmät

Maahanmuuttajien terveys- ja hyvinvointitutkimus MAAMU

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Dynaamista ja joustavaa ohjelmointia - maukasta makrokielellä

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

HAVAITUT JA ODOTETUT FREKVENSSIT

Makrojen mystinen maailma lyhyt oppimäärä

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

2. Aineiston kuvailua

TUTKIMUSOPAS. SPSS-opas

Monitasomallit koulututkimuksessa

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Liite artikkeliin Intohimo tasa-arvoon

DATA-vaiheen ohjelmoijan yleissivistys helposti unohtuvia asioita

Yleistetyistä lineaarisista malleista

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

IDL - proseduurit. ATK tähtitieteessä. IDL - proseduurit

IBM SPSS Statistics 21 (= SPSS 21)

ATK tähtitieteessä. Osa 3 - IDL proseduurit ja rakenteet. 18. syyskuuta 2014

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tutkimustiedonhallinnan peruskurssi

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

Harjoitukset 4 : Paneelidata (Palautus )

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 4: Asetelmaperusteinen monimuuttuja-analyysi

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

SPSS-perusteet. Sisältö

5 Lisa materiaali. 5.1 Ristiintaulukointi

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

pitkittäisaineistoissa

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

4.2 Useampi selittävä muuttuja (kertausta)

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

Hierarkkisen aineiston mallintaminen ja otanta/pre-kurssi

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tutkiva ja kehittävä osaaja (3 op) Kyselyaineisto keruumenetelmänä opinnäytetyössä Ismo Vuorinen

Muuttujien määrittely

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Väliestimointi (jatkoa) Heliövaara 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

pisteet Frekvenssi frekvenssi Yhteensä

pitkittäisaineistoissa

RISTIINTAULUKOINTI JA Χ 2 -TESTI

Sovellettu todennäköisyyslaskenta B

Hieman linkkejä: lyhyt ohje komentoriviohjelmointiin.

1. Tilastollinen malli??

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Tilastomenetelmien lopputyö

805306A Johdatus monimuuttujamenetelmiin, 5 op

Matemaatikot ja tilastotieteilijät

Laskelmia puoluekannatuksesta Seppo

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

805306A Johdatus monimuuttujamenetelmiin, 5 op

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Usean selittävän muuttujan regressioanalyysi

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

BOOTSTRAPPING? Jukka Nyblom Jyväskylän yliopisto. Metodifestivaali

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

805306A Johdatus monimuuttujamenetelmiin, 5 op

TAPAUS-VERROKKITUTKIMUS

Maahanmuuttajien terveys- ja hyvinvointitutkimus. Tutkimusprofessori Seppo Koskinen, THL

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

riippumattomia ja noudattavat samaa jakaumaa.

Kandidaatintutkielman aineistonhankinta ja analyysi

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

SPSS OPAS. Metropolia Liiketalous

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

FSD2404. Naistutkimus - Kvinnoforskning -lehden ensimmäinen vuosikymmen Koodikirja

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta...

I. Ristiintaulukointi Excelillä / Microsoft Office 2010

Mediatutkimuskoulu 2009 Yleisimmät tunnusluvut

Harjoitus 9: Excel - Tilastollinen analyysi

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Transkriptio:

Tommi Härkänen, Teppo Juntunen, Eero Lilja Analyysiohjeita Maahanmuuttajien terveys- ja hyvinvointitutkimusaineiston käsittelemiseksi Taustaa Otoksen ositus kunnittain ja maahanmuuttajaryhmittäin Katso otospoiminnasta, Maamu-raportin (http://www.julkari.fi/handle/10024/90907) luku 2. Koska painokertoimet on kalibroitu maahanmuuttajaryhmittäin, tuloksia ei tule esittää maahanmuuttajat yhteensä -tyyppisesti. Otos on joissakin ositteissa huomattavan suuri suhteessa perusjoukon kokoon. Tällöin alueiden/kuntien välinen vertailu on mahdollista, koska eri alueilla/kunnissa perusjoukon koko vaihtelee huomattavasti, mutta kaikista kunnista on poimittu vähintään tietty minimimäärä henkilöitä tutkimusotokseen. Suorat keskiarvot ovat virheellisiä yhdistettäessä ositteita analyyseissa tarvitaan painokertoimet kuntakohtaisia tietoja yhdistettäessä Ositettu otanta ja kunnittain sekä tutkimusryhmittäin vaihtelevat poimintatodennäköisyydet vaikuttavat varianssiestimaatteihin p-arvot pienempiä ja luottamusvälit kapeampia Tarvitaan äärellisen populaation korjaus Äärellisen populaation korjaus (FPC) Miksi populaation rajallisuus vaikuttaa tulosten tarkkuuteen? Jos koko perusjoukko tutkittaisiin, saisimme tarkan tiedon väestön senhetkisestä tilasta, koska otannasta johtuvaa vaihtelua ei olisi esim. keskiarvon luottamusvälin leveys olisi nolla Jos otoksen osuus perusjoukosta on suuri kuten Maamu -aineistossa, niin tutkimatta jääneiden vaikutus väestökeskiarvoon on pieni, jolloin keskivirheet ja p-arvot ovat pääsääntöisesti pienempiä sekä luottamusvälit kapeampia kuin oletettaessa tavanomainen satunnaisotos (äärettömän) suuresta populaatiosta. Jos otos olisi vain pieni osa perusjoukosta, niin kyseessä olisi likimain tavallinen yksinkertainen satunnaisotanta (SRS), eikä FPC:ta tarvita. Painokertoimien taustaa: kato Osallistumisaktiivisuus vaihtelee ryhmittäin. Tarkemmat tiedot kadosta löytyvät Maamu-raportin luvusta 2, joka kuvaa myös miten kato on huomioitu painokertoimien muodostamisessa. Jos aktiivisuuteen vaikuttavat tekijät voidaan mitata sekä osallistuneista että katotapauksista, erot voidaan korjata hyvin (esim. rekisteritiedot: ikä, sukupuoli ja koulutus) oletus osallistuneiden ja katoon jääneiden henkilöiden samankaltaisuudesta vain osallistuneista, erojen huomioiminen on vaikeaa (esim. terveyteen ja toimintakykyyn liittyvät tekijät) kadon vaikutuksia ei voida täysin korjata painokertoimien avulla vaihtoehtoisia menetelmiä (esim. imputointi) on syytä harkita kadon vaikutuksien korjaamiseksi

Erilaiset painokertoimet Osallistuminen voidaan määritellä erilaisten kriteerien mukaan, jolloin saadaan erilaisia painokertoimia: Terveystarkastus Analysoitaessa terveystarkastusmuuttujia käytetään w_analysis_tt-painokerrointa. Haastattelut Analysoitaessa haastattelumuuttujia käytetään w_analysis_lhaa painokerrointa, jos muuttuja löytyy sekä pitkästä että lyhyestä lomakkeesta. Jos kysymys on ollut vain pitkässä lomakkeessa, käytetään w_analysis_haa-painokerrointa. Kun samassa analyysissä on sekä terveystarkastus- että haastattelumuuttujia, käytetään vastemuuttujan (selitettävä muuttuja) mukaista painokerrointa. Terveystarkastuksen painokertoimia voi käyttää myös haastattelukysymyksiin jos tutkimus rajautuu vain terveystarkastukseen osallistuneisiin. Edellä mainituista painoista on olemassa myös kahdenlaiset versiot: Analyysipainoja käytetään estimoitaessa erilaisia kuvailevia tunnuslukuja (esim. keskiarvoja) ja regressioanalyyseissä, eli lähes kaikissa analyyseissä. Korottavia painoja käytetään estimoitaessa väestössä olevia kokonaismääriä, esim. perusjoukossa olevien, tiettyä sairautta sairastavien henkilöiden lukumääriä. Nämä kertoimet tutkija voi tilata tarvittaessa tutkimusaineistoon. Painokertoimien kalibrointitavan takia kaikki ryhmät saa laittaa samaan malliin vain ryhmien välisiä eroja tutkittaessa (OSITUS muuttuja mallissa selittäjänä). Kaikki muut analyysit tulee tehdä kullekin ryhmälle erikseen. Muuta huomioitavaa Suositeltavia ohjelmistoja ovat SAS, SUDAAN sekä Stata. Näillä pystytään huomioimaan monimutkaiset otanta-asetelmat sekä tekemään mallivakiointia. SPSS:n ominaisuudet eivät ole riittäviä otanta-asetelman huomioitiin ilman Complex Samples lisämoduulia. R:llä ei toistaiseksi pysty tekemään mallivakiointia, mutta otanta-asetelman pystyy huomioimaan survey-paketin avulla. Jos mielenkiinnon kohteena on vain jokin tietty väestöryhmä, aineistosta ei saa poistaa kohderyhmään kuulumattomia havaintoja, jotta varianssiestimointi tapahtuu oikein. Jos tutkimus rajautuu esim. vain nuoriin naisiin, niin aineistosta ei saa poistaa miesten tai vanhempien ikäryhmien havaintoja. Osa-aineistoja saa käyttää vain maahanmuuttajaryhmittäin (esim. OSITUS = 1), joiden otoskoot ovat ennalta määrättyjä Tehtäessä vertailuja koko maan väestöön (Terveys2011-tutkimuksesta poimittu verrokkiaineisto mukana analyyseissa) tulee kiinnittää huomioita muuttujien vastaavuuteen ja otoskoon riittävyyteen. Erityisesti T2011:n osalta alle 30 vuotiaista on hyvin vähän terveystarkastuksessa käyneitä. Tutkijoiden käyttöön annettavaan aineistoon on valittu mukaan vain sellaisia muuttujia, joissa kysymysmuodot ovat riittävän vertailukelpoisia Maamu- ja Terveys 2011 tutkimuksissa. Tutkijan kannattaa kuitenkin aina tarkastaa kysymysten vastaavuus alkuperäisistä tutkimuslomakkeista ( www.thl.fi/maamu ja www.terveys2011.info) ja huomioida myös erot tarkasteltavaa kysymystä edeltävissä kysymyksissä. Aineisto on tarkastettu, mutta virheitä ja epätarkkuuksia on silti voinut jäädä havaitsematta. Ennen analyysejä on syytä verrata aineistoa (analyyseissa käytettävien muuttujien frekvenssit, jakaumat, ristiintaulukointi) ja lomaketta sekä tarkastaa, että hyppykäskyt yms. on huomioitu ja kirjattu aineistoon oikein. Dataan valmiiksi luodut yhdistelmämuuttujat on myös syytä tarkistaa ennen analyysejä.

Analyysiesimerkkejä SAS/Sudaan-ohjelmistolla Muuttujan uudelleen luokittelu Tässä esimerkkinä jatkuvan ikä-muuttujan luokittelu. DATA MAAMU; SET MAAMU; IF NOT MISSING (IKA2) THEN DO; IF IKA2 <= 24 THEN IKA_LUOK = 1; ELSE IF (IKA2 > 24 AND IKA2 <= 34) THEN IKA_LUOK = 2; ELSE IF (IKA2 > 34 AND IKA2 <= 44) THEN IKA_LUOK = 3; ELSE IF (IKA2 > 44 AND IKA2 <= 54) THEN IKA_LUOK = 4; ELSE IF (IKA2 > 54 AND IKA2 <= 64) THEN IKA_LUOK = 5; END; Esimerkki moniluokkaisen muuttujan muuntamisesta kaksiluokkaiseksi. DATA MAAMU; SET MAAMU; IF NOT MISSING (A104_LUOK) THEN DO; IF A104_LUOK = 1 THEN A104_LUOK_YHD = 1; ELSE IF A104_LUOK in (2,3,4,5) THEN A104_LUOK_YHD = 0; END; Muuttujamuunnoksen toimivuus on syytä tarkastaa vielä FREQ-proseduurin avulla. proc freq data=maamu; table A104_LUOK*A104_LUOK_YHD / list missing; Esivalmistelut SAS ja SUDAANin analyysejä varten aineisto pitää järjestää STRATA/NEST-lauseessa olevan muuttujan mukaisesti. Osajoukkoanalyyseissa aineisto pitää järjestää myös osajoukon määrittävän muuttujan mukaan (esim. sukupuoli). proc sort data=maamu; by osite sukupuoli; SAS-analyysien äärellisen populaation korjausta varten ositteiden koot pitää viedä erilliseen tiedostoon. Sudaan osaa lukea ne suoraan datasta. proc freq data=maamu ; tables N*osite*ositus / out=nnn noprint; data NNN; set NNN; _TOTAL_ = N ; drop N COUNT PERCENT ; proc sort data=nnn; by osite;

Aineiston kuvailu DESIGN-optio ja TOTCNT/TOTAL-lause huomioivat äärellisen populaation korjauksen. NEST/STRATA-lause huomioi alue- ja tutkimusryhmäosituksen. WEIGHT-lauseella otetaan käyttöön painokertoimet, joilla huomioidaan ositekohtaiset poimintatodennäköisyydet ja kadon vaikutuksia. CLASS-lauseella kerrotaan analyysissä olevat luokitellut muuttujat. VAR-lause kertoo analysoitavan muuttujan. Jos muuttuja ei ole jatkuva, se tulee laittaa myös CLASSlauseeseen. Jos luvut halutaan laskea jonkin muun muuttujan eri tasoilla (esim. sukupuolittain), tulee käyttää TABLES/DOMAIN lausetta. Tällöin varianssiestimointi tapahtuu oikein. Tähteä(*) käyttämällä voidaan ristiintaulukoida tuloksia. Esim. SUKUPUOLI*IKA_3LK. SAS:ssa tulostettavat luvut määritellään SURVEYMEANS proseduurin PROC lauseessa ja SURVEYFREQ -proseduurin TABLES lauseessa. SETENV-lauseella määritellään desimaalien lukumäärä Sudaanin tulosteessa. PRINT-lauseella, joka on vapaaehtoinen, määritetään Sudaanissa tulostettavat sarakkeet ja niiden muotoilu. Tällä lauseella tulosteet voi myös viedä omaan tiedostoon filename ja filetype -optioilla. Tulosteet näkyvät oletuksena Output -ikkunassa. SAS:ssa tulokset voi viedä omaan tiedostoon lisäämällä alkuun ja loppuun ods-komennot. Print- ja ods-komennot toimivat samalla tavalla kaikissa SAS- ja Sudaanajoissa. Alla lihavoinnilla korostetut kohdat pitää sisällyttää kaikkia analyysiproseduureja käytettäessä, jotta otantaasetelma tulee huomioiduksi oikein. Tunnusluvut PROC DESCRIPT DATA=MAAMU DESIGN=STRWOR; CLASS koettuterveys SUKUPUOLI OSITUS; VAR koettuterveys; TABLES OSITUS*SUKUPUOLI; PRINT NSUM MEAN SEMEAN LOWMEAN UPMEAN / STYLE=NCHS filename="c:\desc_terv.rtf" filetype=rtf; proc surveymeans data=maamu total=nnn mean median nobs var clm ; strata osite; class koettuterveys ; var koettuterveys ; domain ositus*sukupuoli; Ristiintaulukointi, frekvenssit luokitelluilla muuttujilla PROC CROSSTAB DATA=MAAMU DESIGN=STRWOR; CLASS ositus A104_LUOK_YHD; TABLES sukupuoli*a104_luok_yhd; RBY ositus; PRINT NSUM WSUM ROWPER SEROW / STYLE=NCHS filename="c:\desc_a104.rtf" filetype=rtf; ods rtf file="c:\desc_a104.rtf"; proc surveyfreq data=maamu total=nnn; tables sukupuoli*a104_luok_yhd / OR row col chisq; by ositus; ods rtf close;

Regressioanalyysit CLASS-lauseella kerrotaan analyysissä olevat luokitellut selittävät muuttujat. MODEL-lauseella määritetään malli. TEST-lauseella, voidaan valita suoritettavat testit. EFFECTS/ESTIMATE lausetta käytetään kun halutaan testata luokitellun muuttujan eri luokkien välisiä yhteyksiä. Testisuureet ja niiden p-arvot lasketaan oletuksena vain referenssiluokan suhteen ja globaalisti. Sudaanin tulosteen Contrast-tauluun tulee kolme riviä lisää, jossa testataan valitun selittävän muuttujan eri luokkien välisiä eroja. Lineaarinen regressioanalyysi WEIGHT w_analysis_tt; CLASS IKA_3LK A201; MODEL R_BMI = IKA_3LK A201; RBY OSITUS; EFFECTS A201=(-1,1,0,0,0) / NAME="A201 1 vs 2"; EFFECTS A201=(0,0,-1,1,0) / NAME="A201 3 vs 4"; EFFECTS A201=(-1,0,0,0,1) / NAME="A201 1 vs 5"; proc surveyreg data=maamu total=nnn; weight w_analysis_tt; class IKA_3LK A201 ; model R_BMI = IKA_3LK A201 / solution; domain ositus; estimate "A201 1 vs 2" A201-1 1 0 0 0; estimate "A201 3 vs 4" A201 0 0-1 0 1; estimate "A201 1 vs 5" A201-1 0 0 0 1; Logistinen regressioanalyysi MULTILOG proseduurissa myös selitettävä muuttuja pitää laittaa CLASS-lauseeseen. Logistinen regressio tuottaa vetokertoimet (Odds Ratios (OR)). SAS:n CLASS lauseen param=ref optiolla voidaan säätää moniluokkaisen selittävän muuttujan referenssiluokka. Sudaanissa se onnistuu REFLEVEL lauseella. Alla olevissa koodeissa iän referenssiluokaksi on valittu alin luokka. Oletusarvo on aina ylin luokka. PROC MULTILOG DATA=MAAMU DESIGN=STRWOR; CLASS A601_LUOK IKA_3LK OSITUS; MODEL A601_LUOK = IKA_3LK OSITUS; REFLEVEL IKA_3LK = 1; EFFECTS ositus=(-1,1,0) / NAME="Venäjä vs Somali"; EFFECTS ositus=(-1,0,1) / NAME="Venäjä vs Kurdi"; EFFECTS ositus=(0,-1,1) / NAME="Somali vs Kurdi"; proc surveylogistic data=maamu total=nnn; class IKA_3LK (ref='1') OSITUS / param=ref; model A601_LUOK = IKA_3LK OSITUS ; estimate "Venäjä vs Somali" ositus -1 1 0; estimate "Venäjä vs Kurdi" ositus -1 0 1; estimate Somali vs Kurdi" ositus 0-1 1;

Mallivakiointi Mallivakioidut keskiarvot ja prevalenssit ovat saatavilla vain Sudaanissa. Regressioanalyysin avulla tapahtuva mallivakiointi (predictive margins, Graubard&Korn 1999, Biometrics) tapahtuu Sudaanin regressioproseduureissa PREDMARG-lauseen avulla. PREDMARG-lauseella kerrotaan muuttujat joille halutaan mallivakiointi. REGRESS proseduurissa lause tuottaa mallivakioidut keskiarvot ja MULTILOG proseduurissa mallivakioidut prevalenssit. Alla oleva koodi tuottaa ikävakioidut keskiarvot tutkimusryhmittäin. CLASS IKA_3LK OSITUS; MODEL Y = IKA_3LK OSITUS; PREDMARG OSITUS; Mallivakiointiin sukupuolittain on kaksi tapaa, jotka tuottavat keskenään hieman erilaiset luvut. Ensimmäinen tapa, joka tuottaa molempien sukupuolien luvut saman mallin avulla, on pääsääntöisesti suositeltavampi. Toinen tapa laskee luvut sukupuolittain erillisten mallien avulla. Jälkimmäistä tapaa on syytä käyttää jos tutkittava ilmiö on miehillä ja naisilla huomattavan erilainen. *Tapa 1; CLASS IKA_3LK OSITUS SUKUPUOLI; MODEL Y = IKA_3LK OSITUS*SUKUPUOLI; PREDMARG OSITUS*SUKUPUOLI; *Tapa 2; CLASS IKA_3LK OSITUS SUKUPUOLI; MODEL Y = IKA_3LK OSITUS*SUKUPUOLI; RBY SUKUPUOLI; PREDMARG OSITUS; Osajoukkoanalyysit Analyysit pitää tehdä aina erillisinä kullekin maahanmuuttajaryhmälle muulloin kuin maahanmuuttajatyhmien välisiä eroja tutkittaessa (jolloin OSITUS-muuttuja on mallissa selittävänä tekijänä). Kullekin osajoukolle erilliset analyysit saadaan RBY/DOMAIN lauseen avulla. Tällöin keskivirheisiin, p- arvoihin ja luottamusväleihin vaikuttava varianssiestimointi tapahtuu oikein. Jos analyysit halutaan tehdä vain jollekin tietylle osajoukolle (esim. tutkittaessa vain miehiä), se onnistuu Sudaanin SUBPOPN lauseen avulla. RBY ja SUBPOPN lauseita voi käyttää myös yhtä aikaa. Alla oleva Sudaan-koodi tuottaa analyysin vain miehille, kullekin maahanmuuttajaryhmälle erikseen. SAS-koodi tuottaa analyysin molemmille sukupuolille erikseen. PROC MULTILOG DATA=MAAMU DESIGN=STRWOR; CLASS A601_LUOK IKA_3LK A507_LUOK; MODEL A601_LUOK = IKA_3LK A507_LUOK; RBY OSITUS; SUBPOPN SUKUPUOLI=1; proc surveylogistic data=maamu total=nnn; class IKA_3LK A507_LUOK; model A601_LUOK = IKA_3LK A507_LUOK ; domain ositus*sukupuoli;

Analyysiesimerkkejä Stata-ohjelmistolla Otanta-asetelma kuvataan Stataa käytettäessä yhdellä komennolla aineiston lukemisen jälkeen, esim. haastattelupainot saadaan käyttöön komennolla svyset _n [pw=w_analysis_lhaa], strata(osite) fpc(n) Vastaavasti terveystarkastuspainot muuttamalla [pw=w_analysis_tt]. Tämän jälkeen analyysit tehdään kirjoittamalla kunkin analyysikomennon eteen svy: -etuliite. Tässä esimerkkeinä kahden proseduurin käyttö. Vastaavat, alla lihavoinnilla korostetut kohdat pitää sisällyttää myös muita proseduureja käytettäessä. fpc(n)-optio huomioi äärellisen populaation korjauksen. strata(osite) huomioi alue- ja tutkimusryhmäosituksen. [pw=w_analysis_lhaa] otetaan käyttöön painokertoimet, joilla huomioidaan ositekohtaiset poimintatodennäköisyydet ja kadon vaikutuksia. Kuvailevat tunnusluvut Haastattelupaino: svy: mean ika Regressioanalyysi svy: regress y i.ika_3lk ositus Mallivakiointi Regressioanalyysin avulla tapahtuva mallivakiointi (predictive margins, Graubard&Korn 1999, Biometrics) tapahtuu Statassa regressioanalyysin jälkeen annettavalla margins-komennolla. Esim. edellisessä kohdassa olevan lineaarisen regressioanalyysin jälkeen margins ositus, vce(unconditional) tuottaa ikävakioidut vastemuuttujan y keskiarvot tutkimusryhmittäin. Osajoukkoanalyysit Jos analyysit tehdään jossakin osajoukossa, esim. ikä-, sukupuoli- tai muita rajauksia käytettäessä, rajaus on suoritettava subpop()-optiota käyttämällä. Tällöin keskivirheisiin, p-arvoihin ja luottamusväleihin vaikuttava varianssiestimointi tapahtuu oikein. Esim. keskiarvot sukupuolittain: svy: mean weight, over(sex) Regressioanalyysi pelkästään miehille: svy, subpop(if sex==1): regress weight height