ATH-koulutus THL 16.2.2011 16. 2. 2011 ATH-koulutus / Tommi Härkänen 1
Sisältö Otanta-asetelma Ositus ja 75 vuotta täyttäneiden ylipoiminta Painokertoimet Tulosten esittäminen: mallivakiointi Esimerkit SAS/SUDAAN Stata/R SPSS Keskustelu 16. 2. 2011 ATH-koulutus / Tommi Härkänen 2
Ositus ja otoskoot Tutkimusalueet Koko Manner-Suomi, otoskoko 5 000 Alueet (Turku, Kainuu ja osia Pohjois-Pohjanmaasta) Alueet jaettiin vielä pienempiin ositteisiin: Turku 9 ositetta, otoskoot 1 000 Kainuu 3 ositetta, otoskoot 3 000 Pohjois-Pohjanmaa 2 ositetta, otoskoot 4 000 HUOMIO! Jos analysoidaan koko aineisto, eli em. 4 tutkimusaluetta, niin tulokset eivät edusta koko maata, koska alueositteet painottuvat liikaa: Koko maan tulokset saadaan käyttämällä pelkästään koko maan otosta! Jokaisessa alueositteessa ikä ja sukupuoliositus: Ikäluokat 20-74 ja 75-99, jälkimmäisestä ylipoiminta Sukupuoli 16. 2. 2011 ATH-koulutus / Tommi Härkänen 3
Osituksen vaikutuksia Alueiden vertailu on helpompaa, koska eri alueilla perusjoukon koko vaihtelee Otos on joissakin ositteissa huomattavan suuri suhteessa perusjoukon kokoon Esim. Ylä-Kainuussa 75-vuotta täyttäneistä miehistä otokseen poimittiin n. 48 % perusjoukosta Manner-Suomen otoksessa poimittiin vain n. 0,1 % Suorat keskiarvot ovat virheellisiä yhdistettäessä ositteita Painokertoimet Vaikutuksia varianssiestimaattiin p-arvot pienempiä ja luottamusvälit kapeampia Äärellisen populaation korjaus 16. 2. 2011 ATH-koulutus / Tommi Härkänen 4
Äärellisen populaation korjaus (FPC) Miksi populaation rajallisuus vaikuttaa tulosten tarkkuuteen? Jos koko perusjoukko tutkittaisiin, niin saisimme tarkan tiedon väestön senhetkisestä tilasta, koska otannasta johtuvaa vaihtelua ei olisi esim. keskiarvon luottamusvälin leveys olisi nolla Jos otoksen osuus perusjoukosta olisi suuri, niin tutkimatta jääneiden vaikutus väestökeskiarvoon olisi pieni Jos otos on vain pieni osa perusjoukosta, niin kyseessä on likimain tavallinen yksinkertainen satunnaisotanta (SRS), eikä FPC:ta tarvita 16. 2. 2011 ATH-koulutus / Tommi Härkänen 5
Painokertoimien taustaa: otos Yksilöillä erilaiset poimintatodennäköisyydet 75-vuotta täyttäneillä suurempi poimintatodennäköisyys Esim. suora keskiarvo havainnoista antaa liian suuren painoarvon 75 vuotta täyttäneille Poimintatodennäköisyydet vaihtelevat alueittain Alueita yhdistettäessä alueositteet, joista on poimittu otokseen suurempi osuus, saisivat liian suuren painoarvon 16. 2. 2011 ATH-koulutus / Tommi Härkänen 6
Painokertoimien taustaa: kato Yksilöiden osallistumisaktiivisuus vaihtelee Jos aktiivisuuteen vaikuttavat tekijät havaitaan sekä osallistuneista että katotapauksista, erot voidaan korjata hyvin (esim. rekisteritiedot ikä, sukupuoli ja koulutus) oletus havaittujen ja katotapausten samankaltaisuudesta vain osallistuneista, erojen huomioiminen on vaikeaa (esim. terveyteen ja toimintakykyyn liittyvät tekijät) vahvoja oletuksia kadon luonteesta 16. 2. 2011 ATH-koulutus / Tommi Härkänen 7
Osallistumisasteita (%) Ikäryhmä 20-24 25-34 35-44 45-54 55-64 65-74 75-84 85-99 Miehet 22 27 31 40 52 60 61 44 Naiset 40 44 45 54 62 67 57 43 16. 2. 2011 ATH-koulutus / Tommi Härkänen 8
Osallistumisasteita (%) Koulutus Keskiaste Alin korkea-aste Alempi korkeakouluaste Ylempi korkeakouluaste Tutkijakoulutusaste Koulutusaste tuntematon Osallistuneita 44 60 53 56 55 45 16. 2. 2011 ATH-koulutus / Tommi Härkänen 9
Osallistumisasteita (%) Avioliitossa Osallistuneita Kieli Osallistuneita Kyllä 54 Suomi 48 Ei 42 Ruotsi 47 Englanti 40 Venäjä 40 16. 2. 2011 ATH-koulutus / Tommi Härkänen 10
Osallistumisasteita (%) Alue Osall. Alue Osall Suomi 46 Turun keskusta 48 Kajaanin seutu 51 Hirvensalo-Kakskerta 41 Kuhmo, Sotkamo 51 Skanssi-Uittamo 52 Ylä-Kainuu 54 Varissuo-Lauste 45 Oulun Eteläinen 47 Nummi-Halinen 44 Oulun seutu 45 Runosmäki-Raunistula 49 Länsikeskus 52 Pansio-Jyrkkälä 39 Maaria-Paattinen 44 16. 2. 2011 ATH-koulutus / Tommi Härkänen 11
Painokertoimien taustaa: menetelmä Painokertoimet on muodostettu käyttämällä logistiseen regressiomalliin perustuvaa käänteistodennäköisyyspainotusta (IPW) ATH painokertoimissa huomioitu Otanta Alkuperäinen poimintatodennäköisyys (perusjoukon koko / otoskoko) Kato Tutkimusalue Ikäluokka ja sukupuoli Avioliittostatus Tutkinto Kieliryhmä 16. 2. 2011 ATH-koulutus / Tommi Härkänen 12
Painokertoimien tulkinta Painokertoimen arvo voi olla erilainen jokaiselle tutkimukseen osallistuneelle yksilölle Mitä suurempi painokertoimen arvo, sitä suurempi vaikutus lopputuloksiin Kadon huomioimisessa esim. 25% osallistumisasteella painokertoimen arvoksi tulisi 4, joka tarkoittaa, että yksi tutkimukseen osallistunut edustaa neljää otokseen poimittua Analyyseissä painokertoimet skaalataan siten, että painokertoimien summa vastaa osallistuneiden lukumäärää käytettäessä survey-ohjelmistoja skaalaus tapahtuu automaattisesti 16. 2. 2011 ATH-koulutus / Tommi Härkänen 13
Painotuksen ja osituksen vaikutuksia Tarkastellaan esimerkkejä, joissa keskiarvoja estimoidaan painotuksella tai ilman, ja huomioimalla ositus ja äärellinen populaatio, tai ei Keskiarvoesimerkkien tuloksia voidaan nähdä myös monimutkaisemmissa analyyseissä 16. 2. 2011 ATH-koulutus / Tommi Härkänen 14
Esimerkkiaineiston analyysimuuttujat Rekisteritiedot: Suuralue rg_geo_area: Kainuu (1), P-Pohjanmaa (2), Turku (3) Sukupuoli rg_gender: mies (1), nainen (2) Ikä rg_age_2 (vuosina) Koulutus rg_educ: perus- (1), keski- (2), korkea-aste (3) Kyselytiedot: Painoindeksi ath_bmi = paino / pituus 2 (kg / m 2 ) Dikotominen painoindeksi Ath_bmi_2: <25 (0), 25+ (1) Kolmiluokkainen painoindeksi Ath_bmi_3: <25 (1), 25-<30 (2), 30+ (3) 16. 2. 2011 ATH-koulutus / Tommi Härkänen 15
Otanta-asetelman kuvaavat muuttujat Osite w_strata alue-, ikä- ja sukupuoliositteille (14 x 2 x 2 = 56 eri arvoa) Analyysipaino w_analysis huomioi erilaiset poimintatodennäköisyydet Väkiluku ositteessa w_n äärellisen populaation korjausta varten 16. 2. 2011 ATH-koulutus / Tommi Härkänen 16
Otanta-asetelman vaikutus: erilaiset poimintatodennäköisyydet -------------------------------------------------------------- Mean -------------+------------------------------------------------ rg_age_2 57.03926 Koko otoksen keskiarvo rg_age_2 47.97872 Painotettu, väestöä edustava keskiarvo -------------------------------------------------------------- Analyysimuuttujana ikä Ero johtuu erityisesti 75 vuotta täyttäneiden ylipoiminnasta Lisäksi alueittaiset poimintatodennäköisyydet vaihtelevat 16. 2. 2011 ATH-koulutus / Tommi Härkänen 17
Painotuksen vaikutus: kato -------------------------------------------------------------- Mean -------------+------------------------------------------------ ath_bmi 26.34463 Ei painoja ath_bmi 25.99508 Painotus -------------------------------------------------------------- Vasteena BMI Painottaminen laskee BMI-keskiarvoja Osallistumisaktiivisuus on pienin nuorilla (erityisesti miehillä), joilla on myös vähemmän ylipainoa 16. 2. 2011 ATH-koulutus / Tommi Härkänen 18
Painotuksen vaikutus: kato Osajoukko: Turku 20-59 vuotiaat, koulutusryhmittäin --------------------------------------- Over Ei painoja Painot -------------+------------------------- ath_bmi basic 27.26992 26.69918 middle 25.8803 25.3783 high 25.17389 24.93658 --------------------------------------- Vasteena BMI Painottaminen laskee BMI-keskiarvoja, myös palvelualueittain ja sukupuolittain Painotus pienentää Keski-ikäisten, avioliitossa olevien ja suomen- ja ruotsinkielisten painoarvoa 16. 2. 2011 ATH-koulutus / Tommi Härkänen 19
Otanta-asetelman vaikutus Ositus ja äärellisen populaation korjaus -------------------------------------------------------------- Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------ Pelkät painokertoimet: ath_bmi 25.99508.0559364 25.88544 26.10472 Painokertoimet, ositus ja äärellisen populaation korjaus: ath_bmi 25.99508.0547458 25.88777 26.10239 -------------------------------------------------------------- Vasteena BMI Äärellisen populaation korjaus pienentää BMI-keskiarvon keskivirhettä kapeammat luottamusvälit, pienemmät p-arvot Ero on pieni, koska mukana on useita alueita, joilta on poimittu vain pieni osa perusjoukosta 16. 2. 2011 ATH-koulutus / Tommi Härkänen 20
Ositus ja äärellisen populaation korjaus Osajoukko: Kainuu 20-59 vuotiaat, koulutusryhmittäin ------------------------------------------------------------ Vasteena BMI Pelkät painot Painot, ositus ja äärell. pop. korj. Over Mean Std. Err. Std. Err. -------------+---------------------------------------------- ath_bmi basic 27.18548.3686005.3573181 middle 26.28475.1555685.1514742 high 25.77333.1967462.1914409 ------------------------------------------------------------ Äärellisen populaation korjaus laskee BMI-keskiarvon keskivirhettä kapeammat luottamusvälit, pienemmät p-arvot 16. 2. 2011 ATH-koulutus / Tommi Härkänen 21
Ositus ja äärellisen populaation korjaus Osajoukko: Kainuu 75+ vuotiaat, koulutusryhmittäin Vasteena BMI Pelkät painot Painot, ositus ja äärell. pop. korj. Over Mean Std. Err. Std. Err. -------------+---------------------------------------------- ath_bmi basic 26.55965.1638022.1523104 middle 26.46542.3360603.3142064 high 24.93778.2745826.2510726 Äärellisen populaation korjaus (FPC) laskee BMI-keskiarvon keskivirhettä kapeammat luottamusvälit, pienemmät p-arvot FPC vaikuttaa erityisesti 75-vuotta täyttäneillä ja alueilla, joista on poimittu suuri osa väestöstä otokseen 16. 2. 2011 ATH-koulutus / Tommi Härkänen 22
Ositus ja äärellisen populaation korjaus Robust Linearized ath_bmi Coef. Std. Err. P> t Std. Err. P> t -------------+--------------------------------------------------- rg_geo_area 2 -.2281944.1186775 0.055.1163227 0.050 3 -.4185488.1211929 0.001.1179537 0.000 rg_gender -.9109727.1082548 0.000.1067687 0.000 rg_age_2.0488707.0028789 0.000.0028185 0.000 _cons 25.29563.2358975 0.000.2322352 0.000 Lineaarinen regressiomalli, vasteena BMI Äärellisen populaation korjauksella (FPC) vaikuttaa vastaavalla tavalla kuin kuvailevilla tunnusluvuilla, ts. keskivirheet pienenevät 16. 2. 2011 ATH-koulutus / Tommi Härkänen 23
Mallivakiointi Sekoittavien tekijöiden vaikutuksen huomioiminen Ryhmien välisen eron arviointia vaikeuttavat sekoittavat tekijät, esim. usein ikä Regressiokertoimien (erit. Odds Ration ym.) suora tulkinta voi olla hankalaa vasteen alkuperäisellä skaalalla tai vertailu havaittuihin keskiarvoihin tai esiintyvyyksiin Apuvälineenä voi käyttää predictive margins * mallivakiointimenetelmää, joka on käytettävissä jo useissa tilastollisissa ohjelmistoissa (Stata ja Sudaan, SAS-makro) * Graubard ja Korn (1999). Biometrics. 16. 2. 2011 ATH-koulutus / Tommi Härkänen 24
Mallivakiointi Sekoittavien tekijöiden vaikutuksen huomioiminen 1. Mallivakioinnissa käytetään regressiomallitusta sekoittavien tekijöiden vaikutuksen huomioimiseksi 2. Regressiomallin tuottamien estimaattien avulla lasketaan jokaiselle yksilölle ennustearvot asettamalla yksilöt vuoronperään yhteen vertailtavista ryhmistä 3. Yksilöllisten ennustearvojen keskiarvo kuvaa (hypoteettista) tilannetta, jossa kaikki yksilöt kuuluisivat samaan ryhmään 4. Tuloksena saatavat ryhmäkohtaiset keskiarvot ovat vakioituja regressiomallissa olevien sekoittavien tekijöiden suhteen 16. 2. 2011 ATH-koulutus / Tommi Härkänen 25
Mallivakiointi Esimerkki: Ylipainon yleisyys (BMI>25) Halutaan verrata ylipainon esiintyvyyttä koulutus- ja sukupuoliryhmittäin Logistinen regressiomalli: ikä * sukupuoli * koulutus Mallivakiointi laskee peruskoulutettujen ja nostaa keskiasteen koulutuksen saaneiden esiintyvyyksiä Havaitut Mallivakioidut Mean Std. Err. Margin Std. Err. -------------+----------------------------------------------- rg_educ# rg_gender basic male.6714772.0192471.6482221.0272461 basic female.5951288.0149251.5333238.0303124 middle male.566983.0153867.6056131.0136351 middle female.4672109.012871.4995317.0124363 high male.6040196.0166645.5912205.0185152 high female.4047756.0129616.4071881.0126859 16. 2. 2011 ATH-koulutus / Tommi Härkänen 26
Mallivakiointi Ylipainoisuus assosioituu ikään Vanhoissa ikäluokissa koulutustaso matalampi Ikä Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------ basic 60.74512.5422323 59.68226 61.80798 middle 42.01832.3105894 41.40951 42.62712 high 46.15888.2808584 45.60836 46.70941 BMI > 25 Mean Std. Err. [95% Conf. Interval] -----------------+------------------------------------------------ rg_age10 = 20-29.3497672.0164015.3176175.3819168 rg_age10 = 30-39.4898698.0176666.4552404.5244993 rg_age10 = 40-49.5867602.0155065.556365.6171554 rg_age10 = 50-59.6079665.0131195.5822501.6336829 rg_age10 = 60-69.6665985.0123384.6424132.6907838 rg_age10 = 70-79.6283113.0138186.6012245.6553981 rg_age10 = 80-89.5652481.0178046.5303481.6001481 rg_age10 = 90-99.4409552.0625038.3184375.5634728 16. 2. 2011 ATH-koulutus / Tommi Härkänen 27
Lopuksi Painokertoimien käyttäminen on välttämätöntä otannan (ja kadon) huomioimiseksi Äärellisen populaation korjaus (FPC) huomioi suuren poimintasuhteen vaikutuksen ja tuottaa tarkemmat tulokset Mallivakioinnilla voi kuvata ryhmien välisiä eroja, kun sekoittavien tekijöiden (kuten iän) erilaisten ryhmäkohtaisten jakaumien vaikutus on vakioitu 16. 2. 2011 ATH-koulutus / Tommi Härkänen 28