Puuttuvan tiedon ongelmat pitkittäistutkimuksissa



Samankaltaiset tiedostot
pitkittäisaineistoissa

pitkittäisaineistoissa

Epävarmuuden hallinta bootstrap-menetelmillä

Matemaatikot ja tilastotieteilijät

Yleistetyistä lineaarisista malleista

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

Regressioanalyysi. Kuusinen/Heliövaara 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Regressioanalyysi. Vilkkumaa / Kuusinen 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

Osa 2: Otokset, otosjakaumat ja estimointi

Tekijä(t) Vuosi Nro. Arviointikriteeri K E? NA

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

1. Tilastollinen malli??

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Tutkimustiedonhallinnan peruskurssi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Harjoitus 7: NCSS - Tilastollinen analyysi

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Parametrin estimointi ja bootstrap-otanta

805306A Johdatus monimuuttujamenetelmiin, 5 op

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Kemometriasta. Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Mat Tilastollisen analyysin perusteet, kevät 2007

Batch means -menetelmä

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

TILASTOLLISTEN MENETELMIEN KIRJO JA KÄYTTÖ LÄÄKETIETEEN TUTKIMUSJULKAISUISSA. Pentti Nieminen

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Harjoitus 2: Matlab - Statistical Toolbox

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

Dynaamiset regressiomallit

Sovellettu todennäköisyyslaskenta B

Väliestimointi (jatkoa) Heliövaara 1

Estimointi. Vilkkumaa / Kuusinen 1

NÄYTÖN ARVIOINTI: SYSTEMAATTINEN KIRJALLISUUSKATSAUS JA META-ANALYYSI. EHL Starck Susanna & EHL Palo Katri Vaasan kaupunki 22.9.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Mittaustulosten tilastollinen käsittely

Sovellettu todennäköisyyslaskenta B

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastotieteen aihehakemisto

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Harjoitukset 4 : Paneelidata (Palautus )

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

tilastotieteen kertaus

Lohkoasetelmat. Kuusinen/Heliövaara 1

riippumattomia ja noudattavat samaa jakaumaa.

Tilastollinen aineisto Luottamusväli

3.6 Su-estimaattorien asymptotiikka

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Seurantalaskimen simulointi- ja suorituskykymallien vertailu (valmiin työn esittely) Joona Karjalainen

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

Monitasomallit koulututkimuksessa

Harha mallin arvioinnissa

ABHELSINKI UNIVERSITY OF TECHNOLOGY

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Kojemeteorologia. Sami Haapanala syksy Fysiikan laitos, Ilmakehätieteiden osasto

Identifiointiprosessi

Matematiikan kotitehtävä 2, MAA 10 Todennäköisyys ja tilastot

Harjoitus 9: Excel - Tilastollinen analyysi

Mallipohjainen klusterointi

Imputoi puuttuvat kohdat

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luottamusvälit. Normaalijakauma johnkin kohtaan

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

761121P-01 FYSIIKAN LABORATORIOTYÖT 1. Oulun yliopisto Fysiikan tutkinto-ohjelma Kevät 2016

9. Tila-avaruusmallit

Marginaalirakennemallit epidemiologisessa tutkimuksessa. SSL seminaari / Tommi Pesonen

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Moniulotteisia todennäköisyysjakaumia

Transkriptio:

1/27 Puuttuvan tiedon ongelmat pitkittäistutkimuksissa Jaakko Nevalainen Tampereen yliopisto Sosiaalilääketieteen päivät 3.-4.11.2014

2/27 Sisältö 1 Johdanto ja peruskäsitteet 2 Mallintamiseen pohjautuvat menetelmät 3 Moni-imputointimenetelmät 4 Yhteenveto

3/27 Mitä on puuttuva data Pitkittäistutkimuksella tarkoitetaan aineistoja, joissa samoilta yksilöiltä havaitaan jono mittauksia samoista ominaisuuksista yli ajan Esimerkki: kolmelta yksilöltä mitataan pituutta vuosittain viiteen ikävuoteen asti X X X X X X X X O O X X X X X O O O Puuttuvalla tiedolla tarkoitetaan niitä havaintoja, jotka oli tarkoituskin kerätä.

4/27 Päätelmät puutteellisesta aineistosta Analyysin pohjalta tehtyjä johtopäätöksiä voidaan pitää valideina, mikäli: 1 aineiston pohjalta tehdyt arviot lääkkeen tai muun intervention tehosta eivät ole systemaattisesti harhaisia kumpaankaan suuntaan 2 arvion tarkkuutta kuvaava keskivirhe (sekä luottamusväli) vastaa sen todellista tarkkuutta 3 mitä suurempi aineisto, sitä lähempänä arviot intervention vaikutuksesta ovat todellista vaikutusta kohdepopulaatiossa (tilastotieteessä: tarkentuvuus) Mikäli puuttuvuutta on merkittävästi, näistä ehdoista mikään ei automaattisesti toteudu ja se on aina huolenaihe tulosten luotettavuutta arvioitaessa.

5/27 Täysin satunnainen puuttuvuus I engl. missing completely at random (MCAR) puuttuvuusmekanismi eli havainnon puuttuvuuden todennäköisyys on riippumaton sekä yksilön havaituista että havaitsemattomista ominaisuuksista esimerkkejä: mittauslaitteet epäkunnossa potilas estynyt tulemaan paikalle lapsen harrastuksen vuoksi muutto toiselle paikkakunnalle tällöin havaittu aineisto on yhä edustava sille populaatiolle, jota koko aineisto (so. havaittu + havaitsematta jääneet osat) olisi edustanut

6/27 Täysin satunnainen puuttuvuus II Kuva: Lasten keskimääräinen log BMI viiteen ikävuoteen asti (n=100). Musta viiva kuvaa täydellisesti havaittua aineistoa ja katkoviivat aineistoja, joista on täysin satunnaisesti valituilta lapsilta on havainnollistamistarkoituksessa tuhottu kolmen viimeisen aikapisteen (36, 48 ja 60kk) tiedot.

7/27 Täysin satunnainen puuttuvuus III n Keskiarvo Keskihajonta Keskivirhe Täysin havaittu aineisto 100 2.751 0.096 0.010 Puutteellinen 1 47 2.761 0.103 0.015 Puutteellinen 2 45 2.748 0.091 0.014 Puutteellinen 3 54 2.766 0.105 0.014 Puutteellinen 4 53 2.742 0.089 0.012 Puutteellinen 5 50 2.750 0.095 0.013 voidaan tyytyä analysoimaan vain aineiston havaittu osa ongelma: havaitun datan perusteella on mahdoton olla varma siitä, että puuttuvuusmekanismi todella on MCARtarvitaan perusteltuja oletuksia analyysin tueksi

8/27 Ehdollisesti satunnainen puuttuvuus I engl. missing at random (MAR) havainnon puuttuvuuden todennäköisyys on riippuu pelkästään yksilön havaituista ominaisuuksista, ja on riippumaton yksilön havaitsemattomista ominaisuuksista esimerkkejä: drop-out'n todennäköisyys riippuu sosioekonomisesta asemasta hyvin hoikkia lapsia seurataan tarkemmin kuin normaalipainoisia potilas lopettaa tutkimuslääkkeen käytön labra-arvojen noustua pahasti viitearvojen yläpuolelle tässä tärkeää: mitataan tiedot sosioekonomisesta asemasta, aiemmista mittauksista, labra-arvoista realistisempi oletus kuin MCAR

9/27 Ehdollisesti satunnainen puuttuvuus II Kuva: Lasten keskimääräinen log BMI viiteen ikävuoteen asti (n=100). Niillä lapsilla, joilla BMI oli hyvin alhainen kahden ikävuoden kohdalla, todennäköisyys havaita myös 3, 4 ja 5 vuoden BMI:t on selvästi korkeampi (87%) kuin muilla (n. 44%). Otoskeskiarvot puutteellisesta aineistosta ovat systemaattisesti harhaisia.

10/27 Ehdollisesti satunnainen puuttuvuus III Breaking news Tällöin parametreja kuten populaatiokeskiarvoja, regressiokertoimia jne. sekä niiden keskivirheitä voidaan kuitenkin arvioida esimerkiksi sellaisin uskottavuuspohjaisin menetelmin, jotka huomioivat riippuvuusrakenteet mittausten välillä moni-imputoimalla, kunhan imputointimallit on rakennettu huolellisesti

11/27 Ehdollisesti satunnainen puuttuvuus IV Sen sijaan complete case -analyysi tai simple & single imputation -menetelmät yhdistettynä marginaalianalyysiin ovat lähes aina harhaisia ja/tai antavat virheellisen kuvan analyysin tarkkuudesta Harhan suuruus ja suunta riippuu vieläpä täysin tilanteesta.

12/27 Ehdollisesti satunnainen puuttuvuus V Esimerkki Kokeessa estimoidaan lääkkeen (vs. lumelääke) tehoa luuntiheyteen, joka heikkenee tasaisesti iän myötä. Lääke todellisuudessa hidastaa heikkenemistä jonkin verran. Tehon arvioimiseksi aineiston perusteella paikataan kaikki puuttuvat arvot edellisellä havaitulla arvolla. Jos puuttuvuutta on pelkässä lumelääke-ryhmässä, lääkkeen teho näyttää huonommalta kuin se todellisuudessa onse saattaa jopa vaikuttaa lumelääkettä heikommalta. Jos puuttuvutta on pelkässä aktiivilääke-ryhmässä, lääkkeen teho näyttää paremmalta kuin se todellisuudessa on. Molemmissa tapauksissa lääkkeen tehoa kuvaava luottamusväli on paitsi väärin kohdistettu myös valheellisen kapea, koska puuttuvia arvoja käsitellään kuin ne olisivat todellisia arvoja.

13/27 Uskottavuuspohjaiset menetelmät I Normaalijakautumaoletuksiin pohjautuvat menetelmät kuten toistettujen mittausten ANOVA sekamallit, joiden erikoistapauksia ovat monitasomallit ja kasvukäyrämallit pyrkivät mallintamaan muutoksia ajassa määräämällä keskiarvorakenteen sekä kovarianssirakenteen (hajonnan muutos ajassa, havaintojen keskinäinen riippuvuus) Jokainen yksilö riippumatta siitä kuinka usealla aikapisteellä tätä yksilöä havaittiin vaikuttaa arvioihin keskiarvoista kaikilla aikapisteillä ehdollisen odotusarvonsa kautta. Saadaan puuttuvuuden suhteen korjattuja arvioita ja myös arvioidut keskivirheet ovat oikein.

14/27 Uskottavuuspohjaiset menetelmät II Kuva: Moniulotteiseen normaalijakaumaan perustuva keskiarvojen estimointi korjaa arvioita oikeaan suuntaan, eikä systemaattinen harha enää näy. Mallin vastemuuttujina log BMI vuosina 2-5 (toistettujen mittausten ANOVA).

15/27 Uskottavuuspohjaiset menetelmät III Tärkeää: mallipohjainen lähestymistapa toimii vain silloin kun 1 kaikki puuttuvuustodennäköisyyteen vaikuttavat havaitut muuttujat voidaan kerätä vastemuuttujiksi samaan malliin 2 niiden riippuvuusrakenne on osa mallia (esimerkiksi moniulotteisen normaalijakauman kovarianssimatriisi). Mikä tahansa tilastollinen malli ei tuota oikeita tuloksia! (joskus puuttuvuutta selittäviä tekijöitä voidaan käyttää myös kovariaatteina)

16/27 Moni-imputointi eli monipaikkaus I Moni-imputoinnilla eli monipaikkaukselle pyritään valideihin analyyseihin & johtopäätöksiin, ei ennustamaan yksittäisiä puuttuvia arvoja. Idea karkeasti ottaen: 1 Määrätään imputointimalli: mikä olisi puuttuvan muuttujan ehdollinen jakauma kun yksilöltä on havaittu yksi tai useampia muita muuttujien arvoja? Tämä yleensä jonkinlaisella regressiolla toteutettava malli perustuu vain täydellisesti havaittuihin yksilöihin ja näin voidaan tehdä vain kun vähintään MAR-oletus pätee.

17/27 Moni-imputointi eli monipaikkaus II 2 Imputointimallista generoidaan esimerkiksi viisi puuttuvan muuttujan mahdollista arvoa ja saadaan viisi täydellistä ja keskenään erilaista aineistoa.

18/27 Moni-imputointi eli monipaikkaus III 3 Suoritetaan suunniteltu analyysi jokaiselle aineistoista ja kerätään talteen tulokset keskivirheineen. 4 Yhdistetään tulokset keskiarvoistamalla ne. Oleellista on, että yhdistettyjen tulosten tarkkuus on imputointien sisäinen vaihtelu + imputointien välinen vaihtelu Jälkimmäinen komponentti siis kuvaa imputointiin liittyvää epävarmuutta eikä imputoituja havaintoja siten käsitellä kuten todellisia havaintoja.

19/27 Moni-imputointi pitkittäistutkimuksessa I Esimerkki Imputoidaan rekursiivisesti BMI 36kk jakaumasta ehdolla BMI ikähetkillä 0, 3,..., 24kk BMI 48kk jakaumasta ehdolla BMI ikähetkillä 0, 3,..., 36kk BMI 60kk jakaumasta ehdolla BMI ikähetkillä 0, 3,..., 48kk missä 36 ja 48kk:n tiedot olisi imputoitu, mutta huomaa imputointimallin (regression) perustuvan vain niihin yksilöihin joilta imputoitava muuttuja on havaittu. Tämä menettely johtaa käytännössä täysin samaan lopputulokseen kuin uskottavuuspohjainen analyysi.

20/27 Moni-imputointi pitkittäistutkimuksessa II Moni-imputoinneista ei ole hyötyä siinä tilanteessa, että uskottavuuspohjaisen mallin avulla voidaan ehdollistaa kaikille jakaumaan vaikuttavilla muuttujilla. Kuitenkin: Ajanhetkiä voi olla paljon. Muuttujia voi olla paljon per aikapiste ja lisäksi ne voivat olla keskenään tyypiltään erilaisia. Täydellisen uskottavuuspohjaisen mallin sovittaminen voi olla mahdotonta kun taas moni-imputointi saattaa olla mahdollista toteuttaa.

21/27 Moni-imputointi pitkittäistutkimuksessa III Esimerkki Lapsen BMI ajanhetkellä t assosioituu ainakin aiempiin ja myöhempiin BMI mittauksiin ruokavalioon liikuntaan perimään joihinkin sosioekonomisiin tekijöihin... Tekijöistä ruokavalio, liikunta ovat ajassa muuttuvia, kun taas perimä ja kenties SES eivät.

22/27 Moni-imputointi pitkittäistutkimuksessa IV Ideana imputointimallin ylisovitus kaikille imputoitaville ja mahdollisesti puuttuvuutta ennustaville tekijöille vuorotellen käyttäen iteratiivista menettelyä, ns. fully conditional specication suoraan tai two-fold FCS (Raghunathan et al., 2001; Nevalainen et al., 2009; Welch et al., 2014)

23/27 Moni-imputointi pitkittäistutkimuksessa V Pyritään pääsemään niin lähelle MAR oletuksen paikkansapitävyyttä kuin havaitun aineiston valossa on mahdollista. Täysin välttämätöntä on, että sekä kiinnostuksen kohteena oleva vastemuuttuja että analyysimallissa tutkittavien selittäjät (esim intervention ja ajan yhdysvaikutus) ovat osa imputointimallia Esimerkiksi R:n MICE (multiple imputation by chained equations) sekä MICEn Stata-toteutus ja SAS/IVEware (tulossa myös proc mi -proseduuriin) kykenevät sovittamaan valtavia imputointimalleja iteratiivisesti.

24/27 Moni-imputointi pitkittäistutkimuksessa VI Käytännössä monesti osoittautuu, että moni-imputoidut tulokset ovat lähes identtiset havaitun aineiston analyysin kanssa (Pulkki-Råback, et al., 2014 in press; Virtanen et al., 2012; Virtanen et al., 2014) Voidaan silloin nähdä tulosten validointina: puuttuvuus ei näytä aiheuttavan harhaa tuloksiin Sama tarkkuus havaitulla aineistolla ja moni-imputoidulla aineistolla ilmentää sitä, että puuttuvuuden informaatioarvo voi olla vähäinen Samankaltaisuus ei päde yleisesti (vrt. BMI esimerkki; Carpenter & Kenward, 2013)

25/27 Ei-satunnainen puuttuvuus Mikäli puuttuvuuden todennäköisyys riippuukin havaitsemattomista tekijöistä, puhutaan engl. missing not at random (MNAR) mekanismista Pattern mixture -mallit ovat sensitiivisyysanalyyseja, joissa analysoidaan havaittu data yhdessä puuttuvien havaintojen kanssa olettaen jälkimmäiselle jokin malli. Harhan määrää voidaan tällöin systemaattisesti arvioida. Painottamalla havaintoja sen mukaisesti kuinka vahvasti puuttuvuuden todennäköisyys riippuu vastemuuttujan arvoista voidaan myös tarkastella tulosten herkkyyttä MNAR mekanismille (Carpenter & Kenward, 2007) Oletukset molemmissa lähestymistavoissa hyvin voimakkaita.

26/27 Yhteenveto Arvioi puuttuvuuden määrää ja sen syitä. Tunnista puuttuvuuden tyyppi: (a) Täysin satunnainen (MCAR) pelkän havaitun aineiston analyysi riittää (b) Ehdollisesti satunnainen (MAR) valitse malli- tai imputointipohjainen lähestymistapa monimutkaisuuden asteen perusteella (c) Ei-satunnainen puuttuvuus (MNAR) mieti olisiko puuttuvuuden todennäköisyyteen vaikuttavat tekijät jotenkin saatavissa ja palattavissa tyyppiin (b) muutoin on tyydyttävä harhaisiin analyyseihin ja niiden perusteella haarukoimaan tulosten sensitiivisyyttä.

27/27 Avainkirjallisuutta Hyvä oppikirja (lukeminen vaatii teknistä osaamista): Carpenter JR and Kenward MG. Multiple Imputation and its Application. Wiley, 2013. Tästä saatavilla myös practical guide (online). Vuorotteleva imputointimenettely (FCS): Raghunathan TE et al. A multivariate technique for multiply imputing missing values using a sequence of regression models. Survey Methodology 2001; 27:8595. Muistilista siitä mitä puutteellisesta aineistosta tulisi raportoida: Sterne JAC et al. Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls. BMJ, 2009.