pitkittäisaineistoissa

Samankaltaiset tiedostot
pitkittäisaineistoissa

Puuttuvan tiedon ongelmat pitkittäistutkimuksissa

Osa 2: Otokset, otosjakaumat ja estimointi

Harjoitus 7: NCSS - Tilastollinen analyysi

805306A Johdatus monimuuttujamenetelmiin, 5 op

Sovellettu todennäköisyyslaskenta B

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Väliestimointi (jatkoa) Heliövaara 1

Tilastollinen aineisto Luottamusväli

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

1. Tilastollinen malli??

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

tilastotieteen kertaus

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Estimointi. Vilkkumaa / Kuusinen 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tutkimustiedonhallinnan peruskurssi

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

riippumattomia ja noudattavat samaa jakaumaa.

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

6. laskuharjoitusten vastaukset (viikot 10 11)

3.6 Su-estimaattorien asymptotiikka

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Parametrin estimointi ja bootstrap-otanta

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

4.0.2 Kuinka hyvä ennuste on?

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Harha mallin arvioinnissa

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Otoskoko 107 kpl. a) 27 b) 2654

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Todennäköisyyden ominaisuuksia

Testejä suhdeasteikollisille muuttujille

Mallipohjainen klusterointi

,ܾ jaü on annettu niin voidaan hakea funktion

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

dx=5&uilang=fi&lang=fi&lvv=2014

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Matemaatikot ja tilastotieteilijät

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus regressioanalyysiin

Tilastolliset mallit hakkuukoneen katkonnan ohjauksessa. Tapio Nummi Tampereen yliopisto

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

/1. MTTTP5, luento Kertausta. Olk. X 1, X 2,..., X n on satunnaisotos N(µ, ):sta, missä tunnettu. Jos H 0 on tosi, niin

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Tilastollinen päättely II, kevät 2017 Harjoitus 1A

Sovellettu todennäköisyyslaskenta B

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Testit järjestysasteikollisille muuttujille

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Maximum likelihood-estimointi Alkeet

BOOTSTRAPPING? Jukka Nyblom Jyväskylän yliopisto. Metodifestivaali

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

9. laskuharjoituskierros, vko 12-13, ratkaisut

Transkriptio:

Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Puuttuvan tiedon ongelma p. 2/18 Johdanto Pitkittäisaineistoissa on varsin tavallista, että kaikille vastemuuttujille ei saada mitattuja arvoja. Puuttuva tieto voi syntyä monella tavalla. Esimerkiksi, mittaus voi puuttua jonakin ajankohtana ja jonakin myöhempänä ajankohtana mittaus saadaan tai mittauksia saadaan johonkin ajanhetkeen asti, jonka jalkeen mittauksia ei enää saada (ns. dropout).

Puuttuvan tiedon ongelma p. 3/18 Puuttuva tieto tekee analyysin vaikeaksi monella tavalla: Mittauksia ei saada kaikille yksilöille samoissa aikapisteissä (imbalance) monia tilastollisia menetelmiä ei voida suoraan käyttää. Informaatiota menetetään estimoinnin tarkkuus heikkenee. Voi aiheuttaa tuloksiin harhaa voi johtaa vääriin johtopäätöksiin. Puuttuvan tiedon generoiva mekanismi on siten aina huolellisesti tutkittava.

Puuttuvan tiedon ongelma p. 4/18 Puuttuvan tiedon tyypit Otetaan käyttöön seuraavat merkinnät: Y = (Y 1,...,Y n ) mahdollisten arvojen vektori ja R = (R 1,...,R n ) indikaattori-vektori. Nyt siis R j = 1, jos Y j on havaittu ja R j = 0, jos Y j puuttuu Lisäksi merkitään Y O havaittu osa (observed) Y M puuttuva osa (missing)

Puuttuvan tiedon ongelma p. 5/18 Puuttuva tieto voidaan jaotella kolmeen päätyyppiin R:n ja Y :n keskinäisen suhteen perusteella Täysin satunnainen (MCAR, missing completele at random) Satunnainen (MAR, missing at random) Ei-satunnainen (NMAR, not missing at random) Käytettäessä tilastollisia menetelmiä on huomioitava minkä tyyppisestä puuttuvasta tiedosta kulloinkin on kysymys.

Puuttuvan tiedon ongelma p. 6/18 Täysin satunnainen (MCAR) Puuttuva tieto on täysin satunnaista, jos R on riippumaton sekä Y O :sta että Y M :stä. Esimerkiksi jos Y = (Y 1,Y 2 ), missä Y 1 on täysin havaittu ja Y 2 voi sisältää puuttuvia. Nyt jos Y 2 on MCAR, niin P(R 2 = 1 Y 1,Y 2,X) = P(R 2 = 1 X), eli tn, että Y 2 puuttuu ei riipu muuttujista Y 1 eikä Y 2.

Puuttuvan tiedon ongelma p. 7/18 Huomaa riippuvuus kovariaateista X. Oletus on, että mukana ovat kaikki muuttujien R ja Y ennustamisen kannalta relevantit kovariaatit. Jos jokin tärkeä kovariaatti puuttuu, ei MCAR pidä paikkansa. Jos puuttuva on MCAR, niin saatu aineisto voidaan olettaa otokseksi "täydellisestä" aineistosta. Analyysin tekeminen vain niille havainnoille, joilta on saatu kaikki mittaukset antaa periaatteessa oikean tuloksen, mutta pienemmällä otoskoolla.

Puuttuvan tiedon ongelma p. 8/18 Satunnainen (MAR) Puuttuminen on satunnaista, jos voidaan olettaa, että puuttuminen riippuu havaituista arvoista (mutta ei riipu arvoista joita oltaisiin voitu havaita). Saadaan siis P(R Y O,Y M,X) = P(R Y O,X) Huom. annetuilla Y O :n arvoilla puuttuminen on satunnaista eikä riipu arvoista Y M.

Puuttuvan tiedon ongelma p. 9/18 Esimerkkinä voidaan mainita tilanne, jossa tutkimusprotokolla edellyttää, että koe keskeytetään, jos vasteen arvot ylittävät jonkin ennalta asetetun rajan. Nyt puuttuminen on kontrolloitua ja riippuu ainoastaan havaituista arvoista Y O.

Puuttuvan tiedon ongelma p. 10/18 Havaintoja ei nyt voida pitää satunnaisotoksena kohdepopulaatiosta. Eräs tärkeä seuraus on, että analyysin tekeminen vain "täydellisille" havainnnoille saattaa johtaa harhaisiin tuloksiin. "Täydellisestä" aineistosta lasketut estimaatit (keskiarvo, varianssi jne.) ovat nyt vastaavien perusjoukon parametrien harhaisia estimaatteja.

Puuttuvan tiedon ongelma p. 11/18 Havaitun datan suhteen lasketut ehdolliset jakaumat ovat kuitenkin samat kuin kohdepopulaatiossa. Jos malli on oikein spesifiotu, niin havaittuja arvoja käyttäen puuttuvat arvot voidaan kuitenkin periaatteesa ennustaa. Jos esimerkiksi oletetaan normaalijakauma, niin E(Y M Y O ) = µ M + Σ MO Σ O 1 (Y O µ O ). Huomaa riippuvuus odotusarvon µ ja kovarianssimatriisin Σ malleista.

Puuttuvan tiedon ongelma p. 12/18 Jos puuttuvat ovat MAR, niin arvot voidaan ennustaa havaittujen arvojen ja Y :n yhteisjakauman avulla. Puuttuvien generoivaa mekanismia P(R Y O,X) ei erikseen tarvitse mallintaa (ignorable mechanism). Analyysit voidaan perustaa yhteisjaumasta f(y X) johdettuun uskottavuusfunktioon. Huom. edellä sanottu pätee myös kun aineisto on MCAR, koska MCAR on MAR:n erikoistapaus. Perusoletus pitkittäisaineistossa on yleensä MAR.

Puuttuvan tiedon ongelma p. 13/18 Ei-satunnainen (NMAR) Puuttuminen on ei-satunnaista (NMAR), jos puuttumisen todennäköisyys riippuu myös arvoista, jotka "oltaisiin voitu" havaita. Nyt siis P(R Y O,Y M,X) riippuu ainakin jostakin puuttuvasta arvosta Y M. Esimerkkinä lasten lihavuustutkimus, jossa lihavien lasten vanhemmat voisivat olla myönteisempiä tai kielteisempiä kuin muut antamaan suostumuksensa tutkimukseen osallistumiselle. Näin siis lapsen paino ja pituus voisivat olla yhteydessä puuttuvan tiedon syntymiseen (painoindeksissä).

Puuttuvan tiedon ongelma p. 14/18 Joskus ei-satunnaisesta (NMAR) puuttumisesta käytetään termiä informatiivinen (informative), koska puuttuvan tiedon jakaumaa voidaan yrittää päätellä indikaattorivektorin R jakaumasta. Huom. Nyt myös puuttuvan tiedon malli P(R) tulee nyt sisällyttää analyysiin (nonignorable missingness) ja sillä on ratkaiseva vaikutus lopputuloksiin.

Puuttuvan tiedon ongelma p. 15/18 Vaikutus analyyseihin Jos aineisto on MCAR, niin havainnot voidaan olettaa satunnaisotokseksi perusjoukosta. Tällöin periaatteessa melkein mitä tahansa tilanteeseen sopivaa tilastollista menetelmää voidaan käyttää (myös niitä, jotka edellyttävät täydellisen datan, ns. complete-case-analysis).

Puuttuvan tiedon ongelma p. 16/18 Jos aineisto on MAR, havaintoja Y ei enää voida pitää satunnaisotoksena alkuperäisestä populaatiosta. Täydellisiin havaintohin perustuva analyysi antaa nyt harhaisia tuloksia. Uskottavuusfunktioon pohjautuvia menetelmiä, joissa havaintojen yhteisjakauma on oikein spesifioitu, voidaan sitävastoin käyttää. Pitkittäisaineistossa riippuvuusrakenteen spesifiointiin (kovarianssirakenteeseen) tulisi kiinnittää erityistä huomiota.

Puuttuvan tiedon ongelma p. 17/18 Jos aineisto on NMAR, niin tilastollisia menetelmiä ei yleensä voida suoraan soveltaa. Sekä täydellisten havaintojen analysointi, että uskottavuusfunktio-pohjaiset menetelmät antavat yleensä harhaisia tuloksia. Analyysissä tulisi tällöin mallintaa sekä havainnot, että puuttuvia arvoja generoiva mekanismi.

Puuttuvan tiedon ongelma p. 18/18 Jos aineisto on NMAR, on sitä pelkän havaitun aineiston perusteella (ilman lisäinformaatiota) kuitenkin vaikea verifioida. Käytännön mahdollisuudeksi jää tällöin tarkastella tulosten herkkyyttä erilaisille oletuksille puuttuvan tiedon mekanismeista. Kirjallisuutta: Fitzmaurice, Laird ja Ware (2004). Applied Longitudinal Analysis, Wiley. Little ja Rubin (1987). Statistical Analysis with Missing Data, Wiley.