pitkittäisaineistoissa

Samankaltaiset tiedostot
pitkittäisaineistoissa

Osa 2: Otokset, otosjakaumat ja estimointi

Puuttuvan tiedon ongelmat pitkittäistutkimuksissa

805306A Johdatus monimuuttujamenetelmiin, 5 op

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Tilastollinen aineisto Luottamusväli

Sovellettu todennäköisyyslaskenta B

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

tilastotieteen kertaus

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. Tilastollinen malli??

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Väliestimointi (jatkoa) Heliövaara 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tutkimustiedonhallinnan peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Sovellettu todennäköisyyslaskenta B

Estimointi. Vilkkumaa / Kuusinen 1

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

3.6 Su-estimaattorien asymptotiikka

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Mallipohjainen klusterointi

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Sovellettu todennäköisyyslaskenta B

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Johdatus regressioanalyysiin

Todennäköisyyden ominaisuuksia

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

riippumattomia ja noudattavat samaa jakaumaa.

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Mat Tilastollisen analyysin perusteet, kevät 2007

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

6. laskuharjoitusten vastaukset (viikot 10 11)

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

4.0.2 Kuinka hyvä ennuste on?

Sovellettu todennäköisyyslaskenta B

Matemaatikot ja tilastotieteilijät

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

,ܾ jaü on annettu niin voidaan hakea funktion

pisteet Frekvenssi frekvenssi Yhteensä

2. Uskottavuus ja informaatio

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Parametrin estimointi ja bootstrap-otanta

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Moniulotteisia todennäköisyysjakaumia

Batch means -menetelmä

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Sovellettu todennäköisyyslaskenta B

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Normaalijakaumasta johdettuja jakaumia

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Dynaamiset regressiomallit

Harha mallin arvioinnissa

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Testejä suhdeasteikollisille muuttujille

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

9. Tila-avaruusmallit

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

dx=5&uilang=fi&lang=fi&lvv=2014

Pelaisitko seuraavaa peliä?

Otoskoko 107 kpl. a) 27 b) 2654

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Testit laatueroasteikollisille muuttujille

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Teema 8: Parametrien estimointi ja luottamusvälit

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Transkriptio:

Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto

Puuttuvan tiedon käsittelystä p. 2/18 Johdanto Pitkittäisaineistoissa on varsin yleistä, että kaikille vastemuuttujille ei saada mitattuja arvoja. Puuttuva tieto voi syntyä monella tapaa, esimerkiksi: mittaus voi puuttua jonakin ajankohtana ja jonakin myöhempänä ajankohtana mittaus saadaan tai mittauksia saadaan johonkin ajanhetkeen asti, jonka jalkeen mittauksia ei enää saada (ns. dropout).

Puuttuvan tiedon käsittelystä p. 3/18 Puuttuva tieto tekee analyysin vaikeaksi monella tavalla: Mittauksia ei saada kaikille yksilöille samoissa aikapisteissä (imbalance) monia tilastollisia menetelmiä ei voida suoraan käyttää. Informaatiota menetetään estimoinnin tarkkuus heikkenee. Voi aiheuttaa tuloksiin harhaa voi johtaa vääriin johtopäätöksiin. Puuttuvan tiedon generoiva mekanismi on siten aina huolellisesti tutkittava.

Puuttuvan tiedon käsittelystä p. 4/18 Puuttuvan tiedon tyypit Otetaan käyttöön seuraavat merkinnät: Y i = (Y i1,...,y in ) täydellinen data R i = (R i1,...,r in ) indikaattori-vektori. Nyt siis R ij = 1, jos Y ij on havaittu ja R ij = 0, jos Y ij puuttuu Lisäksi merkitään Yi O havaittu osa (observed) puuttuva osa (missing) Y M i

Puuttuvan tiedon käsittelystä p. 5/18 Puuttuva tieto voidaan jaotella kolmeen päätyyppiin R ij :n ja Y i keskinäisen suhteen perusteella Täysin satunnainen (MCAR, missing completele at random) Satunnainen (MAR, missing at random) Ei-satunnainen (NMAR, not missing at random) Käytettäessä tilastollia menetelmiä on huomioitava minkä tyyppisestä puuttuvasta tiedosta kulloinkin on kysymys.

Puuttuvan tiedon käsittelystä p. 6/18 Täysin satunnainen (MCAR) Puuttuva tieto on täysin satunnaista, jos R i on riippumaton sekä Yi O :sta että Yi M :sta. Esimerkiksi jos Y i = (Y i1,y i2 ) (2-ulotteinen tilanne) Y i1 on taysin havaittu ja Y i2 voi sisältää puuttuvia. Nyt jos Y i2 on MCAR, niin P(R i2 = 1 Y i1,y i2,x i ) = P(R i2 = 1 X i ), eli tn, että Y i2 puuttuu ei riipu muuttujista Y i1 tai Y i2 (arvoista jotka "pitäisi" havaita).

Puuttuvan tiedon käsittelystä p. 7/18 Huom. em määritelmässä riippuvuus kovariaateista X i kuitenkin hyväksytään. Itse asiassa oletus on, että mukana ovat kaikki muuttujien R i ja Y i ennustamisen kannalta relevantit kovariaatit. Jos jokin tärkeä kovariaatti puuttuu, niin MCAR ei pidä paikkansa. Jos puuttuva on MCAR, niin saatu aineisto voidaan olettaa otokseksi "täydellisestä" aineistosta. Voidaan ajatella, että analyysin tekeminen vain niille havainnoille, joilta on saatu kaikki mittaukset antaa periaatteessa oikean tuloksen, mutta pienemmällä

Satunnainen (MAR) Puuttuminen on satunnaista, jos voidaan olettaa, että puuttuminen riippuu havaituista arvoista, mutta ei riipu arvoista, joita (periaatteessa) oltaisiin voitu havaita. Saadaan siis P(R i Yi O,Yi M,X i ) = P(R i Yi O,X i ) 2- ulotteisessa tapauksessa saamme P(R i2 = 1 Y i1,y i2,x i ) = P(R i2 = 1 Y i1,x i ) Annetuilla Y i1 :n arvoilla puuttuminen on siten Puuttuvan tiedon käsittelystä p. 8/18

Puuttuvan tiedon käsittelystä p. 9/18 Esimerkkinä satunnaisesta puuttumisesta (MAR) voidaan mainita tilanne, jossa tutkimusprotokolla edellyttää, että koe keskeytetään, jos vasteen arvot ylittävät jonkin ennalta asetetun rajan. Nyt siis puuttuminen on kontrolloitua ja riippuu ainoastaan Y i :n havaituista arvoista.

Puuttuvan tiedon käsittelystä p. 10/18 Havaintoja ei nyt voida pitää satunnaisotoksena kohdepopulaatiosta. Eräs tärkeä seuraus on, että analyysin tekeminen vain "täydellisille" havainnnoille saattaa johtaa harhaisiin tuloksiin. "Täydellisestä" aineistosta lasketut estimaatit (keskiarvo, varianssi jne.) ovat nyt vastaavien perusjoukon parametrien harhaisia estimaatteja.

Puuttuvan tiedon käsittelystä p. 11/18 Yksi mielenkiitoinen ominaisuus on kuitenkin se, että havaitun datan suhteen lasketut ehdolliset jakaumat ovat samat kuin kohdepopulaatiossa. Jos malli on oikein spesifiotu, niin havaittuja arvoja käyttäen puuttuvat arvot voidaan kuitenkin periaatteesa ennustaa. Jos esimerkiksi oletetaan normaalijakauma, niin E(Y M i Y O i ) = µ M i + Σ MO i Σ O i 1 (Yi O µ O i ).

Puuttuvan tiedon käsittelystä p. 12/18 Jos puuttuvat ovat MAR, niin arvot voidaan ennustaa havaittujen arvojen ja Y i :n yhteisjakauma avulla. Puuttuvien generoivaa mekanismia P(R i Y O i,x i ) ei erikseen tarvitse mallintaa. Analyysit voidaan perustaa yhteisjaumasta f(y i X i ) johdettuun uskottavuusfunktioon. Huom. edellä sanottu pätee myös kun aineisto on MCAR, koska MCAR on MAR:n erikoistapaus. Perusoletus pitkittäisaineistossa on yleensä MAR.

Puuttuvan tiedon käsittelystä p. 13/18 Ei-satunnainen (NMAR) Puuttuminen on ei-satunnaista (NMAR), jos puuttumisen todennäköisyys riippuu arvoista, jotka olisi pitänyt havaita. Nyt siis P(R i Y O i,y M i,x i ) riippuu ainakin jostakin puuttuvasta arvosta Y M i. 2-ulotteisessa tapauksessa saadaan P(R i2 = 1 Y i1,y i2,x i ), mikä siis riippuu Y i2 :n potentiaalisesta arvosta.

Puuttuvan tiedon käsittelystä p. 14/18 Esimerkkinä NMAR aineistosta mainittakoon lasten lihavuustutkimus, jossa lihavien lasten vanhemmat voisivat olla myönteisempiä tai kielteisempiä kuin muiden lasten vanhemmat antamaan suostumuksensa tutkimukseen osallistumiselle. Näin siis lapsen paino ja pituus voisivat olla yhteydessä puuttuvan tiedon (lihavuusindeksi) syntymiseen aineistossa. Huom. Puuttuvan tiedon jakauma riippuu nyt arvoista Yi O sekä todennäköisyydestä P(R i Y i,x i ). Myös puuttuvan tiedon malli P(R i ) tulee sisällyttää analyysiin.

Puuttuvan tiedon käsittelystä p. 15/18 Vaikutus analyyseihin Jos aineisto on MCAR, niin havainnot voidaan olettaa satunnaisotokseksi perusjoukosta. Tällöin periaatteessa melkein mitä tahansa tilanteeseen sopivaa tilastollista menetelmää voidaan käyttää (myös niitä, jotka edellyttävät täydellisen datan, ns. complete-case-analysis).

Puuttuvan tiedon käsittelystä p. 16/18 Vaikutus analyyseihin Jos aineisto on MAR, niin havaintoja Y i ei enää voida pitää satunnaisotoksena alkuperäisestä populaatiosta. Tädellisiin havaintohin perustuva analyysi antaa nyt harhaisia tuloksia. Uskottavuusfunktioon pohjautuvia menetelmiä, joissa havaintojen yhteisjakauma on oikein spesifioitu, voidaan sitävastoin käyttää. Pitkittäisaineistossa riippuvuusrakenteen spesifiointiin (kovarianssirakenteeseen) tulisi kiinnittää erityistä huomiota.

Puuttuvan tiedon käsittelystä p. 17/18 Jos aineisto on NMAR, niin tilastollisia menetelmiä ei yleensä voida suoraan soveltaa. Sekä täydellisten havaintojen analysointi, että uskottavuusfunktio-pohjaiset menetelmät antavat yleensä harhaisia tuloksia. Analyysissä tulisi tällöin mallintaa sekä havainnot, että puuttuvia arvoja generoiva mekanismi.

Puuttuvan tiedon käsittelystä p. 18/18 Jos aineisto on NMAR, on sitä pelkän havaitun aineiston perusteella (ilman lisäinformaatiota) kuitenkin vaikea verifioida. Käytännön mahdollisuudeksi jää tällöin tarkastella tulosten herkkyyttä erilaisille oletuksille puuttuvan tiedon mekanismeista.