Missing data may bias your conclusions. Juha Karvanen Department of Mathematics and Statistics University of Jyväskylä

Samankaltaiset tiedostot
Capacity Utilization

Efficiency change over time

Increase of opioid use in Finland when is there enough key indicator data to state a trend?

Information on preparing Presentation

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

Results on the new polydrug use questions in the Finnish TDI data

RANTALA SARI: Sairaanhoitajan eettisten ohjeiden tunnettavuus ja niiden käyttö hoitotyön tukena sisätautien vuodeosastolla

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Gap-filling methods for CH 4 data

TIETEEN PÄIVÄT OULUSSA

The CCR Model and Production Correspondence

Kysymys 5 Compared to the workload, the number of credits awarded was (1 credits equals 27 working hours): (4)

16. Allocation Models

T Statistical Natural Language Processing Answers 6 Collocations Version 1.0

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

HARJOITUS- PAKETTI A

1. SIT. The handler and dog stop with the dog sitting at heel. When the dog is sitting, the handler cues the dog to heel forward.

Constructive Alignment in Specialisation Studies in Industrial Pharmacy in Finland

Use of spatial data in the new production environment and in a data warehouse

Choose Finland-Helsinki Valitse Finland-Helsinki

Jyrki Kontio, Ph.D

Tupakkapoliittisten toimenpiteiden vaikutus. Satu Helakorpi Terveyden edistämisen ja kroonisten tautien ehkäisyn osasto Terveyden edistämisen yksikkö

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

OP1. PreDP StudyPlan

I. Principles of Pointer Year Analysis

Statistical design. Tuomas Selander

Salasanan vaihto uuteen / How to change password

3 9-VUOTIAIDEN LASTEN SUORIUTUMINEN BOSTONIN NIMENTÄTESTISTÄ

Other approaches to restrict multipliers

Graph. COMPUTE x=rv.normal(0,0.04). COMPUTE y=rv.normal(0,0.04). execute.

Uusia kokeellisia töitä opiskelijoiden tutkimustaitojen kehittämiseen

Integration of Finnish web services in WebLicht Presentation in Freudenstadt by Jussi Piitulainen

BLOCKCHAINS AND ODR: SMART CONTRACTS AS AN ALTERNATIVE TO ENFORCEMENT

Paikkatiedon semanttinen mallinnus, integrointi ja julkaiseminen Case Suomalainen ajallinen paikkaontologia SAPO

Metsälamminkankaan tuulivoimapuiston osayleiskaava

Information on Finnish Language Courses Spring Semester 2018 Päivi Paukku & Jenni Laine Centre for Language and Communication Studies

AYYE 9/ HOUSING POLICY

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

WindPRO version joulu 2012 Printed/Page :42 / 1. SHADOW - Main Result

anna minun kertoa let me tell you

Julkaisun laji Opinnäytetyö. Sivumäärä 43

Miksi Suomi on Suomi (Finnish Edition)

Network to Get Work. Tehtäviä opiskelijoille Assignments for students.

( ( OX2 Perkkiö. Rakennuskanta. Varjostus. 9 x N131 x HH145

( ,5 1 1,5 2 km

Expression of interest

WindPRO version joulu 2012 Printed/Page :47 / 1. SHADOW - Main Result

Tynnyrivaara, OX2 Tuulivoimahanke. ( Layout 9 x N131 x HH145. Rakennukset Asuinrakennus Lomarakennus 9 x N131 x HH145 Varjostus 1 h/a 8 h/a 20 h/a

Rotarypiiri 1420 Piiriapurahoista myönnettävät stipendit

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG

Tampere-Pirkkala airport Survey on noise

SELL Student Games kansainvälinen opiskelijaurheilutapahtuma

TM ETRS-TM35FIN-ETRS89 WTG

HPV ja irtosolututkimukset, kliinikon näkökulma. Pekka Nieminen Dosentti Klinikkaylilääkäri HYKS, naistentaudit

TM ETRS-TM35FIN-ETRS89 WTG

Capacity utilization

TM ETRS-TM35FIN-ETRS89 WTG

Käyttöliittymät II. Käyttöliittymät I Kertaus peruskurssilta. Keskeisin kälikurssilla opittu asia?

MUSEOT KULTTUURIPALVELUINA

MEETING PEOPLE COMMUNICATIVE QUESTIONS

Kaivostoiminnan eri vaiheiden kumulatiivisten vaikutusten huomioimisen kehittäminen suomalaisessa luonnonsuojelulainsäädännössä

Information on Finnish Courses Autumn Semester 2017 Jenni Laine & Päivi Paukku Centre for Language and Communication Studies

TM ETRS-TM35FIN-ETRS89 WTG

VAASAN YLIOPISTO Humanististen tieteiden kandidaatin tutkinto / Filosofian maisterin tutkinto

Research plan for masters thesis in forest sciences. The PELLETime 2009 Symposium Mervi Juntunen

TM ETRS-TM35FIN-ETRS89 WTG

Oma sininen meresi (Finnish Edition)

,0 Yes ,0 120, ,8

National Building Code of Finland, Part D1, Building Water Supply and Sewerage Systems, Regulations and guidelines 2007

Asiakaspalautteen merkitys laboratoriovirheiden paljastamisessa. Taustaa

Curriculum. Gym card

make and make and make ThinkMath 2017

Tutkimusdata ja julkaiseminen Suomen Akatemian ja EU:n H2020 projekteissa

ebooks in the libraries ebib trial and results

TM ETRS-TM35FIN-ETRS89 WTG

Operatioanalyysi 2011, Harjoitus 4, viikko 40

7.4 Variability management

Business Opening. Arvoisa Herra Presidentti Very formal, recipient has a special title that must be used in place of their name

Arkkitehtuuritietoisku. eli mitä aina olet halunnut tietää arkkitehtuureista, muttet ole uskaltanut kysyä

koiran omistajille ja kasvattajille 2013 for dog owners and breeders in 2013

ATLAS-kartan esittely - Peli palveluiden yhteiskehittämisen menetelmistä Päivi Pöyry-Lassila, Aalto-yliopisto

Characterization of clay using x-ray and neutron scattering at the University of Helsinki and ILL

Karkaavatko ylläpitokustannukset miten kustannukset ja tuotot johdetaan hallitusti?

SUOMEN IVF-TILASTOT FINLANDS IVF-STATISTIK FINNISH IVF STATISTICS Taulukot/Tabeller/Tables:

Työsuojelurahaston Tutkimus tutuksi - PalveluPulssi Peter Michelsson Wallstreet Asset Management Oy

BOARD PROGRAM Hallitusohjelma

You can check above like this: Start->Control Panel->Programs->find if Microsoft Lync or Microsoft Lync Attendeed is listed

EUROOPAN PARLAMENTTI

Information on Finnish Language Courses Spring Semester 2017 Jenni Laine

Benchmarking Controlled Trial - a novel concept covering all observational effectiveness studies

Uusi Ajatus Löytyy Luonnosta 3 (Finnish Edition)

RAKLI KTI Barometer Survey. Autumn 2012

GOOD WORK LONGER CAREER:

Keskeisiä näkökulmia RCE-verkoston rakentamisessa Central viewpoints to consider when constructing RCE

ECVETin soveltuvuus suomalaisiin tutkinnon perusteisiin. Case:Yrittäjyyskurssi matkailualan opiskelijoille englantilaisen opettajan toteuttamana

MTTTP5, luento Luottamusväli, määritelmä

Osallistujaraportit Erasmus+ ammatillinen koulutus

FROM VISION TO CRITERIA: PLANNING SUSTAINABLE TOURISM DESTINATIONS Case Ylläs Lapland

Transkriptio:

Missing data may bias your conclusions Juha Karvanen Department of Mathematics and Statistics University of Jyväskylä

Surveys work because of random sampling Statistical theory works under the assumption that the data are a random sample from the population. This assumption may be invalid if the data are incomplete.

Response rates have a decreasing trend 100 Participation rate for the FINRISK studies 80 participation rate (%) 60 40 20 0 1972 1977 1982 1987 1992 1997 2002 2007 2012 year

The situation may be even worse in postal surveys 100 Response rate for Finnish Science Barometer 80 response rate (%) 60 40 20 0 2001 2004 2007 2010 2013 2016 year

Missing data: who cares? (Acatiimi 1/2017 & 2/2017) Karvanen: Tiedebarometri ei ole luotettava...henkilön asenteet tiedettä kohtaan voivat suoraan vaikuttaa vastaushalukkuuteen. Koska vastausosuus on alhainen ja tiedemyönteisten yliedustusta vastaajien joukossa voi pitää vähintäänkin mahdollisena, tiedebarometrin antama kuva suomalaisten tiedemyönteisyydestä ei ole luotettava. Kiljunen: Tiedebarometri on luotettava...aineistonkeruussa ei ole edes tavoiteltu mielipidemittausten valtavirran mukaisesti maksimaalista vastausprosenttia vaan vastauksia. Omien havaintojeni perusteella passiivisuus paikantuu ennen muuta tieteen arvon ja merkityksen itsestäänselvyydeksi ymmärtävään väestön valtaenemmistöön....yhtä tiedemyönteisiä tuloksia on saatu useissa eri maissa ja erilaisilla tiedonkeruumenetelmillä. Laaksonen: Tieteelliset periaatteet Tiedebarometriin Ainoa hyvä puoli on se, että olen sitä käyttänyt huonona esimerkkinä survey-menetelmiä koskeneessa esitelmässäni....karhunnan käyttämättömyys on käsittämätöntä. Olisin odottanut Kiljuselta vastauskadon analyysiä. Tähän ei ehkä hänellä ollut aineistoa ellei hän kerännyt brutto-otoksesta yksilötason tietoa, ja analysoinut sitä hyvillä tilastollisilla malleilla.

Respondents and non-respondents differ: Finrisk 2007 Participants Non-participants Non-participants with without recontact recontact response response N 6257 473 3270 Women, % 54.1 (52.6,55.6) 54.7 (49.2,60.2) 44.0 (41.9,46.1) Mean age, years 48.9 (48.6,49.2) 47.3 (46.0,48.5) 44.6 (44.2,45.1) Number of deaths 2007 2012 166 34 204 Deaths per 1000 (95% CI) 26.5 (22.5,30.5) 71.9 (48.6,95.2) 62.4 (54.1,70.7) standardized (95% CI) 22.1 (18.5,25.7) 55.1 (34.6,75.7) 49.5 (42.1,57.0) 95% confidence intervals are presented in the parentheses. J. Karvanen, H. Tolonen, T. Härkänen, P. Jousilahti, K. Kuulasmaa (2016) Selection bias was reduced by recontacting non-participants, Journal of Clinical Epidemiology, Volume 76, pages 209-217.

Consequences of missing data 1. Information loss / increased uncertainty The sample size is smaller than anticipated. Confidence intervals are wider. The study may have an insufficient power. 2. Bias Respondents and non-respondents may differ. The sample does not represent the population. Direct averages may have a bias. 3. Bias in trends Changes in time may be due to changes in the response rate. Trends may look more positive they should if the response rate decreases.

Good scientific practice and missing data Falsification (misrepresentation) refers to modifying and presenting original observations deliberately so that the results based on those observations are distorted. The falsification of results refers to the unfounded modification or selection of research results. Falsification also refers to the omission of results or information that are essential for the conclusions. Havaintojen vääristelyllä (falsification, misrepresentation) tarkoitetaan alkuperäisten havaintojen tarkoituksellista muokkaamista tai esittämistä niin, että havaintoihin perustuva tulos vääristyy. Tulosten vääristelyllä tarkoitetaan tieteellisesti perusteetonta tutkimustulosten muuttamista tai valikointia. Vääristelyä on myös johtopäätösten kannalta olennaisten tulosten tai tietojen esittämättä jättäminen.

Thinking fast and slow with missing data Substitutes for thinking: software tradition rules of thumb authoritive authors fancy methods An inconvenient truth: analysis of missing data takes a lot of time and effort. Key question: why are the data missing? Missing data requires slow thinking but people prefer fast thinking.

Types of missing data mechanisms MCAR (missing completely at random) MAR (missing at random) MNAR (missing not at random)

Tribute to Hans Rosling 1948 2017

Methods for handling missing data Measure again! Complete case analysis Weighting Multiple imputation Modeling (Bayesian or likelihood inference)

Random sampling vs. web data A small dataset n = 100 is collected from the Finnish population (N = 5000000) using simple random sampling. The population mean of variable X is estimated by the sample mean. Alternatively, it is possible to calculate the sample mean from a web-based dataset. The web data is not a random sample but a self-selected sample, e.g. a volunteer sample. Assume that the correlation between X and the inclusion probability p(x) is known to be 0.05 (weak correlation). You may choose whether to use the random sample or the web data. The quality of the estimate is measured by mean squared error which balances the bias and the variance. What at least should be the size of the web data? A) 120 B) 500 C) 3000 D) 60 000 E) 1 000 000 F) 5 000 000 Meng, X. L. (2014). A trio of inference problems that could win you a Nobel Prize in statistics (if you help fund it). Past, Present, and Future of Statistical Science, 537-562. Boca Raton, FL: CRC Press.

Summary 1. Recognize missing data as a potential problem. 2. Investigate the pattern of missing data. 3. Consider possible reasons why the data are missing. 4. Include handling of missing data as a part of your data analysis. Ask for help if needed. 5. Report all relevant details: the amount of missing data, the potential reasons, the assumptions on the missing data mechanism, the methods used for the analysis, etc.