Reijo Sund Rekisterit tutkimusaineistona: tieteenfilosofis-metodologiset lähtökohdat Rekisterit tutkimuksen apuvälineenä kurssi, Biomedicum, Helsinki 25.05.2009 Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 1
Esityksen sisältö Johdattelua rekisteritutkimukseen Toisen käden aineistojen analysoinnin erityispiirteitä Haasteita Mahdollisuuksia Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 2
Rekisteritutkimus it tki Rekisteri on informaatiojärjestelmä, joka tuottaa toistuvasti yksikkötasoista aineistoa jollekin määrätylle joukolle yksiköitä Registry: Rekisteriaineiston tuottamiseen käytetty informaatiojärjestelmä laajassa mielessä Register: Rekisteriaineistoa sisältävä tietokanta Yleisesti ottaen rekisteritutkimukseksi voidaan käsittää kaikki tutkimus, jossa hyödynnetään rekisteriaineistoja Terveystutkimuksissa yksiköt tyypillisesti yksilöitä Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 3
Rekisteriaineistojen i i i t käyttötapoja 1. Käytetään rekisteritietoja valittaessa tutkimukseen yksiköitä, joilta kerätään erikseen varsinainen tutkimusaineisto 2. Tarkastellaan rekisterin tietoja ja niiden välisiä suhteita sekä vuorovaikutuksia k i käyttäen tarvittaessa apuna erilaisia aggregaattitason tietoja 3. Yhdistetään rekisterin tietoja jonkun muun yksikkökohtaisia tietoja sisältävän tietolähteen kanssa Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 4
Käyttötavoista t data-analyysiin Itsestäänselvien käyttömuotojen luetteleminen antaa väärän ja yksinkertaistetun kuvan rekisteritutkimuksesta Luotettavien tulosten aikaansaamiseksi tarvitaan kokonaisvaltaista tutkimuksellista otetta Rekisteriperusteisella data-analyysilla viitataan yksikkötason rekisteritietojen käsittelyyn ja analysointiin Aineistojen i hankkimiseen i tarvittavat t käyttöluvat t ja muut välttämättömät asiat oletetaan hoidetuiksi Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 5
Esimerkki rekisteritutkimusaineistosta it tki i i t t Vaihe 1: Diabeteskohortin identifiointi Hilmo 1994-2007 Bench 1998-2007 Erityiskorv. 1964-2007 Poisto 1969-1993 Reseptit 1994-2007 Synre 1987-2007 Yleistiedot Kuolinsyyt 1988-2006 Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 6
Esimerkki rekisteritutkimusaineistosta it tki i i t t Vaihe 2: Seurantatiedot diabeteskohortille Hilmo Reseptit Eritkorv. Syöpä Munuais Kuol Sairpvr Eläk Eläk Bench Synre Poisto Perus Kust Sose Sose Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 7
Rekisteritutkimus it tki tutkimusprosessina tki i Rekisteritutkimuksen tutkimusprosessi eroaa normaalista, koska aineistoa ei tuoteta erikseen vaan pyritään käyttämään valmiita rekisteritietoja tutkimusongelman tki ratkaisuun Keskustelu Ongelma Asemointi Kysymys Näkökulma Aineisto Menetelmä Analyysi Idea Vastaus Teoria Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 8
Toisen käden aineistot? i t? Perinteisessä metodologisessa lähestymistavassa aineisto ajatellaan räätälöiden tuotettavaksi kyseessä olevan tutkimuksen erityistarpeisiin Rekistereitä hyödyntävässä tutkimuksessa tukeudutaan t jo olemassa oleviin aineistoihin, i ihi jotka on tuotettu muihin kuin käynnissä olevan tutkimuksen tarkoituksiin Tällainen toisen käden aineisto ohjaa (opportunistisesti?) käsitteiden määrittelyä ja tutkimusongelman asettelua Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 9
Aineiston i ymmärtäminen? Rekisteriaineisto on muiden tekemien enemmän tai vähemmän latenttien valintojen lopputulema Ymmärtääkseen aineistoa, pitää tiedostaa ainakin: Mitkä tekijät ovat johtaneet alkuperäisen aineiston ja informaatiojärjestelmän rakentumiseen? Mitkä ovat syyt käytetyille tietorakenteille ja mitä niistä seuraa? Harha / kohina Ilmiö Koodaus Rekisteri Koodauksen purku Tutkimusaineisto Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 10
Data, informaatio, taustatietämys t ti tä Data ei itsessään sisällä informaatiota vaan informaatio on jotain, mitä tuotetaan datasta ja taustatietämyksestä Data ilman selityksiä on käyttökelvotonta Dataa on yleensä helppo siirtää, mutta riittävää ää taustatietämystä datan sopimisesta erityisesti alkuperäisestä poikkeaviin käyttötarkoituksiin ei ole Välitettävää metadataa tulee liikaa tai tarvittavaa tietämystä ei edes ole olemassa Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 11
Apua? Vakaat käsitteet t ja esikäsittely itt Pyritään käyttämään mahdollisimman paljon dataa, jonka tulkitsemiseen ei tarvita perusymmärrystä enempää taustatietämystä Perustavanlaatuisiin yleiskäsitteisiin (aika ja paikka) perustuva suoraan havaittavia asioita kuvaava data Yritetään löytää data-sensitiivisesti sopiva kompromissi havaintomahdollisuuksien ja teoreettisten tavoitteiden väliltä Tutkimusprosessiin tulee ylimääräinen tulkinta- operationalisointi vaihe, jossa aineisto sovitetaan vastaamaan ongelmanasettelua tai päinvastoin Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 12
Esimerkki vakaan käsitteen käytöstä tä Ongelma: Kuinka monta henkilöä diabeteskohortista on kuollut seuranta-aikana? Ratkaisu: Kuolema on vakaa käsite, johon ei liity mittausvirhettä tai subjektiivisuutta Katsotaan aineistosta yhden rivin säännöllä kuinka monelle löytyy tieto kuolemasta Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 13
Esimerkki esikäsittelystä itt tä Kysymys: Kuinka moni diabeteskohorttiin kuuluvista sairastaa tyypin 1 diabetesta? Ratkaisu: Tyypin 1 diabetes johtuu insuliinia tuottavien beetasolujen tuhoutumisesta autoimmuuniprosessin seurauksena Tyypin 1 diabeetikko tarvitsee jatkuvasti insuliinia, mutta ei hyödy haiman omaa insuliinineritystä tehostavista lääkkeistä Rakennetaan (monimutkainen) algoritmi, jolla identifioidaan tyypin 1 diabeetikot lääkeostojen luokkien ja säännöllisyyden perusteella Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 14
Aineistojen i koon aiheuttamia i haasteita Rekisteriaineistot ovat tyypillisesti varsin isoja, jonka seurauksena: 1. Alustavilla analyyseilla ja esikäsittelyllä on suurempi merkitys kuin pienten aineistojen tapauksessa 2. Analysointiin tarvitaan tehokkaita algoritmeja ja koneita 3. Aineiston ymmärtämiseen tarvitaan enemmän taustatietämystä 4. Kaikkia virheitä ei pysty korjaamaan käsin 5. Isoissa aineistoissa esiintyy tyypillisesti sattuman kautta hyvinkin eriskummallisia hahmoja Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 15
Tilastollisia lli i haasteita Rekisteriaineistot ovat usein kokonaisaineistoja Otantavirheeseen perustuvan tilastollisen päättelyn oletukset eivät päde Kun kyseessä ovat isot aineistot, tulee käytännössä merkityksettömistäkin k ttö i täki eroista helposti tilastollisesti t lli merkitseviä Erityisesti rekisteriaineistojen esikäsittely muistuttaa enemmän laadullista kuin määrällistä tutkimusta Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 16
Yleismetodologisia l i i haasteita Ei ole tarkoituksenmukaista automaattisesti olettaa sekundaarisen datan olevan sopusoinnussa ongelmanasettelun kanssa Datan pitäisi antaa puhua puolestaan, mutta merkitsevien i assosiaatioiden id kalastukseen k tai shoppailuun ei pitäisi sortua Rekisteriaineistojen sofistikoituneesta ja substanssitietoutta hyödyntävästä y esikäsittelystä tulee data-analyysin tärkein vaihe Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 17
Mahdollisuudet? d Suomi on rekisteriaineistojen luvattu maa Runsaasti ainutlaatuisia valtakunnallisia kokonaisaineistoja Henkilötunnus mahdollistaa tietojen helpon linkkaamisen Suomalaiset rekisteriaineistot tarjoavat laboratorioympäristön rekisteritutkimuksen metodologisten lähestymistapojen kehittämiselle ja testaamiselle aidossa ympäristössä Ei kannata tyytyä y huonommille ulkomaisille aineistoille kehitettyjen lähestymistapojen apinointiin Vain mielikuvitus on mahdollisuuksien rajana! Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 18
Kiitos! Kirjallisuutta: Sund, Reijo (2008): Methodological Perspectives for Register- Based Health System Performance Assessment. Developing a Hip Fracture Monitoring System in Finland. Stakes Research Report 174. National Research and Development Centre for Welfare and Health, Helsinki. http://urn.fi/urn:isbn:978-951-33-2132-1 Sund, Reijo & Nylander, Olli & Palonen, Tuula (2004): Raa asta asta rekisteriaineistosta terveyspoliittisesti relevanttiin informaatioon. Yhteiskuntapolitiikka 69:4, 372-379. http://yp.stakes.fi/fi/arkisto/sisallys/2004/2004.htm#4 Kevät 2009 Rekisterit tutkimusaineistona / Reijo Sund 19