Tutkimusdata Tutkijat verkoilla kurssi 1.2.2012 Helsingin yliopisto Arja Kuula Kehittämispäällikkö Yhteiskuntatieteellinen tietoarkisto arja.kuula@uta.fi
2 Yhteiskuntatieteellinen tietoarkisto (FSD) Perustettu Suomen Akatemian aloitteesta, toiminta alkoi 1999 Arkistoi ja jakaa empiirisiä tutkimusaineistoja Yhteiskuntatieteellisen tutkimuksen ja opetuksen valtakunnallinen palveluresurssi Palvelee tutkijoita, opettajia ja opiskelijoita Palvelut maksuttomia (OKM rahoittaa) Erillinen laitos Tampereen yliopiston yhteydessä http://www.fsd.uta.fi/
3 Aiheitani tänään Tutkimusaineistojen avoin saatavuus Tutkimuskulttuurin haasteet aineistojen avoimuudessa Tietoarkisto www.fsd.uta.fi Tutkimusaineistojen tiedonhallinta
4 Tieteen avoimuus Tieteen avoimuuden perusperiaatteita ovat objektiivisuus, kriittisyys, autonomisuus ja edistyvyys Avoimuuden periaate rajautui käytännössä pitkään koskemaan vain tutkimusjulkaisuja Tietotekninen kehitys laajentanut avoimuuden kattamaan myös tutkimusaineistot Käytännön tarpeet (esim. meteorologinen data ja epidemioita koskeva data) Julkisesti rahoitettavien aineistojen tehokas käyttö Tieteen kontrolloitavuus ja edistyvyys
5 Datapolitiikat Tutkimusrahoittajien ja tiedejulkaisujen keinoja edistää tutkimusaineistojen avoimuutta suosittamalla tai vaatimalla tutkimusaineistojen saattamista tiedeyhteisön käyttöön European Research Council, Medical research council (UK), Economic and Social Research Council ESRC (UK), National Insitutes of Health (USA), National science Foundation (USA), Suomen Akatemia Eri keinoja: suositus, ohjaus, vaatimus, datarahoitus, rahoituspäätöksen kriteeri Tiedejulkaisujen datapolitiikat (erityisesti luonnontieteissä ja biotieteissä, mutta myös psykologiassa, taloustieteissä, politiikan tutkimuksessa)
6 Tutkimuskulttuurin haasteet aineistojen avoimuudessa Kuka omistaa aineistot? Akateeminen kilpailu Ensikäyttöoikeus Eettiset kysymykset ja tietosuoja Kannustimet Tutkimusrahoitus Kansainväliset julkaisut Viittausten määrä
7 Tutkimusetiikka TENK: Eettiset periaatteet ihmistieteissä (2010) Tutkittavan suostumus voi olla yksilöity tai yleinen. Yleiseen suostumukseen voidaan liittää ehtoja siitä, missä muodossa aineisto tallennetaan ja arkistoidaan ja millä ehdoin sitä saadaan käyttää tulevissa tutkimuksissa. Käyttötarkoituksen osalta yksilöivä suostumus on perusteltavissa sillä, että aineistoa ei pystytä anonymisoimaan ja tunnisteellisen aineiston arkistointi jatkotutkimuksia varten olisi mitä ilmeisimmin haitallista tutkittaville.
Tutkimusetiikka (jatkuu) 8 TENK: Eettiset periaatteet ihmistieteissä (2010) Ihmistieteisiin luettavat tutkimukset eivät ole aina uudelleen toistettavissa, mutta tiedeyhteisöllä tulee olla mahdollisuus tarvittaessa todentaa tutkimustuloksia tutkimuksessa analysoiduista aineistoista. Avoimuus on tiedettä keskeisesti määrittävä piirre ja myös edellytys tieteellisen tiedon pätevyyden testaamiselle, kriittiselle arvioinnille ja samalla tieteen edistymiselle. Huolella jatkotutkimuksiin arkistoidut aineistot vähentävät tarvetta kerätä tarpeettomasti tunnisteellisia tutkimusaineistoja. Arkistointi myös vähentää pieniin väestöryhmiin kohdistuvaa tutkimuspainetta. Erityisen tärkeää on arkistoida jatkotutkimuksiin kulttuurisesti, historiallisesti ja tutkimuksellisesti merkittävät tutkimusaineistot. Yksityisyyden suojasta huolehditaan tarvittaessa tehtävillä aineiston anonymisointitoimenpiteillä ja aineiston jatkokäytön säätelyllä.
9 Tutkimusaineiston luottamuksellisuus Jos aineisto kerätään suoraan tutkittavilta, säilytys-, arkistointi- ja anonymisointiratkaisuihin vaikuttaa ratkaisevasti se, miten tutkittavia on informoitu Luottamuksellisuus: on noudatettava niitä lupauksia ja sopimuksia, joita tunnisteellisen aineiston käytöstä on annettu tutkittaville tunnisteellinen = henkilötietoja sisältävä aineisto henkilötieto = henkilöä tai hänen ominaisuuksiaan tai elinolosuhteitaan kuvaavia merkintöjä, jotka voidaan tunnistaa häntä tai hänen perhettään tai hänen kanssaan yhteisessä taloudessa eläviä koskeviksi Henkilötietolaki: tunnisteellisia aineistoja voi käyttää tieteelliseen tutkimukseen silloin, kun se on tarkoituksenmukaista, suunniteltua ja asiallisesti perusteltua.
10 Vanhat tunnisteelliset tutkimus-aineistot voidaan arkistoida myöhempää tieteellistä tutkimuskäyttöä varten, jos siitä on alun alkaen tutkittavia informoitu tai aineisto anonymisoidaan tai tutkittaviin otetaan jälkikäteen yhteyttä ja pyydetään suostumusta tai aineiston arkistointiin haetaan lupaa arkistolaitokselta
11
12
13
14 Tutkijoiden tyypillisimmät huolet Tunnistettavuus, mutta tutkimusaineistoja pitää voida tutkia tarkkuudella, joka ei ole tutkimusjulkaisuissa mahdollista Aineistojen väärinkäyttö, mutta Arkistoaineistoista yksittäisten henkilöiden etsiminen rikkoo lakia ja tutkimuseettisiä periaatteita Tietojen luovuttaminen viranomaisille on myös rikos (tosin esim. rikoksia koskevat tiedot ovat usein vanhentuneita) Juoruilu aineiston yksittäisiä henkilöitä koskevista asioista on myös rikos ja tutkijan maineelle ammatillinen itsemurha
15 Kvantitatiiviset aineistot Kerätty posti-, puhelin- tai käyntikyselyllä Havaintoyksikkönä useimmiten henkilö Kyselyvastaukset tallennettu havaintomatriiseiksi (SPSS-portable) Aineistoja nyt 1079
16 Kvalitatiiviset aineistot Puhetta, kuvaa tai tekstiä sähköisenä tallenteena Päiväkirjamerkintöjä, ryhmähaastatteluja tai AV-tallenteista litteroituja tekstitiedostoja Arkistoitu txt-, rtf- tai html-tiedostoina Aineistoja nyt 120
17 Aineistojen tilaaminen Aineistoja saa tieteelliseen tutkimus-, opetus- ja opiskelukäyttöön Aineistojen käyttäjän velvoitteet käyttölupahakemus ja käyttöehtositoumus sitoutuu noudattamaan tietoarkiston ja aineiston luovuttajan asettamia ehtoja ilmoitus tietoarkistolle julkaisuista Suomalaiset saavat käyttöönsä muiden maiden data-arkistojen aineistoja Suomen tietoarkiston välityksellä http://www.fsd.uta.fi/aineistot/jatkokaytto/tilaus.html
18 Jatkokäyttöön toimitettujen aineistojen lukumäärä käyttötarkoituksen mukaan 2007-2011 600 500 400 300 200 muu opiskelu pro gradu opetus väitöskirja tutkimus 100 2007 2008 2009 2010 2011 0
Tutkimusaineistojen tiedonhallinta 19 Tarkoittaa sitä, että tutkimusaineistot (data) ja niihin liittyvä kuvaileva tieto (metatieto, metadata) on luotu, tallennettu ja järjestetty siten, että aineiston säilyy käyttökuntoisena ja luotettavana ja että tietosuoja ja tietoturva on varmistettu aineiston koko elinkaaren ajan.
20 Aineiston kuvailu (metadata) Varmistaa aineistoyksiköiden hallinnan Mahdollistaa aineistojen löydettävyyden Ilman kuvailevaa tietoa aineisto on merkityksetön kokoelma tiedostoja Kuvailu edellytys aineistojen luetteloinnille ja löytämiselle
21 Aineiston kuvailu 1. Yksikkökohtainen kuvailu (sisältö vaihtelee aineistosta riippuen) Aineiston muodostamistilanne - Esim. aika, paikka, paikkakunta ja muu tilannetta koskeva informaatio Tutkimushenkilöt - Esim. sukupuoli, ikä, koulutus, ammatti, työpaikka, koulu, kotitalouden/perheen koostumus, siviilisääty, kieli, kansallisuus ja etninen tausta
22
Aineiston kuvailu 2 Aineistokohtaiset tiedot, Tietoarkisto käyttää kv-standardia DDI, jossa n. 300 kenttää tutkimuksen tekijä(t) tutkimuksen aihepiiri ja sisältö aineiston valinta tai otantamenetelmä aineistonkeruu havaintoyksikkö/aineistoyksikkö käyttöehdot tiedostojen formaatti/formaatit kvantitatiivisten aineistojen muuttujat, muuttujien määrä sekä kyselylomakkeen kysymystekstit kvalitatiivisten aineistojen keskeiset dokumentit (haastattelukysymykset, kirjoituskehoitus tms.) Tutkimusaineiston kuvailussa on muistettava keskittyä nimenomaan itse aineiston eikä siitä tehtyjen johtopäätösten tai julkaisujen kuvailuun 23
24 Varmista jatkokäyttökuntoisuus Päätös aineiston a) pitkäaikaissäilytyksestä organisaatiossa b) tuhoamisesta c) arkistoinnista FSD:hen Aineiston tuhoamisen on oltava tietoinen päätös eikä seurausta puutteellisesta tiedonhallinnasta! Aineistojen käyttökuntoisuuden varmistaminen Tallennusmedioiden valinta (käyttöversioille ja varmuuskopioille) Tallennusformaattien valinta (käyttöversioille ja varmuuskopioille) virkistykset, migraatiot Kuvailut!!! Kuka päättää käytöstä projektin päätyttyä? Mitkä ovat jatkokäytön ehdot? Pitkäaikaissäilytys on myös resurssikysymys Säilytys, varmuuskopiointi, tietosuoja (mm. anonymisointi), tietoturva, dokumentointi ja jatkokäyttöön toimittaminen vaativat asianmukaiset käytännöt, resurssit ja arkistonmuodostussuunnitelman.
25 Tietoarkisto 2015 -hanke Paperimuotoinen aineistontilausjärjestelmä korvataan portaalilla, jossa rekisteröityneet käyttäjät voivat ladata aineistoja suoraan verkosta Aineistoportaalin kautta voi selata aineistovarantoja etsiä aineistoja ladata aineistoja (vain rekisteröityneet käyttäjät) Asiakas voi rekisteröityä tietoarkiston sähköiseen palveluun oma käyttäjätili kirjautuminen oman yliopiston tunnuksella Aineistonluovuttaja voi aineistoportaalin kautta seurata aineistonsa käyttötilastoja Laajojen tekstiaineistojen html-tiedostot tuotetaan projekteille jo primaaritutkimuksen käyttöön, kun arkistoinnista tehdään sopimus mahdollistavat laajojen aineistojen sisällön hahmottamisen ja selailun oleellisesti hallitummin kuin nykytilanteessa, jossa jatkokäyttäjä joutuu availemaan erikseen kymmeniä eri tekstitiedostoja
26
27
28
29
Tutkimusaineiston tiedonhallinta projektin aikana 30 Tiedonhallintasuunnitelma jo ennen aineiston keruuta: Datan tekijän- ja käyttöoikeuksista sopiminen Tutkittavien informointi Jos kerääjä ulkopuolinen organisaatio, tarkkana tarjouspyynnön kanssa! Keruun jälkeen: Datatiedostojen säilytys, käsittely (havaintomatriisin käsittely, kvalidatan käsittely, anonymisointi) ja dokumentointi asianmukaisesti Arkistointi (tai tarvittaessa tutkimusaineiston tuhoaminen) Tietoarkisto auttaa tutkijoita puhelimitse, sähköpostitse ja verkkoresursseillaan: