Avoimen datan avaruus ja rajat. Tietoarkisto datan kokoajana ja kierrättäjänä SOSTE: Järjestöt ja avoin data 26.5.2015 Hannele Keckman-Koivuniemi Tietopalveluasiantuntija hannele.keckman-koivuniemi@uta.fi
2 Sisältö Tietoarkiston perustietoja Käsitteitä: data, iso data, avoin data, avoin tutkimusdata Aineistotyypit ja käsittely Hyödyt ja haasteet kulttuuri ja tutkijan huolet Tietoarkisto 2014 tilastoja Järjestöjen aineistoja Palveluportaali Aila
Tietoarkisto Arkistoi ja jakaa sähköisiä empiirisiä tutkimusaineistoja Valtakunnallinen palvelu, Tampereen yliopiston yhteydessä Palvellut tutkijoita, opettajia ja opiskelijoita vuodesta 1999 Palvelut maksuttomia 15 vakituista työntekijää Laajentumassa terveys- ja humanistisille tieteenaloille CESSDAn palveluntuottaja
Suomen yhteiskuntatieteellinen tietoarkisto www.fsd.uta.fi CESSDA 2015 Tietoarkisto ja CESSDA mukana Suomen tutkimusinfrastruktuurien tiekartalla 2014-2020 (http://www.aka.fi/tutkimu sinfrastruktuurit) 4
5 Avoimuuden taustaa Kasvava määrä avointa dataa ja myös erityisesti tutkimusdatan avoimuutta koskevia aloitteita 2000-luvulta alkaen OECD 2006: Julkisrahoitteisen tutkimusdatan avoimuussuositus EU: esim. tutkimus- ja innovointihankkeita rahoittavan puiteohjelma Horisontti 2020n avoimuussuositukset
6 Kansalliset aloitteet ja suositukset I Valtakunnalliset tukipalvelut ja kansalliset kehittämishankkeet (Tietoarkisto, CSC Tieteen tietotekniikan keskus, Fin-CLARIN ym.) ESFRI-prosessiin (European Strategy Forum on Research Infrastructures) liittyvät tutkimusinfrastruktuurien kansalliset tiekartat (2009 ja 2014) Opetus- ja kulttuuriministeriön ja CSC:n koordinoimat tutkimuksen tietoaineistojen avointa saatavuutta edistävät kansalliset hankkeet: TUTA 2009-11: Raportti: Tieto käyttöön. Tiekartta tutkimuksen sähköisten tietoaineistojen hyödyntämiseksi (2011) TTA 2011-14: mm. Tutkimusdatan hallinnan tilannekartoituksen raportti (2013) ja Tiedon saatavuus -ryhmän raportti ja OKM:n palaute yliopistoille ATT Avoin tiede ja tutkimus, 2014-17
7 Kansalliset aloitteet ja suositukset II ATT Avoin tiede ja tutkimus, 2014-17, http://avointiede.fi/ Perustuu ministeriöiden, korkeakoulujen, tutkimuslaitosten ja tutkimusrahoittajien yhteistyöhön Toteutetaan yhteistyössä mm. Kansallinen digitaalinen kirjasto (KDK) -hankkeen ja valtiovarainministeriön kanssa. Tavoitteena on, että vuoteen 2017 mennessä Suomi nousee yhdeksi johtavista maista tieteen ja tutkimuksen avoimuudessa ja että avoimen tieteen mahdollisuudet hyödynnetään laajasti yhteiskunnassa. Koordinoi kansallisesti tutkimusjulkaisujen, tutkimusdatan ja tutkimuksen menetelmien kehitystyötä avoimuuden näkökulmasta. Valtiovarainministeriön ja Valtion tieto- ja viestintätekniikkakeskuksen Valtorin Avoindata.fi-palvelu, https://www.avoindata.fi/ (Edelliseen) hallitusohjelmaan kirjatut yleiset avoimuuden edistämisen periaatteet
8 Käsitteitä: data, iso data, avoin data, avoin tutkimusdata I Avoindata.fi: Data tieto koneellisesti käsiteltävässä muodossa Raakadataa ovat esimerkiksi puheen äänteet, painetun tekstin kirjaimet, bitit tietokoneessa, ilmiöitä koskeva tallennettu numerotieto, biologinen data ja yksittäiset tosiseikat. Tilastot, julkaisut, videotallenteet, kuvat, kartat ja 3Dmallit sisältävät raakadataa. Numerotietoa sisältävää aineistoa käsitellään esimerkiksi tilastomatemaattisilla ohjelmistoilla, kuten SPSS
9 Käsitteitä: data, iso data, avoin data, avoin tutkimusdata II Big data, iso data, massadata 2010-luvun hypetystä digitalisaation, tallennuskapasiteetin hinnan alenemisen ja pilvipalveluiden yleistymisen seurauksena Dataa, työkaluja, ilmiötä Kolme v-kirjainta: voluumi, vauhti ja variaatio: Dataa, jota on paljon, jonka määrä kasvaa nopeasti ja joka on muodoiltaan vaihtelevaa - usein reaaliaikaista Dataa tuottavat niin ihmiset kuin koneetkin eri sektoreilla pääasiassa verkkoon kytketyistä laitteista: hakukoneet, anturit, sosiaalinen media, kuva- ja videoaineistot, vähittäiskaupan rekisteröimät tiedot, teollisuus Julkishallinto: data- ja asiakasystävällisempi hallinto, suorituskykyä, yksilöllisempi palvelu Sovellusalueita; paikkatieto, tiedon etsintä, joukkoistaminen, itsensä mittaaminen, omadata, datajournalismi Tunnetuin työkalu tai alusta on Hadoop, kokoelma avoimen lähdekoodin ohjelmistoja, R Lähteitä: Tieto&Trendit 2/2015, Liikenne- ja viestintäministeriö: Big datan hyödyntäminen 20/2014.
10 Big Data Europe ja CESSDA
11 Big datan sovellusalueita ihmistieteissäkin Taulukkolähde: Tieto&Trendit 2/2015. Piela, Pasi. Iso data tilastotoimessa. Ison datan tietolähteitä ja mahdollisia tilastointikohteita http://tietotrendit.stat.fi/mag/article/113/#sthash.yjmgdaie.dpuf
12 Käsitteitä: data, iso data, avoin data, avoin tutkimusdata III Avoindata.fi: Avoin data data, joka on kenen tahansa uudelleen käytettävissä maksutta, luvallisesti ja koneluettavassa muodossa. - Myös yritykset ja yhdistykset voivat julkaista palvelussa avointa dataa ja sitä kuvailevia eli metatietoja. Varmistettava, ettei tietoaineistoon liity kolmansien tahojen tekijänoikeuksia, henkilötietoja tai lain mukaan muuten salassa pidettäviä tietoja. ATT-hanke: Avoin data tutkimukselle, julkishallinnolle, organisaatioille, yrityksille tai yksityishenkilöille kertynyttä jalostamatonta informaatiota, joka on avattu ulkopuolisillekin vapaasti ja maksutta hyödynnettäväksi. - AVAA-palvelu on avointen tutkimusaineistojen julkaisualusta suomalaisen (yliopisto)tutkimusjärjestelmän toimijoille. Sopimukset tai tekijänoikeus eivät saa estää aineiston avaamista (Haka). Kuka tahansa pääsee hyödyntämään aineistoja ilman kirjautumista.
13 Käsitteitä: data, iso data, avoin data, avoin tutkimusdata IV Avoin tutkimusdata Tutkimuksen tuottamat sähköiset tutkimusaineistot, jotka avataan jatkokäyttöön usein rajatusti OKM: Avoimen tieteen ja tutkimuksen tiekartta 2014 2017: Tutkimusyhteisöt ja tutkijat valitsevat sujuvasti sopivan avoimuuden asteen aineiston luottamuksellisuuden, tutkimusetiikan, juridisen perustan, iän ja muiden tekijöiden pohjalta
Yhteiskuntatieteellinen tietoarkisto www.fsd.uta.fi Tietoarkiston Data ABC mikä on aineisto? Määrällisiä/kvanti- ja laadullisia/kvali- Datatiedosto + sen kuvailutiedot ~ aineisto Arkistoon luovutettua aineistoa käsitellään: tavoitteena pitkäaikaissäilytys & jatkokäytettävyys Ei paperiaineistoja Ei tieteellisiä julkaisuja ts. ei kirjasto http://www.fsd.uta.fi/fi/faq/data_abc.html 14
15 Aineistojen avoimuus Tietoarkistossa Aineisto on täysin avoimesti kaikkien käytettävissä, kun sitä voi käyttää tietoarkiston sivuilta rekisteröitymättä tietoarkiston asiakkaaksi. Aineisto on avoimesti tutkimuksen, opetuksen ja opiskelun käytössä, kun sitä voivat käyttää aineistojen käyttöehtoihin sitoutuneet tietoarkiston rekisteröityneet asiakkaat. Tavallisimmin arkistoituja aineistoja käytetään tutkimukseen, tutkimuksen suunnitteluun, opetukseen ja opiskeluun. Aineiston jatko- eli uudiskäytön mahdollisuudet ja rajat määritellään kunkin aineiston arkistointisopimuksessa.
Kvantitatiiviset aineistot Kvantidata = tallennettu havaintomatriiseiksi posti-, puhelin-, internet- tai käyntikyselyjä havaintoyksikkö useimmiten henkilö Datan käsittely tietoarkistossa Muuttujat tunnistetaan ja tarkistetaan Arkistoituun dataan jätetään keruulomakkeeseen liittyvät muuttujat (+ tarvittaessa konstruoituja, hyvin dokumentoituja muuttujia) Muuttujiin lisätään dokumentaatiota (labelit) Tietosuojaongelmien ratkaisemiseksi muuttujia voidaan poistaa tai luokitella uudelleen Kaikki muutokset dokumentoidaan Käytössä SPSS-ohjelma
Kvalitatiiviset aineistot Puhetta, kuvaa tai tekstiä sähköisenä tallenteena Datan käsittely tietoarkistossa Tiedostojen yksikkökohtaisten tietojen tarkistus, lisääminen Anonymisointi Kuvailu Html-esitysversioiden luonti AV-data usein Kielipankin (fin-clarin) hallintaan
Aineiston kuvailu (metadata) Mahdollistaa aineistonhallinnan Säilyttää aineiston käyttökuntoisena Varmistaa osaltaan tutkimustulosten luotettavuuden ja tarkistettavuuden Edellytys aineistojen luetteloinnille ja löytämiselle Ilman kuvailevaa tietoa aineisto on merkityksetön kokoelma tiedostoja, numeroita, merkkejä tai bittejä!
Yhteiskuntatieteellinen tietoarkisto www.fsd.uta.fi 19
Aineiston kuvailu, yleistä I Olennaisia metatietoja ovat aineiston alkuperäinen käyttötarkoitus tekijät, tuottajat perusjoukon ja havainto- tai aineistoyksikköjen valintaperusteet aineistonkeruun tiedot Myös aineistonkeruuinstrumentti on metatietoa Paradata ja kontekstitiedot
Aineiston kuvailu, yleistä II Tietoarkisto käyttää kuvailuun kv. DDImetadataformaattia, jossa n. 300 kenttää tutkimuksen tekijä(t) tutkimuksen aihepiiri ja sisältö aineiston valinta tai otantamenetelmä aineistonkeruu havaintoyksikkö/aineistoyksikkö käyttöehdot tiedostojen formaatti/formaatit kvantitatiivisten aineistojen muuttujat, muuttujien määrä sekä kyselylomakkeen kysymystekstit kvalitatiivisten aineistojen keskeiset dokumentit (haastattelukysymykset, kirjoituskehoitus tms.)
22 Seulonnasta Aineistoon liittyvät omistus- ja hallintasuhteet ovat riittävän selkeät Aineistolle tunnistetaan jatkokäyttöarvo Kaikki sähköinen aineisto ei ole pitkäaikaissäilyttämisen arvoista Jos tarpeen anonymisoida, tunnisteiden poisto ei saa olla liian työlästä, eikä muokkaus saa vähentää oleellisesti aineiston käyttöarvoa Toisinaan jatkokäytettävissä olevan aineiston edellyttämä anonymisointi vie liikaa resursseja Aineistojen tietosisältö on järjestyksessä ja sitä kuvaileva muu materiaali on riittävä jatkokäyttöön tarkoitetun aineiston käyttöversion prosessoimiseksi ja metadatan luomiseksi. Muuttujien selitteet, aineiston keruuaika, kohderyhmä, otanta, keruuinstrumentti (lomake, haastattelukysymykset tms.) jne. Tutkittavien informointi: tutkimusaineiston jatkokäytöstä ja arkistoinnista informoiminen etukäteen saatekirjeessä
23
24
25 Kulttuuriset haasteet tutkimusdatan avoimuudelle Kuka omistaa aineistot? Akateeminen kilpailu Ensikäyttöoikeus Eettiset kysymykset ja tietosuoja Kannustimet Tutkimusrahoitus Kansainväliset julkaisut Viittausten määrä
26 Tutkijoiden tyypillisiä huolia Tunnistettavuus tutkimusaineistoja pitää voida tutkia tarkkuudella, joka ei ole tutkimusjulkaisuissa mahdollista Aineistojen väärinkäyttö Arkistoaineistoista yksittäisten henkilöiden etsiminen rikkoo lakia ja tutkimuseettisiä periaatteita Tietojen luovuttaminen viranomaisille on myös rikos (tosin esim. rikoksia koskevat tiedot ovat usein vanhentuneita) Juoruilu aineiston yksittäisiä henkilöitä koskevista asioista on myös rikos ja tutkijan maineelle ammatillinen itsemurha
Valmiin aineiston edut Tieto kumuloituu Tiedon ja tieteen avoimuus ja läpinäkyvyys Innovaatiot Verkostoituminen Tutkimustulosten kontrolloitavuus Säästyy aikaa, rahaa ja vaivaa Uusi teema ja näkökulma tuoreuttavat vanhan aineiston.
ja haasteet Operationalisoinnit, kysymysten järjestys, asiayhteys Otantaongelmat, kato Tiedonkeruumenetelmien vaikutus Mittarien vertailtavuus (aika, paikka, kulttuuri) Edut suuremmat kuin haitat!
Tietoarkiston toiminta 2014 Jatkokäyttöön toimitettujen aineistojen lukumäärä käyttötarkoituksen mukaan 2014 545 56 346 tutkimus väitöskirja opetus pro gradu 120 100 80 Arkistoon tallennettujen aineistojen lukumäärä 2005-2014 94 103 82 91 96 93 112 109 105 68 113 opiskelu 60 204 139 muu 40 20 Muuta käyttöä esim. selvitykset, lehtiartikkelit 0 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 Aineistovarannossa yli 1200 tutkimusaineistoa kvantitatiivisia yli 1050 kvalitatiivisia yli 160 kotimaisia aineistosarjoja
30 Järjestöjen aineistoja Tietoarkistossa I Vuosina 2006-2015 arkistoiduista aineistoista 18 % on järjestöjen aineistoja SOSTE, Kunnallisalan kehittämissäätiö, Väestöliitto, YTHS, Opiskelijajärjestöjen tutkimussäätiö, Suomen Lastensuojelun keskusliitto, Valtakunnallinen liikuntaja urheiluorganisaatio ry, Invalidiliitto, Kehitysvammaliitto, Vapaa-ajattelijain liitto, Asumispalvelusäätiö, Suomalaisen kirjallisuuden seura, Mediakasvatusseura
31 Järjestöjen aineistoja Tietoarkistossa II Sosiaalibarometrit Perhebarometrit Korkeakouluopiskelijoiden terveystutkimukset Kunnallisalan ilmapuntarit Lasten kuritusväkivalta Liikuntatutkimukset FSD2861 Vammaisten ihmisten ja mielenterveyskuntoutujien turvallisuus 2012: asukkaat FSD2605 CP-vammaisten aikuisten elämänhallinta 2008-2010 jne.
32 Julkaisuja, opinnäytteitä järjestöjen aineistoilla Selkälä, Arto (2013) Kansalaisuuden hallinta suomalaisessa sosiaali- ja terveyspolitiikassa. Akateeminen väitöskirja. Yhteiskuntatieteiden tiedekunta. Lapin yliopisto. Lapin yliopistokustannus. Rovaniemi. (Sosiaalibarometrit 1997, 2004 ja 2005) Laiho, Anna (2013) Kuntalaisten ja kunnanvaltuutettujen mielipiteet kunnallisista palveluista 2000- luvulla. Turku: Turun yliopisto. Sosiaalipolitiikan pro gradu -tutkielma. (Kunnallisalan ilmapuntarit 2000-2010) Ala-Venna, Suvi (2015). Korkeakouluopiskelijoiden kuntoliikuntatottumukset ja opiskelu-uupumus. Tampere: Tampereen yliopisto. Terveystieteiden yksikkö. Hoitotieteen pro gradu -tutkielma. http://urn.fi/urn:nbn:fi:uta-201505131421 (Korkeakouluopiskelijoiden terveystutkimus 2008) Lehtonen, Kati & Hakonen, Harto (2013). Liikunnan kansalaistoiminnan tietopohja. Liikunnan harrastaminen ja vapaaehtoistyö urheiluseuroissa. Jyväskylä: Liikunnan ja kansanterveyden edistämissäätiö LIKES. Liikunnan ja kansanterveyden julkaisuja 274. (mm. Liikuntatutkimukset 2001-2006) Lindholm, Satu (2012). Suomalaisten suhtautuminen isien vanhempainvapaiden kehittämiseen. Helsinki: Helsingin yliopisto. Yhteiskuntapolitiikan pro gradu -tutkielma. hdl:10138/34029 (Perhebarometri 2010)
33 Palveluportaali Aila I Avattiin toukokuussa 2014 Noin 1130 arkistoitua tutkimusaineistoa ladattavissa kattavat suomen- ja englanninkieliset kuvailutiedot noin 300 kvantidataa saatavana myös englanniksi Kuvailuja ja taustadokumentaatiota voi selata vapaasti Data saatavilla arkistointisopimuksissa määriteltyjen ehtojen mukaisesti (A) vapaasti käytettävissä (33), (B) tutkimukseen, opetukseen ja opiskeluun (861), (C) vain tutkimukseen graduista alkaen (145) ja (D) vain luovuttajan luvalla (88).
34 Vapaasti käytettävissä olevat aineistot Esim. HILMAt eli Työ- ja elinkeinoministeriön julkisten hankintojen ilmoitustilastoaineistot Asunto-osakeyhtiölain toimivuus 2013 FSD1289 Demokratisoitumisen mittarit 1810-2012 FSD2981 Kaikkien yhteinen kulttuuriperintö 2014
Aineiston käyttäjän velvoitteet Lisenssit ja käyttöehdot Sitoutuu noudattamaan tietoarkiston ja aineiston luovuttajan asettamia ehtoja Ilmoitus tietoarkistolle julkaisuista Ilmoitus tietoarkistolle, jos huomaa aineistossa virheitä tai puutteellisuuksia Uusi käyttötarkoitus > uusi lupahakemus
Palveluportaali Aila Selaa ja hae tutkimusaineistoja Rekisteröidy peruspalvelutunnuksella si tai hae käyttäjätunnusta asiakaspalvelustamme Lataa aineisto nopeasti ja maksutta käyttöösi
Yhteiskuntatieteellinen tietoarkisto www.fsd.uta.fi Tutustu aineistoihin Ailassa Kuvauksen kieli Aineistonumero Aineiston nimi Saatavuus Tyyppi Julkaisuajankohta Kaikki aineistot kuvaillaan suomeksi ja englanniksi - Käyttöliittymän kielet ovat suomi ja englanti 37
Yhteiskuntatieteellinen tietoarkisto www.fsd.uta.fi Hae aineistoja 38
Yhteiskuntatieteellinen tietoarkisto www.fsd.uta.fi 39
Yhteiskuntatieteellinen tietoarkisto www.fsd.uta.fi Lataa aineisto itsellesi - Aineistot ladataan yksitellen - Latauksen yhteydessä täytetään käyttölupahakemus, johon kirjataan käyttötarkoitus, hankkeen tai tutkimuksen nimi ja lyhyt kuvaus sekä mahdollinen rahoittaja. 40
41 Tietoarkiston aineistot yhteisluetteloissa Tietoarkiston oman aineistoluettelon ohella aineistojen kuvailutiedot ovat myös kansallisissa Etsin-metadatakatalogissa ja Finna-hakupalvelussa sekä kansainvälisissä CESSDAn yhteisluettelossa ja Thomson Reutersin Data Citation Index - viitetietokannassa. - Tietoarkiston aineistojen metatietokuvailut koneluettavassa muodossa avoimesti saatavilla kahdella tavalla: DDI-XML ja OAI-PMH
Tietoarkiston palvelut Voit ladata ja tallentaa tutkimusaineistoja Neuvomme ja ohjaamme verkossa: Käsikirja aineistonhallinnasta Menetelmäopetuksen tietovaranto Poliittisten ohjelmien tietovaranto Ja tietopalvelemme myös henkilökohtaisesti. Ota yhteyttä asiakaspalveluun! http://www.fsd.uta.fi/
Tietoarkistosta dataa maailmalle Vastaavasti suomalaiset tutkijat ja opiskelijat saavat käyttöönsä muiden maiden data-arkistojen aineistoja.
Yksi aineisto - monta tulkintaa
Yhteiskuntatieteellinen tietoarkisto www.fsd.uta.fi Tutustu tarkemmin Ailaan Tutustu tietoarkiston muihin palveluihin http://www.fsd.uta.fi Kiitos! Tietoarkisto turvaa aineistosi ja tukee aineistojen avointa saatavuutta ja informoitua jatkokäyttöä. 45