TUTKIMUSAINEISTOJEN INFRASTRUKTUURIN KUVAUS 1. Vaatimukset aineistojen infrastruktuurille Suurin osa tutkimusyliopistoissa ja laitoksissa tapahtuvasta tutkimuksesta perustuu alun perin digitaalisessa muodossa olevan aineiston tai digitoidun aineiston käsittelyyn. Tiedonhallinnan infrastruktuurien kehittämiseen on tartuttu niin paikallisella, kansallisella i kuin eurooppalaisellakin ii tasolla. TIVIT SHOK hankkeessa puhutaan jopa tietovarantoryntäyksestä. iii Tässä tarkastellaan tutkimusaineistojen infrastruktuuria ottamatta kantaa siihen, tuotetaanko palveluja itse vai hankitaanko ne ulkopuolisilta palveluntarjoajilta. Liittyminen ulkoisiin palveluihin edellyttää kuitenkin omien palvelujen kehittämisen sille tasolle, että liittyminen ja ulkoisten resurssien käyttö on mahdollista. Rinnakkaisjulkaiseminen ja tutkimusaineistojen hallinnointi työryhmän tuottama Tutkimusaineistojen hallinnointiin liittyvä loppuraportti (31.3.2010) toteaa Digitaalisessa muodossa olevien aineistojen määrä kasvaa nopeasti. Yliopiston tulisi tarjota digitaalisille tutkimusaineistoille keskitettyyn käyttövaltuushallintaan kytketty tietoturvallinen palvelu, joka on käyttäjille kustannuksiltaan niin edullinen, että arvokkaat tutkimusaineistot voidaan edellyttää säilyttäväksi siellä. Nykyisin aineistoja joudutaan kustannussyistä osin säilyttämään varmuuskopioimattomissa ja tietoturvaltaan kyseenalaisissa tallennusvälineissä. Keskitetty palvelu on välttämätön laatutekijä jo rahoittajien aineistojen hallintaan liittyvien vaatimusten takia. Keskitetty palvelu nähdään välttämättömänä laadunvarmistuksen edellytyksenä, mutta se on toisaalta mahdollistaja, joka tehostaa käytännön tutkimusprosesseja niihin liittyvää aineistonhallintaa. Lisäksi se antaa mahdollisuuden erilaisten datojen yhdistämiseen ja uudenlaisten analyysimenetelmien ja tutkimusasetelmien käyttöön. Hyvin hoidettu paikallinen tutkimusaineistojen infrastruktuuri antaa mahdollisuuden ulkoistaa aineistoja silloin, kun sille on muut edellytykset. Tutkimusaineistot myös meritoivat tutkijaa kuten julkaisu. Kehittyneen aineistoinfrastruktuurin pohjalle voidaan rakentaa virtuaalisia ja hajautettuja tutkimusympäristöjä ( e-research ). iv Tutkimusaineistojen elinkaarimallissa päähuomio on aineistojen varastoinnissa ja pitkäaikaissäilytyksessä. Sen sijaan elinkaari aineiston keruusta tutkimustuloksiin jää viittauksen varaan. v Käytännön tutkimustyön kannalta juuri tämä on aineiston hallinnan kannalta olennainen prosessin vaihe ajatellen tutkimustyön edistymistä mutta myös aineiston myöhempää säilytystä. Aineistoa kuvailevaa metatietoa tulee kerryttää koko tutkimusprosessin aikana. Aineiston integriteetin varmistamista ja erityisesti provenienssia vi kuvaava tieto syntyy ja se on tallennettava prosessin kuluessa. Oxfordin yliopiston tutkimusdatan infrastruktuurihankkeessa otettiin huomattavasti laajempi näkökulma: Data repositories tend to think of it primarily in terms of preservation and curation, but researchers are more likely to associate the term with structuring data in a database, or the organisation of files and folder. At its broadest, research data management involves all the
processes that information from research inputs undergoes as it is manipulated and analysed en route to becoming a research output. Kokonaisuus kuvattiin seuraavanlaisena viitekehyksenä: vii Data management sharing plans Legal & ethical Best formats & best practice Secure storage Metadata Access & discovery Computation analysis & visualization Restricted sharing Data cleaning Publication Assess value Preservation Add value Support Infrastructure and tools Policy Business model Keskitetty palvelu ei tarkoita sitä, että olisi mahdollista toteuttaa vain yksi ja yhteinen ja infrastruktuuri kaikille. Jokaisella tieteenalalla ja jopa tieteenalojen sisällä erilaisilla tutkimusotteilla ja kohteilla voi olla omanlaisensa vaatimukset. Aineistotyypit vaihtelevat kyselyaineistoista dokumentti- ja kuva-arkistoihin, video- ja ääniteaineistoista ja erilaisten mittalaitteiden ja anturien tuottamaan datavirtaan. Yhä useammin yhdistetään tutkimuksessa erilaisia datatyyppejä. Raaka-aineistoilla ja toisaalta analysoiduilla ja jalostetuilla aineistoilla on erilaiset vaatimukset. Keskitetyn infrastruktuuripalvelun tulee voida tarjota erilaisia tarpeita vastaavia vaihtoehtoja. Lähtökohtana on eri sidosryhmien vaatimukset täyttävä aineistonhallintapolitiikka koko yliopiston tasolla ja toisaalta sen soveltaminen tieteenalakohtaisesti. 2. Infrastruktuurin rakenne Oxfordin yliopiston hankkeessa kuvattu viitekehys kertoo osan infrastruktuurin rakenteesta. Palvelun perusta on secure storage eli keskitetysti hallittu ja varmuuskopioitu levytila / jaettu verkkolevy
Keskitettyyn levyjärjestelmään kaikille tutkimusprojekteille perustettu projektitila luo edellytykset varsinaiselle tutkimusaineistojen hallinnalle. Keskitetty järjestelmä ei estä ottamasta dataa myös paikalliseen käyttöön, mutta mitä enemmän toimitaan keskitetyn järjestelmän ulkopuolella, sitä ongelmallisemmaksi tulee esim. aineiston versiointi. Keskitetty järjestelmä mahdollistaa myös erilaisten datojen helpon yhdistämisen. Yksinkertaisin hallintajärjestelmä tutkimusdatalle on jaettu verkkolevy, jossa voidaan järjestää tietoturvavaatimukset täyttävä pääsynhallinta ( access management ). Hallintavälineenä toimivat kansiointirakenne ja tiedostojen nimeämiskäytännöt. Varsinaisesta aineistonhallinnasta ei kuitenkaan voida puhua. Kuten jäljempänä kuvattavan irodsohjelmiston esittelyssä todetaan: Data backups are not preservation. Pelkkä tallennus ilman asianmukaista aineistopolitiikkaa ja aktiivista aineiston kuvausta ei ole tiedonhallintaa. metatiedon käsittely Metatiedolla tarkoitetaan tietoa tiedosta. Metatiedon hallintapalvelu toimii tiedostojärjestelmän ylärakenteena, josta viitataan varsinaiseen tiedostojärjestelmään ja siellä oleviin tiedostoihin. Laajasti ymmärrettynä metatieto sisältää mm. aineiston statukseen (tietoturvaluokitus, säilytysstatus) liittyvät tiedot sekä aineiston alkuperän jäljittämisen (provenienssi) edellyttämää tietoa. Tunnettuja metatietostandardeja ovat yleinen dokumenttien metatietostandardi Dublin Core, sosiaali- ja käyttäytymistieteiden Data Documentation Initiative (DDI) viii sekä The Core Scientific Metadata Model (CSMD) ix. Kuitenkin erilaisilla aineistoilla (esim. kuva-arkistot, karttakokoelmat) on omat metatietosisältönsä. Staattiset metatietokuvaukset ovat jääneet lähinnä arkistoinnista ja pitkäaikaissäilytyksestä vastaavien tahojen käyttöön. Käytännön tutkimustyössä tarvitaan dynaamisia välineitä metadatan tuottamiseen ja aineiston säilytykseen. Osin metatieto syntyy automaattisesti aineiston tuotanto- ja analyysijärjestelmistä, osin metatiedon tuottaminen on tutkijoiden vastuulla. Hallintajärjestelmien tulee pystyä käsittelemään molempia toisiaan täydentävästi. Lisäksi usein on tarve jakaa aineistoa sekä ryhmän sisällä mutta myös tutkimusryhmien kesken ( restricted sharing, data grid ). Olennainen erityisesti tutkimuksen analyysivaiheen aineistoa on versiota koskeva tieto. Versionhallintaan erikoistuneita ohjelmistoja käytetään yleensä ohjelmistokehityksessä, mutta versionhallinta voi olla hyödyllinen apuväline aineistohallinnassa. Lupaavaa suuntaa näyttävä kehityshanke on open source irods-ohjelmisto. x Ohjelmisto voidaan räätälöidä sääntöpohjaisesti, toisaalta tallettamaan tietokantaan itse data ja toisaalta tallentamaan ja käyttämään aktiivisesti metatieto datan tilasta metatietokatalogiin.
irods-järjestelmän arkkitehtuuri (https://www.irods.org/pubs/irods_fact_sheet-0907c.pdf) Suomessa CSC on kehittämässä korkeakouluille tarjottavaa IDA-tallennuspalvelua, jossa käytetään irods-ohjelmistoa. Myös Jyväskylän yliopisto on ollut pilotoimassa palvelun käyttöä. Palvelu otetaan käyttöön Tutkimuksen tietoaineistot hankkeen yhteydessä. tietokantapalvelut, tieteenalakohtainen aineistonhallinta ja virtuaalipalvelimet Keskitetyt tietokantapalvelut voivat tarjota yleiskäyttöisiä ja tieteenalakohtaisia palveluja. Yleiskäyttöisiä tietokantapalveluja ovat esim. PostgreSQL ja MySQL relaatiotietokantapalvelut. Automaattisten suurten datavirtojen käsittelyn lisääntyessä trendi ns. No SQL -tietokantojen kehittämiseen on voimistunut. No SQL -kannat sisältävät laajan joukon erilaisia sovelluksia, joita yhdistää skaalautuvuus suurten datavirtojen käsittelyssä. xi Erilaiset ratkaisut palvelevat erilaisia tarpeita, joten esim. dokumenttikanta, graafisen tiedon käsittely ja jatkuvien datavirtojen käsittely vaativat tieteenala- ja aineistokohtaiset ratkaisut. xii Tieteenala-/aineisto-/tutkimusprojektikohtaisia palveluja on mahdollista tarjota projektien virtuaalipalvelimilla tai keskitettynä SaaS/PaaS palveluna xiii joko yliopiston sisäisenä, ulkoistettuna pilvipalveluna tai niiden yhdistelmänä. Palvelutarjonta voi alkaa tiedonkeruun välineistä ja ulottua aineistonhallinnasta, mallinnukseen, visualisointiin ja projektinhallintaan. Yleisten tietokantaratkaisujen lisäksi on tarjolla aineistotyyppikohtaisia aineistonhallintaratkaisuja kuten kuva-arkistot, kliinisen tutkimuksen aineistonhallinta (CDMS) ja laboratorioinformaation hallintajärjestelmät (LIMS). arkistointi ja pitkäaikaissäilytys Tutkimusaineistojen arkistoinnin ja pitkäaikaissäilytyksen edellytykset tulevat täytettyä, kun koko prosessin aikainen tiedonhallinta on kunnossa. Tällöin vaaditaan vain aineistojen arkistointi- ja säilytysstatuksen (säilytysaika, tietoturvataso, pääsynhallinta ) määrittely lopullista säilytystä varten. Aineistot saattavat edellyttää aineiston käsittelyä ja kuratointia xiv ennen loppusijoitusta. Aineistojen uudelleenkäytön edellytyksenä saattaa esim. olla aineiston
anonymisointi. Aineistojen kuratoinnissa on syytä käyttää ulkopuolisia aineistojen hallintaan erikoistuneita toimijoita, kuten Yhteiskuntatieteellinen tietoarkisto, arkistolaitos jne. i Tieto käyttöön. Tiekartta tutkimuksen sähköisten tietoaineistojen hyödyntämiseksi. http://www.minedu.fi/opm/julkaisut/2011/tiekartta_tutkimuksen_sahkoisten_tietoaineistojen_hyodyntamiseksi. html?lang=fi ii EUDAT on laaja eurooppalainen yhteistyöhanke tiedonhallinnan infrastruktuurin kehittämiseksi tutkimusyhteisöjen ja olemassa olevien infrastruktuurien käyttöön. http://www.eudat.eu/ iii http://www.tivit.fi/fi/ iv Käsite e-research viittaa uusiin informaatioteknologin tukemiin tapoihin tehdä tutkimusta. Käsite laajentaa e- Science - ja cyberinfrastructure -käsitteet ihmistieteisiin. (http://en.wikipedia.org/wiki/e-research) v Esim. CSC 19.3.2010: Tutkimuksen tietoaineistot. Olennaisen käsikirja päättäjille., s. 30. http://www.csc.fi/csc/julkaisut/oppaat/2010/tutkimuksen-tietoaineistot vi Provenienssilla (provenance) tarkoitetaan aineiston ja siitä johdettujen tulosten alkuperää. (http://fi.wikipedia.org/wiki/provenienssi). Provenienssin dokumentointi on erityisen tärkeää arvioitaessa aineiston omistajuutta ja meritointia. vii Wilson, James A. J., Michael A. Fraser, Luis Martinez-Uribe, Meriel Patrick, Asif Akram and Tahir Mansoori: "Developing Infrastructure for Research Data Management at the University of Oxford" Publication Date: 30-October-2010 Publication: Ariadne Issue 65. http://www.ariadne.ac.uk/issue65/wilson-et-al/ viii http://www.ddialliance.org/ DDI on kehittymässä arkistointia tukevasta metatietokuvauksesta kohti tutkimusprosessia tukevaa metatiedon keruuta ja hallintaa. ix http://code.google.com/p/icatproject/wiki/csmd x https://www.irods.org/ xi http://en.wikipedia.org/wiki/nosql xii Jyväskylän yliopiston tietotekniikan laitoksen Judo-projektissa toteutettiin prototyyppi dokumenttityyppisen aineiston hallintajärjestelmästä. http://youdata.it.jyu.fi/ xiii Software/Platform as a Service xiv Digital curation is generally referred to the process of establishing and developing long term repositories of digital assets for current and future reference by researchers, scientists, historians, and scholars. http://en.wikipedia.org/wiki/digital_curation