TTA-hankkeen esittely Pirjo-Leena Forsström TTA-hankkeen pääsihteeri
Toimenpiteitä tietoaineistojen hyödyntämisen parantamiseksi
TTA-VISIO Suomessa on selkeä tietopolitiikka, jota yhteiset sähköiset palvelut tukevat. Julkisen sektorin hallinnoimat tietoaineistot sekä julkisen tutkimusrahoituksen tuella syntyneet tietoaineistot ovat lainsäädännön ja yhtenäisten käyttöehtojen ohjaamina pääsääntöisesti maksutta yhteiskunnan hyödynnettävissä. Pitkäjänteinen tietoinfrastruktuurin kehittämisen ja ylläpidon rahoitusjärjestelmä takaa, että olemassa olevat ja uudet tietoaineistot kuvaillaan ja ne ovat helposti löydettävissä ja otettavissa käyttöön tietoverkossa olevien palveluiden avulla. Kannustava ja oikeudenmukainen meriittijärjestelmä varmistaa uusien, laadukkaiden tietoaineistojen liittämisen tietoinfrastruktuuriin.
TTA, tutkimuksen tietoinfrastruktuuri hermosto, tiedonvälitys- ja säätelyjärjestelmä TTA-palvelukokonaisuus edistää tutkimuksen tietoaineistojen kansallista, eurooppalaista ja kansainvälistä yhteentoimivuutta
Määritelmiä Tutkimuksen tietoaineistolla tarkoitetaan tässä työssä julkisin varoin tuotettuja sähköisiä tietoaineistoja ja -varantoja. Tietoaineistoihin kuuluvat sekä tutkimuksen tuottamat että tutkimuksen hyödynnettävissä olevat aineistot. Tutkimuksen tietoinfrastruktuurilla tarkoitetaan aineistojen sijaintiin, rakenteeseen, organisointiin, hakemistoihin ja luetteloihin, omistajuuteen, saatavuuteen, varmistukseen, tietoturvaan ja tietovarastoihin liittyvät keskeiset resurssit ja kyvykkyydet sekä niiden elinkaaren hallinta. TTA-palveluilla tarkoitetaan niitä tutkimuksen tietoinfrastruktuurin palveluita, jotka toteutetaan TTAhankkeessa. Joulukuuhun 2012 mennessä tällaisiksi palveluiksi on sovittu tallennuspalvelu IDA, metatietopalvelu KATA sekä pitkäaikaissäilytys PAS. Jatkossa uusista palveluista sopiminen tapahtuu valitun hallintomallin puitteissa
Käytännön tavoitteena on: tutkimuksen tietoinfrastruktuuri palveluineen toimii saumattomasti yhteen muun kansallisen tietoinfrastruktuurin kanssa ja tarjoaa tutkimuksen tietoaineistojen säilyttämisen ja hyödyntämisen yhteiset palvelut. Tietoinfrastruktuurin rakentaminen, kehittäminen ja ylläpito on pitkäjänteistä ja takaa, että tietoaineistot kuvataan ja tuodaan tietoinfrastruktuuripalvelujen piiriin. Eri toimijoiden välinen roolijako on selkeä. Kaikista tutkimuksen kannalta merkittävistä tietoaineistoista on tuotettu tarvittavat metatiedot ja kuvaukset on koottu niin, että tietoaineistot on helposti löydettävissä. Tietoaineistot säilytetään pysyvästi ja niille on annettu pysyvä tunnus. Tietoaineistot ovat palveluiden avulla helposti löydettävissä, saatavissa ja käytettävissä. Tutkimusorganisaatiot ja yhteenliittymät vastaavat tietoaineistojen metatietotyöhön tarvittavista työkaluista ja järjestelmistä.
TTA-hankkeen hyödyt Keskitettyä tietoa tutkimuksen tietoaineistoista: helpompi löytää, helpompi käyttää Yhtenäisempiä käytäntöjä aineistojen hallintaan Yhteentoimivuuden lisääntyminen: metatietomalli, rajapinnat Monipuolisen palvelukokonaisuuden kehitys Tietoaineistojen säilymisen turvaaminen Tier 1 International data services Säilymistodennäköi syys kasvaa, löydettävyys Säilyminen kasvaa ja löytyminen epävarmaa Tier 2 National data services Tier 3 Institutions (Universities & Institutes) Tier 4 Small science researchers & research groups
TTA palveluarkkitehtuuri
IDA tallennuspalvelu Yhteinen tallennuspalvelu tutkimuksen digitaalisten tietoaineistojen säilyttämiseksi ja uudelleenkäytön lisäämiseksi Tietoaineistojen ja metatiedon turvallinen säilytys Datan säilyminen eheänä ja muuttumattomana turvataan kopioiden ja niiden eheyden hallinnalla
IDA palvelulupaus Palvelu takaa aineistojen säilyvyyden vähintään vuoden 2017 loppuun asti. Tähän mennessä selvitetään, jatketaanko tätä säilytystapaa vai hoidetaanko säilyttäminen uudella ratkaisulla. Palvelun käyttäjän ei tarvitse tässä vaiheessa erikseen huolehtia tietojen siirrosta. Palvelu takaa vähintään yhteensä 3 petatavun kapasiteetin palvelussa. Aineistoja palveluun siirrettäessä niihin liitetään automaattisesti minimimetatietoja. Käyttöosuuksien mukaisesta käytöstä ei tänä aikana koidu käyttäjille kustannuksia. Aineistojen omistajat päättävät itse niiden avoimuudesta ja käyttöpolitiikasta. Aineistojen omistajuus- ja tekijänoikeusasioiden selvittämistä ennen aineistojen siirtoa palveluun suositellaan voimakkaasti. Vuoden 2017 jälkeen aineistojen säilytys vaatii minimimetatietoja laajempia kuvailutietoja.
TTA-hankkeen piiriin kuuluvat tietoaineistot Suomen Akatemian tutkimusrahoituksen (akatemiahankkeet, huippuyksiköt, tutkimusohjelmat) sekä tutkimusympäristörahoituksen (tutkimusinfrastruktuurit) projektien tuottamat tietoaineistot Alussa 1 PT tallennuskapasiteetti Soveltuvin osien korkeakoulujen, ammattikorkeakoulujen ja tutkimuslaitosten tuottamat aineistot Alussa yhteensä 1 PT tallennuskapasiteetti Erillisrahoitetut ESFRI-hankkeet Yhteiskuntatieteellisen tietoarkiston aineistot Soveltuvin osin säätiöiden ja SHOK-yhteistyön piirissä olevat aineistot
TTA-palvelut IDA : tallennuspalvelu tutkimuksen digitaalisten tietoaineistojen (jatkossa data) säilyttämiseksi ja uudelleenkäytön lisäämiseksi. Ida mahdollistaa tutkimuksen tuottamien tietoaineistojen ja niihin liittyvän metatiedon turvallisen säilytyksen. Datan säilyminen eheänä ja muuttomattona sekä asiakkaan helposti saatavilla on palvelun ensisijainen tavoite. Säilytettävän datan muuttumattomuus turvataan kopioiden ja niiden eheyden hallinnalla. Suomen Akatemian hankkeet Erityishankkeet Käyttöoike us Korkeakouluje n tietoaineistot SA hankkeet 1 PB ESFRIt, FSD, pilotit ja lisäosuudet 1 PB TTApalveluihin Korkeakoulut 1 PB
KATA aineistokatalogi helpottaa tutkimuskäyttöön saatavilla olevien aineistojen löytämistä tuottaa tietoa aineistojen olemassaolosta rahoittajille mahdollistaa yhtenäisen käyttöehto- ja käyttöoikeuskulttuurin luomisen (omistajuus- ja hyödyntämisoikeustiedot aineistokatalogiin) mahdollistaa meriitin syntyminen tutkijalle auttaa tunnistamaan ja löytämään tietoaineistoja pitkäaikaissäilytykseen
IDA-KATA
AVAA datan julkaisupalvelu
AVAA haut
Digitaalinen pitkäaikaissäilyttäminen prosessi, jossa digitaalinen kokonaisuus irroitetaan luontiympäristöstään, ja sen olemassaolo varmistetaan säilytysympäristössä autenttisuus ja eheys säilyttäen Kriittiset asiat: Autenttisuuden ja eheyden varmistaminen Teknologisten riskien hallitseminen Kustannusten hallitseminen Päämääränä infrastruktuuririippumattomuus, jotta voidaan käyttää mitä tahansa tallennusratkaisua HAASTEET: Mitä pitää säilyttää? Materiaali joka pitää pelastaa Materiaali jota arvioimme tarvitsevamme pitkällä aikavälillä Kuinka se tulisi säilyttää? Formaatit Tallennusmediat Kuka on vastuussa, kuka tekee? Kuka maksaa? Sisällön tuottajat? Laitokset ja instituutiot? Käyttäjät?
PAS-ratkaisun valmistelu 2012-2013 Edetään toteuttamissuunnitelmassa ehdotetuissa vaiheissa Vaihe 1: 2011-2013 PAS-ratkaisun valmistelu Vaihe 2: 2014-2015 PAS-ratkaisun toteuttaminen BITTITASON PAS-PALVELU AVAUTUU JOULUKUUSSA 2013. 11.9.2012 31
Aineiston kuvailua ja rakennetta koskevilla määrityksillä varmistetaan että aineistoon on liitetty pitkäaikaisen säilyttämisen kannalta välttämättömät metatiedotta digitaalisia objekteja ei voida siirtää PAS-järjestelmään sellaisenaan. Aineisto on siirrettävä luovutuspaketteina ja varustettava riittävillä metatiedoilla. Säilytyskelpoiset tiedostomuodot Siirtokelpoiset tiedostomuodot Hallinnolliset ja rakenteelliset metatiedot Kuvailevat metatiedot Standardisalkku KDK METS-profiilit TAUSTAJÄRJESTELMÄ LUOVUTUSPAKETIT (SIP) PAS-JÄRJESTELMÄ
Kiitos!
KYSYMYKSIÄ JA VASTAUKSIA TTA- PALVELUISTA 13.5.2013
TTA-PALVELUT Tallennuspalvelu IDA Metatietopalvelu KATA Tulossa: pitkäaikaissäilytys TTA-PAS
Kysymys IDA-tallennuspalvelun kestosta Miten pitkäaikaisesta palvelusta on kysymys? Vastaus: IDAn palvelulupauksen mukaan palvelu on toiminnassa nykyisessä muodossaan 2017 loppuun asti. Viimeistään tässä vaiheessa tiedetään, jatkuuko nykyinen palvelu vai luodaanko sen tilalle uusi. Tässä vaiheessa on todennäköisestä saatu myös pitkäaikaistallennus toimimaan. (ks. palvelulupaus kokonaisuudessaan seuraavassa kalvossa)
IDA palvelulupaus IDAan tallennettujen aineistojen säilyvyys taataan vähintään vuoden 2017 loppuun asti, käyttäjille ei kustannuksia Palvelu takaa aineistojen säilyvyyden vähintään vuoden 2017 loppuun asti. Tähän mennessä selvitetään, jatketaanko tätä säilytystapaa vai luodaanko sen tilalle uusi. Palvelun käyttäjän ei tarvitse tässä vaiheessa erikseen huolehtia tietojen siirrosta. Palvelu takaa vähintään yhteensä 3 petatavun kapasiteetin palvelussa. Aineistoja palveluun siirrettäessä niihin liitetään automaattisesti minimimetatietoja. Käyttöosuuksien mukaisesta käytöstä ei tänä aikana koidu käyttäjille kustannuksia. Aineistojen omistajat päättävät itse niiden avoimuudesta ja käyttöpolitiikasta. Aineistojen omistajuus- ja tekijänoikeusasioiden selvittämistä ennen aineistojen siirtoa palveluun suositellaan voimakkaasti. Vuoden 2017 jälkeen aineistojen säilytys vaatii minimimetatietoja laajempia kuvailutietoja.
Kenellä on käyttöoikeus IDA:ssa oleviin aineistoihin? Saako yliopisto tai yksittäinen tiedekunta myös käyttöoikeuden IDA-tallennuspalvelussa oleviin tutkimusaineistoihin tarvittaessa? Miten päästään aineistoon käsiksi, jos esim. tutkija lähtee projektista pois? Vastaus: Aineiston omistaja määrittää käyttöoikeudet. Omistajuus ei muutu, mutta projektin alkuvaiheessa on hyvä sopia tekijän/omistusoikeuksista, jotka määrittävät sen, miten toimitaan silloin kun joku poistuu projektista.
Voiko tutkija tai korkeakoulu ostaa TTA-palveluita CSC:ltä? Hankintalain puitteissa korkeakoulut voivat ostaa CSC:n omia palveluja kilpailuttamatta 30 000 euroon asti. TTApalvelut eivät kuitenkaan ole CSC:n, vaan OKM:n palveluita, eivätkä näin ollen ole ostettavissa. TTA-palvelut ovat OKM:n tarjoama tuki korkeakouluille, ei myytävänä oleva palvelu. CSC tuottaa palvelut teknisesti (ainakin tällä hetkellä) mutta ei voi myöntää esim. tallennustilaa, vaan OKM päättää korkeakoulujen kiintiöiden suuruudet ja korkeakoulut päättävät itse tallennustilan myöntämisestä omille tutkijoilleen.
Palveluiden ostaminen, hankintalaki ja CSC Hankintalaki velvoittaa mm. valtion viranomaisia kilpailuttamaan hankintansa. Korkeakoulut ovat hankintayksikkönä velvollisia kilpailuttamaan kaikki hankintansa. Korkeakoulu ei voi käyttää/ostaa suoraan CSC:n palveluita sillä se ei kuulu kiinteästi valtiokonserniin eikä in-house aseman piiriin. CSC:n palvelujen hyödyntäminen korkeakouluissa perustuu OKM:n ja CSC:n väliseen puitesopimukseen, suorahankintaperusteluihin sekä hankintayhteistyöhön. Yliopistolain mukaan OKM voi rahoittaa kaikkien korkeakoulujen keskitettyjä palveluita sekä kokeilu- ja kehitystoimintaa. TTA on tällainen keskitetty palvelu.
Mitkä ovat IDA-tallennuspalvelun edut? IDAssa on integrointirajapinta sekä metatiedon automaattinen keruu. IDAssa oleva aineistot pääsevät PASin ensi vaiheessa tarkasteluun, siitä, mitkä aineistot siirtyvät PASiin. IDAn maantieteellinen etäisyys korkeakouluista lisää turvallisuutta. Korkeakoulut säästävät levyhankinnoissaan vähintään IDA-oikeutensa verran.
Mikä on TTA-palvelujen suhde kansainvälisiin palveluihin? Jos meillä ei ole kansallisia ratkaisuja, ei voida lähteä mukaan kansainväliseen yhteistyöhön. Tarvitaan vahva kansallinen kokonaisuus, joka voi taata esim. aineistojen säilyvyyden ja jakelun pitkällä aikavälillä. Esimerkkejä kansainvälisestä yhteistyöstä: metatietojen vaihto, standardointi, esim. EUDAT, OPENAIRE, RDA. Tutkimusinfrastruktuurit: TTA:n avulla voidaan luoda edellytyksiä tutkimusinfrastruktuurien rakentamiselle esim. tarjoamalla tallennustilaa.
Voidaanko tutkimusryhmän ulkomaiselle yhteistyökumppanille myöntää IDA-tunnukset? Käyttöoikeus voidaan myöntää suomalaisessa tutkimusjärjestelmässä toimivalle tutkijalle. Erikoisratkaisuja ei (mm. käyttäjäfederaatioiden osalta) ei tehdä.
Minkälaiselle datalle IDA on tarkoitettu? IDA ei ole tarkoitettu raskaan laskennan levypalveluun, koska IDAlle ei taata tällaiseen rinnakkaisaksessiin tarvittavaa nopeutta. IDAa ei myöskään esimerkiksi kannata laittaa suoraan kiinni instrumenttiin joka puskee jatkuvasti dataa levylle. IDAan voi tallentaa raakadataa ja uusia datakokoelmia, sekä jo julkaistua dataa. Oleellista on siis miten IDAa käyttää, ei se millaista dataa tallettaa. Sensitiivisille aineistoille tarvitaan erillinen ratkaisu.
Onko IDAan tallennettu data avoimesti näkyvissä kaikille? Metadata on kaikkien nähtävissä Idan sisällä, mutta itse dataan on oletusarvoisesti vain projektiryhmällä pääsy. Projekti voi myös lisätä omia metadatakenttiä, mutta myös ne näkyvät kaikille. Kun metadatakatalogi KATA on valmis, metadata näkyy siellä koko maailmalle avoimesti. Tausta-ajatus on, että Katan kautta tieto aineiston olemassaolosta on kaikkien nähtävillä jotta joku joka mahdollisesti voisi uudelleen käyttää dataa omassa tutkimuksessaan, löytää sekä tiedon aineiston olemassaolosta että yhteystiedon (ne contactkentät metatiedoissa) keneltä saa lisätietoja, ja voi pyytää aineistoa itselleen.
Mitä pitkäaikaissäilytys tarkoittaa ja mitä se tarjoaa? Pitkäaikaissäilytys tutkimuksen kontekstissa on digitaalisen tutkimusdatan säilyttämistä kymmenien tai peräti satojen vuosien ajan. Pitkäaikaissäilytys tarkoittaa datan ymmärrettävyyden säilyttämistä ja siitä huolehtivien säilytystoimenpiteiden suorittamista, jotta dataa voitaisiin hyödyntää tulevaisuudessakin. Pitkäaikaissäilytykseen on syntymässä keskitetty ratkaisu OKM:n johdolla. Keskitetty ratkaisu on kustannustehokkain (kustannusanalyysi tehty). Kansallinen digitaalinen kirjasto -hankkeessa (KDK) ja Tutkimuksen tietoaineistot - hankkeessa (TTA) on tavoitteena toteuttaa tämä yhteinen pitkäaikaissäilytysratkaisu tutkimusdatan ja kulttuuriperintöaineistojen pitkäaikaissäilytyksen tarpeisiin. Bittitason säilytys on yhteinen, TTA:n ja KDK:n tarpeisiin räätälöidyt komponentit toteutetaan tämän perustan päälle. Valmisteltava pitkäaikaissäilytysratkaisu (KDK-PAS ja TTA-PAS) vähentää digitaalisten kulttuuriperintöaineistojen ja tutkimuksen tietoaineistojen hallinnan, jakelun ja säilyttämisen päällekkäisiä toimia ja pidemmällä aikavälillä kustannusten nousua. Tutkimuksen PAS-ratkaisun määrittely on vasta alkanut, avoinna on esimerkiksi mitkä tutkimusaineistot pitkäaikaissäilytetään ja missä muodossa. PAS-ratkaisu bittitason säilytykseen lanseerataan KDK:n käyttöön vuoden 2013 aikana, ensimmäiset TTA-PASin pilottikäyttäjät pääsevät
Pitkäaikaissäilytyksen hyödyt Voidaan turvata toiminnan kannalta välttämättömät aineistot. Taataan tutkimustiedon rikkoutumaton evidenssiketju. Mahdollistetaan saumaton yhteistyö ja aineistojen yhteiskäyttö organisaatiorajojen yli. Parannetaan mahdollisuuksia osaamisen kehittämiseen ja henkilöriippumattomuuteen. Hyödyntävät organisaatiot pystyvät keskittymään ydinosaamiseensa. Prosessien ja palveluiden laatu paranee. Mahdollistetaan tuleville sukupolville aineistojen hyödyntäminen.
PAS:in alustava etenemissuunnitelma PAS-palvelu bittitason säilytykseen lanseerataan automaattinen datan validointi tuotannossa vaatimusmäärittelyn ylläpito ensimmäisten KDK-PASin käyttäjien käyttöön PAS-työryhmä aloittaa (Q2) Kustannusanalyysi Tutkimuksen tarpeiden määritys: olemassa olevien tietojärjestelmien kartoitus tarvittavat tukipalvelut mitkä tutkimusaineistot pitkäaikaissäilytetään ja missä muodossa Pitkäaikaissäilytyksen päätoiminnallisuudet käytössä KDK:n osalta säilytetyn aineiston sisällön ymmärrettävyyden säilytys 2013 2014 2016 PASin toteuttamisvaihe alkaa fokuksena säilyttämisen menetelmät ja toimenpiteet järjestelmän ja määrittelyiden ylläpito ensimmäiset TTA-PASin pilottikäyttäjät aloittavat PAS-koulutus
KATA aineistokatalogi helpottaa tutkimuskäyttöön saatavilla olevien aineistojen löytämistä tuottaa tietoa aineistojen olemassaolosta rahoittajille mahdollistaa yhtenäisen käyttöehto- ja käyttöoikeuskulttuurin luomisen (omistajuus- ja hyödyntämisoikeustiedot aineistokatalogiin) mahdollistaa meriitin syntyminen tutkijalle auttaa tunnistamaan ja löytämään tietoaineistoja pitkäaikaissäilytykseen
Miten aineistoja saadaan jatkokäyttöön? Kehitteillä olevassa KATA-palvelussa tulee metadata olemaan avoimesti näkyvillä. Jatkokäytön määrittävät aineistojen käyttöoikeudet, lisenssit
IDA-KATA
Mitä metadatakuvaus voi sisältää? Tutkimusaineisto voi koostua esimerkiksi yksittäisestä tiedostosta, useammasta tiedostosta tai vaikkapa tietokannasta. Tutkimusaineiston kuvailija päättää, minkälainen kokonaisuus muodostaa kuvailtavan tutkimusaineiston. Yleisesti ottaen tutkimusaineiston tulisi olla sellaisenaan hyödynnettävissä oleva tietokokonaisuus. Tutkimusaineisto kannattaa kuvailla pienimpinä kokonaisuuksina, joina se on vielä itsenäisesti hyödynnettävissä. TTA-minimimetatietomalli määrittelee aineistojen kuvauksille vähimmäisvaatimukset, joiden tavoitteena on mahdollistaa aineistojen jatkokäyttö sekä kansallisesti että kansainvälisesti mm. varmistamalla yhteentoimivuus muiden järjestelmien kanssa.
Onnistuuko metadatan siirtäminen tietokannoista IDAan? Olen rakentanut metadata-tietokannan tutkijoiden omaan käyttöön sekä myös myöhäisempää datan pitkäaikaissäilytystä varten ajatellen. Tämä metadata seuraa kansainvälisiä standardeja joita on käytössä yhteiskuntatieteelliselle datalle ja se tallennetaan Microsoft SQLServer-tietokantaan. Olisiko mahdollista tutkia voisiko tätä metadataa käyttää jotenkin hyväksi että tutkijoiden ei tarvitse tallentaa samaa tietoa kahteen kertaan? Missä muodossa meidän tulisi tehdä export metadatalle? Vastaus: Komentorivikäyttöliittymällä voidaan automatisoida, mutta siinä on metatieto kerrallaan parametreinä per komento. Tähän parannuksena on saatavissa esim. yhdelle projektille tehty bash-skripti, joka lukee tiedostoa, jossa riveinä metanimi metaarvo unit. Toinen vaihtoehto on.meta tiedoston upload ja muoto riveillä on /ida/ /tiedosto metanimi metaarvo unit Pitkäaikaissäilytykseen/siirtoon kelvolliset tiedostomuodot määritetään TTA-PAStyöryhmän työn käynnistyessä keväällä 2013. Nyt KDK-PAS-työssä on määritelty kulttuuripuolella siirtokelpoiset tiedostomuodot.
Miten toimitaan sensitiivisen datan suhteen? Miten toimitaan esim. Henkilötietolain 11 suhteen, hankkeessa kun kerätään sensitiivistä tietoa? Vastaus: Lähtökohtaisesti tutkija on rekisterinpitäjä, ja siten vastuussa henkilötietosuojasta. Tällaisissa tilanteissa toimitaan tutkimuseettisen toimikunnan antaman ohjeistuksen
Miten kytkeytyvät muihin aineistoihin? Tarkoitus on rakentaa rajapinta KATAsta muihin metadatakatalogeihin. IDA on helposti integroitavissa omaan käyttöympäristöön. PAS-palveluun tulee vastaanottopalvelu