ARKISTOINNIN TYÖRYHMÄ



Samankaltaiset tiedostot
1. Vaatimukset aineistojen infrastruktuurille

TUTKIMUSAINEISTOJEN HALLINNOINTI -TYÖRYHMÄ TYÖRYHMÄN LOPPURAPORTTI

Kirjasto yliopiston tutkimusaineistopolitiikan toteuttajana. Pekka Olsbo Julkaisukoordinaattori Jyväskylän yliopiston kirjasto

AVOIN DATA AVAIN UUTEEN Seminaarin avaus Kansleri Ilkka Niiniluoto Helsingin yliopisto

Arvoisa juhlayleisö, Mitä tämä voi olla käytännössä?

Pitkäaikaistallennus. CSC - Tieteen tietotekniikan keskus IT2008 Ari Lukkarinen

Tukea projekteille: IT-järjestelmät ja -työkalut

Infrastruktuurin aineistonhallinta ja käytön avoimuus

Kansallinen digitaalinen kirjasto -tilannekatsaus

Hallinnon tietoympäristön muuttuminen ja sähköinen säilyttäminen

IDA-tallennuspalvelun esittely. CSC Tieteen tietotekniikan keskus Oy

Tutkimuksen tietoaineistot

Rahoittajat ja tiedon julkisuus. Pirjo Hiidenmaa Suomen Akatemia

THL:N NÄKÖKULMIA TUTKIMUSAINEISTOJEN SÄILYTTÄMISEEN

Miten tutkimuksen tietovarannot liittyvät etiikkaan ja viestintään? Tutkimusaineiston elinkaari

Miksi tutkimusaineistoja halutaan avattavan? Jyrki Hakapää, Suomen Akatemia

Yleiset tiedot. paperiaineisto. AV-aineisto. valokuvat. digitoidut ja digitaalisena syntyneet aineistot

TTA, PAS ja julkishallinnon standardisointi

Kansallinen digitaalinen kirjasto

Oletko mukana tutkimuksen muutoksessa? Lue tästä, miten voit hyödyntää avoimen tieteen ja tutkimuksen mahdollisuudet!

Jälkidigitaalinen tiede tieteellisen tiedon saatavuuden muutos

Kansallinen digitaalinen kirjasto - toiminnan säädöspohja. Tekijänoikeusneuvos Viveca Still

ja Jyväskylän yliopisto

JYVÄSKYLÄN YLIOPISTO Tutkimusaineistojen hallinnoinnin työryhmä TUTKIMUSAINEISTOJEN HALLINNOINNIN TYÖRYHMÄ MUISTIO [KOKOUSNUMERO 01/2011]

Open access julkaiseminen Helsingin yliopistossa

Sähköinen säilyttäminen

Kuutoskaupunkien suositukset avoimista rajapinnoista

Kokoelmat kotona vai maailmalla? - kirjastojen kokoelmapolitiikan muutos säilyttäjästä saatavuuden varmistajaksi

KUVAPALVELUA MUSEOISSA -MAKSULLISUUS PUHUTTAA

HELSINGIN YLIOPISTON TUTKIMUSDATAN TUTKIJAPALVELUT. Mari Elisa Kuusniemi, Tutkimuksen palvelut, Helsingin yliopiston kirjasto, Helsingin Yliopisto

VALTIONEUVOSTON JA EDUSKUNNAN YHTEISTEN ASIAKIRJOJEN JA NIIHIN RINNASTETTAVIEN TIETOAINEISTOJEN PYSYVÄ SÄILYTYS

Tutkimusdatan hallinnan kansalliset välineet IDA, Etsin, AVAA. Stina Westman, ATT-hanke, CSC

T.E.H.D.A.S. Arkisto. Kokemuksia performanssitaiteen arkistoinnista. Juha Mehtäläinen

Kansalliset digitaaliset kirjastohankkeet ja digitointi

TW- EAV510 / TW- EAV510 AC: OpenVPN

KAMUT: Muistiorganisaatioiden tietovarannot yhteiskäyttöön. ÄLYÄ VERKOSSA - WEB INTELLIGENCE Tiedekeskus Heureka, Vantaa

Arkistoaineistojen sisällönkuvailu

KDK:n ajankohtaiset kuulumiset

Metatiedot organisaatioiden sisällönhallinnassa

DATAN HALLINNAN NYKYKÄYTÄNNÖT JA TULEVAISUUDEN SUUNNITELMAT OULUN YLIOPISTOSSA. Tietohallinto / Suorsa & Keinänen

Hankkeet ja yhteentoimivuus. OKM:n kirjastopäivät Minna Karvonen

Hyvät käytännöt ja pitkäaikaissäilytyksen huomioiminen digitoinnissa FT István Kecskeméti, sektorijohtaja, Kansallisarkisto

Yhteisöllinen tapa työskennellä

HELSINGIN YLIOPISTON DATAPOLITIIKKA EEVA NYRÖVAARA

LUONNOS Valtioneuvoston periaatepäätös asiakirjallisen aineiston digitoinnista ja arkistoinnista vain sähköisenä

Digitaalisen maailman mahdollisuudet OKM:n kirjastopäivät Minna Karvonen

OPEN ACCESS JYVÄSKYLÄN YLIOPISTO AVOIN TIETEENTEKIJÄ

Rinnakkaistallennuksen arkea, haasteita ja mahdollisuuksia

Käytön avoimuus ja datanhallintasuunnitelma. Open access and data policy. Teppo Häyrynen Tiedeasiantuntija / Science Adviser

PAS-tilanne ja julkaistujen opinnäytteiden pitkäaikaissäilytykseen liittyvä prosessi ja edellytykset

Julkisrahoitteisten tutkimusaineistojen avoimuus ja kansainvälinen tilanne OECD:n Open Access ohjeistus

Kansallinen digitaalinen kirjasto mitä tehdään ja mitä tavoitellaan?

Tampereen kaupungin paikkatietostrategia Tampereen kaupunki

Digitointiprojektin käytäntö ja ongelmat. Esimerkkinä Porin taidemuseon digitointiprojekti 2014

TTA palvelukokonaisuuden esittely Korkeakoulujen IT-päivät

Kaikki alkaa TUTKAsta. Artikkelin matka avoimeksi. Marja-Leena Harjuniemi

Case Honeywell Oy. Suomen XII Liikearkistopäivät, , Tampere. Jarmo Luoma-aho, Antti Ropponen

Open Access & Open Data & Tulosten suojaus Horisontti ohjelmassa. Liisa Ewart Lakimies Sopimus- ja kustannusasioiden NCP VTT 27.3.

Juha Henriksson. Digitointiprojektin hallinta ja ulkoistaminen Dr. Juha Henriksson Finnish Jazz & Pop Archive

Digitalisaatio ja älykkäät ratkaisut parantavat maailmaa ministeriönäkökulma. LifeData-hankkeen loppuseminaari 1.12.

PALVELUT KATA/AVAA/IDA. Tuija Raaska, CSC,

Aineistonhallinta pähkinänkuoressa METODIFESTARIT TAMPEREEN YLIOPISTO ARJA KUULA-LUUMI

Keski-Suomen museo. Kuva-arkisto ja tutkimusarkisto. Kuva: Olga Oksanen, Keski-Suomen museo. Keski-Suomen museo

ASIAKASNÄKÖKULMA JULKAISUTOIMINNAN MURROKSEEN

OPEN ACCESS HELSINGIN YLIOPISTOSSA

Tietoarkiston palvelut ja arkistointiprosessi. Annaleena Okuloff Tieteenala-asiantuntija

Pitkäaikaissäilytys lainsäädännön näkökulma. Jorma Waldén

OpenVPN LAN to LAN - yhteys kahden laitteen välille

Avoimen tieteen ja tutkimuksen edistäminen periaatetasolta käytännön toimiin

Rahoittajat ja tiedon julkisuus. Pirjo Hiidenmaa Suomen Akatemia

KODAK EIM & RIM VIParchive Ratkaisut

Jan Montell. Talousjohtaminen ja datan hallinta Fingridissä

Museaalisen kuvamateriaalin digitoinnin ulkoistaminen

Tiedonhallintalakiehdotus - vaikutukset Tommi Oikarinen / valtiovarainministeriö

Korkeakoulujen tietohallinto ja tutkimus: kumpi ohjaa kumpaa?

Tutkimusrahoittajien ja tiedejulkaisujen vaatimukset aineistonhallinnalle

Microsoft Outlook 2003 Automaattinen arkistointi

TUTKIMUSDATAN KUVAILU. Kuvailun tiedotuspäivä Tieteenala-asiantuntija, FT Katja Fält

Sähköisen tiedon arkistointi yrityksen näkökulmasta. Janne Strömberg Mikkelin Ammattikorkeakoulu

Kansallinen digitaalinen kirjasto: tilannekatsaus

Luonnos hallituksen esitykseksi eduskunnalle laiksi julkisen hallinnon tiedonhallinnasta sekä eräiksi siihen liittyviksi laeiksi

TW- EAV510/TW- EAV510AC: PPTP- OHJEISTUS

Lausuntopyyntö julkisen hallinnon tiedonhallinnan sääntelyn kehittämistä selvittäneen työryhmän raportista

Avoin tiede ja tutkimus TURUN YLIOPISTON JULKAISUPOLITIIKKA

Open Journal Systems digitoitujen aineistojen tallennusalustana ANTTI-JUSSI NYGÅRD SUUNNITTELIJA, TIETEELLISTEN SEURAIN VALTUUSKUNTA

Avoin tiede ja tutkimus (ATT-hanke)

Pelit kansalliskokoelmassa

TTA-PASin etenemissuunnitelma ja kustannukset

Avoin tiede ja tutkimus ATT Hankkeiden esittely

Teknologinen muutos ja yliopistojen tulevaisuus. Tievie-seminaari Helsinki Antti Auer

TW- EAV510/TW- EAV510AC: L2TP- OHJEISTUS

Datan hallinnan nykykäytännöt ja tulevaisuuden suunnitelmat Ville Tenhunen Helsingin yliopisto / Tietotekniikkakeskus

Tieto matkaa maailmalle

Avointen aineistojen julkaisualusta AVAA

Digitoinnin työpaja 3a/4 Äänitteiden digitoinnin perusteita

CC0-lisenssi: case Finna

Kansallinen digitaalinen kirjasto ja arkistopalvelut

Tekstin digitointi Kansallisarkistossa

Sisäänrakennettu tietosuoja ja ohjelmistokehitys

Mitä PAS-järjestelmä tarkoittaa museoille?

Transkriptio:

ARKISTOINNIN TYÖRYHMÄ RAPORTTI 15.5.2012 Jari Ojala, Pirjo Vuorinen, Miika Nurminen, Antti Auer JYVÄSKYLÄN YLIOPISTO

1 TUTKIMUSAINEISTOJEN METATIEDOISTA Metatiedot voidaan jakaa esim. järjestelmäkohtaiseen (esim. käyttäjätiedot, tunniste- ja sijaintitiedot) ja sisältöä kuvailevaan tietoon (esim. dublin core, fits, dicom, ddi, csmd). esim. dublin core on suunniteltu yleiskäyttöiseksi, mutta eri sovellusalueilla on huomattavasti yksityiskohtaisempia, sovellusaluekohtaisia ja tutkijoiden tietotarpeiden kannalta usein kiinnostavampia määrityksiä (esim. museopuolella spectrum ja cidoc crm). Metatietoja voidaan luokitella käytetyn tietomallin mukaan. Yksinkertaisimpina ovat avainsanat tai tagit, avain-arvo -parit, kehittyneemmissä järjestelmissä käytössä ovat taksonomialla tai ontologialla kontrolloidut määritykset, jotka parantavat haettavuutta, mutta joiden ylläpito ja kustomointi on yksinkertaisia tekstikenttiä huomattavasti mutkikkaampaa. Haasteena on eri rakennemalleilla tai skeemoilla määritellyn tiedon yhteensovittaminen ja erityisesti ontologioiden osalta määritysten ylläpito niin, että standardi kelpaa kaikille käyttäjille. Toisaalta haasteena on metatietojen pitäminen ajan tasalla manuaalisesti päivitettävien tietojen osalta. Metatieto voidaan jakaa sisällöstä riippuvaan ja kontekstuaaliseen. Sisällöstä riippuva metatieto voidaan johtaa aineistosta itsestään, kontekstuaalinen metatieto liittyy prosessiin, jossa aineistoa käsitellään. Sisällöstä riippuva metatieto auttaa aineiston yleistä haettavuutta (erityisesti fyysisillä aineistoilla - digitaalisilla aineistoilla kokotekstihaku ja esim. sisältöpohjainen kuvahaku ovat vähentäneet tämän merkitystä), kontekstikohtainen tieto taas aineiston yleistä hallintaa. Kontekstuaalisella metatiedolla voidaan kuvata hankkeiden, julkaisujen ja muiden tuotosten, aineistojen ja organisaatioyksiköiden yhteyksiä, kuten eurooppalaisessa CRIS-tietoarkkitehtuurissa (CRIS = Current Research Information Systems) ja sen CERIF-metatietokuvauksessa. i Hallinnollisella metatiedolla kuvataan mm. säilytyksen kannalta keskeiset aineiston tietoturva- ja säilytysstatukset. Tutkimuksen tietoaineistot hankkeessa rakennetaan kansallista suositusta tutkimusaineistojen metatietokuvaukseksi. Väistämättä merkittävä osa metatiedosta on kuitenkin tieteenalakohtaista.

2 FYYSISTEN TUTKIMUSAINEISTOJEN HALLINNAN VAATIMUKSET 2.1 Taustaa Digitaalinen informaatio on räjähdysmäisesti lisääntynyt vuosien saatossa. Sen helppo tuottaminen on johtanut kasvavaan ongelmaan, joka liittyy digitaalisen tiedon järjestämiseen ja säilyttämiseen myös yliopistoissa. Erityisen ahtaalla ollaan silloin, kun aineisto pitäisi saada pitkäaikaistallennuksen piiriin ii. Digitaaliset aineistot eivät säily yhtä hyvin kuin perinteisesti tuotetut ja siksi ne asettavat suunnattoman haasteen niitä tuottavalle ja hallinnoivalle yhteisölle. Julkisin varoin tuotettujen aineistojen osalta asia on erityisenajankohtainen, ja sitä on ohjeistettu kansallisella ja kansainvälisellä taholla. iii Tutkimusaineistot ovat merkittävä osa yliopistojen kulttuuriperintöä ja sitä kautta niiden rooli eurooppalaisen tiedon todistuskappaleina on tärkeä. Vuonna 2005 Euroopan neuvosto kiinnitti erityistä huomiota yliopistojen kulttuuriperintöön (University Heritage), ja ohjeisti toimintaa niin tutkimusaineistona koottujen kokoelmien kuin muunkin yliopistoissa olevan kulttuuriperinnön osalta. iv 2.2 Kamut kirjastot, arkistot, museot Perinteisesti yhteiskunnassa pitkäaikaisarkistoinnista vastaa kolme tahoa: kirjastot, arkistot ja museot. Nämä Kamuiksikin kutsutut organisaatiot toimivat myös Jyväskylän yliopistossa ja niiden yhteistyö tiedekunnissa ja laitoksissa tehtävän arkistointityön kanssa olisi tehtävä saumattomaksi. Tämä edellyttäisi yhteisen tallennusstrategian laatimista yliopiston kulttuuriperinnön ja oppihistorian kannalta merkittävän aineiston tallentamiseksi sekä laitosten oppihistoriatietämyksen kasvattamista: se mitä teemme tänään on oleellinen osa tulevaisuuden tutkimushistoriaa. Aineistojen huolellinen ja suunnitelmallinen arkistointi mahdollistaa myös sen uudelleen käytön tutkimustarkoituksissa. Laitoksen ja yksittäisen tutkijan kannalta tärkeää on ensisijaisesti hyvän tiedonhallintatavan omaksuminen. Tämä edellyttää yhteistä tietokantaa ja selkeää ohjeistusta aineistojen arkistoinnissa. Ohjeista selviää tutkijoille miten ja missä muodossa tallentaa tutkimusten tuottamat runsaat aineistot ja mitä kontekstitietoa niiden oheen on tallennettava. 2.3 Digitoida vai hävittää? Digitaalisten aineistojen lisäksi laitoksilla on usein hallussaan erilaisia manuaalisia tutkimusaineistoja ja välineitä. Tällaisten aineistojen formaatit saattavat olla vanhentumassa ja siksi ne edellyttäisivätkin nopeaa digitointia. Tämä edellyttää myös täsmällistä suunnitelmaa, jota nyt ei ole olemassa, ja joka aiheuttaa mm. yliopiston virkaarkistolle ja museolle ylimääräisiä paineita. Tällaisten aineistojen käsittely ja seulonta sekä pitkäaikaisarkistointi tulisi ohjeistaa nopeasti. Oman haasteensa pitkäaikaisarkistointiin tuo tämän hetkinen tilanne, jossa laitokset joutuvat muuttamaan sisäilmaongelmien vuoksi. Vanhempienkin aineistojen digitointiin joudutaan nykyisin pakon edessä, kun minkäänlaisen fyysisen materiaalin vieminen ei esim. väistötiloihin ole sallittua. Olisi kuitenkin löydettävä selkeät rajat sille, mitä kannattaa digitoida ja mitä siirretään puhdistuksen kautta pitkäaikaissäilytykseen.

Oppihistoriallisten aineistojen kartoittaminen erilaisten muutostilanteiden yhteydessä pitäisi saada osaksi muuttojen ja muutosten strategista suunnittelua. Vastaavien tilanteiden vuoksi laitoksilla tulisi olla selkeä ohjeistus siitä, miten ja mihin oppihistorialiallisesti merkittävä aineisto pitäisi tallentaa. Datan säilymisen suurin ongelma ei välttämättä aina olekaan tekniikka, vaan jatkuvat organisaatiomuutokset. Tällaisten aineistojen digitointi ja dokumentointi edellyttää yliopiston tiedekuntien ja laitosten sekä muistiorganisaatioiden (arkisto, museo ja kirjasto) yhteistyötä. Oppihistoriallisten aineistojen pitkäaikaissäilytykselle on varattu tiloja Kanavuoresta, mutta sen toiminta on toistaiseksi organisoimatta. Fyysisten aineistojen arkistointia varten tarvitaan infrastruktuuri ja ohjeistus sekä selkeä vastuutus toiminnan ohjaamiseksi niin, että kyse on asianmukaisesta arkistoinnista eikä vain varastoinnista. Yhteisen digitointikeskuksen perustaminen edellyttää laadukkaiden laitteiden lisäksi yhteneväisten käytäntöjen laatimista ja henkilökunnan riittävää kouluttamista myös pitkäaikaisarkistoinnin tarpeet huomioiden. Digitointi saattaa heikentää aineiston informaatioarvoa. Svenska Litteratursällskapet i Finland toteutti kyselytutkimuksen, jossa tuli selkeästi esille se, että puolella kaikista pitkäaikaisarkistoinnista vastaavien organisaatioiden digitoimien aineistojen käyttäjistä on ongelmia sähköisen aineiston käytössä. Palautteessa korostuivat muun muassa seuraavat seikat: digitoitu aineisto ei ole identtinen alkuperäisen aineiston kanssa, digitointi ei ole tarpeeksi laadukasta, tietokannoissa on syöttövirheitä, harmaasävy- ja mustavalkodigitointi hävittää yksityiskohtia. Selvityksessä todettiin myös, että mitä enemmän organisaatiolla on digitoitua aineistoa, sitä tiukemmin se soveltaa salassapitomäärityksiä, jolloin aineistojen käytettävyys kärsii. v 2.4 Arkistoinnin perusohjeet Yliopistossa tehtävä tutkimus ja opetus tuottavat nykyisin massoittain aineistoja, joista pääosa on digitaalisessa muodossa. Aineiston hallinta ja tallennussuunnitelma tutkimuksen alkuvaiheessa on ensiarvoisen tärkeää jo yksistään sen vuoksi, että aineistoja olisi helpompi hallita ja toisaalta, jotta niistä tallentuisi yliopiston oppihistorian osalta merkityksellinen osa. Aineistojen arkistoinnissa on syytä huomioida seuraavat arkistoinnin yleiset perusseikat, jotka toisaalta ovat osa tutkimusprosessia ja tutkimusaineiston käsittelyä: vi 1. Tallenna: ota talteen ne aineistot, jotka ovat tiedon säilymisen kannalta merkittäviä 2. Huolehdi tekijänoikeuksista ja käyttöluvista: pitkäaikaisarkistoinnin näkökulmasta on erityisen tärkeää, että aineistojen käytöstä on olemassa selkeät sopimukset. On määritettävä kirjallisesti kenelle oikeudet kuuluvat ja missä ja miten tallennettuja aineistoja saa käyttää. Luvat ja sopimukset tallennetaan sovittuun paikkaan esimerkiksi yliopiston virka-arkistoon. 3. Karsi: kaikkea ei voi tallentaa. On osattava nähdä kauas. Toisaalta aineiston arvo saattaa selvitä vasta vuosien kuluttua. Tässä tilanteessa pitkäaikaisarkistoinnista vastaavien arkisto- /museo-/kirjastotahojen konsultointi voi olla hyvinkin tarpeellista. Voi olla, että se mitä pidämme nyt turhana, onkin myöhemmin arvokasta tai sitten päinvastoin. 4. Dokumentoi: pitkäaikaisarkistoinnin näkökulmasta kaikki aineistot, joilla ei ole riittävästi konteksti-/metatietoa, on arvotonta. Jälkikäteen tietoa voi olla hyvin vaikea tai

mahdotonta selvittää. Esimerkiksi ilman kontekstitietoja oleva kuva tai tallenne on usein täysin hyödytön. 5. Järjestä: suuren tietomäärän järjestäminen ja luokittelu on tärkeää. Tämä toisaalta on osa tutkimusprosessia ja periaatteessa sen pitäisi olla luonteva tutkimusaineistojen käsittelyä. Toisinaan aineistoja on niin paljon, että luokittelu voi jäädä hyvinkin hataraksi vain tutkijan oman prosessin sisäiseksi. 6. Säilytä ja varmuuskopioi: säilyttämisen yhteydessä on huolehdittava riittävästä ja järjestelmällisestä varmuuskopioinnista. Digitaaliset mediat ovat tarkempia lämpötilan ja kosteuden suhteen kuin perinteiset paperiaineistot ja valokuvat. 7. Tarkista ja huolehdi: digitaalinen arkisto kuten muukin arkisto vaatii jatkuvaa tarkkailua ja huolenpitoa. Aineistojen kunto on syytä tarkistaa määräajoin ja varauduttava tiedon uudelleen tallennukseen, jos ongelmia on havaittavissa säilytyksen/säilyvyyden suhteen. Hyvin hoidettu ja järjestyksessä oleva digitaalinen arkisto, jossa on huomioitu pitkäaikaisarkistoinnin tavoitteet alentaa myös laitosten kustannuksia: aineistot ovat helposti löydettävissä, saavutettavissa ja siirrettävissä eteenpäin. 2.5 Aineistotyypit Yliopiston sisällä tuotetaan tieteenalasta riippuen hyvin monenlaisia aineistoja. Pitkäaikaisarkistoinnin näkökulmasta olisi tarpeellista selvittää tieteenalakohtaiset erot ja laatia niiden perusteella ohjeet kullekin tiedekunnalle. Tähän on koottu tavallisimmat aineistotyypit, joiden säilyttämisestä on haarukoitu pitkäaikaisarkistoinnin näkökulmasta. Yleisohjeena voidaan sanoa, että kaikissa aineistotyypeissä pitäisi suosia pakkaamattomia ja yleisiä formaatteja. 1. Kuvat Kuva-aineistoja syntyy tänä päivänä tutkimusalasta riippuen runsaasti. Kuvissa yleisin formaatti on todennäköisesti JPG. Jos käytetään erikoisohjelmia, olisi aineisto syytä arkistoida tässä tavallisimmassa muodossa. Pitkäaikaisarkistoinnin kannalta Kuvien metatiedot on saatava talteen siten, että ne hyödyttävät tulevia tutkijapolvia. Metatiedoista tärkeimpinä voidaan pitää seuraavia tietoja: kuvan aihe/nimi, mitä kuva esittää, ketä kuvassa on, missä tilanteessa kuva on otettu, kuvausaika, kuvan käyttöoikeudet ja kuvaaja, mahdolliset hakusanat. Metatiedot pitäisi sisällyttää suoraan kuvan sisään, jotta tieto kulkee aina kuvien mukana. Jos skannataan vanhoja aineistoja olisi huolehdittava riittävästä resoluutiosta. 2. Tallenteet Tallenteiden (äänet ja kuvatallenteet) osalta pakkaamattomat tiedostomuodot ovat suositeltavia. Myös tallenteiden osalta metatiedot ovat tärkeitä, jotta myöhemminkin päästään selville ketä tallenne koskee, kuka sen on tuottanut, milloin ja mitä tarkoitusta varten. 3. Asiakirja-aineistot

Ohjeita pitkäaikaisarkistointiin ja aineiston digitointiin löytyy sähköisen pitkäaikaisarkistoinnin Digiwiki nettisivustolta: www.digiwiki.fi 2.6 Sähköisen aineiston pitkäaikaissäilytystä ja käyttöä koskevan työryhmän muistio Opetusministeriön asettama sähköisten aineistojen pitkäaikaissäilytystä ja käyttöä koskevan työryhmä on muistiossaan vuonna 2008 todennut digitaalisen aineiston pitkäaikaissäilytyksestä seuraavaa: vii 1) Digitaalisen aineiston pitkäaikaissäilytyksen vaatimukset on otettava huomioon koko aineiston elinkaaren ajan säilytettävän aineiston syntyhetkestä alkaen. 2) Digitaalisen aineiston tuottaminen on suunniteltava niin, että syntyvä aineisto on laadultaan säilyttämiskelpoista. 3) Digitaalisen aineiston tuottamiseen tulee aina sisältyä aineistoa koskeva metatiedon kerääminen pitkäaikaissäilytyksen tarpeita silmällä pitäen. 4) Digitaalisen aineiston pitkäaikaissäilytys on uskottava luotettavalle säilyttäjälle. 5) Digitaalisen aineiston käyttöä ja hyödyntämistä on edistettävä. Nämä näkökohdat ovat tärkeitä suunniteltaessa myös Jyväskylän yliopiston tuottamien tutkimusaineistojen pitkäaikaisarkistointia. 2.7 Tutkimusaineistojen arkistoinnin priorisointi ja säilytyskriteerit Tutkimusaineistojen arkistoinnista on syytä olla selkeä priorisointijärjestys, sillä kaikkea tutkimuksessa tuotettua aineistoa ei voi eikä sitä edes kannata säilyttää. Säilytettävän aineiston periaatteena voi käyttää yleisiä arkistojen seulontaan liittyviä määritteitä; esimerkiksi Kansallisarkisto säilyttää tällä hetkellä vain noin 10 prosenttia sinne päätyvästä aineistosta. Arkiston tekemä seulonta on työläs prosessi, jossa karsitaan ensisijaisesti useaan kertaan olevat samat dokumentit ja tämän jälkeen tehdään priorisointia oletuksella esimerkiksi siitä, mitkä saattaisivat olla tulevan tutkimuksen kannalta arvokkaita aineistoja. Tutkimusaineistojen arkistoinnin säilytyksessä ei voida lähteä siitä, että seulonnan ja priorisoinnin tekee jälkikäteen tähän tehtävään määrätty henkilö. Tämän vuoksi hankkeilla täytyy olla selkeä ohjeistus siitä, mitä aineistoja säilytetään ja miten. Priorisointiperiaatteina voisi olla esimerkiksi: 1. Ensisijaisesti säilytetään tutkimuksen raakadata-aineisto, josta pitkäaikaissäilytykseen tallennetaan vain yksi, mahdollisimman täydellinen versio. (ei siis useita, hieman erilaisia tiedostoja). Tämä raakadata voi olla monen tyyppistä (kvantitatiivista, kvalitatiivista, numeroita, tekstiä, kuvaa, ääntä jne.). Joidenkin aineistojen osalta ongelmia voi tulla tekijänoikeuksissa (esim. raakadata on hankittu tietokanta) - näiden osalta riittänee, että yliopisto arkistoi tiedon, missä alkuperäinen raakadata on. 2. Raakadatan pohjalta tehtyjä analyysiaineistoja tallennetaan tarvittaessa. Lähtökohtaisesti raakadatan pohjalta tehdyt analyysiaineistot säilyvät tutkijoiden käytössä. Joissain tapauksissa tosin analyysidata voi olla luonteeltaan raakadataa (esim. useiden aineistojen yhdistelmä), jolloin se on syytä tallentaa.

Perushaaste on: miten määritellään raakadata- ja analyysiaineistot? Missä kohtaa kulkee raja. Tutkimusaineiston säilytyksen kannalta olennaista on, että tutkijaryhmät saavat kunkin hankkeen alkuvaiheessa jaetun levytilakiintiön, johon aineistoa tallennetaan tutkimuksen eri vaiheissa. Kun projekti päättyy, tästä levytilasta otettava varmuuskopio säilytetään pysyvästi yliopiston järjestelmissä tai ulkoistetussa palvelussa. Tutkimusaineiston pitkäaikaissäilytyksestä on vastuussa tutkimuksen vastuullinen johtaja. Ryhmän ja sen jäsenten roolit määritellään tutkimuksen eri vaiheissa.

3 TUTKIMUSAINEISTOJEN INFRASTRUKTUURI Suurin osa tutkimusyliopistoissa ja laitoksissa tapahtuvasta tutkimuksesta perustuu alun perin digitaalisessa muodossa olevan aineiston tai digitoidun aineiston käsittelyyn. Tiedonhallinnan infrastruktuurien kehittämiseen on tartuttu niin paikallisella, kansallisella viii kuin eurooppalaisellakin ix tasolla. TIVIT SHOK hankkeessa puhutaan jopa tietovarantoryntäyksestä. x Tässä tarkastellaan tutkimusaineistojen infrastruktuuria ottamatta kantaa siihen, tuotetaanko palveluja itse vai hankitaanko ne ulkopuolisilta palveluntarjoajilta. Liittyminen ulkoisiin palveluihin edellyttää kuitenkin omien palvelujen kehittämistä sille tasolle, että liittyminen ja ulkoisten resurssien käyttö on mahdollista. Jyväskylän yliopiston Rinnakkaisjulkaiseminen ja tutkimusaineistojen hallinnointi työryhmän tuottama Tutkimusaineistojen hallinnointiin liittyvä loppuraportti (31.3.2010) toteaa Digitaalisessa muodossa olevien aineistojen määrä kasvaa nopeasti. Yliopiston tulisi tarjota digitaalisille tutkimusaineistoille keskitettyyn käyttövaltuushallintaan kytketty tietoturvallinen palvelu, joka on käyttäjille kustannuksiltaan niin edullinen, että arvokkaat tutkimusaineistot voidaan edellyttää säilyttäväksi siellä. Nykyisin aineistoja joudutaan kustannussyistä osin säilyttämään varmuuskopioimattomissa ja tietoturvaltaan kyseenalaisissa tallennusvälineissä. Keskitetty palvelu on välttämätön laatutekijä jo rahoittajien aineistojen hallintaan liittyvien vaatimusten takia. Keskitetty palvelu nähdään välttämättömänä laadunvarmistuksen edellytyksenä, mutta se on toisaalta mahdollistaja, joka tehostaa käytännön tutkimusprosesseja niihin liittyvää aineistonhallintaa. Lisäksi se antaa mahdollisuuden erilaisten datojen yhdistämiseen ja uudenlaisten analyysimenetelmien ja tutkimusasetelmien käyttöön. Hyvin hoidettu paikallinen tutkimusaineistojen infrastruktuuri antaa mahdollisuuden ulkoistaa aineistoja silloin, kun sille on muutoin edellytykset. Tällöin tutkimusaineistot myös meritoivat tutkijaa kuten julkaisu. Kehittyneen aineistoinfrastruktuurin pohjalle voidaan rakentaa virtuaalisia ja hajautettuja tutkimusympäristöjä ( e-research ). xi Käytännössä tutkimusprojekteissa ja ryhmissä organisaatiorajojen ylittäminen alkaa olla pikemminkin normaali käytäntö kuin erikoistapaus. Keskitetyn palvelun laaja käyttöönotto edellyttää sitä, että isotkin aineistot ovat nopeasti siirrettävissä aineistoa tuottavalta tutkimuslaitteistolta keskitettyyn tallennukseen. Tutkimusinfrastruktuurin kehittämisen kannalta on olennaista huolehtia siitä, että niin rakennusten sisäinen kuin kampuksen sisäinen verkko ja sen kaapelointi on päivitetty suurten aineistojen siirtotarpeita vastaavaksi. Myös fyysisten aineistojen arkistoinnissa keskitetty ratkaisu (so. Kanavuori) on suositeltava siksi, että sinne voidaan rakentaa arkistoinnin vaatimukset täyttävä infrastruktuuri. Edelleen tarvitaan kuitenkin myös asianmukaisia aineistojen lähisäilytystiloja. Yliopistolla on hyvät edellytykset perustaa analogisessa muodossa olevien aineistojen digitointikeskus. Laiteinvestointeja on jo tehty (optinen tallennus) tai niitä ollaan tekemässä (julkaisujen digitointi, nauha-aineistot). Tutkimusaineistoista digitointia voidaan laajentaa opintoaineistoihin ja jopa henkilökohtaisiin arkistoihin. Sisätilaongelmien takia digitointi on joissain tapauksissa välttämätön vaihtoehto. Toiminta on organisoitava niin, että toiminnalle saadaan jatkuvuus ja ammattitaitoinen työnjohto. Tapauskohtaisesti on arvioitava

mahdollisuudet ulkoistaa digitointihanke. Toisaalta digitointikapasiteettia voidaan myydä myös yliopiston ulkopuolelle. Digitointivaiheesta on rakennettava suora tallennusputki keskitettyyn aineistopalveluun. Tutkimusaineistojen elinkaarimalleissa päähuomio on ollut aineistojen arkistoinnissa ja pitkäaikaissäilytyksessä. xii Sen sijaan elinkaari aineiston keruusta tutkimustuloksiin on jäänyt vähäisemmälle huomiolle. Käytännön tutkimustyön kannalta juuri tämä on aineiston hallinnan kannalta olennainen prosessin vaihe ajatellen tutkimustyön edistymistä, mutta myös aineiston myöhempää säilytystä. Aineistoa kuvailevaa metatietoa tulee kerryttää koko tutkimusprosessin aikana. Aineiston integriteetin varmistamista ja erityisesti provenienssia kuvaava tieto syntyy ja se on tallennettava prosessin kuluessa. xiii

4 YHTEENVETO Edellä on tarkasteltu tutkimusaineistojen infrastruktuuria monikerroksisena kokonaisuutena. Oxfordin yliopiston tutkimusinfrastruktuurin kehityshankkeessa todettiin: The development of research infrastructure takes time, and it will still be several years (funding permitting) before the University is able to claim an integrated suite of services to support research data management xiv. Epäilemättä sama johtopäätös koskee Jyväskylän yliopistoa. Aluksi vaaditaan sekä yliopistotason että yksikkötason linjauksia siitä, millä tavalla edetään ja millaista resursointia tarvitaan. Myös yhteisesti sovitut prosessit on kuvattava ja päätettävä prosessien velvoittavuudesta ja kattavuudesta. Infrastruktuurin osalta minimivaatimus on keskitetty, kaikkia tieteenaloja hyödyttävä tutkimusaineistojen tallennuspalvelu, jota tarvitaan niin tietoturva- ja kustannussyistä kuin myös käytännön tutkimustyötä tukevista toiminnallisista syistä. Yliopistolla on nyt myös edellytykset perustaa keskitetty digitointipalvelu. Palvelujen ulkoistaminen edellyttää arviointia ja vertailua, mutta myös omien palvelujen kehittämisen sille tasolle, että liittyminen ulkoisiin palveluihin ja ulkoisten resurssien joustava ja läpinäkyvä käyttö on mahdollista. Fyysisille aineistoille tarvitaan ainakin yksi keskitetty ja asianmukaisesti varustettu arkistointitila. Kanavuoren pitkäaikaisarkistointiin liittyvät tavoitteet ja resurssit on määritettävä ja kohdennettava yliopiston keskushallinnossa. Rakennus- ja saneeraushankkeiden yhteydessä on myös suunniteltava asianmukaisia aineistojen lähisäilytystiloja. Metatietokäytännöistä tulisi sopia ensisijaisesti valtakunnallisesti. Aineistoista riippumatonta ydinosaa metatiedosta ollaan määrittelemässä kansallisessa TTA-hankkeessa. Paikallisesti ja tieteenalakohtaisesti metatietokuvauksia voidaan tarvittaessa laajentaa. Yhtenäiset metatietokuvaukset mahdollistavat osaltaan aineistojen ulkoistamisen sekä aineistojen julkaisemisen erilaisissa aineistopalveluissa. Haasteena on, että metatiedon kerryttäminen ei saa tulla liian raskaaksi yksittäiselle tutkijalle ja että tarjolla on kunnolliset välineet. Tutkimusympäristöjen kehittäminen ml. aineistojen hallinnan kehittäminen edellyttää yliopistolta sekä kertaluontoista investointia että jatkuvaa panostusta kehittämiseen ja ylläpitoon. Tutkimusyliopiston näkökulmasta tämä on sekä välttämätön, kannattava että strategisesti keskeinen investointi. Pidemmällä tähtäyksellä e-research -visiot avaavat huikeita näköaloja virtuaalisten tutkimusympäristöjen rakentamiseen. xv Myös tapa tehdä tutkimusta on muuttumassa. Science 2.0 viittaa tapaan toimia, julkaista verkostoina ja nopeuttaa tutkimustulosten ja aineistojen julkaisuprosessia perinteiseen tieteelliseen julkaisuprosessiin verrattuna. xvi Ks. myös liite: Tutkimusaineistojen infrastruktuurin kuvaus i http://www.eurocris.org

ii Säilymiseen on monta syytä: digitaalisen aineiston tuottamisen helppous ja runsaan aineiston hallittavuuden ongelmat, formaattien ja järjestelmien nopea muuttuminen, arkistointijärjestelmien heikkous ja suunnittelemattomuus jne. iii Berliinin julistus tieteellisen tiedon saatavuudesta vuodelta 2003, (Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities http://oa.mpg.de/lang/enuk/berlin-prozess/berliner-erklarung, OECD:n Pariisin julistus vuodelta 2004 ja OECD:n datasuositus vuodelta 2007.(Declaration on Access to Research Data from Public Funding http://www.fsd.uta.fi/julkaisut/julkaisusarja/fsdjs06_oecd.pdf) sekä Council of Europe. Recommendation 1375 (1998)1 over the Protection of incidental collections against dispersal.council of Europe. Recommendation Rec (2005)13. Recommendation on the Governance and Management of University Heritage. iv http://www.universeum.it/docs/recommendationrec(2005)13_en.pdf v Tutkijoiden ääni ja sähköiset aineistot. Selvitys muistiorganisaatioiden asiakkaitten digitoitujen aineistojen tarpeista ja saatavuudesta 2012. Laatinut Outi Hupaniittu. vi Järvinen Petteri: Digiarkistointi. Porvoo 2009. vii Opetusministeriön asettama Sähköisen aineiston pitkäaikaissäilytystä ja käyttöä koskevan työryhmän muistio. Opetusministeriö. Koulutus ja tiedepolitiikan osasto 2008. viii Tieto käyttöön. Tiekartta tutkimuksen sähköisten tietoaineistojen hyödyntämiseksi. http://www.minedu.fi/opm/julkaisut/2011/tiekartta_tutkimuksen_sahkoisten_tietoaineistoj en_hyodyntamiseksi.html?lang=fi ix EUDAT on laaja eurooppalainen yhteistyöhanke tiedonhallinnan infrastruktuurin kehittämiseksi tutkimusyhteisöjen ja olemassa olevien infrastruktuurien käyttöön. http://www.eudat.eu/ x http://www.tivit.fi/fi/ xi Käsite e-research viittaa uusiin informaatioteknologin tukemiin tapoihin tehdä tutkimusta. Käsite laajentaa e-science - ja cyberinfrastructure -käsitteet ihmistieteisiin. (http://en.wikipedia.org/wiki/e-research) xii Esim. CSC 19.3.2010: Tutkimuksen tietoaineistot. Olennaisen käsikirja päättäjille., s. 30. http://www.csc.fi/csc/julkaisut/oppaat/2010/tutkimuksen-tietoaineistot xiii Provenienssilla (provenance) tarkoitetaan aineiston ja siitä johdettujen tulosten alkuperää. (http://fi.wikipedia.org/wiki/provenienssi). Provenienssin dokumentointi on erityisen tärkeää arvioitaessa aineiston omistajuutta ja meritointia. xiv Wilson, James A. J. et.al 2010. xv http://www.nsf.gov/od/oci/reports/toc.jsp xvi Science 2.0 generally refers to new practices of scientists who post raw experimental results, nascent theories, claims of discovery and draft papers on the Web for others to see and comment on. Science 2.0 -- Is Open Access Science the Future? http://www.scientificamerican.com/article.cfm?id=science-2-point-0