Digitaalisten aineistojen pitkäaikaissäilytys OKM:n toimialan tietohallinnon yhteistyökokous 25.5.2011 Kimmo Koivunen CSC Tieteen tietotekniikan keskus Oy 25.5.2011
KDK:n kokonaisarkkitehtuuri 25.5.2011 2
Pitkäaikaissäilytysjärjestelmä on palvelujärjestelmä, johon opetus- ja kulttuuriministeriön hallinnonalalla toimivat, kulttuuriperintöä säilyttävät organisaatiot siirtävät pitkäaikaisesti tai pysyvästi säilytettäviä aineistoja. Aineistot säilyvät myös pitkäaikaissäilytysjärjestelmässä tallentavien organisaatioiden aineistoina. Tavoitteena on, että pitkäaikaissäilytysjärjestelmä otettaisiin käyttöön vuonna 2016. Kokonaisuuden suunnittelussa tulee huomioida, että järjestelmää on mahdollista hyödyntää tulevaisuudessa myös tutkimuksen tietoaineistojen säilyttämisessä. 25.5.2011 3
KDK:n PAS-suunnittelun eteneminen Suunnittelusta vastasi PAS-jaosto Kansallisarkiston johdolla 31.5.2010 asti Suunnittelun seuraava vaihe alkoi 1.6.2010, jolloin käynnistyi ns. PAS-jatkohanke PAS-jatkohankkeelle on nimetty tukiryhmä, jonka tehtävänä on: tukea pitkäaikaissäilytyshankkeen toteuttamista osallistumalla pitkäaikaissäilytystä koskevien suunnitelmien laatimiseen, seuraamalla hankkeen etenemistä operatiivisella tasolla, vaihtamalla tietoja ja kokemuksia sekä osallistumalla aktiivisesti kansallisen ja kansainvälisen yhteistyöverkoston kehittämiseen. 25.5.2011 4
Tukiryhmän jäsenet Tuomas Alaterä, Yhteiskuntatieteellinen tietoarkisto Juha Hakala, Kansalliskirjasto Vesa Hongisto, Museovirasto Minna Karvonen, opetus- ja kulttuuriministeriö Istvan Kecskemeti, Kansallisarkisto Esa-Pekka Keskitalo, Kansalliskirjasto Markus Merenmies, Kansallisarkisto Harald Nyholm, Svenska Litteratursällskapet I Finland SLS Kari Peiponen, Valtion taidemuseo Pekka Tähtinen, Kansallinen audiovisuaalinen arkisto CSC toimii tukiryhmän puheenjohtajana (Kimmo Koivunen) ja sihteerinä (Kuisma Lehtonen) 25.5.2011 5
Yleiset vaatimukset pitkäaikaissäilytyksen tekniikalle Järjestelmässä ei saa olla yksittäistä kohtaa, jonka pettäessä koko järjestelmä pettää (single point of failure) Koskee erityisesti elintärkeitä osioita Järjestelmän täytyy toimia, vaikka mediat, ohjelmistot ja laitteistot vaihtuvat tasaisena virtana Järjestelmän täytyy tukea erilaisuutta ja välttää lukkiutumista tiettyjen laite- tai ohjelmistotoimittajien ratkaisuihin Järjestelmän täytyy jatkuvasti seurata tietopakettien eheyttä Järjestelmässä on aineistoa, jota käytetään harvoin, mikä aiheuttaa suuren riskin piilevien virheiden kerääntymiseen. Järjestelmän ylläpitotoimet on oltava mahdollisia ilman käyttökatkoja 25.5.2011 6
Uhat ja niihin varautuminen Säilytysmedian viat Datasta useampi kopio erilaisilla medioilla Toimittajakohtaiset systemaattiset viat Datasta kopiot eri toimittajien ratkaisussa Toiminnallinen tai hallinnollinen virhe Data hallinoidaan vähintään kahdessa järjestelmässä Luonnonkatastrofit Säilytys toteutetaan maantieteellisesti hajautettuna Pahantahtoinen käyttäjä Säilytystä varmennetaan ns. pimeällä arkistolla Osaamisen ja henkilöstön riittämättömyys Toimintaa keskittämällä ja suunnitelmallisuudella varmistetaan osaamisen kehittyminen ja riittävä henkilöstö 25.5.2011 7
KDK-PAS noudattaa OAIS-mallia 25.5.2011 8
Säilyttämisen vaatimustasot Alkuperäisen käyttökokemuksen säilyttäminen Vaativin, mutta käyttäjän kannalta usein mielenkiintoisin taso Esim. Tietokonepelin pelaaminen samoin kuin 30 vuotta sitten Sisällön ymmärrettävyyden säilyttäminen Teksti, kuvat ja muu olennainen sisältö voidaan tulkita Ymmärrettävyys riippuu myös kohdeyleisöstä Käytön ja uuden tiedon tuottamisen kannalta yleensä tärkein taso Bittien säilyttäminen Varmistetaan alkuperäisten ykkösten ja nollien säilyminen ja luettavuus, sisällön tulkinnasta ei takeita Säilyttämisen perusta ja minimitaso säilytyksen aloittamiseen: Suunnitelmallisesti tehtynä vaatimustasoa voidaan nostaa myöhemmin 25.5.2011 9
Säilyttämisen menetelmiä Alkuperäisen käyttökokemuksen säilyttäminen Emulaatio Emulaattoreiden kehittäminen uusille alustoille, formaattien seuranta jne. Aktiivinen testaaminen ja seuranta Sisällön ymmärrettävyyden säilyttäminen Migraatio Tiedostomuotojen kehityksen seuranta (formaattikirjasto) Muunnosten kehittäminen, testaaminen, toteuttaminen ja valvonta Varautuminen palautuksiin Bittien säilyttäminen Eheyden varmistaminen Tiedostojen validointi ja valvonta Kopioiden hallinta Koskee sekä objekteja että metadataa 25.5.2011 10
Esimerkki teknisestä infrasturktuurista 25.5.2011 11
Keskitetyn pitkäaikaissäilytysjärjestelmän kustannukset ja kustannussäästöt Yhteisen PAS-järjestelmän kokonaiskustannukset 12 ensimmäisen toimintavuoden aikana ovat noin 42 miljoonaa euroa Suunnittelu- ja käyttöönottovaiheen (17-18 milj. euroa) jälkeen kustannukset ovat noin 4 milj. euroa / vuosi Jos säilyttämistä varmennetaan ns. pimeällä arkistolla 6. toimintavuodesta alkaen, lisäkustannukset olisivat noin 3,4 miljoonaa euroa (6.-12. toimintavuosina) Yhteinen PAS-järjestelmä saavuttaa muihin toteutustapoihin verrattaessa (SADe-ohjelman hyötyanalyysi): tuotantovaiheessa yli 10 miljoonan vuosittaiset säästöt ja käyttöönottovaiheessa n. 30 miljoonan kertaluontoiset säästöt Kumulatiivinen hyöty 12 ensimmäisen vuoden aikana 100 miljoonaa euroa 25.5.2011 12
Säilytyksen suunnittelu Menetelmä (tai prosessi) säilytyksen tavoitteiden ja reunaehtojen määrittelemiseksi ennen säilyttämisen aloittamista Tuottaa jokaiselle objektille säilytyssuunnitelman, joka mahdollistaa operatiivisen säilytystoiminnan pitkällä aikavälillä Muutoksien seurannan avulla havaitaan tarpeet, esim.: Säilytystoimenpiteiden käynnistämiseen Säilytyssuunnitelman uuteen arviointiin Säilyttämisen vaatimusten määritteleminen Vaihtoehtojen määritteleminen Tulosten arvioiminen Suoritettavan säilytyssuunnitelman määritteleminen 25.5.2011 13
Luovutuspaketin rakenne Säilyttämiseen soveltuvat tiedostomuodot Luovutuskelpoiset tiedostomuodot Hallinnolliset ja rakenteelliset metatiedot Kuvailevat metatiedot Standardisalkku KDK METS-profiilit TAUSTAJÄRJESTELMÄ LUOVUTUSPAKETIT (SIP) PAS-JÄRJESTELMÄ KDK:ssa käytettävät standardit, tiedostomuodot sekä pakolliset ja suositeltavat metadatat määritellään standardisalkussa Standardisalkun mukaisesti aineisto siirretään taustajärjestelmästä PASjärjestelmään käyttäen METS vaihtomuotoformaattia 25.5.2011 14
Digitaalisten aineistojen laajuus ja säilytysmenetelmät -kysely Tavoitteena uudistaa vuoden 2009 aineistokartoitus sekä selvittää millaisia säilytysmenetelmiä aineistot tarvitsevat Parhaillaan käynnissä Vastausaikaa 29.5.2011 asti 25.5.2011 15
PAS-järjestelmän palvelut KDK-kokonaisarkkitehtuurin mukaan: Aineiston säilyttäminen Aineiston hallintapalvelut Aineiston jakelupalvelu Luovutuspaketin muodostamisen tukipalvelut Luovutuspaketin vastaanotto PAS-järjestelmään Formaattikirjasto 25.5.2011 16
Suunnittelun vaiheet ja tavoiteaikataulu PAS-jaoston loppuraportti 2010 kesäkuu Etenemissuunnitelma 2010 syyskuu Toteuttamissuunnitelma 2011 marraskuu 1. Toteuttamisvaihe 2012-2013 2. Toteuttamisvaihe 2014-2016 25.5.2011 17
Kiitos! 25.5.2011