KDK:n pitkäaikaissäilytyksen suunnittelun tilanne ja vastaanotettavan aineiston vaatimukset DigiWiki-seminaari 27.4.2011 Kimmo Koivunen CSC Tieteen tietotekniikan keskus Oy
Sisällys CSC:n esittely Hankkeen esittely Hankkeen lähtökohdat Säilytyksen suunnittelu Luovutuspakettien rakenne Seuraavat tehtävät 4/27/2011 2
CSC:n esittely 14.9.2010 3
CSC pähkinänkuoressa Valtion omistama ja opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö Toiminta alkoi 1971 Liitti Suomen internetiin 1988 Liikevaihto 21,9 milj. euroa vuonna 2009 Työntekijöitä noin 200 Toimitilat Espoon Keilaniemessä, lähellä Otaniemen kampusta sekä Kajaanissa 4/27/2011 5
CSC:n palvelut Funet-palvelut Laskentapalvelut Sovelluspalvelut Tieteen ja kulttuurin datapalvelut Tietohallintopalvelut
Hankkeen esittely 14.9.2010 7
KDK:n hallinnointi 1.4.2011 31.12.2013 Opetus- ja kulttuuriministeriö Johtoryhmä Ohjausryhmä Asiakasliittymän ylläpitäjä / Kansalliskirjasto Konsortio PAStukiryhmä + PAS tekninen ryhmä Pitkäaikaissäilytysjärjestelmän toteuttamishanke / CSC Asiakasliittymän palvelimen ja sen käyttöympäristön ylläpito (CSC) Pitkäaikaissäilytyksen infrastruktuuri- ja palveluorganisaatio (CSC) 14.9.2010 8
KDK-PAS-jatkohanke Tilaaja: opetus- ja kulttuuriministeriö Toteuttaja: CSC Tieteentietotekniikan keskus Oy Kesto: 1.6.2010 30.10.2011 Tavoite: Edistää KDK:n pitkäaikaissäilytyksen suunnittelua ja tuottaa pitkäaikaissäilytyksen yksityiskohtainen toteuttamisuunnitelma sekä edistää kaikin tavoin yhteistoimintaa KDK:n pitkäaikaissäilytyksen tavoitteiden ja painopisteiden toteutumiseksi 14.9.2010 9
Hankkeen tulokset Etenemissuunnitelma (valmistuu syksyllä 2010) Toteuttamissuunnitelma (valmistuu syksyllä 2011) sisältäen eri osa-alueita syventäviä osaraportteja Selvitys kansallisen yhteistyön mahdollisuuksista Selvitys kansainvälisiin yhteistyöverkostoihin osallistumisesta Lisäksi koulutuksia ja/tai tapahtumia osaamisen jakamiseksi sekä hankkeen edistymisestä tiedottamiseksi 14.9.2010 10
PAS-jatkohankkeen tukiryhmä Tehtävänä: tukea pitkäaikaissäilytyshankkeen toteuttamista osallistumalla pitkäaikaissäilytystä koskevien suunnitelmien laatimiseen, seuraamalla hankkeen etenemistä operatiivisella tasolla, vaihtamalla tietoja ja kokemuksia sekä osallistumalla aktiivisesti kansallisen ja kansainvälisen yhteistyöverkoston kehittämiseen. Käytännössä: kommentoi, ehdottaa, tunnistaa, osallistuu, vastaa (että hanke tuntee kattavasti eri sektoreiden tarpeet), huolehtii, tiedottaa 14.9.2010 11
Tukiryhmä Jäsenet Tuomas Alaterä, Yhteiskuntatieteellinen tietoarkisto Juha Hakala, Kansalliskirjasto Vesa Hongisto, Museovirasto Minna Karvonen, opetus- ja kulttuuriministeriö Istvan Kecskemeti, Kansallisarkisto Esa-Pekka Keskitalo, Kansalliskirjasto Markus Merenmies, Kansallisarkisto Harald Nyholm, Svenska Litteratursällskapet I Finland SLS Kari Peiponen, Valtion taidemuseo Pekka Tähtinen, Kansallinen audiovisuaalinen arkisto CSC toimii tukiryhmän puheenjohtajana (Kimmo Koivunen) ja sihteerinä (Kuisma Lehtonen) 14.9.2010 12
Projektiryhmä Heikki Helin Kimmo Koivunen Kuisma Lehtonen Jani Heikkinen Arto Teräs 14.9.2010 13
PAS-jatkohankkeen tehtävät (etenemissuunnitelma)
PAS-jatkohankkeen lähtökohdat 14.9.2010 15
KDK:n kokonaisarkkitehtuuri 14.9.2010 16
PAS-jaoston työ Loppuraportti ja sen liitteet: PAS-järjestelmän hallinnolliset ja rakenteelliset metatiedot Pitkäaikaissäilytysjärjestelmän toiminnallisuus ja toteutus PAS-palvelukuvaus Pitkäaikaissäilyttämiseen osallistuvat organisaatiot ja niiden tehtävät ja vastuut Arkistojen, kirjastojen ja museoiden sähköiset aineistot - aineistoselvitys PAS-hankkeen hyötyjen määrittely ja liittyjän valmiuksien kehittäminen 14.9.2010 17
Pitkäaikaissäilytyksen hyöty- ja kustannusanalyysi Vuosi Järjestelmän toteutuksen vaihe Aineistoa 1 Vaatimusmäärittelyjen täydennys, työkalujen ja tukipalveluiden kehitystyö, hankintojen ja kilpailutuksen suunnittelu - 2 Työkalujen ja tukipalveluiden kehitystyö, kilpailutukset (ohjelmisto ja laitteisto), pilottijärjestelmän asennus 3 Ensimmäisten taustajärjestelmien liittäminen pilottiin, integrointiprojekti, tuotantoon ottaminen, 4 Tuotantokäyttö, vaihe 1: 1. säilytyspiste tuotannossa, laitteiston täydennys, kapasiteetin lisäys, käyttö ja ylläpito 5 Tuotantokäyttö, vaihe 1: Maantieteellisen hajautuksen valmistelu. Toisen säilytyspisteen hankintojen kilpailutus 6 Tuotantokäyttö, vaihe 2: 2. säilytyspiste tuotannossa, Kapasiteetin täydentäminen: molemmissa säilytyspisteissä kaikki aineisto - 300 Tt 700 Tt 1000 Tt 1400 Tt 7-12 Tuotantokäyttö (kaksi säilytyspistettä): Kapasiteetin lisäys 15% vuosittain, vuodesta 11 alkaen 25%, laitteistojen ja ohjelmistojen uusiminen syklien mukaisesti, vuosittain laitteiden uusintaa jossakin säilytyspisteessä, vuonna 11 uusitaan PAS-ohjelmisto 14.9.2010 18 Aineistotaulukon mukainen
Esimerkki teknisestä infrasturktuurista 14.9.2010 19
KDK-PAS noudattaa OAIS-mallia 14.9.2010 20
Säilyttämisen vaatimustasot Alkuperäisen käyttökokemuksen säilyttäminen Vaativin, mutta käyttäjän kannalta usein mielenkiintoisin taso Esim. Tietokonepelin pelaaminen samoin kuin 30 vuotta sitten Sisällön ymmärrettävyyden säilyttäminen Teksti, kuvat ja muu olennainen sisältö voidaan tulkita Ymmärrettävyys riippuu myös kohdeyleisöstä Käytön ja uuden tiedon tuottamisen kannalta yleensä tärkein taso Bittien säilyttäminen Varmistetaan alkuperäisten ykkösten ja nollien säilyminen ja luettavuus, sisällön tulkinnasta ei takeita Säilyttämisen perusta ja minimitaso säilytyksen aloittamiseen: Suunnitelmallisesti tehtynä vaatimustasoa voidaan nostaa myöhemmin 14.9.2010 21
Säilyttämisen menetelmiä Alkuperäisen käyttökokemuksen säilyttäminen Emulaatio Emulaattoreiden kehittäminen uusille alustoille, formaattien seuranta jne. Aktiivinen testaaminen ja seuranta Sisällön ymmärrettävyyden säilyttäminen Migraatio Tiedostomuotojen kehityksen seuranta (formaattikirjasto) Muunnosten kehittäminen, testaaminen, toteuttaminen ja valvonta Varautuminen palautuksiin Bittien säilyttäminen Eheyden varmistaminen Tiedostojen validointi ja valvonta Kopioiden hallinta Koskee sekä objekteja että metadataa 14.9.2010 22
Säilytyksen suunnittelu 14.9.2010 23
Säilytyksen suunnittelu Menetelmä (tai prosessi) säilytyksen tavoitteiden ja reunaehtojen määrittelemiseksi Tuottaa jokaiselle objektille säilytyssuunnitelman, joka mahdollistaa operatiivisen säilytystoiminnan pitkällä aikavälillä Raportissa kuvattu: mitä säilytyksen suunnittelu tarkoittaa, missä vaiheessa se tehdään ja kuinka sitä hyödynnetään varsinaisessa säilyttämisessä Seuraavassa vaiheessa voidaan tarkemmin pohtia kuinka keskitetty PAS-palvelu voi tukea hyödyntäviä organisaatioita säilytyksen suunnittelussa Tarjoamalla esimerkiksi välineitä, opastusta ja koulutusta 14.9.2010 24
Säilytyksen suunnittelun käynnistyminen Prosessi käynnistyy muutoksien seurannan tuloksena - Myös uusi aineisto on tässä yhteydessä muutos Kohdeyhteisön muutoksien seuranta Teknologian muutoksien seuranta [MTOI,MTAV,PROF,UUSI] [MTOI,MTAV] Paketointimallien kehittäminen [MTAR,MTAV] Säilytyksen suunnittelu [muuttunut suunnitelma] Aineiston migraatio [MTOI,MTAV,PROF] Säilytysmenetelmi en ja standardien kehittäminen [MTAV,PROF,UUSI] [Ei muutoksia suunnitelmaan] Järjestelmän konfiguraation hallinta 14.9.2010 25
Säilytyksen suunnittelun vaiheet Prosessi etenee vaiheittain: Suunnittelun päävaiheet SÄILYTTÄMISEN VAATIMUSTEN MÄÄRITTELEMINEN (1) Säilyttämisen perusteiden määritteleminen (2) Testattavan osajoukon valitseminen (3) Säilyttämisen vaatimusten tunnistaminen VAIHTOEHTOJEN MÄÄRITTELEMINEN [Ei edetä] (5) (8) Testin arvioiminen (7) Testin suorittaminen (6) Testin suunnitteleminen [Edetään] (4) Vaihtoehtojen määritteleminen TULOSTEN ARVIOIMINEN [Hylkää] (9) Mitattujen arvojen muuttaminen yhteismitalliseksi (10) Mitattujen arvojen painotusten määrittäminen (11) Tulosten analysoiminen SUORITETTAVAN SÄILYTYSSUUNNITELMAN MÄÄRITTELEMINEN (14) Säilytyssuunnitelman validoiminen (13) Säilytyssuunnitelman määrittäminen (12) Suoritettavan säilytyssuunnitelman luominen [Hyväksy] 14.9.2010 26
Esimerkki säilytyssuunnitelmasta Becker et al. 2009: Systematic planning for digital preservation http://www.ifs.tuwien.ac.at/~becker/pubs/becker-ijdl2009.pdf
PAS-jatkohankkeen ehdotukset KDK:ssa noudetaan hahmoteltu säilytyksen suunnittelun mallia Säilytyksen suunnittelu suoritetaan ennen säilyttämisen aloittamista Jokaiselle objektille tulee löytyä yksiselitteisesti säilytyssuunnitelma Samaa suunnitelmaa voidaan kuitenkin hyödyntää usealle objektille Hyödyntäviä organisaatioita tulee tukea suunnittelussa Mm. mallisuunnitelmien avulla, joita laadittaisiin yhteistyössä hyödyntävien organisaatioiden kanssa 14.9.2010 28
Luovutuspaketin rakenne 14.9.2010 29
Luovutuspaketin rakenne Säilyttämiseen soveltuvat tiedostomuodot Luovutuskelpoiset tiedostomuodot Hallinnolliset ja rakenteelliset metatiedot Kuvailevat metatiedot Standardisalkku KDK METS-profiilit TAUSTAJÄRJESTELMÄ LUOVUTUSPAKETIT (SIP) PAS-JÄRJESTELMÄ KDK:ssa käytettävät standardit, tiedostomuodot sekä pakolliset ja suositeltavat metadatat määritellään standardisalkussa Standardisalkun mukaisesti aineisto siirretään taustajärjestelmästä PASjärjestelmään käyttäen METS vaihtomuotoformaattia (Metadata Encoding and Transfer Standard) 14.9.2010 30
Luovutuspaketin rakenne METS-profiili: Geneerinen profiili ja aliprofiilit eri aineistotyypeille Geneerinen KDK METS-profiili METS-Profiilin avulla voidaan taustajärjestelmässä tuottaa luovutuspaketti siten, että aineiston rakenne voidaan yksikäsitteisesti tarkastaa PAS-järjestelmässä Geneerinen profiili on yhteinen kaikille luovutuspaketeille riippumatta siitä mitä tai millaista aineistoa siirretään Aineistokohtaiset aliprofiilit KDK METS-profiili valokuville KDK METS-profiili kirjoille... KDK METS-profiili videomateriaalille Aliprofiilien avulla voidaan määritellä tietyt metatiedot pakollisiksi tietyn tyyppiselle materiaalille sellaisissa tapauksissa että näitä metatietoja ei voida vaatia kaikilta aineistoilta 14.9.2010 31
Luovutuspaketin rakenne KDK-METS-profiilissa määritellään kuinka luovutuspaketissa tulee esittää pakolliset ja suositeltava metatietokentät Pohjana PAS-järjestelmän tekninen ja hallinnollinen metadata v. 2.5- dokumentti Dokumentissa määritelty miten metatietokentät tulee kuvata METSdokumentissa Esimerkit kullekin metatietokentälle. Esim. luovutuspaketin luontihetki <mets:metshdr CREATEDATE="2011-02-15T15:41:12"> </mets:metshdr> 14.9.2010 32
Seuraavat tehtävät Aineistojen ja niiden vaatimien säilytysmenetelmien kartoitus Laadittujen osaraporttien julkaiseminen Säilytyksen suunnittelu Luovutuspaketin rakenne Toteuttamissuunnitelman koostaminen ja laadinta 14.9.2010 33
Kiitos!