Asiakirjojen pitkäaikaissäilytys Osmo Palonen Mikkelin Ammattikorkeakoulu
Sisältö 1. Esipuhe: Tietoa Mamk:sta ja puhujasta 2. Taustaa: Mitä on pitkäaikaissäilytys ja sähköinen arkisto 3. Standardit ja pitkäaikaissäilytysen periaatteet 4. Tiedostomuodot 5. Tietotekninen ympäristö ja toteutus
Sisältö 1. Esipuhe: Tietoa Mamk:sta ja puhujasta 2. Taustaa: Mitä on pitkäaikaissäilytys ja sähköinen arkisto 3. Standardit ja pitkäaikaissäilytysen periaatteet 4. Tiedostomuodot 5. Tietotekninen ympäristö ja toteutus
Miksi Mikkelin Ammattikorkeakoulu? Mikkeli on historiallisen tiedonhallinnan keskittymä: Elka, Kansalliskirjasto, Maakunta-arkisto Mikkelissä tehdään merkittävää sähköisen tiedonhallinnan ja digitoinnin tuotantoa ja kehittämistä: Mamk, Kansalliskirjasto Mamk on toiminut sähköisen tiedonhallinnan, arkistoinnin kehittämistoiminnassa 1990-luvun lopulta Projekteja 2002-2012 Aton, Viva3, OSA Avoimen lähdekoodin arkisto Palveluliiketoimintaa: Disec Oy, Darcmedia
35 vuotta sähköistä tiedonhallintaa Osmo Palonen 9. vuosi sähköistä arkistointia: Projektipäällikkö, Mikkelin Ammattikorkeakoulu 2003-16 vuotta journalismia Pyhäjokiseudusta Aamulehteen 14 vuotta kirjapainoautomaatiota Ahlström & Honeywell Sähköistä tiedonhallintaa vuodesta 1978 Lukiota 30 vuoden välein, yo 2002 Varkauden aikuislukio Tampereen yliopisto: historia, IT HuK 2008, FM 2011 Faktori- ja keskijohdon tutkinto 1988 (MI, AEL) Liikearkistoyhdistys hallitus 2007-2012, pj 2012, Failin päätoimittaja
30-vuotinen tiedon vallankumous Tietokoneet yleisesti tiedon tuottamiseen 1980-luvulta Sihteerit katosivat 1990-luvulla, tieto luojan haltuun Sähköinen prosessi on muuttanut tiedon hallinnan ja välityksen yksityissektorilla täysin Aineiston järjestäminen vasta arkistossa lähes mahdotonta Tieto on kerättävä prosesseissa, malleissa ja säännöissä On tiedettävä mitä aineisto sisältää ja mihin se liittyy Ilman metatietoa tieto on useimmiten arvotonta ei säilytetä Arvokkaaksi arvioitua voidaan yrittää IT-arkeologialla Yhteys IT-rikostutkinnan ja paperiarkiston menetelmiin
Mitä pitkäaikaissäilytys tarkoittaa? SFS 5972 Viitemalli pitkäaikaissäilytysarkistolle (OAIS ISO 14721-2003): Niin pitkä ajanjakso, että se antaa aihetta huoleen teknologian muutosten vaikutuksista arkistossa säilytettävään tietoon, mukaan lukien uudet mediat ja tallennusformaatit, sekä muuttuva käyttäjäkunta. Tällainen ajanjakso ulottuu hamaan tulevaisuuteen. Sähköisen aineiston säilyttämistä niin kauan, että sen tuottamisessa käytetty järjestelmä, ohjelmisto tai tiedostomuoto ei enää ole käytettävissä Pitkäaikaissäilytys on eri tehtävä kuin sähköinen arkistopalvelu, vaikka niiden toteuttamisen tuottaisi sama organisaatio Pitkäaikaisarkistoon ei pääse tietoverkoista ja se palvelee vain tuottamalla kopioita pyynnöstä
Mitä pitkäaikaissäilytys varmistaa Pitkäaikaissäilytys varmistaa, että aineisto on Käytettävissä Eheä ja aito (muuttumaton kokonaisuus) Todistusvoimainen (osoitetaan prosessi jossa syntynyt) Käytettävissä tarkoittaa, että aineiston omistaja tai haltija muuttaa aineiston kulloinkin käytössä oleville sovelluksille sopivaan muotoon (migraatio) ja että aineisto on saavutettavissa. Pitkäaikaissäilytys on osa koko tietoaineiston elinkaarta Aineiston- tai tiedonhallinnan eri vaiheissa tehdyt päätökset/toimenpiteet vaikuttavat aina pitkäaikaissäilytykseen Pitkäaikaissäilytyksen tehtävänä on huolehtia että aineistolla on historia, joka liittää sen reaalimaailmaan
Mitä on sähköinen arkistopalvelu Sähköinen arkistopalvelu tarjoaa aineiston asiakkaan käyttöön Tarkistaa käyttäjän identiteetin Tarkistaa käyttöoikeudet käyttäjän identiteetin perusteella Voi tuottaa semanttisia linkkejä asiaan liittyvään aineistoon Arkistoaineistoa tai osaa siitä voidaan käyttää uuden tuottamisessa Aineiston muuttumattomuus varmistetaan käsittelyhistoriasta (audit trail) ja vertaamalla pitkäaikaissäilytyksen arkistokappa Arkistopalvelu ja pitkäaikaissäilytys voidaan tuottaa yhdessä tai erillisinä, pitkäaikaissäilytys edellyttää toimijan vakautta
Pitkäaikaissäilytyksen standardit OAIS Open Archival Information System kehitetty 1990-luvulla NASAn aloitteesta - ISO 14721-2003 Suomennettu Viitemalli pitkäaikaissäilytysarkistolle SFS 5972 (2010)
Pitkäaikaissäilytyksen tietopaketit Luovutuspaketti (SIP, Submission Information Package) Datapaketti, jossa aineistoa arkistoon toimittava organisaatio luovuttaa aineiston arkistoon, julkisen sektorin määritys on Sähke 2. Ellei ole määräävää normia, arkisto ja luovuttaja sopivat sisällöstä Säilytyspaketti (AIP, Archival Information Package) Datapaketti, jossa säiltettävä aineisto tallennetaan arkistoon. Paketti sisältää säilytykseen soveltuvat tiedostot ja metatiedot sekä esitysinformaation. KDK:n määritys on METS-rakenne, MXF videossa. Jakelupaketti (DIP, Dissemination Information Package) OAIS-standardin mukaan jakelupaketti luodaan erikseen kullekin asiakkaalle säilytyspaketista. Tämä tuskin on toteutus useimmissa tapauksissa. Sensijaan jakelupaketit säilytetään palvelujärjestelmässä. Useissa aineistotyypeissä säilytyspaketin tiedosto ei sovellu jakelukäyttöön kokonsa ja tiedostomuotonsa takia. Esim. videon jakelupaketissa 1 Mbit/s kun säilytyspaketissa 50-100 Mbit/s
Pitkäaikaissäilytys Suomessa Yritykset ja muut organisaatiot ovat säilyttäneet tietoja, joita ei saa kadottaa Pankit Vakuutusyhtiöt Väestörekisterikeskus Koulutusorganisaatiot Järjestelmiä ei tehty pitkäaikaissäilytystä varten vaan käytännön tarpeisiin, siirretty järjestelmäsukupolvesta toiseen Dataa, jota pitäisi pysytä säilyttämään esimerkiksi digitaalinen taide ei käytännössä voida taata
Pitkäaikaissäilytys Suomessa Kansallinen digitaalinen kirjasto (KDK) -prosessissa on luotu määrityksiä pitkäaikaissäilytystä varten: http://www.kdk.fi/fi/raportit-ja-julkaisut Valtion (Opetus- ja kulttuuriministeriön hallinnonalan) käyttöön on suunniteltu yhteistä pitkäaikaissäilytysratkaisua vuosikausia Pitkäaikaissäilytyksen suunnitteluun on tuotettu mm: http://www.kdk.fi/fi/pitkaaikaissailytys/maeaerittely-ja-dokumentit Odotellaan Kantaa, mitä tapahtuu otanta-aineistolle? Sarkk kuntien aineiston vastaanoton ja palvelun http://www.esth.fi/sarkk Maanmittauslaitoksella oma pysyvän säilyttämisen lupa Viimeiset kolme eivät sittenkään pysyvän säilyttämisen ratkaisuja?
Pitkäaikaissäilytys maailmalla Library and Archives Canada http://www.collectionscanada.gc.ca/preservation/003003-1030-e.html http://www.collectionscanada.gc.ca/digital-initiatives/012018-2000.01-e.html#q 2.B. 1.8 In addition to physically acquiring digital material for permanent storage at LAC, the institution will depend on the development of a network of Trusted Digital Repositories across Canada, sharing both content and expertise in the common goal of preserving continuing access to Canada's digital documentary heritage. CPAC http://www.cpac.ca/eng/digitalarchive Electronic Records Archives ERA, NARA, USA http://www.archives.gov/era/about/ Kustannukset 2005-2011 457 miljoonaa, vuosittain 25-30 miljoonaa $ Ruotsissa digitaalisten kulttuuriarvojen strategia http://www.regeringen.se/download/13885b0f.pdf?major=1&minor=183172&cn=attachmentpubld Virossa määritykset tehtiin 2008, toteutus jatkuu vielä 2013: http://rahvusarhiiv.ra.ee/en/digital-archive-development/&i=6
Arviointimenetelmiä ja tietoa Luotettava sähköinen säilyttäjä - arviointivälineitä: TRAC Trustworthy Repositories Audit & Certification http://www.crl.edu/sites/default/files/attachments/pages/trac_0.pdf ja Drambora - Digital Repository Audit Method Based on Risk Assessment http://www.repositoryaudit.eu/ Mikkelin Ammattikorkeakoulun sähköisen arkistotoiminnan arviointi tehtiin Aton-hankkeessa 2007, sen uudistaminen ohjelmassa 2012-2013 Raportti ISO standardit, sertifiointi
Tiedostomuodot ja säilyttäminen Tiedostomuodot voidaan jakaa säilytyskelpoisiin ja siirtokelpoisiin Siirtokelpoinen tarkoittaa tiedostomuotoa, josta voidaan tuottaa säilytyskelpoinen tiedosto Säilytyskelpoisen tiedostomuodon ominaisuuksia ovat Kansainvälisen standardointielimen hyväksymä (ISO) Avoin, vapaasti käytettävä (ei kustannuksia käytöstä) Laajasti käytössä Siirtokelpoisen tiedostomuodon ominaisuuksia: Laajasti käytössä Voidaan tuottaa suoraan säilytyskelpoisia tiedostomuotoja
Hyväksytyt säilytystiedostomuodot* Teksti Electronic Publications (EPUB) Extensible Hypertext Markup Language (XHTML) Extensible Markup Language (XML) Hypertext Markup Language (HTML) Open Document Format (ODF) PDF for long-term preservation: PDF-Archive (PDF/A) Tekstitiedosto (Plain text) Ääni Audio Interchange File Format (AIFF), PCM-koodattu Broadcast Wave Format (BWF) Free Lossless Audio Codec (FLAC) MPEG-4 AAC Advanced Audio Coding (AAC) Waveform Audio Format (WAV) Elävä kuva: Motion JPEG 2000 * = KDK:ssa hyväksytyt http://www.kdk.fi/images/stories/tiedostot/kdk-pas-tiedostomuodot.pdf
Hyväksytyt säilytystiedostomuodot* Kuva: Joint Photographic Experts Group (JPEG) Joint Photographic Experts Group JPEG 2000 (JP2) Tagged Image File Format (TIFF) Verkkoarkisto: Web ARChive Format (WARC) Tietokannat: Määritys myöhemmin Yleistä: Arviointi jatkuva prosessi Mamk:n Viva3 suositus: Paikkatiedot Inspire-direktiivin mukaisesti 2D- ja 3D- suunnitteluaineistolle ei vielä ole määritystä säilytysmuodoksi, vain yleisiä siirtomuotoja: STEP ja Wavefront OBJ 3D-jakelumuotoja: X3D, HTML5, 3D-PDF Laserkeilauksen pistepilviaineiston standardiksi muodostumassa LAS, josta standardoitu versio 1.3, prosessissa versio 1.4
Hyväksytyt siirtotiedostot** Teksti: Ääni: Microsoft Office Suite, Portable Document Format (PDF) Audio Interchange File Format (AIFF-C), Moving Pictures Expert Group (MPEG) MPEG-1 layer-3, MPEG-2 layer-3 (MP3) Windows Media Audio (WMA) Elävä kuva Kuva Digital Video (DV) Moving Pictures Expert Group (MPEG) Windows Media Video (WMV) Digital Negative (DNG) Encapsulated postscript (EPS) Graphics interchange format (GIF) Portable network graphics (PNG) ** = KDK:ssa hyväksytyt http://www.kdk.fi/images/stories/tiedostot/kdk-pas-tiedostomuodot.pdf
Tietojärjestelmät ja pitkäaikaissäilytys Tiedon säilyttämisen tarpeet otetaan yhdeksi lähtökohdaksi: Käytetään avoimia standardeja tiedon hallinnassa, vastaanotossa ja siirtämisessä muihin järjestelmiin Kansainvälisten (kansallisten) standardien ja vaatimusten mukaisuus Aineiston muutosten ja käytön (jos tarpeen) jälkien rekisteröinti Mahdollisuus siirtää koko tai valittu aineisto eheänä ja aitona Vaatimusmäärittelyssä pidetään lähtökohdista kiinni; etsitään tavat toteuttaa vaadittavat ominaisuudet kustannustehokkaasti Järjestelmän toimintaperiaatteiden, käyttötarkoituksen ja -ympäristön dokumentointi Järjestelmän käytön hallitun päättymisen ennakoiminen
Miten pitkäaikaissäilytys toteutetaan? Pitkäaikaissäilytys on vaativa erillinen prosessi, joka ei kuulu aktiivijärjestelmien toimintaan järjestelmien elinkaari Harvalla organisaatiolla on tarvetta ja resursseja tehdä sitä itse Migraatio on johtava tapa aineiston käytettävyyden säilyttämiseen emulaatiota käytetään sen tukena Alkuperäisaineistojen säilyttäminen on todennäköinen tapa, vaikka niitä ei tarvittaisikaan Teknisten ratkaisujen on tuettava kymmenien ja satojen vuosien säilyttämistä Mediat vain pieni osa, keskeisintä standardointi ja yhteentoimivuus Levytallennusjärjestelmän elinkaari 5 10, nauhakirjaston 5-20 v. Pelkästään säilytysjärjestelmien datamigraatio vie paljon aikaa
Esimerkki säilytysratkaisusta - Mamk Periaate: data on dataa toimalasta ja muodosta riippumatta Terveydenhuollon aineistoa, säilytysaika 10, 12, 15 tai 100 vuotta Elävää kuvaa, pysyvästi säilytettävää Ääntä, pysyvästi säilytettävää Kuvia, pysyvästi säilytettäviä Skannattuja ja alkujaan sähköisiä asiakirjoja Noin 30:n toimijan aineistoa yksityishenkilöstä suuryrityksiin ja eri kokoisiin arkistoihin Yli 150 000 gigatavua levytilaa nauhavarmistettuna Noin 1 milj. gigatavua nauhatilaa, 3 nauhan politiikka Nauhojen kolmas kappale eri organisaation arkistotiloissa
OSA Open Source Archive Hanke jossa kehitetään avoimeen lähdekoodiin perustuva arkistopalvelu ja tallearkisto (dark archive) Hankken toteutus 5/2012 6/2014 Tekijänä Mikkelin AMK, kumppaneina Elka, Brages Pressarkiv, Monikko, MPY, MariaDB, Otavan Opisto Tallearkistona testataan Floridassa kehitettyä DAITTS -arkistoa Palveluarkiston pohjana Fedora Commons alusta, jossa käytetään ns. mikropalveluja kuten DROID, Pronom, jne Tallearkiston testaus alkaa keväällä, arkistopalvelu syksyllä Tuotantolaajuinen testaus vuonna 2014 Toiminnat v. 0.2
OSA Open Source Archive - miksi 1. Kaupalliset toimijat eivät voi sitoutua tuottamiensa ohjelmistojen, tiedostomuotojen tai palvelujen kestävään tukeen 50 tai 200 vuoden ajan. Tämä pätee myös tietokantaratkaisuihin ja käyttöjärjestelmiin. Sähköinen pitkäaikaissäilyttäminen taas edellyttää, ettei sitouduta yhden toimijan ratkaisuihin. 2. Kaupallisten ratkaisujen lisensointi on muuttunut viime vuosina niin että kestävien ratkaisujen teko edes kymmenen vuoden aikasyklillä on mahdotonta. 3. Muistiorganisaatioiden ja kansalaisyhteiskunnan toimijoiden taloudelliset resurssit eivät riitä lisenssi- ja ylläpitomaksujen maksamiseen, vaan tähän käytettävä raha on julkisen sektorin tarjoamien resurssien pienentyessä saatava perustoimintaan. 4. Tällaiset ratkaisut edellyttävät koulutusta, joka parhaiten toteutetaan toimijoiden ja korkea-asteen kouluttajien yhteistyönä.
Kuka voi varmistaa säilymisen? Pitkäaikaissäilytyksestä voi huolehtia vain sellainen taho, jolla on halua ja kykyä huolehtia aineiston säilyvyydestä satoja vuosia Puhtaasti kaupalliselta pohjalta toimivan organisaation on vaikea taata vaadittua pitkäkestoisuutta, siksi siitä huolehtivat yleensä non-profit organisaatiot tai julkisen sektorin toimijat. Julkinen omistus ei tosin enää pelkästään takaa mitään, täytyy myös olla sitoutuneisuus ja toiminnan määrittelevä säännöstö. Kuka olisi 1980-luvulla uskonut että posti on olevinaan liikeyritys ja tele myyty kilpailijoille? Miten valtio varmistaa etteivät tulevaisuuden kataiset tee samaa CSC:lle tai kunnat SARKKille? Osuuskunta yksityiselle sektorille?
Australialainen muistilista https://www.nla.gov.au/preserve/digipres/ Digitaalisten kokoelmien pitkäaikaissäilyttämisen kriittiset elementit Vaikuta siihen miten sähköisiä aineistoja luodaan ja hallitaan ennen arkistointia: formaatit standardin mukaisina, identifiointi, metatieto Hyvä päätöksenteko mitä talletetaan ymmärtäen mitkä tavoitteet materiaalin osalta saavutettava Varmistaa että tavoitteiden saavuttaminen mahdollista lakia noudattaen Siirtää tiedostot menestyksekkäästi varmaan säilytyspaikkaan Yksilöidä ja kuvailla aineistot, että ne voidaan löytää, hallita ja näyttää Hallita arkistointi ja säilytysohjelma/prosessi Hallita data niin että se on turvassa Varmistaa että on olemassa toteuttamiskelpoisia keinoja saatavuuden turvaamiselle
Kauanko on kauan? n. 5000 eaa
Lopuksi Pitkäaikaissäilytys on sukupolvelta toiselle siirtyvä tehtävä, jonka kaltaista ei ole tainnut ennen tätä aikaa olla Kyse on ymmärtämisestä, kiinnostuksesta, riittävistä resursseista ja halusta osata ja oppia Onneksi tätä ei tarvitse eikä pidä tehdä yksin ongelma on sama kaikkialla maailmassa
Kiitos mielenkiinnosta! osmo.palonen@mamk.fi http://osarchive.wordpress.com http://www.mamk.fi/palvelut/digitointi-_ja_arkistointipalvelut