Sähköiset aineistot ja arvonmääritys rakenteelliset ja tekniset kriteerit Projektipäällikkö, Mikkelin ammattikorkeakoulu
Mikkeli muistin kotikaupunki http://www.narc.fi/arkistolaitos/maakunta/ http://www.elka.fi http://www.kansalliskirja sto.fi/kirjastoala/dimiko.h tml
Mikkelin ammattikorkeakoulu Maan monialaisin suomenkielinen ammattikorkeakoulu Toimii Mikkelissä, Pieksämäellä ja Savonlinnassa sekä Pietarissa ja Heinolassa 4500 opiskelijaa, 430 työntekijää opinnot aloittaa vuosittain 720 nuorta ja 400 aikuista valmistuneita vuosittain noin 800, joista noin 80 % työllistyy nopeasti 430 työntekijää, josta päätoimisia opettajia 200 liikevaihto lähes 40 milj. euroa, josta projektitoiminta 10 milj. euroa Rehtori Heikki Saastamoinen Kaksi tytäryhtiötä Mikpolis Oy sekä Disec Oy 3
Informaatio- ja mediatekniikka Informaatio- ja mediatekniikan laitos IT ja mediatekniikan koulutusohjelmia (210/240 op) Ylempi amk-tutkinto (90 op) http://www.mikkeliamk.fi/sahkoinen_ylempi Sähköisen arkistoinnin ja asiakirjahallinnan ja dokumenttienhallinnan koulutusta 2000 -> Opetuksen lisäksi merkittävä projektitoimija Tuottaa maksullista palvelutoimintaa arkistoille, yrityksille, kuntatoimijoille Sähköinen arkistointi ja aineistonhallinta -> 2005 Digitointipalvelut: video, elokuva, ääni, valokuvat 2006 -> 4
Tausta: suuri muutos Asiakirjoja ja dokumentteja* on tehty sähköisinä jo vuosikymmeniä Arkistointi on vasta muuttumassa sähköiseksi Sähköinen arkisto: suurin muutos sitten paperin keksimisen Nyt muuttuu myös arkistoinnin paradigma eli perusajatus: Saatavuus on ensisijainen tavoite Säilyttämisen oikeutus syntyy vain saatavuuden kautta Ongelma 1: Kuinka sähköinen aineisto kestää kuten paperi? Ongelma 2: Kuinka aineisto löydetään ja pidetään saatavilla? Tuloksena ongelma 3: Kuinka saada aineistoista vastaavat koulutettua ymmärtämään uudet vaatimukset? *= Käytän tässä esityksessä termiä dokumentti myös asiakirjasta, joskus on tehtävä toisin päin
Arvonmäärityksen lähtökohtia Arvonmääritys on arkistonmuodostajan omiin ja tutkimuksen tietotarpeisiin perustuva toiminto, joka määrittelee asiakirjojen säilytysajat, ks. seulonta (Lähde Arkistolaitos) http://reunamerkintoja.wordpress.com/category/arvonmaaritys/ Seulonta = niiden poistaminen, jolla ei katsota olevan arvoa Arvonmääritys pyritään tekemään AMS:ssa, jolloin eri tyyppisille asiakirjoille luodaan elinkaari eli määritellään säilytysajat, esim: Määräajan 2, 6, 10, 20 tai 100 vuotta Pysyvästi säilytettävät Teknisessä arvonmäärityksessä pyritään arvioimaan, miten asiakirjojen saavutettavuus/käytettävyys säilyy tai säilytetään
Arvonmääritys ja julkisuus Julkisuudella on merkityksensä - saman aineiston olomuotoja: rajoitetusti viranomaiskäytössä rajoitetusti tutkimuskäytössä julkinen aineisto Arkistot eivät halua pysyvästi salaisia passiiviaineistoja! Intimiteettisuojan ja aineiston saatavuuden ristiriita! kansakoulun johtokunnan v. 1948 jakamat kumisaappaat verotietojen julkisuus Rakenteisen dokumentin avulla voidaan piilottaa intimiteettisuojan vaatimat osat dokumentista. Ne näytettäisiin vain käyttäjän tunnistuksen perusteella
Tekninen arvonmääritys: lyhyt aika Lyhyt aika on se, jonka aikana dokumentin tuottamisen käytetty teknologia ja yhteinen merkitys on yhteisön käytettävissä käyttöjärjestelmä ja ohjelmisto merkistö ja fontit standardit ja vakiintuneet käytännöt kieli, teminologia Karkeasti arvioiden lyhyt aika on viisi vuotta, mutta se voi olla pidempi tai lyhyempi Ratkaisuna voi olla seuranta, mutta sen toteuttaminen työlästä kun liikkuvia osia on monta pitäisi olla keskitetty palvelu Ongelmaa sekä aliarvioidaan että yliarvioidaan
Tekninen arvonmääritys: pitkä aika Pitkä aika on kyseessä kun dokumentin tuottamisen käytetty teknologia on muuttunut niin, että aineiston esitysmuotoa joudutaan muuttamaan eli migroimaan sisällön käytettävyyden säilyttämiseksi Karkeasti arvioiden pitkä aika on yli viisi vuotta, mutta se voi olla pidempi tai lyhyempi Pitkän ajan aikana myös sisällön tai muodon merkityksiä voidaan joutua päivittämään Pitkä aika voi alkaa myös siitä että sähköisen aineiston tallennusalustoja joudutaan muuttamaan, esimerkiksi DVD-video Pitkän ajan säilytyksen vaatimukset on otettava huomioon kun dokumenttia luodaan
Aineistoja on erilaisia Ei-rakenteiset dokumentit, kuten suljetulla koodilla tuotetut officeym. -tiedostot Standardien tai vastaavien perustella tuotetut rakenteiset tiedostot Esim CDA R2, ODF Tuottajan omat rakenteiset dokumentit joiden mukana on niiden rakenteet Yleisesti käytettyä, julkaistua muotoa käyttävät dokumentit Esim. PDF v.1.6 (voi sisältää yhtä ja toista) TIFF kuva (bittikartta), johon ei voi tehdä hakuja Standardoitua muotoa käyttävät pysyvät dokumentit PDF/A, johon voi tehdä hakuja
Rakenteinen dokumentti ETUJA Rakenteisen dokumentin rakenteen oikeellisuus voidaan verifioida koneellisesti Rakenteisen dokumentin kenttien sisältöä voidaan verifioida Dokumentin muotoa voidaan muuttaa sisältöä muuttamatta Semanttinen eheys voidaan säilyttää Rakenteista dokumenttia voidaan (?) lukea merkkijonona HAITTOJA Asiakirjan säilyttäminen alkuperäisessä muodossa vaatii sekä sisällön että muotoa kuvaavan elementin Asiakirjan muuttaminen on helppoa
PDF/A PDF/A-1: ISO 19005-1. Document management - Electronic document file format for long-term preservation Tarkka ja pysyvä esitysmuoto dokumentista Kaksi alatyyppiä: PDF/A-1a alkujaan sähköisille aineistoille: rakenne ja sisällöt PDF/A-1b skannatuille aineistoille PDF/A-2 standardointi käynnissä Kehitetty USA:ssa AIIM:n johdolla Hyväksytty useimmiten myös kansalliseksi säilytysstandardiksi www.pdfa.org, http://www.aiim.org
Tietokantojen saatavuus Tietyn suljetun tietokantaohjelmiston ja version vaativat tietokannat, joiden kantarakennetta ei ole julkaistu Tietyn suljetun tietokantaohjelmiston ja version vaativat tietokannat, joiden rakenne ja koko dokumentointi on julkaistu Avoimen tietokantaohjelmiston käytössä on myös em. vaihtoehdot Normalisoitu arkisto tietokanta, jossa käytetään vain ISO standardin mukaisia sql-ominaisuuksia: Suomen ainoa arkistotietokanta Muumio-Musa, tuottaja Mamk, käyttäjät YLE ja Elka Tietokantojen arkistointityökaluja, kuten Sveitsin Kansallisarkiston SIARD (Software Independent Archiving of Relational Databases)
Mamk:n arkistoformaatteja Liikkuva kuva: Digitoidut paperidokumentit: MXF/mJPEG2000 AVI (MPEG-2, Pinnacle codec) 50 or 25 Mbit/s; Ääni: BWF (Broadcast wave) 48 khz 24 bit PCM. Testissä: FLAC (Free Lossless Audio Codec) Tietokannat: ISO SQL (1999) XML 1.0 >200 dpi colour or grayscale, TIFF (technical drawings), PDF 1.4 ->, PDF/A (ISO 19005-1a ja 1b) Alkujaan sähköiset aineistot: PDF 1.4 and up, PDF/A Valokuvat ja diat: >300 dpi/a4, TIFF 24 väri & harmaasävy, JPEG (high quality) Testissä: JPEG 2000 (lossless and lossy)
Aton-malli pitkäaikaissäilyttämisestä Aton-projektin pitkäaikaissäilytyksessä mallina Dark archive: Arkistoaineisto eristetään käytöstä ja jakelusta Säilyttää ja hallinnoi korkearesoluutioversioita dokumenteista Tarjoaa kopioita ja tuottaa uusia jakeluversioita Palvelukerros rakennetaan joustavaksi ja palvelu luotettavaksi: Palvelua tuotetaan useammasta kuin yhdestä paikasta Palvelun päätuotanto voi olla yhteinen, korkeatasoinen palveluntuottaja Paikallisesti voidaan rakentaa tarvittava kapasiteetti esim. digitointia ja prosessointia varten
Mitä siis kannattaa säilyttää? Teknis-taloudellisten periaatteiden mukaan: Ensisijaisesti aineistoa, jonka saatavuus voidaan turvata Aineistosta voidaan säilyttää myös natiiviformaatit Toissijaisesti aineistoa, jonka arvo on niin korkea, että siihen voidaan käyttää varoja tietotekniseen arkeologiaan Tutkimuksen kannalta: Kaikki aineisto, jota voidaan tarvita säilytettynä niin että sitä voidaan tarkastella kokonaan eri näkökulmista Arvonmäärityksen ongelma: Mistä me tiedämme, mistä käyttäjät ovat tulevaisuudessa kiinnostuneita vrt. esim mikrohistorian voittokulku
KIITOS! osmo.palonen@mamk.fi