Digitaaliseen säilytykseen hyväksyttävät tiedostoformaatit

Samankaltaiset tiedostot
Alkujaan digitaalisen aineiston siirtäminen Kansallisarkistoon

Heikki Helin Metatiedot ja tiedostomuodot

Alkujaan digitaalisen aineiston siirtäminen Kansallisarkistoon

Syntysähköisten. Markus Merenmies / Kansallisarkisto

Ohje - Kuntien ilmoitukset

Tekstinkäsittelystä. H4: Tekstinkäsittelyn perusharjoitus. Toimisto ohjelmista

SÄHKE-hanke. Tekninen mallintamisen Siirtotiedoston metatietokuvaukset

Digitaalisten aineistojen pitkäaikaissäilytys - Tiedostoformaattien standardointi

Tekstinkäsittelystä. Yleisiä tekstinkäsittelyn periaatteita OpenOffice.org Writer vs. MS Word. H4: Tekstinkäsittelyn perusharjoitus

SÄHKE2-Siirto-ohje. SÄHKE2 Siirto-ohje. v (23) Sovellusohje SÄHKE2-määräyksen mukaisen siirtotiedoston muodostamiseksi

Kokemuksia PDF/A:sta Arkistolaitoksen VAPApalvelussa

Sähköisen arkistoinnin reunaehdot

KDK/PAS: Mitä kuvien luetteloinnissa tulee ottaa huomioon pitkäaikaissäilytyksen näkökulmasta? Esityksen sisältö

Sandstone www-termienpoimintapalvelu

PAS-tilanne ja julkaistujen opinnäytteiden pitkäaikaissäilytykseen liittyvä prosessi ja edellytykset

VAPA Ohje aineistojen siirtämiseksi arkistolaitoksen VAPA-järjestelmään

Kansallisarkiston sähköisen säilyttämisen palvelut kuntien teknisen sektorin käyttöön. Markus Merenmies

Sähköinen säilyttäminen

AV-muotojen migraatiotyöpaja - video. KDK-pitkäaikaissäilytys seminaari / Juha Lehtonen

KDK: Finna ja pitkäaikaissäilytys

Kansallisarkiston päätökset opinnäytteiden pysyvästä säilyttämisestä

Palvelukuvaus v Alkujaan digitaalisen aineiston vastaanoton ja säilyttämisen palvelu

TEEMA 3 TEKSTIDATAN KÄSITTELY JA JULKAISEMINEN LUENTO 5 TEKSTINKÄSITTELY

Missä ollaan pitkäaikaissäilytyksen toteuttamisessa? KDK:n arkistosektorin yhteistyöverkoston seminaari Kimmo Koivunen CSC Tieteen

ODF-standardin käyttö julkishallinossa

Google-dokumentit. Opetusteknologiakeskus Mediamylly

DOORSin Spreadsheet export/import

Tutkimusdatan pitkäaikaissäilytys ATT-hankkeessa.

Vesa Ollikainen, päivitys Juha Haataja

LUENTO 2 TEKSTINKÄSITTELY

Kolme vuotta digitaalista pitkäaikaissäilytystä

Kolme vuotta digitaalista pitkäaikaissäilytystä

ARKISTOLAITOS. Asiakirjahallinnon keskeiset standardit. Pekka Henttonen ylitarkastaja.

Sähköiset sisällöt yleisiin kirjastoihin - hanke Turku Aija Laine aija.laine@turku.fi

THL:N NÄKÖKULMIA TUTKIMUSAINEISTOJEN SÄILYTTÄMISEEN

Vesa Ollikainen, päivitys Juha Haataja

1. Skannaus ja tekstintunnistus (OCR) verkkoskannerilta

Seudullinen johtoryhmä. Aika: klo 9-12 Paikka: Kokoushuone 321, virastotalo, Mikkeli

Digitointiprojektin käytäntö ja ongelmat. Esimerkkinä Porin taidemuseon digitointiprojekti 2014

Aineistojen paketoinnin pilotit PAS-seminaari 2013 Kuisma Lehtonen

Local Disk (C:)/Documents and Settings/OMATIETOKONEApplication Data/Adobe/Adobe PDF/Settings

Paikkatietojen tietotuotemäärittely

ATK-taitojen päivitys luento 1. Maaningan seurakunta Hannu Räisänen 2013

Siirtotiedoston tekninen koulutus

Lataa Pohjolan eläimet äänessä. Lataa

TIEDOSTOFORMAATIT. Lyhyt selostus erilaisista tiedostoformaateista

Office siirtymä

ARKISTOLAITOKSEN VAATIMUKSET DIGITOIDULLE AINEISTOLLE

Lataa Lääkkeiden sisältämät sokerit. Lataa

Ohje ulosoton sähköiselle hakijalle ulosottojärjestelmän aineistosiirtoihin

Kansallisarkisto. SÄHKE2-siirtotiedoston testauspalvelu

KYMENLAAKSON AMMATTIKORKEAKOULU Tietotekniikan koulutusohjelma / Ohjelmistotekniikka. Krista Nevalainen TOIMISTO-OHJELMAT LINUXISSA

Tiedostojen toimittaminen FINASiin 1(7)

Lataa Ympäristöministeriön toimintaohjelma luonnon monimuotoisuuden säilyttämiseksi. Lataa

Lataa. Luvut 0-20 havainnollistetaan selkeissä A4-kokoisissa numerotauluissa. Numerotauluissa näkyy myös, miten numero kirjoitetaan kirjaimin.

Elisa Kirja. PDF e-kirjojen käsittelyohjeet

Lataa Välinehuolto. Lataa

Lataa Kysymyksiä ja vastauksia elävästä luonnosta - Leena Aho. Lataa

Mitä tiedon pitkäaikaissäilytys tarkoittaa?

Sähköiset aineistot ja arvonmääritys rakenteelliset ja tekniset kriteerit. Projektipäällikkö Osmo Palonen, Mikkelin ammattikorkeakoulu

Paikkatietojen tietotuotemäärittely

740150P Valmiustaitoja biokemisteille (2 op)

PDF-tiedostojen teon pikaohje

rev 4. Tätä ohjetta noudatetaan laadittaessa ARK-, RAK- ja LVIS- piirustuksia Lappeenrannan kaupungille.

Tekstinkäsittely 1. Peruskäyttö. Tietotekniikan perusteet Metropolia Ammattikorkeakoulu Vesa Ollikainen

Asiointitilin lomakerajapinta. Kansalaisen asiointitili

Lataa Kaksi ratkaisua. Lataa

Lataa Minilegosarja. Lataa

Pitkäaikaissäilytyksen toteutuksen erityispiirteet. TTA:n pitkäaikaissäilytyksen keskustelutilaisuus Kimmo Koivunen

TIVIA GRAAFINEN OHJEISTO LOGO VÄRIT TYPOGRAFIA MUODOT

740150P Valmiustaitoja biokemisteille (2 op) Tuomo Glumoff Helmut Pospiech Jari Heikkinen Anne Mäkelä

Lataa Opiskelijat terveydenhuoltoalan tietoa etsimässä - Kaisa Rissanen. Lataa

Lataa Reaktio 1. Lataa. Lataa kirja ilmaiseksi suomalainen Reaktio 1 Lataa Luettu Kuunnella E-kirja Suomi epub, Pdf, ibook, Kindle, Txt, Doc, Mobi

Moodle opiskelijan opas. Verkko oppimisympäristön käyttö

Rekisteri- ja tietokanta-aineistojen siirtäminen Kansallisarkiston sähköisen säilyttämisen palveluun

Webforum. Version 17.2 uudet ominaisuudet. Päivitetty:

Lataa Hallituksen kestävän kehityksen ohjelma. Lataa

Lataa Kalat. Lataa. Lataa kirja ilmaiseksi suomalainen Kalat Lataa Luettu Kuunnella E-kirja Suomi epub, Pdf, ibook, Kindle, Txt, Doc, Mobi

Lataa Ympäristön tila Lapissa. Lataa

Valmiustaitoja biokemisteille

Lataa Aika & vuodenajat. Lataa

Lataa Yhtä paljon kaikille ei ole yhtä paljon kaikille. Lataa

Liite D: Poikkeamispäätösten ja suunnittelutarveratkaisujen mallinnus tiedonsiirtoa varten

Maakuntavalmisteluorganisaatioiden arkistojen käsittely

Lataa Lukion Dynamo 3. Lataa

Lataa Itsehoito. Lataa. Lataa kirja ilmaiseksi suomalainen Itsehoito Lataa Luettu Kuunnella E-kirja Suomi epub, Pdf, ibook, Kindle, Txt, Doc, Mobi

SÄHKE- ja Moreqvaikutukset. dokumenttienhallinnan järjestelmäkehitykseen. Juha Syrjälä, Affecto Finland Oy

Lataa Kehitysvammatutkimusta Lataa

Datanhallinnan oppaan esittely mitä ovat IDA, AVAA, KATA, PAS, REMS? Johanna Blomqvist, CSC - Tieteen tietotekniikan keskus

ARTIVA-seminaari

Lataa Päijänne-luontokeskuksen kehittäminen Lataa

Lataa Lääkekasvit. Lataa. Lataa kirja ilmaiseksi suomalainen Lääkekasvit Lataa Luettu Kuunnella E-kirja Suomi epub, Pdf, ibook, Kindle, Txt, Doc, Mobi

Videoiden digitointi Nuorisoasiainkeskuksessa

TTA, PAS ja julkishallinnon standardisointi

Case Honeywell Oy. Suomen XII Liikearkistopäivät, , Tampere. Jarmo Luoma-aho, Antti Ropponen

Lataa Helppo Biology - Miss Morina Marvi. Lataa

Lataa Kukkakasvit. Lataa. Lataa kirja ilmaiseksi suomalainen Kukkakasvit Lataa Luettu Kuunnella E-kirja Suomi epub, Pdf, ibook, Kindle, Txt, Doc, Mobi

Lataa Asiakkaana monikkoperhe. Lataa

Lataa Keski-Suomen alueellinen rakennetun ympäristön hoito-ohjelma. Lataa

Lataa Kuntoutumisen ennuste pitkäaikaisissa tuki- ja liikuntaelinsairauksissa - Auli Holstila. Lataa

Transkriptio:

Digitaaliseen säilytykseen hyväksyttävät tiedostoformaatit 1. Johdanto Alkujaan digitaaliset asiakirjat tulee ennen siirtoa Kansallisarkistoon muuntaa hyväksyttävään tiedostomuotoon. Tässä ohjeessa on esitettynä hyväksyttävät tiedostomuodot sekä toimintamalli niiden laadun varmistamiseksi. Hyväksyttävät tiedostomuodot on tässä ryhmitelty säilytys- sekä siirtokelpoisiin. Lähtökohtaisena tavoitteena on, että aineisto on säilytyskelpoisessa muodossa. Siirtokelpoiset tiedostoformaatit hyväksytään ehdollisesti siinä tapauksessa, että säilytyskelpoista muotoa kyseisestä aineistosta ei ole olemassa. Siirtokelpoiset muunnetaan säilytyksen aloittamisen yhteydessä säilytyskelpoiseen muotoon. Säilytyskelpoisiksi hyväksytään sellaiset tiedostomuodot, joissa tietosisällön säilyminen ja ymmärrettävyys voidaan taata pidemmällä aikavälillä. Tässä ohjeessa rajaudutaan yksinomaan käsittelemään alkujaan digitaalisten tekstimuotoisten dokumenttien tiedostomuotoja. Rekisterimuotoista aineistoa, digitoitua sekä AV-aineistoja käsitellään erillisissä ohjeissa. 2. Yleiset vaatimukset formaateille Tiedostoja EI SAA salata. Salaaminen estää aineistojen säilyttämisen sekä myöhemmän käytön. Tiedostoja EI SAA pakata. Tiedostosta EI SAA puuttua sen esittämiseen ja hyödyntämiseen liittyviä osia, kuten esimerkiksi fontit Asiakirjatiedoston nimen tulee olla enintään 255 merkkiä pitkä ja tiedostojen nimissä ei saa olla US-ASCII-merkistön ulkopuolisia merkkejä, kuten skandinaavisia kirjaimia. Säilyttämistoimien aikana alkuperäinen tiedostonimi voidaan mahdollisesti muuttaa. Tämän vuoksi tiedostonimeen ei ole suositeltavaa koodata asiakirjan sisältöön liittyviä metatietoja. Kuten esim. hakemukset_1994-1996.pdf. Aineistoon liittyvät metatiedot tulee aina esittää Sähkemetatietojen avulla. 3. Formaatin esittäminen Sähke-metatiedoissa Tiedostoja koskevien metatietojen avulla esitetään tiedostomuoto ja tiedostojen nimeen sekä sijaintiin siirtopaketissa. Lisäksi esitetään teknisen eheyden varmistava eheystarkenne. Tiedoston yksilöivä OID-tunnus (Document.NativeId) voidaan muodostaa liittämällä asiakirjan OID-tunnuksen perään pisteellä eroteltu juokseva numero. Tiedostopolku siirtopaketissa ilmaistaan suhteessa XML-siirtotiedoston sijaintiin. Siirtotiedosto sijaitsee siirtopaketin juuritasolla, jolloin polut viittaavat tiedostorakenteessa syvemmällä oleviin tiedostoihin. Huom! absoluuttista osoitusta (kuten c:\materiaalit\siirto\aineistot\123\abc) ei saa käyttää Tiedoston formaatti ja formaatin versio ilmoitetaan kohdassa Document.Format.Name ja Document.Format.Version. Tiedoston hajautussumma ja siihen käytetty algoritmi ilmaistaan kohdissa Document.HashAlgorithm ja Document.HashValue. Sallitut hajautusalgoritmit ovat:

Algoritmi MD5 SHA-1 SHA-256 Ilmaisutapa tiedostossa md5 sha1 sha256 Tiedostoja salaamista ei suositella, ja siitä täytyy erikseen sopia. Jos sopimus sallii salattujen tiedostojen siirron, käytetty salausmenetelmä ilmaistaan solmussa Document.Encryption. Muussa tapauksessa solmu saa arvon "Ei salattu". <s2:document> <s2:nativeid>urn:oid:1.2.246.10.210.1.11.2009.89.1</s2:nativeid> <s2:usetype>arkisto</s2:usetype> <s2:file> <s2:name>r0900089.pdf</s2:name> <s2:path>2008245/pdf/r0900089.pdf</s2:path> </s2:file> <s2:format> <s2:name>application/pdf </s2:name> <s2:version>a-2b</s2:version> </s2:format> <s2:hashalgorithm>sha1</s2:hashalgorithm> <s2:hashvalue>pc4lump5l6drl4guytx2y82jng</s2:hashvalue> <s2:encryption>ei salattu</s2:encryption> </s2:document SÄHKE2 mahdollistaa sen, että samasta asiakirjasta voidaan siirtää jopa kolme eri tiedostomuotoa, mikä esitetään Sähke-elementin UseType avulla. Pitkäaikaiseen säilytykseen hyväksyttyjen säilytysmuotojen lisäksi on mahdollista siirtää asiakirjat myös alkuperäisessä muodossa (DOC, DOCX, ODF jne.). Tämä edellyttää sitä, että myös pitkäaikaissäilytysmuoto siirretään. pakollinen arkistomuoto pitkäaikaissäilytystä varten, usetype=arkisto natiivimuoto, jossa tiedosto on luotu, usetype=natiivi näyttömuoto, jossa on huomioitu verkkojakeun tarpeet, usetype= Julkaisu 4. Säilytyskelpoisen muodon tuottaminen Aineistoa siirtävän toimijan tulee tuottaa siirto- tai säilytyskelpoinen muoto tiedostosta viimeistään siirtopaketin muodostamisen vaiheessa. On suositeltavaa muodostaa säilytykseen kelpaava muoto mahdollisimman aikaisin, kuten esimerkiksi siinä vaiheessa kun asiakirja merkitään valmiiksi ja lukitaan muutoksilta.

5. Asiakirja-aineistotyypit ja hyväksytyt tiedostomuodot 5.1. Muotoilematon teksti Tekstitiedosto sisältää pelkkää tekstiä ilman muotoiluja tai muita ulkoasumäärityksiä. Tekstitiedoston sisältämien merkkien valikoiman määrittelee merkistö, josta on olemassa useita eri versioita esimerkiksi maakohtaisiin tarpeisiin. Suomessa on käytetty yleisesti merkistöjä ISO 8859-15 ja unicode UTF-8-koodattuna. Tekstitiedosto merkistöllä ISO 8859-15; PRONOM: x-fmt/111 Tekstitiedosto merkistöllä UNICODE (UTF-8, UTF-16 tai UTF-32); PRONOM: x-fmt/111 text/plain Sallitut merkistöt: ISO-8859-15, UTF-8, UTF-16 ja UTF-32. 5.2. Sähköiset julkaisut (EPUB) 5.3. Asiakirjat EPUB on laitteisto- ja ohjelmistoriippumaton tallennusmuoto elektronisille julkaisuille, joka on standardoitu International Digital Publishing Forumin (IDPF) toimesta. Standardissa julkaisun sisällön rakenne paketoidaan säiliöön ja tekstin muotoilu sekä ulkoasu muodostetaan lukulaitteessa. Tiedostomuoto on ns. rakenteinen nippuformaatti. EPUB versio 2.0.1: PRONOM: fmt/483 EPUB versio 3.0.0: PRONOM: fmt/483 EPUB versio 3.0.1: PRONOM: fmt/483 Sanasto PREMIS formatname semanttisessa rakenneyksikössä: application/epub+zip 5.3.1. Open Document Format (ODF) ODF on OASIS:n kehittämä avoin tiedostomuoto, jonka avulla voidaan esittää toimistoohjelmistoilla tuotettuja aineistoja kuten taulukkolaskenta-, kaavio-, esitys- ja tekstinkäsittelydokumentteja. ODF 1.0-tiedostomuoto on standardoitu ISO-standardina ISO/IEC 26300:2006 ja versio 1.2 ISO-standardina ISO/IEC 26300:2015. Teknisesti Open document on ZIP-pakattu arkisto eli ns. yksinkertainen nippuformaatti, joka sisältää useita tiedostoja ja hakemistoja. Dokumentin sisältö, esitystyyli, metatieto ja asetukset on eroteltu omiksi XML-tiedostoikseen. Yleisimmät ODF-standardia noudattavat tiedostotyypit ovat mm.:.odt, tekstinkäsittely.ods, taulukkolaskenta.odp, esitys.odg, piirto.odf, kaava.odt versio 1.0; PRONOM: fmt/136

.odt versio 1.1; PRONOM: fmt/290.odt versio 1.2; PRONOM: fmt/291.ods versio 1.0; PRONOM: fmt/137.ods versio 1.1; PRONOM: fmt/294.ods versio 1.2;; PRONOM: fmt/295.odp versio 1.0; PRONOM: fmt/138.odp versio 1.1; PRONOM: fmt/292.odp versio 1.2;; PRONOM: fmt/293.odg versio 1.0; PRONOM: fmt/139.odg versio 1.1; PRONOM: fmt/296.odg versio 1.2; PRONOM: fmt/297.odf versio 1.0;.odf versio 1.2; application/vnd.oasis.opendocument.text application/vnd.oasis.opendocument.spreadsheet application/vnd.oasis.opendocument.presentation application/vnd.oasis.opendocument.graphics application/vnd.oasis.opendocument.formula 5.4. PDF for long-term preservation: PDF-Archive (PDF/A) Tekstimuotoisen dokumentin esittämiseen tarkoitettu PDF/A on PDF-tiedostomuodon versio, joka soveltuu pitkäaikaiseen säilyttämiseen. PDF/A-tiedosto sisältää kaikki tarvittavat tiedot visuaalisen ulkoasun säilyttämiseksi. PDF/A-tiedostosta on riisuttu ne ominaisuudet, joita ei voida luotettavasti säilyttää, kuten muun muassa skriptit, äänet, elävä kuva, salaus sekä hyperlinkit dokumentin ulkopuolelle. Suosittellaan versioita PDF/A-1a ja PDF/A-1b, jotka ovat standardoitu ISO-standardina ISO 19005:2005 sekä versioita PDF/A-2a, PDF/A-2b ja PDF/A-2u, jotka ovat standardoitu ISO-standardina ISO 19005-2:2011, ja versioita PDF/A-3a, PDF/A-3b ja PDF/A-3u, jotka ovat standardoitu ISO-standardina ISO 195005-3:2012. PDF/A-3 standardien osalta tulee huomioida, että standardi mahdollistaa sellaisten tietoaineistojen kapseloinnin PDF-kuoreen, joiden migrointi ei ole suoraan tuettua PDF:n osalta. Sen vuoksi tulee varmistua, ettei PDF-tiedostot sisällä suoritettavaa ohjelmakoodia tai vastaavaa. PDF/A-1a; PRONOM: fmt/95 PDF/A-1b; PRONOM: fmt/354 PDF/A-2a; PRONOM: fmt/476 PDF/A-2b; PRONOM: fmt/477 PDF/A-2u; PRONOM: fmt/478 PDF/A-3a; PRONOM: fmt/479 PDF/A-3b; PRONOM: fmt/480 PDF/A-3u; PRONOM: fmt/481 application/pdf

6. Siirtokelpoiset 6.1. Microsoft Office Suite Microsoft Office Suite on laajasti käytössä oleva kaupallinen ohjelmisto, jonka avulla voidaan esittää toimisto-ohjelmistoilla tuotettuja aineistoja kuten taulukkolaskenta-, kaavio-, esitys- ja tekstinkäsittelydokumentteja. Microsoft Office Suite -ohjelmiston uudemmat versiot tukevat Office Open XML -muotoja (Transitional ja Strict), jotka on ISO-standardoitu (ISO 29500-1:2012). Microsoft Office Suite -ohjelmistosta (versiosta 97 ylöspäin) siirtokelpoisia tiedostomuotoja ovat: Word Document, tekstinkäsittely Excel Spreadsheet, taulukkolaskenta Powerpoint, esitys Microsoft Word 97 (8.0); PRONOM: fmt/40 Microsoft Word 98 (8.5); PRONOM: fmt/40 Microsoft Word 2000 (9.0); PRONOM: fmt/40 Microsoft Word 2002 (10.0); PRONOM: fmt/40 Microsoft Word 2003 (11.0); PRONOM: fmt/40 Microsoft Word 2007 (12.0); PRONOM: fmt/412 Microsoft Word 2010 (14.0); PRONOM: fmt/412 Microsoft Word 2013 (15.0); PRONOM: fmt/412 Microsoft Excel 97 (8.0); PRONOM: fmt/61 Microsoft Excel 99 (9.0); PRONOM: fmt/62 Microsoft Excel 2001 (10.0); PRONOM: fmt/62 Microsoft Excel 2003 (11.0); PRONOM: fmt/62 Microsoft Excel 2007 (12.0); PRONOM: fmt/214 Microsoft Excel 2010 (14.0); PRONOM: fmt/214 Microsoft Excel 2013 (15.0); PRONOM: fmt/214 Microsoft Powerpoint 1997 (8.0); PRONOM: fmt/126 Microsoft Powerpoint 1999 (9.0); PRONOM: fmt/126 Microsoft Powerpoint 2001 (10.0); PRONOM: fmt/126 Microsoft Powerpoint 2003 (11.0); PRONOM: fmt/126 Microsoft Powerpoint 2007 (12.0); PRONOM: fmt/215 Microsoft Powerpoint 2010 (14.0); PRONOM: fmt/215 Microsoft Powerpoint 2013 (15.0); PRONOM: fmt/215 application/msword application/vnd.ms-excel application/vnd.ms-powerpoint application/vnd.openxmlformats-officedocument.wordprocessingml.document application/vnd.openxmlformats-officedocument.spreadsheetml.sheet application/vnd.openxmlformats-officedocument.presentationml.presentation

6.2. Portable Document Format (PDF) PDF on Adoben kehittämä tekstimuotoisen dokumentin esittämiseen tarkoitettu alustariippumaton ja avoin tiedostomuoto. Alkuperäisen dokumentin taitto, kirjasintyylit, grafiikka ja värit siirtyvät muuttumattomana PDF-tiedoston mukana. PDF 1.7 on standardoitu ISO-standardina ISO 32000-1:2008. PDF 1.2; PRONOM: fmt/16 PDF 1.3; PRONOM: fmt/17 PDF 1.4; PRONOM: fmt/18 PDF 1.5; PRONOM: fmt/19 PDF 1.6; PRONOM: fmt/20 PDF 1.7; PRONOM: fmt/276 application/pdf