Arkistolaitos REKISTERI- JA TIETOKANTA-AINEISTOJEN SIIRTÄMINEN VAPA-PALVELUUN Ohje v. 1.0 (16.10.2012) Kansallisarkisto Rauhankatu 17 PL 258, 00171 Helsinki Puh. Tel. (09) 228 521 arkisto@narc.fi Riksarkivet Fredsgatan 17 PB 258, 00171 Helsingfors Fax (09) 176 302 http://www.arkisto.fi
16.10.2012 2 (8) Sisällysluettelo YLEISTÄ 3 Taustaa 3 Ohjeen tarkoitus 3 1. AINEISTON SIIRRETTÄVYYDEN ARVIOINTI 4 1.1. Edellytykset aineiston vastaanottamiseksi arkistolaitokseen 4 1.2. Aineiston tekninen siirrettävyys 4 1.3. Arviointi 4 2. SEULONTAPÄÄTÖKSEN HAKEMINEN 5 3. SIIRRETTÄVÄN AINEISTON KÄYTÖN SELVITTÄMINEN 5 4. AINEISTON SIIRTÄMINEN REKISTERISTÄ TAI TIETOKANNASTA 7 4.1. Tavoite ja toimintaperiaate 7 4.2. Mahdollisia ratkaisumalleja 7 5. AINEISTON KUVAILUTIETOJEN ESITTÄMINEN SÄHKE2- RAKENTEESSA 8 5.1. SÄHKE-metatiedot 8 5.2. Aineiston dokumentaatio 8 6. AINEISTON SIIRTÄMINEN JA VAPA-PALVELU 8
16.10.2012 3 (8) YLEISTÄ Taustaa Julkishallinnon organisaatioilla on yhä kasvava määrä erilaisia sähköisessä muodossa olevia rekistereitä ja tietokantoja, jotka sisältävät pysyvästi säilytettävää informaatiota. Monen sähköisen rekisterin tai tietokannan juuret ulottuvat useamman kymmenen vuoden taakse. Rekisteri- ja tietokantatietojen tulostaminen paperille arkistointia varten on paitsi kustannuksiltaan kallista, myös tietojen käytettävyyttä ajatellen epäkäytännöllistä. Rekisteri- ja tietokantatietojen siirto arkistolaitokseen turvaa näiden pysyvästi säilytettävien, ja myöhemmän tutkimuksen kannalta keskeisten tietojen pitkäaikainen säilyminen yksinomaan sähköisessä muodossa. Viranomainen voi näin siirtää vastuun aineiston säilymisestä arkistolaitokselle. Rekisteri- ja tietokantatietoja siirtänyt organisaatio säilyy siirretyn aineiston omistajana ja vastaa siten aineiston käytöstä ja siihen liittyvästä tietopalvelusta. Ohjeen tarkoitus Tässä ohjeessa kuvataan menetelmä, jota hyödyntämällä viranomaisten hallussa olevien rekisterien- ja tietokantojen tietosisältöjä voidaan muuntaa säilytyskelpoiseen muotoon, siirtää arkistolaitoksen sähköisen säilyttämisen VAPA-palveluun ja säilyttää pysyvästi yksinomaan sähköisessä muodossa. Ohjetta voidaan soveltaa rekistereistä tai tietokannoista siirrettävään aineistoon. Rekisterillä tarkoitetaan yksikkötasoista aineistoa sisältävää tietovarantoa. Rekisteri on yleensä jatkuvasti päivittyvä. Tietokannalla tarkoitetaan määrämuotoista tietojen kokoelmaa, joilla on yhteys toisiinsa. Tietokanta voi olla kertaalleen tuotettu tai tilastointitarkoituksessa ylläpidettävä. Rekisteri sijaitsee usein tietokannassa, toisaalta yksi tietokanta voi sisältää useita rekistereitä. Siirrettävällä aineistolla tarkoitetaan rekisterin tai tietokannan tietosisällöstä (datasta) muodostettavaa kokonaisuutta, joka siirretään yhdessä tai useammassa vaiheessa arkistolaitoksen VAPA-palveluun. Tässä ohjeessa kuvatun menetelmän avulla siirrettävä aineisto tuotetaan sellaiseen muotoon, että sen hyödyntäminen ja tulkinta on mahdollista ilman alkuperäistä tietojärjestelmää. Lisäksi tässä ohjeessa kuvataan, miten siirrettävä aineisto kuvaillaan SÄHKE-normin mukaisesti. Menetelmää voidaan soveltaa niihin aineistoihin, joiden muodostumisessa ei ole huomioitu SÄHKE-normien vaatimuksia, jotka liittyvät aineiston muodostamiseen, käsittelyyn ja hallintaan. Menetelmää voidaan soveltaa niin käytössä oleviin rekistereihin ja tietokantoihin kuin vanhempiin, käytöstä poistuneiden rekistereiden ja tietokantojen tietojen siirtämiseen. Menetelmä edellyttää kuitenkin pääsääntöisesti sitä, että rekisteriä tai tietokantaa ylläpitävä järjestelmä on edelleen käytettävissä. Tässä ohjeessa ei kuvata pelkkää aineistojen teknistä siirtoa, vaan laajemmin koko aineistojen siirron prosessi. Siihen kuuluvat aineiston valmistelu siirrettävään muotoon, aineiston kuvaaminen SÄHKE2-rakenteessa ja aineiston pysyvästä säilytyksestä ja säilytysmuodosta päättäminen.
16.10.2012 4 (8) Ohje on tarkoitettu niin rekisterinpidosta vastaaville organisaatioille, asiakirjahallinnon asiantuntijoille kuin teknisille asiantuntijoille. Ohjetta täydentävät teknisemmät ohjeet, niihin kuuluvat tekniset esimerkit sekä lomakkeet. Tätä ohjetta täydentävät lisäksi VAPA-palvelun yleiskuvaus sekä siirto-ohje. www.arkisto.fi/vapa 1. AINEISTON SIIRRETTÄVYYDEN ARVIOINTI 1.1. Edellytykset aineiston vastaanottamiseksi arkistolaitokseen Arkistolaitoksen VAPA-palveluun siirrettävän aineiston tulee täyttää kaikki seuraavat ehdot: Aineiston tulee olla pysyvästi säilytettävää Valtionhallinnon organisaation tulee omistaa aineisto Aineisto ei saa olla asiankäsittelyn tai siihen rinnastettavan prosessin tuloksena syntynyt: siirtämisen edellytyksenä on tällöin aina SÄHKE2- normien vaatimusten täyttäminen. Rekisteri- tai tietokanta-aineiston osalta organisaation ei tarvitse hakea arkistolaitokselta sähköisen säilyttämisen lupaa, jotta aineisto voidaan siirtää VAPA-palveluun ja säilyttää pysyvästi yksinomaan sähköisessä muodossa, vaan aineiston siirron edellytyksenä on arkistolaitoksen päätös tietojen pysyvästä säilytyksestä ja säilytysmuodosta. Mikäli rekisterin tai tietokannan tietoja päivitetään edelleen aktiivisesti ja tietosisältö muuttuu tai täydentyy, on aineiston siirtäminen arkistolaitoksen mahdollista joko siten, että aineisto siirretään tietyn hetken tilannekohtaisena otoksena tai siten, että aineistosta siirretään se osa, johon muutokset eivät enää kohdennu (esim. edellisten vuosien tiedot). 1.2. Aineiston tekninen siirrettävyys Aineistosta tulee saada tuotettua järjestelmäriippumattomaan muoto. Rekisteriin siirrettävästä aineistosta tulee kyetä tuottamaan tässä ohjeessa kuvattujen kriteerien mukaisia siirtorakenteita ja tiedostoja, jotta aineiston hyödyntäminen on mahdollista ilman alkuperäistä järjestelmää tai sovellusta. Lisäksi tarvitaan aineiston tulevan käytön tueksi erillistä dokumentaatiota liittyen informaation tulkintaan, tietorakenteisiin tai muihin sellaisiin kysymyksiin, joiden avulla tuleva tietopalvelu voidaan varmistaa. 1.3. Arviointi Jotta aineiston siirrettävyys voidaan arvioida, edellyttää se riittäviä tietoja kyseessä olevasta aineistosta. Viranomaisen tulee täyttää Siirrettävän aineiston tiedot -lomake (ks. myös lomakkeen täyttöohje) ja toimittaa se arkistolaitokselle. Lomakkeella ilmoitettujen tietojen perusteella arkistolaitos voi alustavasti arvioida onko rekisterin tai tietokannan sisältämä data mahdollista muuntaa sellaiseen muotoon, että se on siirrettävissä arkistolaitoksen VAPA-palveluun (ks. 4 Aineiston siirtäminen rekisteristä tai tietokannasta ).
16.10.2012 5 (8) Tarvittaessa arkistolaitos voi pyytää organisaatiolta myös lisätietoja lomakkeen tietoihin tai käydä yhdessä organisaation kanssa läpi aineistoon liittyviä kysymyksiä. Vasta kun aineiston siirrettävyys on alustavasti arvioitu, voidaan siirtojen suunnittelussa edetä. 2. SEULONTAPÄÄTÖKSEN HAKEMINEN Arkistolaitos määrää arkistolain (831/1994) 8 :n nojalla lain piiriin kuuluvien organisaatioiden asiakirjatietojen pysyvästä säilytyksestä ja säilytysmuodosta (seulontapäätös). Aineiston omistava organisaatio hakee arkistolaitokselta siirrettävää aineistoa koskevan seulontapäätöksen, kun se toimittaa Siirrettävän aineiston tiedot -lomakkeen arkistolaitokseen. Lomaketta käytetään siis seulontaesityksenä ja sen täyttöohjeessa on tarkemmin eritelty seulontapäätöksen käsittelyn kannalta keskeiset tiedot. Yksittäisen rekisterin tai tietokannan aineistoja koskeva seulontaesitys tulee tehdä ensisijassa mainittua lomaketta käyttäen. Jos siirrettävästä aineistosta on olemassa arkistolaitoksen antama ajantasainen päätös pysyvästä säilytyksestä, tai pysyvästä säilytyksestä on säädetty lailla tai asetuksella, haetaan arkistolaitokselta vain siirrettävän aineiston pysyvää säilytysmuotoa koskevaa päätöstä. Arkistolaitoksen seulontapäätös on edellytyksenä VAPA-siirtosopimuksen laatimiselle, joten lomake (seulontaesitys) tulee lähettää arkistolaitokseen hyvissä ajoin ennen aineistojen aiottua siirtämistä. 3. SIIRRETTÄVÄN AINEISTON KÄYTÖN SELVITTÄMINEN Aineiston käytettävyyttä tulee arvioida seuraavista näkökulmista: a) kyetäänkö VAPA-palveluun siirrettyä aineistoa käyttämään organisaatioin tehtävien hoidossa, b) voidaanko siirretystä aineisto tuottaa tietopalvelu ja c) miten siirretyn aineiston tutkimuskäyttö voidaan järjestää. Käytettävyyden arviointiin liittyy näiden lisäksi myös arviointi tietomassojen käsittelyn volyymistä ja kyvystä yksilöidä tietomassasta yksittäisiä tietoalkioita tai osajoukkoja. Kun organisaatio on siirtänyt aineiston VAPA-palveluun, voi se poistaa siirretyn aineiston omasta järjestelmästään ja järjestää aineiston käytön yksinomaan VAPApalvelusta. Organisaatio voi myös säilyttää aineiston edelleen omassa tietojärjestelmässään, mikäli tähän nähdään erityinen tarve aineiston käytettävyyden vuoksi. Siirron jälkeen alkuperäinen aineisto on VAPA-palvelussa ja organisaation järjestelmiin mahdollisesti jäävät tiedot katsotaan kopioiksi. Organisaation tulee varmistaa, että sen omat tietopalveluvelvoitteet toteutuvat myös siinä tapauksessa, että aineisto sijaitsee ainoastaan VAPA-palvelussa. Oheisessa taulukossa on kuvattu erilaisia skenaarioita siitä, millaisia käyttötarpeita aineistolla voi olla ja miten voidaan toimia:
16.10.2012 6 (8) 1. Rekisterin tai tietokannan tietoja päivitetään edelleen aktiivisesti ja sen tietosisältö muuttuu / täydentyy. Aineistosta siirretään tietyn hetken tilanne otoksena arkistolaitokseen. Tilannekohtaisia otoksia poimitaan säännöllisesti niin pitkään kuin rekisterin tai tietokannan tietosisältö päivittyy. Siirrettyä aineistoa käytetään organisaation järjestelmässä niin pitkään kun se on käytössä TAI Aineistosta siirretään se osa, johon muutokset eivät enää kohdennu (esim. edellisien vuosien tiedot). Siirrettyä aineistoa voidaan käyttää VAPApalvelusta tai organisaation omasta järjestelmästä. 2. Aineisto on organisaatiossa yhä aktiivisessa käytössä: tietoja etsitään ja käytetään säännöllisesti omien tehtävien hoidossa tai rekisteriä käytetään esim. hakemistona. Siirretty aineisto on toistaiseksi hyvä jättää myös organisaation tietojärjestelmään aineiston suuren käyttötarpeen vuoksi. 3. Organisaatio käyttää aineistoa satunnaisesti omien tehtäviensä hoidossa. Siirretty aineisto voidaan poistaa organisaation tietojärjestelmästä, mutta organisaation tulee arvioida VAPA-palveluun siirretyn aineiston käytettävyyttä suhteessa aineiston käyttötarpeeseen. 4. Organisaatio ei itse käytä aineistoa enää lainkaan omien tehtäviensä hoidossa. Aineistolla on enää tutkimuksellista käyttöä. Siirretty aineisto voidaan säilyttää yksinomaan VAPA-palvelussa ja noutaa sieltä aina tarvittaessa käytettäväksi. Aineiston käyttö VAPA-palvelusta on kuvattu VAPA-yleiskuvauksessa. Siirretty aineisto on saatavissa VAPA-palvelusta käyttöön aina siinä muodossa, kuin organisaatio on sen palveluun siirtänyt. Rekisteri- ja tietokantatietojen kohdalla huomionarvoista on, että VAPA-palvelu ei tarjoa työkaluja aineiston koostamiseen tai analysointiin. Aineiston nouto VAPApalvelusta tapahtuu rajapintojen kautta.
16.10.2012 7 (8) 4. AINEISTON SIIRTÄMINEN REKISTERISTÄ TAI TIETOKANNASTA 4.1. Tavoite ja toimintaperiaate Aineiston tallennusrakenteen määrittely tapahtuu yhteistyössä arkistolaitoksen kanssa. Tallennusrakenteen määrittelyssä huomioidaan mahdollinen otantaperiaate sekä informaation rakenteen monimuotoisuus. Lisäksi tallennusrakenteeseen vaikuttaa se, onko säilytettävä aineisto valmiiksi prosessoidussa muodossa vai onko tallennusrakenne operatiivisen käytön mukaisessa rakenteessa. Prosessoiduksi aineisto tulkitaan siinä tapauksessa, että se on muokattu alkuperäisessä järjestelmässä ja sisältää näin määrätyn prosessin lopputuloksen kuten esimerkiksi luettelon, jossa on henkilöittäin maksetut etuudet. Operatiivinen rakenne tarkoittaa tässä alkuperäistä tietorakennetta. Säilytettävä aineisto voi olla esitettävissä yhden tai useamman tiedostotaulun avulla. Siinä tapauksessa, että tiedostotauluja on useita, voidaan joutua tuottamaan erillinen rakennetiedosto, jossa on esitetty tiedostotaulujen väliset suhteet sekä tiedostotaulujen sisäinen rakenne. Lisädokumentaation tarpeista ja sisällöstä sovitaan yksityiskohtaisesti arkistolaitoksen edustajien kanssa. 4.2. Mahdollisia ratkaisumalleja Informaatio on tietokannoissa yleensä tallennusrakenteessa, joka on riippuvainen sekä käytetystä tietokannan hallintajärjestelmästä että tarjotun sovelluksen toimintalogiikasta sekä sisäisestä tietomallista. Pitkäaikaissäilytyksen turvaamiseksi informaatio tulee konvertoida näistä riippumattomaan muotoon, joka on tulkittavissa käyttäen hyväksi oheisdokumentaatiota. Tieto voidaan konvertoida joko XML-rakenteiseksi tai tätä yksinkertaisemmaksi CSV-muodoksi niissä tapauksissa, joissa informaatio muodostaa sellaisen rekisterin, joka muodostuu yhdestä taulusta ja jonka jokainen rivi edustaa yksittäistä informaatioalkiota.. Ratkaisumallin valinnassa tulee ottaa huomioon, että aineistoa on vaivatonta käyttää. XML-konversion etu on se, että datan kuvailu ja data muodostavat kiinteän kokonaisuuden. Haittapuolena on, että suurten suurissa tietomassoissa tiedostokoko kasvaa suureksi. Kun tietomassojen määrä kasvaa, voidaan hyödyntää tiedon esittämistä ilman XML-rakenteita käyttäen CSV-muotoa, jossa informaatio on tekstimuotoisina riveinä ja elementtejä erottamaan käytetään erotinmerkkiä, kuten esim. pilkkua.. CSV:n käyttö edellyttää kuitenkin aina huolellista dokumentointia, jotta informaatio kyetään tulkitsemaan oikein. Niissä tapauksissa, joissa säilytettävä informaatio on jakautuneena useaan toisiinsa liittyvään osakokonaisuuteen, on myöhemmän käytön turvaamiseksi nämä suhteet dokumentoitava. Monimutkaisten suhteiden kuvaaminen edellyttää yksityiskohtaista dokumentointia, jonka tarve ja kattavuus sovitaan arkistolaitoksen kanssa. Ratkaisuna rakenteiden kuvaamiseen on aineiston mukana toimitettava rakennetaulu, joka täydentää SÄHKE2-metatietoja. Se kuvaa määrämuotoisella notaatiolla yksittäisten aineistotiedostojen (CSV tai XML) sisäisen rakenteen sekä tiedostojen väliset suhteet. Jotta tietokannan informaatio olisi helppokäyttöistä, voidaan aineiston mukana toimittaa XSLT-tyylitiedosto. Sen avulla aineistosta voidaan tuottaa käyttäjäystävällinen tuloste.
16.10.2012 8 (8) 5. AINEISTON KUVAILUTIETOJEN ESITTÄMINEN SÄHKE2-RAKENTEESSA 5.1. SÄHKE-metatiedot Aineiston siirtäminen arkistolaitoksen VAPA-palveluun edellyttää kaikille aineistoille yhdenmukaiset kuvailutiedot sisältävää SÄHKE2-siirtorakennetta. Se liittää siirrettävän aineiston VAPA-palvelussa osaksi arkistokokonaisuutta ja tukee aineiston myöhempää käyttöä. Tämän vuoksi siirtäjän tulee tuottaa SÄHKE2-normissa kuvattu metatietorakenne, jolla tietoaineisto liitetään kontekstiinsa: aineisto liitetään organisaation tehtäväluokitukseen ja ryhmitellään loogisiksi osakokonaisuuksiksi. Vaadittuja SÄHKE2-metatietoja ei lisätä tietokannan tai rekisterin tietosisältöön, vaan siirrettävä aineisto kuvaillaan SÄHKE2-metatiedoilla siirron yhteydessä. Erillisessä ohjeessa kuvataan miten tietokannan tai rekisterin sisältämistä tiedoista tuotetut datatiedostot kuvaillaan ja liitetään SÄHKE2-normin mukaiseen rakenteeseen. 5.2. Aineiston dokumentaatio Jotta aineiston käyttävyys voidaan varmistaa, tulee siirrettävään aineistokokonaisuuteen aina liittää myös riittävä dokumentaatio. Tietokannan tai rekisterin syntykonteksti, sen käyttötarkoitu ja tietosisällön muodostuminen on kyettävä kuvaamaan kattavasti. Dokumentaation tulee sisältää kuvaus siirrettävän aineiston koko elinkaaresta. Dokumentaation tulee sisältää vähintään seuraavat tiedot: yleiskuvaus (esim. tietojärjestelmäseloste, rekisteriseloste) tietorakenteet (tietomalli, relaatiomalli, tietokantataulut, koodistot, taulujen tiedot sekä niiden kuvaukset) ohjeet sekä dokumentit, jotka liittyvät tiedon yhdistämiseksi loogisiksi kokonaisuuksiksi. kuvaus aineiston muodostumisprosessista ja siitä, mikä on tietojen alkuperä (mistä ne saadaan tai miten ne on kerätty) tietokannan tai rekisterin muutoshistoria 6. AINEISTON SIIRTÄMINEN JA VAPA-PALVELU Siirrettävä aineisto tulee muodostaa SÄHKE2-normin mukaiseksi siirtokokonaisuudeksi ja siirtää arkistolaitoksen VAPA-palveluun siirto-ohjeessa kuvatulla tavalla. Siirtävän organisaation ja arkistolaitoksen tulee tehdä VAPA-palvelun käytöstä siirtoja säilytyssopimus ennen varsinaisten tuotantosiirtojen aloittamista. Siirtosopimus on aina organisaatio- ja tietojärjestelmäkohtainen ja se tehdään viideksi vuodeksi kerrallaan. Ks. VAPA-siirtosopimuspohja. Ennen varsinaisia tuotantosiirtoja tulee aineiston siirrettävyys ja aineiston oikea rakenne varmistaa siirtotestauksella, joka tehdään lähtökohtaisesti siirtävän tietojärjestelmän testiympäristöstä VAPAn testiympäristöön. Lisätietoja: www.arkisto.fi/vapa