Tietohallintopäällikkö Ari Apilo

Samankaltaiset tiedostot
Digitalia-projektin tekstinlouhinnan tuloksia. Kimmo Kettunen

Hyvät käytännöt ja pitkäaikaissäilytyksen huomioiminen digitoinnissa FT István Kecskeméti, sektorijohtaja, Kansallisarkisto

Tekstin digitointi Kansallisarkistossa

PDF-tiedostojen optimointi hakukoneille

Elisa Kirja. PDF e-kirjojen käsittelyohjeet

1. Skannaus ja tekstintunnistus (OCR) verkkoskannerilta

Kansalliskirjaston digitoitu historiallinen lehtiaineisto : sanatason laatu, kokoelmien käyttö ja laadun parantaminen

Massadigitoinnin kokonaisuus

Tutkijatapaaminen

T.E.H.D.A.S. Arkisto. Kokemuksia performanssitaiteen arkistoinnista. Juha Mehtäläinen

Suunniteltu. Suurille skannausvolyymeille Yritysasiakirjojen skannaukseen

MicroTieto. Oivallus palvelusta

Sharpdesk -asiakirjanhallintaratkaisu

Kempeleen kunta Rakennusvalvonnan paperiarkiston digitoinnin projektisuunnitelma

Sähköpostin arkistointi

Kansalliskirjaston palvelut digitoijalle

Näin toimii Digitalkoot. Digi.kansalliskirjasto.fi:n toiminnot Kansalliskirjasto / Digitointi- ja Konservointikeskus URN:NBN:fi-fe

Käyttäjän valikkokartta

Ääni%eiden digitoin, Kansalliskirjastossa

Digi.kansalliskirjasto.fi:n käyttöohje

ARKISTOLAITOKSEN SUOSITUS DIGITOINNIN LAATUKRITEEREIKSI:

Digiarkistosta palveluja kuluttajille Kari Kaikkonen Mediatalo ESA Oy

Digi.kansalliskirjasto.fi:n käyttöohje

Yhdistysten sähköisten asiakirjojen arkistointi Toimihenkilöarkistoon

Fiction searching from an enriched library web service

Microsoft Office 365 / SharePoint -pilvipalvelu

Digitointi yleisissä kirjastoissa - hanke. YKN Matti Sarmela

SKANNAUSVINKKEJÄ. Skannausasetukset:

Matematiikka ja teknologia, kevät 2011

Raportti Kansallisarkiston käyttäjäkyselystä koskien sähköisten tutkimuspalveluiden kehittämistä

Museokokoelmat sähköiseen muotoon - koulutusta digitoijille Valokuvat digitaalisiksi

ARVO - verkkomateriaalien arviointiin

Museoiden digitointiavustus

Amazon Web Services (AWS) on varmaankin maailman suosituin IaaS-tarjoaja. Lisäksi se tarjoaa erilaisia PaaS-kategoriaan kuuluvia palveluita.

Viasys VDC Stream Mallipohjaista projektinhallintaa. Tapani Parmanen ja Mia Rantakari Vianova Systems Finland Oy

Oma Android-tabletti tutuksi. Hiiden Opisto / Eija Terävä / 2017

Valtiopäiväasioiden hakutoiminnot Kristiina Hakala ja Sirkka-Liisa Korkeila Eduskunnan kirjasto

Käyttäjän valikkokartta

Lataa. Luvut 0-20 havainnollistetaan selkeissä A4-kokoisissa numerotauluissa. Numerotauluissa näkyy myös, miten numero kirjoitetaan kirjaimin.

Videoiden digitointi Nuorisoasiainkeskuksessa

Jälkidigitaalinen tiede tieteellisen tiedon saatavuuden muutos

Case YLE D-keskus. Digiwiki-työpaja Kiasmassa: Videoiden digitoinnin perusteet ja prosessit

Ajankohtaista peltolohkorekisterissä

ARKISTOLAITOKSEN VAATIMUKSET DIGITOIDULLE AINEISTOLLE

Itsepalvelukopiokone

Case Honeywell Oy. Suomen XII Liikearkistopäivät, , Tampere. Jarmo Luoma-aho, Antti Ropponen

Lataa Geometristen kappaleiden piirtäminen - Sympsionics Design. Lataa

Web Connect -opas. Versio A FIN

Suomalais-ugrilaisten aineistojen. digitoinnin pilottiprojekti ( )

Clever Frame GRAPHIC DESIGN - MANUAL Modular Sale Support Architecture

- esineet ja valokuvat -

Digitointi aloitetaan vuodesta 1860 alkaen. Kirjamuotoiset kirkonkirjat digitoidaan perhelehtiin asti.

Mikkeli - Arkistokaupunki

Liite 3 INDEKSOINTI. 1. Digitoitavat kirjatyypit

Pienet ja tehokkaat. kooltaan kompaktit asiakirjaskannerit. WIRELESS

Digitoidut aineistot ja kaukopalvelu. Harri Ahonen Suomen tieteellinen kirjastoseura Kokoelmatyöryhmä

Valtiopäiväasioiden ja -asiakirjojen hakupalvelut. Koulutuspäivä kirjastoille Kristiina Hakala Eduskunnan kirjasto

Arvoisa juhlayleisö, Mitä tämä voi olla käytännössä?

Sähköiset sisällöt yleisiin kirjastoihin - hanke Turku Aija Laine aija.laine@turku.fi

Digitoinnin työpaja 3a/4 Äänitteiden digitoinnin perusteita

Työpöytäskanneri asiakirjojen skannaukseen ADS

TIEDONHAKU INTERNETISTÄ

Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa. Kimmo Kettunen Dimiko (Digra-projekti)

Verkkojalanjälki Digitaalinen löydettävyys ja maineenhallinta

Dawsonera e-kirjaportaalin käyttöohje

Yleisimpiä kysymyksiä digitoinneista

Adobe Acrobat Edistynyt käyttö

Museoaineiston digitointi. Museovirasto, Tiedonhallintakeskus Vesa Hongisto

Helsingin kaupunginarkiston kokoelmat. Panu Haavisto

Museoaineiston digitointi

Käännösmuistin käyttö ruotsin kielen toimistossa. Kites Symposium 2016

KYMENLAAKSON AMMATTIKORKEAKOULU Tietotekniikan koulutusohjelma / Tietoverkkotekniikka

Web of ScienceTM Core Collection (1987-present)

Museaalisen kuvamateriaalin digitoinnin ulkoistaminen

Onko teillä vielä paperisia arkistoja?

Kansalliset digitaaliset kulttuuriaineistot Eduskunnan kirjastossa Annamari Törnwall

Nelli kaukopalvelutyössä

Sopimusten Verkkopankki

Elektronisen julkaisemisen uusia tuulia - sanomalehtiä ja aikakausjulkaisuja taannehtivasti verkossa AGRICOLA

Kansallinen digitaalinen kirjasto: tilannekatsaus

Kansallinen digitaalinen kirjasto: katsaus kokonaisuuteen

Tieteelliset lehdet ja takautuva digitointi. Digitointirahaa onko sitä? -seminaari Jyrki Ilva

Lataa Tottelevaisuuskoulutuksen Perusteet - Piritta P Rssinen. Lataa

Kansallinen digitaalinen kirjasto - toiminnan säädöspohja. Tekijänoikeusneuvos Viveca Still

KDK:n ajankohtaiset kuulumiset

Kansallinen digitaalinen kirjasto KDK Miten se palvelee?

Tarkennukset kuvatietokannan vaatimusmäärittelyssä erityismerkityksessä esiintyville termeille

Ruotsin oikeudelliset tiedonlähteet. Eduskunnan kirjaston avoin koulutus Johtava tietoasiantuntija Erika Bergström

Yleiset tiedot. paperiaineisto. AV-aineisto. valokuvat. digitoidut ja digitaalisena syntyneet aineistot

Tietorakenteet, laskuharjoitus 7, ratkaisuja

Ohjeita kirjan tekemiseen

Aviisi-projektin avaamat mahdollisuudet

TIEDONHANKINNAN PERUSTEET (1 op) harjoitus 1 (TaY Pori syksy 2014)

Metatieto mihin ja miten? Juha Hakala Helsingin yliopiston kirjasto

INSPIRE direktiivin toimeenpanon raportointi ja seuranta 2010

Asennus- ja käyttöopas. Android C-Penille

Liikearkistoyhdistys Teemapäivä Sharepoint ja arkistointi - missä mennään juuri nyt. Juha Anttila IITC

Tehoa digitointiin Luston luettelointi- ja digitointiprosessin kehittäminen

Kansalliskirjasto, tietoyhteiskunnan palvelukeskus. Kirjastoverkkopäivän avaus Kai Ekholm

Ensi askeleet semanttiseen webiin: tuotantoprojektin kokemuksia

Transkriptio:

Digitoitujen vpasiakirjojen palvelu Tietohallintopäällikkö Ari Apilo ari.apilo@eduskunta.fi 28.9.2018 http://avoindata.eduskunta.fi/digitoidut/

Vuosien 1907-2000 vp -asiakirjat Suomen yksikamarinen eduskunta on toiminut toukokuusta 1907 alkaen ja tuottanut laajan aineiston N. 1830 kpl nidettä sidottuja vp-asiakirjoja Keskimäärin 1000 s/kirja Yhteensä n. 1,9 miljoonaa digitoitavaa sivua

Digitoinnin lähtökohdat ja tavoitteet miksi? Eduskunnan verkkopalvelussa oli vp-asiakirjat vuodesta 2000 alkaen mutta vanhemmat puuttuivat Käsittelytietoja oli saatavilla digitaalisina vuodesta 1970 Erityisesti vuosien 1991-2000 asiakirjojen puuttuminen aiheutti voimakasta kritiikkiä Mm. Perustuslain esityöt puuttuivat palvelusta 1990-luvulla tehtiin merkittäviä lainsäädännöllisiä uudistuksia esim. EU-jäsenyys

Digitoinnin lähtökohdat ja tavoitteet miksi? Digitaalisten asiakirjojen käsittely on helpompaa kuin paksujen kirjojen Vanhoja vp-asiakirjoja tarvitaaan edelleen tutkimustarkoituksiin Painetun tekstin tunnistaminen mahdollistaa tekstihaut hakemistokirjojen käyttö on hidasta eikä aina tuo oikeita tuloksia Digitoitu aineisto voidaan arkistoida digitaalisesti Vain n. 40 täydellistä painettua asiakirjasarjaa jäljellä

Miten palvelun kehittäminen eteni? ensimmäiset tulokset eduskunnan verkkopalvelussa 26.6.2015: vuosien 1998-2000 hallituksen esitykset Tammikuussa 2016 lisättiin eduskunnan verkkopalveluun vuosien 1991-2000 digitoidut vp-asiakirjat (erillisinä asiakirjoina) 1980-luvun suomenkielisiä valtiopäiväasiakirjat julkaistiin eduskunnan verkkopalvelussa kesällä 2017 (erillisinä asiakirjoina) Marraskuussa 2017 saatiin kirjojen digitointi vietyä vuoteen 1907 asti n. 1800 kpl kirjoja, jossa keskimäärin vajaat 1000 sivua OCR-teksti mukana - taso vaihtelee Erillisen jakelupalvelun kehittäminen 2018 keväällä; pilotti avattiin syksyllä 2018

Laatuvaatimukset asiakirjojen tiedostostandardi pysyvään arkistointiin sopiva PDF/A-1b riittävä skannaustarkkuus, jotta asiakirjat on helppo tulostaa ja lukea 300 dpi mustavalkoskannaus tehokas mustavalkoinen skannaus, jotta tiedostot pystytään jakamaan tehokkaasti verkossa (n. 52 Kb/sivu) harmaasävy ja värikuvat: JPEG-formaatti häviöllisestä JPIG2-pakkauksesta luovuttiin, koska se saattaa aiheuttaa sisältövirheitä tekstintunnistuksen (ocr) laatu tulee olla riittävä hakuja ja tekstikopiointia varten asiakirjan nimi ja muut metatiedot ovat oikein esim. he_1+1999.pdf, pevm_20+2000.pdf jne asiakirjan otsikko (Title) on pitkä tunniste esim. Hallituksen esitys HE 1/1998 vp

Skannaustarkkuus -> painolaatu ja tekstisisältö näkyvät helposti: 300 dpi tarkkuus riittää!

Tekstintunnistus ja skannaustarkkuus Teksti kuvana Tunnistettu teksti (OCR) Vuoden 1918 tapausten oikeudellinen selvittely on jo miltei loppuun saatettu lainvastaisiin tekoihin osallistuneiden henkilöiden tuomitsemisen sekä monilukuisten armahdusten kautta. Kuitenkin on vielä vähäinen määrä Suomen ulkopuolella asuvia henkilöitä, jotka tuonaikaisten tekojensa vuoksi ovat. rangaistusuhkan alaisia. Näiden joukossa on sellaisia, joiden syyllisyyttä ei voida pitää raskaampana kuin monien jo armahduksen saaneiden. Kun jotkut heistä lisäksi myöhemmällä toiminnallaan maansa hyväksi ovat vilpittömästi pyrkineet sovittamaan tekonsa, Hallitus on katsonut olevan syytä lainsäädännönisin toimenpitein varata viimemainituilla mahdollisuus päästä kosketellusta rangaistusuhkasta vapaiksi. -> 3 virhettä 695 kirjaimessa = 0,43 % merkeistä on virheellisiä OCR tulos ei ole koskaan täydellinen mutta toivottavasti riittävä!

Tekstintunnistuksen virheiden merkitys palvelun käyttäjälle Oletettavaa, että 0,3-0,8 % tunnistetuista merkeistä poikkeaa alkuperäisestä painetusta tekstistä OCR tulos ei ole koskaan täydellinen Painolaatu huonoin 1920-1930 luvun aineistossa eniten virheitä Jotkut sanat ovat jakautuneet kahteen osaan tavutuksen vuoksi OCR ohjelma on pystynyt yhdistämään suurimman osan näistä sanoista joitain irrallisia tavuja voi silti olla Merkitys käyttäjälle: tekstihaun tulos ei ole täydellinen vaan suuntaa-antava Rinnalla kannattaa edelleen käyttää hakemistoja

Miten digitointi tehtiin? tuotantoprosessi: Kirja-aineiston valinta ja haku digitoitavaksi Esikäsittely: sidosten purkaminen leikkaamalla Digitointi kuvamuotoon skannaamalla (300 dpi, mustavalkoinen, Canon DR-G1100); sivujen kääntö pystyyn

Miten digitointi tehtiin? tuotantoprosessi: Kuva-aineiston ohjelmallinen korjaus mm. sivujen suoristus ja ohjelmallinen tekstintunnistus (OCR) (Adobe Acrobat X) Asiakirjoiksi jakaminen ja metatietojen lisääminen räätälöidyllä ohjelmalla Ohjelmallinen muuntaminen julkaistavaan muotoon (Adobe Acrobat X Preflight PDF/A-1b) Tallennus julkaisualustalle sekä indeksointi (SharePoint / AWS) Laadunvarmistus/validointi (ohjelmallinen ja manuaalinen) eri vaiheissa

Digitointiprosessi kaaviona Kirjojen leikkaus Digitointi (Canon DR- G1100), bw 300 dpi OCR ja optimointi Asiakirjojen jakaminen ohjelmallisesti PDF/A-1b konversio Asiakirjojen metatiedot (.dat tiedostot) Tallennus tietokantaan (SharePoint ja AWS)

Digitoidut valtiopäiväasiakirjat -jakelupalvelu Jakelupalvelun suunnittelu ja toteutus keväällä 2018; eteneminen iteroiden; pieni kehitystiimi Palvelun pilotti valmistui 5/2018; palvelu käyttöön 9/2018 Pilvipalvelu: tehty Amazon Web Servicen (AWS) -teknologian avulla Elastic Search-käytössä Eduskunnan kumppanina Gofore Oy

Digitoidut valtiopäiväasiakirjat -jakelupalvelu Palvelusta löytyvät suomen- ja ruotsinkieliset valtiopäiväasiakirjat vuosilta 1907-2000 Kaikki käsiteltyjen asioiden asiakirjat, täysistuntopöytäkirjat eli puheet sekä asiahakemistot Vapaatekstihaku ocr-tekstistä Haun rajaus vp-vuodella ja asiakirjatyypillä Tekstit tuodaan luettavaksi 100 sivun nippuina (tiedostokoko n. 5 MB) Latausmahdollisuus kirjoittain (digitaalinen kirjahylly) Kirjojen tiedostokoko 50-100 MB/kirja latausaika riippuu yhteyden nopeudesta Palvelua voi käyttää: http://avoindata.eduskunta.fi/digitoidut/ Toimii parhaimmin Google Chrome-selaimella