Kansalliskirjaston digitoitu historiallinen lehtiaineisto : sanatason laatu, kokoelmien käyttö ja laadun parantaminen

Samankaltaiset tiedostot
Digitalia-projektin tekstinlouhinnan tuloksia. Kimmo Kettunen

Historiallisten digitoitujen sanoma- ja aikakauslehtien avaaminen avoimena datana tutkijoille

Kansalliskirjaston digitoitu historiallinen lehtiaineisto : sanatason laatu, kokoelmien käyttö ja laadun parantaminen

Aviisi-projektin avaamat mahdollisuudet

Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa. Kimmo Kettunen Dimiko (Digra-projekti)

Kansalliskirjaston digitoitu historiallinen lehtiaineisto : sanatason laatu, kokoelmien käyttö ja laadun parantaminen

DIGITAALINEN TIETO HALTUUN RATKAISUJA DIGITAALISTEN AINEISTOJEN HALLINTAAN JA KÄYTTÖÖN

Keskeltä Laatokka lainehtii Kansalliskirjaston verkkoaineistot historiantutkimuksessa

digi.kansalliskirjasto.fi

Nautitaan e-aineistoista

digi.kansalliskirjasto.fi Kansalliskirjaston digitoitujen aineistojen uudistettu käyttöliittymä ja uudet toiminnot

Kirjastojen verkkoaineistoja opetukseen

Tietosuojaselvitys Aviisi-projektissa ja Kansalliskirjaston digitaaliset aineistot

Kirjastojen verkkoaineistoja opetukseen

RATKAISUJA DIGITAALISTEN AINEISTOJEN KÄYTETTÄVYYDEN PARANTAMISEEN

Tietohallintopäällikkö Ari Apilo

Digitoidut aineistot ja kaukopalvelu. Harri Ahonen Suomen tieteellinen kirjastoseura Kokoelmatyöryhmä

Näin toimii Digitalkoot. Digi.kansalliskirjasto.fi:n toiminnot Kansalliskirjasto / Digitointi- ja Konservointikeskus URN:NBN:fi-fe

Kansalliskirjaston digitaaliset aineistot ja data

Automaattinen semanttinen annotointi

Suomalais-ugrilaisten aineistojen. digitoinnin pilottiprojekti ( )

Kielipankki ja FIN-CLARIN

Kansalliskirjaston digitaaliset lehtiaineistot vuoteen 2010 asti tutkimus-ja opetuskäyttöön yliopistoille ja korkeakouluille.

CLT131: Tekstityökalut 2011, viides luento

Sanomalehtien Liiton keskustelutilaisuus Digiarkistoista liiketoimintaa. Taustaa. Mitä Kansalliskirjasto voi tarjota sanomalehdille?

E-aineistot haltuun , ja Jaana Märsynaho & Mira Jurvansuu

Raportti Kansallisarkiston käyttäjäkyselystä koskien sähköisten tutkimuspalveluiden kehittämistä

Ei ainoastaan kielitieteelle! Fenno-Ugrica kokoelma historiantutkimuksen tukena

Kustannusosakeyhtiö Otava 2

Ääni%eiden digitoin, Kansalliskirjastossa

Sähköiset lehdet ja lehtitietopankit tiedonlähteinä

Tekijänoikeudet digitointihankkeissa

Kielipankin analyysityökalut ja aineistot Työmarkkinatilanteen tutkiminen lehtiaineiston avulla

Videoiden digitointi Nuorisoasiainkeskuksessa

Kansalliset digitaaliset kulttuuriaineistot Eduskunnan kirjastossa Annamari Törnwall

JOKA Journalistinen kuva-arkisto

Kansallinen digitaalinen kirjasto -tilannekatsaus

Digi.kansalliskirjasto.fi:n käyttöohje

JOKAPÄIVÄINEN PAPERIMME

SUKUKIELTEN DIGITOINTIPROJEKTI JA KIRJALLISUUSPANKKI ESIMERKKEINÄ TUTKIJAYHTEISTYÖSTÄ

Elektronisen julkaisemisen uusia tuulia - sanomalehtiä ja aikakausjulkaisuja taannehtivasti verkossa AGRICOLA

KDK:n ajankohtaiset kuulumiset

Katsaus työryhmien toimintaan Kansalliskirjaston johtokunta

Painetun aineiston saatavuus Anna-Maria Soininvaara

10 yleistä hakukoneoptimointivirhettä

Julkaisuarkistojen käyttötilastot: Mitä tilastoidaan ja miksi?

Kirjastojen verkkoaineistoja opetukseen. Tekstejä, tietoja, kuvia, videoita. Ideoi, yhdistele ja hyödynnä vapaasti!

Kansallinen digitaalinen kirjasto KDK Miten se palvelee?

Pohjoismaat digitaalisessa uutismaisemassa

Vanhat sanomalehdet ja tekijänoikeus Satu Kangas

Kansalliskirjaston palvelut digitoijalle

Miten löydän Venäjää koskevaa tietoa? Johdatus monitieteiseen Venäjä-tutkimukseen (VEN301)

Uudet kuvailusäännöt ja tietokantojen 0-alueen konversio. Ulla Ikäheimo Arto-päivä, Helsinki

Finna käytön trendit 2014 Tiivistelmä

Pelastakaa sosiaalinen media markkinoinnilta!

Kansallisarkiston kysely analogisista aineistoista

PORVOOLAISTEN NUORTEN ÄÄNESTYSAKTIIVISUUSKYSELY

Yliopistojen julkaisujen avoimuus vuonna 2016

Mitä voin lainata Kielipankista?

E-kirjat sähköiset kirjat

Human Resource Development Project at the University of Namibia Library Elise Pirttiniemi, Projektipäällikkö

Julkisuusraportti. Suomen Kiinteistöliitto. Kesäkuu 2009

Mainosvuosi Mainosvuosi 2013

Arvoisa juhlayleisö, Mitä tämä voi olla käytännössä?

ISNI-järjestelmä. Sähköisten sisältöjen aamupäivä Maarit Huttunen. KANSALLISKIRJASTO - Tutkimuskirjasto

Kansalliset digitaaliset kirjastohankkeet ja digitointi

VALTAKUNNALLINEN KEHITTÄMISTEHTÄVÄ - VIESTINTÄ

Käyttäjän valikkokartta

Oy Observer Finland Ab tel: fax:

MichaelPlus. Hankkeen esittely Mikael Vakkari Suunnittelija MichaelPlus hanke

ARVO - verkkomateriaalien arviointiin Arvioitava kohde: Excel-Esitystapa, Arvioija: Juha Kuula, Arviointipäivämäärä:

Hintzellit Suomen lehdistöss. ssä sata vuotta sitten. Hintzellin sukukokous Holman kurssikeskus Klaukkala

9XX Suomalaiset kentät

Oy Observer Finland Ab tel: fax:

Kirjahistorian lähteet ja tutkimus 1

Julkisuusraportti. Suomen Kiinteistöliitto. Lokakuu 2008

Historiaa. Unix kirjoitettiin kokonaan uudestaan C-kielellä Unix jakautui myöhemmin System V ja BSDnimisiin. Kuutti, Rantala: Linux

Julkisuusraportti. Suomen Kiinteistöliitto. Toukokuu 2009

Vahvaa kasvua hyvällä kannattavuudella. Digia Oyj, osavuosikatsaus Q3/2015 Juha Varelius


SFS-ISO 2789:2013 Tieto ja dokumentointi Kirjastojen kansainvälinen tilastostandardi

Näin kohtaat onnistuneesti median

Digi.kansalliskirjasto.fi:n käyttöohje

Kielipankki ja FIN-CLARIN. Mietta Lennes Nykykielten laitos, Helsingin yliopisto

Julkisuusraportti. Suomen Kiinteistöliitto. Syyskuu 2009

Julkisuusraportti. Suomen Kiinteistöliitto. Elokuu 2009

Vuoden 2012 julkaisudata Juulissa

10 yleistä hakukoneoptimointivirhettä

Käsitteitä ja määritelmiä

TEEMME KYBERTURVASTA TOTTA

Julkisuusraportti. Suomen Kiinteistöliitto. Heinäkuu 2009

Ovatko kokoelmat etu vai taakka? Sähköisen maailman unia ja realismia. Kai Ekholm

Julkisuusraportti. Suomen Kiinteistöliitto. Joulukuu 2008

Liikevaihto ja liikevoitto selvässä kasvussa. Digia Oyj, osavuosikatsaus Q2/2015 Juha Varelius

NIMIARKISTO. SUKU 2017 Helinä Uusitalo

Kansallisarkiston kysely analogisista aineistoista

Julkisuusraportti. Suomen Kiinteistöliitto. Joulukuu 2007

KMT 2015: lukijamäärät ja kokonaistavoittavuudet

Aikuiskoulutuksen asiakirjat Ulla Angervo Opetushallitus. Opintopolku.fi

Transkriptio:

Kansalliskirjaston digitoitu historiallinen lehtiaineisto 1771 1910: sanatason laatu, kokoelmien käyttö ja laadun parantaminen Kimmo Kettunen, Kansalliskirjasto Tuula Pääkkönen, Kansalliskirjasto Mika Koistinen, Kansalliskirjasto Informaatiotutkimuksen päivät 2016 3.11.2016

Teemat Aineistot yleisesti Aineistojen käyttö ja käyttäjät Aineistojen laatu ja laadun parantaminen 2

Aineistot Erilaista vanhaa tekstiaineistoa on digitoitu usean vuosikymmenen ajan ja materiaalia on saatavilla eri kielillä huomattavia määriä. Digitoitujen vanhojen tekstien kokonaismäärien arvioiminen on vaikeaa, mutta muutaman esimerkin mainitseminen riittää kertomaan aineistojen laajuudesta: Europeana-projekti arvioi vuonna 2012, että digitoituja vanhoja sanomalehtiä oli Euroopan tasolla olemassa noin 24 000 nimikettä ja yli 128 miljoonaa sivua (Dunning, 2012). 3

Aineistot British Libraryn 1800-luvun lehtikokoelmassa 19th Century British Library Newspapers Database on noin 3 miljoonaa sivua ja 70 nimikettä. Gutenberg-projekti ilmoittaa, että heillä on saatavilla yli 50 000 digitoitua kirjaa. Yhdysvaltalaisella Hathitrustilla on digitoituna 14 558 573 nidosta, joissa on 5 095 500 550 sivua. Kansallisarkisto ilmoittaa digitoitujen aineistojensa määräksi vuoden 2016 keväällä 42 244 873. 4

Aineistot Kansalliskirjasto ilmoittaa verkkosivuillaan (digi.kansalliskirjasto.fi) digitoitujen sivujen kokonaismääräksi vuoden 2016 lokakuussa 10 442 560. Luku sisältää sanoma- ja aikauslehdet sekä pienpainatteet. Koko lehtiaineistosta vuodet 1771 1910 ovat vapaasti käytettävissä, ja niissä on yhteensä noin 3 miljoonaa sivua. Sanomalehtiä on 445 nimikettä, aikakauslehtiä 3141. 5

Suomea ja ruotsia pääasiassa 6

Suomenkielisen aineiston sanamääräinen jakautuminen ajallisesti 7

Aineistot Digi, kansalliskirjaston digitaaliset kokoelmat 8

Aineistot: Digi 9

Aineistot: Digi 10

Digin tilastoja 16 000 000 14 000 000 12 000 000 10 000 000 8 000 000 6 000 000 Digitoidut uudet sivut/vuosi Sivujen määrä Digissä/vuosi Sivulataukset/vuosi 4 000 000 2 000 000 0

Google-tilastot 1.1.2014-8.5.2015, top 10 maata

Käyttäjätilasto Suomen osalta

Hölttä, 2016: https://tampub.uta.fi/handle/10024/98714 Tutkinut Kansalliskirjaston ja Kansallisarkiston digitoitujen aineistojen käyttöä, kevät 2015, 112 vastaajaa 14

Hölttä, 2016 15

16 Hölttä, 2016

Aineiston laatu: tekstit Digitoitujen historiallisten aineistojen tunnettu ongelma ovat optisen merkintunnistuksen (OCR) tuomat virheet Ongelmat syntyvät monista lähteistä: alkuperäiset painetut aineistot ovat heikkolaatuisia, kuluneita jne. Käytetyt painofontit (erityisesti fraktuura) ovat hankalia tunnistettavia ohjelmille Tuloksena on enemmän ja vähemmän virheitä digitoiduissa aineistoissa. Pääsääntönä se, että vanhempi aineisto on vaikeampaa digitoitavaa Virheet heikentävät aineiston käytettävyyttä: hakukoneet toimivat heikommin, luettavuus hankalampaa, kaikenlainen jälkikäsittely hankaloituu Esimerkki: British Libraryn Century Newspaper Project: sanojen oikeellisuusaste n. 78 % (http://www.dlib.org/dlib/july09/munoz/07munoz.html)

Laatu Digin aineistojen skannaus on aloitettu 2000-luvun alkuvuosina OCR-ohjelmistojen laatu ei vielä paras mahdollinen Lehtien painolaatu ja kunto vaihtelevaa Kirjasinlaji fraktuura tuottaa ongelmia OCR:n lopputulos on kirjavaa Aamulehti 17.9. 1905 18

Virhe-esimerkkejä sanoista, jotka esiintyvät 100 kertaa (IFLA, 2014) 4 19

Kerran esiintyvien sanojen virhe-esimerkkejä 20

Joukkoistamalla korjattuja virheitä (n. 65 000 virhettä korjattu, eli noin 0,0001 %) Vaikeat Sana Digissä Hmltleii!!. CaMPMclla KeMluMona ptthdiltottua Ia11<ivi8t'in Korjaus Aamulehti. Tampereella Keskiviikkona puhdistettua Tallqvist'in Helpot: inyydään myydään Htuuwillalankoja Puuwillalankoja Wonaiä!!ä. Wenäjällä, 21

Digin sanomalehtiaineiston laatuarvio Suomenkielisessä osuudessa vuosilta 1771-1910 on n. 2.4 G sanoja Käytetty kahta nykykielen automaattista morfologista analysaattoria, FINTWOLia ja Omorfia; muita keinoja automatisoituun analyysiin ei oikeastaan ole Ohjelmat tunnistavat kohtuullisen hyvin 1800-luvun loppupuolen aineistoa Arviossa käytettyä prosessia voidaan käyttää laadun arviointiin sen jälkeen, jos sanakantaan tehdään korjauksia (uudelleen OCR:ääminen ja jälkikorjaaminen)

Tunnistus sanatyypeittäin ja juoksevina sanoina

Tarkennettu arvio tunnistetuista ja tunnistamattomista sanoista

Tunnistusohjelmien muut versiot 25

Tunnistus sana oikein Tunnistamattomuus sana väärin 26

Laadun parantaminen Mahdollisuuksia on kaksi: 1. uusi OCR-kierros 2. Jälkikorjaus On tehty työtä Tesseractin opettamisessa fraktuura-fonttiin on päästy hiukan paremmaksi, mutta ero pieni. Jälkikorjauksessa yhteistyötä FIN-CLARINin kanssa 8-9 prosenttiyksikön parannus saatu Lopputulos: Todennäköisesti päästään 80+ prosenttiin sanojen tunnistettavuudessa 27

Kiitos kärsivällisyydestä 28