Digitalia-projektin tekstinlouhinnan tuloksia. Kimmo Kettunen

Samankaltaiset tiedostot
Kansalliskirjaston digitoitu historiallinen lehtiaineisto : sanatason laatu, kokoelmien käyttö ja laadun parantaminen

Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa. Kimmo Kettunen Dimiko (Digra-projekti)

Historiallisten digitoitujen sanoma- ja aikakauslehtien avaaminen avoimena datana tutkijoille

Aviisi-projektin avaamat mahdollisuudet

DIGITAALINEN TIETO HALTUUN RATKAISUJA DIGITAALISTEN AINEISTOJEN HALLINTAAN JA KÄYTTÖÖN

Kirjastojen verkkoaineistoja opetukseen

Kirjastojen verkkoaineistoja opetukseen

Tietohallintopäällikkö Ari Apilo

Tietosuojaselvitys Aviisi-projektissa ja Kansalliskirjaston digitaaliset aineistot

Keskeltä Laatokka lainehtii Kansalliskirjaston verkkoaineistot historiantutkimuksessa

Kansalliskirjaston digitaaliset aineistot ja data

Sanomalehtien Liiton keskustelutilaisuus Digiarkistoista liiketoimintaa. Taustaa. Mitä Kansalliskirjasto voi tarjota sanomalehdille?

Näin toimii Digitalkoot. Digi.kansalliskirjasto.fi:n toiminnot Kansalliskirjasto / Digitointi- ja Konservointikeskus URN:NBN:fi-fe

Kansalliskirjaston digitoitu historiallinen lehtiaineisto : sanatason laatu, kokoelmien käyttö ja laadun parantaminen

RATKAISUJA DIGITAALISTEN AINEISTOJEN KÄYTETTÄVYYDEN PARANTAMISEEN

Digi.kansalliskirjasto.fi:n käyttöohje

digi.kansalliskirjasto.fi

Kirjastojen verkkoaineistoja opetukseen. Tekstejä, tietoja, kuvia, videoita. Ideoi, yhdistele ja hyödynnä vapaasti!

Kansalliskirjaston digitoitu historiallinen lehtiaineisto : sanatason laatu, kokoelmien käyttö ja laadun parantaminen

Nautitaan e-aineistoista

Raportti Kansallisarkiston käyttäjäkyselystä koskien sähköisten tutkimuspalveluiden kehittämistä

Helsingin kaupunki Pöytäkirja 1 (5) Tietokeskus 2/2015 Kaupunginarkisto Arkistotoimen päällikkö

Elektronisen julkaisemisen uusia tuulia - sanomalehtiä ja aikakausjulkaisuja taannehtivasti verkossa AGRICOLA

Tekijänoikeudet digitointihankkeissa

Yliopistojen julkaisujen avoimuus vuonna 2016

Digi.kansalliskirjasto.fi:n käyttöohje

digi.kansalliskirjasto.fi Kansalliskirjaston digitoitujen aineistojen uudistettu käyttöliittymä ja uudet toiminnot

Digitoidut aineistot ja kaukopalvelu. Harri Ahonen Suomen tieteellinen kirjastoseura Kokoelmatyöryhmä

Ei ainoastaan kielitieteelle! Fenno-Ugrica kokoelma historiantutkimuksen tukena

Kansalliskirjaston digitaaliset lehtiaineistot vuoteen 2010 asti tutkimus-ja opetuskäyttöön yliopistoille ja korkeakouluille.

MichaelPlus. Hankkeen esittely Mikael Vakkari Suunnittelija MichaelPlus hanke

Tieto matkaa maailmalle

Ääni%eiden digitoin, Kansalliskirjastossa

Suomalais-ugrilaisten aineistojen. digitoinnin pilottiprojekti ( )

Katsaus työryhmien toimintaan Kansalliskirjaston johtokunta

Automaattinen semanttinen annotointi

Kansalliskirjaston palvelut digitoijalle

Hintzellit Suomen lehdistöss. ssä sata vuotta sitten. Hintzellin sukukokous Holman kurssikeskus Klaukkala

SUKUKIELTEN DIGITOINTIPROJEKTI JA KIRJALLISUUSPANKKI ESIMERKKEINÄ TUTKIJAYHTEISTYÖSTÄ

JOKA Journalistinen kuva-arkisto

E-aineistot haltuun , ja Jaana Märsynaho & Mira Jurvansuu

Videoiden digitointi Nuorisoasiainkeskuksessa

Kansalliset digitaaliset kulttuuriaineistot Eduskunnan kirjastossa Annamari Törnwall

Finton jatko vuosina

Vaatimusmäärittely julkaisujen tuelle Theseuksessa

ARVO - verkkomateriaalien arviointiin Arvioitava kohde: Excel-Esitystapa, Arvioija: Juha Kuula, Arviointipäivämäärä:

Yhteenveto Kansalliskielistrategia-hankkeen kyselystä: Kuinka käytät kansalliskieliäsi?

NELLI & DOMS paikallisesti

Lähteisiin viittaaminen ja lähdekritiikki

CLT131: Tekstityökalut 2011, viides luento

NIMIARKISTO. SUKU 2017 Helinä Uusitalo

Sähköiset lehdet ja lehtitietopankit tiedonlähteinä

TIEDONHAKU INTERNETISTÄ

E-aineistot ja tiedonhaun neuvonta Slaavilaisen kirjaston kokemuksia

Pohjoismaat digitaalisessa uutismaisemassa

Yleiset tiedot. paperiaineisto. AV-aineisto. valokuvat. digitoidut ja digitaalisena syntyneet aineistot

Kielipankki ja FIN-CLARIN

RINNAKKAISTALLENNUSOHJE

Oikeuskirjallisuus Eduskunnan kirjastossa

UUSI ARKKITEHTUURI PAREMMAT PALVELUT. Järjestelmäarkkitehtuurihankkeet

Digitoinnin työpaja 3a/4 Äänitteiden digitoinnin perusteita

Painetun aineiston saatavuus Anna-Maria Soininvaara

Miten 333 organisaatiota voi kehittää yhtä yhteistä digitaalista palvelua ja vielä kuunnella kaikkien asiakkaita?

Kansalliskirjaston julkaisuarkistopalvelut. Jyrki Ilva Erikoiskirjastojen neuvosto,

Käsitteitä ja määritelmiä

10 yleistä hakukoneoptimointivirhettä

Kansallinen digitaalinen kirjasto -tilannekatsaus

Alternative access vaihtoehtoisia polkuja artikkeleiden luo

Ovatko kokoelmat etu vai taakka? Sähköisen maailman unia ja realismia. Kai Ekholm

ARTIKKELITIETOKANNAT JA OMANELLI PIRJO POHJOLAINEN

Vuoden 2012 julkaisudata Juulissa

Aineistojen paketoinnin pilotit PAS-seminaari 2013 Kuisma Lehtonen

KDK:n ajankohtaiset kuulumiset

Selvitys kirjastojärjestelmistä

Tieteelliset lehdet ja takautuva digitointi. Digitointirahaa onko sitä? -seminaari Jyrki Ilva

Museoviraston kuvakokoelmien digitointiprojekti Priorisointikysymyksiä eli arvovalintoja ja haja-ajatuksia

E-kirjat sähköiset kirjat

DOC p

Mainosvuosi Mainosvuosi 2013

Julkaisuportaali ja yliopistojen julkaisutiedot

Kirjasto- ja kulttuuripalvelut LAINAUS muutos muutos% Pääkirjasto ,3. Kirjastoauto ,5

Vastauksia palvelukyselyn palautteisiin

RUOTSINKIELINEN KOULUTUS Sivistysosasto Sivistyslautakunnan ruotsinkielinen jaosto Ulrika Lundberg

Kansalliset digitaaliset kirjastohankkeet ja digitointi

Yhdyssana suomen kielessä ja puheessa

Talonmiehen tuokio klo KANSALLISKIRJASTO

Kansallinen digitaalinen kirjasto KDK Miten se palvelee?

Arkistolaitos ja avoin tieto. Kohti avointa ja kestävää tietoa -seminaari Mikkelin ammattikorkeakoulu Tytti Voutilainen

Kauneimmat Joululaulut: Visuaalisen ilmeen ohjeisto

Kielellisen datan käsittely ja analyysi tutkimuksessa

Helsingin kaupunginarkiston kokoelmat. Panu Haavisto

Kirjastoinfo TY KTMT Porin tiedekirjasto

KOPIOINTILUPA YLIOPISTOILLE JA AMMATTIKORKEAKOULUILLE

Käyttäjän valikkokartta

Miten Finna muuttaa sisällönkuvailua vai muuttaako?

Painetun aineiston saatavuus Suomessa. Viikki Pentti Vattulainen

AAPELISSA KATTAVA PAINETTU KOKOELMA - LISENSOIDUN E- AINEISTON KÄYTTÖ VÄHÄISTÄ!

Tutkijatapaaminen

Julkaisutiedot läpinäkyviksi: julkaisuportaali. Tampereen teknillinen yliopisto, Jyrki Ilva

Transkriptio:

Digitalia-projektin tekstinlouhinnan tuloksia Kimmo Kettunen

Digitalia Digitalia on Kaakkois-Suomen ammattikorkeakoulun, Helsingin yliopiston ja Kansalliskirjaston yhteinen tutkimuskeskus, toiminut hankerahoituksella (EAKR) kesästä 2015 Nykyinen rahoituskausi päättyy 31.7.2017 Digitalia tutkii ja soveltaa erityisesti tiedonhallinnan ja -keruun menetelmiä ja työkaluja digitaalisen säilyttämisen menetelmiä ja välineitä.

Kansalliskirjasto Digitaliassa Kansalliskirjaston Digitointi- ja konservointikeskus on ollut mukana Digitaliassa. Henkilöitä vaihtelevasti 2-3 Päätehtävä on ollut työstää digitoitujen lehtien kokoelmaa digi.kansalliskirjasto.fi eri tavoin Tutkittu/kehitetty mm. seuraavia asioita lehtiaineistojen laatu ja sen parantaminen nimien eristäminen aineistosta artikkelien erottaminen digitoiduilta sivuilta

Digi.kansalliskirjasto.fi Kansalliskirjasto ilmoittaa verkkosivuillaan (digi.kansalliskirjasto.fi) digitoitujen sivujen kokonaismääräksi vuoden 2017 maaliskuussa 10 777 850. Luku sisältää sanoma- ja aikauslehdet sekä pienpainatteet. Koko lehtiaineistosta vuodet 1771 1920 ovat vapaasti käytettävissä, ja niissä on yhteensä noin 5 miljoonaa sivua. Sanomalehtiä on 521 nimikettä, aikakauslehtiä 3615.

Suomea ja ruotsia pääasiassa

Suomenkielisen aineiston sanamääräinen jakautuminen ajallisesti

Aineiston laatu: tekstit Digitoitujen historiallisten aineistojen tunnettu ongelma ovat optisen merkintunnistuksen (OCR) tuomat virheet Ongelmat syntyvät monista lähteistä: alkuperäiset painetut aineistot ovat heikkolaatuisia, kuluneita jne. Käytetyt painofontit (erityisesti fraktuura) ovat hankalia tunnistettavia ohjelmille Tuloksena on enemmän ja vähemmän virheitä digitoiduissa aineistoissa. Pääsääntönä se, että vanhempi aineisto on vaikeampaa digitoitavaa Virheet heikentävät aineiston käytettävyyttä: hakukoneet toimivat heikommin, luettavuus hankalampaa, kaikenlainen jälkikäsittely hankaloituu Esimerkki: British Libraryn Century Newspaper Project: sanojen oikeellisuusaste n. 78 % (http://www.dlib.org/dlib/july09/munoz/07munoz.html)

Laatu Digin aineistojen skannaus on aloitettu 2000-luvun alkuvuosina OCR-ohjelmistojen laatu ei vielä paras mahdollinen Lehtien painolaatu ja kunto vaihtelevaa Kirjasinlaji fraktuura tuottaa ongelmia OCR:n lopputulos on kirjavaa Aamulehti 17.9. 1905

Digin sanomalehtiaineiston laatuarvio Suomenkielisessä osuudessa vuosilta 1771-1910 on n. 2.4 G sanoja Käytetty kahta nykykielen automaattista morfologista analysaattoria, FINTWOLia ja Omorfia; muita keinoja automatisoituun analyysiin ei oikeastaan ole Ohjelmat tunnistavat kohtuullisen hyvin 1800-luvun loppupuolen aineistoa Arviossa käytettyä prosessia voidaan käyttää laadun arviointiin sen jälkeen, jos sanakantaan tehdään korjauksia (uudelleen OCR:ääminen ja jälkikorjaaminen)

Tunnistus sanatyypeittäin ja juoksevina sanoina

Tarkennettu arvio tunnistetuista ja tunnistamattomista sanoista

Tunnistusohjelmien muut versiot

Ruotsinkielisen aineiston tunnistus

Tunnistus sana oikein Tunnistamattomuus sana väärin

Laadun parantaminen Mahdollisuuksia on kaksi: 1. uusi OCR-kierros (Tesseract-ohjelmisto) 2. jälkikorjaus On tehty työtä Tesseractin opettamisessa fraktuura-fonttiin on saatu 7.21 prosenttiyksikön parannus 500 000 sanan koeaineistossa Jälkikorjauksessa yhteistyötä FIN-CLARINin kanssa 8-9 prosenttiyksikön parannus saatu Lopputulos: Todennäköisesti päästään 80+ prosenttiin sanojen tunnistettavuudessa yhdistämällä keinoja

Nimet Nimiä käytetään paljon tiedonhaussa hakusanoina. Yleisesti ottaen nimet ovat tärkeää informaatiota (henkilöt ja paikat - kuka? missä?). Nimiä voi käyttää hakemistojen rakentamisessa ja selauksen apuna. Noin 50-60 % henkilöistä ja paikoista tunnistetaan lehtien testiaineistosta ohjelmallisesti. Tarvittaisiin parempi tunnistus, sen jälkeen nimiä voitaisiin hyödyntää paremmin Tekeillä vanhemmalle kielelle soveltuva nimien tunnistin

Artikkelien eristäminen sivuilta Useita artikkeleita

Artikkelit erotettuna (PIVAJ)

Kiitos kärsivällisyydestä