Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa. Kimmo Kettunen Dimiko (Digra-projekti)

Samankaltaiset tiedostot
Digitalia-projektin tekstinlouhinnan tuloksia. Kimmo Kettunen

Historiallisten digitoitujen sanoma- ja aikakauslehtien avaaminen avoimena datana tutkijoille

Kansalliskirjaston digitoitu historiallinen lehtiaineisto : sanatason laatu, kokoelmien käyttö ja laadun parantaminen


TIEDONHAKU INTERNETISTÄ

Digiarkistosta palveluja kuluttajille Kari Kaikkonen Mediatalo ESA Oy

Aviisi-projektin avaamat mahdollisuudet

Porin tiedekirjasto ja TTY:n verkkoaineistot

Porin tiedekirjasto ja TTY:n verkkoaineistot

Tiedonhaku. Esim. kymenlaakso muutosjohtami* Laila Hirvisaari Tuntematon sotilas Ruksi tyhjentää hakukentän.

Aineistojen käsittely ja jalostaminen

NELLI Kansallinen tiedonhakujärjestelmä

KANSALLINEN DIGITAALINEN KIRJASTO Asiakasliittymä

Ovid Medline käyttöohjeita (10/2010)

Kansallinen digitaalinen kirjasto -tilannekatsaus

Työpalvelupaikat. Xwiki Admin 2016/07/06 16:35

UUSI ARKKITEHTUURI PAREMMAT PALVELUT. Järjestelmäarkkitehtuurihankkeet

Raportti Kansallisarkiston käyttäjäkyselystä koskien sähköisten tutkimuspalveluiden kehittämistä

RT tuotetieto. Ota hyöty irti tuotetiedon digitalisaatiosta! RT tuotetiedon ja RT urakoitsijan tuotetiedon lanseeraustilaisuus

Automaattinen semanttinen annotointi

PubMed lääketieteellinen kokoteksti- ja viitetietokanta

Sanomalehtien Liiton keskustelutilaisuus Digiarkistoista liiketoimintaa. Taustaa. Mitä Kansalliskirjasto voi tarjota sanomalehdille?

HAKURATKAISUN ANATOMIA - KURKISTUS PELLIN ALLE

Tiedonlähteille NELLIn kautta -

Uutisjärjestelmä. Vaatimusmäärittely. Web-palvelujen kehittäminen. Versio 1.3

Suomi.fi-verkkopalvelu

Aleksi ja ARTO artikkeliviitetietokannat

Ajankohtaista peltolohkorekisterissä

Juulin kehittäminen: tilannekatsaus

Sivuston tiedotle-vintage.fr

Tiedonhaku ja varaaminen

Näin toimii Digitalkoot. Digi.kansalliskirjasto.fi:n toiminnot Kansalliskirjasto / Digitointi- ja Konservointikeskus URN:NBN:fi-fe

Tietosuojaselvitys Aviisi-projektissa ja Kansalliskirjaston digitaaliset aineistot

Kirjautumisosoite: wilma.tuusula.fi

Edistyksen päivät, Helsinki. Voiko tutkija muuttaa maailmaa? Humanistista meta-analyysiä merkitysneuvottelevien koneiden avulla.

TEKSTI JA TYPOGRAFIA LEHDESSÄ. Johdanto Arja Karhumaa

Bryk & Wirkkala -katseluvarasto. Henna Paunu Intendentti, kokoelmat EMMA Espoon modernin taiteen museo

Luonnontuotteiden (mustikka, kuusenkerkkä) kestävä keruu

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

Ohje: Miten haen artikkeleita Aleksista

Avainsanojen poimiminen Eeva Ahonen

Hankeviestijä hakukoneiden ihmeellisessä maailmassa. Joonas Jukkara, SEOSEON Ltd.

Liite 2: Hankinnan kohteen kuvaus

Nelli Tiedonhakuportaali Kemi-Tornion ammattikorkeakoulun elektronisiin aineistoihin. Onnistuneita hetkiä Nellin parissa!

ProQuest Dissertations & Thesis: The Humanities and Social Sciences Collection

Tiedonhaku Nelli-portaalissa

Suomen Arkeologinen Seura ry. Arkeologi(a) ja media. Mikä on muinaisjäännös?

Nelli kaukopalvelutyössä

ejuttu ohjeet kuinka sitä käytetään.

Jälkidigitaalinen tiede tieteellisen tiedon saatavuuden muutos

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

Tekstinkäsittelyn jatko KSAO Liiketalous 1. Osanvaihto näkyy näytöllä vaakasuorana kaksoispisteviivarivinä ja keskellä riviä lukee osanvaihdon tyyppi

NELLI & DOMS paikallisesti

Tutkijatapaaminen

Collect.Store. Share. with

Lappeenrannan tiedekirjasto Nelli-tiedonhakuportaalin käyttöopas

YKSA(2) ( Käyttäjän ohje

Työvälineohjelmistot KSAO Liiketalous 1

Digi.kansalliskirjasto.fi:n käyttöohje


Hintzellit Suomen lehdistöss. ssä sata vuotta sitten. Hintzellin sukukokous Holman kurssikeskus Klaukkala

Ilmiöprojektin tiedonhankinta

digi.kansalliskirjasto.fi Kansalliskirjaston digitoitujen aineistojen uudistettu käyttöliittymä ja uudet toiminnot

DOC p

Käytettävyyslaatumallin rakentaminen verkkosivustolle

NELLI, MIHI OLET MENOS? Triangelipäivät Turku Ari Rouvari. Digitaalisten kirjastopalveluiden arkkitehtuuri

SYMBIANIN SERIES 60 JA PUHELIMEN PERUSTOIMINNOT

Kansallinen digitaalinen kirjasto -tilannekatsaus. Digiajasta ikuisuuteen -seminaari Minna Karvonen

Julkaisuarkistojen käyttötilastot: Mitä tilastoidaan ja miksi?

Kansalliset digitaaliset kulttuuriaineistot Eduskunnan kirjastossa Annamari Törnwall

Kirjastoverkkopäivät 2017 Erkki Tolonen

Google-sivustohaku Google-sivustohaku organisaatiollesi

Finna ja ontologiat tms.

RINNAKKAISTALLENNUSOHJE

Käyttötapauksen nimi Lukija: pääsivu Osallistujat Lukija Tuloehdot Käyttäjä on avannut sivuston pääsivun Kuvaus Ruudulle tulostuvat kirjoittajat ja

Tiedostonhallinta. Yleistä

Tärkeimmät toiminnot. Kertausta ja uusia toimintoja Wordistä sekä tiedostonhallinnasta. Tärkeimmät toiminnot jatkuu...

KOKEMUKSIA KOKOELMAKARTASTA. International Seminar on Collection Mapping Harri Ahonen Kansalliskirjasto/Kokoelmapalvelut

Korkeakoulujen kansallinen julkaisuportaali. OKM:n bibliometriikkaseminaari, Jyrki Ilva

Sivuston tiedotskillers.tech

LUONNOS Valtioneuvoston periaatepäätös asiakirjallisen aineiston digitoinnista ja arkistoinnista vain sähköisenä

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

TIEDONHANKINNAN PERUSTEET (1 op) harjoitus 2 (TaY Pori syksy 2014)

Digi.kansalliskirjasto.fi:n käyttöohje

Tekijänoikeudet digitointihankkeissa

Koulumaailman tehtäväpaketti. alakoululaisille

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Sivuston tiedotemreemir.com

MICROSOFT PUBLISHER 2010

Tietohallintopäällikkö Ari Apilo

KDK:n ajankohtaiset kuulumiset

JOHDANTO: NELLI KANSALLINEN TIEDONHAKUPORTAALI

Antti-Jussi Nygård. OJS-palvelun kehittämishankkeen eteneminen & välähdyksiä tulevasta

Hakukoneoptimointi. DigiReWork hanke Hamk.fi/digirework. Digityöpaja, Outi Mertamo.

DENACODE NUDDIS Käsikirja huoltajalle

MOBISITE-TYÖKALUN SISÄLTÄMÄT TOIMINNOT

Tuo$eiste$ujen palveluiden myyn3 ja markkinoin3

Iltalehti Kauppalehti Aamulehti Lapin Kansa Satakunnan Kansa Kainuun Sanomat Pohjolan Sanomat

CIRI Ontologiaperustainen tiedonhakuliittymä

Julkaisujen, aktiviteettien ja uutisten tietojen tallennus LaCRISjärjestelmään

Transkriptio:

Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa Kimmo Kettunen Dimiko (Digra-projekti)

Tekstinlouhinta Tekstinlouhinnassa pyritään saamaan tekstimassoista automaattisesti esiin niiden sisältämää informaatiota Apuna käytetään yleensä tilastollisia ohjelmia, jotka etsivät tekstimassoista toistuvia hahmoja tai malleja Esimerkkejä: tekstin eristäminen ja luokittelu, tekstien klusterointi, käsitteiden/nimien eristäminen, dokumenttien tiivistelmien tuottaminen jne. Viime kädessä on kyse aineiston jalostamisesta ja helpommasta pääsystä kiinni aineistoon

Digin sanomalehdet Vuosien 1771-1910 sanomalehtiaineistossa on noin 1.95 M sivua aineistoa (= useita kymmeniä miljoonia artikkeleita) Aineistoa voi hakea tällä hetkellä hakusanoilla ja tuloksena saadaan digitoitu lehden sivu, jolla hakusanan osumat on korostettu Ensimmäinen järkevä tekstinlouhinnan askel on alkaa tunnistaa artikkeleita digitoiduilta sivuilta automaattisesti à artikkelien eristäminen/erottaminen à indeksointi (haettavuus ja käytettävyys paranevat) Työtä on tehty alustavasti Digra-projektissa (Srikrishna Raamadhurai)

Nykytilanne 1.95 miljoonaa sivukuvamöykkyä

Artikkelien eristäminen

Artikkelien eristäminen mahdollinen lopputulos

Artikkelien eristäminen Kehitetty menetelmä perustuu koneoppimiseen: ohjelma oppii malliaineistoista artikkelien ominaisuuksia ja osaa sen jälkeen erotella artikkeleita lehdestä Kukin lehti tarvitsee oman opetusaineistonsa, koska lehtien layout vaihtelee (myös lehden sisällä eri vuosikymmeninä/vuosina on muutoksia) Artikkelien eristäminen sisältää myös artikkelin osien luokittelun (otsikko, kuvateksti, kirjoittaja, ilmoitus, teksti jne.) Eristämisen jälkeen artikkelit voi indeksoida ja näyttää Digin käyttöliittymässä

Artikkelien eristäminen Toimivan artikkelien eristämisen etuja, esimerkkejä: Haut voisi käyttöliittymässä kohdistaa tarkemmin (esimerkiksi ilmoitukset) Käyttäjä saa artikkelit helpommin käyttöön (ilman leikkaamista&liimausta) Sisällön indeksointi hakukoneisiin toimisi paremmin Jne.

Nimien tunnistaminen Yksi sovellus tekstinlouhinnalle on nimien tunnistus tekstistä/ artikkeleista (NER, named entity recognition) Henkilöt, paikat, valtiot, yritykset, ajankohdat, määrät jne. Nimien käyttö hakusanana on tyypillistä Digin käyttäjille: kolmen vuoden käyttäjälokin 1000 yleisimmän hakutermin joukosta 80 % on nimiä:

HFST-SweNer (LREC 2014)

HFST-SweNer (LREC 2014)

Miksi käyttää NERiä? Nimien tunnistus on oleellinen osa informaation eristämistä Informaation suodatus (käyttäjälle näytetään kaikki artikkelit, joissa esiintyy Sibelius) Informaation linkitys (esimerkiksi kaikki Sibeliusta käsittelevät artikkelit linkitetään toisiinsa kun nimet tunnistettu)

Uutiskartta - konsepti, jossa samaan teemaan liittyvät ovat lähekkäin. DIGITOINTI- JA KONSERVOINTI- DIGITOINTI- KESKUS JA KONSERVOINTIKESKUS

Yhteenveto Digitaalinen sanomalehtikokoelma tarjoaa rikkaan aineiston tekstinlouhintaan, esitetyt kaksi esimerkkiä kertovat työstä jota on vasta aloitettu tai ollaan aloittamassa myöhemmin Kaiken Digissä tehtävän tekstinlouhinnan päämäärä on jalostaa aineistoa helpottaa ja monipuolistaa aineiston käyttöä tuottaa parempia aineistoja jotka mahdollistavat paremman tutkimuksen