Automaattinen semanttinen annotointi

Samankaltaiset tiedostot
ONKI SKOS Sanastojen ja ontologioiden julkaiseminen ja käyttö Asiasanaston muuntaminen SKOS muotoon: case YSA

Kim Viljanen

Terveys- ja yrityspalveluosaprojektin tilannekatsaus

standardit (W3C, ISO) Semanttisen laskennan tutkimusryhmä Teknillinen korkeakoulu

Tapahtumakalenteri ja terveyspalveluhakemisto

Terveys- ja yrityspalvelutyöpajan tutkimus Eero Hyvönen, Mikko Salonoja, Reetta Sinkkilä, Osma Suominen, Antti Tani

Keltaisten sivujen palveluiden kuvaaminen ontologioiden avulla

Ontologiakirjasto ONKI-Paikka

TerveSuomi.fi portaalin suunnittelu ja tekninen toteutus

The OWL-S are not what they seem

Semanttinen Web. Ossi Nykänen Tampereen teknillinen yliopisto (TTY), DMI / Hypermedialaboratorio W3C Suomen toimisto

Sisällönhallinnan menetelmiä

Tekstidokumenttien automaattinen ontologiaperustainen annotointi

ONKI-palvelin ja sen hyötykäyttö: selain, valitsin ja verkkopalvelut

Kansallinen semanttisen webin sisältöinfrastruktuuri FinnONTO - visio ja sen toteutus

Finto palveluiden toteuttamisen alustana

Eero Hyvönen. Semanttinen web. Linkitetyn avoimen datan käsikirja

Semanttisen webin hyödyntäminen terveystiedon löydettävyydessä

ONKI-projekti tuo ontologiat käyttöön sisällönkuvailussa

Mikä on semanttinen web?

Rakenteisen oppimateriaalin tuottaminen verkossa esimerkki Rhaptos. Antti Auer Koordinaattori, HT Jyväskylän yliopisto Virtuaaliyliopistohanke

Miten ja miksi asiasanastoista kehitetään ontologioita

Finto-projektin tilannekatsaus

Kohti kansallista semanttisen webin sisältöinfrastruktuuria

Yleinen suomalainen ontologia YSO

Semanttisen webin käyttöliittymäratkaisut. Tiedonhallinta semanttisessa webissä Osma Suominen

Ontologioiden yhdistäminen YSO:oon

Esityksen sisältö. Kokoelmatietojen siirto MuseoSuomi-järjestelmään. 1. Sisällöntuotannon ongelma: lähtökohdat ja tavoitteet

Tapaustutkimus: semanttinen linkitys ja tiedon löydettävyys puolustusvoimien normitietokannassa

Semanttinen Finlex Visio ja sen toteutus

Ontologiat merkitysten mallintamisessa: OWL. Eeva Ahonen

TerveSuomi-portaalin esittely

Metatieto mihin ja miten? Juha Hakala Helsingin yliopiston kirjasto

Yhdyssana suomen kielessä ja puheessa

Avoin tieto ja World Wide Web tietoyhteiskunnan palveluksessa. Open Data and the World Wide Web in Service for the Informaton Society

SKOS. Osma Suominen ONKI-hankkeen laajennettu projektiryhmä

Yleisten kirjastojen kuvailutyön kansallinen viitekehys. Yleisten kirjastojen neuvosto Anu Jäppinen

Semanttinen Web. Ossi Nykänen. Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), Hypermedialaboratorio W3C Suomen toimisto

ONKI kansallinen ontologiapalvelu: kohti yhtenäistä sisällönkuvailua

Linked Data Finland: visio, missio ja toteutus

ABTEKNILLINEN KORKEAKOULU

Media- ja kulttuuripalvelut

ABTEKNILLINEN KORKEAKOULU

Epätäsmällisen tiedon esittäminen semanttisen webin ontologioissa

ONKI-projekti JUHTA KANSALLISKIRJASTO - Kirjastoverkkopalvelut

Tapahtumankäsittely Semanttisen Webin Menetelmillä

Semanttinen Web. Ossi Nykänen. Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), W3C Suomen toimisto

Miten tästä eteenpäin? FinnONTO 2.0:n jatkonäkymiä Semanttiset jokapaikan palvelut

Miten avoin yhdistetty tieto saadaan verkkoon: kansallinen Linked Data Finland -hanke-ehdotus

Mikä on Kulttuurisampo?...

Luento 12: XML ja metatieto

ONKI-PROJEKTIN ESITTELY. Matias Frosterus ja Osma Suominen JHKA sanastotyöpaja

83450 Internetin verkkotekniikat, kevät 2002 Tutkielma <Aihe>

Älykkäät keltaiset sivut ( Intelligent Web Services ( IWebS ) )

Johdanto: Semanttinen Kalevala projekti

Avoin data Avoin kirjasto Kuvailupäivät

Nelli kaukopalvelutyössä

Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa. Kimmo Kettunen Dimiko (Digra-projekti)

Asiasanastosta ontologiaksi

Mitä mahdollisuuksia tuloksemme tarjoavat museoille?

Kansalliskirjaston digitoitu historiallinen lehtiaineisto : sanatason laatu, kokoelmien käyttö ja laadun parantaminen

Indeksointimetatiedon eristäminen ja arviointi

Media- ja kulttuuripalvelut. Eetu Mäkelä

MITÄ KUULUU KIRJASAMPO? TAMPEREEN KAUPUNGINKIRJASTO /KAISA HYPÉN

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

ARTIKKELITIETOKANNAT JA OMANELLI PIRJO POHJOLAINEN

W3C: teknologia ja (tieto)yhteiskunta

YLEINEN SUOMALAINEN ONTOLOGIA YSO

Historialliset paikat ja kartat

+LISÄTEHTÄVIÄ päättely

Seitsemän syytä semanttiseen webiin. Eero Hyvönen Aalto-yliopisto ja HY Semanttisen laskennan tutkimusryhmä (SeCo)

HL7 Clinical Document Architecture. Seminaari: Tiedonhallinta terveydenhuollossa Riku Niittymäki

Tieto matkaa maailmalle

W3C-teknologiat ja yhteensopivuus

Käsitemallit muistiorganisaatioiden kuvailun yhdenmukaistamisen välineenä

Kansalliskirjasto ja Finto-palvelu kuvailun infrastruktuurin rakentajana

Propositiot: Propositiot ovat väitelauseita. Totuusfunktiot antavat niille totuusarvon T tai E.

Internet jolla on merkitystä

W3C ja Web-teknologiat

Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin?

Digitalia-projektin tekstinlouhinnan tuloksia. Kimmo Kettunen

Suomi.fi palvelutietovaranto

Kirjasampo [lyhyt oppimäärä]

HALLINNON YHTEINEN VERKKOPALVELURATKAISU ,

Suomi.fi-palvelutietovaranto

Semantic Web käytännön sovelluksissa. TkT Janne Saarela Profium Oy

Metatietojen merkitys tiedonhallinnassa

Taulukot. Taulukon määrittely ja käyttö. Taulukko metodin parametrina. Taulukon sisällön kopiointi toiseen taulukkoon. Taulukon lajittelu

Työkalu ontologioiden editointiin ja ontologiapohjaiseen tiedonhakuun

SÄHKE-hanke. Abstrakti mallintaminen Tietomallin (graafi) lukuohje

Onko luettelointitermillä. väliä? Kokoelmaseminaari Suvi Kettula Espoon kaupunginmuseo

Metatiedot organisaatioiden sisällönhallinnassa

Miksi asiasanastot eivät riitä vaan tarvitaan ontologioita?

Kysy kirjastonhoitajalta. Syksy 2008

RINNAKKAISTALLENNUSOHJE

TESAURUKSET JA ONTOLOGIAT

Web of ScienceTM Core Collection (1987-present)

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

MATEMATIIKAN JA TILASTOTIETEEN LAITOS Analyysi I Harjoitus alkavalle viikolle Ratkaisuehdoituksia Rami Luisto Sivuja: 5

Transkriptio:

Automaattinen semanttinen annotointi Matias Frosterus, Reetta Sinkkilä, Katariina Nyberg Semantic Computing Research Group (SeCo) School of Science and Technology, Department of Media Technology and University of Helsinki, Department of Computer Science http://www.seco.tkk.fi 1

Semanttinen annotointi Aineiston kuvailua ontologisilla käsitteillä Liitetään eksplisiittisesti kohteeseen jonkin ontologian käsitteitä Mahdollistaa päättelyn ja korkeamman tason automaation kohteita käsiteltäessä koneluettava voidaan esim. määrittää että dokumentissa esiintyvä merkkijono Pariisi merkitsee yksiselitteisesti paikkaontologiassa määriteltyä käsitettä, joka vastaa Teksasissa sijaitsevaa kaupunkia Voidaan tehdä käsin esimerkiksi SAHA-työkalulla

Motivaatio Käsin annotointi on hidasta Automaatio on välttämätöntä kun halutaan annotoida suuria olemassa olevia kokoelmia ei haluta annotoida käsin» ei kuulu työnkuvaan

Automaattinen semanttinen annotointi (1/2) Etsitään vastaavuuksia kohteessa esiintyvien ja ontologian käsitteiden nimien merkkijonojen välillä lemmataan (saatetaan sanat perusmuotoon) annotoitava teksti lemmataan ontologian käsitteiden nimet etsitään vastaavuudet

Automaattinen semanttinen annotointi (2/2) Annotointiskeema määrittelee mitä metatietoja kohteesta halutaan tietyn ominaisuuden arvojoukkoa voidaan rajoittaa» esim. valmistusmaa on aina valtiot-luokan ilmentymä kohteen olemassa olevaa rakenteellisuutta, jos sellaista on, voidaan myös hyödyntää annotoinnissa» esim. XML-dokumentin <author>-elementtien välistä löydetyt käsitteet ovat dokumentin tekijöitä

Automaattisen semanttisen annotoinnin haasteita (1/3) Disambiguointi ontologisten käsitteiden välillä vs. käsitteen ja ei-käsitteen välillä ontologiassa maailma hahmotetaan käsitteillä, eikä niitä tarkoittavilla sanoilla» yksi termi voi vastata montaa käsitettä» esim. lapset ikäryhmänä tai sukulaisuussuhteena miten erotetaan mistä käsitteestä on kyse?» kontekstitiedolla etukäteissäädöillä ( tässä aineistossa lapset viittaa aina ikäryhmään ) päättelemällä ympäröivistä käsitteistä koneoppimisella tms.

Automaattisen semanttisen annotoinnin haasteita (2/3) Väärät annotaatiot esim. tämä artikkeli ei käsittele arkeologiaa voisi tuottaa annotaatioksi arkeologia-käsitteen» voidaan koettaa ratkaista syntaktisella jäsennyksellä

Automaattisen semanttisen annotoinnin haasteita (3/3) Uusien instanssien löytäminen esim. uusien henkilöiden löytäminen» voidaan etsiä etunimi-sukunimipareja tunnetut etunimet (etunimiluettelo) isot alkukirjaimet morfologinen päätevaihtelu (etunimi ei taivu kun se esiintyy lauseessa ennen sukunimeä: Matti Järvisellä oli )» löydetyn parin jälkeiset viittaukset samaan yksittäiseen etunimeen tai sukunimeen tulkitaan viittauksiksi löydettyyn instanssiin

Poka Poka on automaattisen annotoinnin perustyökalu ontologisten käsitteiden (RDF, OWL, SKOS) etsimiseen tekstistä käyttää Connexorin kielityökalua sisältää myös käsiteriippumattoman henkilöeristimen ja säännöllisten lausekkeiden eristimen

Airo Kohteena Helsingin Sanomien sähköisessä muodossa oleva artikkeliarkisto tehokkaampi haku Automaattinen annotointi Pokalla YSOa vasten Dokumentin laajennos dokumenttien asiasanoitukseen liitettiin sellaisia käsitteitä, joilla oli ontologiassa läheiset suhteet automaattisessa annotoinnissa löydettyihin käsitteisiin tulokset positiivisia

Vanhat sanomalehtiaineistot Kansalliskirjaston historiallinen sanomalehtiarkisto kaikki Suomessa ilmestyneet sanomalehdet vuosilta 1771-1890 400 000 otsikkoa Automaattinen semanttinen annotointi poikkeavuuksia sisältävälle aineistolle kirjoitusasut, vanhat sanat, OCR-virheet, lyhenteet,... pyritään arvaamaan oikea muoto sanalle etsimällä melkein samanlaisia merkkijonoja ontologiasta ja sanakirjasta» valinta useiden samankaltaisten sanojen joukosta käyttäen sääntöjä, jotka perustuvat tunnettuihin virheisiin Wenäjä Venäjä lutherilainen luterilainen kapteini kapteeni

SÄHKE-asiakirjojen automaattinen luokittelu tekstin pohjalta SÄHKE on Kansallisarkiston sähköisen arkistoinnin metadatamalli SÄHKE-asiakirjat annotoitiin Pokalla ontologiana YSO Automaattinen luokittelu oppivan mallin avulla Annotaatioiden käyttö paransi luokittelua

Blogilouhinta Tarkoitus: suositellaan Web 2.0-hengessä TerveSuomiportaalin sisältöihin liittyviä tekstejä blogit uutissyötteet keskustelupalstat Annotoidaan Pokalla ja tuotetaan TerveSuomen metatietomäärittelyn mukaista RDF:ää asiasanoitus (dc:subject) Terveyden edistämisen ontologian käsitteillä

Kiitos Kysymyksiä?