TESAURUKSET JA ONTOLOGIAT



Samankaltaiset tiedostot
Visio tulevaisuuden Webistä. Semantic Web - kohti uutta merkitysten Internetiä. Ratkaisumalli 1: Älykkäämmät sovellukset. Vision este Webissä

Ontologiat merkitysten mallintamisessa: OWL. Eeva Ahonen

Miksi asiasanastot eivät riitä vaan tarvitaan ontologioita?

The OWL-S are not what they seem

ONKI-projekti tuo ontologiat käyttöön sisällönkuvailussa

Ontologiakirjasto ONKI-Paikka

Internet jolla on merkitystä

Semantic Web Sisältötuotannon ja palveluiden tulevaisuus

Sisällönhallinnan menetelmiä

Eero Hyvönen. Semanttinen web. Linkitetyn avoimen datan käsikirja

Epätäsmällisen tiedon esittäminen semanttisen webin ontologioissa

Sisällönkuvailun tulevaisuus: YSA vai YSO?

Seitsemän syytä semanttiseen webiin. Eero Hyvönen Aalto-yliopisto ja HY Semanttisen laskennan tutkimusryhmä (SeCo)

Luento 12: XML ja metatieto

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

standardit (W3C, ISO) Semanttisen laskennan tutkimusryhmä Teknillinen korkeakoulu

Miten ja miksi asiasanastoista kehitetään ontologioita

Mitä mahdollisuuksia tuloksemme tarjoavat museoille?

Mikä on semanttinen web?

Semanttinen Web. Ossi Nykänen. Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), W3C Suomen toimisto

Kohti Yleistä suomalaista ontologiaa (YSO)

ONKI-palvelin ja sen hyötykäyttö: selain, valitsin ja verkkopalvelut

Älykkäät keltaiset sivut ( Intelligent Web Services ( IWebS ) )

CIRI Ontologiaperustainen tiedonhakuliittymä

Automaattinen semanttinen annotointi

Asiasanastosta ontologiaksi

Suositus asiasanastojen, luokitusjärjestelmien ja ontologioiden käytöstä luetteloinnissa Suomen museoissa

Ontologioiden yhdistäminen YSO:oon

Semanttinen Web. Ossi Nykänen. Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), Hypermedialaboratorio W3C Suomen toimisto

ONTOLOGIOIDEN KEHITTÄMINEN JULKISHALLINTOON

SKOS. Osma Suominen ONKI-hankkeen laajennettu projektiryhmä

ONKI SKOS Sanastojen ja ontologioiden julkaiseminen ja käyttö Asiasanaston muuntaminen SKOS muotoon: case YSA

Internetin tulevaisuudennäkymiä Semanttinen web ja älykkäät palvelut

Semanttisen webin hyödyntäminen terveystiedon löydettävyydessä

FinnONTO-infrastruktuurin esittely

HOIDOKKI hoitotieteellinen asiasanasto. Kristiina Junttila sanastotyöryhmän jäsen / SHKS kehittämispäällikkö / HUS

Kansallinen semanttisen webin sisältöinfrastruktuuri FinnONTO - visio ja sen toteutus

ONKI kansallinen ontologiapalvelu: kohti yhtenäistä sisällönkuvailua

Oppimateriaalin standardit ja taksonomiat

Yleisen suomalaisen ontologian kehitystyö

Ajankohtaisia SOA tutkimusteemoja

Semanttinen Web. Ossi Nykänen Tampereen teknillinen yliopisto (TTY), DMI / Hypermedialaboratorio W3C Suomen toimisto

Tapahtumankäsittely Semanttisen Webin Menetelmillä

Ontologiat merkitysten mallintamisessa: OWL Web Ontology Language

Yleinen suomalainen ontologia YSO

Finna ja ontologiat tms.

Asiasanastoista ontologioita: Yleinen suomalainen ontologia YSO ja sen laajennukset

Miksi asiasanastot eivät riitä vaan tarvitaan ontologioita?

Esityksen sisältö. Kokoelmatietojen siirto MuseoSuomi-järjestelmään. 1. Sisällöntuotannon ongelma: lähtökohdat ja tavoitteet

Avoin tieto ja World Wide Web tietoyhteiskunnan palveluksessa. Open Data and the World Wide Web in Service for the Informaton Society

Kohti kansallista semanttisen webin sisältöinfrastruktuuria

Ontologioiden huomioiminen uuden kirjastojärjestelmän suunnittelussa. Tommi Jauhiainen Helsinki

Miksi asiasanastot eivät riitä vaan tarvitaan ontologioita?

Sisältö. Miten hyötypalveluja Webiin saadaan? Mitä hyötyä on Webistä? Kehityksen este Webissä? Miten Webistä tulee älykkäämpi?

Ensi askeleet semanttiseen webiin: tuotantoprojektin kokemuksia

Rakenteisen oppimateriaalin tuottaminen verkossa esimerkki Rhaptos. Antti Auer Koordinaattori, HT Jyväskylän yliopisto Virtuaaliyliopistohanke

Miksi asiasanastot eivät riitä vaan tarvitaan ontologioita?

Semanttinen web ja sukututkimus

Paikkatiedon semanttinen mallinnus, integrointi ja julkaiseminen Case Suomalainen ajallinen paikkaontologia SAPO

SELVITYS ERIKOISKIRJASTOJEN KÄYTTÄMISTÄ ASIASANASTOISTA JA LUOKITUKSISTA. Anne Holappa, STKS:n Erikoiskirjastojen työryhmä Tieteiden talo

Kansalliskirjasto ja Finto-palvelu kuvailun infrastruktuurin rakentajana

Paikkatiedot ja Web-standardit

Agenttipohjaiset liikkuvan tietojenkäsittelyn sovellukset FIPA-arkkitehtuurissa

ONKI Living Lab. Semanttisen laskennan tutkimusryhmä SeCo Aalto-yliopisto

Suomi.fi palvelutietovaranto

Semantic Web käytännön sovelluksissa. TkT Janne Saarela Profium Oy

Kohti suomalaista semanttista webiä

ONKI-projekti JUHTA KANSALLISKIRJASTO - Kirjastoverkkopalvelut

Keltaisten sivujen palveluiden kuvaaminen ontologioiden avulla

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea.

Ohjelmistojen mallintaminen, mallintaminen ja UML

Paikkaontologiat. Tomi Kauppinen ja Jari Väätäinen Aalto-yliopiston teknillinen korkeakoulu tomi.j.kauppinen at gmail.com

W3C ja Web-teknologiat

LAADUKAS SISÄLLÖNKUVAILU -SUOSITUS

TIEDONHAKU INTERNETISTÄ

Semanttisen Webin mahdollisuudet yrityksille

7. luento: Verkkopalvelun informaatioarkkitehtuurin suunnittelu osa 2

Luottamuksen ja maineen rooli palveluperustaisten yhteisöjen muodostamisessa

Metatiedot organisaatioiden sisällönhallinnassa

Julian graafinen annotointityökalu ja erityisontologioiden editori. Jaason Haapakoski P Kansanterveyslaitos , 28.3.

Julkaisufoorumin kuulumiset

ONKI-PROJEKTIN ESITTELY. Matias Frosterus ja Osma Suominen JHKA sanastotyöpaja

YSAsta YSOon. Mikko Lappalainen Sisällönkuvailun asiantuntijaryhmän kokous,

KAMUT 2 -yhteishankkeen loppuraportti Museovirasto

Taustamuistio 1 (6) Yhteinen tiedon hallinta -hanke. Taustatietoa Sanaston metatietomallin määrittely -työpajan keskusteluun

Englannin kielen ja viestinnän ja ammattiaineiden integrointiyhteistyö insinöörikoulutuksessa

Työkalu ontologioiden editointiin ja ontologiapohjaiseen tiedonhakuun

FinnONTO-hanke loi ontologisen perustan kansalliselle webin tietoinfrastruktuurille

Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin?

MeSH-asiasanoitus ja NLM-luokitus

Onko luettelointitermillä. väliä? Kokoelmaseminaari Suvi Kettula Espoon kaupunginmuseo

Tietokannan eheysrajoitteet ja niiden määrittäminen SQL-kielellä

Luokka- ja oliokaaviot

ASIASANASTON MUUTTAMINEN ONTOLOGIAKSI YLEINEN SUOMALAINEN ONTOLOGIA

Ontologia: katteeton lupaus vai todellinen työkalu? Kimmo Kajas

Agentit ja semanttinen web. Pekka Halonen

Transkriptio:

Janne Heinonen TESAURUKSET JA ONTOLOGIAT TJTSD50 - Tekstitiedonhaku Esseetehtävä 23.5.2006 Jyväskylän yliopisto Tietojenkäsittelytieteiden laitos Jyväskylä

SISÄLLYSLUETTELO 1 TESAURUKSET JA ONTOLOGIAT... 3 1.1 Johdanto... 3 1.2 Tesaurukset... 4 1.3 Ontologiat... 6 1.4 Yhteenveto... 9 LÄHDELUETTELO... 10

3 1 TESAURUKSET JA ONTOLOGIAT 1.1 Johdanto Perinteiset tesaurukset on laadittu ihmisten tarpeita silmällä pitäen ja termien merkitysten kuvaus on voitu jättää ihmisen tulkinnan varaan. Yhä enenevässä määrin tesauruksia käyttävät myös tietokonesovellukset, joille sanastot tulisi aiempaa täsmällisemmin määritellä ontologioina. Koneelle yksittäisellä termillä ei ole merkitystä, vaan merkitys syntyy termien välisten suhteiden kautta, esimerkiksi termi Suomi on hierarkkisessa osa-kokonaisuussuhteessa termiin Pohjoismaat. Suhteiden täsmällinen kuvaaminen on siten koneiden kannalta erityisen tärkeää. Tieto- ja tietämystekniikan näkökulmasta tarkasteltuna tesauruksetkin ovat eräänlaisia ontologisia kuvauksia maailmasta ja niitä voidaan käyttää hyväksi tiedon haussa, päättelyssä ja esittämisessä monin tavoin (Hyvönen 2005). Sekä ontologiat että tesaurukset yhdistetään käsitteeseen taksonomia. Taksonomia on järjestelmä, joka soveltuu erityisesti informaatio-olioiden semanttiseen luokitteluun. (Daconta, Obrst & Smith 2003) Hyvä käytännön esimerkki taksonomiasta luokkineen ja alaluokkineen on kirjojen järjestys kirjastoissa tai vaihtoehtoisesti vaikkapa puhelinluettelosta löytyvät kategorisoidut keltaiset sivut. Edellä kuvatut terminologiset määrittelyt liittyvät läheisesti myös semanttisen tietoverkon ideaan. Semanttisen webin kehitystyössä pohditaan miten saada nykyinen tiedon visualisointiin keskittyvä World Wide Web älykkäämmäksi lisäämällä siihen eritasoisia sisällöllisiä kuvauksia, semantiikkaa. (Hyvönen 2001)

4 1.2 Tesaurukset Tesaurus-sanan juuret juontavat kreikan ja latinan kielistä, joissa sanaa on käytetty tarkoittamaan sanojen aarreaittaa. Nykykäsityksen mukainen tesaurus rakentuu yksinkertaisimmillaan valmiiksi koostetusta listasta, joka sisältää kohdealueen tärkeimmän sanaston. Lisäksi jokaiseen sanaan liittyy joukko siihen suhteessa olevia sanoja. Tesaurukset pitävät yleisesti yksittäisten sanojen lisäksi sisällään myös laajempia ilmaisuja, kuten fraaseja. (Baeza-Yates & Ribeiro-Neto 1999, 170) Järvelinin (1995, 150) mukaan tesaurusten suhdeverkostot rakentuvat assosiaatiosuhdetyyppien varaan, joita voivat olla tyypillisesti esimerkiksi: käsitteelliset veljekset, joiden tarkoitteet leikkaavat tai mielletään samantapaisiksi (talvirengas, nastarengas, vyörengas) syy seuraus (alkoholismi juopottelu) kohde toiminto (kirjasto lainaus) prosessi liitännäisprosessi (johtaminen päätöksenteko) käsitteet joiden käsitepiirteiden yhtäläisyys on suuri (myrkky, myrkyllisyys) Daconta ym. (2003) luettelevat tesauruksista löytyviksi suhdetyypeiksi ekvivalenssin, homografian, hierarkian ja assosiatiivisuuden. Ekvivalenssi tarkoittaa samankaltaisuutta ja synonyymisuhdetta, homografiassa sanoilla on sama kirjoitusasu, mutta eri merkitys, hierarkiassa toinen on kapeampi tai laveampi käsite kuin toinen ja assosiatiivisyys ilmenee esimerkiksi sanaparissa naula vasara. Defuden (1984) mukaan käsitteille voidaan laatia myös numeerisia arvoja semanttisen etäisyyden suhteen, kuten esimerkiksi täyttä vastaavuutta (1) hieman heikompi arvo 0.8 englanninkieliselle sanaparille boat ship. Tesaurusten indeksikomponentit ovat termejä, jotka yleensä pitävät sisällään tietyn käsitteen. Käsite on puolestaan semanttisen tiedon perusyksikkö, jonka avulla ilmaistaan ideoita. Termit ovat useimmiten substantiiveja, sillä ne muo-

5 dostavat konkreettisimman osan kielestä. Usein käytetään monikkomuotoa, sillä tesauruksissa pyritään ilmaisemaan asioiden luokkia, esimerkiksi luokka: ohjukset alaluokka: ballistiset ohjukset. (Baeza-Yates & Ribeiro-Neto 1999, 171) Yleisessä suomalaisessa asiasanastossa (Helsingin yliopiston kirjasto 2006) yksikkömuodossa ovat esimerkiksi ainesanat sekä abstrakteja käsitteitä ja toimintaa kuvaavat sanat. Monikkomuotoisia ovat yleensä konkreettiset, laskettavissa olevat käsitteitä kuvaavat sanat. Tesaurusta voidaan käyttää asiasanoituksen ja luokituksen (indeksoinnin) apuvälineenä, tiedon haun apuvälineenä tai molemmissa tehtävissä (Hyvönen 2005). Tesaurus mahdollistaa yhtenäisen sanaston käyttämisen indeksoinnissa ja hakutehtävissä, avustaa asianmukaisten hakutermien löytämisessä sekä tarjoaa luokitellun hierarkian, jonka avulla on helppo laajentaa tai supistaa hakuja. (Baeza-Yates & Ribeiro-Neto 1999, 170) Sanaston joihinkin asiasanoihin voi liittyä myös selityksiä. Selityksissä annetaan mm. ohjeita sanastoon sisältymättömien asiasanojen käytöstä ja täsmennetään joidenkin asiasanojen merkitystä. Tesaurukset tarjoavat hyödyllistä apua kyselynmuodostuksen apuvälineenä. Kun tiedonhakija aloittaa prosessinsa, hänen täytyy muodostaa ensin käsitteistö hakemastaan asiasta. Tämä hakutehtävään liittyvä informaatiotarve täytyisi kyetä eksplikoimaan hakulausekkeeksi tietokantaan. Tässä kohtaa tesaurus voi tarjota apuaan, mutta toisaalta tesaurus voi johtaa myös harhaan - Tesaurus on voitu laatia jonkin muun henkilön toimesta ja eri tarvetta ja kontekstia ajatellen. (Baeza-Yates & Ribeiro-Neto 1999, 172)

6 1.3 Ontologiat Alkujaan sana ontologia on kuulunut filosofian piiriin, missä sillä on käsitetty olevaisen tutkimista. Nykyisin termi mielletään kuitenkin mieluummin IT-alan sanastoon kuuluvaksi. Ontologiat ovat formaaleja eksplisiittisiä määrittelyitä yhteisestä käsitteistöstä, jotka mahdollistavat myös käsitteistön koneellisen tulkinnan. Käsitteistön yhteisyys mahdollistaa tietämyksen jakamisen, yhteiskäytön ja yhdistämisen. (Gruninger & Lee 2002) Ontologian luomisen keskeiset välineet ovat ontologiakieli, jolla käsitteet ja niiden väliset suhteet määritellään sekä ontologiaeditori, joilla ontologiset kuvaukset käytännössä laaditaan. (Hyvönen 2001) Ontologian avulla voidaan esittää jonkin erityisalan ammattikäsitteitä ja - tietämystä, metadataa, yleistä arkitietämystä, käsitteistöjä, tehtäviä sekä prosesseja ja palveluita. Metadataa voisivat olla esimerkiksi tietolähteen tai kuvan julkaisutiedot. Tunnettuja laajoja ontologioita ovat mm. WordNet (http://www.cogsci.princeton.edu/~wn/), joka sisältää yli 100.000 englannin kielen käsitettä ja IT- ja elektroniikkateollisuuden RosettaNet (http://www.rosettanet.org). (Hyvönen 2001) Dacontan ym. (2003) mukaan ontologiaan sisältyvät: Yleiset luokat Classes (general things) in the many domains of interest Luokkien instanssit Instances (particular things) Suhteet edellisten välillä Relationships among those things Ominaisuudet ja ominaisuuksien arvot Properties (and property values) of those things Toiminnot ja prosessit Functions of and processes involving those things

7 Rajoitteet ja säännöt Constraints on and rules involving those things Ontologioiden peruskäsitteisiin kuuluu siis luokka, johon sisältyy alaluokkia. Luokat ovat luokkahierarkiassa, jonka alimmalla tasolla ovat ilmentymät. Ilmentymät ovat kyseessä olevaan luokkaan liittyviä yksilöitä eli jäseniä. (Chandrasekaran, Josephson & Benjamins 1999) Tämä on lähellä olioparadigman mukaista lähestymistapaa, jossa ominaisuudet periytyvät alaluokille, ja missä ilmentymät pitävät sisällään arvoja ominaisuuksille. Hendlerin (2001) mukaan ontologioihin kuuluvat myös päättely- ja logiikkasäännöt. Ontologia on tällöin joukko tietämystermejä, joka sisältää sanaston, semanttiset linkitykset sekä yksinkertaisia logiikkasääntöjä. Esimerkiksi käy ontologia liittyen ruuanlaittoon ja keittokirjoihin, joka pitää sisällään esimerkiksi tarvittavat ainekset, tiedon siitä kuinka ne tulisi sekoittaa keskenään sekä eroavaisuudet hauduttamisen ja uppopaistamisen välillä. Samoin siihen sisältyy tietoa moniselitteisestä käsitteestä öljy, jota tässä tapauksessa käytetään paistamiseen - ei moottorin voiteluun. Ontologioiden kehitys lähti alkujaan liikkeelle tarpeesta laatia jaettuja ja uudelleenkäytettäviä tietämyskantoja. Ontologioiden avulla saadaan käyttöön yhteinen kieli, jolloin kaikki osapuolet ovat samaa mieltä termeistä ja ominaisuuksista. Uudelleenkäyttö ja jakaminen eivät ole kuitenkaan ongelmattomia, sillä käyttäjät eivät välttämättä jaa ontologian suunnittelijan implementoimia näkemyksiä ja olettamuksia käsiteltävästä aiheesta. Esimerkiksi yksi ontologia voi esittää värin punainen suhteeksi, kun taas toinen esittää sen arvona. (Gruninger & Lee 2002) Gruninger ja Lee (2002) ovat osittaneet ontologioiden käytön kolmeen eri osaan, joita ovat kommunikointi, koneellinen päättely sekä tietämyksen järjestäminen ja uudelleenkäyttö. Kommunikointia tapahtuu tietojärjestelmien kesken, ihmisten välillä sekä ihmisten ja tietojärjestelmien vaihtaessa tietoa. Koneellisessa päättelyssä ontologioita käytetään tiedon esittämiseen ja käsittelyyn sekä tieto-

8 järjestelmien sisäisten rakenteiden, algoritmien, syöttö- ja tulostietojen teoreettiseen ja käsitteelliseen analysointiin. Tietämyksen hallinnassa ontologioita käytetään tietovarastojen järjestelyyn ja rakenteistamiseen. Semanttista tietoa voidaan jo nykyisellään liittää ja käsitellä useiden, pääsääntöisesti XML-pohjaisten, tekniikoiden avulla. RDF (Resource Description Framework) ja siihen liitetty schema-kieli RDFS sopivat assosiaatioiden laatimiseen tietojen välille. XML Topic Maps (XTM) on toisenlainen mekanismi taksonomian esittämiseen informaatiolle sekä tiedon luokitteluun. (Daconta ym. 2003) Sekä Topic Maps että RDF palvelevat samaa tarkoitusperää, eli torjuvat infoähkyä WWW:n resurssien metakuvauksilla. (Hyvönen 2001) Web-palvelut (Web services) tarjoavat puolestaan mekanismin, jolla järjestelmät voivat kommunikoida keskenään. Ontologiakielet (OWL, DAML+OIL ym.) tukevat RDF:ia, esimerkiksi DAML+OIL:sta johdettu OWL tarjoaa sille sanastolaajennuksen käyttöön. Edellä mainitut kielet ovat myös sinällään käytössä useissa organisaatioissa tietämyskantojen semanttisessa järjestyksenpidossa. (Daconta ym. 2003)

9 1.4 Yhteenveto Eri tietoyksiköiden vertaileminen ja ymmärtäminen yhteisellä tavalla on helpompaa tai ylipäätään mahdollista, kun kohteet käyttävät jaettua kontrolloitua sanastoa. Tiedon hakuun, esittämiseen ja mallintamiseen liittyvät järjestelmät hyötyvät ontologioista. Metakuvausten ja ontologiatekniikoiden tärkeitä sovellusalueita ovat Hyvösen (2001) mukaan esimerkiksi: Informaation haku (information search/retrieval) Tietämyksen hallinta (knowledge management) Verkkokauppa (web commerce) Sähköinen liiketoiminta (electronic business). Tesaurukset ja ontologiat ovat hyödyllisiä tietojen kuvailemisessa ja luokittelussa. Lupaava sovellusalue on esimerkiksi jo aiemmin mainittu World Wide Web, johon semanttisen sisällön lisääminen tuo paitsi helpotusta tietoa hakeville ihmiskäyttäjille, myös mahdollisuuksia koneelliseen käyttöön (erilaiset agentit, web-mönkijät ym.) Semanttinen web lunastanee lupauksensa siinä vaiheessa, kun standardoinnit etenevät ja normaalikäyttäjän ei tarvitse välittää enää matalan tason merkkauksesta.

10 LÄHDELUETTELO Baeza-Yates R. & Ribeiro-Neto B. 1999. Modern Information Retrieval. Addison Wesley. New York: ACM Press. Chandrasekaran B., Josephson J.R & Benjamins R. 1999. What are ontologies and why do we need them? IEEE Intelligent Systems and Their Applications 14(1), 20-26. Daconta M., Obrst L. & Smith K. 2003. The Semantic Web: A Guide to the Future of XML, Web Services, and Knowledge Management. John Wiley & Sons. Defude B. 1984. Knowledge based systems versus thesaurus: an architecture problem about expert systems design. Teoksessa Proceedings of the 7th annual international ACM SIGIR conference on Research and development in information retrieval, Cambridge, England. Swinton: British Computer Society, 267 280. Gruninger M. & Lee J. 2002. Ontology applications and design. Communications of the ACM 45(2), 39-41. Helsingin yliopiston kirjasto. 2006. VESA - verkkosanasto/webbtesaurus YSA Yleinen suomalainen asiasanasto [online], Helsinki: Helsingin yliopiston kirjasto [viitattu 22.5.2006]. Saatavissa www-muodossa <http://vesa.lib.helsinki.fi/ysa/index.html>. Hendler J. 2001. Agents and the Semantic Web. IEEE Intelligent Systems 16(2), 30-37. Hyvönen E. 2005. Miksi asiasanastot eivät riitä vaan tarvitaan ontologioita? Signum 5/2005.

11 Hyvönen E. 2001. Semantic Web kohti uutta merkitysten Internetiä. Esitelmä Semantic Web Kick-Off in Finland -tilaisuudessa 2.11.2001. Helsinki: Helsingin yliopisto ja Helsinki Institute for Information Technology (HIIT). Järvelin K. 1995. Tekstitiedonhaku tietokannoista: johdatus periaatteisiin ja menetelmiin. Espoo: Suomen atk-kustannus.