ONTOLOGIOIDEN KEHITTÄMINEN JULKISHALLINTOON



Samankaltaiset tiedostot
TESAURUKSET JA ONTOLOGIAT

The OWL-S are not what they seem

Ontologiat merkitysten mallintamisessa: OWL. Eeva Ahonen

Sisällönhallinnan menetelmiä

Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin?

Visio tulevaisuuden Webistä. Semantic Web - kohti uutta merkitysten Internetiä. Ratkaisumalli 1: Älykkäämmät sovellukset. Vision este Webissä

Luento 12: XML ja metatieto

Seitsemän syytä semanttiseen webiin. Eero Hyvönen Aalto-yliopisto ja HY Semanttisen laskennan tutkimusryhmä (SeCo)

Metatiedot organisaatioiden sisällönhallinnassa

Mikä on semanttinen web?

Eero Hyvönen. Semanttinen web. Linkitetyn avoimen datan käsikirja

Semanttinen Web. Ossi Nykänen. Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), W3C Suomen toimisto

Semanttinen Web. Ossi Nykänen Tampereen teknillinen yliopisto (TTY), DMI / Hypermedialaboratorio W3C Suomen toimisto

Paikkatiedot ja Web-standardit

Ohjelmistojen mallintaminen, mallintaminen ja UML

Semantic Web Sisältötuotannon ja palveluiden tulevaisuus

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

Yhteentoimivuusvälineistö

ARVO - verkkomateriaalien arviointiin

Semanttinen Web. Ossi Nykänen. Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), Hypermedialaboratorio W3C Suomen toimisto

Yhteisöllinen mallintaminen ja hajautetut mallit Ari Jolma Aalto-yliopisto. Mallinnusseminaari 2011 Lahti. Ari Jolma 1

Arkkitehtuurikuvaus. Ratkaisu ohjelmistotuotelinjan monikielisyyden hallintaan Innofactor Oy. Ryhmä 14

ONTOLOGIOIDEN KEHITTÄMINEN LAINSÄÄDÄNTÖTYÖTÄ VARTEN

Yhteentoimiva.suomi.fi - palvelukokonaisuuden ja työkalujen esittely

Ensi askeleet semanttiseen webiin: tuotantoprojektin kokemuksia

TIEDONHAKU INTERNETISTÄ

CIRI Ontologiaperustainen tiedonhakuliittymä

ONKI kansallinen ontologiapalvelu: kohti yhtenäistä sisällönkuvailua

Johdatus rakenteisiin dokumentteihin

Tekijän nimi

standardit (W3C, ISO) Semanttisen laskennan tutkimusryhmä Teknillinen korkeakoulu

Älykkäät keltaiset sivut ( Intelligent Web Services ( IWebS ) )

Olio-ohjelmoinnissa luokat voidaan järjestää siten, että ne pystyvät jakamaan yhteisiä tietoja ja aliohjelmia.

Yhteentoimivuus - kattaa strategisen, lainsäädännnöllisen, organisaatioiden välisen, semanttisen ja teknisen yhteentoimivuuden

SOVELLUSALUEEN KUVAUS

Open Journal Systems digitoitujen aineistojen tallennusalustana ANTTI-JUSSI NYGÅRD SUUNNITTELIJA, TIETEELLISTEN SEURAIN VALTUUSKUNTA

Sisällys. Valtion tietotekniikan rajapintasuosituksia. XML:n rooleja sähköisen asioinnin tavoitearkkitehtuurissa. dbroker - asiointialusta

Mitä mahdollisuuksia tuloksemme tarjoavat museoille?

Keltaisten sivujen palveluiden kuvaaminen ontologioiden avulla

Semanttinen web ja sukututkimus

Ontologiakirjasto ONKI-Paikka

Käsitemallit muistiorganisaatioiden kuvailun yhdenmukaistamisen välineenä

Epätäsmällisen tiedon esittäminen semanttisen webin ontologioissa

Testausraportti. Orava. Helsinki Ohjelmistotuotantoprojekti HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

Kiinteistö- ja rakennusalan digitalisaatio: BIM & GIS

W3C-teknologiat ja yhteensopivuus

MALog-projekti kehittää oppimateriaalia matemaattiseen logiikkaan. Insinöörikoulutuksen foorumi

Semantic Web käytännön sovelluksissa. TkT Janne Saarela Profium Oy

Julian graafinen annotointityökalu ja erityisontologioiden editori. Jaason Haapakoski P Kansanterveyslaitos , 28.3.

ONKI-projekti tuo ontologiat käyttöön sisällönkuvailussa

Järjestelmäarkkitehtuuri (TK081702) Web Services. Web Services

Miksi asiasanastot eivät riitä vaan tarvitaan ontologioita?

Semanttisen tietämyksenhallinnan mahdollisuudet sosiaalityön tiedonmuodostuksessa

Järjestelmäarkkitehtuuri (TK081702) Lähtökohta. Integroinnin tavoitteet

Open Journal Systems digitoitujen aineistojen tallennusalustana ANTTI-JUSSI NYGÅRD SUUNNITTELIJA, TIETEELLISTEN SEURAIN VALTUUSKUNTA

FiSMA 1.1 Toiminnallisen laajuuden mittausmenetelmä Ohje monikerrosarkkitehtuurin mittaamiseen

Tietohallinto Projektipäällikkö Matti Sairanen. Fujitsu Myyntijohtaja Markku Örn

Verkko-oppiminen: Teoriasta malleihin ja hyviin käytäntöihin. Marleena Ahonen. TieVie-koulutus Jyväskylän lähiseminaari

Yhteentoimivuusalusta ja Sanastot-työkalu

JHS 179 Kokonaisarkkitehtuurin suunnittelu ja kehittäminen Liite 2. Liiketoimintamallit ja kyvykkyydet KA-suunnittelussa

Valtionhallinnon arkkitehtuurin kehittäminen

Ontologioiden yhdistäminen YSO:oon

MOBISITE-TYÖKALUN SISÄLTÄMÄT TOIMINNOT

FARAX johtamisstrategian räätälöinti

Laki kulttuuriaineistojen tallettamisesta ja säilyttämisestä /1433 Verkkoaineisto

Tietopolitiikan valmistelun tilanne O-P Rissanen JUHTA

Sisällönkuvailun tulevaisuus: YSA vai YSO?

Verkostojen rakentaminen ja ylläpito, tiedon elinkaariajattelu projektitoiminnassa. Ilkka Lehtinen, COSS

Suomi.fi palvelutietovaranto

Internet jolla on merkitystä

Sosiaalinen Media organisaation kommunikoinnissa. Jukka Ruponen, IT Arkkitehti, Innovaattori

AVOIN DATA AVAIN UUTEEN Seminaarin avaus Kansleri Ilkka Niiniluoto Helsingin yliopisto

Yhteentoimivuusalusta ja sen hyödyntäminen kuntien/maakuntien taloushallinnossa Petri Tenhunen, VRK

Reilun Pelin työkalupakki: Kiireen vähentäminen

Kandi/Gradu Tieteellinen (systemaattinen) kirjallisuuskatsaus. Perinteisen kirjallisuuskatsauksen sudenkuopat:

Semanttisen webin hyödyntäminen terveystiedon löydettävyydessä

REKISTERI- JA TIETOKANTA-AINEISTOJEN SIIRTÄMINEN VAPA-PALVELUUN

Opistojohtaminen muutoksessa hanke. Kansanopiston kehittämissuunnitelma. Tiivistelmä kehittämissuunnitelman laatimisen tukiaineistoista

Risto Pelin Microsoft Project 2002 projekti- ja yritystason järjestelmänä

Purot.net Wiki. Tutkielma. Paavo Räisänen. Centria Ammattikorkeakoulu

Enterprise SOA. Nyt. Systeemi-integraattorin näkökulma

Hieman lisää malleista ja niiden hyödyntämisestä

Ohjelmistotekniikan menetelmät, luokkamallin laatiminen

MONOGRAFIAN KIRJOITTAMINEN. Pertti Alasuutari

RDF ja RDFS. 8 RDF ja RDFS

Taustamuistio 1 (6) Yhteinen tiedon hallinta -hanke. Taustatietoa Sanaston metatietomallin määrittely -työpajan keskusteluun

KÄYTTÄJÄKOKEMUKSEN PERUSTEET, TIE-04100, SYKSY Käyttäjätutkimus ja käsitteellinen suunnittelu. Järjestelmän nimi. versio 1.0

Mistä on kyse ja mitä hyötyä ne tuovat?

Kasvua ja kilpailukykyä standardeilla. Riskit hallintaan SFS-ISO 31000

Rakenteisen oppimateriaalin tuottaminen verkossa esimerkki Rhaptos. Antti Auer Koordinaattori, HT Jyväskylän yliopisto Virtuaaliyliopistohanke

VALDA-tietojärjestelmän j versio 1

Yhteentoimivuutta edistävien työkalujen kehittäminen

3 Verkkosaavutettavuuden tekniset perusteet

Digitaalisuudesta muutosvoimaa

AVOIMEN TUOTTEEN HALLINTAMALLIT. Kunnassa toteutettujen tietojärjestelmien uudelleenkäyttö. Yhteentoimivuutta avoimesti

Transkriptio:

Kristiina Huhtanen ONTOLOGIOIDEN KEHITTÄMINEN JULKISHALLINTOON Tietojärjestelmätieteen kandidaatintutkielma 21.05.2003 Jyväskylän yliopisto Tietojenkäsittelytieteiden laitos Jyväskylä

TIIVISTELMÄ Huhtanen, Kristiina Marianne Ontologioiden kehittäminen julkishallintoon / Kristiina Huhtanen Jyväskylä: Jyväskylän yliopisto, 2003. 37 s. Kandidaatintutkielma Tässä tutkielmassa tarkastellaan ontologioita ja niiden kehittämistä julkishallintoon. Ontologialla tarkoitetaan yhteisesti sovittua, muodollisesti esitettyä käsitteistöä, joka on tarkoitettu tietokoneen tulkittavaksi. Tämän tutkielman tavoitteena on selvittää, mitä ontologiat ovat ja miten niitä suunnitellaan. Tarkoituksena on keskittyä julkishallintoon ontologioiden yhtenä sovellusalueena. Kattaviin menetelmäkuvauksiin ei pyritä. Julkishallinnolle haasteita asettavat nykypäivänä heterogeenisten tietokantojen tietojen yhdistäminen, informaation haku, tietämyksen hallinta sekä sähköiset asiointipalvelut. Ontologiat tuovat yhden osaratkaisun näihin haasteisiin. Aiheen käsittely tässä työssä perustuu aikaisemmista tutkimuksista koottuun tietoon. Tieteellisiin artikkeleihin perehtymällä on kartoitettu, mitä ontologiat ovat ja mitä on huomioitava niitä suunniteltaessa. Tutkielman tuloksena on kirjallisuuskatsaus, joka toimii lyhyenä opastuksena ontologioihin. Tuotettu kartoitus osoittaa, että ontologioiden suunnittelu on haastavaa ja vaatii sekä laajaa yhteistyötä eri osapuolten kesken että kattavan kokonaisstrategian, joka ottaa huomioon myös sosio-teknisen infrastruktuurin. AVAINSANAT: ontologia, ontologioiden suunnittelu, julkishallinto

SISÄLLYS 1 JOHDANTO... 4 2 ONTOLOGIAT JA NIIDEN TARKOITUS... 7 2.1 Määritelmiä ja käsitteitä... 7 2.2 Perusidea... 10 2.3 Ontologioiden käyttötapoja... 14 3 ONTOLOGIOIDEN SUUNNITTELU... 16 3.1 Suunnittelun lähestymistapoja... 16 3.2 Kehitettyjä esityskieliä, editoreja ja ontologioita... 20 3.3 Tutkimussuuntauksia... 21 4 JULKISHALLINTO SOVELLUSALUEENA... 23 4.1 Haasteita... 23 4.2 Huomioitavia asioita... 25 4.3 Ontologioiden kehittämistilanne julkishallinnossa... 27 4.4 Esimerkki ontologian kehittämisestä: EDC-projekti... 28 5 YHTEENVETO... 31 LÄHDELUETTELO... 33 KUVIO 1. Yksinkertainen luokkahierarkia...9 KUVIO 2. Yksinkertainen käsitekartta...12 TAULUKKO 1. Ontologioiden käyttötavat...12 TAULUKKO 2. Ontologioiden suunnittelun lähestymistavat...16 TAULUKKO 3. Ontologiakieliä, editoreja ja ontologioita...20

1 JOHDANTO Tämän kandidaatintutkielman aiheena ovat ontologiat ja niiden kehittäminen. Ontologioiden sovellusalueista tarkastellaan lähemmin julkishallintoa. Artikkeleissa usein lainatun Gruberin (1993, 199) mukaan ontologia on formaali, eksplisiittinen määrittely yhteisestä käsitteistöstä. Studer, Oppermann ja Schnurr (2001, 34) määrittelevät ontologian laajemmin asiantuntijoiden ja/tai käyttäjien sopimaksi, maailmasta tai sen osasta luoduksi, muodolliseksi malliksi, joka sisältää käsitteitä ja niiden välisiä suhteita. Hovy (2003, 48) on samoilla jäljillä määritellen ontologian lyhyesti systematisoiduksi joukoksi termejä, jotka muodostavat hierarkian. Gruninger ja Lee (2002, 40) toteavat ontologian elinkaaren sisältävän suunnittelun, evaluoinnin, validoinnin, ylläpidon, muokkaamisen, sijoittamisen, kartoittamisen, yhdistämisen, jakamisen ja uudelleenkäytön. Tässä tutkielmassa keskitytään lähinnä ontologioiden suunnitteluun, johon on Holsapplen ja Joshin (2002, 43) näkemyksen mukaan olemassa viisi lähestymistapaa: inspiroiva, induktiivinen, deduktiivinen, yhdistävä ja yhteistoiminnallinen. Ontologiat ovat tie semanttiseen tiedonhallintaan, monikielisyyteen ja älykkäisiin tietopalveluihin. Siksi ontologioiden kehittäminen eri sovellusalueille, kuten julkishallintoon, on ajankohtaisen tutkimuksen ja kehityksen kohteena. Rosenbloomin ja Kravchukin (2002, 3-4) mukaan julkishallinto toteuttaa hallinnollisten, poliittisten ja lainsäädännöllisten prosessien kautta valtion

5 sääteleviä ja palvelevia toimintoja. Julkishallinnolle haasteita asettavat tällä hetkellä epäyhtenäisten tietovarastojen käyttäminen yhtenäisesti, informaation haku tietovarastoista, tuloksellinen tietämyksen hallinta sekä sähköisten asiointipalvelujen tarjoaminen kansalaisille, yrityksille ja yhteisöille. Tutkielma on muodoltaan kirjallisuuskatsaus ja sen tarkoituksena on toimia lyhyenä opastuksena ontologioihin ja niiden kehittämiseen julkishallintoon. Tällöin kohderyhmänä ovat erityisesti julkishallinnon tietojärjestelmien asiantuntijat, mutta myös muut asiasta kiinnostuneet, kuten tutkijayhteisön edustajat. Tutkimusongelmana selvitetään, mitä ontologiat ovat ja mitä asioita on otettava huomioon kehitettäessä ontologioita julkishallintoon. Julkishallintoa käsitellään yhtenä kokonaisuutena eli mihinkään julkishallinnon osaan ei keskitytä sen tarkemmin. Tutkielman tavoitteena on luoda yleiskäsitys ontologioista ja niiden suunnittelun lähestymistavoista. Lisäksi tavoitteena on tuoda esille joitakin suosituksia siitä, kuinka ontologioiden kehittämisprojektissa kannattaa edetä. Ontologioiden suunnittelu on haastavaa ja vaatii huolellista suunnittelua, kokonaisstrategian luomisen, laajan yhteistyön tekemisen sekä sosio-teknisen infrastruktuurin huomioon ottamisen. Julkishallinnon lisäksi tuloksia voidaan soveltaa myös muihin organisaatioihin, jotka kohtaavat samanlaisia haasteita. Tosin tällöin toimintaa ei välttämättä ohjaa niin tiukat säännökset ja resursseja on mahdollisesti helpompi jakaa.

6 Ontologian määritelmiä ja perusideaa sekä käyttötapoja selvitetään luvussa 2. Ontologioiden suunnittelua, kehitettyjä esityskieliä, editoreja ja ontologioita sekä tutkimussuuntauksia esitellään luvussa 3. Julkishallinnon haasteita, ontologioiden kehittämisprojekteja aloitettaessa huomioitavia asioita sekä ontologioiden kehittämisen nykytilannetta tarkastellaan luvussa 4. Tutkielman päättää luvussa 5 lyhyt yhteenveto työssä tarkastelluista asioista.

7 2 ONTOLOGIAT JA NIIDEN TARKOITUS Tässä luvussa keskitytään ontologian määritelmien, käsitteiden ja perusidean hahmottamiseen. Lisäksi selvitetään ontologioiden erilaisia käyttötapoja. 2.1 Määritelmiä ja käsitteitä Alunperin sana ontologia (engl. ontology) on peräisin filosofiasta, missä sillä käsitetään olemassaolon ja olemassaolevan tutkimista (Gruninger & Lee 2002, 39). Ontologia-sana on otettu käyttöön IT-alalla, mutta yksimielisyyttä sanan tarkasta määritelmästä ei ole löydetty, sillä toisistaan hieman poikkeavia määritelmiä on useita (Gruninger & Lee 2002, 39; Guarino 1997). Gruberin (1993, 199) mukaan ontologia on formaali, eksplisiittinen määrittely yhteisestä käsitteistöstä. Käsitteistöllä tarkoitetaan abstraktia mallia siitä, miten ihmiset ajattelevat rajoitetusta aihealueesta. Formaalisuus ja eksplisiittisyys eli järjestelmällisyys ja täsmällisyys mahdollistavat käsitteistön koneellisen tulkinnan, sillä käsitteet ja niiden väliset suhteet ilmaistaan selkeillä termeillä ja määritelmillä. Käsitteistön yhteisyys mahdollistaa tietämyksen jakamisen, yhdistämisen ja yhteiskäytön. (Gruninger & Lee 2002, 40; Hyvönen 2001, 6) Hyvösen (2001, 6) mukaan ontologiat ovat käytännössä "eri sovellusalojen terminologisia käsitehierarkioita, joissa määritellään alalla käytettävät termit ja käsitteet ja näiden välisiä suhteita". Ontologialla tarkoitetaan tavallisesti siis käsitejoukkoa suhteineen, joka on muodostettu jostain tietystä aihealueesta (Holsapple & Joshi 2002, 42). Aihealueen asioista ja käsitteistä (objekteista/olioista) voidaan löytää erilaisia ominaisuuksia, jotka esitetään ontologiassa. Näiden ominaisuuksien perusteella voidaan aihealueen käsitteet

8 liittää toisiinsa. Ontologia ei ole siis pelkästään sanasto jostain tietystä aihealueesta, vaan ontologia määrittelee myös käsitteiden keskinäisiä suhteita. Idea onkin, että ontologioissa tieto on hyvin loogisesti järjestettyä. Hendler (2001, 30) ottaa omaan määritelmäänsä mukaan päättely- ja logiikkasäännöt toteamalla, että ontologia on joukko tietämystermejä, joka sisältää sanaston, semanttiset yhteydet sekä yksinkertaisia päättely- ja logiikkasääntöjä. Esimerkiksi ruoanlaiton ja keittokirjojen ontologia sisältää tiedot aineksista ja niiden yhdistämisestä sekä haudutuksen ja uppopaistamisen eroista. Lisäksi ko. ontologia sisältää oletuksen siitä, että öljy on ruoanlaittoa eikä auton moottoria varten jne. Ontologioihin liittyy muutamia peruskäsitteitä (Berners-Lee, Hendler & Lassila 2001, 38-39; Chandrasekaran, Josephson & Benjamins 1999, 22). Ensimmäinen käsite on luokka (engl. class), jonka piiriin kuuluu alaluokkia (engl. subclass). Jos luokka on jonkin toisen luokan alaluokka, niin sillä on aina yläluokka (engl. superclass). Luokat ja alaluokat muodostavat luokkahierarkian (engl. class hierarchy). Luokkahierarkiassa alimmaisena ovat ilmentymät (engl. instance tai entity), jotka ovat ko. luokkaan liittyviä jäseniä eli yksilöitä. Ontologioissa pyritään määrittelemään myös luokkien välisiä ominaisuuksia (engl. properties tai attributes). Ominaisuus periytyy alaluokille ja jokaisella ilmentymällä on määritetty kyseiselle ominaisuudelle jokin arvo (engl. value). Tätä ontologioiden ominaisuutta kutsutaan perinnöllisyydeksi (engl. inheritance). Suhteita (engl. relations) voidaan ilmaista ilmentymien kesken määrittelemällä ominaisuuksia luokille ja antamalla alaluokkien periä kyseiset ominaisuudet. Ontologioissa voidaan määritellä myös rajoitteita (engl. constraints) ominaisuuksille.

9 Ajatellaan esimerkkinä kaupungin tai kunnan tarjoamia palveluita, joista muodostetaan yksinkertainen luokkahierarkia (KUVIO 1). Palvelut-luokasta voidaan eritellä alaluokkia, kuten liikunta- ja kulttuuripalvelut. Liikunta voidaan jakaa sisä- ja ulkoliikuntaan sekä kulttuuri taiteeseen ja musiikkiin. Sisäliikunta-luokan yksi ilmentymä on kuntosali ja musiikin ooppera. Yleensä luokkahierarkian luokat kuvataan soikeina, ilmentymät suorakulmioina ja alaluokat liitetään luokkiin nuolilla. KUVIO 1. Yksinkertainen luokkahierarkia Tarkastellaan kuvion 1 luokkahierarkiaa. Kaupungeilla on tietty budjetti tarjoamilleen palveluille. Määritellään siis palvelut-luokalle tämä ominaisuus. Kyseinen ominaisuus periytyy alaluokille ja jokaisella ilmentymällä on määritetty kyseiselle ominaisuudelle jokin arvo, joka tässä tapauksessa tarkoittaa budjetin suuruutta. Liikunta-luokalle voidaan määritellä ominaisuus nimeltä hinta. Sisäliikunta-luokan hinta-ominaisuuden arvoksi voidaan määritellä esimerkiksi 5 euroa ja ulkoliikunta-luokan arvoksi 0 euroa. Tällöin ontologia olettaa, että kaikki sisäliikuntapaikat ovat käyttäjille maksullisia ja ulkoliikuntapaikat maksuttomia.

10 Guarinon (1998, 9-10) mukaan ontologioita voidaan jaotella niiden yleistettävyyden perusteella eri kategorioihin. Ns. ydinontologiat (engl. core ontologies tai top-level ontologies) tarjoavat hyvät lähtökohdat erilaisten tarkemmin määriteltyjen aihealueontologioiden (engl. domain ontologies) tai tehtäväontologioiden (engl. task ontologies) muodostamiselle. Ydinontologiat ovat hyvin abstrakteja ja useat eri alat voivat käyttää niitä hyödyksi. Aihealueontologioiden käsitteistö rakentuu tietyn aihealueen ympärille. Tehtäväontologioiden käsitteistö puolestaan rakentuu jonkin metodin, tehtävän tai käyttötarkoituksen ympärille. Tehtäväontologia voi muodostaa aihealueontologian kanssa yhdessä jonkin ns. sovellusontologian (engl. application ontology), jota käytetään jossain tietyssä sovelluksessa. Yleistettävyyden lisäksi ontologiat voivat erota toisistaan muodollisuuden asteen perusteella. Sowa (2000) jakaa ontologiat vapaamuotoisiin (engl. informal) ja muodollisiin (engl. formal). Vapaamuotoisissa ontologioissa käsitteistön määrittelemiseen on käytetty luonnollisen kielen lauseita. Muodollisissa ontologioissa määrittelyyn on käytetty jonkin formaalin kielen käsitejoukkoja ja suhdetyyppejä, jotka on organisoitu hierarkkisesti. Esimerkiksi lista avainsanoista ja niiden selityksista on vapaamuotoinen ontologia, mutta synonyymien ja alakategorioiden käyttäminen lisäävät muodollisia elementtejä suhdetyyppien ja hierarkian kautta (Klischewski 2003, 4). 2.2 Perusidea Kimin (2002, 48) mukaan ontologiat yksinkertaisesti sanottuna koodaavat dataa eli sisältävät merkityksiä datasta. Esimerkiksi numero 4 on dataa, mutta ontologia voi sisältää tiedon, että tuolissa on neljä jalkaa. Klischewskin (2003, 3)

11 ja Castelin (2002, 29) mielestä ontologia on tapa kommunikoida. Yksi ontologioiden rooli onkin koneiden välisen vuorovaikutuksen hallinta. Holsapplen ja Joshin (2002, 42) mukaan ontologia on yhteinen kieli, jonka avulla voidaan jakaa ja uudelleenkäyttää tietämystä mielenkiinnon kohteena olevasta ilmiöstä. Gruninger ja Lee (2002, 40) ovat samaa mieltä todeten, että alkujaan ontologiatekniikoiden kehittämisen motiivina oli tarve jaettavissa ja uudelleenkäytettävissä oleville tietämyskannoille. Informaation ja tietämyksen jakaminen ja uudelleenkäyttö mahdollistuvat ontologioiden avulla, koska yhteisen kielen käyttämisellä voidaan taata, että kaikki ovat samaa mieltä termeistä, luokista, ominaisuuksista ja rajoitteista. (Hendler 2001, 32) Ontologia sisältää käsitteet ja niiden selitykset, käsitteiden väliset suhteet, ominaisuudet ja arvot, rajoitteet sekä joukon päättelysääntöjä. Käsitteinä voivat olla esimerkiksi työntekijä ja yritys. Niiden välillä on suhde: työntekijä työskentelee yrityksessä. Työntekijä-luokalla voi olla ominaisuutena sosiaaliturvatunnus. Rajoitteena on se, että jokaisella työntekijällä voi olla vain yksi sosiaaliturvatunnus. Yritys-luokan ilmentymänä voi olla Ravintola Safka ja työntekijä-luokan ilmentymänä Minna. Työntekijä-luokan ominaisuus eli sosiaaliturvatunnus periytyy ilmentymälle ja saa arvokseen Minnan sosiaaliturvatunnuksen, joka on ainutlaatuinen. Gruninger ja Lee (2002, 40) jakavat ontologioiden käyttötavat kolmeen eri osaan: kommunikointiin, koneelliseen päättelyyn ja tietämyksen hallintaan. Tarkemmat käyttötavat on kirjattu taulukkoon 1.

12 TAULUKKO 1. Ontologioiden käyttötavat Kommunikointi Koneellinen päättely Tietämyksen organisointi tietojärjestelmien kesken ihmisten kesken Ontologioiden käyttötavat ihmisten ja tietojärjestelmien kesken tiedon esittämiseen ja käsittelyyn sisäisesti tietojärjestelmien sisäisten rakenteiden, algoritmien, syötteiden ja tulosteiden analysointiin teoreettisesti ja käsitteellisesti aihealuetta koskevaa tietoa sisältävien tietovarastojen järjestämiseen ja uudelleenkäyttöön Kommunikointi on tärkeä ontologioiden käyttötapa. Jos kerrot ystävällesi ostaneesi tuolin, hänelle voi syntyä ko. tuolista aikaisemmin hankitun tiedon ja kokemusten perusteella aivan erilainen käsitys kuin sinulle. Sama tilanne on myös tietokoneiden keskinäisessä vuorovaikutuksessa - ne eivät välttämättä ymmärrä toisiaan oikein. Jos tietokoneella on käytössään ontologia, joka sisältää käsitekartan tuolista (ks. KUVIO 2), se voi jakaa sen toisen tietokoneen kanssa. Tällöin ne molemmat käyttävät tuolista samaa ontologiaa, ja siten ymmärtävät oikein sen, että kyseessä on tavallinen keittiön tuoli eikä esimerkiksi olohuoneen pehmeä nojatuoli. KUVIO 2. Yksinkertainen käsitekartta

13 Tietokoneet voivat käyttää käsitteiden välisiä suhteita päättelyjen tekemiseen. Koska tietokone ei oikeasti ymmärrä mitään informaatiota, se voi päättelysääntöjen avulla käsitellä termejä ihmiskäyttäjille merkityksellisillä tavoilla (Berners-Lee ym. 2001, 38-40). Automaattista koneellista päättelyä varten ontologiakielen on pystyttävä erittelemään käsitteet ja niiden väliset suhteet tarpeeksi formaalisti (Kim 2002, 51; Heflin & Hendler 2001, 55). Esimerkiksi katuosoitetietoon voidaan soveltaa sääntöä, että jos siihen liittyy jokin postinumero ja postinumeroon kaupunki, niin silloin katuosoite sijaitsee postinumeron osoittamassa kaupungissa. Ontologiat ovat tyypillisesti jaettavissa ja laajennettavissa (Heflin & Hendler 2001, 55). Ontologioiden avulla sovellukset vaihtavat informaatiota keskenään sekä keräävät ja käsittelevät sisältöjä. Ontologiat voivat sisältää linkkejä toisiinsa termien uudelleenkäyttöä ja jakamista varten. Mitä usemmat ihmiset käyttävät yhteisiä termejä, sitä helpommin informaatiota voidaan jakaa ja uudelleenkäyttää. (Hendler 2001, 31-32) XML-perustaisten nimiavaruuksien avulla hyvin määritellyt ontologiarajat katoavat. Ontologiat voivat viitata toisiinsa ja niitä voidaan yhdistää. (Maedche & Staab 2001, 74, 79) Esimerkiksi ontologiassa A koulu tarkoittaa rakennusta, ontologiassa B organisaatiota ja C- ontologiassa käytetään englanninkielen school-sanaa. Nimiavaruuksien määrittelemisen avulla nämä ontologiat voidaan yhdistää ilman päällekkäisyyksiä. Ontologioiden loogisten ja järjestelmällisten rakenteiden ansiosta niistä on hyötyä useilla eri tutkimusalueilla. Järjestelmät, joihin liittyvät tiedon hakeminen, esittäminen tai mallintaminen, hyötyvät ontologioista. Tällaisia ovat mm. erilaiset tiedonhakusysteemit, digitaaliset kirjastot ja Internetin hakuohjelmat (Chandrasekaran ym. 1999, 23). Nämä järjestelmät tarvitsevat

14 ontologioita tiedon järjestämiseen ja hakuprosessin ohjaamiseen. Ontologiat nähdään myös hyödyllisinä erilaisia ongelmanratkaisumenetelmiä käyttävissä sovelluksissa, sillä ontologialta voidaan kysellä ja sitä voidaan selata (Chandrasekaran ym. 1999, 25; Guarino 1998, 10). Kiinnostus ontologioihin on kasvanut, kun tutkijat ovat havainneet tiedon jakamisen sekä uudelleenkäytön tarpeellisuuden (Hendler 2001, 31-32; Heflin & Hendler 2001, 55). Ontologiat mahdollistavat tämän entistä tehokkaammin. Tähän asti yksi suurimmista esteistä tiedon tehokkaalle jakamiselle ja uudelleenkäytettävyydelle on ollut eri järjestelmien tietystä aihealueesta muodostaman käsitteistön ja mallinnuksen erilaisuus (Maedche & Staab 2001, 74). Tietyn aihealueen pohjalta muodostettua ontologiaa voidaan käyttää eri järjestelmissä, koska ontologian semantiikka on periaatteessa asiayhteydestä ja lukijasta riippumaton (Chandrasekaran ym. 1999, 20). 2.3 Ontologioiden käyttötapoja Ontologioita voidaan käyttää helpottamaan ja tehostamaan mm. sähköistä liiketoimintaa, tietämyksen hallintaa, informaation hakua ja heterogeenisten tietokantojen yhteentoimivuutta (engl. interoperability). Sähköinen liiketoiminta hyötyy ontologioista, koska yhteisesti jaetun aihealueontologian, kuten IT- ja elektrotekniikkateollisuuden RosettaNetin, avulla sähköisen kaupan agentit pystyvät jakamaan tietoa ja automatisoimaan toimintaansa. Tietämyksen hallinnan ja informaation haun tekevät ongelmalliseksi organisaatioiden tietovarastot, jotka sisältävät valtavia määriä monimuotoista, hajautettua ja useissa eri muodoissa tallennettua informaatiota (Fensel 2002, 56; Eberhart 2001). Ontologioita hyödyntävät dokumenttikannat ja

15 hakujärjestelmät vähentävät ongelmia. Dokumenttikantaa voivat käyttää yrityksen eri yksiköt, kuten myyntiosasto ja tekninen osasto. Eri käyttäjillä voi kuitenkin olla aiheeseen liittyen oma terminologiansa, esimerkiksi myyntimies ei välttämättä ymmärrä jonkin ominaisuuden teknistä nimeä. Tällöin joka yksikön termistölle voidaan luoda oma ontologia, jotka ovat kytköksissä siten, että sanojen käännökset kunkin yksikön "kielelle" tapahtuvat automaattisesti. Ontologioilla voidaan parantaa hakujen tarkkuutta, sillä hakujärjestelmä voi etsiä vain niitä dokumentteja, jotka viittaavat täsmälliseen käsitteeseen monimerkityksisten avainsanojen sijasta. Lisäksi päättelysääntöjä sisältävät ontologiat, jotka mahdollistavat informaation yhdistämisen monesta eri lähteestä, tarjoavat käyttäjälle mahdollisuuden saada sellaisia hakutuloksia, jotka eivät perinteisillä menetelmillä ole mahdollisia. Esimerkkinä ontologiaa hyödyntävästä portaalista on OntoWeb (http://www.ontoweb.org/), joka palvelee ontologioista kiinnostunutta akateemista ja teollista yhteisöä. Informaation yhdistäminen useista eri lähteistä ei ole yksinkertaista, sillä tietokannat voivat käyttää erilaisia tunnisteita kuvaamaan samaa käsitettä (Berners-Lee ym. 2001, 38). Tai toisaalta samalla käsitteellä voidaan tarkoittaa eri asioita (Hovy 2003, 47). Jos ohjelma haluaa verrata tai yhdistää informaatiota kahden tietokannan välillä, sen tarvitsee tietää, että kahta termiä käytetään tarkoittamaan samaa asiaa tai saman termin eri merkitykset. Ontologian avulla ohjelma havaitsee tietokantojen yhteiset tai erilaiset merkitykset. Eli ontologioiden ja metakuvausten avulla heterogeenisten tietokantojen tiedot saadaan semanttisesti yhteentoimiviksi. Seuraavassa luvussa keskitytään ontologioiden suunnitteluun ja lisäksi selvitetään erilaisia tutkimussuuntauksia.

16 3 ONTOLOGIOIDEN SUUNNITTELU Tässä luvussa selvitetään ontologioiden suunnittelun eri lähestymistapoja, listataan ontologiakieliä, editoreja ja valmiita ontologioita sekä tarkastellaan erilaisia tutkimussuuntauksia. 3.1 Suunnittelun lähestymistapoja Holsapplen ja Joshin (2002, 43-45) näkemyksen mukaan on olemassa viisi lähestymistapaa ontologioiden suunnitteluun: inspiroiva (inspirational), induktiivinen (inductive), deduktiivinen (deductive), yhdistävä (synthetic) ja yhteistoiminnallinen (collaborative) lähestymistapa. Myös eri lähestymistapojen yhdistelmät ovat mahdollisia. Lähestymistapojen lähtökohtia on lyhyesti esitelty taulukossa 2. TAULUKKO 2. Ontologioiden suunnittelun lähestymistavat Lähestymistapa Inspiroiva Induktiivinen Deduktiivinen Yhdistävä Yhteistoiminnallinen Lähtökohta Ontologia kehitetään ratkaisemaan aihealueessa havaittu ongelma.yksittäinen suunnittelija suunnittelee ontologian oman näkemyksenä mukaisesti. Ontologinen sitoutuminen voi jäädä heikoksi. Ontologia suunnitellaan havainnoimalla, tutkimalla ja analysoimalla aihealueen tiettyä yksittäistä tapausta. Tuloksena saatavia luonnehdintoja sovelletaan muihin saman aihealueen tapauksiin. Yleisiä periaatteita sovelletaan soveltuvin osin tiettyyn tapaukseen tarkoitetun ontologian suunnitteluun. Tämä vaatii mm. käsitteiden suodattamista ja räätälöintiä aihealueen mukaisiksi. Suunnittelija tunnistaa perusjoukon ontologioita, joista kukin sisältää osittaisen aihealueen luonnehdinnan. Kyseiset piirteet kustakin ontologiasta yhdistetään ja tuotetaan yhtenäinen ontologia. Suunnittelu tapahtuu useiden osapuolien yhteistyönä. Ontologia on useista eri näkökannoista aikaansaatu yhteisymmärrys. Siksi suunnittelun aikana on käytettävä yhteistyön organisointiin tarkoitettua menetelmää. Suunnittelun lähtökohtana voidaan käyttää hyväksi aikaisemmin luotua ontologiaa.

17 Eri lähestymistavoilla on sekä hyviä että huonoja puolia. Inspiroiva lähestymistapa on ehkä liian ad hoc -tyylinen ja epäkäytännöllinen, mutta toisaalta sillä saa aikaiseksi ainutkertaisia, innovatiivisia ontologioita. Induktiivisen lähestymistavan kautta luotu ontologia sopii mahdollisesti hyvin yksittäiseen tapaukseen, mutta ei ehkä ole yleistettävissä helposti. Deduktiivinen lähestymistapa edellyttää suunnittelijan näkökulmasta riippuvaa yleisen luonnehdinnan olemassaoloa ja valintaa. Myös yhdistävä lähestymistapa on hyvin suunnittelijakeskeinen, koska lopputulokseen vaikuttaa vahvasti suunnittelijan eri ontologioiden yhdistämistaidot. Yhteistoiminnallinen lähestymistapa on siitä erilainen, että se ottaa huomioon erilaisia näkökohtia ja toteuttaa iteratiivista työskentelytapaa. Ko. lähestymistavan onnistuminen on kiinni osapuolien luonteesta, osallistumisen asteesta ja vastaavan suunnittelijan kyvystä hallita yhteistyöprosessia. (Holsapple & Joshi 2002, 45) Hendler (2001, 31-32) suosittaa inkrementaalista ontologioiden suunnittelua, joka osittain vastaa Holsapplen ja Joshin (2002, 44) esittämää yhdistävää lähestymistapaa. Inkrementaalisessa suunnittelussa ontologia kootaan valitsemalla sopivat osat valmiista ontologioista ja lisäämällä vielä siihen tarvittavat lisäosat. Tämä lähestymistapa edellyttää ontologiakirjastojen luomista ja käyttämistä. (Hendler 2001, 32) Yksi tällainen ontologioiden säilytyspaikka on osoitteessa http://www.daml.org/ontologies/. Myös uudet ontologiat on tarpeen tallentaa kirjastoon, jotta se on muidenkin käytettävissä. Erityisiä sähköisiä ontologiakirjastoja on tarkoitus muodostaa enemmänkin, jotta tulevaisuudessa tarvittava informaatio olisi nykyistä paremmin löydettävissä ja saatavilla (Chandrasekaran ym. 1999, 19).

18 Sekä Holsapple ja Joshi (2002, 43), Gruninger ja Lee (2002, 40) että Gruber (1993, 201) painottavat ontologisen sitoutumisen (engl. ontological commitment) tärkeyttä. Sillä tarkoitetaan useiden osapuolien (ihmisten ja tietojärjestelmien) sopimusta omaksua tietty ontologia kun kommunikoidaan mielenkiinnon kohteena olevasta alueesta. Ontologiat siis edellyttävät yhteisymmärrystä eri osapuolten kesken. Osapuolilla kuitenkin saattaa olla perinpohjaisesti erilaisia näkemyksiä käsittelyn aiheen olevasta aihealueesta. Tämä asia aiheuttaa aikaisemmin mainittuja ongelmia ja haasteita ontologioiden suunnitteluun. Kun ontologinen sitoutuminen puuttuu, on vaikeaa keskustella selkeästi aihealueesta ja hyötyä muiden tietämyksestä. Siksi Holsapplen ja Joshin (2002, 43) mielestä toimenpiteet sitoutumisen varmistamiseksi ovat elintärkeitä ontologioiden suunnittelussa. Sitoutumien toteutuu, kun mahdolliset käyttäjät kokevat ontologian luonnehdinnat riittävän valmiiksi, oikeiksi, selviksi ja ytimekkäiksi. Degeratu ja Hatzivassiloglou (2002) erittelevät kolme ydinkomponenttia ontologian suunnittelussa: termien tunnistaminen, termien yhdistäminen vastaaviin käsitteisiin sekä termien ja käsitteiden välisten hierarkkisten ja eihierarkkisten suhteiden määritteleminen. Suunnittelun jälkeen seuraavana tehtävänä on semanttisesti järkevän käsitehierarkian rakentaminen. Ontologian luomisessa ja soveltamisessa on erotettava toisistaan käsitteet ja niiden väliset suhteet määrittelevä ontologia kokemusperäisistä tosiasioista ko. käsitteistä ja suhteista. Tosiasiat eivät ole osa ontologiaa, vaikkakin ne jäsentyvät sen mukaan. (Holsapple & Joshi 2002, 42) Ontologia voi esimerkiksi sisältää tiedon siitä, että maksamatonta laskua seuraa karhukirje, mutta ei tietoa

19 milloin. Todellisuudessa karhukirje lähetetään yleensä kuukauden sisällä, mutta tästä voi olla poikkeaviakin mielipiteitä ja tapoja. Noy ja McGuinness (2001) toteavat, että ontologioiden kehittämistekniikat ovat haaste ontologioiden suunnittelussa, sillä ne voivat vaikuttaa voimakkaasti suunnittelun tuloksena syntyvän ontologian käyttökelpoisuuteen. Erilaisia ontologioiden suunnittelumenetelmiä ja niiden yhdistelmiä kehitetään ja parannellaan, jotta suunnittelijat pystyisivät kehittämään mahdollisimman helposti ja tehokkaasti hyödyllisiä ontologioita. Yksi suunnittelumenetelmä on nimeltään Business Process and Data Driven Ontological Engineering Methodology, jonka kehittämisessä on käytetty hyväksi TOVE Ontological Engineering -menetelmää (Kim 2000). Kyseisessä suunnittelumenetelmässä hahmotetaan nykytila, määritellään vaatimukset ontologialle, tehdään ontologianalyysi nykytilan ja vaatimusten perusteella sekä kehitetään ontologia, joka täyttää sille asetetut vaatimukset (Kim 2000). Ontologioiden kehittämiseen liittyy monia käytännön vaikeuksia. Terminologian standardointi on hankalaa, aikaa vievää ja kallista johtuen eri tahojen erilaisista tarpeista ja mieltymyksistä (Gruninger & Lee 2002, 40; Holsapple ja Joshi 2002, 42). Ontologioilla on myös taipumusta muodostua laajoiksi, jolloin niiden hallinta voi olla vaikeaa, kun ajan kuluessa tapahtuu muutoksia (Hyvönen 2001, 7). Esimerkiksi valtioiden hajotessa valtioiden ontologia muuttuu, mikä aiheuttaa ongelmia, koska valtioiden avulla indeksoidaan paljon tietoja.

20 3.2 Kehitettyjä esityskieliä, editoreja ja ontologioita Ontologian luomiseksi tarvitaan formaali ontologiakieli, jolla määritellään käsitteet ja niiden väliset suhteet. Ontologioiden laatimisen ja hallinnan avuksi on kehitetty lukuisia editoreja. Useat niistä tarjoavat helppokäyttöisen graafisen käyttöliittymän ohella mm. apuvälineitä ontologian sisäisen yhtenäisyyden tarkistamiseen ja eri ontologioiden yhdistämiseen. Ontologioiden käyttötarkoitukset, lähestysmistavat ja tiedonesitysmekanismit eroavat toisistaan (Noy & Hafner 1997). Ontologioiden avulla voidaan esittää jonkin erityisalan ammattikäsitteitä ja -tietämystä, metatietoa, yleistä arkitietämystä, käsitteistöjä, tehtäviä, prosesseja ja palveluita (Hyvönen 2001, 6). Taulukossa 3 on mainittu joitakin ontologiakieliä, ontologiaeditoreja ja ontologioita sekä lisätietoja sisältäviä WWW-sivuja. TAULUKKO 3. Ontologiakieliä, editoreja ja ontologioita Ontologiakieliä DAML - DARPA Agent Markup Language OIL - Ontology Inference Layer DAML+OIL OWL - Web Ontology Language RDF(S) - RDF Schema XOL - Ontology Exchange Language Editoreja CODE4 JOE OntoEdit Protégé WebOnto Lisätietoja http://www.daml.org/ http://www.ontoknowledge.org/oil/ http://www.w3.org/tr/daml+oil-reference http://www.w3.org/tr/owl-ref/ http://www.w3.org/tr/rdf-schema/ http://www.ai.sri.com/pkarp/xol/ Lisätietoja http://www.csi.uottawa.ca/~doug/code4.html http://www.cse.sc.edu/research/cit/demos/java/joe/ http://ontoserver.aifb.uni-karlsruhe.de/ontoedit/ http://protege.stanford.edu/ http://kmi.open.ac.uk/projects/webonto/ (jatkuu)

21 TAULUKKO 3. (jatkuu) Ontologioita UN/SPSC, tuotteet/palvelut RosettaNet (IT- ja elektroniikkateollisuus) WordNet - Lexical database for the English language CYC SUO - Standard Upper Ontology Lisätietoja http://eccma.org/unspsc/ http://www.rosettanet.org/ http://www.cogsci.princeton.edu/~wn/ http://www.cyc.com/ http://suo.ieee.org/ 3.3 Tutkimussuuntauksia Monet lähteet korostavat ontologioiden uudelleenkäytettävyyden ja sen yhteydessä tiedon jaettavuuden sekä saavutettavuuden merkitystä (esim. Gruninger & Lee 2002; Chandrasekaran ym. 1999, 21). Näiden tavoitteiden perusteella useat tutkimushankkeet ovatkin keskittyneet muodostamaan useammille tahoille hyödyllisiä ontologioita. Tällaisia ontologioita ovat erityisesti abstraktit ydinontologiat, jotka tarjoavat useampien eri alojen suunnittelijoille mahdollisimman hyvät puitteet omien alojensa ontologioiden muodostamiseen. Ydinontologioiden pitää olla mahdollisimman riippumattomia aihealueesta. Kuitenkin myös aihealueontologioiden luomisen tärkeyttä korostetaan eri lähteissä (esim. Hendler 2001, 31; Maedche ja Staab 2001, 72). Laajojen ja monimutkaisten ydinontologioiden kehittämisen sijaan muodostetaan aihealueja tehtäväontologioita. Aihealueontologiaa muodostettaessa on selvää, että ontologia riippuu yleensä tarkasteltavasta näkökulmasta. Ontologiassa luokalle voidaan määritellä osaluokat riippuen näkökulmasta, jolloin se muodostuu erilaiseksi alkuperäiseen verrattuna. Kuitenkin tavoitteena on, että ontologiat

22 olisivat mahdollisimman monen alan käytössä. Tämän vuoksi olisi tarkoituksenmukaista pyrkiä mahdollisuuksien mukaan käyttötarkoituksesta riippumattomaan ontologiaan (Guarino 1997; Chandrasekaran ym. 1999, 23). Siksi aihealue- ja tehtäväontologiat pyritäänkin nykyään muodostamaan pienistä ontologisista komponenteista, jotka koostuvat suurimmaksi osaksi osoittimista (engl. pointer) toisiinsa (Hendler 2001, 31). Tällöin siirrettävyys ja uudelleenkäyttö mahdollistuu aikaisempaa paremmin. Itse ontologioiden lisäksi tutkimuksen kohteena ovat teknologiat, joilla voidaan automaattisesti rakentaa ja hyödyntää laajoja ontologioita. Myös työkaluja informaation semanttiseen merkkaamiseen kehitellään, sillä ilman sitä lisäarvoa tuottavilla työkaluilla ei ole paljon käyttöä. Tulevaisuudessa esimerkiksi WWW-sivueditorit voivat tuottaa automaattisesti semanttista sisältöä luomalla linkityksiä ontologioihin. (Hendler 2001, 31) Seuraavassa luvussa tarkastellaan julkishallintoa yhtenä ontologioiden sovellusalueena.

23 4 JULKISHALLINTO SOVELLUSALUEENA Tässä luvussa keskitytään julkishallintoon yhtenä ontologioiden sovellusalueena. Ensin pohdiskellaan julkishallinnon haasteita, sitten tarkastellaan ontologioiden kehittämisprojekteja aloitettaessa huomioitavia asioita ja selvitetään ontologioiden kehittämisen nykytilannetta sekä lopuksi annetaan yksi esimerkki ontologioiden kehittämisprojektista. 4.1 Haasteita Smithin ja Farquharin (2000) mukaan tietämyksen hallinta liittyy organisaatioiden jatkuvasti lisääntyvään tarpeeseen hankkia, ylläpitää ja hyödyntää omaa tietämystään kilpailuedun saamiseksi ja toimintojen tehostamiseksi. Tietämyksen hallinnan haasteita ovat Hyvösen (2001, 8) mielestä mm. tietovarastojen dokumenttien vapaamuotoisuus ja hajautus. Lisäksi haasteena on heterogeenisten järjestelmien yhteiskäyttö ja informaation haku tietovarastoista. Klischewski (2003, 1) nostaa julkishallinnon isoksi huolenaiheeksi sähköisten dokumenttien hallinnan. Hänen mielestään nykyiset ratkaisut ovat pääasiassa suljettuja järjestelmiä, jotka eivät tue organisationaaliset rajat ylittävää hallintaa eivätkä ole tarpeeksi kattavia kaikenlaisten sähköisten dokumenttien hallintaan. Sähköiset dokumentit tulisi pystyä järjestämään ja esittämään siten, että käyttäjät pystyvät hakemaan halutut dokumentit tai vähintääkin informaation, joka viittaa dokumenttiin. Lisäksi käyttäjien tulisi saada vastauksia tietyistä aiheista esitettyihin kyselyihin. (Klischewski 2003, 1-3) Myös Heflin ja Hendler (2001, 54) toteavat, että nykyään ongelmia aiheuttavat informaation paikallistaminen, organisointi ja yhdistäminen.

24 Järjestelmien lisäksi riskejä ja puutteita aiheuttavat myös sähköisten dokumenttien luominen ja käsittely yksilöllisellä työskentelytavalla käyttäen hyväksi moninaisia työkaluja (office-paketti, sähköposti, intranet). Tästä aiheutuu muun muassa arkistojen epäjärjestelmällisyys, dokumenttien ylimäärä (sama dokumentti tallennettu useita kertoja), tallennuskapasiteetin täyttyminen, informaation löytämisen vaikeus ja arkistointiprosessien monimutkaisuus. (Klischewski 2003, 3) Julkishallinto tuottaa valtavia määriä tietoa, sillä sen eri tahot keräävät erilaisia tietoja eri lähteistä eri aikoihin. Kerätyt tiedot tallennetaan erilaisiin tietovarastoihin eri muodoissa käyttäen erilaisia termejä asioiden kuvaamiseen. Virastoilla on siten tuhansia tiedostoja tallennettuna monessa eri muodossa. Lisää tietoa tallennetaan joka päivä. Osa tiedosta voi olla limittäistä tai toisiaan täydentävää (esim. yhden tietokannan yksilö voi olla osa perhettä toisessa tietokannassa). Kaikki tämä aiheuttaa epäyhtenäisyyttä, ja siksi tiedon yhtenäistämiseen tarvitaan mekanismi, jollainen ontologia on. (Hovy 2003, 47) Klischewskin (2003, 4) mukaan ontologioiden kehittäminen julkishallintoon tukee ainakin seuraavia tavoitteita: systemaattinen standardeihin perustuva resurssien hallinta tuki hallinnollisille prosesseille yli yksikkörajojen kyselyihin vastaaminen, tiedonhaku ja tietämyksen hallinta. Ontologioiden avulla voidaan luoda eri aloille sisällöllisiä standardeja, jotka integroituvat luontevasti dokumenttien hallintaan ja Internet-palveluihin (Hyvönen 2001, 8). Julkishallintokohtaisen ontologian avulla voidaan antaa ihmisille ja tietokoneille ymmärrys toiminnan ja viestinnän kohteena olevista

25 asioista. Ilman tällaista yhteistä terminologiaa ja kieltä julkishallinnon järjestelmät eivät voi toisiaan syvällisemmin ymmärtää. 4.2 Huomioitavia asioita Klischewski (2003, 2) havaitsi julkishallintoa koskevassa tutkimuksessaan, että kunnianhimoisen ontologia-perustaisen lähestymistavan toteuttaminen vaatii monimutkaisen infrastruktuurin käyttöönottoa. Lisäksi hän havaitsi, että resurssien jakamiseen liittyy useita riskejä, joita julkishallinto ei pysty tai ehkä halua kantaa. Myös Scherlis ja Eisenberg (2003, 68) toteavat, että virastoilta usein puuttuu kannustimia innovoida tai rakentaa virastojen välisiä valmiuksia. Siten heidän mielestään tulisi tukea virastojen välistä yhteistyötä ja ottaa käyttöön erilaisia kannustinjärjestelmiä. Noyn ja McGuinnessin (2001) sekä Klischewskin (2003, 6) huomioita yhdistämällä saa melko kattavan kuvan siitä, miten ontologioiden kehittämisprojekteissa kannattaa edetä. Ensimmäiseksi kannattaa perehtyä ontologioihin ja niihin liittyviin työkaluihin. Samalla kannattaa luoda mahdollisimman kattava yhteistyöverkosto, joka käsittää sekä julkishallinnon että tutkijayhteisön edustajia. Scherlis ja Eisenberg (2003, 68) sekä Klischewski (2003, 2) suosittavat verkottumista ja liittoutumista muiden julkishallinnon toimijoiden, tutkimusinstituuttien, kaupallisten yritysten yms. kanssa tavoitteena saavuttaa yhteiset tavoitteet jaettujen resurssien jakamisen kautta. Samanaikaisesti tulisi evaluoida muita projekteja ja ottaa niistä oppia. Muihin projekteihin tutustumisen jälkeen sekä Noy ja McGuinness (2001) sekä Klischewski (2003, 7) kehottavat luomaan oman toimintamallin. Toimintamallin tarkoituksena on tunnistaa strategiset päämäärät, tavoitteet,

26 prosessit ja toimijat. Toteuttamisprosessia koskien pitää eritellä, kenen pitäisi osallistua, mitä tarpeita täytetään, mitä tulevaisuuden toimintoja tullaan tukemaan sekä minkälainen teknologia ja infrastruktuuri pitää ottaa huomioon (Klischewski 2003, 7). Toimintamallin luomista varten kannattaa kartoittaa nykytila ja ideoita siitä, kuinka tulevaisuudessa voitaisiin toteuttaa ongelmakohtia paremmin. Tämä kartoitus voidaan toteuttaa haastattelujen avulla, jolloin toimijat sitoutuvat mahdollisesti toteutettavaan kehittämisprojektiin paremmin. Vastauksien evaluoinnin ja toimintamallin luomisen jälkeen pitää tarkistaa toteutettavuus erityisesti riskien osalta. Klischewski (2003, 7) toteaa, että painavimmat riskit liittyvät vaaditun infrastruktuurin käyttöönottoon. Näitä riskejä ovat henkilöresurssien ja rahallisten resurssien puuttuminen, muualla tehdyn kehitystyön nouseminen standardiksi sekä vaikeus osoittaa projektin kannattavuus. Riskien pienentämiseksi kannattaa muun muassa hyödyntää kansainvälisiä ja kansallisia standardeja mahdollisimman paljon sekä edetä pienissä vaiheissa. Kokonaisstrategia ja visio tulevasta toiminnasta ja sen hyödyistä ovat tärkeitä, jos ja kun ontologian kehittämisprojekti päätetään käynnistää. Toimintamallin perusteella projektissa voidaan tehdä valintoja koskien lähestymistapaa, ontologian monimutkaisuutta ja jaettavuutta sekä ontologiasovellusta tukevaa sosio-teknistä infrastruktuuria. On nimittäin tärkeää huomata, että ontologia on vain osa kattavasta infrastruktuurista, jonka pitää kattaa myös organisaation kattavan sopimuksen sähköisten dokumenttien hallinnasta, teknisten ja organisationaalisten järjestelmien ja verkostojen integroinnin, yhteentoimivuuden eri sähköisten arkistojen välillä,

27 käyttäjien taitojen ja osaamisen kehittämisen sekä menettelytavat koskien autentikointia, salaisuutta, jakamista ja avoimuutta Klischewski (2003, 6). 4.3 Ontologioiden kehittämistilanne julkishallinnossa Eri maiden julkishallintojen ontologioiden kehittämisprojekteista on tietoa esimerkiksi Klischewskin artikkelissa (2003, 4-5). Suomen julkishallinnossa meneillään olevista ontologioiden kehittämisprojekteista oli kuitenkin saatavilla niukasti informaatiota. Tässä alaluvussa esitellään lyhyesti yksi jo valmis ontologiaa hyödyntävä ja toinen vielä kehitystyön alla oleva verkkopalvelu. Merentutkimuslaitos toteutti yhteistyössä kaupallisten yritysten, Woima Interactiven ja Nobman Informatics Oy:n kanssa uudistetun Itämeriportaalin (http://www2.fimr.fi/fi/itamerikanta.html), joka tiedottaa Itämereen liittyvistä asioista. Julkinen verkkopalvelu tarjoaa puolitieteellisiä ja populaareja dokumentteja, artikkeleita, tiedotteita ja kuvia Itämerestä ja sen tutkimuksesta. Dokumentteja tuottaa kansainvälinen toimituskunta neljällä kielellä. (Woima Interactive Oy 2002) Itämeriportaalin eräänä lähtökohtana on ollut helppo laajennettavuus ja joustava ylläpito, jotta verkkopalvelua voidaan kehittää jatkuvasti. Sisältö on tallennettu erityyppisinä XML-dokumentteina (ks. esim. Harold 2001). Dokumenttityypit eroavat toisistaan metatiedon ja sisältöelementtien suhteen. Dokumenttien metatieto noudattaa Dublin Core suositusta (ks. esim. ISO 2003). Järjestelmässä on mahdollista sekä XML-kielisen sisällön että RDFkielisen (ks. esim. Lassila & Swick 1999) metatiedon tuonti ja vienti. Verkkopalvelun hakujärjestelmää varten on DAML-kielellä (ks. esim. Lassila,

28 van Harmelen, Horrocks, Hendler & McGuinness 2000) ohjelmoitu ontologia, jossa määritellään sanoille merkityksiä ja sanojen välisiä suhteita. Kun dokumentteja haetaan, niistä etsitään käsitteitä eikä ainoastaan sanaesiintymiä. Näin ollen hakujärjestelmä ymmärtää sanoista myös synonyymejä, eri taivutusmuotoja, sekä sanoille muuten läheisiä käsitteitä. (Woima Interactive Oy 2002) Finnish Museums on-line on Helsingin yliopiston tutkimusprojekti, jossa pyritään yhdistämään kahden museon tietokannat WWW:ssä. Museoiden tietokantojen sisällöt julkaistaan samalla tavalla kuten tavalliset WWW-sivut, mutta verkkomönkijää käytetään hakemaan ja indeksoimaan sisältöä. Hakutoiminnot on sijoitettu palvelimelle. Tällaisesta löysästä tietokantojen yhdistämisestä on hyötyä siten, että eri osapuolet voivat julkaista ja hallita sisältöä riippumatta palveluntarjoajasta. (Hyvönen, Kettula, Raatikka, Saarela & Viljanen 2002) Museoiden tietokannat on tehty yhteentoimiviksi semanttisella tasolla. Syntaktisella tasolla käytössä on XML- ja RDF-kielet rakenteen ja metatiedon esittämiseksi. Semanttisella tasolla käytössä on RDF Schema (ks. esim. Brickley & Guha 2003), joka on RDF-sovelluksessa käytettävien termien, tyyppirajoitusten ja arvojen kuvaamiseen käytettävä kieli. (Hyvönen ym. 2002) 4.4 Esimerkki ontologian kehittämisestä: EDC-projekti Tämän alaluvun koostamiseen on käytetty seuraavia artikkeleita: Hovy (2003) ja Ambite ym. (2001). Kyseisistä artikkeleista saa lisätietoja tässä esimerkkinä lyhyesti esitetystä projektista ja sen tuloksista.

29 Yhdysvaltalainen tutkimuskeskus DGRC (Digital Government Research Center; http://www.dgrc.org/) tutkii erilaisia lähestysmistatapoja ja teknologioita koskien sähköistä julkishallintoa. Tutkimuskeskuksen muodostavat Etelä- Kalifornian ja Columbian yliopistojen tutkimuskeskukset ja tietojenkäsittelytieteiden laitokset. Tutkimuskeskuksen EDC-projekti (Energy Data Collection) on pyrkimys järjestää virastojen käyttämä terminologia ontologiaksi, joka parantaa käyttäjien pääsemistä käsiksi tietoon. EDC-projekti alkoi vuonna 1999 ja julkishallinnosta siinä ovat mukana energiainformaatiohallinto (Energy Information Administration), työvoimavirasto (Bureau of Labor Statistics), Kalifornian energiakomissio (California Energy Commisson) ja väestönlaskentavirasto (Census Bureau). Kyseiset julkishallinnon virastot julkaisevat kuukausittain laajasti energiatietoa yleisölle Internetissä HTML-sivujen ja PDF-dokumenttien avulla. Tämä rajoittaa tiedonhakumahdollisuuksia ja tiedon esittämistapoja. Siksi EDC-projektissa on ollut tavoitteena mahdollistaa toiminnallisempi ja yhtenäinen pääsy useisiin energiatietokantoihin. Projektin lähtökohtana on ollut siis kysymys siitä, miten tuhansien useilla eri tavoilla esitettyjen tiedostojen sisältöön voi päästä käsiksi standardisoidulla tavalla. Projektin aikana kehitetty prototyyppijärjestelmä sisältää kolme pääkomponenttia, jotka ovat käyttöliittymä, kyselyprosessori ja ontologia. Käyttöliittymän kautta käyttäjä voi tehdä kyselyjä selaamalla ontologiaa, tekemällä hakuja luonnollisen kielen avulla tai valikoista valitsemalla. Kyselyprosessori käyttää SIMS-järjestelmää (ks. Arens, Hsu & Knoblock 1996), joka hajottaa kyselyt tietokantakyselyiksi tietolähteiden sisällön ja luonteen mukaisesti, hakee datan niistä ja kokoaa tulokset uudelleen asianmukaisesti.

30 Sen jälkeen se palauttaa halutut tiedot ja graafit käyttöliittymälle näytettäväksi käyttäjälle. SIMS-järjestelmä käyttää aihemallia (domain model), joka määrittelee ja kuvailee datataulukoiden sisällön. Aihemalli, joka yhdenmukaistaa erilaisten tietokantojen metatietokuvaukset, muodostaa ontologian pohjimmaisen osan. Aihemallin moninaiset ryhmittymät edustavat itsenäisiä ja melko erilaisia käsitteitä, kuten bensatyyppi, maantieteellinen alue, mittayksikkö jne. Jotta nämä käsitteet on pystytty sijoittamaan yhteen johdonmukaiseen kehikkoon, projektissa on käytetty yhdistävänä ontologiana laajaa terminologista taksonomiaa nimeltä SENSUS (ks. Knight & Luk 1994). Aihemallit upotetaan laajan yleiskäyttöisen ontologian sisään ja linkitetään asianmukaisiin käsitteisiin. Tämä varmistaa sen, että erilaiset lähteet, joissa on samanlaista informaatiota, voivat jakaa tarkoituksenmukaiset aihemallien solmukohdat. Haasteita projektissa ovat aiheuttaneet tietokantojen paketointi (wrapping), aihemallien (domain model) luominen ja aihemallien linkittäminen ontologiaan. Erityisesti aihemallien luominen ja yhdistäminen ovat vaikeita toimenpiteitä. Luomisen tekee vaikeaksi tiedon louhiminen aihealueesta ja miniontologioiden rakentaminen. Aihemallien yhdistäminen ei ole helppoa, koska sen pitää tapahtua ristiriidattomasti, ilman limikkäisyyttä tai ylimäärää. EDC-projektissa pyritään automatisoimaan runsaasti ontologian ja aihemallien luomista. Tätä helpottamaan on projektissa kehitetty erilaisia algoritmeja. Seuraava luku on yhteenveto sisältöluvuissa käsitellyistä asioista.

31 5 YHTEENVETO Tällä hetkellä julkishallinnolle asettavat haasteita monet asiat, kuten epäyhtenäisten tietovarastojen käyttäminen yhtenäisesti ja informaation haku tietovarastoista. Näihin haasteisiin haetaan ratkaisua erilaisista teknologioista, kuten ontologioista. Siten tutkielman tavoitteena oli selvittää, mitä ontologiat ovat ja millaisia lähestymistapoja niiden suunnitteluun on olemassa. Lisäksi tavoitteena oli tuoda esille huomioita siitä, kuinka ontologioiden kehittämisprojektissa kannattaa edetä. Aiheen käsittely perustui kriittiseen tieteellisten artikkelien tutkimiseen. Perehtymällä artikkeleiden sisältämään tietoon oli mahdollista luoda yleiskäsitys ontologioista ja niiden suunnittelusta sekä julkishallinnon ongelmista ja ennen ontologian kehittämisprojektia tehtävistä asioista. Ontologiat ovat tietokoneen tulkittavaksi tarkoitettuja yhteisesti sovittuja ja muodollisesti esitettyjä käsitteistöjä. Ontologiat sisältävät merkityksiä datasta eli käsitteitä ja niiden selityksiä, käsitteiden välisiä suhteita, ominaisuuksia ja arvoja, rajoitteita sekä päättelysääntöjä. Ontologioita käytetään kommunikointiin, koneelliseen päättelyyn ja tietämyksen organisointiin. Ontologiat voivat olla yleiskäyttöisiä tai yhdelle aihe- tai tehtäalueelle tarkoitettuja. Ontologioiden suunnitteluun on olemassa erilaisia lähestymistapoja, joilla kaikilla on hyviä ja huonoja puolia. Ontologisen sitoutumisen muodostuminen on kuitenkin erittäin tärkeä asia ontologian käyttökelpoisuuden kannalta, ja yhteistoiminnallinen lähestymistapa tuntuu tukevan tätä näkökulmaa parhaiten. Tarkempia suunnittelumenetelmiä on myös kehitetty, mutta niitä ei

32 tässä tutkielmassa käsitelty. Ontologia luodaan formaalia ontologiakieltä käyttäen. Luomisessa voi käyttää apuna ontologiaeditoria. Erilaisten ontologiakielien ja -editorien avulla on jo kehitetty eri käyttötarkoituksiin soveltuvia ontologioita. Nykyisin julkishallinnolle asettavat haasteita muun muassa sähköisten dokumenttien hallinta, tietovarastojen dokumenttien vapaamuotoisuus ja hajautus, heterogeenisten järjestelmien yhteiskäyttö sekä informaation haku tietovarastoista. Ottamalla ontologioita käyttöön julkishallinnossa voidaan näihin haasteisiin vastata paremmin. Tosin muitakin tapoja on olemassa, mutta niitä ei tässä tutkielmassa huomioitu. Ontologioiden kehittämisprojekteja harkittaessa on huomioitava monia asioita, kuten kokonaisstrategian luominen, yhteistyön tekeminen, muiden projekteista oppiminen, toteutettavuuden varmistaminen, riskien hallinta sekä sosioteknisen infrastruktuurin sopeuttaminen. Nämä vaativat henkilöiden panostusta ja rahallisia resursseja, joten projekti kannattaa toteuttaa pienemmissä, paremmin hallittavissa osissa. Ontologioiden tulevaisuuden haasteita ovat muun muassa agenttiontologioiden kehittäminen ja Web-palvelut (engl. Web services). Agentit ovat ohjelmia, jotka keräävät sisältöä eri lähteistä, käsittelevät sitä ja vaihtavat tuloksia muiden ohjelmien kanssa. Agentit voivat saavuttaa jaetun ymmärryksen vaihtamalla ontologioita, jotka välittävät keskustelussa tarvittavan sanaston. Tulevaisuudessa, kun ontologioiden ja logiikan käsittelykielet kehittyvät lisää, laitteet voivat agenttien avulla automaattisesti etsiä ja käyttää Web-palveluja ja muita laitteita lisäinformaation tai toiminnallisuuden vuoksi. (Berners-Lee ym. 2001, 41-42)

33 LÄHDELUETTELO Ambite J.L., Arens Y., Gravano L., Hatzivassiloglou V., Hovy E., Klavans J., Philpot A., Ramachandran U., Sandhaus J., Singla A. & Whitman B. 2001. Simplifying Data Access: The Energy Data Collection (EDC) Project. IEEE Computer 34(2), 47-54. Arens Y., Hsu C-N. & Knoblock C.A. 1996. Query Processing in the SIMS Information Mediator. Teoksessa A. Tate (toim.) Advanced Planning Tehcnology. Menlo Park, California: AAAI Press. Berners-Lee T., Hendler J. & Lassila O. 2001. The semantic Web. Scientific American 284(5), 34-43. Brickley D. & Guha R.V. 2003. RDF Vocabulary Description Language 1.0: RDF Schema [online]. W3C Working Draft. Saatavilla www-muodossa <http://www.w3.org/tr/rdf-schema/>. Castel F. 2002. Ontological computing. Communications of the ACM 45(2), 29-30. Chandrasekaran B., Josephson J.R. & Benjamins R. 1999. What are ontologies and why do we need them? IEEE intelligent systems and their applications 14(1), 20-26. Degeratu M. & Hatzivassiloglou V. 2002. Building Automatically a Business Registration Ontology. Proceedings of The Second National Conference on Digital Government, Los Angeles, California, USA.

34 Eberhart A. 2001. Applications of the Semantic Web for document retrieval. Position paper, Semantic Web Working Symposium (SWWS 2001), Standford, California. Fensel D. 2002. Ontology-Based Knowledge Management. IEEE Computer 35(11), 56-59. Guarino N. 1997. Understanding, Building and Using Ontologies. International Journal of Human-Computer Studies 46(2-3), 293-310. Guarino N. 1998. Formal Ontology and Information Systems. Teoksessa N. Guarino (toim.) Formal Ontology in Information Systems. Proceedings of the First International Conference (FOIS'98), Trento, Italy. Amsterdam: IOS Press, 3-15. Gruber T.R. 1993. A Translation Approach to Portable Ontology Specifications. Knowledge Acquisition (5), 199-220. Gruninger M. & Lee J. Ontology applications and design. Communications of the ACM 45(2), 39-41. Harold E.R. 2001. XML Bible. New York: John Wiley & Sons. Heflin J. & Hendler J. 2001. A Portrait of the Semantic Web in Action. IEEE Intelligent Systems 16(2), 54-59. Hendler J. 2001. Agents and the Semantic Web. IEEE Intelligent Systems 16(2), 30-37.