KAMUT 2 -yhteishankkeen loppuraportti Museovirasto

Transkriptio

1 KAMUT 2 -yhteishankkeen loppuraportti Museovirasto

2 Kamut 2 Muistiorganisaatioiden tietovarannot yhteiskäyttöön. Toteuttamismahdollisuudet ja toimenpidesuositus KAMUT 2 -yhteishankkeen loppuraportti Museovirasto Tekijät: Mikael Vakkari, Jyrki Simovaara ja Sirkka Valanto Asiantuntijoina projektiryhmän muut jäsenet Leena Pärssinen, Tuula Haapamäki ja Eeva Murtomaa (Helsingin yliopiston kirjasto), Maija-Liisa Tuomi (Kansallisarkisto), Vesa Hongisto (Museovirasto), Heli Kautonen (Suomalaisen Kirjallisuuden Seura) ja Juha Kotipelto (Valtion taidemuseo). Taitto: Heli Kautonen ISBN (PDF) ISBN (nid.)

3 KAMUT 2 1 (102) SISÄLLYS Esipuhe... 3 Suositukset jatkotoimenpiteiksi... 5 METADATA SOVELTAMISMAHDOLLISUUDET KIRJASTO-, ARKISTO- JA MUSEOALALLA Mikael Vakkari... 7 Tiivistelmä... 7 Abstract Johdanto Käsitteitä Semanttinen WEB Faktaa ja visioita Heikko ja vahva semantiikka Metadata XML Geneerisiä metadatasovelluksia Heikon semantiikan mallit Taksonomiat eli luokituskaavat Tesaurukset Vahvan semantiikan mallit Aihekartat ja RDF(S) Sovelluksia Ontologia Ontologioissa käytetyt suhteet Ontologian ja tesauruksen eroista Ontologiakielet FRBR Funktionaalinen luettelointi Ontologiasovelluksia Kamut 2 -projekti ja metadata Sisällönkuvailun tasoista Ontologioiden soveltamismahdollisuudet muistiorganisaatioissa Johtopäätöksiä Yhteiskäyttöisyyden toteuttamismahdollisuudet Visioita tulevaisuuteen Tiedonhaku Kirjastot, arkistot ja museot Yhteiskäyttö ja ontologiat Metadata ja standardit Lähteet METADATA JA TIETOVARANTOJEN YHTEISKÄYTTÖ Jyrki Simovaara Tiivistelmä Abstract Mitä metadata on Metadata verkkoympäristössä Metadata sisältää näkökulman Tietovarantojen yhdistäminen Erilaisten metadatamallien yhdistäminen Ontologiat tietovarantojen yhdistäjinä Miten metadataa hyödynnetään ontologiasovelluksissa Kokoelmien kuvaileminen metadatassa Metadatan hyödynnettävyys yhteiskäytössä Tietosisällöt Huomioita tietojärjestelmistä... 66

4 2 (102) KAMUT 2 4 Kamut 2 -projektin tietovarannot yhteiskäytön näkökulmasta Helsingin yliopiston kirjaston tietovarannot Valtion taidemuseon MUUS@-tietokanta Museoviraston Musketti-tietokanta Kansallisarkiston Vakka-tietokanta Suomen elokuva-arkiston Tenho-tietokanta Suomalaisen Kirjallisuuden Seuran Kansanrunousarkiston tietojärjestelmä Kamut-tietorakenteen tarkastelua Dublin Core -metadataformaatti Tietovarantojen julkistaminen ja lainsäädäntö Lähteet Sanasto Kuvat METADATA SOVELTAMISMAHDOLLISUUDET KIRJASTO-, ARKISTO JA MUSEOALALLA Mikael Vakkari Kuva 1 Semanttisen Webin kerrokset [Hyvönen 2002] Kuva 2 Dokumenttien rakenteen kehitys Kuva 3 Sovellusten tasot Kuva 4 Heikko ja vahva semantiikka Kuva 5 Tesaurus ja ontologia [Daconta et al. 2003] Kuva 6 Yksinkertainen metadatamerkkaus Kuva 7 Yksinkertainen luokituskaava Kuva 8 Ontologian koostumus; Ontologia sisältää kyseisiä elementtejä riippuen sen käyttötarkoituksesta, tyypistä ja aihealueesta Kuva 9 Funktionaalinen suhde Kuva 10 Tesauruksen suhteet [YSA] Kuva 11 Dublin Coren suhteet Kuva 12 RDF:n yleiset suhteet Kuva 13 Visual Thesauruksen ja WordNetin suhteet Kuva 14 ABC:n suhteet [Lagoze & Hunter 2001] Kuva 15 Tesauruksen ja ontologian keskeisiä piirteitä; vertailu Kuva 16 Ryhmä 1: FRBR:n ER-malli Kuva 17 FRBR-suhteet Kuva 18 Ontologian hyödyntäen museoissa METADATA JA TIETOVARANTOJEN YHTEISKÄYTTÖ Jyrki Simovaara Kuva 1 Inkari, Juha: Tiedonsiirto Muus@-järjestelmästä CRM-mallin mukaisesti, Kuva 2 Gill, Tony: Making Sense of Cultural Infodiversity. The CIDOC Conceptual Reference Model, Kuva 3 FRBR Final report, IFLA Kuva 4 Kivelä, Aki: Aihekartat ja dokumenttien julkaisu, Kuva 5 Le Boeuf, Patrick: The Future of FRBR,

5 KAMUT 2 3 (102) Esipuhe Hankkeen taustaa Kamut 2 on Helsingin yliopiston kirjaston, Kansallisarkiston, Museoviraston, Suomalaisen Kirjallisuuden Seuran ja Valtion taidemuseon yhteishanke. Se on jatkoa kahdelle aikaisemmalle muistiorganisaatiosektorin yhteistyöprojektille. Vuonna 1995 tietohuollon neuvottelukunta asetti työryhmän, joka sai tehtäväkseen esittää konkreettisia toimenpiteitä kirjastojen, arkistojen ja museoiden tietojärjestelmien yhteiskäyttöisyyden edistämiseksi. Työryhmä jätti raporttinsa Kamut: kirjastojen, arkistojen ja museoiden yhteistyöryhmän raportti Siinä katsottiin, että kirjastojen, arkistojen ja museoiden tietojärjestelmien yhteiskäyttöisyys ei edellytä eri laitosten atk-järjestelmiltä teknistä yhdenmukaisuutta, mutta se edellyttää ainakin jonkinasteista yhteistä tietorakennetta. Samalla Kamut esitti kirjastoille, arkistoille ja museoille jatkuvaa yhteistyötä kuvailun ja luetteloinnin kehittämisessä. Vuonna 1997 valmistui Kamut-tietorakenne -projekti, jonka tuloksena julkaistiin raportti Kamut-tietorakenne: Kirjastojen, arkistojen ja taide- sekä kulttuurihistoriallisten museoiden yhteiskäyttöiset luettelointitiedot ( sisallys.html ). Mallia on sovellettu mm. kirjastojen, arkistojen ja museoiden yhteisessä Muisti-projektissa ( ). Sen suosituksia on osittain noudatettu myös Museoviraston kehittämässä museoaineistojen luettelointijärjestelmässä Musketissa. Tietoyhteiskunnan kehittyessä on muistiorganisaatioiden tietovarantojen käyttöympäristö muuttunut huomattavasti vuoden 1997 Kamut-hankkeen jälkeen. Tietoverkkojen merkityksen kasvaessa on syntynyt uusia teknologioita, joiden tarjoamia mahdollisuuksia ja soveltuvuutta muistiorganisaatiosektorin tietovarantojen yhteiskäyttöön oli tullut tarpeelliseksi tutkia. Hankkeen organisaatio ja toteutus Kamut 2 -hanke pohjautuu Helsingin yliopiston kirjaston, Kansallisarkiston, Museoviraston ja Suomalaisen Kirjallisuuden Seuran pääjohtajien keskinäiseen päätökseen laajennetusta digitointiyhteistyöstä arkisto-, kirjastoja museolaitoksen kesken. Toteutusvaiheessa hankkeeseen tuli lisäksi mukaan Valtion taidemuseo. Hanke toteutettiin Opetusministeriön myöntämän tietoyhteiskunta-apurahan turvin. Kamut 2 -hankkeen ohjausryhmän ovat muodostaneet em. laitosten edustajat Leena Pärssinen, Tuula Haapamäki ja Eeva Murtomaa (HYK), Maija-Liisa Tuomi (KA), Vesa Hongisto ja Sirkka Valanto (MV), Heli Kautonen (SKS) ja Juha Kotipelto (VTM). Hankkeen vetäjänä on toiminut Museovirasto/Sirkka Valanto. Opetusministeriön määrärahan turvin hankkeelle saatiin palkattua kaksi tutkijaa. YTM Mikael Vakkari ja FM Jyrki Simovaara ovat tehneet hankkeen varsinaisen selvitystyön.

6 4 (102) KAMUT 2 Hanke on toteutettu vuoden 2003 aikana. Suunnittelusta varsinaiseen työhön päästiin kesällä 2003, kun Opetusministeriön myöntämän määrärahan saanti selvisi. Hankkeen tutkijat valittiin alkusyksystä, ja itse työskentely on tapahtunut loppuvuoden 2003 aikana. Hankkeen tavoitteet ja tulokset Kamut hankkeiden tavoitteina tulevaisuuden päämääränä on ollut arkistojen, kirjastojen ja museoiden tietovarantojen yhteiskäyttöisyyden aikaansaaminen tietoverkkojen välityksellä. Tavoitetta kohti on edetty etapeittain muuttuvan teknologian antamien mahdollisuuksien ja muistiorganisaatioiden oman tiedonhallinnan kehityksen myötä. Kamut 2 -hankkeen tavoitteita asetettaessa oli selvää, että saadun rahoituksen ja aikarajan puitteissa ei pystytä tekemään konkreettista toteutusta vaan lähinnä esiselvitys myöhempää toteutusta varten. Esiselvitykselle määriteltiin kahtalainen tavoite: Toisaalta piti pyrkiä selvittämään, mitä uusia teknologioita muistiorganisaatiosektorille voisi löytyä tietovarantojen yhteiskäytön mahdollistamiseksi. Selvitystä haluttiin semanttisesta webistä, ontologioiden antamista mahdollisuuksista sekä metadatateknologioista. Hankkeen toisena tavoitteena oli kartoittaa muistiorganisaatioiden tiedonhallinnan nykytilanne. Molempien selvitysten pohjalta oli tarkoitus laatia suositukset jatkotoimenpiteiksi. Hankkeen lopputuloksena on syntynyt oheinen raportti. Se sisältää Mikael Vakkarin ja Jyrki Simovaaran laatimat selvitykset uusista teknologioista, metadatasta ja muistiorganisaatioiden tietovarantojen yhteiskäytön toteuttamismahdollisuuksista. Näiden pohjalta hankkeen ohjausryhmä on laatinut suositukset jatkotoimenpiteiksi, joiden toivotaan toteuttavan kauan vireillä olleen pyrkimyksen muistiorganisaatioiden tietovarantojen yhteiskäytöstä. Helsingissä Sirkka Valanto

7 KAMUT 2 5 (102) Suositukset jatkotoimenpiteiksi Hankkeessa tehtyjen selvitysten perusteella on ilmeistä, että muistiorganisaatioiden tietovarantojen yhteiskäytölle löytyy nykyteknologian avulla useita toteuttamismahdollisuuksia. Näitä ovat yhteinen metadataformaatti, ontologia tai edellisten yhdistelmä sekä erillisiä tietokantoja yhdistävät portaaliratkaisut, tiedon haravointiin perustuvat ratkaisut sekä kokoelmien kuvailu yhteiskäyttöisyyden ja tiedon löydettävyyden edistämiseksi. Työryhmä on päätynyt suosittelemaan yhteisen metadataformaatin käyttöönottoa. Tässä voidaan hyödyntää jo Kamut-hankkeen edellisessä vaiheessa kirjastoille, arkistoille ja museoille määriteltyä tietorakennetta. Raportin toisessa osiossa tehdyssä vertailussa käy selvästi ilmi Kamut-tietorakenteen ja Dublin Coren välinen suuri yhteneväisyys. Myös muut syyt kuten CIMIn suositukset ja Dublin Coren asema ISO-standardina puoltavat valintaa. Ohjausryhmän käsityksen mukaan ontologiat tulevat myöhemmin tulevaisuudessa edesauttamaan monipuolisia ja rikkaita sisältöhakuja. Mukanaoloa ontologiahankkeissa pidetään tärkeänä. Näistä mainittakoon erityisesti kansallisen ontologian kehittämishanke (Helsinki Institute of Information Technology). Enenevässä määrin verkottuvassa monikulttuurisessa yhteiskunnassa on tärkeää, että suuri yleisö voi löytää aineistoja omalla kielellään. Monikielisyyden ongelman ratkaisu on syytä ottaa huomioon jatkohankkeessa. Kamut 2 -hanke esittää suosituksinaan, että perustetaan jatkohanke, jossa muistiorganisaatioille laaditaan yhteishaun mahdollistava toteutus jatkohankkeen tavoitteet määritellään Kamut 2 -hankkeen tulosten perusteella Dublin Core valitaan yhteiseksi metadataformaatiksi muistiorganisaatiot ovat mukana kansallisen ontologian kehittämisessä monikieliset haut mahdollistetaan kehitetään edelleen yhteisiä auktoriteettitiedostoja. Kamut 2 -hanke pitää tärkeänä, että myös tulevaisuudessa, jatkohankkeesta riippumatta, muistiorganisaatioiden keskinäinen tiedonvaihto ja yhteistyö jatkuvat.

8 6 (102) KAMUT 2

9 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 7 (102) METADATA SOVELTAMISMAHDOLLISUUDET KIRJASTO-, ARKISTO- JA MUSEOALALLA Mikael Vakkari Tiivistelmä Tulevaisuuden tiedonhaussa semantiikka ja lingvistiikka tulevat valtaamaan alaa perinteisen tilastollisen otteen rinnalla. Semantiikkaa hyödyntävät teknologiat tarjoavat mielenkiintoisia mahdollisuuksia kirjastojen, arkistojen ja museoiden tietovarantojen yhteiskäytölle. Tämä tutkimusraportti pyrkii selventämään alan nykyisiä hyödynnettävissä olevia teknologioita ja tarjoamaan mahdollisia soveltamismalleja muistiorganisaatiosektorilla. Tiedonhaun ja -hallinnan perinteisten työkalujen, luokituskaavojen ja tesaurusten lisäksi, tutkimusraportti esittelee nykyisin käytössä olevat metadatateknologiat, kuten XML:n, RDF:n ja Aihekartat. Nykyisten metadatasovellusten esimerkkeinä esitellään mm. VisualThesaurus ja Omnigator. Lukijalle esitellään myös käsitteet heikko ja vahva semantiikka metadatasovellusten luokittamisen välineenä ja tarjotaan lyhyt selvitys Semanttisesta Webistä ja sisällönkuvailun ongelmista. Tulevaisuuden yhteiskäyttöisyyden ja tiedonhaun mahdollisuuksia käsittelevä osio keskittyy ontologioihin ja esittelee eri ontologiasovelluksia, kuten FRBR:n, ABC:N ja CIDOC CRM:n. Ontologiat ovat yksi mahdollisuus yhteiskäytön ja tiedonhaun toteuttamiselle tulevaisuudessa. Koska ne ovat kuitenkin vasta prototyyppiasteella, niiden käytettävyyttä ja soveltamismahdollisuuksia muistiorganisaatioissa tarkastellaan lähemmin. Tutkimus tarjoaa myös asiantuntijahaastatteluihin perustuvan katsauksen muistiorganisaatiosektorin tulevaisuuteen. Tutkimusraportti esittelee kolme mahdollista tapaa yhteiskäyttöisyyden toteuttamiselle kirjastoissa, arkistoissa ja museoissa: yhteinen metadataformaatti, ontologia tai kahden edellisen yhdistelmä. Yhteiskäyttöisyyden minimitaso on toteutettavissa esimerkiksi Dublin Core -formaatilla, hyödyntämällä jo edellisessä projektissa kehitettyä Kamut-tietorakennetta. Menetelmästä riippumatta toteutettavan yhteiskäyttömenetelmän arkkitehtuuri tulisi pitää avoimena, jotta kehitys, laajentaminen ja mahdollinen ontologian laatiminen olisi tulevaisuudessa mahdollista.

10 8 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla KAMUT 2 Metadata - Utilisation Possibilities in the Library, Archive and Museum Sector Abstract In the future linguistics and semantics will play a bigger role alongside with more traditional statistical approach to information retrieval. Technologies utilising semantics offer some interesting possibilities for the cross-domain interoperability of cultural knowledge repositories. This paper presents the metadata technologies currently at use, explores the possibilities offered by future technologies and provides a recommendation for future projects dealing with cross-domain interoperability and information retrieval at the library, archive and museum sector. Current metadata technologies at use, such as XML, RDF and Topic Maps, are discussed alongside with more traditional methods of information retrieval and management, such as taxonomies and thesauruses. Concepts of weak and strong semantics are introduced in order to categorise metadata applications. Provided are examples of current metadata applications, including Visual Thesaurus and Omnigator. The paper offers a brief description of the Semantic Web and complexity of subject description. The discussion of the future of interoperability and information retrieval focuses on ontologies and several different applications are reviewed and explained including FRBR, ABC and CIDOC CRM. Ontologies are presented as a potential application for cross-domain interoperability in the future but their usefulness is discussed. A possible vision of the future based on the insights of information science experts is also provided. Three possible solutions for interoperability are presented: A shared metadata format, ontology or a combination of the two. Minimal level of interoperability can be achieved with the Dublin Core as a possible basis for a format based on data structure provided by earlier Kamut-project. The used architecture should be open to facilitate possible future development and expansion or ontology development.

11 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 9 (102) 1 Johdanto Tulevaisuuden tiedonhaussa semantiikka ja lingvistiikka tulevat valtaamaan alaa perinteisen tilastollisen otteen rinnalla. Merkkijonojen tunnistamisen ohella ilmaisujen merkityksiä pyritään saamaan mukaan hakualgoritmien kehittelyyn. Vaihtoehtoisesti strukturoituja sanastoja voidaan tarjota webissä käyttäjälle sanastotueksi (esimerkiksi kasvava tesaurusten tarjonta tiedonhakupalveluiden käyttöliittymän yhtenä elementtinä). Keskeisenä tulevaisuuden ideana hakualgoritmien kehittämisessä voidaan pitää siirtymistä pelkkien entiteettien tunnistamisesta entiteettien välisten suhteiden tunnistamiseen. Suhteita hyödyntämällä tiedonhakuun saadaan mukaan enemmän semantiikkaa [haastattelu: Vakkari P.]. Kamut 2 -projektin tarkoituksena on selvittää tämänhetkiset tietovarantojen yhteiskäyttöön ja tiedonhakuun soveltuvat teknologiat ja analysoida niiden käyttömahdollisuuksia muistiorganisaatioissa. Tämä tutkimusraportti pyrkii selventämään alan tämänhetkisiä hyödynnettävissä olevia teknologioita ja tarjoamaan mahdollisia soveltamismalleja muistiorganisaatiosektorilla. Lukijalle on tarkoitus esitellä tämän hetkistä tekniikkaa mahdollisimman ymmärrettävässä muodossa. Raportti luo katsauksen mm. metadataan ja sen sovelluskeinoihin. Lisäksi perehdytään erilaisiin metadataa hyödyntäviin tekniikoihin ja metadatakieliin. Perusteiden jälkeen esitellään ontologiat ja uusien teknologioiden mahdolliset sovellusalueet. Lisäksi raportin loppuun on kerätty tutkijoiden ja asiantuntijoiden arvioita tulevaisuudennäkymistä, uusista teknologioista ja sovellusalueista. 1.1 Käsitteitä Tämän tutkimuksen yhteydessä muistiorganisaatioilla tarkoitetaan kirjastoja, arkistoja ja museoita, toisin sanoen kulttuurihistoriallista tietoa varastoivia ja jakavia yksiköitä. Tietopalveluna ymmärretään edellä mainittujen organisaatioiden yksikköä, jonka tehtävänä on tiedontarjonta, jakaminen ja haku. Tavallinen web (WWW, World Wide Web) tarkoittaa käyttäjien näkemää WWWsivustoa ja Internetiä (esim. web-selaimen sivut ja erilaiset käytettävät websovellukset). Syväweb pitää sisällään myös käyttäjälle näkymättömät asiat kuten tietokannat, tiedonsiirtoprotokollat ja niitä automaattisesti käyttävät sovellukset (tiedonhakuagentit, webcrawlerit). Semanttinen web määritellään ja selvitetään tämän tutkimuksen yhteydessä lyhyesti. Tieto voidaan määritellä perinteisen filosofisen katsomuksen mukaan perustelluksi, todeksi uskomukseksi. Tietämys kehittyy ihmisen omaamista ( tietämistä ) tiedon palasista, jotka muodostavat kokonaisuuden. Tämän raportin puitteissa tietämys määritellään siksi, mitä ihminen tietää (knowledge). Tietämyksen välittämisen on tapahduttava jollakin tietovälineellä, resurssilla. Esimerkiksi artikkeli voidaan ymmärtää kirjoittajansa tietämyksen esitykseksi. Kyseinen artikkeli (tietoväline) voidaan edelleen esittää jotain tehtävää (esimerkiksi tiedonhakua) varten. Artikkelit, museoesineet, maalaukset, digitaaliset dokumentit ovat kaikki tämän tutkimuksen näkökulmasta resursseja.

12 10 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla KAMUT 2 Tiedonhakua varten tehtävä esitys vaatii yhtenäisen formaatin asiasanojen ja luokitussääntöjen muodossa. Vastaavasti esimerkiksi museoesine voitaisiin esittää (ja tallentaa tiedonhakua varten) tehtävänsä mukaan (tästä lisää ontologioiden suhteita käsittelevässä luvussa). Tietämyskanta pitää sisällään tietämystä resurssien muodossa, joka on tallennettu organisoidusti yhtenevässä ja standardoidussa formaatissa (optimitilanteessa). Tietämyskanta (knowledge base) sisältää sovellusalueeseen liittyvät faktat, uskomukset ja säännöt. Tietämyskanta ei ole koskaan täydellinen, sillä sen sisältämä tieto voi olla epätäydellistä, epävarmaa tai jopa virheellistä [Hyvönen 1988]. Semantiikka tarkastelee merkkien esittävää tehtävää, niiden viittaussuhteita merkkijärjestelmän ulkopuolelle, merkkien tulkintaa ja merkityksiä. Semantiikalla tarkoitetaan joskus yleisesti merkitysteoriaa; joskus myös teoriaa jonkin yksittäisen kielen sanojen (ja lauseiden) merkityksistä. Tässä tutkimuksessa semantiikka tarkoittaa resurssien tulkintaa, merkityksiä ja viittauksia toisiin resursseihin. Heikko ja vahva semantiikka tarkoittavat käytettävissä olevan ilmaisun tyhjentävyyden tasoja ja ne esitellään lyhyesti. Ontologia on tiedonhaku- ja tiedonhallintasovellus ei siis metafyysisessä mielessä määritelty oppi olevasta. Yhteiskäyttöisyydellä tarkoitetaan eri systeemien välisen kommunikoinnin mahdollistamista, joka tuo yksiköiden tietovarannot (resurssit) tiedontuottajien, -välittäjien ja -tarvitsijoiden yhteiseen käyttöön (esim. keskitetysti). Tietovarannot voivat sijaita fyysisesti eri paikoissa ja ne voivat myös olla eri tallennusformaateissa. Yhteiskäyttöisyys voidaan toteuttaa esimerkiksi ontologialla. 2 Semanttinen WEB Semanttinen web tarkoittaa joukkoa teknologioita, joilla on tarkoitus saada WWW:n sisällön merkitykset tietokoneen ymmärtämään muotoon. Se perustuu merkitysten erottamiseen rakenteesta. Semanttisen webin tavoitteena on kehittää tulevaisuuden standardeja ja tekniikoita, jotka auttavat ymmärtämään webin tietoa koneellisesti. Pääasiallisena tavoitteena on tuki nykyistä monipuolisemmalle tiedon etsimiselle ja datan integroimiselle eri lähteistä ja automatisoinnille. Koivunen ja Miller ovat listanneet joukon periaatteita, joiden päälle semanttinen web rakentuu [Koivunen & Miller 2002]. 1. Kaikkeen voidaan viitata URI:lla Kuka tahansa voi luoda osoitteen WWW-avaruuteen ja mihin tahansa siellä sijaitsevaan dokumenttiin voidaan viitata. 2. Resursseilla ja linkeillä voi olla tyyppi Tämän hetkinen web koostuu resursseista ja niiden välisistä linkeistä. Hakukoneet eivät pysty päättelemään miten eri dokumenttien tiedot liittyvät toisiinsa. Tyypitetyt linkit mahdollistavat kehittyneemmän tiedonhaun. 3. Epätäydellinen tieto sallitaan Semanttinen web perustuu 1-suuntaisiin linkkeihin. Kuka tahansa voi viitata mihin tahansa ja väittää mitä tahansa mistä tahansa webin resurssista.

13 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 11 (102) 4. Ei absoluuttista totuutta Webin tieto ei ole aina luotettavaa. Semanttinen web tarjoaa mahdollisuuden luotettavuuden määrittelyyn tiettyjen henkilöiden, organisaatioiden ja käyttäjien kommenttien avulla. 5. Evoluutio on tuettu Semanttisen webin lähtökohtana on jatkuvasti muuttuva ja kehittyvä informaatio. Lähteet tuottavat informaatiota toisistaan riippumatta, jopa eri sanastoille. Samoilla sivustoilla voidaan käyttää useita eri ontologioita. 6. Minimalismi Tavoitteena on pitää standardointi mahdollisimman yksinkertaisena. Olemassa olevia standardeja käytetään hyväksi (Dublin Core, DAML + OIL = OWL). Semanttinen web voidaan jakaa seuraaviin kerroksiin: Kerros luottamus logiikka ontologia metadata rakenne Internet Sovellettavia tekniikoita digitaalinen allekirjoitus, annotoinnit KIF, CycL, RuleML OWL, DAML + OIL RDF(S), aihekartat XHTML, XML(S), XSL(T) Unicode, URL Kuva 1 Semanttisen Webin kerrokset [Hyvönen 2002] Pohjakerroksena on XML (extensible Markup Language), joka tarjoaa perusrakenteen yhteiskäytölle. XML:n päällä on XMLScema, joka tarjoaa mahdollisuuden jäsentää verkko-objektit tietokantaa muistuttavaan rakenteeseen. Seuraava taso on RDF(S)-taso (Resource Description Framework (Schema)), joka on yksinkertainen XML:ään perustuva kieli ontologioiden käsitteiden ja suhteiden määrittelyyn. Ontologiakielet DAML+OIL ja OWL ovat seuraava taso (DARPA Markup Language + Ontology Interface Layer, Web Ontology Language) (ks. kuva 1). Luottamussäännöt protokollapinon huipulla määrittävät tiedon (dokumentin) luotettavuuden. Kuka tahansa voi sanoa dokumentista mitä tahansa, mutta käyttäjä päättää mihin luottaa. Luottamus on delegoitavissa esimerkiksi saman osaston työntekijöiden tai dokumenttien välillä. Annotoinnit ovat yksi luottamuksen muoto ja tarkoittavat käyttäjien kommentteja sivuista. Logiikkataso määrittelee metadatan automaattisia käsittely- ja käyttösääntöjä tietokoneille. Ontologiataso tarjoaa määrittelyn metadatasta, sen koostumuksesta ja suhteista. Metadata on tietoa tiedosta, metadatataso antaa yhtenäiset säännöt ja välineet resurssien (dokumenttien) määrittelyyn. Rakenne tarkoittaa Internetin web-sivustojen (resurssien) tuottamistekniikoita ja kieliä, kuten esim. HTML (HyperText Markup Language). Internetillä ymmärretään koko verkkoa [Hyvönen 2002]. 2.1 Faktaa ja visioita Semanttista webiä pidetään tulevaisuuden tekniikkana, joka tekee webistä entistä jaettavamman median ja tarjoaa sen tietokoneiden ymmärtämässä muodossa. Semanttinen web jatkaa trendiä, jossa pyritään siirtymään tiedon käsittelystä itse tietoon. Toisin sanoen pyrkimys on tehdä tiedosta älykästä.

14 12 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla KAMUT 2 Kuva 2 Dokumenttien rakenteen kehitys Perinteisesti data (tieto) on pidetty esim. tietokannassa ja sitä käsitellään tai haetaan eri sovelluksilla (kuva 2). Älykkyys ja päättelylogiikka on sovelluksessa. XMLdokumenttien kautta datasta tulee liikkuvampaa eikä se enää ole riippuvainen sovelluksesta (metadata). Taksonomioiden käyttö metadatan kanssa mahdollistaa useiden eri tietovarantojen yhdistämisen, koska käsittelyformaatti on yhtenevä (yhteiskäyttö). Ontologiatasolla data on osa loogisilla säännöillä ja suhteilla määritettyä mikrokosmosta (aihealue-ontologia). Dokumentit ovat semanttisessa webissä siis tietokoneilla tulkittavaa älykästä dataa, joka on sovellusriippumatonta, yhtenäisesti luokitettua ja osa kokonaista informaatiosysteemiä. Semanttisen webin teknologia perustuu XML-kieleen, koska se tarjoaa yhteisen formaatin ja sen päälle on mahdollista rakentaa vaativampia semanttisen webin osuuksia kuten ontologioita [Daconta et al. 2003]. Asiantuntijoiden mukaan semanttista webiä tarvitaan suodattamaan nyky-yhteiskunnan tuottamaa valtavaa informaatiotulvaa, mahdollistamaan paremman tiedon jakamisen ja rikastamaan tiedon yhdistelyä. Hyvösen mukaan semanttisen webin keskeisimpiä sovellusalueita ovat kehittyneet tiedonhakupalvelut, tietämyksen hallinta, verkkokauppa ja sähköinen liiketoiminta [Hyvönen et al. 2002]. Assosiatiivisen hypertekstin käyttö ja tietosisältöjen metakuvaukset tarjoavat uusia sisältöön perustuvia tiedonhakumahdollisuuksia ja laajentavat jo olemassa olevia hakusanoihin perustuvia tiedonhakumalleja. Tietämyksen hallinnan alueella semanttisen webin teknologioiden ja standardien avulla voidaan yhteiskäyttöistää alakohtaiset tietojärjestelmät (mahdollistetaan systeemien välinen kommunikointi) ja parantaa näin esimerkiksi yksikön tai yrityksen sisäistä tiedonjakelua ja hallintaa. Verkkokaupan innovaatioista Hyvönen mainitsee ostoagentit ja huutokaupat sekä mahdolliset uudet jakelu- ja markkinointikanavat ja niiden luomat uudet liiketoimintamallit. Sähköisen liiketoiminnan alueella keskeisiä kehityksen kohteita ovat liiketoimintaan liittyvien transaktioiden hallinta ja tuote- ja palvelukuvaukset sekä luettelo- ja hakemistopalvelut. Yhteiskäytöllä on mahdollista luoda myös toimialaportaaleja [Hyvönen 2002].

15 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 13 (102) Internetin laajuinen semanttinen web on lähinnä tulevaisuuden mahdollisuus. Tällä hetkellä ollaan siirtymässä kuvan 1. esittämään kolmanteen tasoon, tietovarantojen yhteiskäyttöistämiseen. Organisaatioiden sisäiset, paikalliset semanttiset web sovellukset ovat mahdollisia jo nyt. 2.2 Heikko ja vahva semantiikka Kaikki tutkimuksessa esitellyt mallit pyrkivät esittämään, luokittamaan ja selventämään semanttista sisältöä (merkitystä). Semantiikka voidaan jakaa heikkoon ja vahvaan semantiikkaan. Semantiikan vahvuus ilmenee käytettävissä olevasta ilmaisun / kuvailun rikkauden tasosta (tyhjentävyydestä). Heikoilla semanttisilla malleilla kyetään ilmaisemaan vain hyvin yksinkertaisia merkityksiä. Mitä rikkaampaan semantiikkaan edetään, sitä monimutkaisempia merkityksiä kyetään ilmaisemaan. Semanttiset sovellukset voidaan edelleen jakaa kolmeen tasoon (kuva 3.): 1) Asioita mallintaviin (esim. XML Schema), 2) asioiden suhteita ja toimintatapoja mallintaviin (esim. RDF) ja 3) asiakokonaisuuksia (ns. superrakenteita) mallintaviin sovelluksiin (ontologiat) [Daconta et al. 2003]. Kuva 3 Sovellusten tasot Ontologia voi olla yksinkertaisimmillaan vain vähän luokituskaavasta eroava käsitteellinen määrittely. Tavallisesti ontologia kuitenkin rakennetaan luokituskaavan päälle, luokituskaavan toimiessa runkona. Ontologioiden käyttämät luokituskaavat on määritelty kehitysvaiheessa tai ne on jätetty kokonaan auki (käyttäjän määriteltäväksi), mikäli kyseessä on ontologian rakennustyökalu. Myös aihekartoilla voidaan ilmaista käsitteellisiä rakenteita. Aihekartat ovat aiheista ja assosiaatiosta muodostunut semanttinen verkko, joka kuitenkin muistuttaa asiasanastoa. Varsinaiset täydet ontologiat sijoittuvat vahvan semantiikan ja käsitteellisen mallin puolelle kuten niiden mallinnuskieletkin DAML + OIL ja OWL [Daconta et al. 2003]. Kuva 4 esittää luokituskaavan, tesauruksen ja ontologian sijoittumista niiden käyttämän semantiikan vahvuuden mukaan. Kuva 4 Heikko ja vahva semantiikka

16 14 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla KAMUT 2 Tesaurus on suunniteltu jonkun alueen tai alueiden kontrolloiduksi sanastoksi tiedonhakua tai tietoavaruudessa navigointia varten. Se keskittyy käsitteisiin (termeihin) ja niiden välisiin yksinkertaisiin semanttisiin suhteisiin (kuva 5). Tesauruksessa riittää, että tiedetään onko termi semanttisesti erotettavissa muista termeistä (vältetään monimerkityksisyys) ja onko se laajempi vai suppeampi termi. Merkitystä ei tarvitse esittää. Ontologia yhdistää käsitteet ja reaalimaailman vastineet, ts. se esittää monimutkaista semantiikkaa ja monipuolisia suhteita vahvalla, rikkaalla semantiikalla ja kykenee esittämään myös täysin vapaasti määritettävissä olevia, mielivaltaisia suhteita (arbitrary references). Esimerkiksi tiedonhaun alueella voidaan käyttää dokumentin asiasanan äännettyä muotoa kirjoitettavan muodon sijasta, mikäli voidaan olettaa, että sitä on saatettu käyttää indeksoitaessa kirjoitettavan asun sijasta. Vastaavasti kyseisille kirjoitetulle ja äännetylle muodolle voitaisiin rakentaa suhde ontologiasovelluksessa. Ontologia pyrkii simuloimaan eksplisiittisesti ihmisen tiedollista mallia jostain aiheesta tai alueesta (kuva 5). Ontologia on tarkoitettu alueen tietämystä hyödyntävien ohjelmistojen käytettäväksi. Ontologia organisoi sanojen takana olevia käsitteitä, tesaurus pelkästään sanoja. Kuva 5 Tesaurus ja ontologia [Daconta et al. 2003] 3 Metadata Metadata on tietoa tiedosta. Se on resurssin rakenteinen esitys, jonka tarkoituksena on kuvailla resurssia, ja sitä voidaan tuottaa automaattisesti tai käsin. Vaikka metadata voi periaatteessa käsitellä mitä tahansa resurssia, se liitetään tavallisesti dokumentteihin tai on niistä erillään, esimerkiksi erillisinä tietueina viitetietokannassa (kuvaviitteet). Webin metadata käsittelee pääasiassa verkossa sijaitsevia dokumentteja (teksti-, kuva ja äänitiedostoja tai niiden yhdistelmiä). Metadata ei tavallisesti näy käyttäjälle vaan on tarkoitettu koneen käsiteltäväksi. Implisiittinen metadata sisältyy suoraan dokumentin rakenteeseen (HTML dokumentin <meta>-tagit), eksplisiittinen metadata on eri sovellusten (tai ihmisten) tulkittavissa ja käytettävissä (kirjaston kortistot, viitetietokannat tai erilliset RDF-merkkaukset). Useimmat metadatastandardit eivät ota kantaa siihen, onko metadata itsenäistä vai osa tallennetta. Merkitys metadatalle saadaan vasta ontologioista, joiden päälle voidaan edelleen määritellä päättelysääntöjä siitä, miten tietokoneiden tulee käsitellä resurssien metadatakuvauksia. Metadata ei siis itsessään sisällä tiedon merkitystä vaan määrittelee sen keskeiset elementit standardoidulla tavalla sovitun rakenteen mukaiseksi. Metadatalla resurssien kuvaukset saadaan koneluettaviksi ja jopa kone-ymmärrettäviksi. Metadatatiedot koostuvat joukosta elementtejä ja attribuutteja, jotka ovat tarpeen tallenteen kuvailussa (kuva 6). Kaikilla metadatasovelluksilla voidaan määrittää ainakin jonkinlaisia suhteita resurssien välille (heikkoa semantiikkaa vastaavia).

17 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 15 (102) DATA Mikael Vakkari Hallituskatu 23 Tampere METADATA <NIMI> <OSOITE> <KAUPUNKI> Kuva 6 Yksinkertainen metadatamerkkaus Tietoa kuvaavan metatiedon tärkeys korostuu silloin, kun tieto liikkuu tietoverkossa, mahdollisesti hyvinkin erilaiseen kulttuuripiiriin tai käyttöympäristöön. Mitä tyhjentävämmälle tasolle mennään, sen suuremmaksi mm. ihmisen vaikutus metadatan luomisessa ja syöttämisessä muuttuu. Tietokone ei vielä kykene erityisen monimutkaisiin metadatakirjauksiin ilman ihmisen avustusta [Hyvönen 2002b]. Metadata-arkkitehtuureja voi tarkastella joko resurssin tai asiakasohjelman näkökulmasta. Resurssin näkökulmasta metadata voi olla ulkoista (erillinen kuvausdokumentti, esim. RDF-kuvaukset ovat usein ulkoisia) tai upotettua (metadata dokumentin sisällä, esim. HTML-dokumenttien <META>-elementit). Asiakasohjelman näkökulmasta metadata voi olla keskitettyä (esim. Web-palveluita kuvaava UDDI-rekisteri [Universal Description, Discovery and Integration protocol]) tai hajautettua (käytäjien tekemät annotoinnit) [Nurminen 2003]. Seuraava esimerkki on museoviraston www-sivujen metadatamäärittelystä (osa dukumenttia): <meta http-equiv="content-type" content="text/html; charset=iso "> <meta name="description" content="museovirasto, National Board of Antiquities"> <meta name="keywords" content="museot, kulttuurihistoria, muinaisjäännökset, arkeologia, rakennusperintö, Suomi, museums, castles, history, culture, archaeology, monuments, sites, Finland"> <meta name="generator" content="microsoft FrontPage 4.0"> content -ilmauksella määritellään mikä dokumentti on kyseessä (html-dokumentti) ja millä merkistöllä se on tehty (ISO ), DESCRIPTION määrittelee sivujen lyhyen kuvauksen (Museovirasto), KEYWORDS määrittää indeksitermit, joilla sivua voi hakea. Lisäksi GENERATOR-ilmaus tarjoaa vielä tietoa siitä, millä ohjelmalla sivut on luotu (MS FrontPage 4.0). Nämä ilmaukset tarjoavat tietoa dokumentista kenelle tahansa, vaikka ne pääasiassa ovatkin mukana hakurobottien toiminnan helpottamiseksi. Kyseessä on siis dokumentin sisäinen eli implisiittinen metadatamäärittely. Verkossa olevien tietokantojen sisältämät dokumentit voivat sisältää metadataa tai ne voivat olla pelkkiä metadataviitteitä (viitetietokannat). 3.1 XML XML on pikemminkin dokumenttien yhteiskäytön mahdollistava säännöstö kuin varsinainen metadataformaatti. XML on siis metakieli, jolla voidaan ilmaista erilaisia metadataformaatteja halutulle aihealueelle yksinkertaisilla tekstimerkkauksilla. XML:n syntaksi ja rakenne on standardoitu metadatan ilmaisemista ja esittämistä varten, ja se on sovellusriippumaton. Sovellusriippumattomuus tarkoittaa sitä, että XML:llä määriteltyjä dokumentteja voidaan käyttää myös muissa kuin siinä sovelluksessa, jossa ne on alun perin luotu. Metadatan tarjoama sovellusriippumattomuus takaa dokumentin yhteiskäyttöisyyden eri sovellusten välillä, mikäli metadatan määrittelyformaatti (syntaksi) on sama. Yhteiskäyttöä helpottaa vielä se, että XML

18 16 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla KAMUT 2 määritykset ovat tietokoneiden ja dokumentin luojan lisäksi kaikkien muidenkin ymmärrettävissä, helposti tulkittavissa ja haettavissa [Daconta et al. 2003]. Merkkaus erotetaan dokumentin sisällöstä, mutta se voi ympäröidä tai sisältää sisältöä. Merkkauskieli on siis joukko sanoja (merkkauksia, tageja), joilla ympäröidään dokumentin osia ja pystytään liittämään niihin merkityksiä. Merkkauksilla dokumentti voidaan esimerkiksi jakaa tunnistettaviin semanttisiin osiin. Erottelemalla kokonaisuus osiin on mahdollista luokittaa tai ryhmitellä asioita hierarkkisesti ja antaa esim. toimintasääntöjä näiden ryhmien mukaan (jollain muulla kielellä). XML:llä luodun kielen sanasto luodaan erilliseksi nimiavaruudeksi XML-Schemalla. Se määrittää dokumentteihin liitettävät tai upotettavat merkkaukset, joilla on mahdollista esittää resurssin semanttinen tietosisältö. XML-Schema siis määrittää luodun formaalin merkkauskielen rakenteen ja sallitut elementit ja ominaisuudet [Nurminen 2003]. XML:n merkkauksessa peruselementti on elementti (element). XML-elementissä (tagissa) on alku, loppu ja sisältö ja se voi sisältää myös muita elementtejä. Merkkaukset muodostetaan merkkien < ja > väliin. Esimerkiksi tämän dokumentin (yksinkertaistettu) XML-merkkaus voisi olla: <document> <author>mikael Vakkari</author>, <title>metada </title>, <pub_year>2003</pub_year>, </ document > 3.2 Geneerisiä metadatasovelluksia Metadatan järjestelmällinen liittäminen dokumentteihin edellyttää hyvin määriteltyjä standardoituja rakenteita ja yhtenäisiä merkkaussääntöjä. Semanttisen webin tekniikoiden tarkoituksena on mahdollistaa tietokantojen limittäminen ja jakaminen ontologioiden avulla. Tämä mahdollistaa saman sovellusalueen palveluiden toimivuuden vaikka ne käyttäisivät eri sanastoa. Seuraavaksi esiteltävät ODP (Open Dirctory Project) ja Dspace hyödyntävät metadataa, mutta ne on suunniteltu tietylle osaalueelle. Ne eivät ole ontologiasovelluksia, mutta ne käyttävät yhtenäistä standardoitua sanastoa. Dublin Core on alueriippumaton standardoitu metadataformaatti. Open Directory-projekti (ODP) Netscapen Open Directory -projekti tarjoaa mahdollisuuden Internetin tietomäärän organisoimiseen. Ideana on tarjota jokaiselle Internetin käyttäjälle mahdollisuus organisoida pieni osa webistä (käyttäjien tulisi olla jonkun aihealueen asiantuntijoita ja vapaaehtoisia). Käyttäjät valikoivat mielestään relevantteja web-sivuja ODP:hen ja lisäävät niitä sinne hierarkisesti organisoitujen kategorioiden alle. ODP on maksuton ja Internetin laajin ihmisen editoima hakemisto, jota eri verkkohakukoneet hyödyntävät (esim. Google). ODP ei varsinaisesti ole metadatasovellus ( ). Dspace Dspace on MIT:n ja HP:n kehittämä elektronisessa muodossa olevan tutkimusmateriaalin tallentamiseen, indeksointiin ja levittämiseen tarkoitettu digitaalinen kirjastopalvelu. Palvelu on tarkoitettu isoille organisaatioille (esim. yliopistot), jotka

19 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 17 (102) tuottavat paljon heterogeenisia (elektronisia) dokumentteja. Sovellus on ns. open source eli se on räätälöitävissä yksittäisten yksiköiden ja organisaatioiden tarpeisiin tarvittavista dokumenttiformaateista riippuen ( ). Dublin Core (DC) Dublin Core tarjoaa perustan "standardoidulle kuvailevalle metadatalle". Dublin Coren -kehitystyö alkoi vuonna Tarkoituksena oli tehostaa verkkotallenteiden hakua luomalla väline niiden kuvailuun. Näin syntyi Dublin Core -standardi, joka on yksinkertainen mutta tehokas väline erilaisten verkotettujen resurssien kuvailuun. Se koostuu 15:sta elementistä, joita rakentamassa on ollut kansainvälinen, eri alojen ammattilaisista koostuva yhteisö. Mukana on ollut asiantuntijoita kirjastoalalta, tietojenkäsittelytieteestä, museoyhteisöstä ym. tieteenaloilta. Suomessa on oma SFS-standardi, joka julkaistiin vuonna Se sisältää peruskentät, tarkenteet ja merkintäjärjestelmät. Dublin Core -määrittely on yksinkertaista, joten sen sovelluskynnys on matala (ts. käyttöönotto on helppoa). Yksinkertaisilla määrittelyillä on helppo mahdollistaa eri yksiköiden välinen tiedonhaku, -vaihto ja -siirto ( ). 4 Heikon semantiikan mallit Semantiikassa on kaksi tasoa: vahva ja heikko. Heikko semantiikka tarkoittaa yksinkertaista ilmaisutapaa / mahdollisuutta. Vain hyvin yksinkertaiset merkitykset voidaan ilmaista. Mitä vahvempaan semantiikkaan edetään, sitä paremmin eri merkitykset voidaan ilmaista ja määritellä. Vahvan semantiikan malleissa kyetään määrittelemään merkitykset tyhjentävästi ja mielivaltaisilla (arbitrary) suhteilla. 4.1 Taksonomiat eli luokituskaavat The classification of information entities in the form of hierarchy, according to the presumed relationships of the real-world entities that they represent [Daconta et al. 2003] Asioiden luokittelu on ihmiselle luonnollista ellei välttämätöntä. Systematiikka on yleisnimi tieteelle, joka tutkii olioiden sukulaisuussuhteiden, määrittelyn ja luokittelun teoreettisia ongelmia. Taksonomia on yleisnimi tieteelle, joka tutkii samojen asioiden käytännön puolta. Informaatiotieteiden alueella taksonomia (luokituskaava) on tapa luokittaa ja kategorisoida joukko asioita hierarkkisesti. Se on luokituskaava, jolla on ontologian semanttisia linkkejä muistuttavia suhteita (esim. aliluokka (SubClassificationOf ) vastaa ontologian SubClassOf-viittausta), joilla on kuitenkin eri tarkoitus. Luokituskaavassa on kyse asioiden semanttisesta luokittelusta tiettyihin joukkoihin niitä yhdistävien ominaisuuksien mukaan. Se helpottaa asioiden ymmärtämistä tarjoamalla yksinkertaisen semantiikan. Luokituskaavan rooliin kuuluu myös merkittävien, asioita erottelevien ominaisuuksien valikoiminen. Mikäli saadaan uutta tietoa alueesta tai aiheesta, ryhmän luokitus voidaan uudistaa tai jakaa edelleen alempiin luokkiin. Kun ryhmien erotteluun on olemassa jokin spesifi erotteleva ominaisuus, luokituskaava on ns. vahva taksonomia. Mentäessä alaspäin taksonomian hierarkiassa luokittelevan ominaisuuden spesifisyys kasvaa.

20 18 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla KAMUT 2 Luokituskaavan rakenne alkaa juuresta (root) ja haaroittuu puumaisesti solmuista (node) yleensä alaspäin. Jokainen solmu on informaatio-olio, joka esittää reaalimaailman oliota. Solmujen väliset linkit ovat relaatiota, joilla määritetään ali- (subclass) ja yliluokat (superclass), yliluokat juurta kohti, aliluokat alempana. Luokalla voi olla vain yksi yliluokka. Luokituskaavan rakenne vastaa hyvin läheisesti olio-ohjelmointia, jossa luokat ja niiden suhteet ovat keskeisessä asemassa. Juurta lähellä sijaitsevat luokat ovat yleisempiä, ja mitä alemmas hierarkiassa mennään, sitä spesifimmäksi määrittely tulee. Luokituskaavan viittauksia käsitellessä lienee luontevampaa puhua ali-/yliluokista vaikka tarkka termi on ali-/yliluokitus [Daconta et al. 2003]. Kuva 7 Yksinkertainen luokituskaava Edellistä minimalistista luokituskaavaa tarkastellessa tulee esiin seuraava ongelma: Eikö työnantajakin ole työntekijä? Koska määritelmän mukaan luokalla voi olla vain yksi yliluokka, työnantaja joudutaan siis luokittamaan myös työntekijän aliluokaksi. Tämä aiheuttaa turhaa toistoa luokituskaavassa. Toistettavan informaation määrää voidaan vähentää suunnittelemalla rakenne huolellisesti, mutta siitä on kuitenkin vaikeaa päästä kokonaan eroon Luokituskaavat ovat liian yksinkertaisia monimutkaisten merkitysten esittämiseen. Ne tarjoavat kuitenkin minimaalisen mallin kiinnostavista olemassa olevista olioista ja niiden välisestä erottelusta. Luokituskaavat siis mahdollistavat tiedon esittämisen rakenteellisesti ja esittävät informaatioavaruuden perusrakenteen. Vahvat taksonomiat voivat toimia ontologioiden alkeellisena runkona. Yleisiä käytössä olevia luokituskaavoja ovat kirjastojen käyttämät Deweyn kymmenluokitus ja UDK (Universal Deka Koding). Myös Keltaiset sivut voidaan käsittää alojen ja palveluiden taksonomiana. Googlen hierarkia on taksonomia, joka pyrkii luokittamaan dokumentin sisällön mahdollisimman luonnollisesti. 4.2 Tesaurukset A controlled vocabulary arranged in a known order and structured so that equivalence, homographic, hierarchical and associative relationships among terms are displayed clearly and identified by standardized relationship indicators [Daconta et al. 2003] Asiasanoitus eli indeksointi on (dokumentin) sisällönkuvailua asiasanoilla (tai avainsanoilla, keyword) myöhempää tiedonhakua varten. Asiasanat ovat metadataa tiedosta, ja asiasanasto palvelee tiedonhakijaa tarjoamalla yksinkertaisen listan käytössä olevista asiasanoista, joilla (dokumentin) keskeinen tieto on tallennettu ja

21 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 19 (102) löydettävissä (indeksoitu indeksitermein). Suomen kielessä sanat tesaurus ja asiasanasto voidaan mieltää käyttötarkoituksiensa vuoksi samaksi asiaksi (Yleisen Suomalaisen Asiasanaston mukaan ne ovat rinnakkaistermejä). Tesaurus on sovitulla tavalla järjestetty kontrolloitu sanasto, jossa termien väliset suhteet on esitetty selkeästi ja standardeilla viittauksilla. Tesaurus esittää indeksitermien synonyymi-, hierarkia- ja assosiaatiosuhteet. Sen päätarkoituksena on palvella tiedonhakua takaamalla dokumenttien indeksoinnin yhdenmukaisuus määrittelemällä käsitteet yhtenevästi. Se on siis kontrolloitu sanasto, joka tukee tiedonhakua ohjaamalla tiedon tallentajan ja hakijan valitsemaan samat termit samalle asialle. Tesauruksen keskeisiä käsitteitä ovat synonyymit, hypernyymit (laajempi termi, vrt. SuperClassof) ja hyponyymit (suppeampi termi, vrt. SubClassof). Tesaurusta käytetään tavallisesti kahden eri termin merkityksen välisen assosiaation esittämiseen. Tesauruksen käyttämiä hierarkkisia assosiaatioita ovat geneeriset assosiaatiot (kategoria-jäsenet), kokonaisuus-osa-assosiaatiot ja asia/tapahtuma-instanssi (yksittäinen ilmentymä tapahtumasta) assosiaatiot [Daconta et al. 2003]. Hyvä esimerkki tesauruksesta on Yleinen Suomalainen Asiasanasto, joka siis nimensä mukaan on myös asiasanasto ( ). Toinen hyvä esimerkki tesauruksesta on VisualThesaurus, joka esittelee sanojen väliset suhteet dynaamisesti verkko-ympäristössä ja käyttää hyväkseen nykyteknologian mahdollistamia esitysmuotoja ( ). 5 Vahvan semantiikan mallit Tässä kappaleessa perehdytään semanttisen webin keskeiseen tekniikkaan, ontologiaan. Tarkoitus on esitellä ontologia, määritellä se ja antaa lukijalle kuvaus ontologian mahdollisuuksista ja käytöstä. Ontologioista keskusteltaessa tulee muistaa, että ne ovat lähitulevaisuuden tekniikoita, joita sovelletaan tällä hetkellä hyvin suppeissa alakohtaisissa sovelluksissa prototyyppiasteella. 5.1 Aihekartat ja RDF(S) Aihekartat ovat ISO:n standardoima kieli WWW:n resurssien kuvaamiseen. Ne sijoittuvat semanttisen webin metadatakerrokselle, mutta niissä on myös ontologioiden piirteitä. Vaikka aihekartat voidaankin määritellä XML-pohjaisena rakenteena, niiden semanttinen malli poikkeaa kuitenkin RDF:stä. RDF:n perustana on tyypitettyjen suhteiden esittäminen eri resurssien välillä, kun taas aihekartat ovat laajennus kirjastossa käytetyille aiheiden luokitteluille ja hakemistoille. Aihekarttojen määrittelyn pohjalla on hakemistoihin ja sanastoihin liittyvä standardointi, ja niillä voidaan kuvata käsitteellisiä rakenteita ja liittää niitä tietolähteisiin. Toisaalta ne ovat yleistys kirjastojen hakemistoille ja asiasanastoille (aihelista, sivunumerot), mutta ne voidaan tulkita myös aiheista ja assosiaatioista muodostetuiksi semanttisiksi verkoiksi. Standardit aihekartat ovat SGML-dokumentteja (Standardized Generalized Markup Language), mutta määrittelyyn käytetään myös XMLTM (XMLTopic Map) ja XTM-kieliä (XML-kielen muunnoksia). Aihekartat rakentuvat aiheista, esiintymistä ja assosiaatioista [Nurminen 2003].

22 20 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla KAMUT 2 Aihe (topic): Aihe voi olla mitä tahansa, esim. henkilö, sovellusalueen olio, käsite tai ontologinen kategoria. Myös osa aihekarttojen määrittelyssä käytettävistä käsitteistä määritellään aiheina. Aiheet ovat tyypitettyjä ja niille voidaan määritellä useita aiheen määrityksestä riippumattomia nimiä (esim. synonyymit). Aihe voidaan tunnistaa yksikäsitteisesti subjektitunnisteen (subject identifier) avulla, joka on jokin URI. Esiintymä (occurrence): Linkki käsiteltävään aiheeseen liittyvään resurssiin. Aiheesta voi olla useita esiintymiä, jotka voivat olla aiheiden tapaan tyypitettyjä. Esiintymätyyppejä ovat esimerkiksi WWW-linkki, kuvalinkki tai kommentti. Assosiaatio (association): Assosiaatiot liittävät aiheet toisiinsa. Myös assosiaatiot ovat tyypitettyjä, esimerkiksi aiheen tyyppi voidaan tulkita assosiaatioksi, joka liittää aiheen aihetyyppiin. Assosiaatioon osallistuvilla aiheilla on lisäksi nimetyt roolit. Assosiaatiot ovat aina 2- suuntaisia. Aihekarttastandardi sisältää tuen eri aihekarttaelementtien samaistamiseen subjektitunnisteiden avulla. Tämä mahdollistaa eri aihekarttojen yhdistämisen. Aiheita voidaan kerätä konteksteihin (scope), jotka määrittävät alueen, jolla tiettyä aihetta voidaan käyttää päättelyssä. Kontekstien avulla voidaan myös poistaa aihekartoista moniselitteisyyksiä [Pepper 2000]. W3C:n kehittämä RDF on XML-pohjainen yleiskäyttöinen malli resurssien kuvaamiseen. Resurssi voi olla melkein mitä tahansa. RDF-kuvaus on yleistys WWW-sivuilla käytetylle <meta>-elementille. Se mahdollistaa <meta>-elementtejä monipuolisemman tiedon liittämisen resurssiin, koska tiedon kuvaamisessa käytettävät käsitteet voivat olla jopa eri lähteistä. RDF-kuvaukset ovat kolmikkoja (tripletit) resurssi, ominaisuus ja arvo, joista jokainen voi vielä yksinään olla resurssi. Resurssi voidaan mieltää subjektiksi, ominaisuus predikaatiksi ja arvo objektiksi. Predikaattilogiikan käsitteistössä kolmikko vastaa kaksipaikkaista predikaattia. Resurssikuvaus voidaan tulkita myös suunnattuna tyypitettynä graafina, aivan kuten semanttisilla verkoilla. RDF:n muoto muistuttaa olio-ohjelmoinnin luokkien määritystä [Manola & Miller 2003]. Resurssi: Resurssi voidaan jakaa ryhmiin joita kutsutaan luokiksi. Luokat ovat resursseja, joiden jäsenet ovat sen instansseja (yksittäisiä esiintymiä). Ominaisuus: Ominaisuus esitetään relaationa subjekti- ja objektiresurssin välillä. Arvo: Resurssin ominaisuuden saama arvo. RDF tarjoaa tavan yksinkertaisten väitteiden ilmaisemiselle resursseista nimetyillä ominaisuuksilla ja arvoilla. Se ei kuitenkaan itsessään sisällä tietoa käsitteistä tai ominaisuuksista. Niiden määrittelyä varten on kehitetty RDF(S)-kieli, joka on rakennettu RDF:n päälle siten, että RDFS-kuvaukset ovat myös RDF-kuvauksia mutta käyttävät RDFS:n omaa sanastoa. RDFS-kieli tuo käyttöön luokkahierarkiat ja rajoitteet luokkien ominaisuuksille. RDFS-kielellä resurssit voidaan määritellä kuuluviksi tiettyihin luokkiin (myös luokat ovat resursseja), joihin voidaan myös liittää uusia resursseja ominaisuuksien muodossa. Luokat ja ominaisuudet muodostavat tyyppihierarkian. Mekanismi muistuttaa olio-ohjelmoinnin rakenteita. RDFS on

23 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 21 (102) yksinkertainen tapa mm. ontologioiden kuvaamisee, mutta se on ilmaisukyvyltään rajoitettu. Monipuolisempaan käsitteiden määrittelyyn on kehitetty varsinaisia ontologiakieliä [Hyvönen 2002]. Aihekartoilla kyetään kuvaamaan muutamia käsitteistä, joihin RDF ei pysty (esim. kontekstit ja N-paikkaiset assosiaatiot). RDF on siis yksinkertaisempi määrittelykieli, koska sen tietomalli perustuu minimaaliselle semanttiselle määrittelylle. Molemmilla malleilla kyetään ilmaisemaan väitteitä toisista väitteistä. Aihekarttoja voidaan käyttää yksinkertaisina ontologioiden määrityskielinä sellaisenaan (käsitehierarkiana). RDF on yksinkertainen matalan (semanttisen) tason määritys, jonka päälle voidaan rakentaa ilmaisuvoimaisempi kieliä (RDF(S) ja OWL) [Hyvönen 2002]. Aihekartta on ISO-standardi, RDF taas W3C:n suositus. Tulevaa kehitystä silmälläpitäen ei ole toivottavaa, että organisaatiot keskittyvät kilpaileviin tekniikoihin. Molemmilla malleilla on kuitenkin jo käyttäjiä, joten mallien välille on esitetty erilaisia mahdollisia muunnostapoja. 5.2 Sovelluksia CORC ja Omnigator hyödyntävät metadataa, mutta ne on suunniteltu tietylle spesifille osa-alueelle. Molemmat hyödyntävät standardoitua metadatamerkkausta, mutta kumpikaan ei ole ontologia. Co-operative Online Resource Catalog (CORC) CORC on kansainvälinen hanke, jonka tarkoituksena on organisoida ja tarjota pääsy kirjastojen elektronisiin tiedonlähteisiin. CORC on suunniteltu digitaalisen verkkoaineiston hallitsemiseen. Se keskittyy metadatan luomisen ja jakamisen yhteistyöhön ja pyrkii myös vähentämään kirjastojen päällekkäistä toimintaa. CORC jakaantuu kahtia: Marc-/Dublin Core-pohjaisiin metadatatietueisiin ja Pathfindereihin (webresurssien etsijöihin). Näitä molempia varten on kehitetty erillinen tietokanta. CORC on kaupallinen tuote. Suomessa CORC:ia käyttää ainakin Akateeminen kirjakauppa ( ). Omnigator Omnigator on WWW-pohjainen työkalu aihekarttojen selaamiseen, hallintaan ja tiedonhakuun. Omnigator pystyy esittämään minkä tahansa SGML- SML- tai lineaarisella notaatiolla (Ontopian kehittämä ei-standardi formaatti aihekartoille) tuotetun aihekartan. Se luo niistä web-sivuston, jossa aiheita, aiheiden suhteita ja esiintymiä voi tarkastella ( ). Omnigatoria on testattu Helsingin yliopiston promootiotilaisuuksista otettujen n. 650 kuvan kuvatietokannalla. Omnigator ei siis ole mikään varsinainen ontologia vaan pikemminkin selailutyökalu. 5.3 Ontologia Ontologia on spesifi sanasto, jolla määritellään todellisuus tai osa sitä. Siihen liittyy myös ko. todellisuuden sanaston termien merkitysten määrittely. [Daconta al. 2003]. Metadatamäärittelyillä voidaan jakaa dokumentti semanttisiin osiin. Koska määrittely on ihmisten tekemä, on tulos varmasti heterogeeninen. Tietokoneohjelma ei kykene ymmärtämään, että metadatamääritys <price> tarkoittaa samaa kuin <cost>.

24 22 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla KAMUT 2 Kyseisten määritysten ymmärtämiseen tarvitaan ontologioita. Ontologia on eksplisiittinen määrittely yhteisestä käsitteistöstä. Määrittely korostaa erityisesti ontologioiden jaettavuutta koneellista käsittelyä ajatellen. Käytännössä ontologiat ovat eri sovellusalojen käsitehierarkioita, joissa määritellään alalla käytettävät termit ja niiden väliset suhteet. Käsitteistön formaalisuus ja eksplisiittisyys muodostavat koneellisen tulkinnan. Yhteisyys muodostaa tietämyksen jakamisen, yhteiskäytön ja yhdistämisen. Ontologialla määritellään ne oliot, käsitteet ja suhteet, joita sovellusalaan liittyy [Hyvönen et al. 2002]. Ontologia määrittelee alan semantiikan ja käsittelee alan käsitteitä ja olioita. Sillä pyritään ilmaisemaan jonkin asian merkitys sovituilla säännöillä (käsitteillä). Ontologia voidaan mieltää myös metatietokantana, joka on sovellettavissa yhden tietyn alueen sisällä varsinaisista tietokantaratkaisuista riippumatta (esim. eri organisaatioiden tai yksiköiden välisistä). Ontologiat ovat tietokoneen tulkittavissa, koska ne perustuvat ns. logiikka-pohjaisiin kieliin. Tarkoituksena on, että kone kykenee tulkitsemaan ontologiassa esiintyvän semanttisen mallin ilman ihmisen vuorovaikutusta. Ontologia on viimeisen kymmenen vuoden aikana kehittynyt informaatiotieteen tutkimussuuntaus [Daconta et al. 2003]. Alan ammattikäsitteistö ja tietämys Yleinen arkitietämys Käsitteistö Tehtävät, prosessit, palvelut ( Metadata ) ONTOLOGIA Kuva 8 Ontologian koostumus; Ontologia sisältää kyseisiä elementtejä riippuen sen käyttötarkoituksesta, tyypistä ja aihealueesta Ontologia mahdollistaa pelkän tiedonhaun sijasta myös vastausten tuottamisen kysymyksiin, koska tietoa voidaan hakea semanttisesti jäsennellyn sisällön perusteella. Dokumentteja voidaan myös vaihtaa eri järjestelmien välillä, koska standardoimalla saadaan alakohtaiset tietojärjestelmät yhteismitallisiksi ja voidaan luoda yhteisiä kieliä systeemien väliseen viestintään. Luomalla ontologioiden avulla käsitteille sisällölliset kuvaukset löydetään eri asioiden yhtymäkohtia ja semanttisia suhteita. Ontologiat ovat yksinkertaisimmillaan välineitä, joilla eri tietojärjestelmien tietoja voidaan yhdistää toisiinsa. Ontologia tukee visiota semanttisesta webistä, koska sen avulla päästään helpommin algoritmillisesti käsiksi tiedon sisältöön. Yksinkertaisimmillaan tasoja on kolme: Olio (objekti), attribuutti (ominaisuus) ja arvo. Määrittely muistuttaa RDF:ää ja olioohjelmointia. Aihealueelta kuvaillaan tärkeät asiat kuten esineet, toimijat ja oliot. Lisäksi näille olioille määritellään ominaisuudet ja keskinäiset suhteet. Määritellyt termit ovat aihealueen representaatio. Ontologioissa yhdistyvät rakenteiset dokumentit (dokumentointi), oliopohjaisuus (olio-ohjelmointi) ja kuvailulogiikka.

25 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 23 (102) <HENKILÖ> <OSOITE> Hallituskatu 23 C 38 </OSOITE> <NIMI> Mikael Vakkari </NIMI>... </HENKILÖ> Henkilö on olion määritys, julistus Henkilö-olion ominaisuus Osoite-ominaisuuden arvo Olion ominaisuus: nimi Nimen arvo Henkilö-olion määritys päättyy Yllä mainitulla oliolla Henkilö voi olla erilaisia ominaisuuksia, kuten nimi, auto, osoite jne. Nämä määritellään ja sovitaan ontologian oliota luotaessa. Olio voi sisältää myös muita olioita tai viittauksia muihin olioihin, esimerkiksi henkilön ominaisuus auto voisi olla oma olionsa, jossa määriteltäisiin merkki, malli, moottori (jälleen mahdollinen oma olio) jne. Omistussuhdetta voitaisiin kuvata funktionaalisella suhteella HENKILÖ omistaa AUTO (kuva 9). Esimerkin Mikael Vakkari on HENKILÖ-olion ekstensio, reaalimaailman ilmentymä. HENKILÖ-olio arvoineen taas on asian reaalimaailman määritelmä, Intensio. Kuva 9 Funktionaalinen suhde Ontologian luomisessa keskeinen väline on ontologiakieli, jolla ontologian käsitteet ja niiden väliset suhteet määritellään. Lisäksi tarvitaan ontologiaeditori, jolla ontologiakieliset kuvaukset laaditaan. Ontologioiden kehittämisessä ongelmana on terminologioiden standardoinnin vaikeus (eri tahojen tarpeet ja mieltymykset). Ontologioilla on myös taipumus muodostua laajoiksi, minkä lisäksi niiden hallinta voi olla vaikeaa, koska ne pakostakin kehittyvät ja muuttuvat ajan kuluessa (vrt. WWW). Lisää haasteita tuovat organisaatioiden tietovarannoissa olevan datan monipuolisuus ja hajautuneisuus sekä järjestelmien heterogeenisyys. Ontologiat eivät sisällä toiminnallisia sääntöjä WWW-palveluiden automaattiseen käyttöön (toiminnalliset säännöt löytyvät Semanttisen webin logiikkatasolta) [Hyvönen 2002]. Dacontan mukaan ontologioita voidaan luokitella jäykkyydellä (formality), tarkoituksella (purpose) ja aihealueella (subject of matter) [Daconta et al. 2003]. Jäykkyys: kuinka formaalisti ontologia on määritelty. Neljä eri tasoa, hyvin epäformaali (yleisin), strukturoitu epäformaali, semi-formaali ja jyrkästi formaali. Epäformaalit ontologiat käyttävät vapaata, luonnollista kieltä termien suhteiden ja sanaston määrittämisen. Strukturoidut epäformaalit voivat myös käyttää luonnollista kieltä määrityksiin, mutta ilmaukset ja ilmaisun muodot ovat strukturoituja ja rajoitettuja. Semi-formaalit ontologiat esitetään formaalilla määritellyllä kielellä. Jyrkästi formaalit ontologiat esitetään formaalilla määrittelykielellä ja ovat valideiksi todistettuja. Tarkoitus: Riippuu ontologian käyttötarkoituksesta. Kolme kategoriaa, ihmisten välisen kommunikoinnin ontologiat, systeemien välisen käytön ja toimivuuden ontologiat ja systeemisuunnittelun ontologiat.

26 24 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla KAMUT 2 Aihealue: Ontologian käsittelemä ala, alue tai teema. Kategorioita ovat ala/aihe/alue-, tehtävä- ja representaatio-ontologiat. Esimerkiksi lääketiede on ala/alue. Tehtäväontologiat ovat jonkun ongelman ratkaisun prosessin mallinnuksia ja representaatio-ontologiat mallintavat representaatiokieliä. Ontologioiden jakamisessa on ongelmia, koska niitä voidaan määritellä toisistaan poikkeavilla kielillä. On mahdotonta kehittää kaikille sovellusalueille sopivaa ontologiaa. Todennäköisempää on sovelluskohtaisten ontologiaryhmien muodostuminen. Ontologiat ovat lähitulevaisuuden teknologia ja niihin tulisi suhtautua sen mukaisesti. Kamut-projektin tulevaisuutta ajatellen kannattaa pitää silmällä YSOhanketta (Yleinen Suomalainen Ontologia), joka tulee varmasti soveltamaan ainakin suomalaisia standardeja heti kun se on mahdollista. 5.4 Ontologioissa käytetyt suhteet Kaikilla merkkaustavoilla voidaan ilmaista suhteita eri resurssien välillä. Tesaurukset, merkkauskielet ja ontologiat sisältävät ja hyödyntävät myös asioiden välisiä suhteita. Mitä kehittyneempää semantiikkaa on käytössä, sitä tyhjentävämmin suhteet voidaan ilmaista. Perustasolla voidaan ajatella tesauruksen yksinkertaisia LT (laajempi termi) ja ST (suppeampi termi) suhteita. Kehittyneempiä sovelluksia kohti edetessä päästään esim. RDF:n subpropertyof-suhteeseen, jolla voidaan määrittää jokin ominaisuus jonkun toisen ominaisuuden aliominaisuudeksi (esim. viikonloppu on viikon aliominaisuus). RDF voi käyttää myös esim. subclassof-suhdetta, jolla voidaan periä ominaisuuksia luokkien välillä (uusi luokka saa, perii, yliluokkansa ominaisuudet). Siirryttäessä alakohtaisiin ontologioihin, esimerkiksi ABC-ontologia, suhteet ovat hyvin tyhjentäviä ja mahdollistavat semanttisesti rikkaan ilmaisutavan asioiden (resurssien) välillä. Suhteet ovat tärkeitä navigoitaessa sovelluksessa eri dokumenttien välillä, koska juuri ne muodostavat semanttisia yhteyksiä resurssien välille. Suhteet voivat yhdistää eri resurssien yhtä tai useampaa ominaisuutta, ja ne tukevat niiden identifiointia ja organisointia. Resurssien välisten suhteiden mallintaminen tarjoaa myös monipuolisempia tiedonhakutapoja, kun käyttäjälle voidaan tarjota mahdollisuus laajentaa hakua semanttisin asiayhteyksin. Esimerkiksi voidaan tehdä haku taideteoksesta, joka on maalattu Pariisissa tietyssä puistossa, jonka jälkeen voidaan hakea kaikki teokset, jotka on maalattu ko. puistossa samana vuonna. Suhteiden monimutkaisuuden taso nousee huomattavasti edetessä tesauruksesta ontologiaan. Mikäli on tarkoitus luoda oma ontologia muistiorganisaatioille, suhteet ovat keskeinen asia ontologian kehittelyssä. Erilaisia suhteita on huomattava määrä, ja ne vaihtelevat sovelluskohtaisesti. Seuraavien taulukoiden tarkoituksena on tarjota lukijalle idea siitä, mitä kaikkia suhteita on mahdollista hyödyntää. Täysin tyhjentävää vertailua on lähes mahdoton tehdä, koska varsinkin kehittyneemmät kielet mahdollistavat ns. mielivaltaisten suhteiden käyttämisen. Räätälöidyissä kielissä suhteet on yleensä kehitetty tarpeiden mukaan. Vertailussa käsitellään Tesauruksia, RDF:ää/DublinCorea, VisualThesaurusta/WordNetiä ja ABC-museo-ontologiaa, joista ainoastaan viimeinen on varsinainen ontologia. CIDOC CRM, joka sekin on muistiorganisaatioiden tarpeisiin kehitetty ontologia, on tämän tutkimuksen puitteissa liian laaja esiteltäväksi. Se on saman kaltainen ABContologian kanssa, mutta käsittää huomattavasti enemmän suhteita [CIDOC CRM].

27 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 25 (102) TESAURUKSESSA YLEISESTI KÄYTETTÄVÄT SUHTEET Symboli Suhde SELITYS KÄYTÄ KT LT ST RT Selventävät asiasanaa erityisesti homonyymien yhteydessä (esim. vaarat) Ekvivalenssisuhde - Karsii synonyymejä sanastosta Ekvivalenssisuhde - Korvattu Termi, ohjaa käyttämään oikeaa asiasanaa Hierarkkinen suhde - Laajempi Termi, valikoitu eri näkökohtien mukaan Hierarkkinen suhde - Suppeampi Termi (esim. aistivammaiset LT vammaiset) Assosiaatiosuhde - Rinnakkaistermi, käsitteiden välinen asiasuhde, ei hierarkkinen Kuva 10 Tesauruksen suhteet [YSA] DUBLIN CORE -SUHTEET Dublin Coren -suhteet on kehitetty eri alojen väliseen tietojen vaihtoon (erityisesti verkkojulkaisuihin). Ne ovat yksinkertaisia mutta riittäviä kuvailtaessa esimerkiksi bibliografisia tietueita. DC ei ole ontologia, mutta kuten kaikki medatasovellukset, sekin mahdollistaa joidenkin suhteiden kirjaamisen kohteiden välille. Dublin Coren -suhteilla ilmaistaan jonkin toisen tallenteen identifikaatiotunnus, joka on jossakin suhteessa kuvailtavaan tallenteeseen. Elementissä voidaan myös ilmaista kuvailtavan tallenteen suhde muihin tallenteisiin, esimerkiksi dokumentin sisältämät kuvat, kirjan luvut tai kokoelman osat [Stenwall & Hakala 1998]. Koneluettavuuden mahdollistamiseksi suhteet on kuitenkin ilmaistava RDF-muodossa. IsPartOf / HasPart IsFormatOf / HasFormat IsVersionOf / HasVersion IsReferenceBy / References IsBasedOn / IsBasisFor Requires / IsRequiredBy Kuva 11 Dublin Coren suhteet RDF-SUHTEET Osa/kokonaisuus -tyyppisissä suhteissa yksi tallenne on toisen fyysinen tai looginen osa. Formaattikonversiosuhteissa eri tallenteilla on sama intellektuaalinen sisältö, mutta niiden tiedostoformaatti on erilainen. Versiosuhteet vallitsevat saman tekijän tuottaman saman tallenteen eri aikoina julkaistujen tai julkistettujen varianttien välillä. Viittaussuhteella tarkoitetaan sitä, että yhden tallenteen tekijä lainaa tai muuten viittaa toiseen tallenteeseen. Teos voi perustua toiseen teokseen olemalla esimerkiksi sen käännös, sovitus (esimerkiksi kirjasta tehty näytelmä tai elokuva) tai tulkinta. Riippuvuussuhde vallitsee kahden tallenteen välillä silloin, kun yhtä tallennetta ei voi hyödyntää ilman toista. RDF on abstrakti metatiedon esitystapa. Se on periaatteiltaan yksinkertainen mallinnustapa, mutta sen varaan on mahdollista rakentaa hyvinkin ilmaisuvoimaisia kieliä. RDF:n kuvauksen perustana on resurssi, jolla on ominaisuuksia ja ominaisuuksilla edelleen arvoja. RDF-suhteilla ilmaistaan luokaksi määritellyn resurssin sijainti luokkahierarkiassa. RDF-Schema on sanaston kuvauskieli, jolla kuvataan RDFsovelluksessa käytettävät termit. Esimerkiksi suhteita voidaan määritellä lisää RDF- Schemassa ominaisuuksilla. subclassof Määrittää aliluokan (esim. tiikeri voi olla luokan kissaeläimet aliluokka) superclassof Määrittää yliluokan (esim. karhu voi kuulua yliluokkaan nisäkäs) subpropertyof Määrittää ominaisuuksien välisiä suhteita. Kuva 12 RDF:n yleiset suhteet

28 26 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla KAMUT 2 VISUAL THESAURUKSEN JA WORDNETIN SUHTEET Visual Thesaurus perustuu WordNetiin. Molemmat ovat online-tesauruksia, jotka esittelevät englannin kielen sanojen merkityksiä ja suhteita. Suhteet ovat laajennettu tavallisesta tesauruksesta. Antonyymit Pertainsto (kuulua johonkin) Participle of (partisiippi) Derived from Entails (aiheuttaa) Verbiryhmä Attribuutti (ominaisuus) Katso myös Issimilarto (samankaltainen) Hypernyymi - hyponyymi Meronyymi - holonyymi Ismadeof Isamemberof Kuva 13 Visual Thesauruksen ja WordNetin suhteet ABC:N SUHTEET Vastakohdat (hyvä paha) Adjektiivi - substantiivi suhde (akatemia akateeminen) Verbistä tehty adjektiivi (käyttää käytetty) Verbistä tehty adverbi (juosta juosten) Jotta x toteutuu, vaaditaan vaatii y ( kuorsata (vaatii) nukkua) Samaa merkitystä omaavat verbit, esim. sopia, mahtua jne. Substantiiville arvoja adjektiivilla (paino kevyt / raskas) Sukulaiskäsitteet, vrt. tesauruksen KT (kopio toisinto) Samankaltaiset adjektiivit (pikkutarkka pedantti) Yli- / aliluokka (koira collie) Osa / kokonaisuus (runko pyörä) Substanssimeronyymi / holonyymi (tiili savi) Jäsenmeronyymi / holonyymi (demokraatti demokraattinen puolue) ABC on muistiorganisaatioille suunnattu ontologia, joka on keskittynyt juuri näille instituutioille tärkeiden suhteiden tarkkaan mallintamiseen. Suhteiden kehittelyssä on lähdetty liikkeelle mahdollisista käyttäjien esittämistä aineistoa koskevista kysymyksistä, esimerkiksi Kuka / Missä / Koska / Kenen kanssa maalasi XXX. precedes follows ispartof contains issubeventof incontext phaseof hasrealization hascopy involves haspatient usestool hasresult destroys creates hasaction haspresence hasparticipant attime inplace Esittää edeltävän tapahtuman, ei edellytä kausaliteettia Esittää seuraavan tapahtuman, ks. yllä Osa-kokonaisuus suhde, vastakohta contain-ominaisuudelle Ks. yllä Vastaa ispartof-suhdetta tapahtumien välillä Joku asia on olemassa jossain tilanteessa Ilmaisee jonkun asian ajallista osaa (esim. presindenttikausi) Sitoo työn ja manifestaation toisiinsa Ilmaisee, että asia on manifestaation kopio Ilmaisee toimijan osallisuuden tapahtumaan/toimintaan Ilmaisee teolle kohteen Käytetty väline Toimijan ja toiminnan yhteistulos Asian olemassaolo loppuu tapahtuman/toiminnan yhteydessä Asian olemassaolo alkaa tapahtuman/toiminnan yhteydessä Ilmaisee merkittävään tapahtumaan sisältyvän toiminnan Ilmaisee jonkin toimijan läsnäolon Ilmaisee jonkin toimijan osallistumisen Ilmaisee tapahtuma-ajan Imaisee tapahtumapaikan. Kuva 14 ABC:n suhteet [Lagoze & Hunter 2001]

29 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 27 (102) 5.5 Ontologian ja tesauruksen eroista Tesaurus keskittyy geneerisiin standardiviittauksiin ja edustaa heikon semantiikan suhteita. Se on järjestetty kontrolloitu sanasto, jonka tehtävänä on luokittelun lisäksi tukea tiedonhakua. Ontologia on käsitteellinen malli, joka laajentaa luokituskaavaa ja tesaurusta (ks. luku 4.) huomattavasti käyttämällä rikkaampia semanttisia merkityksiä ja suhteita resurssien välillä. Ontologialla on mahdollista esittää tyhjentäviä määritelmiä resurssien välisille suhteille ja niiden ominaisuuksille. Käsitetason metatasolla määritetään resurssia kuvailevan kielen konstruktiot (luokat, suhteet, attribuutit), toisin sanoen se mitä kielellä voidaan määrittää (määritellään itse kieli). Objektitasolla määritetään metatason konstruktien ilmentymät (instanssit), resursseja kuvaavat oliot, joita kielen käyttöavaruudessa esiintyy [Hyvönen et al. 2002]. TESAURUS VS. ONTOLOGIA Kontrolloitu sanasto (sovitut representaatiot) Sanojen organisointi Termit (Käsitys / Käsite) Syntaksi: Symbolit Yksinkertaiset suhteet (ST LT) Heikko semantiikka Luokitus käsitteistä, erottelu Tiedonhaun apuväline ihmisille Termit, hierarkia Kuva 15 Tesauruksen ja ontologian keskeisiä piirteitä; vertailu Reaalimaailmaan viittaavat representaatiot Käsitteiden organisointi Käsitteiden merkitys ja määrittely Pragmatiikka: Käyttö Monipuoliset suhteet (myös omavaltaiset) Rikas semantiikka Ihmisen tiedollisen mallin simulaatio Ymmärtämisen väline tietokoneille Oliot, identiteetti 5.6 Ontologiakielet Tällä hetkellä semanttisesti tyhjentävimpiä määrittelykieliä ovat DAML+OIL ja OWL. Painopiste on kuitenkin OWL:ssä, koska se perustuu myös DAML+OIL:iin ja sen on tarkoitus korvata ne tulevaisuudessa. Kuten kakki muutkin semanttisen webin mallinnuskielet myös DAML + OIL ja OWL hyödyntävät semanttisen webin kerroksia (ks. taulukko 1) ja kerrosten käyttämiä kieliä. OWL on luotu kieleksi, jolla voidaan kuvata webissä oleviin sivuihin ja sovelluksiin liittyviä luokkia ja niiden välisiä suhteita. OWL mahdollistaa alueen muodollisen kuvaamisen määrittelemällä sen luokat ja niiden ominaisuudet. Sillä voidaan kuvata yksilöitä ja liittää niihin ominaisuuksia, ja se mahdollistaa luokkien ja yksilöiden avulla päättelyn muodollisten määrittelyjen rajoissa. Määritykset on järjestetty siten, että ne alkavat perusasioilla, joihin liittyvät tarvittaessa monimutkaisemmat määrittelykomponentit. OWL-kielellä pystytään tällä hetkellä kaikkein suurimpaan semanttiseen tyhjentävyyden tasoon mallinnettaessa semanttista webiä [Hyvönen et al. 2002]. Ontologiakielellä on kolme tasoa joista jokainen on alemman metataso. Metatason tiedon representaatio (Knowledge Reprensentation Ontologiakielitaso) Määrittelee kielen rakenteen, konstruktit, esim. Luokka, Suhde, Ominaisuus ja säännöt (esim. KIF, CycL, UML).

30 28 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla KAMUT 2 Ontologian käsitetaso (Ontolgy Concept Kielen käsitetaso) Määrittelee ontologiassa käytettävät käsitteet. Esim. Henkilö, Lainaus, Lentokone jne. Instanssitaso (Ontology Iinstance käsitteiden yksittäiset ilmentymät) Yksittäinen ym. menetelmin määritelty tapaus, esim. Mikael Vakkari, DC-10 jne. DAML on DARPA-ohjelman vuonna 2000 kehittämä semanttisen webin ontologiakieli ja OIL puolestaan on Euroopan Unionin vastaava. Projektien valmistuttua molemmat kielet yhdistettiin yhtenäiseksi ontologiakieleksi DAML+OIL vuoden 2000 lopussa. Viimeisin tuotos on DAML-S lisäosa, joka on kokoelma DAML+OILkielellä kehitetyistä semanttisen webin palveluihin viittaavista ontologioista [Daconta et al. 2003]. W3C:n sponsoroima OWL on Dacontan mukaan tällä hetkellä kehittynein ontologian mallinnuskieli. OWL kehitettiin DAML+OIL:n pohjalta. Siinä on kolme eri tasoa: OWL Lite, OWL DL ja OWL Full. Nämä kolme tasoa ovat tyhjentävyysjärjestyksessä ja sisältävät toisensa. OWL Full on siis tyhjentävin ja se kykenee ymmärtämään myös OWL Liten ja OWL DL:n määrityksiä (OWL Lite ja OWL DL eivät kuitenkaan ymmärrä OWL Full määrityksiä). OWL perustuu luokkiin ja suhteisiin kuten DAML+OIL, mutta joissakin ominaisuuksissa se eroaa tästä, minkä lisäksi se on tarkemmin ja huolellisemmin määritelty (esim. synonyymejä ja epäjohdonmukaisia suhteita on poistettu) [Daconta et al ]. 5.7 FRBR Funktionaalinen luettelointi FRBR (Functional requirements for bibliographic records) on keskeinen muistiorganisaation (kirjaston) vaatimuksia vastaava ontologia. Se on kehittely perustuu kattavaan kirjastoalan selvitykseen, joka käsitteli bibliografisten tietueiden funktionaalisia eli toiminnallisia vaatimuksia uudessa muuttuneessa ympäristössä, jossa mm. tietojenkäsittely, luettelointi ja yhteisluettelot ovat kehittyneet huomattavasti. FRBR työryhmä perustettiin 1991, ja työryhmän raportti lähetettiin maailmanlaajuiselle lausuntokierrokselle kuuden kuukauden ajaksi vuonna Tuloksena oli 40 vastausta 16 maasta koskien termejä, metodologiaa ja esimerkkejä. IFLA Standing Committee hyväksyi raportin 1997 [Murtomaa 2002]. FRBR:n keskeisenä alueena on tiedon organisointi ja laatu, liittyen aineistoihin, teknologioihin ja sovelluksiin, joiden välillä on tarkoitus mahdollistaa tiedostojen vaihdettavuus ja yhteensopivuus (yhteismitallistaminen). FRBR-raportti ottaa kantaa myös bibliografiseen kontrolliin sekä luetteloinnin kustannuksiin. Keskeisenä lähtökohtana ovat kuitenkin käyttäjien tarpeet. FRBR:ää voidaan pitää kirjastoalan ontologiana (ontologiaselvityksenä), koska se ottaa kantaa mm. suhteisiin ja attribuutteihin entiteettien välillä. FRBR:n pyrki identifioimaan käyttäjän mielenkiinnon kohteen entiteetin (vrt. resurssi). Tuloksena oli entiteetti-relaatiomalli, joka koostuu entiteeteistä, attribuuteista ja suhteista. FRBR-raportin mukaan käyttäjän perustarpeita ovat entiteetin löytäminen, identifioiminen, ja valitseminen. Lisäksi käyttäjä haluaa myös pääsyn mielenkiintonsa kohteeseen eli hän haluaa hankkia itselleen entiteetin. FRBRmallissa bibliografinen universumi voidaan jakaa kolmeen rymään:

31 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 29 (102) Ryhmä 1: Ryhmä2: Ryhmä3: ER-malli : Teos, esitysmuoto, ilmiasu ja kappale Henkilö(t) ja yhteisö(t), jotka ovat vastuussa teoksen sisällöstä Käsite (abstrakti), kohde (konkreettinen), tapahtuma ja paikka teosten kohteina / aiheina. Kuva 16 Ryhmä 1: FRBR:n ER-malli Teos: Älyllinen taiteellinen luomus (abstrakti käsite) ongelma, milloin kysymyksessä uusi teos Esitysmuoto: Eri esitysmuodot erotetaan toisistaan toteutuksen perusteella (esim. teoksen käännökset, sama sinfonia eri orkesterin esittämänä jne.) ongelmallista on määritellä milloin kysymyksessä uusi esitysmuoto Ilmiasu: Fyysinen toteutus (esim. painettu julkaisu/elektroninen julkaisu) Kappale: Yksittäinen esimerkki ilmiasusta Teoksella, esitysmuodolla, ilmiasulla ja kappaleella voi olla suhteita toisiin vastaaviin entiteetteihin. Nämä suhteet ovat esimerkiksi tiivistelmien, supplementtien, käännösten ja jäljenteen välillä suhteessa alkuperäiseen. Hyvin yleinen suhde on myös osa/kokonaisuus-suhde. Edelleen ryhmällä 1 voi olla suhteita ryhmään 2. Näitä suhteita ovat esimerkiksi, luonut (createdby), toteuttanut (realized), tuottanut (produced) ja omistaa (ownership). Lisäksi ryhmällä 1 voi olla vielä suhteita ryhmään 3, joita ovat käsite, kohde, tapahtuma ja paikka. Näillä suhteilla on mahdollista luoda melko kattava semanttinen merkkaus yhdestä entiteetistä (dokumentista) ja siihen liittyvistä asioista. Kamut-tasolla alla esitetyt suhteet eivät välttämättä ole relevantteja, mutta ne toimivat hyvin kirjastoalalla, koska FRBR on suunniteltu juuri kyseiselle alalle. FRBR:n teostasolla voidaan nähdä yhtäläisyyksiä Kamut-organisaatioiden välillä. Kuva 17 FRBR-suhteet

32 30 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla KAMUT Ontologiasovelluksia Tässä kappaleessa keskitytään yleissovellusten lisäksi museoalan kannalta merkittävien ontologiasovellusten tarkasteluun. WordNet ja Ontogator ovat web-sovelluksia, Cyc on yleiskäyttöinen ontologiaformaatti. CRM ja ABC ovat keskenään hyvin saman kaltaisia kulttuuriperinnön alueille suunniteltuja ontologioita ja muistuttavat huomattavasti FRBR:ää. Cyc Cyc on vuodesta 1990 lähtien kehitetty yleiskäyttöinen ontologia, jonka tavoitteena on formalisoida ihmisen jokapäiväisessä päättelyssään käyttämä arkitietämys. Cyctietämyskanta määritellään CycL-kielellä, joka on predikaattilogiikan laajennus. Se koostuu yli kuudestatuhannesta käsitteestä ja näihin liittyvistä kuudestakymmenestätuhannesta väittämästä (assertion), joilla käsitteet ja niiden väliset suhteet rajataan ja määritellään ( ). Cyc voidaan linkittää WordNetin kanssa Cyc:n tarjoamalla työkalulla, ja lisäksi työkaluilla voidaan kehittää omia Cyc:iä hyödyntäviä sovelluksia (esim. verkossa). WordNet Verkossa selattava WordNet on Pricetonin Yliopiston kognitiotieteen laboratoriossa kehitetty vapaamuotoinen tietokanta englanninkielen sanoista ja niiden suhteista (substantiivit, verbit, adjektiivit ja adverbit). Se sisältää noin käsitettä organisoituna sanaluokkiin ja kielellisiin suhteisiin. WordNet perustuu psykokielitieteellisille teorioille ihmisen muistista. Sen tietokantaan on määritelty n. satatuhatta englanninkielen käsitettä organisoituina sanaluokkiin ja kielellisiin suhteisiin (synonyymit, ylä- ja alakäsitteet ja jaottelu kokonaisuuksiin ja osiin) ( ). Käsitteiden ja kielellisten suhteiden merkitykset on annettu luonnollisella kielellä lähinnä kielitieteellisten teorioiden vuoksi. Esimerkki WordNet hausta sanalla train (ks. liite, s. 50). Visual Thesaurus Visual Thesaurus on Plumb Designin animaatiolla toteutettu visuaalinen tesaurus englanninkielen sanoista, sanojen merkityksistä ja niiden välisistä suhteista. Visual Thesaurus on kokeilumielessä tehty kaupallinen tuote kielentutkimuksen ja käyttöliittymäkehityksen alueelta. Se perustuu ThinkMap-teknologiaan (vastaa aihekarttoja), joka hyödyntää WordNetiä, ja tarjoaa välineen sanojen merkitysten ja suhteiden opiskeluun ja analysointiin. Kyseisiä funktioita on tehty helpommaksi käyttää ja hahmottaa selailua tukevalla visuaalisella esitysmallilla. Haettaessa sanalla train, Visual Thesaurus tuottaa samat merkitykset, jotka saadaan näytölle WordNetillä. Visual Thesauruksen visuaalinen ja linkkeihin perustuva esitysmalli on helposti omaksuttavissa, koska suhteet näkyvät konkreettisesti näytöllä eri sanojen välillä. Tällä hetkellä Visual Thesauruksessa on toteutettu 14 suhdetta. Ontogator Ontogator on Helsingin Yliopiston HIIT:in (Helsinki Institute for Information Technology) kehittämä ontologiatyökalu Finnish Museums on Semantic Web -projektiin. Projektin tarkoituksena on muuttaa kokoelmatietokantoja virtuaalisiksi semanttisen webin avaruuksiksi (sivustoiksi). Sivut linkitetään toisiinsa semanttisilla linkeillä, jotka helpottavat tiedonhakua (vrt. ontologian suhteet). Tarkoituksena on

33 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 31 (102) tarjota museon käyttäjille yhdistetty semanttinen selain ja tiedonhakutyökalu, jota voi käyttää web-selaimella ( hyvonen.html ). CIDOC CRM CRM (Conceptual Reference Model) on muistiorganisaatioille (museot, arkistot, kirjastot) suunniteltu alaontologia (domain ontology), jota on kehitetty vuodesta Se on tarkoitettu ensisijaisesti museoille, ja se perustuu oliopohjaiseen malliin. CRM koostuu hierarkkisesti organisoiduista kohteista, joiden suhteet toisiin olioihin esitetään linkein. Se keskittyy asiayhteyksiin ja pyrkii esittämään kulttuuriperinnön alueen tietorakenteiden semanttiset suhteet riittävän tarkasti, jotta niitä pystytään hyödyntämään museotoiminnassa ja tutkimuksessa. Tämä rakenne tarjoaa mahdollisuuden kuvata museoalan kannalta relevantti tieto (käsitteet, oliot, toimijat ja tapahtumia ja näiden välisiä suhteet). Nykyisessä versiossa (3.4) on 84 luokkaa ja 139 ominaisuutta ( ). CRM:lle haetaan ISO-standardointia. CRM on mahdollista mallintaa ainakin RDF(S)-, DAML+OIL- ja UML-kielillä. CRM mallin hyödyt ovat samat kuin muissakin ontologioissa. Koska tiedot on jäsennelty saman mallin mukaan, on mahdollista rakentaa yhteentoimivia museoalan tietoa käsitteleviä järjestelmiä. Tietosisältöä voidaan siis siirtää järjestelmästä toiseen sen merkityksen säilyessä samana. Jotta CRM:stä hyödyttäisiin, tulee järjestelmän tietosisältö jäsennellä sen sisältämän merkityksen eikä esitystavan mukaan. ABC ABC-ontologia on pääasiassa digitaalisen kirjastoinformaation integrointiin ja vaihtoon tarkoitettu ontologia. Ontologian kehitys alkoi tarpeesta mallintaa ja integroida alati kasvava, eri lähteistä tuotettu multimedia, ja sitä on viime vuosina kehitetty yhteistyössä CIDOC CRM:n kanssa. ABC perustuu FRBR-mallin käsitteille, ja se on saanut runsaasti vaikutteita RDF-mallista. Sillä kyetään mallintamaan digitaalisen dokumentin (objektin) kuvailuun vaadittavat kohteet. Lisäksi ABC tarjoaa mahdollisuuden ilmaista, mitkä osat digitaalisesta dokumentista ovat staattisia ja mitkä muuttuneet tietyllä aikavälillä (esim. lainaus-/näyttelytiedot ja historia). Tämä tekee mahdolliseksi objektin elinkaaren vaiheiden tarkan dokumentoinnin (luominen, kehitys, muutokset jne.). ABC on suunniteltu kaiken tyyppistä mediaa silmälläpitäen, ja se soveltuu hyvin myös museo-/arkistoalalle, ainakin kehittäjien mielestä. 6 Kamut 2 -projekti ja metadata Kamut-projektissa luetteloinnin tavoitteeksi määritellään aineiston identifiointi, löytäminen, tarkempi valinta ja käyttöön saaminen, joka vaatii minimitason yhteiskäyttöisiä luettelointitietoja. Yhteiskäyttöisyyden ensisijaisena tavoitteena todetaan mahdollisuus tarjota asiakkaalle uutta tietoa ja auttaa häntä löytämään ja identifioimaan aineistoa, jonka olemassaolosta tai säilytyspaikasta hänellä ei ole tietoa. Minimitason tiedot eivät kuitenkaan vastaa eri yksiköiden omia tarpeita kunkin aineistotyypin luetteloinnissa (jälleen eri tyhjentävyyden tasoja erilaisten tarpeiden mukaan). Toisaalta mukana on tietoja, jotka ovat välttämättömiä tietynlaiselle aineistolle ja tarpeettomia muille. Projektiraportissa todetaan, että minimitason yhteiskäyttö vaatii yhtenevää asiasanastoa, jolla aineisto voidaan indeksoida yhdenmukaisesti [Kamut 1997].

34 32 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla KAMUT 2 Standardoidun ja yhtenevän asiasanaston puute voidaan osittain kiertää ontologian avulla. Ontologialle määritellään yhteiskäyttöiset luokat (esim. Kamut-tietorakenteen puitteissa), ja eri yksiköiden tietokantojen dokumentit ripustetaan ontologiaan niiden kuvailutietojen mukaan. Yksiköille jää oma luokitusformaatti käyttöön, mutta yhteiskäyttö saadaan toimimaan. Ontologialla olisi helppo tarjota museon käyttäjille assosiatiivista aineistoon tutustumista tukeva käyttöliittymä. Sovellus voisi olla samanlainen kuin Hyvösen Finnish Museums on the Semantic Web -ontologia [Hyvönen 2003]. Varsinaisen ontologian tuottaminen on kuitenkin työlästä ja vaatii paljon käsityötä eikä siksi ole Kamut 2 -projektin kannalta toteuttamiskelpoinen idea. Pohdittaessa toteutettavaa yhteiskäyttöistä Kamut-formaattia kannattaa hyödyntää jo olemassa olevaa Kamut-tietorakennetta, joka on luotu kulttuurialan yksiköiden (kirjastot, arkistot ja museot) tarpeisiin. Vaikka teoreettinen esityö Kamut 2 -projektille on jo tehty, kannattaa kuitenkin pitää mielessä, että Kamut-projektin aikana ei vielä ollut ontologioita. Projektin tarkoituksena oli analysoida ja sopia se luettelointitietojen alue, joka on yhteiskäyttöinen ja yhdenmukaistettavissa. Projektissa määriteltiin luettelointitietojen rakenteelliset vaatimukset ja yhteiset nimet ja esitettiin yhteiset luettelointiperiaatteet. Mikäli Kamut-tietorakenteessa määritellyt minimivaatimukset voidaan kartoittaa uudestaan Kamut 2 -projektissa esimerkiksi Dublin Core -formaattiin ja yksiköiden dokumentit täyttävät nämä minimivaatimukset, on mahdollista tarjota ainakin rajoittuneen tason minimaalinen yhteiskäyttö. Kyseisten minimivaatimusten päälle on tulevaisuudessa mahdollista rakentaa esimerkiksi ontologia hyödyntämällä ja kehittämällä edelleen yhteiskäyttöistä formaattia. Joka tapauksessa rajoittunut yhteiskäyttöinen formaatti toimisi ainakin väliaikaisena ratkaisuna. Kamut-tietorakenne on mahdollista muuntaa Dublin Core -formaattiin, joka on edelleen muunnettavissa RDF:n. RDF:ää voidaan hyödyntää myös Aihekarttojen ja ontologioiden kanssa, koska esimerkiksi konvertointiin on olemassa ohjelmia. Menettely varmistaisi myös mahdollisuuden kehittää Kamut-ontologiaa jatkoprojektissa. Vaikka yhteinen Dublin Core formaatti tulisi olemaan suhteellisin minimalistinen, se takaisi melko varmasti ainakin jonkin tasoisen siirrettävyyden eri formaattien välillä jo ennen mahdollista ontologiaa. 6.1 Sisällönkuvailun tasoista Sisällönkuvailulla tarkoitetaan (tavallisesti tiedon tallennuksen yhteydessä tehtävää) dokumentin sisällön tiivistettyä kuvausta tiedonhakua ja tiedonvälitystä varten. Se perustuu sisällön analyysiin eli sisällön erittelyyn ja jäsentelyyn (indeksointiin). Resurssin (dokumentin) ominaisuuksien jäsentely tapahtuu tiettyjen sovittujen standardien mukaisesti ja kokoelman kaikkien resurssien kanssa yhtenevästi. Nämä standardit myös määrittävät sisällönkuvailun tyhjentävyyden tason, mitä otetaan mukaan ja mitä jää pois. Tyhjentävyyden taso määrittyy monen asian mukaan, ja siihen vaikuttavat mm. yksikön indeksoijat (dokumentin sisällönkuvailua tekevät henkilöt), käytetty kuvailukieli, yksikön indeksointipolitiikka, ajatellut käyttäjät ja (kokoelman) käyttötarpeet sekä se kokoelma tai tietokanta, johon resursseja kuvaillaan.

35 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 33 (102) Tyhjentävyys kertoo siitä, kuinka monta resurssissa esiintyvää aihetta jäsentävää aspektia otetaan mukaan sisällönkuvailuun. Asiasanat ovat resurssin sisällönkuvailussa käytettyjä aspektia esittäviä sanoja, jotka löytyvät asiasanastoista ja tesauruksista. Täydellisen tyhjentävä sisällön kuvailu on mahdotonta ja epäkäytännöllistä. Otettaessa mukaan kaikki resurssissa ilmenevät asiat roskatiedon määrä kasvaa valtavaksi ja resurssin relevanssin arviointi suhteessa tiedontarpeeseen tulee mahdottomaksi. Mikä sitten on järkevää sisällönkuvailua? Esimerkiksi häitä käsittelevässä kuvassa on todennäköisesti kukkia tai kukka-asetelmia, mutta on epätodennäköistä, että kuvaa haetaan juuri kukkien takia, mikäli kuvan perusteemaksi voidaan helposti identifioida häät. Tästä syystä sisällönkuvailussa on perusteltua jättää kukkia käsittelevät aspektit pois. Häitä tai hääparia etsivä käyttäjä tuskin mieltää kukka-aspektin osaksi häitä. Mikäli kyse olisi kukka-asetelmia esittävistä kuvista, tai kuvan kukat ovat keskeisessä asemassa (esim. hääpari osittain valtavan kukka-asetelman takana), voisi olla perusteltua ottaa myös kukka-aspektit mukaan. Rajattaessa tietosisällön esittämistä tulee huomioida käyttäjien tarpeiden lisäksi myös esityksen yhdenmukaisuus. Sopivan tyhjentävyyden tason määritteleminen on vaikeaa, koska se on monesta asiasta riippuvainen. Monen organisaation yhteisössä tietty tyhjentävyyden taso, joka sopii osalle yksiköistä, ei välttämättä ole riittävä kaikille muille. Myös resurssien kanssa voi tulla ongelmia. Miten tulee toimia, mikäli osa resurssin tiedoista on joko a) tuntematonta, b) puuttuu tai c) ei ole olemassa ko. resurssille? Ontologioiden yhteydessä ongelmallisuutta lisäävät vielä olioiden väliset semanttiset suhteet. Mistä saadaan perusta sille, mitä ontologian luokkia, niiden ominaisuuksia ja suhteita tarvitaan? Sisällönkuvailun sääntöjä ja tyhjentävyyden tasoa määritettäessä tulee myös huomioida, kenen tarpeisiin kuvailusääntöjä tehdään ja millaisiin dokumentteihin niitä on tarkoitus soveltaa. Lisäksi tulee huomioida organisaation olemassa oleva käytäntö. Edellä esitettyjä sääntöjä tulisi soveltaa kehitettäessä Kamuttietorakennetta, koska sen tehtävänä on palvella eri organisaatioiden välistä yhteiskäyttöä juuri muistiorganisaatioiden käyttäjien näkökulmasta. MuseumFinland-projekti on päätynyt käyttämään tutkimusryhmän itse kehittämää aiheluokitusta, joka pohjautuu ontologisoituun YSA:han. Hyvönen esittää myös mahdollisuuden käydä asiasanastoja läpi automaattisesti ja luoda niistä omia ontologioiden aiheluokituksia. Asiasanastojen perustaso on kuitenkin liian laaja ontologioille (liian monta perusluokkaa ). Hyvösen ryhmä karsi ja jakoi luokat uudestaan niin, että ylimmällä tasolla oli vain kymmenkunta luokkaa, joihin eri aliluokat ominaisuuksineen ja suhteineen voitiin jakaa. Tämän sisällönkuvailun ongelmana voidaan kuitenkin nähdä se, että se on kehitetty ontologialähtökohtaisesti eikä välttämättä museon ja käyttäjien tarpeita silmällä pitäen. Lisäksi aiheiston luokkien määrittelyt vaativat Hyvösen mukaan tarkistuksia ja mahdollisia lisämäärittelyjä [Hyvönen et al. 2003]. Suurin osa ontologiaprojekteista näyttää käyttävän omaa luokkajakoa käyttötarkoituksesta ja sovelluksesta riippuen. Tyhjentävyyden tasoa on vaikea arvioida lähinnä sovellusten ja projektien vähäisen määrän vuoksi. Tärkeintä olisi selvittää, mikä on riittävä luokkajakotaso Kamut -näkökulmasta? Mitkä ontologian suhteet ja luokat ovat tärkeitä muistiorganisaatiosektorilla käyttäjän näkökulmasta?

36 34 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla KAMUT Ontologioiden soveltamismahdollisuudet muistiorganisaatioissa Hyvösen mukaan tietokoneella tapahtuvassa museon kokoelmien selailussa ( virtuaalikäynti museossa ) on kolme etua käyttäjälle: 1) Käyttäjällä (kävijällä) on pääsy laajempiin kokoelmiin. Varastossa tai muualla sijaitsevat näyttelyesineet voidaan esittää tietokoneella. 2) Tarjolla oleva informaatio on paremmin käytettävissä. Tiedon haku, esittäminen ja yhdistely voidaan toteuttaa tavoilla, jotka eivät välttämättä ole mahdollisia näyttelytiloissa. Museon kokoelmia voi selata myös museon ulkopuolella tai museon ollessa kiinni. 3) Mahdollisuus interaktiivisuuteen ja audiovisuaalisen materiaalin käyttöön. Informaatioteknologia tarjoaa mahdollisuuden parantaa kokoelman materiaalin esittämistä av-materiaalilla. Museot yhdistävällä järjestelmällä voidaan tarjota eri paikoissa tallessa olevat dokumentit käyttäjille fyysisestä olinpaikasta riippumatta. Mikäli eri museoiden kokoelmia voidaan tutkia yhden käyttöliittymän kautta, käyttäjien ei tarvitse välittää yksittäisten museoiden käyttämistä sanastoista tai luokitussysteemeistä. Luodaan illuusio käyttäjälle, että kaikki on yhtä ainoata yhteistä tietokantaa [Hyvönen et al. 2002] Koska museoiden tietokannat ovat hajautettuja (eri paikoissa) ja heterogeenisiä (eri rakenne), yhdistämisessä on ongelmia. Yhdistämiseen tarvitaan Hyvösen mukaan joko globaali säilytyspaikka resursseille tai yhteinen eri tietovarannot yhdistävä käyttöliittymä (esimerkiksi portaali). Jotta edellä mainittu skenaario olisi mahdollinen, museoissa sijaitseva tieto pitää koota ja tehdä semanttisesti yhteentoimivaksi. Tarvitaan yhteinen sovittu esityskieli kokoelmien resursseille. Sellainen on esimerkiksi eksakti määritelmä, ontologia, joka kattaa fyysisten objektien luokat, käsitteet ja suhteet. Fyysisillä objekteilla ymmärretään tässä yhteydessä museoiden esineistöä, resursseja. Ontologia tarjoaa semanttisen yhteiskäyttöisyyden mahdollisuuden [Hyvönen et al. 2002]. Ontologia tarjoaa mahdollisuuden periä ominaisuuksia, esimerkiksi valmistusaika, materiaali jne. olioiden (resurssien representaatioiden) välillä automaattisesti säästäen aikaa ja rikastaen dokumenttien semanttista merkityssisältöä. Esim. lyömämiekka kuuluu automaattisesti kategoriaan miekat ja (terä)aseet, josta se perii myös muita aseen ominaisuuksia ja suhteita tyypistä, aikakaudesta, valmistajasta jne. riippuen. Jokaista miekkaa ei siis tarvitse määritellä alusta asti erikseen. Menetelmällä estetään myös saman lyömämiekan luokittelu jossain muualla pistomiekaksi. Lisäksi voidaan määritellä resursseihin liittyvät aikaa, paikkaa, tyyliä ja aihealuetta kuvaavat ontologiat erikseen ja kirjata ontologioiden väliset viittaukset. Useampia ontologioita voi siis olla rinnakkain. Ontologiapohjaisella museoiden kokoelmien selailulla mahdollistetaan myös looginen selailu (prosessiontologia). Tiedonhaku voisi perustua myös tehtäviin tai ammatteihin semanttisten linkkien kautta automaattisesti (esim. lyömämiekka haarniska sotilas sodankäynti). Assosiaatiot voidaan tuottaa suhteellisen yksinkertaisesti esim. WWW-selaimessa linkeillä (kuva 18).

37 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 35 (102) Kuva 18 Ontologian hyödyntäen museoissa Vaikka ontologia tarjoaa monia mahdollisuuksia museokäytössä, sitä ei kuitenkaan tule pitää kaiken ratkaisevana teknologiana. Tulevaisuuden mahdollisissa toteutuksissa tulee varmasti olemaan ongelmia, erityisesti sovittaessa eri yksiköiden yhteisistä vastuualueista ja tietorakenteista, jotka ontologiaan mallinnetaan. Olemassa olevia ontologioita kannattaa hyödyntää suunniteltaessa yhteistä ontologiaa ja mikäli mahdollista käyttää niitä (esimerkiksi tuleva YSO Yleinen Suomalainen Ontologia). Ontologian vapaat viittaukset ja avoin rakenne mahdollistaa räätälöinnin museon, arkiston ja kirjaston tarpeisiin. Perinteinen kyselypohjainen tiedonhaku, jossa käyttäjä kirjoittaa hakusanan/-sanat ja valikoi relevantit dokumentit listasta, soveltuu hyvin yksittäisen objektin tai informaationpalasen hakemiseen, erityisesti jos käyttäjällä on selkeä kuva siitä mitä hän hakee. Resurssien välisiin assosiaatioihin perustuva tiedonhaku tukee hyvin kyselypohjaista hakua tarjoamalla assosiaatioita uusina hakumahdollisuuksina, joita hakija ei välttämättä ole ajatellut suunnitellessaan ja toteuttaessaan hakua. Lisäksi se voisi soveltua paremmin tavanomaisen käyttäjän tarpeeseen tutustua kokoelmaan kokonaisuutena ja kokea se. Assosiaatiopohjainen tiedonhaku ja tarjonta tukevat erityisen hyvin selailua, jossa käyttäjä ei välttämättä tiedä mitä hakee vaan tutustuu kokoelmaan ja aineistoon. Kehittämällä muistiorganisaatioille ontologia voidaan perinteistä kyselypohjaista hakua ja museokokoelman kokemista rikastaa tehokkaasti myös selailua tukevalla assosiatiivisella aineistoon tutustumisella. Ontologioita kehittäessä tulee kuitenkin muistaa, että tähän mennessä toimivia prototyyppisovelluksia on kokeiltu ainoastaan kapealla alueella ja pienikokoisilla sovelluksilla. Kapea-alaiset ontologiat ovat toteuttamiskelpoisia, valtavat globaalit sovellukset eivät vielä tällä hetkellä näytä mahdollisilta koon ja sisällöllisten attribuuttien ja suhteiden määritelmien vaikeuden vuoksi. Suuret ontologiasovellukset voivat myös olla liian hitaita. Ontologiat soveltuvat kirjasto-, arkistoja museosektorille, koska näitä voidaan ajatella yhtenä tai omina aihealueinaan. Se, toteutetaanko kirjastoille, arkistoille ja museoille yhteinen

38 36 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla KAMUT 2 ontologia vai saako jokainen organisaatio tulevaisuudessa oman ontologiansa (kirjastoillahan on FRBR), jotka sitten vielä yhdistetään yhteisellä ontologialla, lienee turvallisempaa jättää jatkoprojektin pohdittavaksi. 7 Johtopäätöksiä Yhteiskäyttöisyys voidaan toteuttaa kolmella tavalla: yhteisellä metadataformaatilla, ontologioilla tai kahden edellisen yhdistelmällä. Yhteinen metadataformaatti ei siis missään tapauksessa sulje pois mahdollista ontologian tai yhteisen tiedonhakuportaalin kehittämistä. Täydellistä yhteiskäyttöisyyden mahdollistavaa formaattia muistiorganisaatioille on vaikeaa ellei mahdotonta toteuttaa Kamut 2 -projektin puitteissa. Sovellusten varsinainen tuottaminen lienee hedelmällisempää siirtää jatkoprojektille. Koska rajoitetun ajan puitteissa on mahdotonta määritellä ontologiaa Kamut-organisaatioille, voidaan projektin keskeisenä tehtävänä pitää riittävän kuvailutason määrittelyä yhteismitallisuuden mahdollistavalle Kamut 2 -metadataformaatille. Kamut-tietorakenteesta tulee karsia kenttiä. Valikoitaessa yhteisessä formaatissa käytettävät kentät, tulee priorisoida vain ja ainoastaan yhteismitallisuuden vaatimuksien kannalta välttämättömät kentät. Ontologiat ja mahdollinen toteutus muistiorganisaatioille kannattaa pitää mielessä jatkoprojektia ajatellen. 7.1 Yhteiskäyttöisyyden toteuttamismahdollisuudet Varsinaisen ontologian toteuttaminen Kamut-tietorakenteen pohjalta ei ole tällä hetkellä toteuttamiskelpoista. Vuonna 1997 esitelty Kamut-tietorakenne on muistiorganisaatioille suunniteltu, hieman vanhentunut mutta sovellettavissa oleva pohja uudemmalle tietorakenteelle. Elementtien pragmatiikka on selvillä mutta elementit, joita tullaan käyttämään varsinaisessa yhteiskäyttöisessä tietorakenteessa, tulisi päättää ja sopia mahdollisimman tarkasti tulevaa toteutusta varten. Mikäli Kamut 2 -projektin tuotoksena saadaan hyväksyttävissä oleva yhteiskäyttöinen metadatamalli, sen kehittelyä voidaan jatkaa myöhemmin. Jos arkkitehtuuri pidetään laajennettavana, myös tulevaisuuden ontologiasovellukset voidaan toteuttaa hyödyntämällä olemassa olevaa yhteiskäyttöistä formaattia. Kaikki 20 Kamut-tietorakenteen elementtiä eivät todennäköisesti ole tarpeellisia yhteiskäyttöisen tiedonhaun kannalta. Tietorakenteen elementeistä voidaan identifioida tarpeelliset kentät yhteiskäytön minivaatimusten mukaan (esim. Tekijä, nimeke, ID-tunnus). Seuraava askel kenttien valikoinnin jälkeen on varsinaisen rakenteen toteutus. Kamut 2 -projektin kannalta hyödyllinen metadataformaatti voisi olla Dublin Core, koska se on standardoitu sekä kansainvälisesti että Suomessa. Yksikään Dublin Coren kenttä ei ole pakollinen, ja niitä on mahdollista laajentaa lisäkentillä ja tarkenteilla. Käyttö ja toteutus on helppoa. Myös tietojen vaihdettavuus ja web-käyttö on helposti toteutettavissa. Koska Dublin Core -formaatti on räätälöitävissä organisaation tarpeiden mukaan, aineiston kuvailuun on mahdollista tuoda mukaan myös organisaation oma näkökulma. Kamut 2 -metadataformaatille tulee sopia myös ylläpitäjä. Tällä hetkellä Suomalainen DC-formaatin ylläpitäjä on Helsingin

39 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 37 (102) Ylipiston Kirjasto, joka tarjoaa myös tukea DC-käyttäjille. Kamut 2 Dublin Core - määrityksen kautta päästäisiin myös osaksi Suomalaista ja kansainvälistä yhteisöä, ja se on mapattavissa MARC21-formaattiin (MAchine Readable Catalogue). 7.2 Visioita tulevaisuuteen Käsite digitaalinen muistiorganisaatio käsittää tulevaisuudessa koko verkosta käytettävien elektronisten resurssien kirjon tallennettuna yhteiskäytön mahdollistavin teknologioin. Tavoitteet ovat samat kuin ennenkin. Tiedon tarjonta käyttäjille silloin, kun sitä tarvitaan, ja käyttäjien avustaminen tiedon lähteille, jotta hän voi käyttää tietoa tehokkaasti. Ainoa poikkeus ovat elektroniset resurssit, joten yhtenä uutena päätehtävänä on resurssien jakelun ja organisoinnin lisäksi pääsyn tarjoaminen digitaalisiin resurseihin [Lancaster & Warner 2001]. Tietopalveluorganisaatio tulisi tulevaisuudessa pikemminkin nähdä suodattimena, joka etsii kaikkein relevanteimmat dokumentit ja tallettaa nämä resurssit omaan tietovarantoonsa. Tällä hetkellä osa asiantuntijoista näkee tietopalveluorganisaation tulevaisuudessa ilman kokoelmia. Esimerkiksi kirjastoa visioidaan pelkkänä vaihteena, joka tarjoaa käyttäjille mahdollisuuden päästä eri puolilla sijaitsevaan informaatioon. Toinen ajattelutapa lisää ensimmäiseen tietopalveluorganisaation tehtäväksi myös tiedon organisoimisen, ts. hakemistojen ja muiden tiedonhakua helpottavien työkalujen kehittämisen. Näkemykset ovat kuitenkin saaneet kritiikkiä, koska esimerkiksi kirjaston ei uskota säilyvän pelkkänä tieto-vaihteena. Tästä syystä kritisoijat esittävät, että esimerkiksi muistiorganisaation tulee tulevaisuudessakin toimittaa sille tällä hetkellä uskottuja tehtäviä. Seuraavat kappaleet on kerätty asiantuntijahaastatteluilla. Haastateltavina olivat prof. Eero Hyvönen (HIIT, Helsinki Institute for Information Technology), prof. Kalervo Järvelin (TaY, Tampereen Yliopisto), prof. Eero Sormunen (TaY), prof. Henry Tirri (HIIT) ja prof. Pertti Vakkari (TaY). Asiantuntijoilta kysyttiin näkökulmia tulevaisuuteen tiedonhaun ja -hallinnan alueelta kirjastojen, museoiden ja arkistojen näkökulmasta (liittyen sovelluksiin ja metadataan). Lisäksi asiantuntijoilta pyydettiin mielipiteitä uusien teknologisten mahdollisuuksien, kuten esimerkiksi ontologioiden soveltamiseen ja alueen tulevaisuuden visioihin Tiedonhaku Asiantuntijoiden mukaan tiedonhaun perusongelmana on edelleen semantiikan aito hallitseminen, joka perustuu automaattisiin menetelmiin. Lingvistiikalla ja käsitteellisellä analyysillä tulee olemaan suurempi paino perinteisen tilastollisen otteen rinnalla. Viimeisen kymmenen vuoden aikana kieliteknologian alueella saavutetut tulokset eivät kuitenkaan ole olleet mullistavia, tarvitaan läpimurtoja. Algoritmien kehittely tulee edelleen nojaamaan myös tilastollisiin ominaisuuksiin. Tulevat ratkaisut ovat todennäköisesti sovellusalakohtaisia. Tiedonhaun tutkimus on ehkä keskittynyt liikaa oikeiden dokumenttien etsimiseen ja löytämiseen. Pelkän dokumenttien haun sijaan tulisi keskittyä myös tekniikoihin, joilla voidaan löytää tietoavaruudesta sellaisia tiedonpalasia, joista voidaan tehdä esimerkiksi yhteenvetoja. Tiedontarpeiden kohteina voisi hyvin olla myös jalostettu tieto. Esimerkiksi hyödyntämällä tiedonhaussa käyttäjän määrittelemää otsikkoa, muutamaa avainsanaa ja sisällysluetteloa voitaisiin tuottaa dokumentti, jota käyttäjän tarvitsisi vain muokata valmiiksi.

40 38 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla KAMUT 2 Tiedonhaun alueella on tulossa käyttäjän tiedontarpeista lähteviä sovelluksia, agentteja, jotka voivat tarkkailla mitä käyttäjä tekee. Ne voivat esimerkiksi henkilökohtaiseen työasemaan sulautettuna monitoroida käyttäjän tekemisiä ja tarjota apua ongelmatilanteessa. Agenttien kaltaisten ongelmanratkaisukoneiden tapaisia yleiskoneita pohdittaessa kannattanee kuitenkin suhtautua hieman skeptisesti, koska tiedonhaun perusongelmat ovat edelleen olemassa. Esimerkiksi nykyinen avustussovellus, MicroSoft Wordin neuvoa antava klemmari, on käyttäjälle lähinnä rasittava, ei hyödyllinen. Asiantuntijat näkevät työprosessiin liittyvän reaaliaikaisen seurannan tarpeen keskeisenä. Tiedonhaku tulee luultavasti hajoamaan erikoisalueisiin ammattien tehtävien mukaan, erityisesti pitkäaikaisissa ja/tai toistuvissa tehtävissä. Eri tehtäviä varten tullaan varmasti räätälöimään yhä enemmän järjestelmiä. Yleiskoneiden sijaan erikoissovellukset voisivat olla toimivia esimerkiksi pörssissä, jossa tarvitaan jatkuvasti pieniä tiedonmurusia reaaliaikaisena. Toinen mahdollinen sovellusalue voisi olla toimittajan työ, jossa on tarpeen seurata uutisvirtaa jatkuvasti. Käyttäjän tiedontarve on yleensä hyvin abstrakti eikä erityisen hyvin johdettavissa. Joitain vakioprofiileja on varmasti tunnistettavissa, mutta hetkittäisiin tiedontarpeisiin, jotka eivät ole vakioita, on vaikea tarjota ratkaisua esimerkiksi agenttipohjaisella mallilla. Sen sijaan, että keskityttäisiin noviiseihin ja asiantuntijakäyttäjiin, tulisi ehkä keskittyä enemmän ennakoitavissa oleviin tiedontarpeisiin ja sellaisiin tiedontarpeisiin, joiden ennakointi on mahdotonta. Esimerkiksi toimistoissa ja virastoissa on varmasti hyvin paljon vakiomuotoisia järjestelmiä ja dokumentteja, joihin liittyy helposti ennakoitavissa olevia tiedontarpeita. Myös web-tiedonhaussa (esimerkiksi käyttämällä Googlea), jossa tiedontarpeet ovat rutinoituneita ja helposti identifioitavissa, käyttäjät ovat suhteellisen tyytyväisiä, vaikka kyse on hyvinkin primitiivisestä tiedonhausta. Epämääräisyys-ongelmaan törmätään vain noin kymmenessä prosentissa web-tiedonhauissa. Yksi keskeinen kehittelyn lähtökohta uusien teknologioiden soveltamisessa tulisi asiantuntijoiden mukaan olla se, että ihmisen kyky prosessoida uutta informaatiota aikayksikköä kohti on suhteellisen rajallinen. Nykyinen trendi näyttäisi olevan kohti yksinkertaista tiedonhakua monimutkaisen sijaan Kirjastot, arkistot ja museot Hyvien informaatiopalveluiden tarve kasvaa koko ajan myös liiketoimintaa ajatellen. Mikäli teknologia mahdollistaa hyvin suodatetun informaation saamisen, asiakkaita voidaan menettää organisaatioiden siirtyessä etsimään informaatiota itse. Kirjastoissa pystytään välittämään kaikki olennainen verkon välityksellä sitä paremmin, mitä digitaalisemmaksi informaatio muuttuu. Jopa kirjasto itsenäisenä rakennuksena voi muuttua tarpeettomiksi. Kirjastojen digitalisoitumisen yhteydessä tiedon välitysorganisaatio on ollut pudotuspelin kohteena ja asiantuntijoiden mukaan näyttää siltä, että kustantajat ovat vahvoilla. Kirjastoihin ostettavaa dokumenttimassaa ei välttämättä enää organisoida kirjastossa, vaan se saadaan valmiiksi organisoituna. Kirjaston rooliksi muodostunee informaation välitys (information broker) ja portaalina toimiminen. Toisin sanoen hankitaan käyttöoikeuksia eri resursseihin ja jaetaan niitä keskitetysti käyttäjille (työasemilta). Käyttäjille voidaan tarjoilla organisaatioiden välityksellä hakualgoritmejä, jotka ovat räätälöitävissä käyttäjän mielenkiinnon

41 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 39 (102) kohteiden mukaan. Informaation suodattamisen funktio voi siis muodostua kirjaston keskeiseksi tehtäväksi. Vaihtoehtoisesti suodatuspalvelun voisi tarjota myös kustantaja. Kustantajat voivat tulevaisuudessa organisoida tarjoamaansa heterogeenistä massaa erilaisille profiloiduille käyttäjille, mikäli siihen löytyy taloudellisesti kannattavia syitä. Se mitä käyttäjä tulee näkemään tulevaisuuden kirjastossa voi perustua siihen, mitä kirjasto tai kustantaja haluaa käyttäjän näkevän. Mikäli tieto on asiallisesti organisoitua, ongelmat voidaan välttää, menetelmä tosin tarjoaa mahdollisuuksia väärinkäytöksille. Asiantuntijat painottavat, että tilaa useammille toimijoille on kuitenkin edelleen, koska kilpailevat kustantajat tuskin tarjoavat toisilleen pääsyä toistensa (organisoituihin) aineistoihin. Museoiden toimintaan ei välttämättä liity kustantajien kaupallisia näkemyksiä, joten myös tiedonvälitys eroaa kirjastojen tiedonvälityksestä. Mikä tahansa kuva on aina esitys jostakin esineestä. Mikäli on välttämätöntä päästä käsittelemään tallennettua esineistöä, käyttö on väistämättä sidottu fyysisiin objekteihin. Muussa tapauksessa resurssien esitys on mahdollista hoitaa suhteellisen kattavasti verkon välityksellä. Koska suuri osa käyttäjistä on täysin tyytyväisiä surrogaatteihin, on representaatioiden tarjoaminen verkossa toteuttamiskelpoista, varsinkin jos museoiden kokoelmat ovat niin laajat, että kaikkea ei pystytä tarjoamaan fyysisesti yleisölle samaan aikaan. Kyseinen menettely luonnollisesti edellyttää tietynlaista representaatioiden organisointia. Arkistojen osalta tilanne on saman tapainen kuin museoissa. Arkistoissa aineisto on tavallisesti tekstuaalista, mutta myös alkuperäiset dokumentit ovat tärkeitä, esimerkiksi tutkijoille. Arkiston kohdalla alkuperäiskappaleista kiinnostuneita tutkijoita voi olla hieman suurempi osa käyttäjistä kuin esimerkiksi kirjastoissa tai museoissa. Edelleen, suurimmalle osalle käyttäjistä digitaalinen esitys asiasta kuitenkin riittää. Käyttäjien tyytyväisyyteen vaikuttaa luonnollisesti museoiden ja kirjastojen tarjoamien representaatioiden laatu. Museoiden ja arkistojen yhteiskunnallinen funktio ja tarve on edelleen olemassa. Asiantuntijoiden mukaan instituutiot eivät katoa, mutta on odotettavissa kovia muutospaineita. Verkottuminen on tuonut ja tuo edelleen lisää mahdollisuuksia palveluiden ja kokoelmien tarjoamiseen käyttäjille. Museo- ja arkistosektorilla tulee ongelmia, koska molemmat tallettavat ja organisoivat myös huomattavia määriä uniikkeja resursseja, joita ei voi kokonaan korvata surrogaateilla. Päätehtävänä voidaan visioida näiden resurssien organisoinnin ja yhteiskäyttöistämisen lisäksi entistä tehokkaampien tiedontarjonnan menetelmien mahdollistaminen (esim. virtuaalimuseot ja semanttisista yhteyksistä muodostuvat tiedonhaku- / selailu- tai oppimisjärjestelmät). Yhteiskäyttöisyyden kautta resurssit voidaan tarjota käyttäjille ajasta ja paikasta riippumatta. Esineet ovat tutkittavissa representaatioiden kautta myös aukioloaikojen ulkopuolella. Mahdollisuus tutustua tyhjentävästi uniikkiin resurssiin pitkänkin matkan päästä tuo varmasti lisäarvoa, vaikka virtuaalinen tutustuminen ei välttämättä voikaan täysin korvata varsinaista fyysistä henkilökohtaista elämystä esineestä. Kirjastojen osalta kehitys on ollut hieman erilainen. Kyse ei ole käyttäjille tarjottavien palveluiden helpommasta toteuttamisesta vaan siitä, mikä instituution uusi rooli tulee olemaan. Kirjasto joutuu hakemaan asemaansa arkistoja ja museoita kiivaammin, koska kilpailijoita kirjaston paikasta on useita (kustantajat,

42 40 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla KAMUT 2 kansalliskirjasto, paikalliset kirjastot ja yksityiset). Arkistojen ja museoiden rooli on hieman helpompi, koska ne tarjoavat ja tuottavat digitaalista aineistoa ja mahdollisesti myös myyvät palveluitaan. Arkistojen ja museoiden rooli on itse asiassa lähempänä kustantajia kuin kirjastoa. Hyvösen mukaan museokokoelmien julkaiseminen tulevaisuudessa webissä on lupaavaa, koska museoiden kokoelmien tietovarannoissa on suuria määriä digitaalisessa muodossa olevaa semanttisesti rikasta aineistoa. Resurssien historialliset ominaisuudet muodostavat rikkaan semanttisen verkon, joka on mahdollista esittää ontologiatyökaluilla. Heterogeenisten kokoelmien resurssit on mahdollista yhtenäistää ja jakaa niitä kelle tahansa verkon käyttäjällä. Tällä hetkellä on kehitteillä MUSEUM-FINLAND-järjestelmä, joka on suomalaisten museoiden kokoelmien verkkojulkaisemiseen tarkoitettu semanttinen portaali. Prototyyppiä tullaan lähitulevaisuudessa laajentamaan Suomen Kansallisgallerian MUUSA tietokannan maalauksilla [Hyvönen et al. 2003] Yhteiskäyttö ja ontologiat Yhteiskäyttöisyys on ollut mahdollista jo jonkin aikaa. Rakenteelliset tai merkkaukseen liittyvät asiat eivät tuota ylitsepääsemättömiä ongelmia. Esimerkiksi tieteellisestä artikkelista ja sanomalehtiartikkelista voidaan varmasti tunnistaa yhteisiä nimittäjiä suhteellisen helposti tiettyyn pisteeseen asti. Kirjastojen, arkistojen ja museoiden alueella isoimmat ongelmat liittynevät tietojärjestelmän semanttiseen tasoon, arvioivat asiantuntijat. Instituutioiden yhteiskäyttöisien tietojärjestelmien tulisi tukea käyttäjän tiedonhakuprosessia. Koska jokainen dokumentti on luotu ja kehittynyt omalla tavallaan, olisi tärkeää tarjota yhdenmukainen näkymä aineistoihin. Puhuttaessa puhtaasta tekstimassan kuvailusta ei ole ongelmaa, mutta muun aineiston kontrolloitu hallinta voi olla hankalaa, esimerkkinä tilanne, jossa on vaikeaa identifioida milloin henkilö on tekijä ja milloin kohde. Semanttisen webin visioimien universaalien ontologiasovellusten toteutuminen on epätodennäköistä, pienet ja paikalliset sovellukset ovat kuitenkin toteuttamiskelpoisia. Asiantuntijat uskovat, että ontologioilla on potentiaalia, koska niillä voidaan hallita semanttisia suhteita. Museot ovat aineistoltaan riittävän samankaltaisia, joten alakohtaiset ontologiat voisivat toimia. Niiden avulla voidaan aihealueeseen vihkiytymättömälle käyttäjälle tarjota uusia tutustumismahdollisuuksia. Spesifit alakohtaiset ontologiat voisivat myös auttaa käyttäjiä eteenpäin ongelmatilanteissa. Hämärämmissä tiedontarpeissa olisi erityisen auttavaa, mikäli kokoelmissa olisi tarjolla tutustumista helpottavia jäsenneltyjä näkymiä aineistoihin. Käyttäjä voisi vuorovaikutuksen ja assosiaatioiden avulla löytää jotain, joka auttaisi häntä aktualisoimaan tiedontarpeensa ja pääsemään eteenpäin. Ontologioiden linkittämisen kanssa on todennäköisesti odotettavissa ongelmia Metadata ja standardit Asiantuntijoiden mukaan on vaikea kuvitella tilannetta, jossa selvittäisiin vain pienellä määrällä standardeja, koska formaatteja ja sovelluksia tulee jatkuvasti lisää. Webissä on volyymiltään merkittävää organisoitunutta toimintaa, ja se tarjoaa

43 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 41 (102) mahdollisuuden riittävään motivaatioon, välineisiin, resursseihin ja valvontaan sille, että metadataa pystytään tuottamaan dokumenttien tuottamisprosessin yhteydessä. On tärkeää kehittää välineitä ja standardeja juuri tämänkaltaiseen toimintaan. Kaiken tiedon varustaminen mahdollisimman kattavalla metadatamerkkauksella olisi varmasti hyödyllistä ja automaattinen metadatan tuottaminen voi toimia, mutta yksittäisiä ihmisiä on vaikea ellei mahdotonta motivoida tuottamaan hyvää metadataa web-sivustoihinsa. Tällä hetkellä vain 2 % webbisivuista on varustettu Dublin Core -tageilla, joten merkkauksista ei ole erityisesti hyötyä tiedonhaussa. DC-merkkaukset on mahdollista tehdä jokaiseen dokumenttiin automaattisesti tallennusvaiheessa, mutta se on tarpeetonta, koska tarvittavan tiedon voi louhia verkon dokumenteista ilmankin. Mikäli museot ja arkistot siirtyvät taloudellisen toiminnan piiriin esimerkiksi siten, että kokoelmien resurssien katseleminen tulee maksulliseksi, sillä myös olennainen merkitys metadatan tuottamiselle, koska metadatan tuottaminen on kallista. Museoiden budjetit perustuvat pääasiassa veroihin, joita tuskin kovennetaan tulevaisuudessa. Mikäli palvelua myydään verkossa mikromaksuilla tilanne voi muuttua, varsinkin jos maksuilla pystytään kattamaan osa museoiden budjettia. Käyttäjät ovat todennäköisesti valmiita maksamaan aineiston käyttöön saamisesta, mikäli summat ovat todella pieniä.

44 42 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla KAMUT 2 Lähteet Barners-Lee T., Hendler J., Lassila O., The Semantic Web, Scientific American [verkkolehti], 2001, nro 5 [viitattu ], saatavissa: Daconta M., Obrst L., Smith K., The Semantic Web: A Guide to the Future of XML, WEB Services and Knowledge Management, Wiley, Doerr M., Hunter J., Lagoze C., Towards a Core Ontology for Information Integration, Journal of Digital Information [verkkolehti], 2003, nro 1 [viitattu ], saatavissa: ELAG 2002 Presentation: Ontologies, Semantic Web and Libraries Seminar 2002, [konferenssijulkaisu], huhtikuu 2002 [viitattu: ], saatavissa: Hakala J., Internet-resurssien kuvailun ja haun uudet välineet, Tietolinja [verkkolehti], 1998, nro 1 [viitattu: ], saatavissa: Hyvonen E., Asiantuntijajärjestelmien tietämystekniikka, Knowledge Engineering Ky, Helsinki, Hyvönen E., Semanttinen Web - kohti seuraavan polven Internet-palveluja, Tietoyhteys [verkkolehti], 2002, nro 3 [viitattu ], saatavissa: Hyvönen E., Junnila M., Kettula S., Saarela S., Salminen M., Syreeni A., Valo A., Viljanen K., Publishing collections in the Finnish Museums on the Semantic Web Portal First results, Proceedings of the XML Finland 2003 [konferenssijulkaisu], lokakuu 2003 [viittatu: ], saatavissa: Hyvönen E., Harjula P., Viljanen K., Representing Metadata About Web Resources teoksessa Semantic Web Kick-Off in Finland, HIIT Publications, 2002, saatavissa: Hyvönen E. Kettula S., Raatikka V., Saarela S., Viljanen K., Semantic Interoperability on the Web: Case Finnish Museums Online, teoksessa Towards Semantic Web and Web Services, Proceedings of the XML Finland Conference 2002 [konferenssijulkaisu], lokakuu 2002 [viiitattu: ], saatavissa: Kivelä A. & Hyvönen E., Ontological Theories for the Semantic Web, teoksessa Semantic Web Kick-Off in Finland - Vision, Technologies, Research, and Applications [konferenssijulkaisu], Helsinki Institute for Information Technology Publications, Helsinki, Finland, 2002 [viitattu: ], saatavissa:

45 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla 43 (102) Koivunen M.-R. & Miller E., W3C Semantic Web Activity, teoksessa Semantic Web Kick-Off in Finland - Vision, Technologies, Research, and Applications [konferenssijulkaisu], Helsinki Institute for Information Technology Publications, Helsinki, Finland, 2002 [viitattu: ], saatavissa: Lagoze C. & Hunter J., The ABC Ontology Model, Journal of Digital Information [verkkolehti], 2001, nro 2 [viitattu ], saatavissa: Manola F., & Miller E., RDF Primer, W3C Proposed Recommendation 15 December 2003 [verkkojulkaisu], W3C Technical Reports and Publications, 2003 [ ], saatavissa: Murtomaa, E., Funktionaalinen Luettelointi : mitä se on?, [luentoesitys] Luettelointipäivät, Tampereen Yliopiston Täydennyskoulutuskeskus, toukokuu Nurminen M., Semanttiset verkot ja niiden sovellukset, [Tietotekniikan LuK tutkielma] Jyväskylän Yliopisto, toukokuu 2003 [viitattu: ], saatavissa: Pepper S., The TAO of Topic Maps, XML Europe 2000 [konferenssijulkaisu], toukokuu 2000 [viitattu: ], saatavissa: Raatikka V. & Hyvönen E., Ontology Based Metadata Validation, teoksessa Semantic Web Kick-Off in Finland - Vision, Technologies, Research, and Applications [konferenssijulkaisu], Helsinki Institute for Information Technology Publications, Helsinki, Finland, 2002 [viitattu: ], saatavissa: Stenvall J., Hakala J., Dublin Core- fromaatin käyttöopas, Helsingin Yliopiston Kirjasto [verkkojulkaisu], syyskuu 1998 [viitattu: ], saatavissa: Julkisten verkkopalveluiden kehittäminen ja XML, JUNA - Julkisen Verkkoasioinnin Kehittämishanke [verkkodokumentti], 2001, nro 5 [viitattu: ], saatavissa: Verkkoresursseja CIDOC CRM Cyc DESIRE Dspace DublinCore Omnigator Ontogator Ontolingua Visual Thesaurus WordNET

46 44 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla / LIITE KAMUT 2 Liite Sovellusten käyttöliittymät Omnigator

47 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla / LIITE 45 (102) Ontogator

48 46 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla / LIITE KAMUT 2 CYC

49 KAMUT 2 Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla / LIITE 47 (102) Visual Thesaurus

50 48 (102) Metadata Soveltamismahdollisuudet kirjasto-, arkistoja museoalalla / LIITE KAMUT 2 Overview for "train" The noun "train" has 6 senses in WordNet. 1. train, railroad train -- (public transport provided by a line of railway cars coupled together and drawn by a locomotive; "express trains don't stop at Princeton Junction") 2. string, train -- (a sequentially ordered set of things or events or ideas in which each successive member is related to the preceding; "a string of islands"; "train of mourners"; "a train of thought") 3. caravan, train, wagon train -- (a procession (of wagons or mules or camels) traveling together in single file; "we were part of a caravan of almost a thousand camels"; "they joined the wagon train for safety") 4. train -- (a series of consequences wrought by an event; "it led to a train of disasters") 5. train -- (piece of cloth forming the long back section of a gown that is drawn along the floor; "the bride's train was carried by her two young nephews") 6. gearing, gears, geartrain, power train, train -- (wheelwork consisting of a connected set of rotating gears by which force is transmitted or motion or torque is changed; "the fool got his tie caught in the geartrain") WordNet

51 KAMUT 2 Metadata ja tietovarantojen yhteiskäyttö 49 (102) METADATA JA TIETOVARANTOJEN YHTEISKÄYTTÖ Jyrki Simovaara Tiivistelmä Kulttuuriorganisaatioiden ylläpitämien tietovarantojen käyttöympäristö muuttuu voimakkaasti tietoverkkojen merkityksen kasvaessa. Sähköiset tietopalvelut, semanttinen web, tiedon hyödyntäminen monissa eri sovelluksissa sekä toimialarajoja ylittävät yhteiskäyttösovellukset avaavat uusia mahdollisuuksia tietojen käytettävyydelle. Tässä raportissa esitetään kolme rinnakkaista lähestymistapaa yhteiskäyttöisyyden toteuttamiseksi: 1. Perinteinen yhteiskäyttöisyys, jossa yksittäiset kohteet saatetaan yhtenäisten hakujen piiriin metadatojen yhtenäistämisellä, erillisiä tietokantoja yhdistävillä portaaliratkaisuilla tai tiedon haravointiin perustuvilla ratkaisuilla. 2. Ontologiaan perustuva yhteiskäyttöisyys, jossa kohteiden välisiä suhteita kuvataan tietokoneiden ymmärtämällä kuvauskielellä. Raportissa kuvataan useita esimerkkejä metadatan ja ontologiassa esitetyn käsitteistön välisestä linkityksestä. 3. Kokoelmien kuvailu yhteiskäyttöisyyden ja tiedon löydettävyyden edistämiseksi. Kokoelmakuvausten laatimisen periaatteiden määrittely on käynnistynyt kirjastoalalla. Raportissa tarkastellaan metadatan käytettävyyttä yhteiskäyttösovelluksissa yleisellä tasolla. Myös hankkeessa mukana olevien laitosten tietovarantoja analysoidaan yhteiskäyttöisyyden kannalta. Kamut -hankkeen ensimmäisessä vaiheessa määritelty yhteiskäyttöinen tietorakenne kirjastoille, arkistoille ja museoille on yhteisen metadataformaatin lähtökohta. Nykyisessä toimintaympäristössä Dublin Core -formaatti on luonteva formaatti eri toimialojen välisissä yhteiskäyttösovelluksissa, joten Kamut -tietorakennetta suositellaan päivitettäväksi Dublin Core -muotoon. Rinnastus Kamut-tietorakenteen ja Dublin Coren välillä sekä CIMIn suositukset Dublin Coren käytöstä on myös otettu raporttiin mukaan.

52 50 (102) Metadata ja tietovarantojen yhteiskäyttö KAMUT 2 Metadata and interoperability of cultural knowledge repositories Abstract The use of information stored in the knowledge repositories of cultural institutions will radically change in the networked environment. Reuse of information, cross domain interoperability and semantic web technologies open up new visions for the knowledge management of cultural institutions. This report presents three parallel approaches to attain interoperability and to enhance usability of cultural information on the Internet: 1. Classic interoperability between information objects from different metadata schemas where unified metadata, portals for heterogeneous data repositories and metadata harvesting are the methods explored. 2. Ontology oriented interoperability where relations between information objects are the constructive element of interoperability. Examples show pilot projects where different solutions of building a connection between the concepts described in ontology and data stored in metadata have been adopted. 3. Collection level descriptions where interoperability is based on grouping of information objects into collections that can be used for information retrieval. The usability of metadata in interoperable solutions is first explored on a general level. A brief deployment analysis is then carried on the data repositories of Helsinki University Library, National archives, Finnish National Gallery, National Board of Antiquities, Folklore Archives of the Finnish Literature Society and Finnish Film Archives. Kamut, the common metadata-schema for libraries, archives and museums, is a good starting point for interoperability between participating institutions. For practical implementation an update of common data structure should be produced in Dublin Core format. The CIMI guidelines for Dublin Core are stated as a relevant example of the use DC and a comparison of Kamut data structure and Dublin Core Unqualified is presented in annex of the report.

53 KAMUT 2 Metadata ja tietovarantojen yhteiskäyttö 51 (102) 1 Mitä metadata on Metadatan määrittely riippuu siitä, mitä pidämme varsinaisena tietosisältönä eli resurssina, jota metadata kuvailee. Tässä raportissa metadatalla tarkoitetaan jotakin julkaisua, asiakirjaa, esinettä, taideteosta tai esitystä kuvailevaa strukturoitua dataa. Esimerkiksi museon tietokantaan tallennetut tiedot museoesineestä ovat kokonaisuudessaan metadataa ja varastossa tai näyttelyssä sijaitseva alkuperäinen museoesine on sen kuvailema resurssi. Metadatassa kuvailtavat resurssit voivat olla mm. fyysisiä esineitä, julkaisuja, henkilöitä tai digitaalisia ja audiovisuaalisia aineistoja. Resursseihin viitataan tässä raportissa myös kohteina. Sanan metadata merkitys on sähköisten tietovarantojen yleistymisen myötä laajentunut niin, että monessa yhteydessä on aiemmin puhuttu yksinkertaisesti kohteen tiedoista tai luetteloinnista. Metadatakäsitteen käyttö tuo tietovarantojen tarkasteluun teoreettisen kehyksen, jossa tallennettuja tietoja käsitellään rakenteen, sisällön ja hyödyntämismahdollisuuksien näkökulmasta. Tässä raportissa pohditaan sitä, miten verkossa saatavilla olevat tietovarannot voidaan avata yhteiskäyttöön. Lähtökohtana on arkistojen, kirjastojen ja museoiden julkisten tietovarantojen nykytilanne. 1.1 Metadata verkkoympäristössä Tietovarantojen käyttöympäristö muuttuu voimakkaasti tietoverkkojen merkityksen kasvaessa. Verkottuneessa ympäristössä muistiorganisaatiot kohtaavat paljon uusia kysymyksiä. Niiden ylläpitämät tietovarannot kiinnostavat monenlaisia käyttäjiä ja tietopalveluiden tuottajia. Museoiden, kirjastojen ja arkistojen tietokannat on mahdollista avata erilaisten sovellusten ja verkkopalveluiden luettaviksi, luetteloitaviksi ja muokattaviksi. Metadataa voidaan siirtää sovelluksesta toiseen ja tarjoilla yleisöille erilaisina tietopalveluina. Tiedot voidaan kerätä tai haravoida automaattisesti ja liittää ne osaksi monialaisia tietopalveluita, joissa muistiorganisaatioiden tiedot voidaan liittää saumattomasti esimerkiksi koulutusta, tutkimusta tai historiaa käsitteleviin tietovarantoihin. Tietokoneet pystyvät uusiin kuvailukieliin perustuen ymmärtämään myös tiedon merkityksiä ja esittämään tietoja merkityksellisissä suhteissa. Käyttäjän kannalta perinteisen tiedon haun rinnalle tulee assosiatiivinen tiedon selailu ja oppiva tiedonhaku, jossa käyttäjä löytää uusia tietoja ja parhaimmillaan saa myös tietoa siitä, miten uudet asiat liittyvät toisiinsa. Hyödyllistä tietoa voidaan esittää erilaisissa yhteyksissä, vaikka hakukomentoa ei olisi annettukaan. Käyttötarpeiden ja -tarkoitusten rinnalla myös tietovarannon ylläpitäjän toimintaympäristö muuttuu. Digitoidun aineiston rooli korostuu. Digitaalisen aineiston ylläpito ja pitkäaikaissäilytys asettavat aivan omat vaatimuksensa tallennettavalle tiedolle. Esimerkiksi Helsingin yliopiston kirjastossa tähän tarkoitukseen ollaan perustamassa erillistä digitaalisen aineiston hallintajärjestelmää. Tietovarantojen jakautuessa moneen osaan yhdenkin laitoksen sisällä tarvitaan eri tietokantoja yhdistäviä järjestelmiä. Nämä tiedonhakuportaalit yhdistävät eri järjestelmissä ja eri laitoksissa sijaitsevat tiedot samojen tiedonhakupalveluiden piiriin.

54 52 (102) Metadata ja tietovarantojen yhteiskäyttö KAMUT 2 Muuttuva käyttöympäristö herättää myös paljon kysymyksiä sähköisten tietopalveluiden ja muistiorganisaatioiden tavoitteiden yhteneväisyydestä. Kansainvälisten ja monialaisten tietopalveluiden laatukriteereistä käydään jatkuvaa keskustelua. Toisaalta tietovarannot pyritään avaamaan mahdollisimman laajalle käyttäjäkunnalle, toisaalta on myös säilytettävä kulttuuriorganisaation identiteetti tiedon tuottajana ja säilyttäjänä. Tieto on pyrittävä esittämään ymmärrettävinä kokonaisuuksina ja sopivasti taustoitettuna. Tietopalveluiden tavoitteiden tulee olla yhteneväiset kulttuurilaitoksen tavoitteiden kanssa. Tiedon käytettävyydelle, ymmärrettävyydelle ja saavutettavuudelle olennaiset taustatiedot voidaan esittää monella tavoin: lisäämällä kohteiden kuvauksiin myös taustatietoja, tarjoamalla tietoja kokoelmista, joihin kohteet kuuluvat, korostamalla yhteyttä tietoja säilyttävään kulttuurilaitokseen tai keskittymällä yhteishakuja tuottavissa palveluissa hyvin rajattuun aihepiiriin, jonka kautta palvelun avulla löytyvät tiedot näyttäytyvät oikeassa yhteydessä. Pohdittavaksi jää, toteutuvatko esitetyt visiot, halutaanko niiden toteutuvan ja millaisen roolin muistiorganisaatiot omaksuvat? [Handbook for quality in cultural Web sites 2003] Metadatan yhteiskäyttö tietoverkossa perustuu moniin erilaisiin teknisiin ratkaisuihin, joista Internetissä toimivat, XML-kuvailukieleen (Extensible Markup Language) pohjautuvat ratkaisut lienevät tulevaisuudessa merkittävimpiä, sillä ne eivät ole sidottuja ohjelmistoihin tai käyttöjärjestelmiin. Erilaiset Internetiin upotettua tietoa keräävät ja luetteloivat haravointi-sovellukset sekä tietoa analysoivat louhinta-sovellukset tulevat yleistymään, ja niiden varaan luodaan uusia tietopalveluita. 1.2 Metadata sisältää näkökulman Eri muistiorganisaatioissa metadataa tuotetaan eri tarkoituksiin ja eri näkökulmista. Kirjastossa luetteloidaan teoksen fyysiset ominaisuudet ja sen tiedollinen tai taiteellinen sisältö tiedonhakua ja dokumentin tunnistamista varten. Arkistossa tieto jaetaan arkistonmuodostaja-arkisto-sarja-yksikkö -hierarkian mukaan asiakirjan alkuperää painottaen. Kulttuurihistorialliset museot dokumentoivat esineen käyttöä ja alkuperää. Taidemuseot painottavat teoksen symbolista merkitystä ja tekijyyttä sekä kuvailevat lähinnä teoksen aihetta ja valmistustekniikkaa. Kansanperinteen arkistoinnissa olennaisia tallennettavia asioita ovat mm. perinteen kerääjä, kertoja, perinnelaji ja perinteen kotipaikka. [Introduction to metadata 2000] Vielä selkeämmäksi metadatan sisältämä näkökulma käy, kun tarkastellaan monimutkaisempia tietomalleja, joissa tiedot pyritään esittämään merkityksellisinä kokonaisuuksina ja suhdeverkkoina. Esimerkiksi museoalan dokumentointia pohtivan työryhmän (ICOM/CIDOC SIG) kehittämässä Conceptual Reference Modelissa eli CRM:ssä perusidea on tuoda esiin tapahtumat, jotka ovat pääteltävissä tallennetun tiedon perusteella mutta joita ei ole perinteisesti erikseen dokumentoitu. Tapahtumat ovat historiallisia faktoja, joita pyritään kuvailemaan. CRM-malli on siis tapahtumakeskeinen, mikä näkyy siinä että toimijat, kohteet, paikat ja ajankohdat yhdistetään toisiinsa tapahtumilla.

55 KAMUT 2 Metadata ja tietovarantojen yhteiskäyttö 53 (102) Kuka? Edelfelt Toimija Tapahtuma maalasi taulun Mitä? Pariisin Luxembourgin puistossa Objekti September 2002 T W T S M F S Koska? 1887 Aikajakso Missä? PARIISISSA Paikka Kuva 1 Inkari, Juha: Tiedonsiirto Muus@-järjestelmästä CRM-mallin mukaisesti, 2003 Näin voidaan kuvata esimerkiksi teokset ja taiteilijat, jotka ovat osallistuneet tiettyyn näyttelyyn, samalla kerralla hankitut teokset jne. [Inkari 2003] CRMn soveltaminen tietoaineiston esittämiseen merkitsee esineen kuvailuun tuotetun metadatan uudelleenjärjestelyä niin, että esineen elinkaarta määrittävät tapahtumat kuten tuotanto, käyttö tai hankinta, ovat tarkastelun lähtökohtana. Myös paikat, aikajaksot ja toimijat tulevat entistä selkeämmin esiin. Tietoaineiston esittäminen CRM-tietomallissa on samalla tiedon merkityksen ja tietoelementtien suhteiden esittämistä koneen ymmärtämässä muodossa. Kuva 2 Gill, Tony: Making Sense of Cultural Infodiversity. The CIDOC Conceptual Reference Model, Kuva esittää tiedot vuoden 1945 Jaltan konferenssin yhteydessä syntyneistä dokumenteista. Liittoutuneiden johtajia Jaltan konferenssissa esittävällä valokuvalla ja samassa yhteydessä laaditulla Jaltan sopimus -dokumentilla olisi valokuvien ja

56 54 (102) Metadata ja tietovarantojen yhteiskäyttö KAMUT 2 dokumenttien erillisten luettelointitapojen mukaisissa metadataformaateissa yhteisenä tietoelementtinä vain vuosiluku 1945, mutta CRM-ontologiassa ne asettuvat yllä olevan suhdeverkon mukaisiin merkitysyhteyksiin. [Gill 2002] Kirjastojen piirissä (IFLA) kehitetyssä Functional Requirements for Bibliographical Records -mallissa, eli FRBR:ssä on eroteltu: 1. immateriaalinen teos, 2. tiedollinen tai taiteellinen esitysmuoto, 3. fyysinen ilmiasu ja 4. löydettävissä oleva kappale. Esimerkiksi: teos: Modest Musorgskin ooppera Boris Godunov. esitysmuoto: 1869 versio ja 1872 versio, joista on nuotit. ilmiasu: Polygramin vuonna1998 julkaisema levy, jolla on molemmat versiot kapellimestari Valery Gergijevin johtamina. kappale: tietystä kirjastosta, luokasta XXX löytyvä CD, jolla on tunniste XXX. Kuva 3 FRBR Final report, IFLA FRBR:n tarkoitus on luetteloida kohteet monesta eri näkökulmasta. Teoksen, ilmentymän, toteutuksen ja kappaleen kuvailut eivät toista samoja tietoja. Tiedollisen ja taiteellisen sisällön kuvailu erotetaan fyysisen ulkoasun kuvailusta. Tiedon analyysin tuloksena syntyneet neljä entiteettiä antavat pääsyn teoksen eri aspekteihin teoksen löytämisessä, tunnistamisessa, valitsemisessa ja käyttöön saamisessa. Tarkoituksena on, että kerran laadittu tietue palvelee kaikkia käyttötarkoituksia, ja sitä voidaan tarpeen mukaan karsia tai täydentää. Luettelossa ilmaistaan teoksen eri esitysmuodot, ilmiasut, siihen liittyvät henkilöt ja yhteisöt, paikat ja käsitteet sekä näiden väliset suhteet. Tietosisällön tehtävänä on ilmaista kohteen suhteet muihin vastaaviin kohteisiin ja teoksiin nähden. Näin samojakin tietoja voidaan esittää eri tietomallien kautta. Ne tuovat asiasta esiin eri puolia ja johdattavat kyselijää tai tutkijaa selvittämään eri asioita kohteen ympäriltä. Myös yhteiskäyttöä suunniteltaessa on syytä miettiä, minkälaisissa semanttisissa suhteissa tiedot esitetään. FRBR ja CRM toimivat käsitteellisinä malleina, joiden puitteissa eri tavoin dokumentoidut tiedot voidaan esittää. Niitä voidaan kutsua myös ontologioiksi.

57 KAMUT 2 Metadata ja tietovarantojen yhteiskäyttö 55 (102) 2 Tietovarantojen yhdistäminen Eri muistiorganisaatioiden tietovarannot on siis laadittu vastaamaan niiden omiin käyttötarkoituksiin: aineiston tunnistamiseen, kuvailuun, säilyttämiseen, hallinnointiin, tiedonhakuun ja tiedon esittämiseen. Näin pitää ollakin, hyvä metadata soveltuu tarkoitukseensa. Yhteiskäytössä näytettävän metadatan tarkoitus ei ole sama kuin organisaation omassa tietokannassa. Tarkoituksena on eri instituutioissa ja eri aloilla tallennetun tiedon välittäminen yleisölle. Tämän vuoksi yhteiskäyttöä pohdittaessa on hyvä tiedostaa, että kaikkia tiedon osa-alueita ei kannata sisällyttää yhteiskäyttötietoihin. Joitakin tietoja ei pystytä lainkaan esittämään ja joidenkin tietojen tarkkuus kärsii, mutta asiakas hyötyy. Esimerkiksi Museoviraston Finnish Museums On-line -ohjelmistossa museoiden tietojen julkaisemisessa olennainen metadata on kiteytetty otsikoilla mikä, missä, kuka, milloin. Tietovarantoja voidaan yhdistää monin eri tavoin. Periaatteellisella tasolla voimme jakaa eri lähestymistavat seuraavasti: yhteiskäyttö voi perustua yksittäisten kohteiden löydettävyyteen, kohteiden välisten suhteiden esittämiseen tai kohteista muodostettaviin kiinnostaviin kokonaisuuksiin. Eri lähestymistapoja voidaan käyttää rinnakkain tietojen löydettävyyden parantamiseen. Luvuissa esitellään nämä kolme lähestymistapaa: 1. Metadatojen yhdistäminen: eri tietovarantojen metadatojen supistaminen ja siirtäminen yhteiseen formaattiin. Yksittäisten kohteiden löydettävyyttä edistävä ratkaisu, jossa on vakiintuneita toimintatapoja ja valmiita sovelluksia. 2. Ontologiat: formaalilla kielellä ilmaistun käsitejärjestelmän eli ontologian hyödyntäminen metadatojen yhdistämisessä ja tietojen esittämisessä. Kohteiden välisten suhteiden esittämiseen perustuva ratkaisu, jonka edellyttämät teknologiat ovat vasta kehitteillä ja ensimmäiset sovellukset on juuri julkaistu. 3. Kokoelma-tason kuvailut: uuden metadatatason luominen yhteiskäyttöä varten, eli tietovarantojen jako kokoelmiin, jotka on laadittu yleisön mielenkiinnon mukaisesti. Kohteista muodostettaviin kokonaisuuksiin tähtäävä ratkaisu, joka on teknisesti yksinkertainen, mutta käytettävät metadatamallit, kokoelmatietoja keräävät tietokannat ja toimintatavat ovat vasta muodostumassa. 2.1 Erilaisten metadatamallien yhdistäminen Internetiin yhdistetyt tietokannat ovat niin sanottua syväwebbiä, eli tiedot eivät ole jatkuvasti Internetissä vaan tulevat näkyviin, kun käyttäjä tekee haun tietyn käyttöliittymän kautta. Sen vuoksi tietokantojen tietoja ei löydy tavallisella hakukoneella kuten Googlella. Näin ollen eri organisaatioiden tiedot eivät ole yhteiskäyttöisiä, vaikka ne olisi julkaistu Internetissä. Eri tietojärjestelmät ja niiden käyttöliittymät ovat erilaisia ja yhteisten hakujen tekeminen edellyttää ensimmäiseksi teknisen yhteiskäyttöisyyden ratkaisemista. Käyttöliittymää, joka tekee hakuja moniin eri järjestelmiin, kutsutaan tiedonhakuportaaliksi. Kirjastoalalla on tällaisia monihakuja varten kehitetty toimivia tietoliikennemalleja (Z39.50 ja ZING) ja valmiita portaaliohjelmistoja (Metalib). Museoalalla Computer Interchange of Museum Information (CIMI) -järjestö on luonut tietomallin Z protokollan soveltamiseen museoissa ja arkistoalalla Encoded Archival Description -formaatti on väylä yhteiskäyttöisyyteen. Helsingin yliopiston kirjasto on juuri käynnistämässä Metalib-tiedonhaku-

58 56 (102) Metadata ja tietovarantojen yhteiskäyttö KAMUT 2 portaalin käyttöönoton. Portaaleihin kirjataan eri tietokantojen etähakuihin tarvittavat tiedot niin, että käyttäjän huoleksi jää ainoastaan hakutermin muotoileminen. Portaali suorittaa etähaut ja esittää tulokset käyttäjälle. Laajoihin aineistoihin kohdistuvissa hauissa käyttäjän on vaikea tuntea haettavissa olevia tietokantoja ja siksi tieto siitä, mitä missäkin tietokannassa on löydettävissä, on käyttäjän kannalta olennaista. Tällöin esimerkiksi kokoelmien kuvailu on hyödyllistä. Tekninen yhteiskäyttöisyys ei kuitenkaan vielä takaa tietojen löydettävyyttä, sillä eri järjestelmissä sijaitsevien kohteiden yhteinen löydettävyys edellyttää, että niillä on yhteinen hakusana, koodi tai numero, jolla haku voidaan suorittaa. Kuitenkin eri tietomalleissa kuvaillaan usein samaa asiaa eri sanoin, tieto sijoitetaan eri kenttään ja lisäksi tietojärjestelmät käsittelevät tietoa eri tavoin. Tiedonhakuportaaleihin voidaan tallettaa kohdennetun monihaun tekemiseen tarvittavaa tietämystä, mutta yleensä vapaatekstihaku kaikista kohdetta käsittelevistä tiedoista on se taso, jolla yhteiskäyttösovellukset toimivat. Tällöin on hankala saada aikaan kattavia tuloslistoja tietyistä aiheista ja kyselyn kannalta olennaisia resursseja saattaa jäädä löytymättä. Suurimmalle osalle käyttäjistä on silti verrattoman arvokasta, että tiedot ovat löydettävissä kätevästi samasta paikasta yhdellä haulla, ja myös tietovarantoja säilyttävät laitokset tulevat palvelun kautta käyttäjien tietoisuuteen. Hieman parempiin hakutuloksiin päästään, jos tieto siirretään yhteiseen tietokantaan ja yhteiseen metadataformaattiin. Useimmiten alkuperäisten tietokantojen tietoja karsitaan, yhdistellään ja yksinkertaistetaan, jotta ne saadaan sovitettua yhteiseen formaattiin. Yhtenäistettyjen tietojen varassa käyttäjä voi rajata tiedonhakunsa tarkemmin ja tulokset ovat luotettavampia. On myös mahdollista tarjota käyttäjälle mahdollisuus katsella valitsemistaan olennaisista hakutuloksista tarkempia tietoja alkuperäisestä järjestelmästä. Toimivia esimerkkejä kotimaisista yhteishakusovelluksista ovat kirjasto-, arkistoja museolaitoksen digitoidun kansallisen aineiston yhteistietokanta Muisti ( Etelä-Savon aluetietokanta ( sekä Lapin kirjastojen, museoiden ja tutkimuslaitosten Lapponica-tietopankki ( Lisäksi Itä- Suomen kirjastot, arkistot ja museot ovat kehittämässä yhteiskäyttösovellusta Electronic Libraries of Eastern Finland -hankkeessa Keskeinen kysymys tietojen siirrossa yhteiseen tietokantaan on käytettävän metadata-formaatin määrittely. Valmiit standardoidut formaatit takaavat parhaan yhteiskäyttöisyyden, mutta jos päädytään projektikohtaisen metadataformaatin käyttöön, voi käytettävää metadataa tarkastella seuraavien kysymysten kautta [Guidance on the Structure, Content, and Application of Metadata Records for Digital Resources and Collections 2003]: Aluksi on määriteltävä yhteiskäyttöön aiotun tietokantaprojektin tarkoitus, laajuus ja käyttäjäryhmä. On määriteltävä etukäteen myös kriteerit, joilla arvioidaan mukaan tulevien organisaatioiden sekä niiden tietovarantojen ja metadataformaattien soveltuvuus aiotun kaltaiseen yhteiskäyttöön. Olemassa oleva metadata on analysoitava, ja aiotun kaltaisessa yhteiskäytössä tarvittava metadata on määriteltävä. Halutun metadatan tarkkuus on määriteltävä tiedon eri osa-alueilla.

59 KAMUT 2 Metadata ja tietovarantojen yhteiskäyttö 57 (102) Analyysivaiheen jälkeen edessä on seuraavia kysymyksiä: Onko olemassa jokin tarkoitukseen ja aineistoon soveltuva valmis metadatastandardi? Esim. rahoituspäätöksissä edellytetään yhä useammin standardien soveltamista. Mikäli päädytään tuottamaan uusi metadataformaatti, on pohdittava miten laajaan käyttöön se soveltuu ja mitkä ovat sen olennaiset edut ja erot käytössä oleviin formaatteihin: Miten tietojen siirto ja muuntaminen onnistuu formaatin puitteissa, miten tietojen päivittäminen tulevaisuudessa seuraavaan formaattiin onnistuu? Miten formaatti täyttää organisaatioiden ja lakien/sääntöjen velvoitteet? Onko olemassa tarvittavat resurssit formaatin käyttöönottoon ja ylläpitoon, henkilöstökoulutukseen jne? Lisäksi metadataa voi arvioida seuraavien kysymysten kautta: Mitkä asiat metadatassa olisivat aiotulle käyttäjäryhmälle hyödyllisiä? Tullaanko yhteiskäyttöisen tietokannan käyttöä tai pääsyä rajoittamaan ja miten tämä tulisi huomioida metadatassa? Onko aineiston kieleen, formaattiin tai mediatyyppiin liittyviä tarpeita, joita metadatassa tulisi ottaa huomioon? Tarvitaanko yhteiskäyttö-tietokannan toiminnasta vastuussa olevien tahojen kommunikointiin tai käytön tilastointiin joitakin erityisiä elementtejä metadataan. Jos käytetään useita eri metadataformaatteja, onko auktorisoituja mappauksia tai yhdistäviä ontologioita tehty? Teknisesti yksinkertaisempi tapa yhdistää tietokantoja on niiden avaaminen haravoinnille, jolloin niiden sisällöt voidaan esittää käyttäjälle yhtenäisenä tietovarantona. Open Archive Initiative (OAI) on tuottanut laajalti käytössä olevan yksinkertaisen metadatan haravointiprotokollan Internetiin kytkettyjen tietokantojen yhdistämiseen. Järjestelmä perustuu avoimella lisenssillä julkaistuihin ohjelmistoratkaisuihin, joilla tiedon tarjoajat voivat helposti saattaa tietonsa palveluntarjoajien käyttöön. Palveluntarjoajat puolestaan tuottavat yleisölle tietopalveluita eli hakuja, listauksia ja ryhmittelyjä, joiden avulla laajoja tietomääriä tarjotaan käyttäjille. Haravointisovellusten odotetaan hyödyttävän erityisesti useita eri tieteenaloja yhdistäviä portaaleja, joilla käyttäjä voi hahmottaa erillisistä tietovarannoista löytyviä laajoja aihealueita. Useimmiten myös tiedon haravointi perustuu yksinkertaistettuun metadataan, esimerkiksi OAI perustuu Dublin Core Unqualified -tietoihin. OAI-protokolla sisältää myös mahdollisuuden tehdä haravoinnille avoimet tietokannat näkyviksi Internetin yleisille hakukoneille, kuten Googlelle niin sanotun DP9 Gateway -palvelun avulla. Esimerkiksi tiedon haravointiin perustuva AmericanSouth.org sisältää tietoja 26 kirjaston, arkiston ja museon aineistoista ja digitoidusta materiaalista. Tiedot ovat selailtavissa kokoelmakohtaisesti ja haettavissa vapaatekstihaulla. Siirtyminen mahdolliseen digitoituun aineistoon ja tarkempiin tietoihin tapahtuu www-linkin kautta. Linkin kautta pääsee myös aineistoa säilyttävän organisaation tietoihin ja hakupalveluihin. Seuraavassa esimerkki haravointi-sovelluksessa näytettävistä tiedoista:

60 58 (102) Metadata ja tietovarantojen yhteiskäyttö KAMUT 2 Source Archive VCDH Valley of the Shadows Identifier KWWSHWH[WOLEYLUJLQLDHGXHWFELQFLYZDUOHWWEURZVH"LG $ Title Kenton Harper to William S. H. Baylor, May 24, 1861 Author Harper, Kenton Subject Military Authority Subject American Civil War Abstract Colonel Kenton Harper writes to Major William S. H. Baylor about the proceedings of the Third Regiment that Col. Harper regards as mutinous. Publisher Virginia Center for Digital History Discovery Type Text Source Source copy consulted: Kenton Harper Papers, Accession # M-2863, Southern Historical Collection, University of North Carolina, Chapel Hill, North Carolina (1 pages) Language en Rights Publicly accessible - Text and images (c) copyright 2002, by the Rector and Visitors of the University of Virginia ID oai:valley.vcdh.virginia.edu:a0014 Date Ontologiat tietovarantojen yhdistäjinä Monimutkaisiakin tietomalleja voidaan yhdistää mappaamalla eli kartoittamalla toisiaan vastaavat tietoelementit yhteen ja käyttämällä tätä karttaa tiedon siirron, tiedonhaun ja hakutulosten esittämisen pohjana. Mitä monimutkaisempia tietomallit ovat ja mitä useampia tietomalleja yhteiskäyttöön sisällytetään, sen epätäydellisempiin tuloksiin mappauksessa on tyydyttävä. Ontologiat ovat semanttisessa verkkoympäristössä luonnollinen tapa ilmaista monimutkaisten tietomallien välisiä semanttisia suhteita niin, että kone voi käsitellä tietoja eri metadataformaateista ja esittää ne käyttäjälle yhtenäisinä ja olennaisina hakutuloksina. Ontologia on ylärakenne, joka on täysin riippumaton dataresursseista. Voidaan ajatella että se on eräänlainen viisas kartta tallennettuun tietoon. Ontologian etuna on se, ettei sitä tarvitse muuttaa tai päivittää dataresurssien muuttuessa. Hyvin määritelty käsitteistö aihealueelta pysyy pitkään ajankohtaisena, eikä sen muuttaminen edellytä tuhansien metadatakirjausten muuttamista. Käyttäjä voi aloittaa tiedonhaun selaamalla aihealuetta kuvaavaa mind-mappia ja vasta saatuaan käsityksen tietokantaan sisältyvästä maailmasta alkaa selata käsitteisiin liittyviä dokumentteja.

61 KAMUT 2 Metadata ja tietovarantojen yhteiskäyttö 59 (102) Ontologia Dataresurssit Kuva 4 Kivelä, Aki: Aihekartat ja dokumenttien julkaisu, 2003 Samaan tapaan kuin ontologia osoittaa aineistosta käyttäjälle mielenkiintoisia suhteita, se voi myös osoittaa koneelle välttämättömiä ohjeita metadatojen yhdistelyyn ja esittämiseen. Tietovarannon ylläpitäjälle tietojen yhdistäminen ontologialla on helpotus, sillä silloin metadata saa olla minkälaista hyvänsä, kunhan ontologian laatijalle pystytään kertomaan, mitä metadatan eri elementit täsmälleen merkitsevät. Kirjastojen ja museoiden tietokantojen yhdistelyä ontologian avulla on kehitelty ns. Harmony projectissa. Harmony projectin mukaan suoraviivaiseen mappaukseen perustuvilla ylikulkusilloilla (crosswalks) ei kyetä hallitsemaan kompleksisuutta, joka syntyy eri toimijoiden ja toimialojen tietomallien yhdistelystä. Harmony tavoittelee joustavampaa ratkaisua, jossa rakennetaan looginen malli eri tietorakenteiden yhteisistä entiteeteistä sekä niiden attribuuteista ja suhteista. Harmonyprojektissa yhdistettiin ontologialla museoiden CRM-ontologia ja kirjastojen ABContologia, joka perustuu mm. FRBR:n tietorakenteeseen. [Doerr et al. 2002]

62 60 (102) Metadata ja tietovarantojen yhteiskäyttö KAMUT 2 Kuva 5 Le Boeuf, Patrick: The Future of FRBR, 2002 Kirjastojen ja museoiden tietovarantojen yhdistämistä edistetään aktiivisesti pyrkimällä FRBR- ja CRM-tietomallien yhteensovittamiseen IFLAn ja CIDOCin yhteistyönä. Yhteisen käsitteistön sopiminen ja sen ontologinen mallintaminen mm. tietojärjestelmien suunnittelijoita varten edesauttaa tietojen löydettävyyttä ja hyödynnettävyyttä kaikkien käyttäjäryhmien kannalta. Harmony-projektin perusontologian ja Dublin Coren kaltaisen perusmetadatan ero on siinä, että metadata on tarkoitettu ihmisen tuottamaksi, editoimaksi ja ymmärtämäksi, kun taas ontologia on tarkoitettu koneen ymmärrettäväksi. Tämän vuoksi ontologia voi olla kompleksisempi, sen suunnittelua ohjaa pikemminkin looginen täsmällisyys ja täydellisyys kuin inhimillinen ymmärrettävyys. Ontologia sisältää formaalin mallin eri matadatoista kotoisin olevien tietojen yhdistämisestä. Siinä voidaan ilmaista myös mekaanista kenttien yhdistämistä monimutkaisempia suhteita, ehtoja ja edellytyksiä. [Doerr et al. 2002] Yleisimpien metadataformaattien yhdistämiseen on kehitetty myös MetaNetontologia. Siinä eri formaattien hakutermit on kuvailtu tesauruksen tapaan yläkäsitteinä, alakäsitteinä ja rinnakkaistermeinä niin, että haku millä tahansa yleisesti käytetyllä metadatatermillä voidaan koneellisesti tulkita kohdejärjestelmään sopivaksi. Esimerkiksi haku termillä tekijä/author voidaan tulkita yläkäsitteeksi toimija/agent, jonka FRBR tunnistaa tai alakäsitteeksi taiteilija/artist, joka on käytössä taidemuseon tietojärjestelmässä. MetaNet kattaa joukon yleisiä metadatassa käytettyjä käsitteitä sekä Dublin Coren, INDECSin, IFLAn ja CRM:n termit. Kuten useimpien ontologiasovellusten, myös MetaNetin soveltaminen todelliseen tietokanta-aineistoon vaatii paljon työtä, ja se on pikemminkin kokeiluasteella kuin tuotantokäytössä. Metadatatermien vastaavuuksia voi tutkia MetaNetin hakusivulla [Hunter & Lagoze 2001] Miten metadataa hyödynnetään ontologiasovelluksissa Vaikka luotaisiin miten kompleksinen ontologia kuvaamaan muistiorganisaatoiden tietovarantoja, meille jäisi edelleen pohdittavaksi kysymys siitä, miten ontologian käsitteet liitetään olemassa oleviin tietovarantoihin. Kun metadata on valmiiksi

Näytä lisää