Metatieto ja sanastot Juhani Jaakkola Tietojenkäsittelytieteenlaitos: Helsingin yliopisto Juhani.jaakkola@helsinki.fi Tiivistelmä Metatieto yleisesti määritellään tiedoksi tiedosta. Tietotekniikan alalla metatiedoksi voidaan määritellä olevan mitä tahansa muuta tietoa jota voidaan käyttää avustamaan tietojenkäsittelyä. Kaikki tietojärjestelmän käyttämät metatietoa hyödyksi ja metatiedon voidaan katsoa olevan tietosisältöjen tehokkaan hakemisen ja hyödyntämisen kannalta elinehto. Metatietoa käytettän tietosisältöjen tunnistamiseen, hakemiseen, hallintaan ja määrittelemään tietosisällön käyttöoikeuksia. Metatietomallit ja sanastot ovat perusta eri tietojärjestelmien väliselle kommunikaatiolle ja ilman yhteisesti sovittuja tietomalleja järjestelmät eivät pysty jakamaan tietosisältöjä. Näiden yhteisesti sovittujen mallien lisäksi metatiedon täytyy olla riittävän laadukasta. NISO (National Information Standards Organization) määrittelee periaatteita metatiedon laadulle. Avainsanat; metatieto, sanastot, tiedonhaku, asiasanoitus, luettelointi, luokittelu. JOHDANTO Metatiedolla yleisesti tarkoitetaan tietoa tiedosta. Tämä on kuitenkin hyvin laaja määritelmää metatiedosta, ja sitä tarpeen tarkentaa [1]. Tietotekniikassa metatiedolla yleisesti tarkoitetaan informaatiota tietosisällön rakenteesta, merkityksestä ja ympäristöstä, joka mahdollistaa tietosisällön hallinnan ja hakemisen koneellisesti [7]. Metatieto voidaan myös määrittää olevan mitä tahansa muuta tietoa, jota voidaan käyttää avustamaan tietovaraston hallintaa ja tehostamaan tietosisällön hyödyntämistä [2]. Tietovarastot ilman järjestelmällistä metatietoa muuttuvat ajan saatossa käyttökelvottomiksi tai vaikeasti käytettäviksi [4]. Metatiedon voidaan katsoa olevan välttämättömyys tietosisältöjen tehokkaalle hallinnalle [2]. Saatamme pystyä hallitsemaan omaa työpöytäämme, muistamalla minne laitoimme tarvitsemamme kirjan tai monisteen, mutta tietomäärien kasvaessa tarvitsemme arkistointimenetelmiä, jotka helpottavat haettavan tiedon löytymistä. Digitaalisen tietosisällön tallentamisessa ja hallinnassa metatieton merkitys korostuu. Voimme kuvitella kuinka vaikeaa on löytää oikeata tiedostoa tietokoneen kiintolevyltä, jollemme ole nimennyt ja tallentanut tietosisältöä jonkin periaatteen mukaisesti oikeaan kansioon [4]. Tässä artikkelissa sanalla tietosisältö tarkoitetaan tiedon yhtä instanssia, esimerkiksi www-sivua, video-tiedostoa, valokuvaa, dokumenttia, tiedostoa tai kirjaa. METATIEDON KÄYTTÖ Kaikkeen tallennettuun tietoon voidaan liittää metatietoa ja tästä syystä metatieto liittyy tietotekniikassa aina johonkin tietovarastoon [4]. Ohjelmat, tietokannat ja muut tietoa tallentavat järjestelmät käyttävät metatietoa tietosisältöjen identifioimiseen, hakemiseen, hallitsemiseen sekä hyödyntämiseen. Metatiedon voidaan katsoa antavan tietosisällölle merkitys järjestelmän sisällä [2]. Tietovarastoja joihin aina liittyy metatietoa ovat esimerkiksi: Internetin HTML-sivut Kirjastojen kokoelmistot Yritysten tietovarastot Digitaaliset valokuvat Dokumenttien hallintajärjestelmät
Fig. 1. Metatietoa Jpeg tiedostossa METATIEDON LUOKITTELU Metatiedon käyttökohteiden ja käyttötarkoitusten ollessa hyvin erilaisia, sekä tahojen jotka luovat metatietoa ollessa moninaisia, on myös hyvin monen tyyppistä metatietoa [4]. Tästä syystä metatietoa voidaan myös luokitella hyvin monin eri kriteerien perusteella. Luokitteluita voidaan tehdä muun muassa seuraavilla perusteilla. Käyttö: passiivinen, aktiivinen, puoliaktiivinen Kohde: tieto ja prosessi Abstraktiotaso: käsitteellinen, looginen, fyysine Käyttäjäryhmä: tekninen ja liiketoiminnallinen Tyyppi: staattinen, dynaaminen Kuvauskohde: semanttinen, rakenteellinen, kontekstuaalinen Seuraavassa kohdissa avataan tietosisällön käyttökohteen mukaista metatietoluokitusta, passiiviseen, aktiiviseen ja puoliaktiiviseen. 1) Aktiivinen metatieto: Aktiivisella metatiedolla tarkoitetaan niin sanottua kontrolli-informaatiota, transformointisääntöjä tai metodeja. Ohjelmat, jotka käyttävät aktiivista metatietoa muuttavat omaa toimintaansa ajonaikana kontrolli-infomaation mukaisesti. Tällöin ohjelmaa voidaan kutsua metatieto-johtoiseksi, sillä sen toiminta on osittain riippuvainen sen ulkopuolella määritellystä metatiedosta [2]. Tyypillinen esimerkki on kirjastojen hakemistot, esimerkiksi Helsingin Yliopiston kirjaston hakemisto Helka kertoo niteiden lukumäärän, kirjan fyysisen sijainnin, sivujen lukumäärän ja fyysisen koon. Semanttinen metatieto (descriptive metadata): kuvaa tietosisällön merkitystä. Semanttista metatietoa ovat tietosisällön avainsanat, nimike, aihe ja tiivistelmä [4]. Esimerkiksi internetsivuille voidaan määritellä semanttista metatietoa kertomaan sivun sisällöstä. Fig. 2. Internetsivun metatietoa Kontekstuaalinen metatieto: Metatieton kolmas tyyppi eli kontekstuaalinen metatieto kuvaa tietosisällön ympäristöä tietyssä tilanteessa. Kontekstuaalistuaalista metatietoa on muunmuassa tietosisällön luomisaika, tiedonhallinta prosessiin liittyvät tunnistetiedot ja tietosisällön suhteet muihin tietosisältöihin. Kontekstuaalinen metatieto voidaan jakaa edelleen alaryhmiin, tietosisällöntuottamisympätistokontekstiin ja käyttöympäristökontekstiin. [6]. 2) Passiivinen metatieto: Passiivisella metatiedolla tarkoitetaan informaatiota tietovarastoympäristöstä, sen rakenteesta, kehittämisprosessista ja käytöstä. Passiivinen metatieto on kaikkien tietovaraston käyttäjien hyödynnettävissä, loppukäyttäjien, ylläpidon ja järjestelmäkehittäjien [2]. 3) Puoliaktiivinen metatieto: Kahden aikaisemman yhdistelmä, se sisältää staattisia määrityksiä, kuten kuten tietorakenne- tai asetusmäärityksiä. Ohjelmat voivat lukea näitä ajonaikana, mutta aktiivisesta metatiedosta poiketen näitä ei ajeta itsenäisesti [2]. Usein käytetty luokittelu on metatiedon jakaminen kolmeen luokkaan kuvauskohteen perusteella, rakenteelliseen metatietoon, semanttiseen metatietoon sekä kontekstuaaliseen metatietoon [4]. 1) Rakenteellinen metatieto (structural metadata): kuvaa tietosisällön fyysistä tai loogista rakennetta ja sen teknisiä ominaisuuksia. Rakenteelliseen kuvaukseen kuuluu sisällön kielen tai tyypin määrittelyt kuten tietosisällön formaatti, merkkien määrä tai sivumäärä [3]. Fig. 3. Kuvan 2 metatieto JSON-formattissa MIKSI METATIETOA TARVITAAN? Metatietoa ja metatietomalleja eli standardeja käytetään muodostamaan yhtenäisiä ja yksiselitteisesti ymmärrettäviä merkityksiä eri sanojen välille. Ihmisten käyttämä puhekieli sisältää lukemattoman määrän monitulkintaisuuksia ja eriviä merkityksiä sanoille riippuen niiden kontekstista [2].
Esimerkiksi suomenkielen sana astianpesukone tarkoittaa samaa kuin tiskinpesukone. Tämän yhteyden ymmätäminen on tietokoneille mahdotonta vaikka se suomalaiselle on itsestään selvää. MIHIN METATIETOA KÄYTETÄÄN? Metatiedon käyttöä voidaan tarkastella sen perusteella, mitä metatieto kuvaa. Tärkein syy semanttisen metatiedon luomiseen on helpottaa halutun tiedon löytymistä, kuvailemalla mitä asiaa tietosisältö koskee. Tällöin mahdollistetaan tiedon löytyminen relevanttien hakusanojen avulla tai selailemalla semanttista metatietoa. Tämän lisäksi metatietoa käytetään oranisoimaan tietoa, mahdollistamaan järjestelmien yhteensopivuus sovittujen tietomallien avulla, sovittamaan vanhoja järjestelmiä uusiin ja tukemaan tiedon arkistointia ja esittämistä. [6]. Kuvaileva metatieto mahdollistaa relevantin tiedon löytymistä mahdollistamalla tietohaut tyypin perusteella, ryhmittelemään samankaltaisin tietoresursseja yhteen, kuvaamaan erilaisuutta samankaltaisten resurssien välillä ja antamaan tiedolle sijainti tietorakenteessa. Järjestelmien yhteentoimivuus perustuu yhteisesti sovittuun tietosisältöjen rakenteelliseen ja merkitykseen. Rakenteellinen metatieto mahdollistaa useiden järjestelmien välisen välisen tiedon siirron mahdollisimman pienellä tiedon menettämisellä [6]. Ilman yhteisesti sovittua metatietomallia järjestelmät eivät pysty jakamaan resursseja keskenään. SANASTOT Sanastot tai kontrolloidut sanastot (controled vocabulary) ovat rajallinen kokoelmia erilaisia termejä ja ilmauksia (phrase), joita käytetään tietosisältöjen luettelointiin ja luokitteluun eri käsitteiden alle [1]. Sanastot sisältävät tyypillisesti suositeltuja termejä, vaihtoehtoisia termejä ja termien synonyymeja rajalliselle laajuudelle tai tarkoin määritellylle aihealueelle (domain) [5]. Käsitteen (concept) ja termin (term) välinen ero on syytä tarkentaa. Käsite on termiä ylempi abstraktio, johon useampi termi voi viitata. Sanastot koostuvat termeistä, mutta ei suoraan käsitteistä. Sanastoissa termit määritellään siten että yksi termi voi viitata vain yhteen asiaan, varmistaen ettei termi esiinny sanastossa kuin yhden kerran [1]. Tiedon hakemisessa loppukäyttäjät eivät välttämättä ole aihealueen asiantuntijoita, jolloin he helposti käyttävät käsitteen synonyymia tai yleisempää käsitettä tiedon hakemiseen. Jotta olisi mahdollista löytää oikea tieto käyttämällä käsitteen synonyymia, tarvitaan sanastoja, jotka kokoavat synonyymit ja yleisemmät käsitteet loogiseen järjestykseen tai järjerjestämään ne kategorioihin. Samalla luodaan linkitys käsitteiden välille ja mahdollistetaan oikean tietosisällön löytyminen [5]. Kontrolloitujen sanastojen käyttö estävät tietosisältöjen julkaisijoita luomasta merkityksettömiä käsitteitä. Käsitteitä, jotka ovat liian laajoja tai liian kapeita, ja ne myös estävät tehokkaasti kirjoitusvirheellisten käsitteiden käyttämisen [1]. METATIETO SANASTOT Metatietosanastot ovat kuten kontrolloidut sanastotkin rajallisia kokoelmia erilaisia käsitteitä, mutta eroavat käyttötarkoitukseltaan. Metatietosanastostot ovat kokoelmia tietosisältöjen ominaisuuksia kuvaavia käsitteitä. Ehkäpä tunnetuin metatietosanasto on seuraavassa kappaleessa esiteltävä Dublin Core metatietosanasto. DUBLIN CORE Dublin Core metatietosanasto (Metadata Element Set) on vuonna 1995 julkaistu metatietostandardi, jonka määritteli julkaisijoiden, kirjastojen ja akateemisten järjestetöjen ryhmittymä. Standardi kuvaa 15 metatieto elementtiä joita käytetään verkkoresurssien sisällön määrittämiseen [6]. Dublin Core metatieto elementit title identifier format creator source contributor subject language rights description relation type publisher coverage date a. Dublin Core metatietoelementit Dublin Core metatietosanasto luotiin helpottamaan hakukoneiden työtä www-sivujen luetteloinnissa, mutta valitettavasti metatiedon väärinkäyttöstä johtuen suosituimmat hakukoneet jättävät www-sivujen metatieto-osuuden lähes kokonaan käyttämättä [6]. SANASTOJEN TARKOITUS Sanastojen tarkoituksena on organisoida tietoa ja tarjota termistö tietosisältöjen luettelointiin ja hakemiseen, rajoittamatta aihealueella käytettävää termistöä. Sanastot ylläpitävät tietosisältöjen yhtenäisyyttä suositeltujen termien avulla ja ryhmittelemällä samankaltaista tietosisältöä näiden termien alle. Sanastot ovat välttämättömiä toimivan luetteloinnin toteuttamisessa. Ilman sanastoja on mahdotonta varmistaa että sama termi viittää samaan henkilöön, paikkaan tai asiaan [5].
METATIEDON LAATU Metatiedon luominen automaattisesti tai tietosisältöjen tuottajat jotka eivät tunne riittävän hyvin luokittelua, asiasanoitusta (indexing) tai sanastoja riittävän hyvin voivat luoda metatiedon laatuongelmia. Metatiedon laatuongelma ovat esimerkiksi puuttuvat tai väärin täytetyt elementit, metatietomalli ongelmat, jotka estävät tietosisällön automaattisen käsittelyn tai metatiedon käsitteiden väärinkäyttäminen, joka vaikeuttaa haettavan tiedon löytymistä. Fig. 4. RDF Dublin Core esimerkki [13] METATIETO JA TIEDON LÖYTÄMINEN Tiedosisällön löytäminen suuresta tietovarastosta ilman minkäänlaista metatietoa on lähestulkoon mahdoton tehtävä [1]. Metatietoa käytetään tiedon relevantin tiedon löytämiseksi muiden tietosisältöjen joukosta. METATIEDON TUOTTAMINEN Metatietoa tuotetaan tietosisällön elinkaaren eri vaihessa eri tavoilla, riippuen kuvatusta tietosisällöstä, sen käyttötarkoituksesta ja metatiedon luomiseen käytetyistä työkaluista. Lähestulkoon aina metatiedon luomisessa on osallisena useampi kuin yksi taho [6]. METATIETOTYÖKALUJA Metatiedon luomiseen on tarjolla monia erilaisia työkaluja, jotka luovat metatietoa eri tavoin. Useat näistä työkaluista on maksullisia tuotteita, mutta myös ilmaisia avoimia työkaluja on tarjolla [6]. Metatietotyökaluja voidaan jakaa tapoihin, joilla metatietoa luodaan: Niso [8] organisaatio määrittelee ohjeistuksessaan A Framework of Guidance for Building Good Digital Collections periaatteita hyvä laatuisen metatiedon luomiseen seuraavasti: Laadukkaan metatiedon pitää olla tarkoituksen mukaista, harkittua ja ajantasaista tietovaraston tietosisältöjen kannalta. Laadukkaan metatiedon tulee tukia yhteentoimivuutta Laadukasmetatieto käyttää standartoituja sanastoja kuvatakseen mitä, missä ja kenelle tietosisältö on tarkoitettu Laadukasmetatieto sisältää selkeästi määriteltyjä käyttöehtoja tietosisällölle Laadukasmetatieto on itsessään tietosisältöä ja sen tulee ominaisuuksiltaan tukea mm. asiasanoitusta, luettelointia ja yksikäsitteistä tunnistusta. Lisäksi metatiedon tulisi olla varmistettavissa (authoritative) ja todistettavissa (verifiable). Laadukasmetatieto tukee tietosisältöjen pitkä kestoista hallintaa Sapluunat (templates) mahdollistaa käyttäjän syöttää metatietoja valmiiksi annettuihin kenttiin. Täyttämisen jälkeen sapluuna luo annettujen arvojen pohjalta kokoelman elementtejä jonka arvot vastaavat annettuja [6]. Louhintatyökalut tuottavat metatietoa analysoimalla digitaalista tietosisältöä. Louhimalla saadun metatiedon laatu voi vaihdella paljon riippuen työkalun käyttämän algoritmin soveltuvuudesta tietosisällön analysointiin. Louhinta työkaluja käytetään usein apuna kun metatietoa luodaan muiden työkalujen avulla [6]. Muunnostyökalut kääntävät metatietoa alkuperäismuodosta toiseen. Riippuen näiden kahden eri metatietomuodon yhteensopuvuudesta riippuen metatietoa voidaan lisäksi joutua muokkaamaan vielä käsin [6]. METATIETOMALLIEN YHTEENTOIMIVUUS Kaikki metatietomallit (schema) ovat täyttämään tiettyjen käyttäjien tarpeita. Täydentäviä tietomalleja käytetään laajentamaan tietosisällön kuvausta muiden käyttäjien tarpeisiin [6]. Metatiedon ristiin kartoitus (meatadata crosswalks) tarkoitetaan eri metatietomallien yhteensovittamista, siten että mahdollistetaan metatieton elementtien, semantiikan ja muotosääntöjen yhteensopivuus. Ristiin kartoittamisella mahdollistetaan eri tahojen luomien metatietojen käyttö toisessa metatietomallissa [6]. Ristiinkartoittamisen onnistuminen riippuu tietosisältö tasolla metatietomallien vastaavuudesta, alkuperäisen metatietomallin rakenteisuuden vastaavuudesta muunnettavan mallin rakenteisuuteen ja tietosisältö säännöistä, joilla metatietomalli on täytetty.
METATIEDON ONGELMIA LÄHTEET Virheellinen metatieto: Metatietoa käytetään maailmassa, jossa ihmiset kilpailevat siitä kenen tietosisältö on suosituinta, Internetsivujen mainonnasta saa enemmän rahaa, mitä enemmän kävijöitä sivulla on, artistit haluavat ihmisten löytävän omia tuotoksiaan ja tavarantoimittajien tuotteet kilpailevat keskenään. Näistä syistä usein törmäämme metatiedon väärinkäyttöön. Internetin hakukoneen antavat usein tuloksiksi sivuja jotka eivät sisälläkään sitä mitä etsimme, vaan ne ovat luotu hakemaan huomiotamme [9]. Metatiedon ylläpitäminen on raskasta: Relevantin metatiedon luominen ja ylläpitäminen on tietovaraston käyttökelpoisuuden ja säilymisen elinehtoja, mutta usein hyvin aikaa vievä prosessi. Relevantin metatiedon täyttäminen luomaamme tietosisältöön jää usein tekemättä, jollemme ymmärrä sen merkitystä. Saatamme lähettää sähköpostia ilman otsikkoa tai luoda dokumenttejä nimellä, jonka järjestelmä antaa meille oletuksena [9]. [1] L. Marius Garshol, Metadata? Thesauri? Taxonomies? Topic Maps!, Making sense of it all. Internetsivu. http://www.ontopia.net/topicmaps/materials/tm-vs-thesauri.html Viitattu. 02.02.2015 [2] V. Niemijärvi, Metatieto tietovarastoympäristössä. Jyväskylän yliopisto, tietojenkäsittelytieteiden laitos. Pro gradu. 20.12.2002. [3] N, Laitala. Metatiedot tietojenkäsittelyn integraation tukena, Tapauksena suomalainen lainsäädäntö. Jyväskylän yliopisto, tietojenkäsittelytieteiden laitos. Pro gradu. 11.10.2004. [4] A. Salminen, Metatiedot organisaatioiden sisällönhallinnassa. Ilmestynyt julkaisussa A. Lehtinen, A, Salminen, R, Nurmeksela. Metatiedot suomalaisen lainsäädäntöprosessin tiedonhallinnassa. RASKE2- projektin II väliraportti (s. 4-13). 07.2005. [5] P. Harpring, Introduction to Controlled Vocabularies: Terminology for Art, Architecture, and Other Cultural Works. (s. 12-18) Getty Publications, 2010. [6] R. Guenther, R. Jacqueline. Understanding metadata. National Information Standard Organization (NISO) Press, Bethesda, USA 2004. [7] A. Brand, F. Daly, B. Meyers,. Metadata demystified. Bethesda, National Information Standard Organization (NISO) Press. 2003. [8] NISO Framework Working Group. A framework of guidance for building good digital collections. http://www. niso. org/publications/rp/frame-work3. pdf 2007. [9] C. Doctorow. Metacrap: Putting the torch to seven straw-men of the meta-utopia. Internetsivu. http://www.well.com/~doctorow/metacrap.htm. Viitattu 05.02.2015.