7 Tiedonhaun apuvälineet

Samankaltaiset tiedostot
8 Tiedonhaun apuvälineet

7 Tiedonhaun apuvälineet

Hypermedian ohjelmointi, kevät Luento 7. Tiedonhaun apuvälineet

8 Tiedonhaun apuvälineet

8 Tiedonhaun apuvälineet

10 Ohjelmoinnista Semanttisessa Webissä

Semanttinen Web. Ossi Nykänen. Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), Hypermedialaboratorio W3C Suomen toimisto

W3C-teknologiat ja yhteensopivuus

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

Eero Hyvönen. Semanttinen web. Linkitetyn avoimen datan käsikirja

Semanttinen Web. Ossi Nykänen. Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), W3C Suomen toimisto

XML johdanto, uusimmat standardit ja kehitys

TIEDONHAKU INTERNETISTÄ

10 Nykyaikainen WWW-arkkitehtuuri

Metatietojen merkitys tiedonhallinnassa

Luento 12: XML ja metatieto

Digitaalisen median tekniikat xhtml - jatkuu Harri Laine 1

3 Verkkosaavutettavuuden tekniset perusteet

Paikkatiedot ja Web-standardit

Semanttinen Web. Ossi Nykänen Tampereen teknillinen yliopisto (TTY), DMI / Hypermedialaboratorio W3C Suomen toimisto

Digitaalisen median tekniikat xhtml - jatkuu

Metatietojen merkitys tiedonhallinnassa

Ontologiat merkitysten mallintamisessa: OWL. Eeva Ahonen

Metatiedot organisaatioiden sisällönhallinnassa

Semantic Web käytännön sovelluksissa. TkT Janne Saarela Profium Oy

Paikannimirekisteri linkitettynä tietona

Digitaalisen median tekniikat xhtml - jatkuu

Mikä on semanttinen web?

Sisällönhallinnan menetelmiä

ITK 06 Yhteiset kirjanmerkit tiedon jakamisen välineenä Jukka Huhtamäki & Ilkka Kaikuvuo huhtikuuta 2006

Semanttisen webin käyttöliittymäratkaisut. Tiedonhallinta semanttisessa webissä Osma Suominen

Visio tulevaisuuden Webistä. Semantic Web - kohti uutta merkitysten Internetiä. Ratkaisumalli 1: Älykkäämmät sovellukset. Vision este Webissä

Rakenteisten dokumenttien jatkokurssi, syksy 2006

The OWL-S are not what they seem

Miksi asiasanastot eivät riitä vaan tarvitaan ontologioita?

Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin?

5 Verkkopalvelun sisällön hallinta

Julian graafinen annotointityökalu ja erityisontologioiden editori. Jaason Haapakoski P Kansanterveyslaitos , 28.3.

Ensi askeleet semanttiseen webiin: tuotantoprojektin kokemuksia

ICT1TN004 Hakukoneoptimoin p ti Heikki Hiet Hie ala t

7 Mukautuvat verkkopalvelut

standardit (W3C, ISO) Semanttisen laskennan tutkimusryhmä Teknillinen korkeakoulu

Tutkitaan sitten HTML-dokumenttien anatomiaa, jotta päästään käsiksi rakenteisten dokumenttien käsitteistöön esimerkkien kautta.

ONKI SKOS Sanastojen ja ontologioiden julkaiseminen ja käyttö Asiasanaston muuntaminen SKOS muotoon: case YSA

6 Mukautuvat verkkopalvelut

W3C ja alueellinen standardointi

Ovid Medline käyttöohjeita (10/2010)

RDF ja RDFS. 8 RDF ja RDFS

Hallintaliittymän tilastosivu jakautuu neljään osaan, yleisnäkymään, reaaliaikaisiin kävijätietoihin, hakutilastoihin ja raportointiin.

B U S I N E S S O U L U

Liite 7: Asiakastietoa käsittelevä järjestelmä Sosiaalihuollon asiakastiedon arkisto. Rajapintakäyttötapaukset

Tiedonlähteille NELLIn kautta -

ARVO - verkkomateriaalien arviointiin

W3C: teknologia ja (tieto)yhteiskunta

CIRI Ontologiaperustainen tiedonhakuliittymä

Tiedonhaku Nelli-portaalissa

Seitsemän syytä semanttiseen webiin. Eero Hyvönen Aalto-yliopisto ja HY Semanttisen laskennan tutkimusryhmä (SeCo)

NELLI PORTAALIN KÄYTTÖOPAS

Hyperlinkin tekeminen artikkeliin

NELLI Kansallinen tiedonhakujärjestelmä

W3C, Web-teknologiat ja Semanttinen Web

TUKIMATERIAALI: Arvosanan kahdeksan alle jäävä osaaminen

Helsinki Region Infoshare Pääkaupunkiseudun tiedon avaaminen

RATKI 1.0 Käyttäjän ohje

Rakenteisen oppimateriaalin tuottaminen verkossa esimerkki Rhaptos. Antti Auer Koordinaattori, HT Jyväskylän yliopisto Virtuaaliyliopistohanke

9 Edistynyt PHP-ohjelmointi

2. PEHMEÄ XHTML XRAJAHTML

Tiedonhaku. Esim. kymenlaakso muutosjohtami* Laila Hirvisaari Tuntematon sotilas Ruksi tyhjentää hakukentän.

Action Request System

11 Hypermediajärjestelmistä

Avoin data Avoin kirjasto Kuvailupäivät

W3C ja Web-teknologiat

Talonmiehen tuokio klo KANSALLISKIRJASTO

CINAHL(EBSCO) käyttöohjeita (10/2010)

Vaatimusdokumentti. Orava. Helsinki Ohjelmistotuotantoprojekti HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

Tietojen haku ja raportit

Semanttinen web - lyhyt johdatus

Esittely: Helsinki Region Infoshare Seudun tietovarannot avoimiksi. Ville Meloni ja Pekka Vuori

REKISTERI- JA TIETOKANTA-AINEISTOJEN SIIRTÄMINEN VAPA-PALVELUUN

Auta asiakkaita löytämään kauppaasi! Terhi Aho/

Käsitemallit muistiorganisaatioiden kuvailun yhdenmukaistamisen välineenä

Tietokanta (database)

opiskelijan ohje - kirjautuminen

Tiedonhaku ja varaaminen

Tiedonhallinnan perusteet. Viikko 1 Jukka Lähetkangas

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

XHTML - harjoitus. Tehtävä1: Tee xhtml tiedosto käyttäen notepad (muistio) ohjelmaa. Tiedoston tallennus notepad (muistio) ohjelmassa:

Raporttiarkiston (RATKI) käyttöohjeet Ohjeet

Epätäsmällisen tiedon esittäminen semanttisen webin ontologioissa

opiskelijan ohje - kirjautuminen

TUKIMATERIAALI: Arvosanan kahdeksan alle jäävä osaaminen

Uudet EU-asetukset. EUR-Lexin tarkennetun haun käyttöohje

W3C ja Web-teknologiat

arvioinnin kohde

Vinkkejä musiikin tiedonhakuun OUTI-verkkokirjastossa

Heikki Helin Metatiedot ja tiedostomuodot

PubMed lääketieteellinen kokoteksti- ja viitetietokanta

Verkkopalveluiden saavutettavuus

Sivuston tiedotqbsupportcustom erservice.com

Transkriptio:

7 Tiedonhaun apuvälineet Tämän luentokerran tavoitteena on perehtyä erilaisiin tiedonhaun apuvälineisiin. Vaikka tiedonhaun ja hypermedian asiantuntijat katsovat maailmaa eri näkökulmista pian tullaan huomaamaan, että tieteenaloilla on hyvinkin paljon yhteistä. Tiedonhausta tulee ehkä ensimmäiseksi mieleen perinteinen avainsanahaku, joka a) ei toimi kunnolla tai b) on Google. Tiedonhaku on kuitenkin avainsanahakua laajempi kokonaisuus: tiedonhaun asiantuntijat esimerkiksi sijoittavat hypermedian (tai ainakin hypertekstin) osaksi tiedonhakua. Nyt tavoitteena on kartoittaa erilaisia lähestymistapoja tiedonhakuun, esitellä joukko tiedonhaun apuvälineitä ja selkeyttää tiedonhaun ja hypermedian yhteyksiä toisiinsa. Mikäli tiedonhakuun liittyvät asiat alkavat kiinnostamaan syvemmin, avainsanalla informaatiotutkimus löytyy verkosta rutkasti aihetta käsittelevää materiaalia. Tampereen yliopistossa aihetta tutkii ja opettaa Informaatiotutkimuksen laitos. Tiedonhaun apuvälineiden ohella perehdytään Semanttisen Webin perusteisiin. Tiedonhaun osalta lähdemateriaalina on käytetty kirjaa Baeza-Yates, R., Ribeiro-Neto, B. Modern Information Retrieval, ACM Press, New York, US. MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 116

Tiedonhausta Tiedonhaussa käyttäjällä on tavoitteena löytää tietoa (tai informaatiota) jostakin häntä kiinnostavasta asiasta. Tyypillinen käyttötapaus on se, että käyttäjä määrittelee tarpeensa hakuehtoina ja välittää ne tiedonhaun rutiineista vastaavalle järjestelmälle eli hakukoneelle, joka esittää hakuehtojen mukaiset tietoalkiot käyttäjälle hakutuloksen muodossa. Käsitettä relevanssi käytetään kuvaamaan hakutuloksen vastaavuutta hakuehtoihin. Hakukoneet järjestävät hakutulokset usein niiden oletetun (lasketun tai päätellyn) relevanssin perusteella. Relevanssi voidaan määritellä usealla eri tavalla. Kaksi keskeistä vaihtoehtoa ovat aiherelevanssi ja käyttäjärelevanssi. Aiherelevanssi voi yksinkertaisimmillaan tarkoittaa sitä, että käyttäjän syöttämien hakusanojen esiintymät eri hakutuloksissa lasketaan yhteen ja hakutulos järjestetään esiintymien määrän mukaan. Käyttäjärelevanssissa myös käyttäjä otetaan huomioon hakutulosten relevanssia määriteltäessä (vrt. mukautuva hypermedia: käyttäjämalli ja linkkien järjestäminen tai piilottaminen). MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 117

Tiedonhaun menetelmät Baeza-Yatesin ja Ribeiro-Neto jäsentävät tiedonhaun menetelmät seuraavasti: Information Retrieval Retrieval Browsing Ad hoc Filtering Flat Structure Guided Hypertext Tässä materiaalissa käsitteisiin viitataan seuraavasti: tiedonhaku (Informatio Retrieval), hakeminen (Retrieval), ad hoc (Adhoc), suodattaminen (Filtering), selaaminen (Browsing), rakenteeton selaaminen (Flat), rakenteeseen perustuva selaaminen (Structure Guided) ja hyperteksti (Hypertext). MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 118

Hakemiseen perustuvat menetelmät Hakemiseen (Retrieval) perustuvat tiedonhaun menetelmät voidaan jakaa toimintaperiaatteen perusteella kahteen luokkaan: Ad hoc: Käyttäjä hakee aktiivisesti tietoa hakukoneen tukemana. Tietosisältö ei muutu. Hakuehdot vaihtuvat käyttäjän toimesta. Perinteinen Web-hakukoneella tehtävä sanahaku on esimerkki ad hoc - tiedonhausta. Suodattaminen (Filtering): Käyttäjä määrittelee suodattimen, jonka perusteella tietosisällöstä poimitaan hakuehdon mukaiset tietoalkiot. Tietosisältö on dynaaminen: tietoalkioita lisätään ja poistetaan tiiviissä tahdissa. Hakuehdot pysyvät samana. Esimerkkejä suodattamiseen perustuvasta tiedonhausta ovat erilaiset vahtipalvelut (auto, asunto tai työpaikka) tai vaikkapa verkkopalvelun sisällön muutosten välittämiseen ja luokitteluun tarkoitettu RSS. Ad hoc -tiedonhaussa hakutulosten relevanssin määrittelemisestä vastaa yleensä hakukone. Suodattamisessa käyttäjä arvioi relevanssin itse. MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 119

Selaamiseen perustuvat menetelmät Selaamiseen (Browsing) perustuvat menetelmät voidaan jakaa kolmeen luokkaan: Rakenteeton selaaminen (Flat): Tietosisältö esitetään rakenteettomana listana, jota käyttäjä voi selata. Listassa voidaan näyttää avainsanat ja muut tietosisällöstä kerätyt tiedot. Selaamisen avulla esimerkiksi uusi käyttäjä voi perehtyä tietosisältöön ja mahdollisesti siirtyä selaamiseen jälkeen käyttämään sanahakua. Rakenteeseen perustuva selaaminen (Structure Guided): Tietosisältöön voidaan liittää esimerkiksi erilaisten luokittelujärjestelmien eli taksonomioiden mukaista kuvailutietoa (metatietoa). Rakenteeseen perustuvassa selaamisessa käyttäjä käy läpi tietosisältöä navigoimalla luokittelujärjestelmän mukaisten rakenteellisten linkkien avulla. Esimerkiksi Yahoo!-hakukoneen Web-hakemistot vastaavat rakenteeseen perustuvaa selaamista. Hyperteksti (Hyperteksti): Hypertekstiin perustuvassa selaamisessa navigoimiseen käytetään rakenteellisten linkkien ohella assosiatiivisia linkkejä. Esimerkkejä hypertekstiin perustuvasta selaamisesta ovat BrainyEncyclopedia (http://www.brainyencyclopedia.com/) ja Wikipedia (http://www.wikipedia.org/). Hypertekstin hienoudet oletetaan tässä vaiheessa tutuiksi, joten keskitytään nyt hakemiseen. MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 120

Hakukoneen toiminnallisuus Tyypillinen hakukone tarjoaa käyttäjälle näkymät hakemiseen ja hakutuloksen selaamiseen. Hakuehtojen syöttäminen hakukoneelle tapahtuu yleensä syöttämällä joukko avainsanoja tekstikenttään. Hakutulosta voidaan rajata myös erilaisiin kuvailutietoihin kohdistettujen ehtojen perusteella. Näitä voivat olla esimerkiksi dokumentin tekijä, viimeinen muokkauspäivä, kieli, tiedostomuoto tai dokumentin tekijän syöttämät avainsanat. Hakutulos esitetään tyypillisesti hakuehtoa vastaavien dokumenttien listana. Dokumentin valinnan tukemiseksi listaan kerätään dokumenteista keskeisiä tietoja, kuten osoite, otsikko, koko, tiedostomuoto tai ote sisällöstä. Ote sisällöstä voidaan valita siten, että se sisältää hakuehtona käytetyt termit. Näin käyttäjä pystyy arvioimaan, onko termejä käytetty halutussa asiayhteydessä. Myös mahdollisuudet hakutulosten listan järjestämiseen eri ominaisuuksien perusteella, tiettyä hakutulosta vastaavien dokumenttien etsimiseen ja kyselyn uusimiseen vanhan kyselyn pohjalta ovat hyödyllisiä. Googlen laajennettu haku (http://www.google.fi/advanced_search) on esimerkki hakutuloksen suodattamisen mahdollistavasta palvelusta. MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 121

Sanahaku ja indeksointi Vapaatekstihaun toteuttamiseen on olemassa muutamia vaihtoehtoja: Ajonaikainen haku. Tietosisältö käydään ajonaikaisesti läpi ja sitä verrataan hakuehtoon. Ajonaikainen haku on tarkoituksenmukainen vaihtoehto kun tietokanta on kohtuullisen kokoinen tai kun tietosisältö muuttuu jatkuvasti. Indeksointi. Indeksoinnissa haut kohdistetaan varsinaisen tietosisällön sijaan etukäteen muodostettuihin indekseihin eli hakemistoihin. Indeksointia käytetään kun tietokanta on suuri tai kun tietosisältö on muuttumatonta tai muuttuu hitaasti. Edellisten yhdistelmä. Tietosisällöstä valitaan hakuehdon mukaiset tietoalkiot hakemiston perusteella. Tietoalkioiden relevanssin määrittelyssä käytetään apuna ajonaikaista hakua. Esimerkiksi sanaliittojen eli fraasien etsiminen voidaan toteuttaa hakemistoihin perustuvan ja ajonaikaisen haun yhdistelmänä. Esimerkiksi Webin hakukoneiden toiminta perustuu tietosisällön laajuuden takia luonnollisesti indeksointiin. Hakemistoihin viitataan tiedonhaun yhteydessä usein käsitteellä käänteistiedosto (inverted file). MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 122

Esimerkki indeksoinnista Hakemisto voidaan suljetussa järjestelmässä tuottaa samalla kun tietosisältö tallennetaan järjestelmään. Yksinkertaistettu esimerkki indeksoinnista levylaarin tapaan (ota huomioon, että todellisuudessa relaatiotietokannassa on oltava useita tauluja dokumenttien ja hakemiston esittämiseen): Cosmonauts idsurf idsurf... ovat Laika and the Cosmonauts ja Dick Dale and the Deltones. Näistä Laika... DB Cosmonautsin idlw Laika... idsurf(2), idlw indexer.php levylaari.php Levylaari idlw... Laika and the Cosmonautsin uusin levy Local Warming search.php Hae: Lähetä MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 123

Indeksointi Webissä Miten Google todella löytää kaikki Webin dokumentit? Vastaus: Ei mitenkään, mutta varsin monta dokumenttia Googlen tietokannasta löytyy: Sivustojen lokitiedoista voi esimerkiksi katsella erilaisten selainten nimiä. Eräs lokitiedoissa usein esiintyvä selaimen nimi on Googlebot. Googlebot on eräs esimerkki ryömijästä (crawler) tai tylsästi hakurobotista, jonka tehtävänä on päivät pitkät lukea Web-dokumentteja läpi ja edetä löytyneitä linkkejä pitkin läpi Webin linkkirakennetta. Googlebot toimittaa dokumentit Google-palvelulle indeksoitavaksi. Webin kaltaisessa maailmanlaajuisessa järjestelmässä hakurobotteihin perustuva ratkaisu on ainoa järkevä vaihtoehto dokumenttien indeksoimiseen. Vinkki: Ennen oman hakurobotin toteuttamista kannattaa tutustua hakurobottien ohjeistamiseen käytettäviin robots.txt-tiedostoihin (http://www.robotstxt.org/wc/norobots.html). Sivun indeksoinnin ja linkkien seuraamisen voi yrittää kieltää myös HTML-dokumentin metatiedoissa (<meta name="robots" content="noindex,nofollow">). MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 124

Tiedon visualisointi ja näkymäpohjainen hakeminen Baeza-Yates ja Ribeiro-Neto erottavat tiedon visualisointiin perustuvat menetelmät perinteisestä tiedonhausta. Ajatuksena tiedon visualisoinnissa on se, että tietoalkiot ja niiden väliset pyritään esittämään sovelluksessa käyttäjän näkökulmasta intuitiivisella tavalla. Tiedon visualisoimisessa käytetään apuna esimerkiksi erilaisia klusterointimenetelmiä, joissa tietoalkioista pyritään ohjelmallisesti muodostamaan tiettyä asiaa käsitteleviä kokonaisuuksia. Kohosen itseorganisoituvia karttoja (Self-Organizing Maps) käyttävä Websom (http://websom.hut.fi/websom/) on esimerkki tietoa klusteroivasta visualisointimenetelmästä. Toinen lähestymistapa tiedon visualisointiin ovat erilaiset kuvailutietoon ja käsitemalleihin (ontology) perustuvat näkymäpohjaiset tiedonhaun apuvälineet, jotka toisaalta edustavat myös selaamalla tapahtuvaa tiedonhakua. Kuvailutietoon perustuva näkymäpohjainen haku toimii usein tiedonhaun kannalta keskeisten tietosisältöä kuvailevien ominaisuuksien eli fasettien käyttämiseen. Esimerkiksi MuseoSuomi (http://museosuomi.cs.helsinki.fi/) ja Longwell (http://simile.mit.edu/longwell/) ovat esimerkkejä Semanttisen Webin keinoin esitettyjä kuvailutietoja hyödyntävistä sovelluksista. MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 125

Esimerkki näkymäpohjaisesta hausta: MuseoSuomi Helsinkin Institute for Information Technology (HIIT) on toteuttanut MuseoSuomen, jossa käyttäjät voivat selata Suomen museoiden esineitä näkymäpohjaisen haun periaatteella. MuseoSuomessa yksittäiset fasetit ovat hierarkkisia. Fasetit Hakutulos MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 126

Semanttinen Web ja tiedonhaku Semanttista Webiä on sivuttu useaan otteeseen opintojakson luentojen edetessä. Yhteys Semanttisen Webin ja tiedonhaun välillä on suoraviivainen: Semanttinen Web on keskeisessä roolissä kun tiedonhakua tarkastellaan koko Webin näkökulmasta. Kaksi lähestymistapaa Semanttisen Webin soveltamiseen: Tiedon julkaiseminen Semanttiseen Webiin muiden hyödynnettäväksi Semanttiseen Webiin julkaistun tiedon hyödyntäminen omassa sovelluksessa Nyt tavoitteena on käydä tiiviisti läpi Semanttisen Webin tekninen perusta ja pohtia Semanttisen Webin hyödyntämistä tiedon välittämisessä ihmisiltä toisille. On hyvä huomata, että vaikka Semanttisen Webin sovelluksen liittyvät usein olennaisesti tiedonhakuun, on Semanttisesta Webistä muuhunkin. Lisätietoa aiheesta TTY:n opintojaksoilla Rakenteiset dokumentit, Rakenteisten dokumenttien jatkokurssi ja Web-palveluiden toteutustekniikat. MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 127

Taustaa ja käsitteitä Klassisen tiedon määritelmän mukaan tieto on tosi, perusteltu uskomus. Suomessa käsitettä tieto käytetään yleisnimenä datalle, informaatiolle ja tietämykselle. Data on informaation uudelleen tulkittavissa oleva esitystapa, joka sopii siirtoon, tulkintaan tai käsittelyyn. Dataa voi käsitellä joko ihminen tai sitä voidaan käsitellä automaattisin menetelmin. Informaatio on älykkyyttä tai tietämystä, joka voidaan esittää kommunikointiin, varastointiin tai käsittelyyn soveltuvassa muodossa. Informaatiolla voidaan tarkoittaa myös datan ihmiselle tuottamaa merkitystä Metatieto tai kuvailutieto on rakenteista, jotakin muuta tietoa kuvaavaa tietoa, jota voidaan liittää esimerkiksi erilaisiin elektronisiin tallenteisiin. Tiedon täsmällinen esittäminen perustuu käsitteellistämiseen eli kiinnostuksen kohteena olevan ilmiön käsitteiden ja niiden välisten suhteiden täsmälliseen määrittelemiseen. Ontologia tai käsitemalli on käsitteellistetyn tiedon täsmällinen määritys. Semantiikka tarkoittaa (Semanttisessa Webissä) merkityksen täsmällistä määrittämistä siten, että tietoa voidaan käsitellä ohjelmallisesti tiedon merkityksen perusteella. MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 128

Semanttisen Webin perusteet W3C:n Semanttinen Web on nykyisen World Wide Webin (WWW) laajennos, jossa tiedolle annetaan täsmällinen merkitys. Tavoitteena on se, että tietokoneet pystyvät paremmin auttamaan ihmisiä suurien tietomäärien käsittelyssä. Semanttisen Webin perustan muodostavat seuraavat tekniikat: Extensible Markup Language (XML): XML-kielen rooli on tiedon rakenteistaminen eli jakaminen riittävän pieniin palasiin, jotta sitä voidaan käsitellä järjestelmällisellä tavalla. Uniform Resource Identifiers (URI): URI-tunnisteiden avulla resursseille voidaan antaa maailmanlaajuisesti yksikäsitteiset tunnisteet. Resource Description Framework (RDF): RDF-kehyksen avulla voidaan määritellä kuvailutietoa eli tietoa resurssien ominaisuuksista. Kuvailutiedon avulla voidaan hallita rakenteista tietoa. Web Ontology Language (OWL): Yksikäsitteisten käsitemallien eli ontologioiden määrittelemiseen tarkoitettu kieli. Käsitemalleja tarvitaan, jotta kuvailutiedon tehokas hyödyntäminen päättelyn (infer) avulla on mahdollista. SW:ssä tietoa julkaistaessa kerrotaan tiedon merkitys, ei mahdollisia käyttökohteita. MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 129

Esimerkkejä Levyn tiedot XML-muodossa: <record genre="surf" year="1997"> <name>absurdistan</name> <artist>laika and the Cosmonauts</artist> </record> Levyn tiedot RDF-muodossa sarjallistettuna N3-kielellä: @prefix : <http://www.levylaari.fi/2005/record#>. @prefix genre: <http://www.levylaari.fi/2005/genre#>. @prefix artist: <http://www.levylaari.fi/2005/artist#>. :Absurdistan :genre genre:surf. :Absurdistan :year "1997". :Absurdistan :artist artist:laikaandthecosmonauts. OWL-kielellä voidaan määritellä levyn kuvailutietojen käsitemalli: @prefix : <http://www.levylaari.fi/2005/record#>. @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>. @prefix rdfs: <http://www.w3.org/2001/01/rdf-schema#>. @prefix owl: <http://www.w3.org/2002/07/owl#>. @prefix genre: <http://www.levylaari.fi/2005/genre#>. :Record a owl:class. :genre a rdf:property; rdfs:domain :Record; rdfs:range genre:genre. MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 130

SW-esimerkki: Dublin Core Dublin Core (DC) on yleisesti käytössä oleva kuvailutiedon rakennemalli, jonka keskeisenä tavoitteena on aineiston hallinta, erityisesti hakutulosten parantaminen erilaisissa järjestelmissä. DC:n alkuperäisiä suunnittelutavoitteita ovat yksinkertaisuus, yhteiset kuvailuperiaatteet, kansainvälisyys ja laajennettavuus. DC:n laaja suosio perustuu sen yksinkertaisuuteen ja vapauteen: kaikki 15 kenttää ovat vapaaehtoisia ja kutakin niistä voidaan toistaa tarvittava määrä. DC:n määrittelemät kentät ovat nimeke, tekijä, aihe, kuvaus, julkaisija, muu tekijä, aikamääre, laji, formaatti, indentifiointitunnus, lähde, kieli, suhde, kattavuus ja oikeudet. DC määrittelee rakennemallin kuvailutiedolle ottamatta kantaa lopulliseen esitysmuotoon. Käytännössä DC-muotoinen kuvailutieto onkin esitettävissä useilla eri tavoilla. Käytössä olevia esitysmuotoja ovat esimerkiksi HTML, XML ja RDF. Helsingin yliopisto ylläpitää sivustoa, jossa voi esimerkiksi kokeilla DC-muotoisen kuvailutiedon muokkaamista, ks. http://www.lib.helsinki.fi/cgi-bin/dc.pl. Tarkempi kuvaus Dublin Coren kentistä löytyy suomeksi Helsingin yliopiston sivuilta, ks. http://www.lib.helsinki.fi/dublin_core/dc-sfs.html. MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 131

Esimerkki: levyarvostelun kuvailutiedot DC-muodossa Levyarvostelun DC-muotoiset kuvailutiedot HTML-kielellä esitettynä: <?xml version="1.0" encoding="iso-8859-1"?> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML Basic 1.0//EN" "http://www.w3.org/tr/xhtml-basic11/xhtml-basic10.dtd"> <html> <head> <meta http-equiv="content-type" content="text/html; charset=iso-8859-1"/> <title>arvostelu: Laika and the Cosmonauts / Absurdistan</title> <link rel="schema.dc" href="http://purl.org/dc/elements/1.1/" /> <meta name="dc.title" content="arvostelu: LATC / Absurdistan" /> <meta name="dc.creator" content="j. Huhtamäki" /> <meta name="dc.subject" xml:lang="fi" content="surf" /> <meta name="dc.subject" xml:lang="fi" content="levyarvostelu" /> <meta name="dc.format" content="text/html" /> <meta name="dc.language" content="fi" /> </head> <body> <h1>laika and the Cosmonauts / Absurdistan</h1> <p> Uudellaan levyllään Absurdistan Laika and the Cosmonauts liikkuu... </p> </body> </html> MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 132

Kuvailutieto ja folksonomiat Folksomiat esittelevät vaihtoehdon järeille kuvailutietomäärityksille. Folksonomioiden periaate on yksinkertainen: 1. Käyttäjä lisää järjestelmän tietosisältöön avainsanoja ensisijaisesti itseään varten. Toimenpidettä kutsutaan usein taggaamiseksi (tagging). Tavoitteena on tietosisällön luokittelu ja hallinta. 2. Järjestelmä antaa käyttäjälle helpon mahdollisuuden tämän itsensä aikaisemmin käyttämien avainsanojen liittämiseen uusiin tietoalkioihin. 3. Järjestelmä kierrättää avainsanat myös muiden käyttäjien käyttöön, jotta avainsanoja voidaan käyttää assosiatiivisten linkkien muodostamiseen tietosisällön alkioiden välille. Folksonomiat ovat yksinkertaisuudestaan johtuen suosittuja Web 2.0 palveluissa. Yksinkertaisuus on toisaalta myös folksonomioiden ongelma: yksittäisen avainsanan hyöty (semantiikka) jää vähäiseksi kun sanan merkitystä ei ole sidottu vrt. MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 133

Ongelmia Semanttisessa Webissä Semanttisen Webin soveltamiseen liittyy joukko käytännön ongelmia: Tiedon julkaisijoiden osaaminen vaihtelee, joten tiedon esitysmuotojen käyttäminen on ohjeistettava tarkasti. Julkaisijat saattavat myös tulkita esitysmuotoja eri tavoilla. Toimijoiden tarpeet poikkeavat toisistaan, joten esitysmuotojen standardointi on hidasta ja työlästä. Suuri osa Semanttiseen Webiin julkaistusta tiedosta on teknisestä näkökulmasta virheellistä tai sisällöltään epäluotettavaa. Tämä aiheuttaa sen, että tiedon oikeellisuus on yleensä tarkastettava. Ratkaisu: luottamus. Tiedon julkaisijat saattavat julkaista virheellistä tietoa myös tarkoituksellisesti. Esimerkiksi erilaisten tuotteiden valmistajat eivät aina halua julkaista tietoa tuotteidensa virheellisistä tai puutteellisista ominaisuuksista. Merkittävä ongelma Semanttisen Webin yleistymisessä on XML-/RDF-muodossa julkaistun tiedon puute. Syynä tähän on tietoa hyödyntävien sovellusten pieni määrä. Syynä sovellusten pieneen määrään on se, että tietoa ei ole saatavilla XML-/RDFmuodossa. Muna vai kana? MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 134

Lopuksi Tiedonhaku jakaantuu luontevasti yksittäisen järjestelmän sisäisiin ja järjestelmärajat ylittäviin toiminnallisuuksiin. Tiedonhaun menetelmien kannalta em. kahtiajaolla ei ole merkitystä. Semanttinen Web esittelee tekniset puitteet tiedon täsmälliseen esittämiseen ja tiedon ohjelmalliseen käsittelemiseen merkitysten tasolla. Tämä antaa mahdollisuuden tiedon välittämiseen järjestelmien välillä. Tiedonhaun menetelmien ja Semanttisen Webin teknologisen perustan yhdistäminen antaa hypermediasovelluksen suunnittelijalle ja toteuttajalle joukon uusia mahdollisuuksia. Mahdollisuudet lisääntyvät entisestään kun päälle lisätään ripaus Web 2.0 filosofiaa. Keskeinen osa Semanttista Webiä on verkkopalveluiden välinen kommunikaatio, jonka perustan muodostavat W3C:n Web-palveluiden (Web Services) teknologiat. On hyvä huomata, että tiedonhaun teoriassa merkitykset rakentuvat suurelta osin tilastollisten menetelmien varaan (implisiittisesti) kun Semanttisessa Webissä resursseihin pyritään liittämään merkitys erikseen (eksplisiittisesti). MATHM-57100 Hypermedian ohjelmointi (kevät 2007) 135