Hypermedian ohjelmointi, kevät 2009. Luento 7. Tiedonhaun apuvälineet

Hypermedian ohjelmointi, kevät 2009 (http://hlab.ee.tut.fi/hmopetus/hmohj-2009) Luento 7. Tiedonhaun apuvälineet Jukka Huhtamäki, Hlab (http://tut.fi/hypermedia) Luento 7. Tiedonhaun apuvälineet Tämän luentokerran tavoitteena on perehtyä erilaisiin tiedonhaun apuvälineisiin. Vaikka tiedonhaun ja hypermedian asiantuntijat katsovatkin maailmaa eri näkökulmista, pian huomataan, että tieteenaloilla on hyvinkin paljon yhteistä. Tiedonhausta tulee ehkä (kärjistetysti) ensimmäiseksi mieleen perinteinen avainsanahaku, joka a) ei toimi kunnolla tai b) on Google. Tiedonhaku on kuitenkin avainsanahakua laajempi kokonaisuus: tiedonhaun asiantuntijat esimerkiksi sijoittavat hypermedian (tai ainakin hypertekstin) osaksi tiedonhakua. Nyt tavoitteena on kartoittaa erilaisia lähestymistapoja tiedonhakuun, esitellä joukko tiedonhaun apuvälineitä ja selkeyttää tiedonhaun ja hypermedian yhteyksiä toisiinsa. Mikäli tiedonhakuun liittyvät asiat alkavat kiinnostamaan syvemmin, avainsanalla informaatiotutkimus löytyy verkosta rutkasti aihetta käsittelevää materiaalia. Tampereen yliopistossa aihetta tutkii ja opettaa Informaatiotutkimuksen laitos (http://www.info.uta.fi/). Tiedonhaun apuvälineiden ohella perehdytään Semanttisen Webin perusteisiin ja tutustutaan informaation visualisointiin. Tiedonhaun osalta lähdemateriaalina on käytetty kirjaa Baeza-Yates, R., Ribeiro-Neto, B. Modern Information Retrieval (http://people.ischool.berkeley.edu/~hearst/irbook/), ACM Press, New York, US.

Tiedonhausta Tiedonhaussa käyttäjällä on tavoitteena löytää tietoa (tai informaatiota) jostakin häntä kiinnostavasta asiasta. Tyypillinen käyttötapaus: käyttäjä määrittelee tiedon tarpeensa hakuehtoina ja välittää ne tiedonhaun rutiineista vastaavalle järjestelmälle eli hakukoneelle, joka esittää hakuehtojen mukaiset tietoalkiot käyttäjälle hakutuloksen muodossa. Käsitettä relevanssi käytetään kuvaamaan hakutuloksen vastaavuutta hakuehtoihin. Hakukoneet järjestävät hakutulokset usein niiden oletetun (lasketun tai päätellyn) relevanssin perusteella. Relevanssi voidaan määritellä usealla eri tavalla. Kaksi keskeistä vaihtoehtoa ovat aiherelevanssi ja käyttäjärelevanssi. Aiherelevanssi voi yksinkertaisimmillaan tarkoittaa sitä, että käyttäjän syöttämien hakusanojen esiintymät eri hakutuloksissa lasketaan yhteen ja hakutulos järjestetään esiintymien määrän mukaan. Käyttäjärelevanssissa myös käyttäjä otetaan huomioon hakutulosten relevanssia määriteltäessä (vrt. mukautuva hypermedia: käyttäjämalli ja linkkien järjestäminen tai piilottaminen).

Tiedonhaun menetelmät Baeza-Yates ja Ribeiro-Neto jäsentävät tiedonhaun menetelmät seuraavasti: Tässä materiaalissa käsitteisiin viitataan seuraavasti: tiedonhaku (Information Retrieval), hakeminen (Retrieval), ad hoc (Adhoc), suodattaminen (Filtering), selaaminen (Browsing), rakenteeton selaaminen (Flat), rakenteeseen perustuva selaaminen (Structure Guided) ja hyperteksti (Hypertext).

Hakemiseen perustuvat menetelmät Hakemiseen (Retrieval) perustuvat tiedonhaun menetelmät voidaan jakaa toimintaperiaatteen perusteella kahteen luokkaan: Ad hoc: Käyttäjä hakee aktiivisesti tietoa hakukoneen tukemana. Tietosisältö ei muutu. Hakuehdot vaihtuvat käyttäjän toimesta. Perinteinen Web-hakukoneella tehtävä sanahaku on esimerkki ad hoc -tiedonhausta. Suodattaminen (Filtering): Käyttäjä määrittelee suodattimen, jonka perusteella tietosisällöstä poimitaan hakuehdon mukaiset tietoalkiot. Tietosisältö on dynaaminen: tietoalkioita lisätään ja poistetaan tiiviissä tahdissa. Hakuehdot pysyvät samana. Esimerkkejä suodattamiseen perustuvasta tiedonhausta ovat erilaiset vahtipalvelut (auto, asunto tai työpaikka) tai vaikkapa verkkopalvelun sisällön muutosten välittämiseen ja luokitteluun tarkoitettu RSS. Ad hoc -tiedonhaussa hakutulosten relevanssin määrittelemisestä vastaa yleensä hakukone. Suodattamisessa käyttäjä arvioi relevanssin itse.

Selaamiseen perustuvat menetelmät Selaamiseen (Browsing) perustuvat menetelmät voidaan jakaa kolmeen luokkaan: Rakenteeton selaaminen (Flat): Tietosisältö esitetään listana, jota käyttäjä voi selata. Listassa voidaan näyttää avainsanat ja muut tietosisällöstä kerätyt tiedot. Selaamisen avulla esimerkiksi uusi käyttäjä voi perehtyä tietosisältöön ja mahdollisesti siirtyä selaamiseen jälkeen käyttämään sanahakua. Rakenteeseen perustuva selaaminen (Structure Guided): Tietosisältöön liitetään valitun luokittelujärjestelmän eli taksonomian mukaista kuvailutietoa (metatietoa). Rakenteeseen perustuvassa selaamisessa käyttäjä käy läpi tietosisältöä navigoimalla luokittelujärjestelmän mukaisten rakenteellisten linkkien avulla. Esimerkiksi Yahoo!-hakukoneen Web-hakemistot vastaavat rakenteeseen perustuvaa selaamista. Hyperteksti (Hyperteksti): Hypertekstiin perustuvassa selaamisessa navigoimiseen käytetään rakenteellisten linkkien ohella assosiatiivisia linkkejä. Esimerkkejä hypertekstiin perustuvasta selaamisesta ovat BrainyEncyclopedia (http://www.brainyencyclopedia.com/) ja Wikipedia (http://www.wikipedia.org/). Hypertekstin hienoudet oletetaan tutuiksi, joten nyt keskitytään hakemiseen.

Hakukoneen toiminnallisuus Tyypillinen hakukone tarjoaa käyttäjälle näkymät hakemiseen ja hakutuloksen selaamiseen. Hakuehtojen syöttäminen hakukoneelle tapahtuu yleensä syöttämällä joukko avainsanoja tekstikenttään. Hakutulosta voidaan rajata myös erilaisiin kuvailutietoihin kohdistettujen ehtojen perusteella. Näitä voivat olla esimerkiksi dokumentin tekijä, viimeinen muokkauspäivä, kieli, tiedostomuoto tai dokumentin tekijän syöttämät avainsanat. Hakutulos esitetään tyypillisesti hakuehtoa vastaavien dokumenttien listana. Dokumentin valinnan tukemiseksi listaan kerätään dokumenteista keskeisiä tietoja, kuten osoite, otsikko, koko, tiedostomuoto tai ote sisällöstä. Ote sisällöstä voidaan valita siten, että se sisältää hakuehtona käytetyt termit. Näin käyttäjä pystyy arvioimaan, onko termejä käytetty halutussa asiayhteydessä. Myös mahdollisuudet hakutulosten listan järjestämiseen eri ominaisuuksien perusteella, tiettyä hakutulosta vastaavien dokumenttien etsimiseen ja kyselyn uusimiseen vanhan kyselyn pohjalta ovat hyödyllisiä. Googlen laajennettu haku (http://www.google.fi/advanced_search) on esimerkki hakutuloksen suodattamisen mahdollistavasta palvelusta.

Sanahaku ja indeksointi Vapaatekstihaun toteuttamiseen on olemassa muutamia vaihtoehtoja: Ajonaikainen haku. Tietosisältö käydään ajonaikaisesti läpi ja sitä verrataan hakuehtoon. Ajonaikainen haku on tarkoituksenmukainen vaihtoehto kun tietokanta on kohtuullisen kokoinen tai kun tietosisältö muuttuu jatkuvasti. Indeksointi. Indeksoinnissa haut kohdistetaan varsinaisen tietosisällön sijaan etukäteen muodostettuihin indekseihin eli hakemistoihin. Indeksointia käytetään kun tietokanta on suuri tai kun tietosisältö on muuttumatonta tai muuttuu hitaasti. Edellisten yhdistelmä. Tietosisällöstä valitaan hakuehdon mukaiset tietoalkiot hakemiston perusteella. Tietoalkioiden relevanssin määrittelyssä käytetään apuna ajonaikaista hakua. Esimerkiksi fraasien eli sanaliittojen etsiminen voidaan toteuttaa hakemistoihin perustuvan ja ajonaikaisen haun yhdistelmänä. Esimerkiksi Webin hakukoneiden toiminta perustuu tietosisällön laajuuden takia luonnollisesti indeksointiin. Hakemistoihin viitataan tiedonhaun yhteydessä usein käsitteellä käänteistiedosto (inverted file).

Esimerkki indeksoinnista Hakemisto voidaan suljetussa järjestelmässä tuottaa samalla kun tietosisältö tallennetaan järjestelmään. Yksinkertaistettu esimerkki indeksoinnista levylaarin tapaan (ota huomioon, että todellisuudessa relaatiotietokannassa on oltava useita tauluja dokumenttien ja hakemiston esittämiseen): Indeksointi Webissä Miten Google sitten löytää kaikki Webin dokumentit? Vastaus: Ei mitenkään. Varsin monta dokumenttia Googlen tietokannasta kuitenkin löytyy: Sivustojen lokitiedoista voi katsella muun muassa erilaisten selainten nimiä. Eräs lokitiedoissa usein esiintyvä selaimen nimi on Googlebot. Googlebot on eräs esimerkki ryömijästä (crawler) tai tylsästi hakurobotista, jonka tehtävänä on päivät pitkät lukea Web-dokumentteja läpi ja edetä löytyneitä linkkejä pitkin läpi Webin linkkirakennetta. Googlebot toimittaa dokumentit Google-palvelulle indeksoitavaksi. Webin kaltaisessa maailmanlaajuisessa järjestelmässä hakurobotteihin perustuva ratkaisu on ainoa järkevä vaihtoehto dokumenttien indeksoimiseen. Vinkki: Ennen oman hakurobotin toteuttamista kannattaa tutustua hakurobottien ohjeistamiseen käytettävän robots.txt (http://www.robotstxt.org/wc/norobots.html) - tiedoston toimintaperiaatteeseen. Sivun indeksoinnin ja linkkien seuraamisen voi yrittää kieltää myös HTMLdokumentin metatiedoissa (<meta name="robots"content="noindex,nofollow">).

Tiedon visualisointi ja näkymäpohjainen hakeminen Baeza-Yates ja Ribeiro-Neto erottavat tiedon visualisointiin perustuvat menetelmät perinteisestä tiedonhausta. Ajatuksena tiedon visualisoinnissa on se, että tietoalkiot ja niiden väliset pyritään esittämään sovelluksessa käyttäjän näkökulmasta intuitiivisella tavalla. Tiedon visualisoimisessa käytetään esimerkiksi erilaisia ryvästysmenetelmiä, joissa tietoalkioista pyritään ohjelmallisesti muodostamaan tiettyä asiaa käsitteleviä kokonaisuuksia. Itseorganisoituvia karttoja (Self-Organizing Maps) käyttävä Websom (http://websom.hut.fi/websom/) on esimerkki ryvästävästä visualisointimenetelmästä. Toinen lähestymistapa tiedon visualisointiin ovat erilaiset kuvailutietoon ja käsitemalleihin (ontology) perustuvat näkymäpohjaiset tiedonhaun apuvälineet, jotka toisaalta edustavat myös selaamalla tapahtuvaa tiedonhakua. Kuvailutietoon perustuva näkymäpohjainen haku toimii usein tiedonhaun kannalta keskeisten tietosisältöä kuvailevien ominaisuuksien eli fasettien käyttämiseen. Longwell (http://simile.mit.edu/longwell/) ja MuseoSuomi (http://museosuomi.cs.helsinki.fi/) ovat esimerkkejä kuvailutietoja hyödyntävistä sovelluksista.

Esimerkki: fasetit ja musiikkikokoelman hallinta Edellä mainittujen esimerkkien ohella esimerkiksi itunes-musiikkisoitin tukee fasettien käyttöä musiikkikokoelman hallinnan välineenä: Tiedonhaku ja Semanttinen Web

Semanttinen Web ja tiedonhaku Semanttista Webiä on sivuttu useaan otteeseen opintojakson luentojen edetessä. Yhteys Semanttisen Webin ja tiedonhaun välillä on suoraviivainen: Semanttinen Web on keskeisessä roolissä kun tiedonhakua tarkastellaan koko Webin näkökulmasta. Kaksi lähestymistapaa Semanttisen Webin soveltamiseen tiedonhaun näkökulmasta: Tiedon julkaiseminen Semanttiseen Webiin muiden hyödynnettäväksi Semanttiseen Webiin julkaistun tiedon hyödyntäminen omassa sovelluksessa Nyt tavoitteena on käydä tiiviisti läpi Semanttisen Webin tekninen perusta ja pohtia Semanttisen Webin hyödyntämistä tiedon välittämisessä ihmisiltä toisille. On hyvä huomata, että vaikka Semanttisen Webin sovelluksen liittyvät usein olennaisesti tiedonhakuun, on Semanttisesta Webistä muuhunkin. Lisätietoa aiheesta TTY:n opintojaksoilla Rakenteiset dokumentit, Rakenteisten dokumenttien jatkokurssi ja Web-palveluiden toteutustekniikat. Taustaa ja käsitteitä Klassisen tiedon määritelmän mukaan tieto on tosi, perusteltu uskomus. Suomessa käsitettä tieto käytetään yleisnimenä datalle, informaatiolle ja tietämykselle. Data on informaation uudelleen tulkittavissa oleva esitystapa, joka sopii siirtoon, tulkintaan tai käsittelyyn. Dataa voi käsitellä joko ihminen tai sitä voidaan käsitellä automaattisin menetelmin. Informaatio on älykkyyttä tai tietämystä, joka voidaan esittää kommunikointiin, varastointiin tai käsittelyyn soveltuvassa muodossa. Informaatiolla voidaan tarkoittaa myös datan ihmiselle tuottamaa merkitystä Metatieto tai kuvailutieto on rakenteista, jotakin muuta tietoa kuvaavaa tietoa, jota voidaan liittää esimerkiksi erilaisiin elektronisiin tallenteisiin. Tiedon täsmällinen esittäminen perustuu käsitteellistämiseen eli tietyn ilmiön käsitteiden ja niiden suhteiden täsmälliseen määrittelemiseen. Ontologia tai käsitemalli on käsitteellistetyn tiedon täsmällinen esitys. Semantiikka tarkoittaa (Semanttisessa Webissä) merkityksen täsmällistä esittämistä siten, että tietoa voidaan käsitellä ohjelmallisesti tiedon merkityksen perusteella.

Semanttisen Webin perusteet W3C:n Semanttinen Web on nykyisen World Wide Webin (WWW) laajennos, jossa tiedolle annetaan täsmällinen merkitys. Tavoitteena on se, että tietokoneet pystyvät paremmin auttamaan ihmisiä suurien tietomäärien käsittelyssä. Semanttisen Webin perustan muodostavat seuraavat tekniikat: Extensible Markup Language (XML): XML-kielen rooli on tiedon rakenteistaminen eli jakaminen riittävän pieniin palasiin, jotta sitä voidaan käsitellä järjestelmällisesti. Uniform Resource Identifiers (URI): URI-tunnisteiden avulla resursseille voidaan antaa maailmanlaajuisesti yksikäsitteiset tunnisteet. Resource Description Framework (RDF): RDF-kehyksen avulla voidaan määritellä kuvailutietoa eli tietoa resurssien ominaisuuksista. Kuvailutiedon avulla voidaan hallita rakenteista tietoa. Web Ontology Language (OWL): Yksikäsitteisten käsitemallien eli ontologioiden määrittelemiseen tarkoitettu kieli. Käsitemalleja tarvitaan, jotta kuvailutiedon tehokas hyödyntäminen päättelyn (infer) avulla on mahdollista. SW:ssä tietoa julkaistaessa kerrotaan tiedon merkitys, ei mahdollisia käyttökohteita.

Esimerkkejä Levyn tiedot XML-muodossa: <record genre="surf" year="1997"> <name>absurdistan</name> <artist>laika and the Cosmonauts</artist> </record> Levyn tiedot RDF-muodossa sarjallistettuna N3-kielellä: @prefix : <http://www.levylaari.fi/2005/record#>. @prefix genre: <http://www.levylaari.fi/2005/genre#>. @prefix artist: <http://www.levylaari.fi/2005/artist#>. :Absurdistan :genre genre:surf. :Absurdistan :year "1997". :Absurdistan :artist artist:laikaandthecosmonauts. OWL-kielellä voidaan määritellä levyn kuvailutietojen käsitemalli: @prefix : <http://www.levylaari.fi/2005/record#>. @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>. @prefix rdfs: <http://www.w3.org/2001/01/rdf-schema#>. @prefix owl: <http://www.w3.org/2002/07/owl#>. @prefix genre: <http://www.levylaari.fi/2005/genre#>. :Record a owl:class. :genre a rdf:property; rdfs:domain :Record; rdfs:range genre:genre.

SW-esimerkki: Dublin Core Dublin Core (DC) on yleisesti käytössä oleva kuvailutiedon rakennemalli, jonka keskeisenä tavoitteena on aineiston hallinta, erityisesti hakutulosten parantaminen erilaisissa järjestelmissä. DC:n alkuperäisiä suunnittelutavoitteita ovat yksinkertaisuus, yhteiset kuvailuperiaatteet, kansainvälisyys ja laajennettavuus. DC:n laaja suosio perustuu sen yksinkertaisuuteen ja vapauteen: kaikki 15 kenttää ovat vapaaehtoisia ja kutakin niistä voidaan toistaa tarvittava määrä. DC:n määrittelemät kentät ovat nimeke, tekijä, aihe, kuvaus, julkaisija, muu tekijä, aikamääre, laji, formaatti, indentifiointitunnus, lähde, kieli, suhde, kattavuus ja oikeudet. DC määrittelee rakennemallin kuvailutiedolle ottamatta kantaa lopulliseen esitysmuotoon. Käytännössä DC-muotoinen kuvailutieto onkin esitettävissä useilla eri tavoilla. Käytössä olevia esitysmuotoja ovat esimerkiksi HTML, XML ja RDF. Helsingin yliopisto ylläpitää sivustoa, jossa voi esimerkiksi kokeilla DCmuotoisen kuvailutiedon muokkaamista (http://www.lib.helsinki.fi/cgi-bin/dc.pl). Tarkempi kuvaus Dublin Coren kentistä löytyy suomeksi Kansalliskirjaston sivuilta (http://www.kansalliskirjasto.fi/julkaisuala/dublincore/).

Esimerkki: levyarvostelun kuvailutiedot DC-muodossa Levyarvostelun DC-muotoiset kuvailutiedot HTML-kielellä esitettynä: <?xml version="1.0" encoding="iso-8859-1"?> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML Basic 1.0//EN" "http://www.w3.org/tr/xhtml-basic11/xhtml-basic10.dtd"> <html> <head> <meta http-equiv="content-type" content="text/html; charset=iso-8859-1"/> <title>arvostelu: Laika and the Cosmonauts / Absurdistan</title> <link rel="schema.dc" href="http://purl.org/dc/elements/1.1/" /> <meta name="dc.title" content="arvostelu: LATC / Absurdistan" /> <meta name="dc.creator" content="j. Huhtamäki" /> <meta name="dc.subject" xml:lang="fi" content="surf" /> <meta name="dc.subject" xml:lang="fi" content="levyarvostelu" /> <meta name="dc.format" content="text/html" /> <meta name="dc.language" content="fi" /> </head> <body> <h1>laika and the Cosmonauts / Absurdistan</h1> <p>uudellaan levyllään Absurdistan Laika and the Cosmonauts liikkuu... </p> </body> </html> Loppukäyttäjien tuottama kuvailutieto - Semanttisen Webin täydentäjä vai kilpailija?

Kuvailutieto ja folksonomiat Folksomiat esittelevät vaihtoehdon järeille kuvailutietomäärityksille. Folksonomioiden periaate on yksinkertainen: 1. Käyttäjä lisää järjestelmän tietosisältöön avainsanoja ensisijaisesti itseään varten. Toimenpidettä kutsutaan usein taggaamiseksi (tagging). Tavoitteena on tietosisällön luokittelu ja hallinta. 2. Järjestelmä antaa käyttäjälle helpon mahdollisuuden tämän itsensä aikaisemmin käyttämien avainsanojen liittämiseen uusiin tietoalkioihin. 3. Järjestelmä kierrättää avainsanat myös muiden käyttäjien käyttöön, jotta avainsanoja voidaan käyttää assosiatiivisten linkkien muodostamiseen tietosisällön alkioiden välille. Folksonomiat ovat yksinkertaisuudestaan johtuen suosittuja Web 2.0 palveluissa. Folksonomioiden eräs ongelma Yksinkertaisuus on toisaalta myös folksonomioiden ongelma: yksittäisen avainsanan hyöty (semantiikka) jää vähäiseksi kun sanan merkitystä ei ole sidottu vrt. On yhteenvedon aika

Ongelmia Semanttisessa Webissä Semanttisen Webin soveltamiseen liittyy joukko käytännön ongelmia: Tiedon julkaisijoiden osaaminen vaihtelee, joten tiedon esitysmuotojen käyttäminen on ohjeistettava tarkasti. Julkaisijat saattavat myös tulkita esitysmuotoja eri tavoilla. Toimijoiden tarpeet poikkeavat toisistaan, joten esitysmuotojen standardointi on hidasta ja työlästä. Suuri osa Semanttiseen Webiin julkaistusta tiedosta on teknisestä näkökulmasta virheellistä tai sisällöltään epäluotettavaa. Tämä aiheuttaa sen, että tiedon oikeellisuus on yleensä tarkastettava. Ratkaisu: luottamus. Tiedon julkaisijat saattavat julkaista virheellistä tietoa myös tarkoituksellisesti. Esimerkiksi erilaisten tuotteiden valmistajat eivät aina halua julkaista tietoa tuotteidensa virheellisistä tai puutteellisista ominaisuuksista. Merkittävä ongelma Semanttisen Webin yleistymisessä on XML-/RDF-muodossa julkaistun tiedon puute. Syynä tähän on tietoa hyödyntävien sovellusten pieni määrä. Syynä sovellusten pieneen määrään on se, että tietoa ei ole saatavilla XML-/RDF-muodossa. Muna vai kana? Lopuksi Tiedonhaku jakaantuu luontevasti yksittäisen järjestelmän sisäisiin ja järjestelmärajat ylittäviin toiminnallisuuksiin. Tiedonhaun menetelmien kannalta em. kahtiajaolla ei ole merkitystä. Semanttinen Web esittelee tekniset puitteet tiedon täsmälliseen esittämiseen ja tiedon ohjelmalliseen käsittelemiseen merkitysten tasolla. Tämä antaa mahdollisuuden tiedon välittämiseen järjestelmien välillä. Tiedonhaun menetelmien ja Semanttisen Webin teknologisen perustan yhdistäminen antaa hypermediasovelluksen suunnittelijalle ja toteuttajalle joukon uusia mahdollisuuksia. Mahdollisuudet lisääntyvät entisestään kun päälle lisätään ripaus Web 2.0 filosofiaa. Keskeinen osa Semanttista Webiä on verkkopalveluiden välinen kommunikaatio, jonka perustan muodostavat W3C:n Web-palveluiden (Web Services) teknologiat. Web 2.0 -vastine Web-palveluille on REST. On hyvä huomata, että tiedonhaun teoriassa merkitykset rakentuvat suurelta osin tilastollisten menetelmien varaan (implisiittisesti) kun Semanttisessa Webissä resursseihin pyritään liittämään merkitys erikseen (eksplisiittisesti).