Rakenne-ehtojen merkitys XML-tiedonhaussa: INEX 03:n ja INEX 04:n CAS-hakutehtävien ja saantikantojen tarkastelua. Minna Marjamaa

Rakenne-ehtojen merkitys XML-tiedonhaussa: INEX 03:n ja INEX 04:n CAS-hakutehtävien ja saantikantojen tarkastelua Minna Marjamaa Tampereen yliopisto Informaatiotutkimuksen laitos Pro gradu -tutkielma toukokuu 2008

TAMPEREEN YLIOPISTO Informaatiotutkimuksen laitos MARJAMAA, MINNA: Rakenne-ehtojen merkitys XML-tiedonhaussa: INEX 03:n ja INEX 04:n CAS-hakutehtävien ja saantikantojen tarkastelua Pro gradu -tutkielma, 68 s., 5 liitettä Informaatiotutkimus Toukokuu 2008 TIIVISTELMÄ Tutkimus käsittelee rakenne-ehtojen merkitystä XML-tiedonhaussa hakutehtävien ja saantikantojen tilastollisen tarkastelun avulla. Tutkimukseni liittyy kansainvälisen XMLtiedonhakujärjestelmien evaluointihankeen INEX:in (The Initiative for the Evaluation of XML-retrieval) koeasetelman kehittämiseen ja arviointiin. Tutkimusmateriaalina on INEX:in vuoden 2003 ja 2004 sekä XML-rakennetta että sisältöä hyväkseen käyttävät kyselyt (content and stucture, CAS) ja niiden pohjalta tehdyt relevanssiarviot. Rakenne-ehdon lisääminen kyselyyn on oletettu parantavan haun tarkuutta, mutta tätä ei INEX:in testauksissa ole ainakaan toistaiseksi havaittu. Syytä on etsitty kyselyiden rakentamiseen sekä relevanssiarviointi-menettelyyn liittyvistä ongelmista. Työni selvittää tarkemmin, millaisia kyselyt ja relevanssiarviot ovat ja kuinka tutkimusasetelma mahdollisesti vaikuttaa evaluointituloksiin. Tutkimukseni pohjalta piirtyy kuva siitä, että INEX:in tutkimusasetelma ei ole päässyt kovinkaan kauas perinteisistä tekstitiedonhakukokoelmien lähtöoletuksista. CAS-kyselyt olettavat käyttäjän haluavan vastauksina perinteisiä tekstitiedonhakutyyppisiä laajoja kokonaisuuksia. Käyttäjän ei oleteta haluavan juuri hyödyntää XML:n rakennetta. Relevanssiarvioiden pohjalta taas piirtyy kuva siitä, että saantikannoissa kyselyjen rakenne-ehtojen rooli on epämääräinen: Vuodesta 2003 vuoteen 2004 rakenne-ehdon käyttö on vähentynyt dramaattisesti niin että vuonna 2004 relevanssiarvioissa ei tunnu CAS-kyselyiden rakennetta käytetyn enää lainkaan. Ei siis ihme, että tarkuus ei ole parantunut rakenne-ehdon lisäämisen myötä, sillä rakennetta on käytetty varsin näennäisesti sekä kyselyitä että relevanssiarviointia tehdessä. Tutkimukseni tulos kiinnittää huomion INEX:in ohjeistukseen ja suunnitteluun: Relevanssiarvioitsijoita on ohjeistettu vuonna 2003 käyttämään rakennetta vain jossain määrin hyödykseen, vuonna 2004 rakenne kehotetaan ohittamaan täysin ja keskittymään vain sisältöön. Jos sumea logiikka CAS-kyselyiden kohdalla tarkoittaa sitä, että kyselyt tehdään tietokantaorientoituneesti kyselykielen avulla, mutta niihin relevanteiksi arvioidut elementit taas valitaan lähinnä sisällön perusteella, herää kysymys, mitä koeasetelma todellisuudessa heijastaa. CAS-hakutehtävien rooli koko tutkimusasetelmassa jää häilyväksi. Tutkimukseni osoittaa, että rakenne ja sisältö orientoitunutta lähestymistapaa INEX:in tutkimusasetelmassa kannattaisi täsmentää muuten jää epäselväksi mitä koeasetelmalla oikeastaan mitataan ja minkälaisin periaattein.

Sisältö 1. Johdanto... 1 2. Tiedonhakujärjestelmien evaluointitutkimus... 4 2.1. Laboratoriomallin evaluointitutkimus... 4 2.2. Evaluointitutkimuksen traditio... 7 2.3. Laboratoriomallin evaluointitutkimuksen kritiikki... 9 3. Relevanssin käsitteestä... 11 3.1. Yksi vai viisi relevanssia?...12 3.2. Relevanssin tasot...14 3.3. Relevanssiarvioista...15 4. XML-tiedonhakujärjestelmien evaluoinnin erikoispiirteet ja INEX... 18 4.1 XML dokumentointistandardina...18 4.1.1 XML-dokumentin rakenne, DTD ja XML-skeemat...19 4.2 XML-tiedonhaun erikoispiirteet...22 4.3. The Iniative for the Evaluation of XML-retrieval...24 4.3.1 INEX ja relevanssin kvantifiointi...27 4.3.2 INEX:in relevanssiarvioiden tekotapa...28 4.3.3. Kyselykielet XPath ja NEXI...33 5. Tutkimusasetelma... 37 5.1. Tausta...37 5.2. Tutkimuskysymykset...40 5.3. Tutkimusasetelman valintoja...43 6.1. Kyselyt ja niiden muodostama kuva INEX:in tutkimusasetelmasta...45 6.2. Relevanssiarviot ja niiden muodostama kuva INEX:in tutkimusasetelmasta...51 6.3. Johtopäätökset...58 Lähteet:... 62

1. Johdanto XML (Extensible Markup Language) yleistyy koko ajan kokotekstidokumenttien standardina. XML perustuu ideaan erottaa dokumenttien looginen rakenne niiden sisällöstä, mikä mahdollistaa tiedonhaun samaa aikaa sekä dokumentin sisältöön että rakenteeseen. Pitkään tiedonhaku XML-dokumenteista on tapahtunut dataorientoituneesti, jolloin käyttäjän on täytynyt tarkasti tuntea käytetyt rakenteet ja valita hakuavain oikeassa muodossa pystyäkseen hyödyntää järjestelmää. Käyttäjän pitäisi kuitenkin pystyä hakemaan tietoa tarvitsematta tuntea tarkemmin tiedonhakujärjestelmän toimintaa. Vasta viime vuosina XML-hakujärjestelmiin on alettu kehittää tällaista tiedonhakusuuntautunutta hakumahdollisuutta. (Gövert et al. 2006: 699.) Järjestelmien kehittäminen perustuu kykyyn arvioida jo olemassa olevia järjestelmiä. Vaikka XML-standardi on ollut käytössä jo vuodesta 1996, XML-tiedonhakujärjestelmien evaluointitutkimus on varsin uutta ja menetelmät melko kehittymättömiä. Vuonna 2002 XML-tiedonhakujärjestelmien evaluointia varten alettiin koota dokumenttikokoelmaa, elementtien relevanssiarvioita ja kehittää evaluoinnissa tarvittavia menetelmiä. Hanke sai nimekseen INEX (The Initiative for the Evaluation of XML-retrieval) ja hankkeen ensimmäinen evaluointikierros tehtiin vuonna 2002 (INEX'02), minkä jälkeen evaluointikierroksia on tehty joka vuosi. XML-tiedonhaun perusperiaate on pyrkiä hyödyntämään sekä dokumenttien sisältöä että rakennetta tiedonhaussa. Kokonaisten dokumenttien palauttamisen sijaan on usein tarkoituksenmukaisempaa palauttaa laajan dokumentin sijasta vain yksi elementti, joka mahdollisimman tarkasti sekä samalla kuitenkin kattavasti vastaa käyttäjän kyselyyn. (Gövert et al. 2006: 699.) Tämän takia koeasetelman luomiseksi täytyy arvioida myös XML-dokumenttien elementtien relevanssia eikä pelkästään kokonaisia dokumentteja. Arvioitavat elementit eivät ole itsenäisiä ja toisistaan riippumattomia kuten perinteisessä tekstitiedonhaussa vaan ne muodostavat moninaisen ja osin päällekkäisen keskinäisen suhdeverkoston. XML-dokumenteista 1

koostuvan koeasetelman erikoislaatuisuuden takia on täytynyt luoda perinteisestä binäärisistä relevanssiarvioista poikkeava relevanssin arviointitapa, joka pureutuu sekä sisältöön että rakenteen arviointiin. (Piwowarski & Lalmas 2004: 361.) INEX:in tutkimusasetelmassa hyödynnetään kahta lähtökohtaa XML-tiedonhakuun eli sisältöorientoitunutta lähestymistapaa (Content only, CO) sekä sisältö- ja rakenneorientoitunutta lähestymistapaa. (Content and structure, CAS). Tämä työ keskittyy jälkimmäiseen lähestymistapaan, jossa haetaan tietoa XML-dokumenteista käyttäen hyödyksi XML-dokumenttien rakennetta. Pitkään on arveltu, että kun käyttäjät määrittelevät kyselyssä tarkemmin, mistä osasta dokumenttia hakusana pitäisi löytyä eli tarkentavat kyselyä rakennevihjein, hakutuloksen tarkkuus kasvaa. Toistaiseksi INEX:in tutkimusasetelmassa tehdyissä rakenneorientoituneen lähestymistavan testauksissa tarkkuus ei kuitenkaan ole kasvanut odotetulla tavalla ja syytä on etsitty itse koeasetelmasta. Syyksi on epäilty kyselyiden tekoon sekä relevanssiarviointiasetelmaan liittyviä ongelmia. (Kamps et al. 2005: 4.) Tämän Pro gradu -työn tarkoitus on selvittää, ovatko relevanssiarviot ristiriidassa kyselyiden rakenne-ehtojen kanssa ja minkälaisia vaikutuksia tällä on tutkimusasetelmalle. Varsinaiset tutkimuskysymykseni ovat seuraavat: 1. Minkälainen on kyselyiden muodostama kuva käyttäjän tiedontarpeesta suhteessa INEX:in XML-rakenteen käyttöön ja CAS-kyselyiden rakenteeseen ja mahdollisuuksiin? 2. Minkälaisia saantikantoja relevanssiarviot muodostavat ja miten nämä vaikuttavat mahdollisesti evaluointitutkimuksen tuloksiin? Näihin kahteen kysymykseen yritän pureutua. Tarkastelen tilastollisesti INEX 03:n ja INEX 04:n kyselyitä sekä relevanssiarvioita ja pyrin sitä kautta rakentamaan tutkimusasetelman implisiittisesti olettamaa kuvaa käyttäjän tiedontarpeesta sekä sitä, missä määrin relevanssiarvioiden häilyvyys vaikuttaa saantikantoihin. Tutkimusasetelmasta löytyy tarkemmin kappaleessa viisi. Aloitan kuitenkin ensin tarkastelemalla evaluointitutkimusta laajemmassa viitekehyksessä sekä sitä, mitä relevanssi on ja mitä relevanssin käsite merkitsee 2

tiedonhakututkimukselle. Tämän jälkeen luon lyhyen katsauksen siihen, mitä XML on ja mitä ominaispiirteitä ja ongelmia XML-rakenne aiheuttaa tiedonhakuun sekä esittelen INEX-hankkeen tiedonhakukokoelmaa ja sen relevanssiarvioinnin periaatteita. Tämän jälkeen vasta pääsen itse tutkimusasetelmaan ja sen tuloksiin. 3

2. Tiedonhakujärjestelmien evaluointitutkimus Luon aluksi lyhyen katsauksen tiedonhakujärjestelmien evaluointitutkimuksen kenttään yleisellä tasolla. Tarkoitus on rakentaa tutkimustraditiota tarkastelemalla jonkinlaista taustaa oman työni keskeisiin tutkimusongelmiin sekä niihin mahdollisesti aikaisemmin esitettyihin ratkaisuihin. Kappaleessa 2.1. kerron evaluointitutkimuksesta yleensä, määrittelen keskeisiä käsitteitä ja selvitän vähän tarkemmin tämän työn kannalta keskeisen laboratoriotestauksen asemaa ja menetelmiä. Kappaleessa 2.2. kerron evaluontitutkimuksen kehityksestä pääpiirteittäin ja esittelen muutaman keskeisen evaluointiprojektin sekä niiden merkityksen tutkimukselle. Lopuksi kappaleessa 2.3. esitän yleisimpiä laboratoriomallin evaluointitutkimusta vastaan esitettyjä argumentteja sekä pohdin lähinnä kirjallisuuden pohjalta laboratoriotutkimuksen oikeutusta ja paikkaa. 2.1. Laboratoriomallin evaluointitutkimus Tiedonhakututkimus (IR, Information Retrieval) tutkii informaatiota sisältävien kohteiden esittämistä, varastoimista, järjestämistä ja saatavuuden varmistamista (Salton & McGill 1983: 1). Tiedonhaun evaluointitutkimukseksi voidaan kutsua varsin erilaisiin tutkimusasetelmiin perustuvia tarkastelutapoja, joissa päämääränä on arvioida tiedonhaun kehittämiä hakujärjestelmiä, hakuja, tietokantoja, hakijoita tai tiedonhaun kustannuksia. Suurin osa tehdystä tutkimuksesta keskittyy kuitenkin kahteen ensiksi mainittuun näkökulmaan (Järvelin 1995: 49, Saracevic 1995: 138 ). Evaluointitutkimus jaetaan yleensä käyttäjä- ja järjestelmäkeskeiseksi tutkimukseksi sekä näkökulman perusteella usein vielä kuudeksi eri tasoksi seuraavasti: 4

1. Järjestelmän rakennustaso 2. Syötetaso 3. prosessointitaso 4. Tulostetaso 5. Käyttäjätaso 6. Sosiaalinen taso ( Saracevic 1995: 140). Alan näennäisestä laaja-alaisuudesta huolimatta suurin osa tehdystä evaluointitutkimuksesta on ollut järjestelmäkeskeistä prosessointitason algoritmeja tai hakutekniikoita arvioivia kontrolloituja kokeita jopa siinä määrin, että evaluointitutkimuksella tyypillisimmillään ymmärretään tarkoitettavan juuri tämänkaltaista tutkimusotetta. Järjestelmätasolla evaluointi keskittyy laitteiston ja ohjelmiston piirteisiin, kuten virheettömyyteen, nopeuteen, ylläpidettävyyteen, joustavuuteen jne. sekä järjestelmän kykyyn hakea haluttuja dokumentteja. Kaksi keskeisintä mitattavaa suuretta ovat järjestelmän suorituskyky (effiency) ja hakutehokkuus (effectiveness). Järjestelmän suorituskyvyllä tarkoitetaan järjestelmän vastausaikaa, teknistä toimivuutta sekä järjestelmien kattavuutta. Toinen näkökulma on haun onnistuminen käyttäjän kannalta. Käyttäjälle olennaisinta on se, kuinka hyvin järjestelmät pystyvät vastaamaan hakijan tekemiin kyselyihin, jolloin puhutaan hakutehokkuudesta. (Saracevic 1995: 140 141.) Tämä seminaarityö keskittyy järjestelmätason evaluointiin nimenomaan hakutehokkuuden kannalta. Evaluointitutkimusta tehdään sekä tutkittavaa ongelmaa varten rakennettujen koeasetelmien avulla eli laboratoriotestauksena sekä interaktiivisena todellisten järjestelmien käyttäjätestauksena. Suurin osa järjestelmäkeskeisestä evaluointitutkimuksesta tapahtuu yhä laboratoriotestauksena, jossa koe koostuu seuraavista kontrolloiduista osa-alueista (Robertson et al 1982: 1 15, Hull 1993: 329, Vorhees 2002: 143 170): 1. Dokumenttikokoelma: kokoelma dokumentteja, joissa kyselyt tehdään 2. Hakutehtävät: dokumenttien pohjalta tehdyt hakutehtävät, joista kyselyt muotoillaan 3. Relevanssiarviot: joukko ihmisiä käy dokumentit läpi ja arvioi, vastaavatko ne hakutehtävien aihetta 5

4. Mittaristo: perustuu relevanttien ja epärelevanttien dokumenttien samankaltaisuuden arviointiin suhteessa hakutehtävään, esim. saantitarkkuus-käyrä. 5. Tilastolliset testit, joilla arvioidaan hakutulosten erojen tilastollista merkitsevyyttä Tämänkin työn lähestymistapa perustuu esitetynkaltaiseen laboratoriomallin koeasetelmaan. Laboratoriomallin evaluointitutkimuksessa keskeinen järjestelmien, algoritmien tai hakutapojen tuloksellisuutta erotteleva tekijä on tutkimusmateriaaliin sopivan tehokkaan mittariston valinta. Klassisessa laboratoriotutkimuksessa tiedonhaun tuloksellisuuden mittaamiseen on käytetty saantia ja tarkkuutta tai niistä johdettuja mittareita ja nämä mittarit ovat yhä edelleen yleisesti käytössä (Raghavan et al. 1989: 205). Tarkkuus (precision) kuvaa sitä, kuinka suuri osuus hakutuloksesta koostui relevanteista dokumenteista; saanti (recall) saanti taas sitä, kuinka suuri osa tietokannan relevanteista dokumenteista onnistuttiin löytämään. Perinteinen saannin ja tarkkuuden käyttäminen tuloksellisuuden mittaamiseen vaatii tiedon siitä, mitkä dokumentit ovat relevantteja mihinkin kyselyyn eli relevanssiarvioiden tekoa. Näiden kahden mittarin takana voidaan nähdä implisiittinen oletus keskivertokäyttäjän tarpeesta löytää paljon relevantteja dokumentteja ja samalla pystyä jättämään kaikki epärelevantit sivuun. (Wallis & Thom 1995: 274.) Kaikissa tapauksissa tämä oletus keskivertokäyttäjän tiedontarpeesta ei kuitenkaan kuvaa käyttäjän todellista tilannetta: Käyttäjälle voi riittää hakutulokseksi vain muutama hyvin relevantti dokumentti eikä saannilla ole tällöin mitään merkitystä tai käyttäjä voi päinvastoin haluta saada käsiinsä kaikki mahdolliset relevantit dokumentit aiheesta eli toivoa absoluuttista saantia välittämättä tarkkuudesta. (Salton 1992: 442, Wallis & Thom 1995: 273.) Tästä huomiosta herääkin kysymys, kuinka saannin ja tarkkuuden perusteella voidaan sanoa mitään siitä, kumpi hakujärjestelmistä A vai B on tehokkaampi. Perinteisesti tähän kysymykseen on vastattu niin, että järjestelmä A on tehokkaampi kuin B, jos jokaisessa saantipisteessä A:n tarkkuusarvo on suurempi kuin B:n. Jos tämä ei pidä paikkaansa, on laskettu valittujen saantitasojen tarkkuuksien keskiarvo ja järjestelmiä A ja B on vertailtu näiden keskiarvojen perusteella. (Raghavan et al.1989: 206.) 6

2.2. Evaluointitutkimuksen traditio Mielenkiinto tiedonhaun ja tallennuksen kysymyksiin heräsi 1940-luvulla pohdintoina siitä, kuinka ennustettuun tieteen ja tekniikan dokumenttien eksponentiaaliseen kasvuun voitaisiin vastata tietoteknisin ratkaisuin (mm. Bush 1945: 101 108). Heti 1950-luvulla ensimmäisten tiedonhakujärjestelmien prototyyppien kehittämisen yhteydessä syntyi tarve luoda menetelmiä aikaansaatujen järjestelmien ja tekniikoiden arviointiin (Saracevic 1995: 138). Vuoden 1958 Washington International Conference on Scientific Information -konferenssia on pidetty evaluointitutkimuksen varsinaisena lähtölaukauksena, sillä konferenssissa tuotiin esiin tiedonhaku-tutkimuksen keskeiset käsitteet, alustavasti seuraavan vuosikymmenen keskeiset tutkimusongelmat ja pohdintaa niiden testausmahdollisuuksista tietokonetta apuna käyttäen (Sparck- Jones 1981: 218, Mizarro 1997: 815). Ensimmäiset yritelmät järjestelmäevaluointiin tehtiin jo 1950-luvun lopulla, mutta vasta 1960-luvun alussa saatiin tarpeeksi rahoitusta laajamittaisempaan järjestelmäevaluointihankkeeseen (Salton 1992: 441). Tunnetuin ensimmäisistä evaluointiprojekteista oli Western Reserve yliopiston Cyril Cleverdonin johdolla toteutetut Cranfield I ja II nimellä tunnetut laboratoriotutkimukset Iso-Britanniassa 1950-luvun lopulta 1960-luvun puoliväliin asti (Sparck- Jones 1981: 2 3). Cranfield II:n laboratoriokokeiden metodologia on tarkasti dokumentoitu ja sitä pidetään yleisesti ns. klassisen laboratoriomallin evaluoinnin perustana, jonka periaatteiden mukaisesti suuri osa nykyisistäkin laboratoriotutkimuksista yhä rakennetaan (mm. Sparck-Jones 1981: 2 3, Keen 1992: 491, Spinck et al. 1998: 599). Tutkimuksissa vertailtiin indeksointikielten hakutehokkuutta 1400 dokumentin kokoelmassa. Dokumenttien käsittelemän aihealueen asiantuntijat rakensivat dokumentteihin kyselyt ja alan opiskelijat tekivät relevanssiarviot kustakin dokumentista. Näin saatiin selville kuhunkin kyselyyn liittyvät relevantit dokumentit. Koeasetelma oli melko yksinkertainen, kuhunkin eri indeksointikieltä käyttävään järjestelmään tehtiin samat kyselyt ja kyselyiden tuloksellisuutta vertailtiin saannin ja tarkkuuden keskiarvojen avulla. Kokeissa havaittiin monia keskeisiä tiedonhaun ilmiöitä, kuten saannin ja tarkkuuden käänteinen suhde: kun saanti kasvaa, tarkkuus pienenee ja päinvastoin. Vaikka Cranfieldin kokeita on kritisoitu paljon, ne loivat pohjan laboratoriotutkimukselle. (Robertson 1981: 19 21.) 7

Toinen tunnettu evaluointiprojekti oli 1980-luvulla Blairin ja Maronin (1985: 289 299) johtama IBM:n STAIRS-projekti (Storage and Information Retrieval System), jossa testattiin toiminnassa olevaa kaupallista tiedonhakujärjestelmää. Kyse ei siis ollut laboratoriokokeesta, vaikka menetelmät olivatkin osin Cranfieldin testeistä perittyjä vaan koeasetelma pyrittiin saamaan vastaamaan mahdollisimman paljon todellista tiedonhakutilannetta todellisine käyttäjineen ja todellisine tiedontarpeineen. Testin hakutehtävät muotoilivat itse käyttäjät, kaksi juristia, todellisten oikeusjutuista nousseiden tiedontarpeidensa pohjalta laajasta 40 000 dokumentin tietokannasta ja samat juristit tekivät myös dokumenttien relevanssiarviot. Oikeusavustajat muotoilivat hakutehtävien pohjalta varsinaiset kyselyt ja suorittivat ne. Koehenkilöt toivoivat löytävänsä vähintään 75 prosenttia kaikista relevanteista dokumenteista ja 100 prosenttia erittäin relevanteista dokumenteista, mutta todellisuudessa tulokset osoittautuivat huomattavasti huonommiksi kuin odotettiin: vain noin 20 prosenttia relevanteista dokumenteista ja 48 prosenttia erittäin relevanteista dokumenteista löydettiin. Tästä tehtiin johtopäätös, että laboratoriotestaus ja interaktiivinen koeasetelma eroavat toisistaan perustavalla tavalla. (Salton 1992: 447.) 1990-luvun alusta lähtien tärkein ja tunnetuin evaluointiprojekti on ollut Yhdysvaltojen puolustustutkimuslaitoksen DARPA:n rahoittama ja NIST:in (National Institute of Standards and Technologyn) koordinoima jokavuotinen konferenssi TREC (The Text Retrieval Conference). Konferenssin tarkoitus on ollut alusta lähtien kehittää kansainvälinen tiedonhaun evaluoinnin infrastruktuuri tutkijayhteisön käyttöön tarjoamalla yhteinen laaja testikokoelma ja yhteiset menetelmät sekä julkaisufoorumi tutkijoiden käyttöön. (Harman 1993: 36 41.) Vuodesta 1992 lähtien joka vuosi on järjestetty uusi evaluointikierros, johon on liittynyt kyselyiden rakentaminen, relevanssiarviointien teko, hakuajot ja artikkeleiden julkaiseminen, joihin kaikkiin kukin osallistuva tutkijaryhmä on ottanut osaa. Vuonna 2003 TREC:iin osallistui 93 tutkijaryhmää 22 maasta. TREC:in dokumentti-kokoelma eroaa huomattavasti aikaisemmista evaluointiin käytetyistä dokumenttikokoelmista siinä, että kokoelma on varsin suuri (sisältää yli miljoona dokumenttia), kyselyitä on varsin paljon (150), dokumentit ovat pidempiä kokotekstejä kuin aikaisemmissa testauksissa ja sekä kyselyt, dokumentit että tulokset ovat laajan tutkijayhteisön käytettävissä. Sen sijaan mittaristona on käytetty lähinnä perinteisiä aikaisemmista tutkimuksista tuttuja saantia ja tarkkuutta. (Sparck-Jones 2000: 37 40.) TRECkonferenssi sisältää erillisiä yhteisiä tutkimuksen painopistealueita eli TRACK:ejä, 8

joiden tarkoituksena on keskittyä tietynlaisen tutkimuksen tarpeisiin, kuten muun muassa kieltenväliseen tiedonhakuun tai interaktiiviseen tiedonhakuun. (Harman 1993: 36 41.) 2.3. Laboratoriomallin evaluointitutkimuksen kritiikki Laboratoriomallin tutkimuksen yleisin kritiikki keskittyy kahteen seikkaan: todellisten käyttäjien unohtamiseen koeasetelman ulkopuolelle ja relevanssiarvioiden epämääräisyyteen. Käsittelen tässä kappaleessa lähinnä ensimmäiseksi mainittua ongelmaa, relevanssiarviointeihin liittyviä kysymyksiä käsitellään kappaleessa 3.3. Lopuksi esitän syitä siihen, miksi laboratoriotestausta kuitenkin jatketaan yhä. 1970-luvun lopulta lähtien on alettu esittää ajatuksia siitä, että todellisia käyttäjiä täytyisi voida ottaa tutkimukseen mukaan ja mielellään jos mahdollista, käyttää todellisia tiedontarpeita hakujen perustana. Ensimmäisiä todellisiin käyttäjiin perustuvia laajamittaisia tutkimuksia on ollut edellä käsitelty STAIRS-projekti. Ajatuksena on, että laboratoriotestauksessa käyttäjiä korvaavat hakutehtävät eivät todellisuudessa vastaa todellisten käyttäjien tiedontarpeita eivätkä erillään tiedonhakutilanteesta tehdyt relevanssiarviot vastaa todellista käyttäjän arviota dokumentin relevanssista. Samalla tavoin hakujen ajaminen tietokantaan ei vastaa todellista tiedonhakutilannetta. (Ingwersen 1992: 80, Salton 1992: 443.) Laboratoriomallin evaluoinnin tuloksista eivät siis ole suoraan yleistettävissä todellisiin tiedonhakutilanteisiin, sillä ne eivät ota huomioon käyttäjän kognitiivisia malleja tiedontarpeesta ja näiden mallien kehittelyä suhteessa järjestelmään. (Ingwersen 1992: 80.) Tähän argumenttiin on tyhjentävästi varsin hankala vastata. Laboratoriokokeessa järjestelmän eri muuttujia voidaan kontrolloida tehokkaammin kuin interaktiivisessa tutkimuksessa. Tiedonhakujärjestelmien käytännön kehitystyössä laboratoriotestaus on havaittu hyödylliseksi ja toimivaksi menetelmäksi (Vorhees 2000: 698). Interaktiiviseen evaluointiin liittyy monia ongelmia, mm. kokeen toistettavuus, hankala järjestettävyys ja kalleus (Readings in information retrieval 1996: 169). Tosin Ingwersen (1992: 82) itsekin kritisoidessaan perinteistä laboratoriomallia toteaa, että 9

sillä on kuitenkin paikkansa tutkimuksessa ja samalla kannalla on myös moni muu tiedonhaun tutkija (Keen 1992: 491). 10

3. Relevanssin käsitteestä Evaluointitutkimus tarvitsee jonkinlaisen tavan arvioida, vastaavatko kysely ja vastauksena tarjottu dokumentti toisiaan. Tämän vastaavuuden ilmaisemiseen on käytetty käsitettä relevanssi. Jo ensimmäisiä tiedonhakujärjestelmiä kehitettäessä 1950- luvulla päämääräksi määriteltiin relevantin tiedon löytyminen tiedonhaku-järjestelmän avulla. (Mizarro 1997: 810 811.) Relevanssin käsite on helppo ymmärtää intuitiivisesti, mutta vaikka käsite on keskeinen tiedonhaussa ja informaatiotutkimuksessa laajemminkin, sitä on vain harvoin määritelty tyhjentävästi ja täsmällisesti eikä määritelmistä ole päästy vieläkään yksimielisyyteen (mm. Saracevic 1975: 324, Robertson & Hancock-Beaulieu 1992: 457, Froehlich 1994: 124, Park 1994: 135, Järvelin 1995: 42, Mizzarro 1997: 810). Se että relevanssin tyhjentävä määrittely on osoittautunut hankalaksi tehtäväksi, ei kuitenkaan tarkoita sitä, etteikö relevanssin käsitteen sisällössä olisi löydetty jonkinlaista konsensusta. Katsauksessaan relevanssin käsitteen käytöstä varhaisemmassa kirjallisuudessa Saracevic (1975: 328) luo jäsennyksen esitettyjen relevanssin määritelmien yhtäläisyyksistä seuraavanlaisena yleisenä muotoiluna: Relevanssilla tarkoitetaan A:ta B:stä C:n ja D:n välisessä suhteessa, jota määrittelee E. Seuraava tiedonhakututkimuksen julkaisuissa paljon lainattu kaavio esittää muotoilun muuttujien paikalle eri määritelmissä esiintyneitä käsitteitä: Kuva 1. Saracevicin (1975: 328) relevanssimäärittelykaavio 11

Vaikka malli on varsin vanha, myös myöhemmin esitetyt määritelmät tuntuvat mahtuvan hyvin tämän kaavion puitteisiin. 3.1. Yksi vai viisi relevanssia? Jo 1950-luvun lopulta lähtien huomattiin, että relevanssissa oli mitä ilmeisimmin kysymys monipolvisesta, yhteen määritelmään sopimattomasta käsitteestä. Vuonna 1958 Brian C. Vickery erotteli kaksi erilaista relevanssityyppiä: käyttäjärelevanssin (subjektiivinen, käyttäjäkeskeinen relevanssi) ja aiherelevanssin (objektiivinen, järjestelmäkeskeinen relevanssi) (Mizarro 1997: 816). Tämä kahtiajako on jäänyt elämään tiedonhakututkimukseen. Järjestelmäkeskeinen näkökulma käsittelee relevanssia staattisena ja objektiivisena käsitteenä kun taas käyttäjäkeskeinen näkökulma pitää relevanssia subjektiivisena henkilökohtaisena käyttäjän kokemuksena, johon liittyy kognitiivista työskentelyä (Swanson 1986: 390 391). Keskustelu on sittemmin laajentunut tämän dualistisen käsityksen taakse, mutta Vickeryn kahtiajako tuntuu jääneen elämään informaatiotutkimukseen pysyvästi. Saracevic (2006: 37) on lähestynyt relevanssia selkeän kahtiajaon ulkopuolelta sen mukaan, miten relevanssi ilmenee tiedonhakutilanteissa. Hän on eritellyt viisi erilaista relevanssin ilmenemismuotoa: 1. Järjestelmä- eli algoritmirelevanssi mittaa kyselyn ja dokumentin välistä suhdetta 2. Aiherelevanssi kuvaa hakutehtävän ja dokumentin välistä suhdetta 3. Kognitiivisella relevanssilla tarkoitetaan tiedonhakijan kognitiivisen tilan ja löydettyjen dokumenttien välistä suhdetta 4. Tilannerelevanssi kuvaa tilanteen, tehtävän tai ratkaistavan ongelman ja löydettyjen dokumenttien välistä suhdetta. 5. Motivaatio- eli affektiivinen relevanssi on käyttäjän tavoitteiden, aikomusten tai motivaation ja haetun informaation välinen suhde. Kysymys on siis relevanssin ilmenemismuodoista erilaisissa tilanteissa ja tarpeissa, ei niinkään täysin eri käsitteistä. Nämä ilmenemismuodot Saracevicin mukaan esiintyvät 12

yhdessä ja vaikuttavat toisiinsa jatkuvasti: Aiherelevanssiin viitataan useimmin löydettyjen dokumenttien eli järjestelmärelevanssin perusteella ja samoin kognitiivinen relevanssi ja tilannerelevanssi riippuvat muista relevanssin ilmenemismuodoista. Taustalla tiedonhakuun vaikuttaa affektiivinen relevanssi. (Saracevic 2006: 37.) Viimeisimmän katsauksen relevanssin historiaan on tehnyt Mizarro (1997: 810 832). Samoin kuin Saracevic parisenkymmentä vuotta aikaisemmin Mizarro on luonut yleisen mallin kirjallisuuden relevanssin käsitemääritelmistä, mutta hän on ainakin jossain määrin yrittänyt ottaa huomioon relevanssin eri ilmenemismuodot tosin ei samassa laajuudessa kuin Saracevic on ne määritellyt. Mizarro (1997: 811 812) esittää, että yleisemmin määritelmät kuvaavat relevanssia kahden eri käsitteen välisenä suhteena. Ensimmäinen käsite on yksi tai useampi seuraavista: (i) dokumentti, eli fyysinen kokonaisuus jonka tiedonhakija tiedonhakuprosessin aikana löytää, (ii) surrogaatti, eli dokumenttia tietokannassa edustava merkintä kuten tekijä, nimeke, asiasanalista jne. tai (iii) informaatio, jonka tiedonhakija saa luettuaan dokumentin. Toinen käsite taas on yksi tai useampi seuraavista käsitteistä: (i) ongelma, jonka takia tietoa haetaan, (ii) tiedontarve, eli käyttäjän mielessä oleva representaatio tiedonhaun takana olevasta ongelmasta, (iii) hakupyyntö, eli tiedontarpeen kielellinen esitys tai (iv) kysely eli järjestelmän kielelle muotoiltu hakupyyntö. Kumpikin käsiteryhmä voidaan nähdä kolmessa eri tasossa, joita ovat: (i) hakuaihe, eli aihepiiri josta tiedonhakija on kiinnostunut (ii) tehtävä, johon tiedonhaku liittyy (iii) konteksti pitäen sisällään kaikki hakuaiheen ja tehtävän ulkopuoliset tiedonhakutilanteeseen vaikuttavat seikat. Mizarro on esittänyt tämän määritelmänsä kolmiulotteisena kuvana, joka selventää muuten hyvin erikoista käsitemäärittelyä. Mizarron kaavio havainnollistaa hyvin relevanssin käsitettä suhteena ja erilaisina dimensioina. 13

Kuva 2. Mizarron (1997: 811) relevanssimäärittelyn osa-alueet 3.2. Relevanssin tasot Klassisessa laboratoriotestauksessa dokumenttien relevanssiarviot on tehty binäärisinä: dokumentti on joko relevantti tai epärelevantti sen mukaan, vastaako se hakutehtävää. Yhä edelleen suuri osa evaluointitutkimuksesta tehdään binääristen relevanssiarvioiden pohjalle siksi, että perinteisesti tiedonhaun laboratoriotutkimuksessa käytetyt mittarit saanti ja tarkkuus perustuvat binääriseen relevanssiin (Greisdorf 2003: 405). 1960-luvusta lähtien on kuitenkin esitetty ja testattu binääriselle relevanssiarvioinnille vaihtoetoja, jopa yksitoistatasoista relevanssia. 1990-luvulla moniportaiseen relevanssiarviointiin on vakiintunut yleisimmäksi kolme- tai nelitasoinen skaala. (Borlund 2003: 918 919.) 14

Miksi sitten käyttää monimutkaisempaa arviointitapaa kun asiasta voisi selviytyä yksinkertaisestikin? Tähän on lähinnä kaksi syytä. Tekemällä dokumenttien relevanssiarvioista moniportaisia voidaan lisätä testikokoelman kykyä erotella yksityiskohtaisemmin toisistaan testattavia tiedonhakumenetelmiä tai järjestelmiä (Vorhees 2000: 697). Samoin loppukäyttäjälle voi olla hyödyllistä valita, haluaako hän kaikki dokumentit vaiko vain kaikkein relevanteimman 10 prosentin otoksen dokumenteista. Amanda Spinkin, Howard Greisdorfin ja Judy Batemanin (Spink et al. 1998: 599 603) tutkimuksessa havaittiin, että riippuen tiedonhakijan tiedontarpeesta ja tiedonhaun vaiheesta hän valitsi eri tavoin hyvin relevantteja tai vain marginaalisesti relevantteja artikkeleita. Moniportaisten relevanssiarvioiden hyödyllisyyttä indikoi myös Vakkarin ja Sormusen (2004) testi, jossa TREC:in alun perin binäärisesti relevanssiarvioidut dokumentit arvioitiin uudestaan neliportaisen relevanssin avulla, minkä jälkeen koehenkilöitä pyydettiin tekemään hakuja materiaalista ja tunnistamaan relevantit dokumentit epärelevanttien joukosta. Huomattiin, että TREC:in alun perin relevanteista, mutta uudestaan moniportaisessa relevanssiarvioinnissa erittäin relevanteiksi määritellyistä dokumenteista käyttäjät pystyivät tunnistamaan lähes kaikki, mutta vain puolet marginaalisesti relevanteista dokumenteista. (Vakkari & Sormunen 2004: 963 969.) Tämä osoittaisi, että käyttäjän kannalta relevanssin asteella on melko suuri merkitys, mitä ovat osoittaneet myös muutamat muut käyttäjälähtöiset tutkimukset. 3.3. Relevanssiarvioista Kuten edellä jo esitettiin, evaluointitutkimuksen koeasetelma pohjautuu seuraavaan: Dokumenttikokoelmasta tehdään kirjalliset hakutehtävät (topic) ja kaikki kokoelman dokumentit arvioidaan sen mukaan, vastaavatko ne hakutehtäviä. Näin muodostetaan jokaiselle dokumentille relevanssiarvio. Varsinaiset haut tehdään automaattisesti täsmäyttämällä hakutehtävän pohjalta muodostetut kyselyt dokumentteihin, minkä takia laboratoriomallin mittausmenetelmät eivät pysty arvioimaan muita relevanssin dimensioita kuin aiheperusteisuutta (Saracevicin aiherelevanssi) ja järjestelmän täsmäytyskykyä (Saracevicin järjestelmärelevanssi). Tiedonhaun lähtökohtien kannalta on huomioitava, että hakutehokkuuden (effectiveness) mittaamiseen aiheperusteisuus on järkevämpi lähestymistapa. Se on relevanssin muodoista ainoa, jonka on nähty sopivan 15

tiedonhaun laboratoriotutkimuksiin (Kekäläinen 1999: 76) (ks. Saracevicin aiherelevanssi (Saracevic 2006: 37). Vaikka itse täsmäytys on aiheperusteinen, relevanssiarvioiden tekemisessä voidaan nähdä vaikuttavan aiherelevanssin lisäksi samaa aikaa useamman Saracevicin relevanssin manifestaation toisiinsa liittyneenä niin tilannerelevanssin, affektiivisen relevanssin kuin kognitiivisen relevanssinkin. Pia Borlund on esittänyt laboratoriomallin relevanssiarviointiprosessia erittelevän kaavion (ks. kuva 3.), jossa tulee hyvin esiin relevanssiarvioinnin monimuotoisuus. Kuva 3. Kuvaus relevanssiarvioinnin prosessista perinteisessä laboratoriomallin tutkimuksessa (Borlund 2000: 29) Borlundin mallissa esitetään keskeinen relevanssiarviointiin liittyvä ongelma. Relevanssiarvioitsijan täytyy tuntea hakutehtävät (kuvassa topic) varsin hyvin voidakseen tehdä arviointia eikä pelkkä aiheperusteisuus riitä. Laboratoriotutkimuksessa perinteisesti oletetaan arvioitsijan tekevän arviointinsa varsin objektiivisesti aiheperusteisuuden avulla (kuvassa IT = intellectual topicality). Tämä ei kuitenkaan ole mahdollista aiheperusteisuuteen liittyvän subjektiivisuuden takia. Aiheperusteinen arviointi tapahtuu Borlundin mukaan kognitiivisen relevanssin välityksellä (kuvassa P = pertinence, vastaa Borlundin mukaan Saracevicin kognitiivista relevanssia). Kognitiivisen relevanssin Borlund määrittelee tarkoittavan informaatio-objektien (kuvassa O = Information Object) ja arvioitsijan hakutehtävän perusteella ymmärtämän tiedontarpeen välillä olevaa relevanssisuhdetta. Tämä suhde on hyvin subjektiivinen. (Borlund 2003: 916.) 16

Laboratoriomallin evaluointitutkimusta kohtaan on paljon esitetty kritiikkiä relevanssin käsitteen ja relevanssiarvioiden epämääräisyyden vuoksi. Vaikka laboratoriotestaus pyrkii eksaktiuteen mittauksissaan ja vertailtavien menetelmien tai järjestelmien puolueettomaan arviointiin, evaluointitutkimusta tuskin voidaan pitää puhtaasti eksaktina kvantitatiivisena tieteenä. Tämä johtuu siitä, että laboratoriotestaus perustuu inhimillisten arvioijien tekemiin subjektiivisiin relevanssiarvioihin, joiden luonne on ratkaisevasti erilainen kuin esimerkiksi insinööritieteiden fyysisten mittausten. (Ellis 1996: 23 25.) Relevanssiarvioissa on havaittu suurta variaatiota eri arvioitsijoiden välillä sekä samallakin arvioitsijalla riippuen ajankohdasta (Schamber 1994: 40 48, Harter 1996: 37 38). Kuinka näin subjektiivisiin relevanssiarvioihin perustuvaa tutkimusta voidaan pitää luotettavana? Tähän kysymykseen on perinteisesti tarjottu kahta vastausta. Evaluointitutkimuksen tarjoama testaus on osoittautunut hyödylliseksi tiedonhakujärjestelmiä kehitettäessä ja näin on ajateltu, että huolimatta variaatiosta tulokset ovat sovellettavissa käytännön kehitystyöhön. Toisaalta on havaittu, että vaikka relevanssiarviot vaihtelevat, vaihtelu ei ole niin suurta että se vaikuttaisi evaluointitulokseen. Vaihtelua on tarkasteltu sekä pienissä kokoelmissa tehtävissä tutkimuksissa että TRECin laajassa testikokoelmassa. (Lesk & Salton 1969: 343 359, Cleverdon et al. 1968: 15, Vorhees 2000: 697.) 17

4. XML-tiedonhakujärjestelmien evaluoinnin erityispiirteet ja INEX Miksi XML-dokumenteista tehtävää tiedonhakua varten on täytynyt kehittää omia menetelmiä ja täysin oma tutkimusympäristö testaukseen; eikö XML-tiedonhakua olisi voinut testata esimerkiksi osana TREC:in kokoelmaa? Esittelen tässä kappaleessa ensin lyhyesti, mitä rakenteisella dokumentilla tarkoitetaan ja miten XML-tiedonhaku eroaa perinteisestä tekstiedonhausta. Tämän jälkeen siirrytään pohtimaan sitä, mitä vaatimuksia laboratoriotutkimukselle XML-dokumenttien rakenne aiheuttaa ja miten INEX:ssä on pyritty vastaamaan näihin ongelmiin ja erikoispiirteisiin. Lopussa käsitellään erityisesti relevanssiarviointiin liittyviä ongelmia. 4.1 XML dokumentointistandardina XML (Extensible Markup Language) on SGML:stä (Standard Generalized Markup Language, ISO 8879) johdettu yksinkertaistettu metakieli. Vuosikymmeniä suurten dokumenttikokoelmien hallinnassa oli hyödynnetty SGML:n rakenteen deklaratiivista merkitsemisen ideaa, mutta kieli oli varsin raskas ja sen tekstiä hyödyntävien järjestelmien rakentaminen työlästä ja virhealtista erityisesti verkossa. Kun World Wide Web Consortiumin (W3C) työryhmä alkoi kehitellä XML-merkintäkieltä vuonna 1996, tarkoituksena oli kehittää SGML:ää yksinkertaisempi ja yleiskäyttöisempi metakieli elektronisen julkaisemisen tarpeita varten. Vuonna 1998 W3C julkaisi ensimmäisen XML-suosituksen ja nopeasti sen käyttö laajeni varsinaisten tekstidokumenttien rakenteen kuvaamisen ulkopuolelle. Nykyisin sen avulla määritellään laajasti erilaisia tiedostomuotoja (esim. vektorigrafiikka, virtuaalimaailmat, verkkokaupan sovelmat ja muotoilukielet) ja sillä on nykyisin suuri merkitys rakenteellisen tiedon siirrossa Webissä. (Bray et al. 2006.) 18

XML ja SGML ovat molemmat metakieliä, joiden avulla voidaan formaalisti määritellä yksittäisiä rakennetta kuvaavia kieliä, merkintäkieliä. Yksi tällainen merkintäkieli on vuodesta 1992 lähtien määritelty HTML, joka versioon HTML 4.01 asti on kuvattu SGML-metakielellä ja versiosta XHTML 1.0 lähtien XML-metakielellä. (Ahonen-Mykä 2002: 18 19.) Kun HTML kuvailee dokumentin rakennetta ennalta sovitulla tavalla niin että käytettävissä olevien tunnisteiden (tags) sekä semantiikka että rakenne on määritelty kielessä ennalta, XML ei määrittele etukäteen valmiiksi tunnisteita eikä niiden semantiikkaa, vaan tarjoaa keinon määritellä joka kerta merkkaustavat ja niiden väliset semanttiset merkitykset uudestaan. Tällä tavoin XML mahdollistaa laajasti erilaisten dokumenttityyppien yhdistämisen ja välittämisen. (Walsh 1998.) 4.1.1 XML-dokumentin rakenne, DTD ja XML-skeemat XML-dokumentin rakenne jaetaan kahteen osaan: loogiseen ja fyysiseen rakenteeseen. Kuvassa 4 esitetään esimerkki yksinkertaisesta XML-dokumentista. <?xml version= 1.0?> <osoitteet> <työntekijä alue = Espoo-Lohja > <nimi> <etunimi> Keijo </etunimi> <sukunimi> Kirjastonhoitaja< /sukunimi> </nimi> <osoite > <tyopaikka> Laurea </tyopaikka> <katu> Vanha maantie 9 </katu> <postinumero> 02650 </postinumero> <kaupunki> Espoo </kaupunki> </ osoite> <puhnumero> (123) 1007007 </ puhnumero> <email>keijok@laurea.fi</email> </työntekijä> </osoitteet> Kuva 4. Esimerkki XML-dokumentista. Looginen rakenne jäsentää dokumentin tunnisteiden merkitsemisen avulla. Kuvan neljä esimerkkidokumentissa esiintyvässä katkelmassa <kaupunki> Espoo </kaupunki> 19

alkutunniste <kaupunki> ja lopputunniste </kaupunki> rajaavat tekstistä yhden rakenneosan, jonka sisältö on Espoo. Alkutunnisteen ja lopputunnisteen rajaamia rakenneosia kutsutaan elementeiksi. Looginen rakenne määrittelee elementit, niiden hierarkian ja keskinäisen järjestyksen puurakenteisena mallina. Looginen rakenne edellyttää, että dokumentti on hyvin muodostettu (well-formed). Hyvin muodostunut dokumentti täyttää XML-määrityksen mukaiset ehdot ja sisältää täsmälleen yhden juurielementin, johon kaikki muut elementit sisältyvät ja jonka sisällä muut elementit ovat tasapainossa eli alkavat ja päättyvät saman vanhempielementin sisällä ja ovat tälle alielementtejä ja juurielementti näille kaikille ylielementti. XMLrakenteessa eritellään yleensä ali- ja ylielementin lisäksi lapsi- ja vanhempielementit. Lapsielementti on elementin sisältämä alielementti. Esimerkiksi seuraavassa rakenteessa: <kappale> <termi>kissa</termi> </kappale> elementti termi on elementin kappale lapsielementti, eli suoraan sen alapuolella. Vastaavasti kappale-elementti on termi-elementin vanhempielementti. Alielementti voi tarkoittaa samaa kuin lapsielementti, mutta se voi tarkoittaa myös syvemmällä hierarkiassa olevia elementtejä, esimerkiksi lapsenlapsielementtejä. (Bray et al. 2006.) Elementeillä voi olla attribuutteja, jotka kuvaavat elementteihin liittyvää metatietoa eli antavat lisätietoa elementistä. Esimerkissä elementillä työntekijä on attribuutti alue ja sillä arvo Espoo-Vantaa. (Ahonen-Mykä 2002: 18 19.) XML:n fyysinen rakenne koostuu entiteeteistä (entity). Entiteetit ovat ennalta määriteltyjä vakioita, joilla on nimi ja sisältö ja ne määritellään dokumenttityypin määrityksessä eli DTD:ssä. Entiteetit kuvaavat mm. dokumentin osia, kuvia, erikoismerkkejä, merkkijonoja, matemaattisia symboleita ja kirjoitusmerkkijärjestelmiä. XML-dokumentti muodostuu vähintään yhdestä entiteetistä, dokumenttientiteetistä. (Bray et al. 2006.) 20

Edelllä esitetyn kaltaisia XML-dokumentteja voi periaatteessa hyödyntää sellaisenaan, jos on käytettävissä ohjelmistoja jotka osaavat tulkita XML:n rakennetta. Metakielenä XML:ää ei kuitenkaan voi käyttää ilman sitä määrittelevää kielioppia, joka kertoo kielen rakenteen ja syntaksin. Yleisimpiä määrittelytapoja ovat DTD (Document type definition) ja XML-skeema -määrittelyt. Näistä DTD:t ovat alkuperäisiä jo SGML:stä periytyviä esitystapoja, kun taas XML-skeema -määrittelyjä on alettu käyttää vasta viime vuosina. (Ahonen-Mykä 2002: 22.) INEX:in dokumenteissa käytetään DTD:tä ja siksi keskityn seuraavassa tarkastelemaan DTD:tä tarkemmin. DTD voi olla sisäinen tai ulkoinen. Sisäinen DTD sijaitsee XML-dokumentissa hakasulkujen [ ] sisällä. Ulkoinen DTD sijaitsee omassa tiedostossaan XML-dokumentin ulkopuolella. Seuraavassa kuvassa 5 on esimerkki sisäisestä DTD:stä, joka on tehty kuvan 4 esimerkki XML-tiedostolle. <!DOCTYPE osoitteet [ <!ELEMENT osoitteet (tyontekija)> <!ELEMENT tyontekija (nimi, yritys, osoite, puhnumero, email)> <!ATTLIST tyontekija alue (Espoo-Lohja, Hyvinkaa-Kerava, Vantaa-Porvoo )> <!ELEMENT nimi (etunimi, sukunimi)> <!ELEMENT etunimi (#PCDATA)> <!ELEMENT sukunimi (#PCDATA)> <!ELEMENT yritys (#PCDATA)> <!ELEMENT osoite (katu, postinumero, kaupunki, maa)> <!ELEMENT katu (#PCDATA)> <!ELEMENT postinumero (#PCDATA)> <!ELEMENT kaupunki (#PCDATA)> <!ELEMENT maa (#PCDATA)> <!ELEMENT puhnumero (#PCDATA)> <!ELEMENT email (#PCDATA)> ]> Kuva 5. Esimerkki DTD-määrittelytiedostosta. Ensin määritellään juurielementti osoitteet, jonka perään sulkuihin luetellaan alielementti työntekijä. Sitten määritellään elementti työntekijä ja sen perään sen alielementtejä nimi, yritys, osoite, puhnumero ja email. Sen jälkeen on määritelty elementin tyontekija atribuutti alue, joka voi saada arvot Espoo-Lohja, Hyvinkää-Kerava tai Vantaa- Porvoo. Elementit etunimi, sukunimi, yritys, katu, postinumero, kaupunki, maa, puhnumero ja email eivät enää sisällä enää muita alielementtejä vaan niiden sisältö on merkkijono 21

(#PCDATA) eli Parsed Character Data. DTD-määrittelytiedosto sisältää siis määritellyn käytettävistä elementeistä, niiden attribuuteista sekä entiteeteistä. 4.2 XML-tiedonhaun erityispiirteet Perinteinen tekstitiedonhaku pyrkii täsmäyttämään käyttäjän hakusanat tekstinä esitettyjen dokumenttien sanoihin ja palauttamaan aiheen kannalta keskeiset dokumentit siinä järjestyksessä, kuinka hyvin niissä on edustettuna kyselyn sanat. XML-tiedonhaun perusperiaate sen sijaan on pyrkiä hyödyntämään sekä dokumenttien sisältöä että rakennetta tiedonhaussa. Tämän takia XML-tiedonhakujärjestelmien täytyy pystyä relevantin artikkelin löytämisen sijaan päättelemään, mikä artikkelin elementeistä vastaa parhaiten käyttäjän kyselyä. (Fuhr & Lalmas 2004: 46.) Evaluointitutkimuksen perinteisissä testikokoelmissa, kuten TREC:issä, käsitys dokumenteista evaluoinnin perustana voidaan nähdä johtavan seuraaviin implisiittisiin oletuksiin: 1. Dokumentteja käsitellään kiinteinä itsenäisinä suunnilleen samanpituisina kokonaisuuksina 2. Dokumenttien teksti on rakenteetonta 3. Kyselyitä käsitellään rakenteettomasti hakusanojen ja -lauseiden kokoelmana 4. Kyselyiden perusteella tehdään kullekin dokumentille omana kiinteänä yksikkönään relevanssiarvio 5. Hakutulokset esitetään lineaarisena listana (Gövert et al. 2003: 2 3). XML-kokoelmaa rakennettaessa nämä perinteisen evaluointikokoelman implisiittiset oletukset täytyy huomioida XML-dokumenttien toisenlaisen luonteen vuoksi. XMLtiedonhaussa haetaan sekä kokonaisia dokumentteja että dokumenttien elementtejä, joten elementtejä ei voida pitää samalla tavalla itsenäisinä yksiköinä kuin perinteisesti dokumentteja on pidetty. Myöskään elementtien erillisyyttä ei voida pitää itsestään selvyytenä. Elementtien koot vaihtelevat ja tämä täytyisi myös pystyä huomioimaan jollakin tavalla koeasetelmassa. 22

Perinteisessä tekstitiedonhaun järjestelmäkeskeisessä evaluointitutkimuksessa kriteeristönä käytetään relevanssia (yleensä binääristä), mittoina saantia ja tarkkuutta ja arvioinnin välineenä valmiita kokoelman kasaamisen yhteydessä tehtyjä relevanssiarvioita. Koska XML-dokumenttien ominaisuudet tiedonhaussa poikkeavat kuitenkin perinteisten tekstidokumenttien ominaisuuksista niin paljon, on täytynyt kehittää uusia mittoja ja tapoja arvioida relevanssia. Palautettaessa elementtejä tulisi elementtien olla mahdollisimman syvällä dokumenttirakenteessa eli mahdollisimman spesifejä aiheen kannalta, mutta samalla niiden tulisi olla kuitenkin tyhjentäviä käyttäjän tiedontarpeeseen nähden (Gövert et al. 2003: 1). Perinteiset tiedonhakujärjestelmät palauttavat kokonaisia dokumentteja ja dokumentteihin liittyy ajatus siitä, että ne ovat yksittäisiä ja erillisiä, toisistaan riippumattomia kokonaisuuksia. Näin ei kuitenkaan ole XML-elementtien kohdalla, sillä ne liittyvät kiinteästi muihin saman juuren (tässä artikkelin) elementteihin sisällön ja rakenteen osalta. Ongelmana on, että hakutulokseen tulee sekä hierarkiassa ylempänä olevia että näiden sisällä olevia elementtejä. (Gövert et al. 2003: 3.) Perinteinen tapa esittää tulokset lineaarisena tuloslistana ei ole tarkoituksenmukaista silloin, kun kyseessä on pelkät elementit. Koska elementit eivät ole itsenäisiä vaan ne liittyvät kiinteästi toisiinsa, tuloslistaan saattaa tulla elementtejä eri dokumenteista niin, että elementit jotka ovat peräisin samasta dokumentista eivät ole peräkkäin tai missään järjestyksessä. Toistuvat kontekstivaihdokset listassa hämäävät käyttäjää. (Gövert et al. 2003: 3.) Saantikannassa olevat päällekkäiset elementit aiheuttavat ongelmia relevanssilajittelun suhteen, sillä saman elementin esittäminen ensin erillisenä ja toiseen kertaan sisällytettynä laajempaan ylielementtiin ei tuo käyttäjälle lainkaan lisää informaatiota, vaan ainoastaan lisään redundanssia. Lisäksi se vääristää evaluointituloksia. Tiedonhakujärjestelmän sekä testiasetelman täytyy pystyä poistamaan tämä päällekkäisyyteen liittyvä ongelma tai ainakin ottaa se huomioon. Näistä syistä XML-tiedonhaun laboratoriomallin evaluointitutkimusta ei ole voitu tehdä osana esim. TREC:in tutkimusasetelmaa vaan on täytynyt kehittää oma kokoelma ja menetelmät XML-tiedonhakututkimusta varten. 23

4.3. The Iniative for the Evaluation of XML-retrieval Iniative for the Evaluation of XML retrieval (INEX) on kansainvälinen vuonna 2002 perustettu XML-tiedonhaun evaluointitutkimukseen keskittyvä hanke. Hanketta vetää Norbert Fuhr Duisburg-Essenin yliopistosta Saksasta sekä Mounia Lalmas Queen Mary yliopistosta Lontoosta. Perustamisvuonna mukaan tuli 36 tutkimusorganisaatiota, vuonna 2007 osallistuvia organisaatioita oli jo yli 50; joka vuosi järjestetään uusi evaluointikierros, jossa osallistujat testaavat kehittämiään XML-tiedonhakuratkaisuja. (Lalmas 2005.) Keskeinen tavoite on ollut luoda XML-testiympäristö ja sopivat täsmäytysmenetelmät ja -käytänteet XML-tiedonhaun laboratoriomallin evaluointitutkimukselle aikaisempien suurten testikokoelmien kuten Cranfieldin ja TREC:in hengessä (ks. kappale 2.) (Trotman & Lalmas 2006: 58 71). INEX:in testikokoelma, kuten evaluointiympäristöt yleensä, muodostuu neljästä osasta: 1. dokumenttikokoelmasta 2. hakutehtävistä (topics) 3. kyselyiden perusteella tehdyistä relevanssiarvioista (assessments) 4. sekä mitoista. Dokumenttikokoelma koostuu 12 107 IEEE Computer Societyn vuosina 1995 2002 julkaistusta XML-muotoisesta 12 artikkelista ja 6 kokoelmajulkaisusta (transactions), jotka pitävät yhteensä sisällään noin 8 miljoonaa elementtiä. Yhdessä artikkelissa on keskimäärin 1 532 XML-elementtiä ja elementissä on keskimäärin 6.9 alielementtiä. (Fuhr & Lalmas 2003: 46.) Kaikki kokoelman dokumentit on merkattu yhden yhteisen DTD:n perusteella. Tyypillisen INEX-dokumentin rakenne näkyy kuvassa 6. Dokumentti muodostuu artikkelin alkuosasta (front matter) <fm>, artikkelin rungosta (body) <bdy> ja lopputiedoista (back matter) <bm>. Artikkelin alkuosa pitää sisällään artikkelia koskevan metadatan kuten artikkelin nimen (title) <ti>, kirjoittajan (author) <au>, julkaisutiedot ja abstraktin (abstract) <abs>. Artikkelin runko taas koostuu artikkelin osioista (sections) <sec>, alaosioista (sub-sections) <ss1> ja ala-alaosioista (sub-sub-sections) <ss2>. Kukin näistä osioista alkaa osion otsikolla (section title) <st> ja sitä seuraa yleensä useampia kappaleita 24

(paragraphs)<p>. Lisäksi sisällöstä löytyy erilaisia muita merkattuja osioita, kuten viitteitä, taulukoita, kuvia, listoja sekä tietoa ulkoasusta (mm. italics <it>). Lopputiedot koostuvat bibliografiasta (bibliography) <bib> sekä artikkelin kirjoittajatiedoista. (Gövert & Kazai 2003: 5.) <article> <fm> <ti> IEEE Transactions on </ti> <atl>construction of </atl> <au> <fnm> John </fnm> <snm> Smith </snm> <aff> University of </aff> </au> </fm> <bdy> <sec> <st> Introduction </st> <p> </p> </sec> <sec> <st> </st> <ss1> </ss1> </sec> <bdy> <bm> <bib> <bb> <au> </au><ti>..</ti> </bb> </bib> </bm> </article> Kuva 6. Tyypillisen INEX-dokumentin rakenne (Gövert & Kazai 2003: 6) Dokumenttikokoelma on säilynyt perustamisvuodesta lähtien kutakuinkin samana, kyselyt sen sijaan tehdään joka vuosi uudet. Jokainen osallistuva organisaatio tekee omat ehdotuksensa soveltuviksi kyselyiksi sen mukaan, mitä he ajattelevat todellisten käyttäjien mahdollisesti haluavan kysyä. Lopuksi järjestäjät valitsevat sopivimmat ehdotetuista kyselyistä. 25

Hakutehtävä on tiedontarpeen kirjallinen kuvaus (INEX:issä topic). Kysely (query) on hakutehtävän pohjalta muotoiltu kirjallinen esitys, joka on hakujärjestelmän vaativassa syntaksissa ja kelpaa syötteeksi hakujärjestelmään. Hakutehtävää kohti voi periaatteessa olla useita erilaisia kyselyitä. Hakutehtäviä (topics) on kahdenlaisia sen mukaan, minkälaisia kyselyitä ne sisältävät: 1. Sisältökyselyitä (Content-only queries, CO), joissa ilmaistaan vain se, mitä informaatiota halutussa elementissä täytyy olla, jotta se valitaan tulokseksi kyselyyn. Se ei sisällä rakennetietoa siitä, minkä elementin sisältä haluttu informaatio pitäisi löytyä. Nämä kyselyt eivät käytä hyödykseen XMLrakennetietoa ja sikäli vastaavat perinteisiä IR-tekstitiedonhakukyselyitä. (Ks. Liite 1 ja 3.) 2. Sisältö ja rakennekyselyitä (Content and structure queries, CAS), jotka sisältävät tiedon sekä haettavasta sisällöstä että rakennetiedon siitä, minkä elementin sisältä tieto tulisi löytyä. Nämä kyselyt käyttävät hyväkseen XMLrakennetta. (INEX 03 Guidelines.) (Ks. Liite 2 ja 4.) CAS-kyselyiden tulkinnassa evaluointivaiheessa esiintyy kahta tapaa: tiukaaa CASkyselyn tulkintaa (SCAS) ja löyhää CAS-kyselyn tulkintaa (VCAS). Tämä tarkoittaa sitä, että hakukone tulkitsee CAS-kyselyn tietyllä tavalla ja tämä tapa on kerrottu järjestelmälle etukäteen. SCAS-tulkinnassa hakulause tulkitaan täsmäytettäväksi tiukasti niin, että vain ne elementit jotka vastaavat kyselyä annetaan vastaukseksi; VCAS-kyselyä tulkitaan löyhemmin. Löyhä tulkinta tarkoittaa sitä, että elementti palautettaan tuloksena kyselyyn silloin, jos hakusana löytyy rakenne-ehdoksi mainitun elementin kanssa samankaltaisista elementeistä, ei ainoastaan juuri kyselyssä mainitusta elementistä. (Mass & Mandelbrod 2003: 59.) Hakutehtävät (topics) muodostuvat yleensä neljästä pääosasta: 1. Hakutehtävän otsikosta (topic title), joka on lyhyt määrämuotoinen kuvaus sekä haettavasta sisällöstä että siitä, minkä rakenteen sisältä sisältö tulisi löytyä. 2. Hakutehtävän kuvauksesta (topic description), joka on yleiskielen yhdeksi tai kahdeksi lauseeksi puettu kuvaus hakutehtävästä. 3. Laajemmasta kuvailusta (narration), joka on yksityiskohtaisempi sanallinen kuvaus haettavasta aiheesta. 26