Rakenne-ehtojen merkitys XML-tiedonhaussa: INEX 03:n ja INEX 04:n CAS-hakutehtävien ja saantikantojen tarkastelua. Minna Marjamaa
|
|
- Eeva-Liisa Kähkönen
- 8 vuotta sitten
- Katselukertoja:
Transkriptio
1 Rakenne-ehtojen merkitys XML-tiedonhaussa: INEX 03:n ja INEX 04:n CAS-hakutehtävien ja saantikantojen tarkastelua Minna Marjamaa Tampereen yliopisto Informaatiotutkimuksen laitos Pro gradu -tutkielma toukokuu 2008
2 TAMPEREEN YLIOPISTO Informaatiotutkimuksen laitos MARJAMAA, MINNA: Rakenne-ehtojen merkitys XML-tiedonhaussa: INEX 03:n ja INEX 04:n CAS-hakutehtävien ja saantikantojen tarkastelua Pro gradu -tutkielma, 68 s., 5 liitettä Informaatiotutkimus Toukokuu 2008 TIIVISTELMÄ Tutkimus käsittelee rakenne-ehtojen merkitystä XML-tiedonhaussa hakutehtävien ja saantikantojen tilastollisen tarkastelun avulla. Tutkimukseni liittyy kansainvälisen XMLtiedonhakujärjestelmien evaluointihankeen INEX:in (The Initiative for the Evaluation of XML-retrieval) koeasetelman kehittämiseen ja arviointiin. Tutkimusmateriaalina on INEX:in vuoden 2003 ja 2004 sekä XML-rakennetta että sisältöä hyväkseen käyttävät kyselyt (content and stucture, CAS) ja niiden pohjalta tehdyt relevanssiarviot. Rakenne-ehdon lisääminen kyselyyn on oletettu parantavan haun tarkuutta, mutta tätä ei INEX:in testauksissa ole ainakaan toistaiseksi havaittu. Syytä on etsitty kyselyiden rakentamiseen sekä relevanssiarviointi-menettelyyn liittyvistä ongelmista. Työni selvittää tarkemmin, millaisia kyselyt ja relevanssiarviot ovat ja kuinka tutkimusasetelma mahdollisesti vaikuttaa evaluointituloksiin. Tutkimukseni pohjalta piirtyy kuva siitä, että INEX:in tutkimusasetelma ei ole päässyt kovinkaan kauas perinteisistä tekstitiedonhakukokoelmien lähtöoletuksista. CAS-kyselyt olettavat käyttäjän haluavan vastauksina perinteisiä tekstitiedonhakutyyppisiä laajoja kokonaisuuksia. Käyttäjän ei oleteta haluavan juuri hyödyntää XML:n rakennetta. Relevanssiarvioiden pohjalta taas piirtyy kuva siitä, että saantikannoissa kyselyjen rakenne-ehtojen rooli on epämääräinen: Vuodesta 2003 vuoteen 2004 rakenne-ehdon käyttö on vähentynyt dramaattisesti niin että vuonna 2004 relevanssiarvioissa ei tunnu CAS-kyselyiden rakennetta käytetyn enää lainkaan. Ei siis ihme, että tarkuus ei ole parantunut rakenne-ehdon lisäämisen myötä, sillä rakennetta on käytetty varsin näennäisesti sekä kyselyitä että relevanssiarviointia tehdessä. Tutkimukseni tulos kiinnittää huomion INEX:in ohjeistukseen ja suunnitteluun: Relevanssiarvioitsijoita on ohjeistettu vuonna 2003 käyttämään rakennetta vain jossain määrin hyödykseen, vuonna 2004 rakenne kehotetaan ohittamaan täysin ja keskittymään vain sisältöön. Jos sumea logiikka CAS-kyselyiden kohdalla tarkoittaa sitä, että kyselyt tehdään tietokantaorientoituneesti kyselykielen avulla, mutta niihin relevanteiksi arvioidut elementit taas valitaan lähinnä sisällön perusteella, herää kysymys, mitä koeasetelma todellisuudessa heijastaa. CAS-hakutehtävien rooli koko tutkimusasetelmassa jää häilyväksi. Tutkimukseni osoittaa, että rakenne ja sisältö orientoitunutta lähestymistapaa INEX:in tutkimusasetelmassa kannattaisi täsmentää muuten jää epäselväksi mitä koeasetelmalla oikeastaan mitataan ja minkälaisin periaattein.
3 Sisältö 1. Johdanto Tiedonhakujärjestelmien evaluointitutkimus Laboratoriomallin evaluointitutkimus Evaluointitutkimuksen traditio Laboratoriomallin evaluointitutkimuksen kritiikki Relevanssin käsitteestä Yksi vai viisi relevanssia? Relevanssin tasot Relevanssiarvioista XML-tiedonhakujärjestelmien evaluoinnin erikoispiirteet ja INEX XML dokumentointistandardina XML-dokumentin rakenne, DTD ja XML-skeemat XML-tiedonhaun erikoispiirteet The Iniative for the Evaluation of XML-retrieval INEX ja relevanssin kvantifiointi INEX:in relevanssiarvioiden tekotapa Kyselykielet XPath ja NEXI Tutkimusasetelma Tausta Tutkimuskysymykset Tutkimusasetelman valintoja Kyselyt ja niiden muodostama kuva INEX:in tutkimusasetelmasta Relevanssiarviot ja niiden muodostama kuva INEX:in tutkimusasetelmasta Johtopäätökset...58 Lähteet:... 62
4 1. Johdanto XML (Extensible Markup Language) yleistyy koko ajan kokotekstidokumenttien standardina. XML perustuu ideaan erottaa dokumenttien looginen rakenne niiden sisällöstä, mikä mahdollistaa tiedonhaun samaa aikaa sekä dokumentin sisältöön että rakenteeseen. Pitkään tiedonhaku XML-dokumenteista on tapahtunut dataorientoituneesti, jolloin käyttäjän on täytynyt tarkasti tuntea käytetyt rakenteet ja valita hakuavain oikeassa muodossa pystyäkseen hyödyntää järjestelmää. Käyttäjän pitäisi kuitenkin pystyä hakemaan tietoa tarvitsematta tuntea tarkemmin tiedonhakujärjestelmän toimintaa. Vasta viime vuosina XML-hakujärjestelmiin on alettu kehittää tällaista tiedonhakusuuntautunutta hakumahdollisuutta. (Gövert et al. 2006: 699.) Järjestelmien kehittäminen perustuu kykyyn arvioida jo olemassa olevia järjestelmiä. Vaikka XML-standardi on ollut käytössä jo vuodesta 1996, XML-tiedonhakujärjestelmien evaluointitutkimus on varsin uutta ja menetelmät melko kehittymättömiä. Vuonna 2002 XML-tiedonhakujärjestelmien evaluointia varten alettiin koota dokumenttikokoelmaa, elementtien relevanssiarvioita ja kehittää evaluoinnissa tarvittavia menetelmiä. Hanke sai nimekseen INEX (The Initiative for the Evaluation of XML-retrieval) ja hankkeen ensimmäinen evaluointikierros tehtiin vuonna 2002 (INEX'02), minkä jälkeen evaluointikierroksia on tehty joka vuosi. XML-tiedonhaun perusperiaate on pyrkiä hyödyntämään sekä dokumenttien sisältöä että rakennetta tiedonhaussa. Kokonaisten dokumenttien palauttamisen sijaan on usein tarkoituksenmukaisempaa palauttaa laajan dokumentin sijasta vain yksi elementti, joka mahdollisimman tarkasti sekä samalla kuitenkin kattavasti vastaa käyttäjän kyselyyn. (Gövert et al. 2006: 699.) Tämän takia koeasetelman luomiseksi täytyy arvioida myös XML-dokumenttien elementtien relevanssia eikä pelkästään kokonaisia dokumentteja. Arvioitavat elementit eivät ole itsenäisiä ja toisistaan riippumattomia kuten perinteisessä tekstitiedonhaussa vaan ne muodostavat moninaisen ja osin päällekkäisen keskinäisen suhdeverkoston. XML-dokumenteista 1
5 koostuvan koeasetelman erikoislaatuisuuden takia on täytynyt luoda perinteisestä binäärisistä relevanssiarvioista poikkeava relevanssin arviointitapa, joka pureutuu sekä sisältöön että rakenteen arviointiin. (Piwowarski & Lalmas 2004: 361.) INEX:in tutkimusasetelmassa hyödynnetään kahta lähtökohtaa XML-tiedonhakuun eli sisältöorientoitunutta lähestymistapaa (Content only, CO) sekä sisältö- ja rakenneorientoitunutta lähestymistapaa. (Content and structure, CAS). Tämä työ keskittyy jälkimmäiseen lähestymistapaan, jossa haetaan tietoa XML-dokumenteista käyttäen hyödyksi XML-dokumenttien rakennetta. Pitkään on arveltu, että kun käyttäjät määrittelevät kyselyssä tarkemmin, mistä osasta dokumenttia hakusana pitäisi löytyä eli tarkentavat kyselyä rakennevihjein, hakutuloksen tarkkuus kasvaa. Toistaiseksi INEX:in tutkimusasetelmassa tehdyissä rakenneorientoituneen lähestymistavan testauksissa tarkkuus ei kuitenkaan ole kasvanut odotetulla tavalla ja syytä on etsitty itse koeasetelmasta. Syyksi on epäilty kyselyiden tekoon sekä relevanssiarviointiasetelmaan liittyviä ongelmia. (Kamps et al. 2005: 4.) Tämän Pro gradu -työn tarkoitus on selvittää, ovatko relevanssiarviot ristiriidassa kyselyiden rakenne-ehtojen kanssa ja minkälaisia vaikutuksia tällä on tutkimusasetelmalle. Varsinaiset tutkimuskysymykseni ovat seuraavat: 1. Minkälainen on kyselyiden muodostama kuva käyttäjän tiedontarpeesta suhteessa INEX:in XML-rakenteen käyttöön ja CAS-kyselyiden rakenteeseen ja mahdollisuuksiin? 2. Minkälaisia saantikantoja relevanssiarviot muodostavat ja miten nämä vaikuttavat mahdollisesti evaluointitutkimuksen tuloksiin? Näihin kahteen kysymykseen yritän pureutua. Tarkastelen tilastollisesti INEX 03:n ja INEX 04:n kyselyitä sekä relevanssiarvioita ja pyrin sitä kautta rakentamaan tutkimusasetelman implisiittisesti olettamaa kuvaa käyttäjän tiedontarpeesta sekä sitä, missä määrin relevanssiarvioiden häilyvyys vaikuttaa saantikantoihin. Tutkimusasetelmasta löytyy tarkemmin kappaleessa viisi. Aloitan kuitenkin ensin tarkastelemalla evaluointitutkimusta laajemmassa viitekehyksessä sekä sitä, mitä relevanssi on ja mitä relevanssin käsite merkitsee 2
6 tiedonhakututkimukselle. Tämän jälkeen luon lyhyen katsauksen siihen, mitä XML on ja mitä ominaispiirteitä ja ongelmia XML-rakenne aiheuttaa tiedonhakuun sekä esittelen INEX-hankkeen tiedonhakukokoelmaa ja sen relevanssiarvioinnin periaatteita. Tämän jälkeen vasta pääsen itse tutkimusasetelmaan ja sen tuloksiin. 3
7 2. Tiedonhakujärjestelmien evaluointitutkimus Luon aluksi lyhyen katsauksen tiedonhakujärjestelmien evaluointitutkimuksen kenttään yleisellä tasolla. Tarkoitus on rakentaa tutkimustraditiota tarkastelemalla jonkinlaista taustaa oman työni keskeisiin tutkimusongelmiin sekä niihin mahdollisesti aikaisemmin esitettyihin ratkaisuihin. Kappaleessa 2.1. kerron evaluointitutkimuksesta yleensä, määrittelen keskeisiä käsitteitä ja selvitän vähän tarkemmin tämän työn kannalta keskeisen laboratoriotestauksen asemaa ja menetelmiä. Kappaleessa 2.2. kerron evaluontitutkimuksen kehityksestä pääpiirteittäin ja esittelen muutaman keskeisen evaluointiprojektin sekä niiden merkityksen tutkimukselle. Lopuksi kappaleessa 2.3. esitän yleisimpiä laboratoriomallin evaluointitutkimusta vastaan esitettyjä argumentteja sekä pohdin lähinnä kirjallisuuden pohjalta laboratoriotutkimuksen oikeutusta ja paikkaa Laboratoriomallin evaluointitutkimus Tiedonhakututkimus (IR, Information Retrieval) tutkii informaatiota sisältävien kohteiden esittämistä, varastoimista, järjestämistä ja saatavuuden varmistamista (Salton & McGill 1983: 1). Tiedonhaun evaluointitutkimukseksi voidaan kutsua varsin erilaisiin tutkimusasetelmiin perustuvia tarkastelutapoja, joissa päämääränä on arvioida tiedonhaun kehittämiä hakujärjestelmiä, hakuja, tietokantoja, hakijoita tai tiedonhaun kustannuksia. Suurin osa tehdystä tutkimuksesta keskittyy kuitenkin kahteen ensiksi mainittuun näkökulmaan (Järvelin 1995: 49, Saracevic 1995: 138 ). Evaluointitutkimus jaetaan yleensä käyttäjä- ja järjestelmäkeskeiseksi tutkimukseksi sekä näkökulman perusteella usein vielä kuudeksi eri tasoksi seuraavasti: 4
8 1. Järjestelmän rakennustaso 2. Syötetaso 3. prosessointitaso 4. Tulostetaso 5. Käyttäjätaso 6. Sosiaalinen taso ( Saracevic 1995: 140). Alan näennäisestä laaja-alaisuudesta huolimatta suurin osa tehdystä evaluointitutkimuksesta on ollut järjestelmäkeskeistä prosessointitason algoritmeja tai hakutekniikoita arvioivia kontrolloituja kokeita jopa siinä määrin, että evaluointitutkimuksella tyypillisimmillään ymmärretään tarkoitettavan juuri tämänkaltaista tutkimusotetta. Järjestelmätasolla evaluointi keskittyy laitteiston ja ohjelmiston piirteisiin, kuten virheettömyyteen, nopeuteen, ylläpidettävyyteen, joustavuuteen jne. sekä järjestelmän kykyyn hakea haluttuja dokumentteja. Kaksi keskeisintä mitattavaa suuretta ovat järjestelmän suorituskyky (effiency) ja hakutehokkuus (effectiveness). Järjestelmän suorituskyvyllä tarkoitetaan järjestelmän vastausaikaa, teknistä toimivuutta sekä järjestelmien kattavuutta. Toinen näkökulma on haun onnistuminen käyttäjän kannalta. Käyttäjälle olennaisinta on se, kuinka hyvin järjestelmät pystyvät vastaamaan hakijan tekemiin kyselyihin, jolloin puhutaan hakutehokkuudesta. (Saracevic 1995: ) Tämä seminaarityö keskittyy järjestelmätason evaluointiin nimenomaan hakutehokkuuden kannalta. Evaluointitutkimusta tehdään sekä tutkittavaa ongelmaa varten rakennettujen koeasetelmien avulla eli laboratoriotestauksena sekä interaktiivisena todellisten järjestelmien käyttäjätestauksena. Suurin osa järjestelmäkeskeisestä evaluointitutkimuksesta tapahtuu yhä laboratoriotestauksena, jossa koe koostuu seuraavista kontrolloiduista osa-alueista (Robertson et al 1982: 1 15, Hull 1993: 329, Vorhees 2002: ): 1. Dokumenttikokoelma: kokoelma dokumentteja, joissa kyselyt tehdään 2. Hakutehtävät: dokumenttien pohjalta tehdyt hakutehtävät, joista kyselyt muotoillaan 3. Relevanssiarviot: joukko ihmisiä käy dokumentit läpi ja arvioi, vastaavatko ne hakutehtävien aihetta 5
9 4. Mittaristo: perustuu relevanttien ja epärelevanttien dokumenttien samankaltaisuuden arviointiin suhteessa hakutehtävään, esim. saantitarkkuus-käyrä. 5. Tilastolliset testit, joilla arvioidaan hakutulosten erojen tilastollista merkitsevyyttä Tämänkin työn lähestymistapa perustuu esitetynkaltaiseen laboratoriomallin koeasetelmaan. Laboratoriomallin evaluointitutkimuksessa keskeinen järjestelmien, algoritmien tai hakutapojen tuloksellisuutta erotteleva tekijä on tutkimusmateriaaliin sopivan tehokkaan mittariston valinta. Klassisessa laboratoriotutkimuksessa tiedonhaun tuloksellisuuden mittaamiseen on käytetty saantia ja tarkkuutta tai niistä johdettuja mittareita ja nämä mittarit ovat yhä edelleen yleisesti käytössä (Raghavan et al. 1989: 205). Tarkkuus (precision) kuvaa sitä, kuinka suuri osuus hakutuloksesta koostui relevanteista dokumenteista; saanti (recall) saanti taas sitä, kuinka suuri osa tietokannan relevanteista dokumenteista onnistuttiin löytämään. Perinteinen saannin ja tarkkuuden käyttäminen tuloksellisuuden mittaamiseen vaatii tiedon siitä, mitkä dokumentit ovat relevantteja mihinkin kyselyyn eli relevanssiarvioiden tekoa. Näiden kahden mittarin takana voidaan nähdä implisiittinen oletus keskivertokäyttäjän tarpeesta löytää paljon relevantteja dokumentteja ja samalla pystyä jättämään kaikki epärelevantit sivuun. (Wallis & Thom 1995: 274.) Kaikissa tapauksissa tämä oletus keskivertokäyttäjän tiedontarpeesta ei kuitenkaan kuvaa käyttäjän todellista tilannetta: Käyttäjälle voi riittää hakutulokseksi vain muutama hyvin relevantti dokumentti eikä saannilla ole tällöin mitään merkitystä tai käyttäjä voi päinvastoin haluta saada käsiinsä kaikki mahdolliset relevantit dokumentit aiheesta eli toivoa absoluuttista saantia välittämättä tarkkuudesta. (Salton 1992: 442, Wallis & Thom 1995: 273.) Tästä huomiosta herääkin kysymys, kuinka saannin ja tarkkuuden perusteella voidaan sanoa mitään siitä, kumpi hakujärjestelmistä A vai B on tehokkaampi. Perinteisesti tähän kysymykseen on vastattu niin, että järjestelmä A on tehokkaampi kuin B, jos jokaisessa saantipisteessä A:n tarkkuusarvo on suurempi kuin B:n. Jos tämä ei pidä paikkaansa, on laskettu valittujen saantitasojen tarkkuuksien keskiarvo ja järjestelmiä A ja B on vertailtu näiden keskiarvojen perusteella. (Raghavan et al.1989: 206.) 6
10 2.2. Evaluointitutkimuksen traditio Mielenkiinto tiedonhaun ja tallennuksen kysymyksiin heräsi 1940-luvulla pohdintoina siitä, kuinka ennustettuun tieteen ja tekniikan dokumenttien eksponentiaaliseen kasvuun voitaisiin vastata tietoteknisin ratkaisuin (mm. Bush 1945: ). Heti 1950-luvulla ensimmäisten tiedonhakujärjestelmien prototyyppien kehittämisen yhteydessä syntyi tarve luoda menetelmiä aikaansaatujen järjestelmien ja tekniikoiden arviointiin (Saracevic 1995: 138). Vuoden 1958 Washington International Conference on Scientific Information -konferenssia on pidetty evaluointitutkimuksen varsinaisena lähtölaukauksena, sillä konferenssissa tuotiin esiin tiedonhaku-tutkimuksen keskeiset käsitteet, alustavasti seuraavan vuosikymmenen keskeiset tutkimusongelmat ja pohdintaa niiden testausmahdollisuuksista tietokonetta apuna käyttäen (Sparck- Jones 1981: 218, Mizarro 1997: 815). Ensimmäiset yritelmät järjestelmäevaluointiin tehtiin jo 1950-luvun lopulla, mutta vasta 1960-luvun alussa saatiin tarpeeksi rahoitusta laajamittaisempaan järjestelmäevaluointihankkeeseen (Salton 1992: 441). Tunnetuin ensimmäisistä evaluointiprojekteista oli Western Reserve yliopiston Cyril Cleverdonin johdolla toteutetut Cranfield I ja II nimellä tunnetut laboratoriotutkimukset Iso-Britanniassa 1950-luvun lopulta 1960-luvun puoliväliin asti (Sparck- Jones 1981: 2 3). Cranfield II:n laboratoriokokeiden metodologia on tarkasti dokumentoitu ja sitä pidetään yleisesti ns. klassisen laboratoriomallin evaluoinnin perustana, jonka periaatteiden mukaisesti suuri osa nykyisistäkin laboratoriotutkimuksista yhä rakennetaan (mm. Sparck-Jones 1981: 2 3, Keen 1992: 491, Spinck et al. 1998: 599). Tutkimuksissa vertailtiin indeksointikielten hakutehokkuutta 1400 dokumentin kokoelmassa. Dokumenttien käsittelemän aihealueen asiantuntijat rakensivat dokumentteihin kyselyt ja alan opiskelijat tekivät relevanssiarviot kustakin dokumentista. Näin saatiin selville kuhunkin kyselyyn liittyvät relevantit dokumentit. Koeasetelma oli melko yksinkertainen, kuhunkin eri indeksointikieltä käyttävään järjestelmään tehtiin samat kyselyt ja kyselyiden tuloksellisuutta vertailtiin saannin ja tarkkuuden keskiarvojen avulla. Kokeissa havaittiin monia keskeisiä tiedonhaun ilmiöitä, kuten saannin ja tarkkuuden käänteinen suhde: kun saanti kasvaa, tarkkuus pienenee ja päinvastoin. Vaikka Cranfieldin kokeita on kritisoitu paljon, ne loivat pohjan laboratoriotutkimukselle. (Robertson 1981: ) 7
11 Toinen tunnettu evaluointiprojekti oli 1980-luvulla Blairin ja Maronin (1985: ) johtama IBM:n STAIRS-projekti (Storage and Information Retrieval System), jossa testattiin toiminnassa olevaa kaupallista tiedonhakujärjestelmää. Kyse ei siis ollut laboratoriokokeesta, vaikka menetelmät olivatkin osin Cranfieldin testeistä perittyjä vaan koeasetelma pyrittiin saamaan vastaamaan mahdollisimman paljon todellista tiedonhakutilannetta todellisine käyttäjineen ja todellisine tiedontarpeineen. Testin hakutehtävät muotoilivat itse käyttäjät, kaksi juristia, todellisten oikeusjutuista nousseiden tiedontarpeidensa pohjalta laajasta dokumentin tietokannasta ja samat juristit tekivät myös dokumenttien relevanssiarviot. Oikeusavustajat muotoilivat hakutehtävien pohjalta varsinaiset kyselyt ja suorittivat ne. Koehenkilöt toivoivat löytävänsä vähintään 75 prosenttia kaikista relevanteista dokumenteista ja 100 prosenttia erittäin relevanteista dokumenteista, mutta todellisuudessa tulokset osoittautuivat huomattavasti huonommiksi kuin odotettiin: vain noin 20 prosenttia relevanteista dokumenteista ja 48 prosenttia erittäin relevanteista dokumenteista löydettiin. Tästä tehtiin johtopäätös, että laboratoriotestaus ja interaktiivinen koeasetelma eroavat toisistaan perustavalla tavalla. (Salton 1992: 447.) 1990-luvun alusta lähtien tärkein ja tunnetuin evaluointiprojekti on ollut Yhdysvaltojen puolustustutkimuslaitoksen DARPA:n rahoittama ja NIST:in (National Institute of Standards and Technologyn) koordinoima jokavuotinen konferenssi TREC (The Text Retrieval Conference). Konferenssin tarkoitus on ollut alusta lähtien kehittää kansainvälinen tiedonhaun evaluoinnin infrastruktuuri tutkijayhteisön käyttöön tarjoamalla yhteinen laaja testikokoelma ja yhteiset menetelmät sekä julkaisufoorumi tutkijoiden käyttöön. (Harman 1993: ) Vuodesta 1992 lähtien joka vuosi on järjestetty uusi evaluointikierros, johon on liittynyt kyselyiden rakentaminen, relevanssiarviointien teko, hakuajot ja artikkeleiden julkaiseminen, joihin kaikkiin kukin osallistuva tutkijaryhmä on ottanut osaa. Vuonna 2003 TREC:iin osallistui 93 tutkijaryhmää 22 maasta. TREC:in dokumentti-kokoelma eroaa huomattavasti aikaisemmista evaluointiin käytetyistä dokumenttikokoelmista siinä, että kokoelma on varsin suuri (sisältää yli miljoona dokumenttia), kyselyitä on varsin paljon (150), dokumentit ovat pidempiä kokotekstejä kuin aikaisemmissa testauksissa ja sekä kyselyt, dokumentit että tulokset ovat laajan tutkijayhteisön käytettävissä. Sen sijaan mittaristona on käytetty lähinnä perinteisiä aikaisemmista tutkimuksista tuttuja saantia ja tarkkuutta. (Sparck-Jones 2000: ) TRECkonferenssi sisältää erillisiä yhteisiä tutkimuksen painopistealueita eli TRACK:ejä, 8
12 joiden tarkoituksena on keskittyä tietynlaisen tutkimuksen tarpeisiin, kuten muun muassa kieltenväliseen tiedonhakuun tai interaktiiviseen tiedonhakuun. (Harman 1993: ) 2.3. Laboratoriomallin evaluointitutkimuksen kritiikki Laboratoriomallin tutkimuksen yleisin kritiikki keskittyy kahteen seikkaan: todellisten käyttäjien unohtamiseen koeasetelman ulkopuolelle ja relevanssiarvioiden epämääräisyyteen. Käsittelen tässä kappaleessa lähinnä ensimmäiseksi mainittua ongelmaa, relevanssiarviointeihin liittyviä kysymyksiä käsitellään kappaleessa 3.3. Lopuksi esitän syitä siihen, miksi laboratoriotestausta kuitenkin jatketaan yhä luvun lopulta lähtien on alettu esittää ajatuksia siitä, että todellisia käyttäjiä täytyisi voida ottaa tutkimukseen mukaan ja mielellään jos mahdollista, käyttää todellisia tiedontarpeita hakujen perustana. Ensimmäisiä todellisiin käyttäjiin perustuvia laajamittaisia tutkimuksia on ollut edellä käsitelty STAIRS-projekti. Ajatuksena on, että laboratoriotestauksessa käyttäjiä korvaavat hakutehtävät eivät todellisuudessa vastaa todellisten käyttäjien tiedontarpeita eivätkä erillään tiedonhakutilanteesta tehdyt relevanssiarviot vastaa todellista käyttäjän arviota dokumentin relevanssista. Samalla tavoin hakujen ajaminen tietokantaan ei vastaa todellista tiedonhakutilannetta. (Ingwersen 1992: 80, Salton 1992: 443.) Laboratoriomallin evaluoinnin tuloksista eivät siis ole suoraan yleistettävissä todellisiin tiedonhakutilanteisiin, sillä ne eivät ota huomioon käyttäjän kognitiivisia malleja tiedontarpeesta ja näiden mallien kehittelyä suhteessa järjestelmään. (Ingwersen 1992: 80.) Tähän argumenttiin on tyhjentävästi varsin hankala vastata. Laboratoriokokeessa järjestelmän eri muuttujia voidaan kontrolloida tehokkaammin kuin interaktiivisessa tutkimuksessa. Tiedonhakujärjestelmien käytännön kehitystyössä laboratoriotestaus on havaittu hyödylliseksi ja toimivaksi menetelmäksi (Vorhees 2000: 698). Interaktiiviseen evaluointiin liittyy monia ongelmia, mm. kokeen toistettavuus, hankala järjestettävyys ja kalleus (Readings in information retrieval 1996: 169). Tosin Ingwersen (1992: 82) itsekin kritisoidessaan perinteistä laboratoriomallia toteaa, että 9
13 sillä on kuitenkin paikkansa tutkimuksessa ja samalla kannalla on myös moni muu tiedonhaun tutkija (Keen 1992: 491). 10
14 3. Relevanssin käsitteestä Evaluointitutkimus tarvitsee jonkinlaisen tavan arvioida, vastaavatko kysely ja vastauksena tarjottu dokumentti toisiaan. Tämän vastaavuuden ilmaisemiseen on käytetty käsitettä relevanssi. Jo ensimmäisiä tiedonhakujärjestelmiä kehitettäessä luvulla päämääräksi määriteltiin relevantin tiedon löytyminen tiedonhaku-järjestelmän avulla. (Mizarro 1997: ) Relevanssin käsite on helppo ymmärtää intuitiivisesti, mutta vaikka käsite on keskeinen tiedonhaussa ja informaatiotutkimuksessa laajemminkin, sitä on vain harvoin määritelty tyhjentävästi ja täsmällisesti eikä määritelmistä ole päästy vieläkään yksimielisyyteen (mm. Saracevic 1975: 324, Robertson & Hancock-Beaulieu 1992: 457, Froehlich 1994: 124, Park 1994: 135, Järvelin 1995: 42, Mizzarro 1997: 810). Se että relevanssin tyhjentävä määrittely on osoittautunut hankalaksi tehtäväksi, ei kuitenkaan tarkoita sitä, etteikö relevanssin käsitteen sisällössä olisi löydetty jonkinlaista konsensusta. Katsauksessaan relevanssin käsitteen käytöstä varhaisemmassa kirjallisuudessa Saracevic (1975: 328) luo jäsennyksen esitettyjen relevanssin määritelmien yhtäläisyyksistä seuraavanlaisena yleisenä muotoiluna: Relevanssilla tarkoitetaan A:ta B:stä C:n ja D:n välisessä suhteessa, jota määrittelee E. Seuraava tiedonhakututkimuksen julkaisuissa paljon lainattu kaavio esittää muotoilun muuttujien paikalle eri määritelmissä esiintyneitä käsitteitä: Kuva 1. Saracevicin (1975: 328) relevanssimäärittelykaavio 11
15 Vaikka malli on varsin vanha, myös myöhemmin esitetyt määritelmät tuntuvat mahtuvan hyvin tämän kaavion puitteisiin Yksi vai viisi relevanssia? Jo 1950-luvun lopulta lähtien huomattiin, että relevanssissa oli mitä ilmeisimmin kysymys monipolvisesta, yhteen määritelmään sopimattomasta käsitteestä. Vuonna 1958 Brian C. Vickery erotteli kaksi erilaista relevanssityyppiä: käyttäjärelevanssin (subjektiivinen, käyttäjäkeskeinen relevanssi) ja aiherelevanssin (objektiivinen, järjestelmäkeskeinen relevanssi) (Mizarro 1997: 816). Tämä kahtiajako on jäänyt elämään tiedonhakututkimukseen. Järjestelmäkeskeinen näkökulma käsittelee relevanssia staattisena ja objektiivisena käsitteenä kun taas käyttäjäkeskeinen näkökulma pitää relevanssia subjektiivisena henkilökohtaisena käyttäjän kokemuksena, johon liittyy kognitiivista työskentelyä (Swanson 1986: ). Keskustelu on sittemmin laajentunut tämän dualistisen käsityksen taakse, mutta Vickeryn kahtiajako tuntuu jääneen elämään informaatiotutkimukseen pysyvästi. Saracevic (2006: 37) on lähestynyt relevanssia selkeän kahtiajaon ulkopuolelta sen mukaan, miten relevanssi ilmenee tiedonhakutilanteissa. Hän on eritellyt viisi erilaista relevanssin ilmenemismuotoa: 1. Järjestelmä- eli algoritmirelevanssi mittaa kyselyn ja dokumentin välistä suhdetta 2. Aiherelevanssi kuvaa hakutehtävän ja dokumentin välistä suhdetta 3. Kognitiivisella relevanssilla tarkoitetaan tiedonhakijan kognitiivisen tilan ja löydettyjen dokumenttien välistä suhdetta 4. Tilannerelevanssi kuvaa tilanteen, tehtävän tai ratkaistavan ongelman ja löydettyjen dokumenttien välistä suhdetta. 5. Motivaatio- eli affektiivinen relevanssi on käyttäjän tavoitteiden, aikomusten tai motivaation ja haetun informaation välinen suhde. Kysymys on siis relevanssin ilmenemismuodoista erilaisissa tilanteissa ja tarpeissa, ei niinkään täysin eri käsitteistä. Nämä ilmenemismuodot Saracevicin mukaan esiintyvät 12
16 yhdessä ja vaikuttavat toisiinsa jatkuvasti: Aiherelevanssiin viitataan useimmin löydettyjen dokumenttien eli järjestelmärelevanssin perusteella ja samoin kognitiivinen relevanssi ja tilannerelevanssi riippuvat muista relevanssin ilmenemismuodoista. Taustalla tiedonhakuun vaikuttaa affektiivinen relevanssi. (Saracevic 2006: 37.) Viimeisimmän katsauksen relevanssin historiaan on tehnyt Mizarro (1997: ). Samoin kuin Saracevic parisenkymmentä vuotta aikaisemmin Mizarro on luonut yleisen mallin kirjallisuuden relevanssin käsitemääritelmistä, mutta hän on ainakin jossain määrin yrittänyt ottaa huomioon relevanssin eri ilmenemismuodot tosin ei samassa laajuudessa kuin Saracevic on ne määritellyt. Mizarro (1997: ) esittää, että yleisemmin määritelmät kuvaavat relevanssia kahden eri käsitteen välisenä suhteena. Ensimmäinen käsite on yksi tai useampi seuraavista: (i) dokumentti, eli fyysinen kokonaisuus jonka tiedonhakija tiedonhakuprosessin aikana löytää, (ii) surrogaatti, eli dokumenttia tietokannassa edustava merkintä kuten tekijä, nimeke, asiasanalista jne. tai (iii) informaatio, jonka tiedonhakija saa luettuaan dokumentin. Toinen käsite taas on yksi tai useampi seuraavista käsitteistä: (i) ongelma, jonka takia tietoa haetaan, (ii) tiedontarve, eli käyttäjän mielessä oleva representaatio tiedonhaun takana olevasta ongelmasta, (iii) hakupyyntö, eli tiedontarpeen kielellinen esitys tai (iv) kysely eli järjestelmän kielelle muotoiltu hakupyyntö. Kumpikin käsiteryhmä voidaan nähdä kolmessa eri tasossa, joita ovat: (i) hakuaihe, eli aihepiiri josta tiedonhakija on kiinnostunut (ii) tehtävä, johon tiedonhaku liittyy (iii) konteksti pitäen sisällään kaikki hakuaiheen ja tehtävän ulkopuoliset tiedonhakutilanteeseen vaikuttavat seikat. Mizarro on esittänyt tämän määritelmänsä kolmiulotteisena kuvana, joka selventää muuten hyvin erikoista käsitemäärittelyä. Mizarron kaavio havainnollistaa hyvin relevanssin käsitettä suhteena ja erilaisina dimensioina. 13
17 Kuva 2. Mizarron (1997: 811) relevanssimäärittelyn osa-alueet 3.2. Relevanssin tasot Klassisessa laboratoriotestauksessa dokumenttien relevanssiarviot on tehty binäärisinä: dokumentti on joko relevantti tai epärelevantti sen mukaan, vastaako se hakutehtävää. Yhä edelleen suuri osa evaluointitutkimuksesta tehdään binääristen relevanssiarvioiden pohjalle siksi, että perinteisesti tiedonhaun laboratoriotutkimuksessa käytetyt mittarit saanti ja tarkkuus perustuvat binääriseen relevanssiin (Greisdorf 2003: 405) luvusta lähtien on kuitenkin esitetty ja testattu binääriselle relevanssiarvioinnille vaihtoetoja, jopa yksitoistatasoista relevanssia luvulla moniportaiseen relevanssiarviointiin on vakiintunut yleisimmäksi kolme- tai nelitasoinen skaala. (Borlund 2003: ) 14
18 Miksi sitten käyttää monimutkaisempaa arviointitapaa kun asiasta voisi selviytyä yksinkertaisestikin? Tähän on lähinnä kaksi syytä. Tekemällä dokumenttien relevanssiarvioista moniportaisia voidaan lisätä testikokoelman kykyä erotella yksityiskohtaisemmin toisistaan testattavia tiedonhakumenetelmiä tai järjestelmiä (Vorhees 2000: 697). Samoin loppukäyttäjälle voi olla hyödyllistä valita, haluaako hän kaikki dokumentit vaiko vain kaikkein relevanteimman 10 prosentin otoksen dokumenteista. Amanda Spinkin, Howard Greisdorfin ja Judy Batemanin (Spink et al. 1998: ) tutkimuksessa havaittiin, että riippuen tiedonhakijan tiedontarpeesta ja tiedonhaun vaiheesta hän valitsi eri tavoin hyvin relevantteja tai vain marginaalisesti relevantteja artikkeleita. Moniportaisten relevanssiarvioiden hyödyllisyyttä indikoi myös Vakkarin ja Sormusen (2004) testi, jossa TREC:in alun perin binäärisesti relevanssiarvioidut dokumentit arvioitiin uudestaan neliportaisen relevanssin avulla, minkä jälkeen koehenkilöitä pyydettiin tekemään hakuja materiaalista ja tunnistamaan relevantit dokumentit epärelevanttien joukosta. Huomattiin, että TREC:in alun perin relevanteista, mutta uudestaan moniportaisessa relevanssiarvioinnissa erittäin relevanteiksi määritellyistä dokumenteista käyttäjät pystyivät tunnistamaan lähes kaikki, mutta vain puolet marginaalisesti relevanteista dokumenteista. (Vakkari & Sormunen 2004: ) Tämä osoittaisi, että käyttäjän kannalta relevanssin asteella on melko suuri merkitys, mitä ovat osoittaneet myös muutamat muut käyttäjälähtöiset tutkimukset Relevanssiarvioista Kuten edellä jo esitettiin, evaluointitutkimuksen koeasetelma pohjautuu seuraavaan: Dokumenttikokoelmasta tehdään kirjalliset hakutehtävät (topic) ja kaikki kokoelman dokumentit arvioidaan sen mukaan, vastaavatko ne hakutehtäviä. Näin muodostetaan jokaiselle dokumentille relevanssiarvio. Varsinaiset haut tehdään automaattisesti täsmäyttämällä hakutehtävän pohjalta muodostetut kyselyt dokumentteihin, minkä takia laboratoriomallin mittausmenetelmät eivät pysty arvioimaan muita relevanssin dimensioita kuin aiheperusteisuutta (Saracevicin aiherelevanssi) ja järjestelmän täsmäytyskykyä (Saracevicin järjestelmärelevanssi). Tiedonhaun lähtökohtien kannalta on huomioitava, että hakutehokkuuden (effectiveness) mittaamiseen aiheperusteisuus on järkevämpi lähestymistapa. Se on relevanssin muodoista ainoa, jonka on nähty sopivan 15
19 tiedonhaun laboratoriotutkimuksiin (Kekäläinen 1999: 76) (ks. Saracevicin aiherelevanssi (Saracevic 2006: 37). Vaikka itse täsmäytys on aiheperusteinen, relevanssiarvioiden tekemisessä voidaan nähdä vaikuttavan aiherelevanssin lisäksi samaa aikaa useamman Saracevicin relevanssin manifestaation toisiinsa liittyneenä niin tilannerelevanssin, affektiivisen relevanssin kuin kognitiivisen relevanssinkin. Pia Borlund on esittänyt laboratoriomallin relevanssiarviointiprosessia erittelevän kaavion (ks. kuva 3.), jossa tulee hyvin esiin relevanssiarvioinnin monimuotoisuus. Kuva 3. Kuvaus relevanssiarvioinnin prosessista perinteisessä laboratoriomallin tutkimuksessa (Borlund 2000: 29) Borlundin mallissa esitetään keskeinen relevanssiarviointiin liittyvä ongelma. Relevanssiarvioitsijan täytyy tuntea hakutehtävät (kuvassa topic) varsin hyvin voidakseen tehdä arviointia eikä pelkkä aiheperusteisuus riitä. Laboratoriotutkimuksessa perinteisesti oletetaan arvioitsijan tekevän arviointinsa varsin objektiivisesti aiheperusteisuuden avulla (kuvassa IT = intellectual topicality). Tämä ei kuitenkaan ole mahdollista aiheperusteisuuteen liittyvän subjektiivisuuden takia. Aiheperusteinen arviointi tapahtuu Borlundin mukaan kognitiivisen relevanssin välityksellä (kuvassa P = pertinence, vastaa Borlundin mukaan Saracevicin kognitiivista relevanssia). Kognitiivisen relevanssin Borlund määrittelee tarkoittavan informaatio-objektien (kuvassa O = Information Object) ja arvioitsijan hakutehtävän perusteella ymmärtämän tiedontarpeen välillä olevaa relevanssisuhdetta. Tämä suhde on hyvin subjektiivinen. (Borlund 2003: 916.) 16
20 Laboratoriomallin evaluointitutkimusta kohtaan on paljon esitetty kritiikkiä relevanssin käsitteen ja relevanssiarvioiden epämääräisyyden vuoksi. Vaikka laboratoriotestaus pyrkii eksaktiuteen mittauksissaan ja vertailtavien menetelmien tai järjestelmien puolueettomaan arviointiin, evaluointitutkimusta tuskin voidaan pitää puhtaasti eksaktina kvantitatiivisena tieteenä. Tämä johtuu siitä, että laboratoriotestaus perustuu inhimillisten arvioijien tekemiin subjektiivisiin relevanssiarvioihin, joiden luonne on ratkaisevasti erilainen kuin esimerkiksi insinööritieteiden fyysisten mittausten. (Ellis 1996: ) Relevanssiarvioissa on havaittu suurta variaatiota eri arvioitsijoiden välillä sekä samallakin arvioitsijalla riippuen ajankohdasta (Schamber 1994: 40 48, Harter 1996: 37 38). Kuinka näin subjektiivisiin relevanssiarvioihin perustuvaa tutkimusta voidaan pitää luotettavana? Tähän kysymykseen on perinteisesti tarjottu kahta vastausta. Evaluointitutkimuksen tarjoama testaus on osoittautunut hyödylliseksi tiedonhakujärjestelmiä kehitettäessä ja näin on ajateltu, että huolimatta variaatiosta tulokset ovat sovellettavissa käytännön kehitystyöhön. Toisaalta on havaittu, että vaikka relevanssiarviot vaihtelevat, vaihtelu ei ole niin suurta että se vaikuttaisi evaluointitulokseen. Vaihtelua on tarkasteltu sekä pienissä kokoelmissa tehtävissä tutkimuksissa että TRECin laajassa testikokoelmassa. (Lesk & Salton 1969: , Cleverdon et al. 1968: 15, Vorhees 2000: 697.) 17
21 4. XML-tiedonhakujärjestelmien evaluoinnin erityispiirteet ja INEX Miksi XML-dokumenteista tehtävää tiedonhakua varten on täytynyt kehittää omia menetelmiä ja täysin oma tutkimusympäristö testaukseen; eikö XML-tiedonhakua olisi voinut testata esimerkiksi osana TREC:in kokoelmaa? Esittelen tässä kappaleessa ensin lyhyesti, mitä rakenteisella dokumentilla tarkoitetaan ja miten XML-tiedonhaku eroaa perinteisestä tekstiedonhausta. Tämän jälkeen siirrytään pohtimaan sitä, mitä vaatimuksia laboratoriotutkimukselle XML-dokumenttien rakenne aiheuttaa ja miten INEX:ssä on pyritty vastaamaan näihin ongelmiin ja erikoispiirteisiin. Lopussa käsitellään erityisesti relevanssiarviointiin liittyviä ongelmia. 4.1 XML dokumentointistandardina XML (Extensible Markup Language) on SGML:stä (Standard Generalized Markup Language, ISO 8879) johdettu yksinkertaistettu metakieli. Vuosikymmeniä suurten dokumenttikokoelmien hallinnassa oli hyödynnetty SGML:n rakenteen deklaratiivista merkitsemisen ideaa, mutta kieli oli varsin raskas ja sen tekstiä hyödyntävien järjestelmien rakentaminen työlästä ja virhealtista erityisesti verkossa. Kun World Wide Web Consortiumin (W3C) työryhmä alkoi kehitellä XML-merkintäkieltä vuonna 1996, tarkoituksena oli kehittää SGML:ää yksinkertaisempi ja yleiskäyttöisempi metakieli elektronisen julkaisemisen tarpeita varten. Vuonna 1998 W3C julkaisi ensimmäisen XML-suosituksen ja nopeasti sen käyttö laajeni varsinaisten tekstidokumenttien rakenteen kuvaamisen ulkopuolelle. Nykyisin sen avulla määritellään laajasti erilaisia tiedostomuotoja (esim. vektorigrafiikka, virtuaalimaailmat, verkkokaupan sovelmat ja muotoilukielet) ja sillä on nykyisin suuri merkitys rakenteellisen tiedon siirrossa Webissä. (Bray et al ) 18
22 XML ja SGML ovat molemmat metakieliä, joiden avulla voidaan formaalisti määritellä yksittäisiä rakennetta kuvaavia kieliä, merkintäkieliä. Yksi tällainen merkintäkieli on vuodesta 1992 lähtien määritelty HTML, joka versioon HTML 4.01 asti on kuvattu SGML-metakielellä ja versiosta XHTML 1.0 lähtien XML-metakielellä. (Ahonen-Mykä 2002: ) Kun HTML kuvailee dokumentin rakennetta ennalta sovitulla tavalla niin että käytettävissä olevien tunnisteiden (tags) sekä semantiikka että rakenne on määritelty kielessä ennalta, XML ei määrittele etukäteen valmiiksi tunnisteita eikä niiden semantiikkaa, vaan tarjoaa keinon määritellä joka kerta merkkaustavat ja niiden väliset semanttiset merkitykset uudestaan. Tällä tavoin XML mahdollistaa laajasti erilaisten dokumenttityyppien yhdistämisen ja välittämisen. (Walsh 1998.) XML-dokumentin rakenne, DTD ja XML-skeemat XML-dokumentin rakenne jaetaan kahteen osaan: loogiseen ja fyysiseen rakenteeseen. Kuvassa 4 esitetään esimerkki yksinkertaisesta XML-dokumentista. <?xml version= 1.0?> <osoitteet> <työntekijä alue = Espoo-Lohja > <nimi> <etunimi> Keijo </etunimi> <sukunimi> Kirjastonhoitaja< /sukunimi> </nimi> <osoite > <tyopaikka> Laurea </tyopaikka> <katu> Vanha maantie 9 </katu> <postinumero> </postinumero> <kaupunki> Espoo </kaupunki> </ osoite> <puhnumero> (123) </ puhnumero> < >keijok@laurea.fi</ > </työntekijä> </osoitteet> Kuva 4. Esimerkki XML-dokumentista. Looginen rakenne jäsentää dokumentin tunnisteiden merkitsemisen avulla. Kuvan neljä esimerkkidokumentissa esiintyvässä katkelmassa <kaupunki> Espoo </kaupunki> 19
23 alkutunniste <kaupunki> ja lopputunniste </kaupunki> rajaavat tekstistä yhden rakenneosan, jonka sisältö on Espoo. Alkutunnisteen ja lopputunnisteen rajaamia rakenneosia kutsutaan elementeiksi. Looginen rakenne määrittelee elementit, niiden hierarkian ja keskinäisen järjestyksen puurakenteisena mallina. Looginen rakenne edellyttää, että dokumentti on hyvin muodostettu (well-formed). Hyvin muodostunut dokumentti täyttää XML-määrityksen mukaiset ehdot ja sisältää täsmälleen yhden juurielementin, johon kaikki muut elementit sisältyvät ja jonka sisällä muut elementit ovat tasapainossa eli alkavat ja päättyvät saman vanhempielementin sisällä ja ovat tälle alielementtejä ja juurielementti näille kaikille ylielementti. XMLrakenteessa eritellään yleensä ali- ja ylielementin lisäksi lapsi- ja vanhempielementit. Lapsielementti on elementin sisältämä alielementti. Esimerkiksi seuraavassa rakenteessa: <kappale> <termi>kissa</termi> </kappale> elementti termi on elementin kappale lapsielementti, eli suoraan sen alapuolella. Vastaavasti kappale-elementti on termi-elementin vanhempielementti. Alielementti voi tarkoittaa samaa kuin lapsielementti, mutta se voi tarkoittaa myös syvemmällä hierarkiassa olevia elementtejä, esimerkiksi lapsenlapsielementtejä. (Bray et al ) Elementeillä voi olla attribuutteja, jotka kuvaavat elementteihin liittyvää metatietoa eli antavat lisätietoa elementistä. Esimerkissä elementillä työntekijä on attribuutti alue ja sillä arvo Espoo-Vantaa. (Ahonen-Mykä 2002: ) XML:n fyysinen rakenne koostuu entiteeteistä (entity). Entiteetit ovat ennalta määriteltyjä vakioita, joilla on nimi ja sisältö ja ne määritellään dokumenttityypin määrityksessä eli DTD:ssä. Entiteetit kuvaavat mm. dokumentin osia, kuvia, erikoismerkkejä, merkkijonoja, matemaattisia symboleita ja kirjoitusmerkkijärjestelmiä. XML-dokumentti muodostuu vähintään yhdestä entiteetistä, dokumenttientiteetistä. (Bray et al ) 20
24 Edelllä esitetyn kaltaisia XML-dokumentteja voi periaatteessa hyödyntää sellaisenaan, jos on käytettävissä ohjelmistoja jotka osaavat tulkita XML:n rakennetta. Metakielenä XML:ää ei kuitenkaan voi käyttää ilman sitä määrittelevää kielioppia, joka kertoo kielen rakenteen ja syntaksin. Yleisimpiä määrittelytapoja ovat DTD (Document type definition) ja XML-skeema -määrittelyt. Näistä DTD:t ovat alkuperäisiä jo SGML:stä periytyviä esitystapoja, kun taas XML-skeema -määrittelyjä on alettu käyttää vasta viime vuosina. (Ahonen-Mykä 2002: 22.) INEX:in dokumenteissa käytetään DTD:tä ja siksi keskityn seuraavassa tarkastelemaan DTD:tä tarkemmin. DTD voi olla sisäinen tai ulkoinen. Sisäinen DTD sijaitsee XML-dokumentissa hakasulkujen [ ] sisällä. Ulkoinen DTD sijaitsee omassa tiedostossaan XML-dokumentin ulkopuolella. Seuraavassa kuvassa 5 on esimerkki sisäisestä DTD:stä, joka on tehty kuvan 4 esimerkki XML-tiedostolle. <!DOCTYPE osoitteet [ <!ELEMENT osoitteet (tyontekija)> <!ELEMENT tyontekija (nimi, yritys, osoite, puhnumero, )> <!ATTLIST tyontekija alue (Espoo-Lohja, Hyvinkaa-Kerava, Vantaa-Porvoo )> <!ELEMENT nimi (etunimi, sukunimi)> <!ELEMENT etunimi (#PCDATA)> <!ELEMENT sukunimi (#PCDATA)> <!ELEMENT yritys (#PCDATA)> <!ELEMENT osoite (katu, postinumero, kaupunki, maa)> <!ELEMENT katu (#PCDATA)> <!ELEMENT postinumero (#PCDATA)> <!ELEMENT kaupunki (#PCDATA)> <!ELEMENT maa (#PCDATA)> <!ELEMENT puhnumero (#PCDATA)> <!ELEMENT (#PCDATA)> ]> Kuva 5. Esimerkki DTD-määrittelytiedostosta. Ensin määritellään juurielementti osoitteet, jonka perään sulkuihin luetellaan alielementti työntekijä. Sitten määritellään elementti työntekijä ja sen perään sen alielementtejä nimi, yritys, osoite, puhnumero ja . Sen jälkeen on määritelty elementin tyontekija atribuutti alue, joka voi saada arvot Espoo-Lohja, Hyvinkää-Kerava tai Vantaa- Porvoo. Elementit etunimi, sukunimi, yritys, katu, postinumero, kaupunki, maa, puhnumero ja eivät enää sisällä enää muita alielementtejä vaan niiden sisältö on merkkijono 21
25 (#PCDATA) eli Parsed Character Data. DTD-määrittelytiedosto sisältää siis määritellyn käytettävistä elementeistä, niiden attribuuteista sekä entiteeteistä. 4.2 XML-tiedonhaun erityispiirteet Perinteinen tekstitiedonhaku pyrkii täsmäyttämään käyttäjän hakusanat tekstinä esitettyjen dokumenttien sanoihin ja palauttamaan aiheen kannalta keskeiset dokumentit siinä järjestyksessä, kuinka hyvin niissä on edustettuna kyselyn sanat. XML-tiedonhaun perusperiaate sen sijaan on pyrkiä hyödyntämään sekä dokumenttien sisältöä että rakennetta tiedonhaussa. Tämän takia XML-tiedonhakujärjestelmien täytyy pystyä relevantin artikkelin löytämisen sijaan päättelemään, mikä artikkelin elementeistä vastaa parhaiten käyttäjän kyselyä. (Fuhr & Lalmas 2004: 46.) Evaluointitutkimuksen perinteisissä testikokoelmissa, kuten TREC:issä, käsitys dokumenteista evaluoinnin perustana voidaan nähdä johtavan seuraaviin implisiittisiin oletuksiin: 1. Dokumentteja käsitellään kiinteinä itsenäisinä suunnilleen samanpituisina kokonaisuuksina 2. Dokumenttien teksti on rakenteetonta 3. Kyselyitä käsitellään rakenteettomasti hakusanojen ja -lauseiden kokoelmana 4. Kyselyiden perusteella tehdään kullekin dokumentille omana kiinteänä yksikkönään relevanssiarvio 5. Hakutulokset esitetään lineaarisena listana (Gövert et al. 2003: 2 3). XML-kokoelmaa rakennettaessa nämä perinteisen evaluointikokoelman implisiittiset oletukset täytyy huomioida XML-dokumenttien toisenlaisen luonteen vuoksi. XMLtiedonhaussa haetaan sekä kokonaisia dokumentteja että dokumenttien elementtejä, joten elementtejä ei voida pitää samalla tavalla itsenäisinä yksiköinä kuin perinteisesti dokumentteja on pidetty. Myöskään elementtien erillisyyttä ei voida pitää itsestään selvyytenä. Elementtien koot vaihtelevat ja tämä täytyisi myös pystyä huomioimaan jollakin tavalla koeasetelmassa. 22
26 Perinteisessä tekstitiedonhaun järjestelmäkeskeisessä evaluointitutkimuksessa kriteeristönä käytetään relevanssia (yleensä binääristä), mittoina saantia ja tarkkuutta ja arvioinnin välineenä valmiita kokoelman kasaamisen yhteydessä tehtyjä relevanssiarvioita. Koska XML-dokumenttien ominaisuudet tiedonhaussa poikkeavat kuitenkin perinteisten tekstidokumenttien ominaisuuksista niin paljon, on täytynyt kehittää uusia mittoja ja tapoja arvioida relevanssia. Palautettaessa elementtejä tulisi elementtien olla mahdollisimman syvällä dokumenttirakenteessa eli mahdollisimman spesifejä aiheen kannalta, mutta samalla niiden tulisi olla kuitenkin tyhjentäviä käyttäjän tiedontarpeeseen nähden (Gövert et al. 2003: 1). Perinteiset tiedonhakujärjestelmät palauttavat kokonaisia dokumentteja ja dokumentteihin liittyy ajatus siitä, että ne ovat yksittäisiä ja erillisiä, toisistaan riippumattomia kokonaisuuksia. Näin ei kuitenkaan ole XML-elementtien kohdalla, sillä ne liittyvät kiinteästi muihin saman juuren (tässä artikkelin) elementteihin sisällön ja rakenteen osalta. Ongelmana on, että hakutulokseen tulee sekä hierarkiassa ylempänä olevia että näiden sisällä olevia elementtejä. (Gövert et al. 2003: 3.) Perinteinen tapa esittää tulokset lineaarisena tuloslistana ei ole tarkoituksenmukaista silloin, kun kyseessä on pelkät elementit. Koska elementit eivät ole itsenäisiä vaan ne liittyvät kiinteästi toisiinsa, tuloslistaan saattaa tulla elementtejä eri dokumenteista niin, että elementit jotka ovat peräisin samasta dokumentista eivät ole peräkkäin tai missään järjestyksessä. Toistuvat kontekstivaihdokset listassa hämäävät käyttäjää. (Gövert et al. 2003: 3.) Saantikannassa olevat päällekkäiset elementit aiheuttavat ongelmia relevanssilajittelun suhteen, sillä saman elementin esittäminen ensin erillisenä ja toiseen kertaan sisällytettynä laajempaan ylielementtiin ei tuo käyttäjälle lainkaan lisää informaatiota, vaan ainoastaan lisään redundanssia. Lisäksi se vääristää evaluointituloksia. Tiedonhakujärjestelmän sekä testiasetelman täytyy pystyä poistamaan tämä päällekkäisyyteen liittyvä ongelma tai ainakin ottaa se huomioon. Näistä syistä XML-tiedonhaun laboratoriomallin evaluointitutkimusta ei ole voitu tehdä osana esim. TREC:in tutkimusasetelmaa vaan on täytynyt kehittää oma kokoelma ja menetelmät XML-tiedonhakututkimusta varten. 23
27 4.3. The Iniative for the Evaluation of XML-retrieval Iniative for the Evaluation of XML retrieval (INEX) on kansainvälinen vuonna 2002 perustettu XML-tiedonhaun evaluointitutkimukseen keskittyvä hanke. Hanketta vetää Norbert Fuhr Duisburg-Essenin yliopistosta Saksasta sekä Mounia Lalmas Queen Mary yliopistosta Lontoosta. Perustamisvuonna mukaan tuli 36 tutkimusorganisaatiota, vuonna 2007 osallistuvia organisaatioita oli jo yli 50; joka vuosi järjestetään uusi evaluointikierros, jossa osallistujat testaavat kehittämiään XML-tiedonhakuratkaisuja. (Lalmas 2005.) Keskeinen tavoite on ollut luoda XML-testiympäristö ja sopivat täsmäytysmenetelmät ja -käytänteet XML-tiedonhaun laboratoriomallin evaluointitutkimukselle aikaisempien suurten testikokoelmien kuten Cranfieldin ja TREC:in hengessä (ks. kappale 2.) (Trotman & Lalmas 2006: 58 71). INEX:in testikokoelma, kuten evaluointiympäristöt yleensä, muodostuu neljästä osasta: 1. dokumenttikokoelmasta 2. hakutehtävistä (topics) 3. kyselyiden perusteella tehdyistä relevanssiarvioista (assessments) 4. sekä mitoista. Dokumenttikokoelma koostuu IEEE Computer Societyn vuosina julkaistusta XML-muotoisesta 12 artikkelista ja 6 kokoelmajulkaisusta (transactions), jotka pitävät yhteensä sisällään noin 8 miljoonaa elementtiä. Yhdessä artikkelissa on keskimäärin XML-elementtiä ja elementissä on keskimäärin 6.9 alielementtiä. (Fuhr & Lalmas 2003: 46.) Kaikki kokoelman dokumentit on merkattu yhden yhteisen DTD:n perusteella. Tyypillisen INEX-dokumentin rakenne näkyy kuvassa 6. Dokumentti muodostuu artikkelin alkuosasta (front matter) <fm>, artikkelin rungosta (body) <bdy> ja lopputiedoista (back matter) <bm>. Artikkelin alkuosa pitää sisällään artikkelia koskevan metadatan kuten artikkelin nimen (title) <ti>, kirjoittajan (author) <au>, julkaisutiedot ja abstraktin (abstract) <abs>. Artikkelin runko taas koostuu artikkelin osioista (sections) <sec>, alaosioista (sub-sections) <ss1> ja ala-alaosioista (sub-sub-sections) <ss2>. Kukin näistä osioista alkaa osion otsikolla (section title) <st> ja sitä seuraa yleensä useampia kappaleita 24
28 (paragraphs)<p>. Lisäksi sisällöstä löytyy erilaisia muita merkattuja osioita, kuten viitteitä, taulukoita, kuvia, listoja sekä tietoa ulkoasusta (mm. italics <it>). Lopputiedot koostuvat bibliografiasta (bibliography) <bib> sekä artikkelin kirjoittajatiedoista. (Gövert & Kazai 2003: 5.) <article> <fm> <ti> IEEE Transactions on </ti> <atl>construction of </atl> <au> <fnm> John </fnm> <snm> Smith </snm> <aff> University of </aff> </au> </fm> <bdy> <sec> <st> Introduction </st> <p> </p> </sec> <sec> <st> </st> <ss1> </ss1> </sec> <bdy> <bm> <bib> <bb> <au> </au><ti>..</ti> </bb> </bib> </bm> </article> Kuva 6. Tyypillisen INEX-dokumentin rakenne (Gövert & Kazai 2003: 6) Dokumenttikokoelma on säilynyt perustamisvuodesta lähtien kutakuinkin samana, kyselyt sen sijaan tehdään joka vuosi uudet. Jokainen osallistuva organisaatio tekee omat ehdotuksensa soveltuviksi kyselyiksi sen mukaan, mitä he ajattelevat todellisten käyttäjien mahdollisesti haluavan kysyä. Lopuksi järjestäjät valitsevat sopivimmat ehdotetuista kyselyistä. 25
29 Hakutehtävä on tiedontarpeen kirjallinen kuvaus (INEX:issä topic). Kysely (query) on hakutehtävän pohjalta muotoiltu kirjallinen esitys, joka on hakujärjestelmän vaativassa syntaksissa ja kelpaa syötteeksi hakujärjestelmään. Hakutehtävää kohti voi periaatteessa olla useita erilaisia kyselyitä. Hakutehtäviä (topics) on kahdenlaisia sen mukaan, minkälaisia kyselyitä ne sisältävät: 1. Sisältökyselyitä (Content-only queries, CO), joissa ilmaistaan vain se, mitä informaatiota halutussa elementissä täytyy olla, jotta se valitaan tulokseksi kyselyyn. Se ei sisällä rakennetietoa siitä, minkä elementin sisältä haluttu informaatio pitäisi löytyä. Nämä kyselyt eivät käytä hyödykseen XMLrakennetietoa ja sikäli vastaavat perinteisiä IR-tekstitiedonhakukyselyitä. (Ks. Liite 1 ja 3.) 2. Sisältö ja rakennekyselyitä (Content and structure queries, CAS), jotka sisältävät tiedon sekä haettavasta sisällöstä että rakennetiedon siitä, minkä elementin sisältä tieto tulisi löytyä. Nämä kyselyt käyttävät hyväkseen XMLrakennetta. (INEX 03 Guidelines.) (Ks. Liite 2 ja 4.) CAS-kyselyiden tulkinnassa evaluointivaiheessa esiintyy kahta tapaa: tiukaaa CASkyselyn tulkintaa (SCAS) ja löyhää CAS-kyselyn tulkintaa (VCAS). Tämä tarkoittaa sitä, että hakukone tulkitsee CAS-kyselyn tietyllä tavalla ja tämä tapa on kerrottu järjestelmälle etukäteen. SCAS-tulkinnassa hakulause tulkitaan täsmäytettäväksi tiukasti niin, että vain ne elementit jotka vastaavat kyselyä annetaan vastaukseksi; VCAS-kyselyä tulkitaan löyhemmin. Löyhä tulkinta tarkoittaa sitä, että elementti palautettaan tuloksena kyselyyn silloin, jos hakusana löytyy rakenne-ehdoksi mainitun elementin kanssa samankaltaisista elementeistä, ei ainoastaan juuri kyselyssä mainitusta elementistä. (Mass & Mandelbrod 2003: 59.) Hakutehtävät (topics) muodostuvat yleensä neljästä pääosasta: 1. Hakutehtävän otsikosta (topic title), joka on lyhyt määrämuotoinen kuvaus sekä haettavasta sisällöstä että siitä, minkä rakenteen sisältä sisältö tulisi löytyä. 2. Hakutehtävän kuvauksesta (topic description), joka on yleiskielen yhdeksi tai kahdeksi lauseeksi puettu kuvaus hakutehtävästä. 3. Laajemmasta kuvailusta (narration), joka on yksityiskohtaisempi sanallinen kuvaus haettavasta aiheesta. 26
Moniarvoisen relevanssin hyödyntäminen XML-tiedonhakujen evaluoinnissa
Moniarvoisen relevanssin hyödyntäminen XML-tiedonhakujen evaluoinnissa Pro gradu -tutkielma Mikko Saari (67578) Tampereen yliopisto Informaatiotutkimuksen laitos 2006 TAMPEREEN YLIOPISTO Informaatiotutkimuksen
Simuloidun tehtävän vaikutus kyselyn muodostukseen: INEX 2004-hankkeen vuorovaikutteisen tiedonhaun tutkimuslinja
Simuloidun tehtävän vaikutus kyselyn muodostukseen: INEX 2004-hankkeen vuorovaikutteisen tiedonhaun tutkimuslinja Mervi Nurmela Tampereen yliopisto Informaatiotutkimuksen laitos Pro gradu tutkielma Marraskuu
Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)
Tiedonlouhinta rakenteisista dokumenteista (seminaarityö) Miika Nurminen (minurmin@jyu.fi) Jyväskylän yliopisto Tietotekniikan laitos Kalvot ja seminaarityö verkossa: http://users.jyu.fi/~minurmin/gradusem/
XML kielioppi. Elementtien ja attribuuttien määrittely. Ctl230: Luentokalvot Miro Lehtonen
XML kielioppi Elementtien ja attribuuttien määrittely Ctl230: Luentokalvot 11.10.2004 Miro Lehtonen Dokumenttien mallinnus Säännöt dokumenttityypeille 3Mahdollisten dokumenttirakenteiden määrittely Samassa
Moniulotteinen relevanssiarviointi Hannele Luomanen
Moniulotteinen relevanssiarviointi Hannele Luomanen Tampereen Yliopisto Informaatiotutkimuksen laitos Pro Gradu- tutkielma maaliskuu 2008 TAMPEREEN YLIOPISTO Informaatiotutkimuksen laitos LUOMANEN, HANNELE:
Rakenteisen oppimateriaalin tuottaminen verkossa esimerkki Rhaptos. Antti Auer Koordinaattori, HT Jyväskylän yliopisto Virtuaaliyliopistohanke
Rakenteisen oppimateriaalin tuottaminen verkossa esimerkki Rhaptos Antti Auer Koordinaattori, HT Jyväskylän yliopisto Virtuaaliyliopistohanke Rakenteisuus kahdella tasolla Oppimisaihiot ( Learning Objects
ARVO - verkkomateriaalien arviointiin
ARVO - verkkomateriaalien arviointiin Arvioitava kohde: Jenni Rikala: Aloittavan yrityksen suunnittelu, Arvioija: Heli Viinikainen, Arviointipäivämäärä: 12.3.2010 Osa-alue 1/8: Informaation esitystapa
Ctl160 Tekstikorpusten tietojenkäsittely p.1/15
Ctl160 490160-0 Nicholas Volk Yleisen kielitieteen laitos, Helsingin yliopisto Ctl160 490160-0 p.1/15 Lisää säännöllisistä lausekkeista Aikaisemmin esityt * ja + yrittävät osua mahdollisimman pitkään merkkijonoon
Johdatus rakenteisiin dokumentteihin
-RKGDWXVUDNHQWHLVLLQGRNXPHQWWHLKLQ 5DNHQWHLQHQGRNXPHQWWL= rakenteellinen dokumentti dokumentti, jossa erotetaan toisistaan dokumentin 1)VLVlOW, 2) UDNHQQHja 3) XONRDVX(tai esitystapa) jotakin systemaattista
CIRI Ontologiaperustainen tiedonhakuliittymä
CIRI Ontologiaperustainen tiedonhakuliittymä Eija Airio, Kalervo Järvelin, Sari Suomela, Pirkko Saatsi ja Jaana Kekäläinen Tampereen yliopisto Informaatiotutkimuksen laitos Ontologian kolmitasomalli kehitetty
WWW-ohjelmoinnin kokonaisuus. WWW-OHJELMOINTI 1 Merkkauskielet. Merkkauskielten idea. Merkkauskielet (markup languages) Merkkauskielten merkitys
WWW-OHJELMOINTI 1 WWW-ohjelmoinnin kokonaisuus SGML, XML, HTML WWW-selaimen sovellusohjelmointi WWW-palvelimen sovellusohjelmointi Eero Hyvönen Tietojenkäsittelytieteen laitos Helsingin yliopisto 26.10.2000
Paikkatiedot ja Web-standardit
Paikkatiedot ja Web-standardit Ossi Nykänen Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), Hypermedialaboratorio W3C Suomen toimisto Esitelmä Hyvin lyhyt versio: World Wide
TRIX-tiedonhakujärjestelmän evaluointi Timo Aalto
TRIX-tiedonhakujärjestelmän evaluointi Timo Aalto Tampereen Yliopisto Informaatiotutkimuksen laitos Pro gradu -tutkielma maaliskuu 2005 Tampereen yliopisto Informaatiotutkimuksen laitos AALTO, TIMO: TRIX-tiedonhakujärjestelmän
3 Verkkosaavutettavuuden tekniset perusteet
3 Verkkosaavutettavuuden tekniset perusteet Saavutettavuuden toteuttaminen edellyttää lähtökohtaisesti tietoa laitteista ja sovelluksista, käyttäjistä ja käyttötavoista, sekä tekniikasta. Tekniikasta on
W3C-teknologiat ja yhteensopivuus
W3C-teknologiat ja yhteensopivuus Ossi Nykänen Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), Hypermedialaboratorio W3C Suomen toimisto Esitelmä Hyvin lyhyt versio: W3C asettaa
Tiedonhakukäyttäytyminen vuorovaikutteisessa tiedonhakutilanteessa: Tuloslistasta katsotun dokumentin vaikutus hakuavaimen valintaan kyselyn
Tiedonhakukäyttäytyminen vuorovaikutteisessa tiedonhakutilanteessa: Tuloslistasta katsotun dokumentin vaikutus hakuavaimen valintaan kyselyn uudelleen muotoilussa Anna-Kaisa Hyrkkänen Tampereen yliopisto
Vaasan yliopiston toimintaa tukevat informaatiopalvelut ovat käytettävissä WWW:n kautta.
1. Julkaisutoiminnan peruskysymyksiä a) Mieti kohderyhmät b) Mieti palvelut c) Mieti palvelujen toteutus Vaasan yliopiston toimintaa tukevat informaatiopalvelut ovat käytettävissä WWW:n kautta. PALVELUKOKONAISUUDET:
Semanttinen Web. Ossi Nykänen Tampereen teknillinen yliopisto (TTY), DMI / Hypermedialaboratorio W3C Suomen toimisto
Semanttinen Web Ossi Nykänen ossi.nykanen@tut.fi Tampereen teknillinen yliopisto (TTY), DMI / Hypermedialaboratorio W3C Suomen toimisto Esitelmä "Semanttinen Web" Sisältö Konteksti: W3C, Web-teknologiat
TIEDONHAKU INTERNETISTÄ
TIEDONHAKU INTERNETISTÄ Internetistä löytyy hyvin paljon tietoa. Tietoa ei ole mitenkään järjestetty, joten tiedonhaku voi olla hankalaa. Tieto myös muuttuu jatkuvasti. Tänään tehty tiedonhaku ei anna
Harjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
Automaattinen semanttinen annotointi
Automaattinen semanttinen annotointi Matias Frosterus, Reetta Sinkkilä, Katariina Nyberg Semantic Computing Research Group (SeCo) School of Science and Technology, Department of Media Technology and University
15 askelta kohti. Parempia kyselyitä ja tutkimuksia
15 askelta kohti Parempia kyselyitä ja tutkimuksia Onnittelut! Lataamalla Webropol-tutkimusoppaan olet ottanut ensimmäisen askeleen kohti entistä parempien kyselyiden ja tutkimusten tekoa. Tämä opas tarjoaa
Pro gradu -tutkielmien arvostelu maantieteessä
Pro gradu -tutkielmien arvostelu maantieteessä Tutkielman arvostelussa on käytössä viisiportainen asteikko (1-5): o Ykkönen (1) merkitsee, että työ on hyväksyttävissä, mutta siinä on huomattavia puutteita.
Väitöskirjan kirjoittaminen ja viimeistely
1 Väitöskirjan kirjoittaminen ja viimeistely Pekka Kohti tohtorin tutkintoa 19.4.2017 UniOGS 2 Ensimmäinen versio väitöskirjasta Käytä Acta -kirjoituspohjaa Aloita väitöskirjan / yhteenvedon tekeminen
XML / DTD / FOP -opas Internal
XML / DTD / FOP -opas Internal Reviewed: - Status: pending approval Approved by: - Author: Sakari Lampinen Revision: 1.0 Date: 15.10.2000 1 Termit DTD (data type definition) on määrittely kielelle, niinkuin
Semanttinen Web. Ossi Nykänen. Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), Hypermedialaboratorio W3C Suomen toimisto
Semanttinen Web Ossi Nykänen Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), Hypermedialaboratorio W3C Suomen toimisto Esitelmä Hyvin lyhyt versio: Semanttinen Web (SW) on
Tutkitaan sitten HTML-dokumenttien anatomiaa, jotta päästään käsiksi rakenteisten dokumenttien käsitteistöön esimerkkien kautta.
3 HTML ja XHTML Tutkitaan sitten HTML-dokumenttien anatomiaa, jotta päästään käsiksi rakenteisten dokumenttien käsitteistöön esimerkkien kautta.
KYSELYNKÄSITTELYMENETELMIEN EVALUOINTITUTKIMUS SUOMALAISEN VERKKOARKISTON TAIVUTUSMUOTOINDEKSIÄ KÄYTTÄEN. Petteri Veikkolainen
KYSELYNKÄSITTELYMENETELMIEN EVALUOINTITUTKIMUS SUOMALAISEN VERKKOARKISTON TAIVUTUSMUOTOINDEKSIÄ KÄYTTÄEN Petteri Veikkolainen Tampereen yliopisto Informaatiotieteiden yksikkö Informaatiotutkimus ja interaktiivinen
M. Merikanto 2012 XML. Merkkauskieli, osa 2
XML Merkkauskieli, osa 2 Esimerkki: XML-dokumentti resepti maitokaakao
Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin?
Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin? Avoin verkkoalusta ihmisen ja koneen ymmärtämien tietomääritysten tekemiseen Riitta Alkula 20.3.2019 Esityksen sisältö
Fakta- ja näytenäkökulmat. Pertti Alasuutari Tampereen yliopisto
Fakta- ja näytenäkökulmat Pertti Alasuutari Tampereen yliopisto Mikä on faktanäkökulma? sosiaalitutkimuksen historia: väestötilastot, kuolleisuus- ja syntyvyystaulut. Myöhemmin kysyttiin ihmisiltä tietoa
Eläinlääketieteen lisensiaatin tutkielma Seminaarityöskentelyohjeet
Eläinlääketieteen lisensiaatin tutkielma Seminaarityöskentelyohjeet Eläinlääketieteellinen tiedekunta Helsingin yliopisto 2017 1 Yleistä Eläinlääketieteen lisensiaatin tutkielman seminaarityöskentelyyn
Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.
T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset, ti 7.2.200, 8:30-0:00 Tiedon haku, Versio.0. Muutetaan tehtävässä annettu taulukko sellaiseen muotoon, joka paremmin sopii ensimmäisten mittojen
1. Johdanto. Näkökulma dokumentti kohteena on yksinkertaistettu: - www-sivu tai -sivujoukko - monimutkainen tiedontarve
Tiedonhakumenetelmät, k.01 1 Luku 1. Johdanto 1. Johdanto IR (Information Retrieval; Information Storage and Retrieval) Tiedonhaku = prosessit, jotka liittyvät tiedon esittämiseen organisointiin tallentamiseen
Verkko-opetus - Sulautuva opetus opettajan työssä PRO-GRADU KAUNO RIIHONEN
Verkko-opetus - Sulautuva opetus opettajan työssä PRO-GRADU KAUNO RIIHONEN Opettajan näkökulma sulautuvaan opetukseen verkkooppimisympäristössä Hyödyllisintä opettajan näkökulmasta on verkkoympäristön
Eero Hyvönen. Semanttinen web. Linkitetyn avoimen datan käsikirja
Eero Hyvönen Semanttinen web Linkitetyn avoimen datan käsikirja WSOY:n kirjallisuussäätiö on tukenut teoksen kirjoittamista Copyright 2018 Eero Hyvönen & Gaudeamus Gaudeamus Oy www.gaudeamus.fi Kansi:
Ovid Medline käyttöohjeita (10/2010)
Ovid Medline käyttöohjeita (10/2010) Sisältö 1. Pikahaku - Basic Search:... - 1-2. Tarkennettu haku asiasanoilla - Advanced Ovid Search... - 1-3. Tulosjoukkojen yhdistely... - 5-4. Vapaasanahaku yksittäisellä
Mittariston laatiminen laatutyöhön
Mittariston laatiminen laatutyöhön Perusopetuksen laatukriteerityö Vaasa 18.9.2012 Tommi Karjalainen Opetus- ja kulttuuriministeriö Millainen on hyvä mittaristo? Kyselylomaketutkimuksen vaiheet: Aiheen
Tiedonhallinnan perusteet. Viikko 1 Jukka Lähetkangas
Tiedonhallinnan perusteet Viikko 1 Jukka Lähetkangas Kurssilla käytävät asiat Tietokantojen toimintafilosofian ja -tekniikan perusteet Tiedonsäilönnän vaihtoehdot Tietokantojen suunnitteleminen internetiä
Kieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat
Luento 2. Kieli merkitys ja logiikka 2: Helpot ja monimutkaiset Helpot ja monimutkaiset ongelmat Tehtävä: etsi säkillinen rahaa talosta, jossa on monta huonetta. Ratkaisu: täydellinen haku käy huoneet
Lähdeviitteiden merkintä (Kielijelppi)
Lähdeviitteiden merkintä (Kielijelppi) Copyright 2004 2010, Kielijelppi Palvelun tekijänoikeuksia suojaa Creative Commons -lisenssi Lähdeviitteiden merkitsemiseksi on olemassa useita tapoja. Viitteet voidaan
Kuinka laadin tutkimussuunnitelman? Ari Hirvonen I NÄKÖKULMIA II HAKUILMOITUS
Kuinka laadin tutkimussuunnitelman? Ari Hirvonen 15.9.2014 I NÄKÖKULMIA II HAKUILMOITUS I NÄKÖKULMIA Hyvä tutkimussuunnitelma Antaa riittävästi tietoa, jotta ehdotettu tutkimus voidaan arvioida. Osoittaa,
Hyvin toimivien hakulausekkeiden muotoilu ja hakujen onnistumiseen vaikuttavat tekijät täys- ja osittaistäsmäyttävässä hakujärjestelmässä
Hyvin toimivien hakulausekkeiden muotoilu ja hakujen onnistumiseen vaikuttavat tekijät täys- ja osittaistäsmäyttävässä hakujärjestelmässä Tampereen yliopisto Informaatiotutkimuksen laitos Informaatiotutkimuksen
NELLI Kansallinen tiedonhakujärjestelmä
NELLI Kansallinen tiedonhakujärjestelmä Nelli on väline tiedonhakuun ja -hallintaan Nelli kokoaa kirjaston elektroniset tiedonlähteet yhteen paikkaan Eri alojen tietokannat Elektroniset lehdet Kokoelmatietokannat
MONOGRAFIAN KIRJOITTAMINEN. Pertti Alasuutari
MONOGRAFIAN KIRJOITTAMINEN Pertti Alasuutari Lyhyt kuvaus Monografia koostuu kolmesta pääosasta: 1. Johdantoluku 2. Sisältöluvut 3. Päätäntäluku Lyhyt kuvaus Yksittäinen luku koostuu kolmesta osasta
Mitä on sisällönkuvailu
Mitä on sisällönkuvailu Esko Siirala Helsingin yliopiston kirjasto HELKA-kirjastojen sisällönkuvailuiltapäivä 09.09.201 Helsingin yliopiston kirjasto / Esko Siirala / Mitä sisällönkuvailu on. 1 Sisällönkuvailu
Alkuraportti. LAPPEENRANNAN TEKNILLINEN YLIOPISTO TIETOJENKÄSITTELYN LAITOS Ti Kandidaatintyö ja seminaari
LAPPEENRANNAN TEKNILLINEN YLIOPISTO TIETOJENKÄSITTELYN LAITOS Ti5004000 - Kandidaatintyö ja seminaari Alkuraportti Avoimen lähdekoodin käyttö WWW-sovelluspalvelujen toteutuksessa Lappeenranta, 4.6.2007,
KOEKYSYMYKSIÄ IKI 7 -OPPIKIRJAN SISÄLTÖIHIN
KOEKYSYMYKSIÄ IKI 7 -OPPIKIRJAN SISÄLTÖIHIN Sisällysluettelo I Usko Vakaumus Uskonto... 2 Käsitteiden määrittely... 2 Käsitteiden soveltaminen... 2 Kappalekohtaiset pienet esseetehtävät... 2 Laajemmat,
Monihaku ja sähköiset aineistot tutuksi. Jyväskylän kaupunginkirjaston tiedonhaun koulutus
Monihaku ja sähköiset aineistot tutuksi Jyväskylän kaupunginkirjaston tiedonhaun koulutus Miksi monihaku? Sähköistä aineistoa valtavat määrät Laadukasta ja ei-niin-laadukasta Ilmaista ja maksullista Monihakuun
hyvä osaaminen
MERKITYS, ARVOT JA ASENTEET FYSIIKKA T2 Oppilas tunnistaa omaa fysiikan osaamistaan, asettaa tavoitteita omalle työskentelylleen sekä työskentelee pitkäjänteisesti. T3 Oppilas ymmärtää fysiikkaan (sähköön
Talousmatematiikan perusteet ORMS.1030
orms.1030 Vaasan avoin yliopisto / kevät 2013 1 Talousmatematiikan perusteet Matti Laaksonen Matemaattiset tieteet Vaasan yliopisto Vastaanotto to 11-12 huone D110/Tervahovi Sähköposti: matti.laaksonen@uva.fi
Teoreettisen viitekehyksen rakentaminen
Teoreettisen viitekehyksen rakentaminen Eeva Willberg Pro seminaari ja kandidaatin opinnäytetyö 26.1.09 Tutkimuksen teoreettinen viitekehys Tarkoittaa tutkimusilmiöön keskeisesti liittyvän tutkimuksen
Poikkeusinfo XML-rajapinnan kuvaus, rajapinnan versio 2 Seasam Group
1.10.2010 1(15) Poikkeusinfo XML-rajapinnan kuvaus, rajapinnan versio 2 Seasam Group Graanintie 7 Tel. + 358 15 338 800 FIN-50190 MIKKELI Fax + 358 15 338 810 VERSIOHISTORIA Versio Pvm Tekijä Selite 1.0
TUKIMATERIAALI: Arvosanan kahdeksan alle jäävä osaaminen
1 FYSIIKKA Fysiikan päättöarvioinnin kriteerit arvosanalle 8 ja niitä täydentävä tukimateriaali Opetuksen tavoite Merkitys, arvot ja asenteet T1 kannustaa ja innostaa oppilasta fysiikan opiskeluun T2 ohjata
Digitaalisen median tekniikat. JSP ja XML Harri Laine 1
Digitaalisen median tekniikat JSP ja XML 28.4.2004 Harri Laine 1 JSP hyvin lyhyesti JSP on Java-pohjainen skriptikieli JSP:llä laadittu sivu käännetään java-servletiksi (sivun toteutus vastaa servlettiluokan
Tauon jälkeen tutkijaksi. Informaatikko Marja Kokko
Tauon jälkeen tutkijaksi Informaatikko Marja Kokko 1.10.2013 marja.kokko@jyu.fi 2 Tiedonhankinta Kirjaston yleiset koulutukset ja tutkijapalveluiden koulutukset Opi hyödyntämään kirjaston pääsivua ja sieltä
Ohjelmiston testaus ja laatu. Ohjelmistotekniikka elinkaarimallit
Ohjelmiston testaus ja laatu Ohjelmistotekniikka elinkaarimallit Vesiputousmalli - 1 Esitutkimus Määrittely mikä on ongelma, onko valmista ratkaisua, kustannukset, reunaehdot millainen järjestelmä täyttää
Web of ScienceTM Core Collection (1987-present)
Tampereen yliopiston kirjasto 2014 Web of ScienceTM Core Collection (1987-present) Science Citation Index Expanded (1987-present): Monitieteinen tietokanta, joka sisältää 8,500 tieteellistä lehteä luonnontieteiden,
Ulla Lehtoranta. Pro gradu -tutkielma. Tampereen yliopisto Informaatiotutkimuksen laitos
Ulla Lehtoranta Moniulotteisen relevanssiarviointimenetelmän demonstrointi Internet-aineistoissa tiedonhakuaiheina Bernadette Soubirous, Heidi Hautala, Mauri Kunnas ja Madonna Ritchie Pro gradu -tutkielma
Todistusmenetelmiä Miksi pitää todistaa?
Todistusmenetelmiä Miksi pitää todistaa? LUKUTEORIA JA TO- DISTAMINEN, MAA11 Todistus on looginen päättelyketju, jossa oletuksista, määritelmistä, aksioomeista sekä aiemmin todistetuista tuloksista lähtien
XML-merkkaus. Merkkidata, prosessointikomennot, kommentit
XML-merkkaus Merkkidata, prosessointikomennot, kommentit Merkkidata Elementtien ja attribuuttien arvot 3Merkkijonot elementtien tunnisteiden välissä 3Attribuuttien arvot 3Kielletyt merkit < & Voidaan korvata
W3C ja Web-teknologiat
W3C ja Web-teknologiat Ossi Nykänen Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), W3C Suomen toimisto Esitelmä Hyvin lyhyt versio: World Wide Web Consortium (W3C) on kansainvälinen
Porin tiedekirjasto ja TTY:n verkkoaineistot
Porin tiedekirjasto ja TTY:n verkkoaineistot www.tut.fi/kirjasto/pori kirjasto-pori@tut.fi 040 826 2780 Sisältö: Porin tiedekirjaston kotisivu Porin tiedekirjaston aineiston haku Tutcattietokannasta (ja
arvioinnin kohde
KEMIA 8-lk Merkitys, arvot ja asenteet T2 Oppilas asettaa itselleen tavoitteita sekä työskentelee pitkäjänteisesti. Oppilas kuvaamaan omaa osaamistaan. T3 Oppilas ymmärtää alkuaineiden ja niistä muodostuvien
Laajuus 5 op Luennot: 12 x 2t Harjoitukset: 7 viikkoharjoitusta harjoitusten tekemiseen saatavissa apua 2 ryhmää / harjoitus
Laajuus 5 op Luennot: 12 x 2t 11.3.2014 29.4.2014 Harjoitukset: 7 viikkoharjoitusta harjoitusten tekemiseen saatavissa apua 2 ryhmää / harjoitus Lähiopetuksen jäkeen harjoitustyö ja tentti Aulikki Hyrskykari
Relevanssipalautteen toimivuus lyhyillä, eritasoisesti onnistuneilla aloituskyselyillä. Jari Friman
Relevanssipalautteen toimivuus lyhyillä, eritasoisesti onnistuneilla aloituskyselyillä Jari Friman Tampereen yliopisto Informaatiotutkimuksen laitos Pro gradu -tutkielma Syyskuu 2008 TIIVISTELMÄ TAMPEREEN
Ohjelmistojen mallintaminen, mallintaminen ja UML
582104 Ohjelmistojen mallintaminen, mallintaminen ja UML 1 Mallintaminen ja UML Ohjelmistojen mallintamisesta ja kuvaamisesta Oliomallinnus ja UML Käyttötapauskaaviot Luokkakaaviot Sekvenssikaaviot 2 Yleisesti
arvioinnin kohde
KEMIA 9-lk Merkitys, arvot ja asenteet T2 Oppilas tunnistaa omaa kemian osaamistaan, asettaa tavoitteita omalle työskentelylleen sekä työskentelee pitkäjänteisesti T3 Oppilas ymmärtää kemian osaamisen
Talousmatematiikan perusteet ORMS.1030
kevät 2014 Talousmatematiikan perusteet Matti Laaksonen, (Matemaattiset tieteet / Vaasan yliopisto) Vastaanotto to 11-12 huone D110/Tervahovi Sähköposti: matti.laaksonen@uva.fi Opettajan kotisivu: http://lipas.uwasa.fi/
Politiikka-asiakirjojen retoriikan ja diskurssien analyysi
Politiikka-asiakirjojen retoriikan ja diskurssien analyysi Perustuu väitöskirjaan Sukupuoli ja syntyvyyden retoriikka Venäjällä ja Suomessa 1995 2010 Faculty of Social Sciences Näin se kirjoitetaan n Johdanto
Kirja on jaettu kahteen osaan: varsinaiseen- ja lisätieto-osioon. Varsinainen
Alkusanat Tämän tieto- ja viestintätekniikan oppikirjan ensimmäinen versio (1. painos) syntyi vuonna 2006 Jyväskylän yliopiston tietotekniikan laitokselle tekemäni pro gradu -tutkielmani yhteydessä. Tutkimuksessani
Kandidaatintutkielma 6 op (+Äidinkielinen viestintä 3 op) (+Tutkimustiedonhaku 1 op) (+Kypsyysnäyte 0 op) Kevät 2015 Jaakko Kurhila
Kandidaatintutkielma 6 op (+Äidinkielinen viestintä 3 op) (+Tutkimustiedonhaku 1 op) (+Kypsyysnäyte 0 op) Kevät 2015 Jaakko Kurhila Päivän ohjelma Ryhmäjako Tärkeimmät asiat tutkielman tekemiseen (mitä
hyvä osaaminen. osaamisensa tunnistamista kuvaamaan omaa osaamistaan
MERKITYS, ARVOT JA ASENTEET FYSIIKKA 8 T2 Oppilas asettaa itselleen tavoitteita sekä työskentelee pitkäjänteisesti. Oppilas harjoittelee kuvaamaan omaa osaamistaan. T3 Oppilas ymmärtää lämpöilmiöiden tuntemisen
Epätäsmällisen tiedon esittäminen semanttisen webin ontologioissa
Epätäsmällisen tiedon esittäminen semanttisen webin ontologioissa FinnOnto, 16.11.2005 Markus Holi (markus.holi@tkk.fi) Semantic Computing Research Group http://www.seco.tkk.fi/ UNIVERSITY OF HELSINKI
HL7 Clinical Document Architecture. Seminaari: Tiedonhallinta terveydenhuollossa Riku Niittymäki
HL7 Clinical Document Architecture Seminaari: Tiedonhallinta terveydenhuollossa Riku Niittymäki Clinical Document Architecture (CDA) HL7 järjestön standardi Ensimmäinen julkaisu 2000 ja toinen 2005 Kliinisen
Kandidaatintutkielma 6 op (+Äidinkielinen viestintä 3 op) (+Tutkimustiedonhaku 1 op) (+Kypsyysnäyte 0 op) Syksy 2014 Jaakko Kurhila
Kandidaatintutkielma 6 op (+Äidinkielinen viestintä 3 op) (+Tutkimustiedonhaku 1 op) (+Kypsyysnäyte 0 op) Syksy 2014 Jaakko Kurhila Päivän ohjelma Tavoitteena tutkielma, ei tutkimus Ryhmäjako Tärkeimmät
Otannasta ja mittaamisesta
Otannasta ja mittaamisesta Tilastotiede käytännön tutkimuksessa - kurssi, kesä 2001 Reijo Sund Aineistot Kvantitatiivisen tutkimuksen aineistoksi kelpaa periaatteessa kaikki havaintoihin perustuva informaatio,
Digitaalisen median tekniikat. JSP ja XML
Digitaalisen median tekniikat JSP ja 28.4.2004 Harri Laine 1 JSP hyvin lyhyesti JSP on Java-pohjainen skriptikieli JSP:llä laadittu sivu käännetään java-servletiksi (sivun toteutus vastaa servlettiluokan
Tampereen yliopiston OPSI-opintotietojärjestelmä: kahden tiedonhakujärjestelmän vertailu interaktiivisessa asetelmassa.
Tampereen yliopiston OPSI-opintotietojärjestelmä: kahden tiedonhakujärjestelmän vertailu interaktiivisessa asetelmassa Juho Friman Pro gradu -tutkielma Informaatiotutkimuksen ja interaktiivisen median
PSY181 Psykologisen tutkimuksen perusteet, kirjallinen harjoitustyö ja kirjatentti
PSY181 Psykologisen tutkimuksen perusteet, kirjallinen harjoitustyö ja kirjatentti Harjoitustyön ohje Tehtävänäsi on laatia tutkimussuunnitelma. Itse tutkimusta ei toteuteta, mutta suunnitelman tulisi
MOBISITE-TYÖKALUN SISÄLTÄMÄT TOIMINNOT
MOBISITE-TYÖKALU MobiSite on työkalu matkapuhelimeen soveltuvan mobiilisivuston rakentamiseen. AIMO-järjestelmän jatkuvasti päivittyvä päätelaitetunnistus tunnistaa useimmat puhelinmallit ja mukauttaa
Tiedonlähteille NELLIn kautta -
28.8.2009 1 Tiedonlähteille NELLIn kautta - www.nelliportaali.fi/jy NELLI-portaali on tiedonhakujärjestelmä, joka tarjoaa pääsyn Jyväskylän yliopistossa käytettävissä oleviin sähköisiin aineistoihin kuten
Verkkosisällön saavutettavuusohjeet 2.0: hyviä ohjeita monimuotoisen sisällön suunnitteluun ja arviointiin
Verkkosisällön saavutettavuusohjeet 2.0: hyviä ohjeita monimuotoisen sisällön suunnitteluun ja arviointiin Ossi Nykänen Tampereen teknillinen yliopisto, Hypermedialaboratorio, W3C Suomen toimisto Terveyden
ohjekortti #1 Tämä on ehto. Kun se täyttyy pelissä, seuraa tämän siirron sääntöjä.
ohjekortti #1 tämä on siirron nimi Tämä on ehto. Kun se täyttyy pelissä, seuraa tämän siirron sääntöjä. Tässä on säännöt, joita siirto noudattaa. Säännöt käydään läpi ylhäältä alaspäin Noppien kohdalla
Talousmatematiikan perusteet ORMS.1030
s16 Talousmatematiikan perusteet ORMS.1030 Matti Laaksonen, (Matemaattiset tieteet / Vaasan yliopisto) Sähköposti: matti.laaksonen@uva.fi Opettajan kotisivu: http://lipas.uwasa.fi/ mla/ puh. 044 344 2757
Sisällönanalyysi. Sisältö
Sisällönanalyysi Kirsi Silius 14.4.2005 Sisältö Sisällönanalyysin kohde Aineistolähtöinen sisällönanalyysi Teoriaohjaava ja teorialähtöinen sisällönanalyysi Sisällönanalyysi kirjallisuuskatsauksessa 1
4.2 Yhteensopivuus roolimalleihin perustuvassa palvelussa
4. Roolimallipalvelu 4.1 Tiedot palvelusta Palvelun nimi: Palvelun versio 01.01.00 Toteuttaa palvelun yksilöllistä palvelua (kts. M14.4.42) Roolimallipalvelu (Model role service) MYJ:lle, jotka toteuttavat
Algoritmit 2. Luento 6 Ke Timo Männikkö
Algoritmit 2 Luento 6 Ke 29.3.2017 Timo Männikkö Luento 6 B-puun operaatiot B-puun muunnelmia Nelipuu Trie-rakenteet Standarditrie Pakattu trie Algoritmit 2 Kevät 2017 Luento 6 Ke 29.3.2017 2/31 B-puu
1 Määrittelyjä ja aputuloksia
1 Määrittelyjä ja aputuloksia 1.1 Supremum ja infimum Aluksi kerrataan pienimmän ylärajan (supremum) ja suurimman alarajan (infimum) perusominaisuuksia ja esitetään muutamia myöhemmissä todistuksissa tarvittavia
Nimi: Opnro: Harjoitustyön suoritus: ( ) syksy 2006 ( ) syksy 2005 ( ) muu, mikä. 1. Selitä seuraavat termit muutamalla virkkeellä ja/tai kaaviolla:
Harjoitustyön suoritus: ( ) syksy 2006 ( ) syksy 2005 ( ) muu, mikä 1. Selitä seuraavat termit muutamalla virkkeellä ja/tai kaaviolla: a) käytettävyys b) käyttäjäkeskeinen suunnittelu c) luonnollinen kieli
Kandidaatintutkielma 6 op (+Äidinkielinen viestintä 3 op) (+Tutkimustiedonhaku 1 op) (+Kypsyysnäyte 0 op) Kevät 2013 Jaakko Kurhila
Kandidaatintutkielma 6 op (+Äidinkielinen viestintä 3 op) (+Tutkimustiedonhaku 1 op) (+Kypsyysnäyte 0 op) Kevät 2013 Jaakko Kurhila Päivän ohjelma Ryhmäjaon hienosäätö? Tärkeimmät asiat tutkielman tekemiseen
TUKIMATERIAALI: Arvosanan kahdeksan alle jäävä osaaminen
KEMIA Kemian päättöarvioinnin kriteerit arvosanalle 8 ja niitä täydentävä tukimateriaali Opetuksen tavoite Merkitys, arvot ja asenteet T1 kannustaa ja innostaa oppilasta kemian opiskeluun T2 ohjata ja
Vinkkejä hyvään graduun. Janne Hukkinen Helsingin yliopisto
Vinkkejä hyvään graduun Janne Hukkinen Helsingin yliopisto janne.i.hukkinen@helsinki.fi Rakenne: perinteinen toimii Johdanto ja tausta Analyyttinen viitekehys Aineisto ja menetelmät Analyysi Tulokset ja
Kandidaatintutkielma 6 op (Äidinkielinen viestintä 3 op) (Ttkimustiedonhaku 1 op) (Kypsyysnäyte 0 op) Kevät 2011 Jaakko Kurhila
Kandidaatintutkielma 6 op (Äidinkielinen viestintä 3 op) (Ttkimustiedonhaku 1 op) (Kypsyysnäyte 0 op) Kevät 2011 Jaakko Kurhila Päivän ohjelma Nimenhuuto Tärkeimmät asiat tutkielman tekemiseen ( muista
Käytettävyyslaatumallin rakentaminen verkkosivustolle
Käytettävyyslaatumallin rakentaminen verkkosivustolle Tapaus kirjoittajan ABC-kortti Oulun yliopisto tietojenkäsittelytieteiden laitos pro gradu -tutkielma Timo Laapotti 9.6.2005 Esityksen sisältö Kirjoittajan
Metatiedot organisaatioiden sisällönhallinnassa
Metatiedot organisaatioiden sisällönhallinnassa Airi Salminen Jyväskylän yliopisto http://www.cs.jyu.fi/~airi/ Lainsäädäntöprosessin tiedonhallinnan kehittäminen Metatiedot suomalaisen lainsäädäntöprosessin
Nellin matala käyttöaste syyt? (Stadia / AMK) :
Nellin matala käyttöaste syyt? (Stadia / AMK) : 1) Opetuksen resurssit 2) Nellin laajuus ja tekniset kompastuskivet 3) AMK:ien tutkimuskulttuuri 1) Opetuksen resurssit aikaa pahimmillaan noin 2h / ryhmä,
W3C ja Web-teknologiat
W3C ja Web-teknologiat Ossi Nykänen Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), W3C Suomen toimisto Esitelmä Hyvin lyhyt versio: World Wide Web Consortium (W3C) on kansainvälinen
Metatieto mihin ja miten? Juha Hakala Helsingin yliopiston kirjasto juha.hakala@helsinki.fi
Metatieto mihin ja miten? Juha Hakala Helsingin yliopiston kirjasto juha.hakala@helsinki.fi Sisältö Metatiedon määrittely Metatiedon käytöstä Metatietoformaatit MARC, Dublin Core, IEEE LOM Elektronisten