1. Johdanto. Näkökulma dokumentti kohteena on yksinkertaistettu: - www-sivu tai -sivujoukko - monimutkainen tiedontarve

Samankaltaiset tiedostot
CIRI Ontologiaperustainen tiedonhakuliittymä

Tiedonhakumenetelmät Tiedonhakumenetelmät, Helsingin yliopisto, tktk, k2014. H.Laine 1. Tiedonhaku Boolen haku Indeksit. Tiedonhaku?

Ovid Medline käyttöohjeita (10/2010)

Tiedonhaku korkeakouluopinnoissa

Finna ja ontologiat tms.

8 Tiedonhaun apuvälineet

CASE HELSINKI: PALVELUTIETOVARANTO (PTV) JA PALVELUNÄKYMÄN KARTTAIKKUNA

SELECT-lauseen perusmuoto

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

KOKEMUKSIA KOKOELMAKARTASTA. International Seminar on Collection Mapping Harri Ahonen Kansalliskirjasto/Kokoelmapalvelut

Tiedonhaun perusteet kandityötä varten Maria Söderholm tietoasiantuntija

Web of ScienceTM Core Collection (1987-present)

PubMed lääketieteellinen kokoteksti- ja viitetietokanta

PIKAOHJE Web of Science tietokantojen käyttöön

Luetteloinnin tiedotuspäivä

Tiedonhakumenetelmät Tiedonhakumenetelmät Helsingin yliopisto / TKTL. H.Laine 1. Rankkaukseen perustuva tiedonhaku.

ProQuest Dissertations & Thesis: The Humanities and Social Sciences Collection

NELLI PORTAALIN KÄYTTÖOPAS

TIEDONHAKU INTERNETISTÄ

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

6. Hyperteksti ja tiedonhaku. Hypertekstissä solmu on vahva, riittävä peruskäsite.

4. Dokumenttien indeksointi

Summon tehokas monihaku

Tiedonhaku. Esim. kymenlaakso muutosjohtami* Laila Hirvisaari Tuntematon sotilas Ruksi tyhjentää hakukentän.

Tieto matkaa maailmalle

Monihaku ja sähköiset aineistot tutuksi. Jyväskylän kaupunginkirjaston tiedonhaun koulutus

CINAHL(EBSCO) käyttöohjeita (10/2010)

Relevanssipalautteen toimivuus lyhyillä, eritasoisesti onnistuneilla aloituskyselyillä. Jari Friman

Näin sisällönkuvailen. Sisällönkuvailupäivä Liisa Virtanen Kansalliskirjasto

Eero Hyvönen. Semanttinen web. Linkitetyn avoimen datan käsikirja

Arto, Linda ja Fennica kansallisen julkaisurekisterin tietojen lähteinä. Asiantuntijakokous, Jyrki Ilva

SQL-perusteet, SELECT-, INSERT-, CREATE-lauseet

Helsingin yliopisto/tktl DO Tietokantojen perusteet, s 2000 Johdanto & yleistä Harri Laine 1. Tietokanta. Tiedosto

Hakuohjeet Haku Tiedonhaun tulokset

[6.2 Hypertekstin tiedonhakumalleja (jatkoa)] ARC algoritmi: 3º Linkkitekstin huomiointi

Kuvailusäännöt, formaatti ja kirjastojärjestelmä

Kirjastoverkkopäivät 2017 Erkki Tolonen

Tiedonhaku ja varaaminen

Liikkujan polku tiedonlähteille. Tutkimustietoa liikunnasta kun Google ei riitä Informaatikko Birgitta Järvinen, UKK-instituutti

Vinkkejä musiikin tiedonhakuun OUTI-verkkokirjastossa

FINMARC -> Marc 21 järjestelmätoimittajan puheenvuoro. Helsinki Seppo Lindström varatoimitusjohtaja

Lappeenrannan tiedekirjasto Nelli-tiedonhakuportaalin käyttöopas

Luento 2: Tiedostot ja tiedon varastointi

Tekstikatkelmahakumenetelmien toteuttaminen tiedonhakujärjestelmässä

Mitä on sisällönkuvailu

10. WWW-tiedonhaku WWW-tiedonhaun erityispiirteitä

Uudistetun Janettiedonhakupalvelun

Helsingin yliopisto/tktl Kyselykielet, s 2006 Optimointi Harri Laine 1. Kyselyn optimointi. Kyselyn optimointi

TIEDONHANKINNAN PERUSTEET (1 op) harjoitus 3 (TaY Pori syksy 2014)

Fiction searching from an enriched library web service

Tiedonhaku Nelli-portaalissa

Automaattinen semanttinen annotointi

S2 Digitaalisen kulttuurin opintopiiri

PubMed-opas. Itä-Suomen yliopiston kirjasto KYSin tieteellinen kirjasto helmikuu

Käytettävyystyön laatu: tarjotaanko oikeita palveluja, tuotetaanko oikeita tuloksia?

Miten ARTO-yhteistyön laajentaminen palvelee tiedekustantajia, kirjastoja ja tutkimushallintoa?

Verkkokirjaston hakuohjeet

Juuli-julkaisutietoportaali

Terveyden ja hyvinvoinnin laitos

Tesauruksen rooli vapaatekstihaussa

Nelli käyttäjän puheenvuoro

Älykäs laskenta, diplomityöseminaari. Lappeenrannan Tiedekirjasto Iris Tahvanainen

ECDL Tietokannat. Copyright 2015 ECDL Foundation ECDL Tietokannat Sivu 1 / 7

Suomi.fi julkishallinto ja julkiset palvelut yhdessä osoitteessa Suomi.fi / VM

Tiedonhakuasiaa. Marja Talikka

Tiedonhakua kandityötä varten Maria Söderholm tietoasiantuntija

Äidinkielen uuden yo-kokeen kokeilutehtäviä ja opiskelijoiden tuotoksia

Kirjastojen kuvailutiedot Finnassa

Käytettävyyden testaus

KIELTEN VÄLINEN TIEDONHAKU: KÄÄNNÖSKYSELYJEN EVALUOINTI

Yleisten kirjastojen kuvailutyön kansallinen viitekehys. Yleisten kirjastojen neuvosto Anu Jäppinen

jotakin käyttötarkoitusta varten laadittu kokoelma toisiinsa liittyviä säilytettäviä tietoja

TIEDONHANKINNAN PERUSTEET (1 op) harjoitus 3 (TaY Pori syksy 2013)

Järjestelmäriippumattomia siivousohjeita

Semanttinen Web. Ossi Nykänen Tampereen teknillinen yliopisto (TTY), DMI / Hypermedialaboratorio W3C Suomen toimisto

Käytettävyys verkko-opetuksessa Jussi Mantere

Paikkatiedot ja Web-standardit

Google-sivustohaku Google-sivustohaku organisaatiollesi

SciFinder Web Version

Nelli kaukopalvelutyössä

Tietokanta löytyy kirjaston sähköisistä aineistoista ja NELLI-portaalin kautta.

ARTIVA-pilotointi. KVP asiantuntijaseminaari Lassi Lager

10. ASIAKASHALLINTA CRM; Osoitetarrat, ryhmäsähköposti ja export

Miten Finna muuttaa sisällönkuvailua vai muuttaako?

1 Tieteellinen esitystapa, yksiköt ja dimensiot

CSE-A1200 Tietokannat

Sisällön automaattinen moniluokittelu

Työkalu ontologioiden editointiin ja ontologiapohjaiseen tiedonhakuun

Sisältö. 22. Taulukot. Yleistä. Yleistä

Tiedonhaku: miten löytää näyttöön perustuva tieto massasta Leena Lodenius

Yleistä. Nyt käsitellään vain taulukko (array), joka on saman tyyppisten muuttujien eli alkioiden (element) kokoelma.

Hypermedian ohjelmointi, kevät Luento 7. Tiedonhaun apuvälineet

Sisällönkuvailun tulevaisuus: YSA vai YSO?

TIETOKANTOJEN PERUSTEET MARKKU SUNI

Terveys- ja yrityspalvelutyöpajan tutkimus Eero Hyvönen, Mikko Salonoja, Reetta Sinkkilä, Osma Suominen, Antti Tani

Ongelma(t): Miten merkkijonoja voidaan hakea tehokkaasti? Millaisia hakuongelmia liittyy bioinformatiikkaan?

Tiedon tallennus ja haku

Yhtenäisen juonen lohtu : Kirjasampo, lukeminen ja muisti

Kuvaus eli funktio f joukolta X joukkoon Y tarkoittaa havainnollisesti vastaavuutta, joka liittää joukon X jokaiseen alkioon joukon Y tietyn alkion.

Verkkokirjaston hakuohjeet

Transkriptio:

Tiedonhakumenetelmät, k.01 1 Luku 1. Johdanto 1. Johdanto IR (Information Retrieval; Information Storage and Retrieval) Tiedonhaku = prosessit, jotka liittyvät tiedon esittämiseen organisointiin tallentamiseen etsimiseen Tiedonhaun kohde: relevantti tieto (tiedontarve, merkitys) yksikkönä dokumentti, teksti sisältö; rakenne, ulkoasu tyyppi: myös kuva, ääni,... Tiedonhakumenetelmät, k.01 2 Luku 1. Johdanto Näkökulma dokumentti kohteena on yksinkertaistettu: - www-sivu tai -sivujoukko - monimutkainen tiedontarve BYRN: haetaan jonkin USAn yliopiston tennisjoukkueen sivua siten, että joukkue osallistuu säännöllisesti NCAA-turnauksiin sivu(i)lla on tiedot joukkueen sijoituksista ainakin kolmen vuoden ajalta sivu(i)lla on valmentajan yhteystiedot - epämääräinen, huonosti tiedostettu tiedontarve jotain tiedonhaun menetelmistä Esim. tieteellinen artikkeli, uutinen, mail-viesti, WWW-sivu, palvelu (aikataulu tms.) Tiedonhakumenetelmät, k.01 3 Luku 1. Johdanto Tiedonhakumenetelmät, k.01 4 Luku 1. Johdanto Tieto (data)... informaatio data dokumentissa esiintyvät avainsanat datalla ja kyselyllä tarkka struktuuri hakutuloksessa ei voi olla virheitä vrt. tietokantahaku informaatio tiedontarpeen täyttävä informaatio kysely voi olla luonnollista kieltä hakutulos voi olla epätarkka järjestelmä pyrkii tulkitsemaan hakutulosta, esimerkiksi järjestämällä dokumentit => tiedonhaun perusasetelma: haetaan kaikki käyttäjälle relevantit, mutta mahdollisimman vähän muita! Erilaisia hakutilanteita: aihehaku esim. julkisen talouden supistamistoimet lomakohteet, joissa golf, hiihto, ratsastus, uinti mahdollista yksilöhaku VN:n päätös nro 123/97 Esko Ukkosen väitöskirja faktahaku HY:n rehtori v. 1956 - vaihtelua: tuloksen koko, luonne käyttäjän oletus (varmuus) tuloksen olemassaolosta ja löytymisestä Erityisesti aihehakua halutaan usein tarkentaa: - johdattelevat IR-artikkelit - ajankohtaiset, uusimmat, - kaupalliset / tieteelliset tms. jakoja

Tiedonhakumenetelmät, k.01 5 Luku 1. Johdanto Tiedonhakumenetelmät, k.01 6 Luku 1. Johdanto - myös kognitiivisia tekijöitä: erilaisia hakustrategioita: kerralla, toistaen (,selaten) asioiden jäsentely: haku luokitukseen perustuen Tiedonhaku tietokannan hallinta? tietokanta homogeeniset tietueet attribuutit, yksilön täsmällinen kuvaus esim. relaatio henkilö(hetu, nimi,...) haun tulos yksikäsitteinen dokumenttien joukko (dokumenttikanta) teksti asiasanoja, indeksitermejä luokituksia UDK, CR muita kuvaajia haun tulos epätarkka, usein järjestetty (sopivimmat) dokumentit, joissa on tietoa kissan hoidosta Tiedonhakumenetelmät, k.01 7 Luku 1. Johdanto Miksi epätarkkaa? - dokumenttikannan kattavuus? - sanastoerot - epätäsmällisiä käsitteitä nuori, vaalea, räikeä, paljon,... - ehtojen ilmaisemisen vaikeus, likimääräinen tulkinta ilmestymisvuosi > 1985; entä 1985, 1984... Tietokanta dokumenttikanta? - myös dokumenttikantaa sanotaan usein tietokannaksi - www-sivujen joukkoa voidaan sanoa dokumenttikannaksi (vaikka se on monessa mielessä epämääräinen) Tiedonhakumenetelmät, k.01 8 Luku 1. Johdanto Dokumenttikanta = dokumenttien Di kokoelma, joukko Di = (t1, t2, t3,...) termien joukko Di = (Kissa kulki aurinkoisena päivänä kuumalla katolla ja poltti käpälänsä) Di = (kissa, katto, aurinkoinen, käpälä) (polttaa, kuuma?) Termijoukko = dokumentin looginen näkymä (logical view), joka saadaan useilla muunnoksilla: poistetaan turhat välimerkit yms. poistetaan täytesanat (stopwords) rajoitutaan substantiiveihin (ehkä) otetaan käyttöön sanojen vartalot ( stem ) indeksoidaan dokumentti termien avulla kuvataan dokumentin struktuuri (mahdollisesti, lisäpiirre)

Tiedonhakumenetelmät, k.01 9 Luku 1. Johdanto Tiedonhakumenetelmät, k.01 10 Luku 1. Johdanto indeksi = hakemisto, esim. dokumentin sanoihin perustuva käänteishakemisto indeksointi on kertaluontoinen tai harvoin toistuva, joka tapauksessa suurta kyselyjoukkoa palveleva (raskas) toiminto Indeksin esikuvia: - sisällysluettelo - sanaluettelo (indeksi) kirjan lopussa (kattavuus vaihtelee ) Kyselyn toteutus tietokanta: kysely (kyselykielellä) evaluointi, toteutus tulokset tiedonhaku: kysely evaluointi ( match ) tulokset käyttäjälle käyttäjä arvioi tiedontarve dokumentit manuaalinen / asiantuntijan indeksointi asiantuntemus, tehokkuus (määrämuotoinen) kysely indeksit tms. samanlaisuuden määritys (match) kyselyn muunnos tulos Tiedonhakumenetelmät, k.01 11 Luku 1. Johdanto kyselyn muunnos voi olla ainakin osittain automaattinen: käyttäjän arvioon perustuva relevance feedback myös muut muunnokset mahdollisia: termien synonyymit ym. yhteydet voidaan ottaa huomioon WWW:n erityispiirteitä: dokumentit kovin erilaisia verrattuna esim. perinteiseen kirjastoon - laatukriteerien puute - erilaisia rakenteita puuttuu yhtenäinen tietomalli, johon esim. haut voitaisiin perustaa selaaminen l. navigointi luontainen käyttötapa, laajasti hyvin tehoton! tarvetta tiedonhaun menetelmille (kehittymässä, ei valmista) (selaaminen <-> tiedonhaku? eri menetelmät, sama yleinen tavoite) Tiedonhakumenetelmät, k.01 12 Luku 1. Johdanto Tiedonhaun evaluointi = aihehaun onnistumisen mittaaminen Haun tavoite: tuloksessa ALL and ONLY halutut (relevantit) Relevanssi jakaa tulokseen kuuluvat dokumentit hyödyllisiin ja ei-hyödyllisiin Erilaisia näkökulmia/määrityksiä: aiherelevanssi yhteenkuuluva (related) aiheenmukainen (topical) vastaava, osuva, soveltuva (responsive, pertinent) käyttäjärelevanssi hyödyllinen (useful, beneficial) käyttökelpoinen (utility...) tyydyttävä (user satisfaction) objektiivinen / subjektiivinen käsite?

Tiedonhakumenetelmät, k.01 13 Luku 1. Johdanto Tiedonhakumenetelmät, k.01 14 Luku 1. Johdanto Aiherelevanssin ja käyttäjärelevanssin erot? saanti = a / (a + c) tarkkuus = a / (a + b) ( kattavuus ) Haun onnistuminen, perustunnusluvut: saanti (recall) tarkkuus (precision) tulosjoukon koko vasteaika (+ muut?) Haun tulos Relevanssiarvio relevantti ei relevantti Löydetyt a + b a b Hylätyt c + d c d Summa a+b+c+d a + c b + d tarkkuus helpompi laskea kuin saanti ei-löydetyt (hylätyt) on arvioitava ALL and ONLY - periaate: saanti = 1, tarkkuus = 1 Käytännössä: arvot lähempänä 0.5 kuin 0.9... parempi saanti <=> huonompi tarkkuus haun kaventaminen (narrowing) haun laajentaminen (broadening) Mikä vaikuttaa? indeksoinnin johdonmukaisuus dokumenttien pää- ja sivuteemat kyselyn termivalinnat Tiedonhakumenetelmät, k.01 15 Luku 1. Johdanto Tiedonhakumenetelmät, k.01 16 Luku 1. Johdanto 1 Muita onnistumisen / laadun kriteerejä: tavoite dokumenttikanta tarkkuus B A C kattavuus (eri tasoilla, osissa,...) ajantasaisuus tietojen laatu suodatuskyky indeksointi jne käyttöominaisuudet 0 saanti 1 Muita laskennallisia mittareita: häly (noise) = b / (a + b) hakujärjestelmä kyselyjen muoto muut käyttöominaisuudet suorituskyky (vasteaika) tulosten käytettävyys (muoto jne) unohdetut (fallout) = c / (a + c) oikein hylättyjen osuus = d / (a+b+c+d)

Tiedonhakumenetelmät, k.01 17 Luku 1. Johdanto Määritelmiä: - termi = semanttinen ilmaisun yksikkö, esim. sana, fraasi, sanan vartalo - dokumentti = haun kohde, loogisesti termien jono - kysely = termien jono ilmaisee tiedon tarpeen (vertailuun sopivassa muodossa) - relevantti dokumentti: (käyttäjän kannalta) kyselyyn sopiva, merkityksellinen dokumentti - samanlaisuusarvo (similarity, score): dokumentin relevanssin mittaluku (arvio) - tiedonhakujärjestelmä (IR system): valitsee kyselyyn sopivat dokumentit usein relevanssijärjestyksessä Tiedonhakumenetelmät, k.01 18 Luku 1. Johdanto Menetelmiä: - Boolen lausekkeina annetut kyselyt yksinkertainen termivertailu - vektorimalliin perustuvat lasketaan lähekkäisyys termiavaruudessa - todennäköisyysmallit Aputekniikkoja: - stemming : sanat perusmuotoon - merkkijonojen vertailu: sanat, n-grammit - semanttiset yhteydet synonyymit thesaurukset - esiintymäyhteydet termien lähekkäisyys lauserakenteet dokumentin rakenteen käyttö (osat jne) Tiedonhakumenetelmät, k.01 19 Luku 1. Johdanto Tiedonhakumenetelmät, k.01 20 Luku 1. Johdanto Tiedonhaun tietokantatyyppejä lähdetietokannat vs. korviketietokannat (source) (surrogate) Lähdetietokantoja tekstitietokanta full text, free text faktatietokanta kuvatietokanta ohjelmistotietokanta hypermediatietokanta... Korviketietokantoja viitetietokanta hakemistotietokanta - perinteinen IR: kohteena (bibliografinen) viitetietokanta - nykyisin tekstitieto tärkein Tekstitietokanta esim. uutiset, tieteelliset artikkelit, lakitekstit yleensä rakenteetonta mukana bibliografisia kuvailutietoja käyttö yleensä helppoa, vaikka kyselyt sumeita Faktatietokanta tilastot, muut mittaustuloksia, tosiasioita kyselyt yleensä täsmällisiä (mutta ei triviaaleja) esim. suomalaisten televisioiden markkkinaosuus Euroopan eri maissa v. 1993? BKT henkeä kohti (virallisempi)

Tiedonhakumenetelmät, k.01 21 Luku 1. Johdanto Kuvatietokanta digitoidut kuvat + kuvailutiedot haku kuvailutietojen kautta t. kuva-aiheiden perusteella Ohjelmistotietokanta fakta- ja tekstikannan piirteitä Hypermediatietokanta rakenteellinen erikoistapaus tärkeä: esim. WWW (WWW-sivuilla myös omat, sisältöön liittyvät tyyppinsä!) haku kyselyjä, selaamista Viitetietokanta tieto osittain rakenteista myös tekstiä vain välillinen merkitys Hakemistotietokanta tieto pääasiassa rakenteista välillinen merkitys