Tiedonhakumenetelmät Tiedonhakumenetelmät Helsingin yliopisto/ TKTL, k H.Laine 1. Relevanssi ja relevanssipalaute.

Samankaltaiset tiedostot
Tiedonhakumenetelmät Tiedonhakumenetelmät Helsingin yliopisto / TKTL. H.Laine 1. Rankkaukseen perustuva tiedonhaku.

Matematiikan kurssikoe, Maa 9 Integraalilaskenta RATKAISUT Torstai A-OSA

TIEDONHAKU INTERNETISTÄ

SMG-4200 Sähkömagneettisten järjestelmien lämmönsiirto Ehdotukset harjoituksen 3 ratkaisuiksi

NTG CMS. Julkaisujärjestelm. rjestelmä

HOPS-työkalun lisäksi SoleOPSiin on kytketty vuotuisia kehityskeskusteluja varten kyselypohjat.

Hoikan teräsbetonipilarin mitoittamismenetelmien perusteet. Lauri Uotinen

Tilastotieteen jatkokurssi Sosiaalitieteiden laitos Harjoitus 9 (viikko 16) Ratkaisuehdotuksia (Laura Tuohilampi)

PAULI RAUTAKORPI LEIJAVOIMALAN TEHON ARVIOINTI

IT-projekti. Mitä #&!% siellä tapahtuu?

Tiedonhakumenetelmät Tiedonhakumenetelmät, Helsingin yliopisto, tktk, k2014. H.Laine 1. Tiedonhaku Boolen haku Indeksit. Tiedonhaku?

Opiskeluintoa ja menestystä tuleviin valintakokeisiin!

Tapa II: Piirretään voiman F vaikutussuora ja lasketaan momentti sen avulla. Kuva 3. d r. voiman F vaikutussuora

Operatioanalyysi 2011, Harjoitus 3, viikko 39

Matemaattiset apuneuvot II, harjoitus 6

PubMed lääketieteellinen kokoteksti- ja viitetietokanta

1. Johdanto. Näkökulma dokumentti kohteena on yksinkertaistettu: - www-sivu tai -sivujoukko - monimutkainen tiedontarve

OULUN YLIOPISTON KAUPPAKORKEAKOULU. Mira Mäkelä SÄÄNTELY JA RISKIENHALLINTA PANKKISEKTORILLA

Tiedonhaku Nelli-portaalissa

MS-A0107 Differentiaali- ja integraalilaskenta 1 (CHEM)

Tietoa sähkökentästä tarvitaan useissa fysikaalisissa tilanteissa, esimerkiksi jos halutaan

Kaakkois-Suomen Ammattikorkeakoulu Oy Mikkelin Ammattikorkeakoulu Oy Kymenlaakson Ammattikorkeakoulu Oy

Provet Net Kutsut ohje

Yksinkertainen korkolasku

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

ENNAKKOTEHTÄVÄ 2016: Maisterivaiheen haku, tuotantotalous

CERN Workshop on Innovations in Scholarly Communication (OAI4) the OAI-PMH

Tietokanta löytyy kirjaston sähköisistä aineistoista ja NELLI-portaalin kautta.

Opettajan pikaopas Opintojaksopalaute-järjestelmään

Luku 34 Ulkoisvaikutukset

Taivaanmekaniikkaa Kahden kappaleen liikeyhtälö


Tilavuusintegroin3. Tilavuusintegroin3 3/19/13. f(x, y, z)dxdydz. ρ(x,y,z) = x 2 + y 2 + z 2 (kg) Ratkaisu: ρ(x,y,z)dxdydz

Matemaattisen analyysin tukikurssi

Aluksi. Ympyrästä. Ympyrän osat. MAB2: Ympyrä 4

Ylioppilastutkintolautakunta S t u d e n t e x a m e n s n ä m n d e n

Opiskelijat valtaan! TOPIC MASTER menetelmä lukion englannin opetuksessa. Tuija Kae, englannin kielen lehtori Sotungin lukio ja etälukio

Työkalu ontologioiden editointiin ja ontologiapohjaiseen tiedonhakuun

2. välikokeen mallivastaukset

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

Teknologinen muutos ja yliopistojen tulevaisuus. Tievie-seminaari Helsinki Antti Auer

AS Paikannus- ja navigointimenetelmät

Jukka Larja, Kim Nylund. 15. maaliskuuta 2005

Lähettäjä ja vastaanottaja

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

AutoFutur ja KoneFutur. Asiakastyytyväisyyskysely- palvelu. Käyttöohje

Metron. nettikauppaohjeet

Mistä kuulitte eetu-hankkeesta?

Lukkarikone Pikaohjeet v. 1.0

Valtionavustusjärjestelmän sähköistäminen. Opetustoimen henkilöstökoulutus Kick-off Eeva-Kaisa Linna

11 INTERFEROMETRIA 11.1 MICHELSONIN INTERFEROMETRI

HELSINGIN YLIOPISTO OODIN SÄHKÖISEN VARMENTAMISEN OHJEET

EeNet materiaalit ohje

OHJE ATERIAPÄIVÄKIRJAN MUOKKAUKSEEN

Lähettäjä ja vastaanottaja

Työkaluja PRH:n peruspatenttipalvelun myymiseen

Matematiikan tukikurssi, kurssikerta 3

Ohjelmistoprojektin vaiheet ja OMT++ -suunnittelumenetelmä

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Nuorten hyvinvointi tilastotietokannan käyttöohjeet Tieke

Megaprojekti pysyi aikataulussa. Totta vai tarua?

Öljysäiliö maan alla

ETAITAVA KV-JAKSON JA TYÖPAIKALLA TAPAHTUVAN OPPIMISEN OHJAAMISEN TUKENA

Copernicus, Sentinels, Finland. Erja Ämmälahti Tekes,

Verkkokirjaston hakuohjeet

Vertaispalaute. Vertaispalaute, /9

SÄHKÖMAGNEETTINEN KYTKEYTYMINEN

H7 Malliratkaisut - Tehtävä 1

Tiedonhakumenetelmät Tiedonhakumenetelmät Helsingin yliopisto, tktl, k2014. H.Laine 1

ATLAS-kartan esittely - Peli palveluiden yhteiskehittämisen menetelmistä Päivi Pöyry-Lassila, Aalto-yliopisto

JUJUPRIX Kalle Tuominen & Timo Mäkeläinen Markkinointiviestinnän suunnittelutoimisto Mainio Oy. kalle@mainiota.fi timo.makelainen@mainiota.

Choose Finland-Helsinki Valitse Finland-Helsinki

Yksi elämä -hanke. Kuluttajakysely Yksi elämä -hankkeesta Marraskuu 2016

Uusi Ajatus Löytyy Luonnosta 3 (Finnish Edition)

Hankeviestijä hakukoneiden ihmeellisessä maailmassa. Joonas Jukkara, SEOSEON Ltd.

VALITAAN VAIHTOEHDOISTA YKSI KOHTA VOIDAAN VALITA VAIHTOEHDOISTA USEAMPI KOHTA

S SÄHKÖTEKNIIKKA JA ELEKTRONIIKKA

Operatioanalyysi 2011, Harjoitus 4, viikko 40

Yhtälön oikealla puolella on säteen neliö, joten r. = 5 eli r = ± 5. Koska säde on positiivinen, niin r = 5.

VINKKEJÄ CV-NETIN KÄYTTÖÖN.

Jatkuvat satunnaismuuttujat

VINKKEJÄ CV-NETIN KÄYTTÖÖN.

Osallistavan suunnittelun kyselytyökalu

ASUKASKYSELYOHJE Sivu 1 / 8. Kauppalehti Tietopalvelujen asiakaspalvelu vastaa lupahakemuksen tarkastamisesta ja luvan myöntää Väestörekisterikeskus.

k=0 saanto jokaisen kolmannen asteen polynomin. Tukipisteet on talloin valittu

Capacity Utilization

Finna Tunnusluvut

Skene. Games Refueled. Muokkaa perustyyl. for Health, Kuopio

3.1 Väliarvolause. Funktion kasvaminen ja väheneminen

Pienten rakenteiden lämpöliikkeen mittaus ja mallinnus. S Mittaustekniikan Lisensiaattikurssi Tuomo Hyvönen

Avoin data Avoin kirjasto Kuvailupäivät

Matematiikan tukikurssi

S SÄHKÖTEKNIIKKA JA ELEKTRONIIKKA

Tilavuusintegroin3. Tilavuusintegroin3

Etsintä verkosta (Searching from the Web) T Datasta tietoon Jouni Seppänen

Small Number Counts to 100. Story transcript: English and Blackfoot

KV-järjestelmät suomelle

Tiedonlähteille NELLIn kautta -

Webforum. Version 16.1 uudet ominaisuudet. Päivitetty:

Transkriptio:

Helsingin yliopisto/ TKTL, k 4 3.3.4 Tiedonhakumenetelmät ja elevanssipalaute Tiedonhakujäjestelmän hyvyyttä avioidaan ensisijaisesti hakutulosten elevanssin peusteella. Muita kiteeejä Indeksoinnin nopeus Hakujen nopeus Kyselykielen ilmaisuvoima Resussitapeet ja kustannukset Nämä ovat käyttäjän kannalta toissijaisia? Jäjestelmä on hyödytön, jos se ei tuota elevantteja tuloksia, vaikka tulokset tulisivat salamannopeasti ja halvalla Hakutulos on elevantti, jos se tajoaa hakijalle hänen haluamaansa tietoa eli tyydyttää käyttäjän tietotapeen on hankala asia Hakutulos, joka esitetyn kyselyn kannalta näyttäisi elevantilta ei välttämättä ole sitä käyttäjän tietotapeen kannalta Takastellaan esimekkinä tilannetta, jossa käyttäjä haluaa saada tietoa siitä onko punaviinin juominen sydänkohtauksen iskin vähentämisen kannalta tehokkaampaa kuin valkoviinin juominen Tätä vaten hän tekee kyselyn: wine and ed and white and heat and attack Tuloksena tulee mm. dokumentti, jossa todetaan: He then launched into the heat of his speech and attacked the wine industy lobby fo downplaying the ole of ed and white wine in dunk diving. Tämäon selkeästi kyselyn kannalta elevantti, muttatietotapeenkannalta ei Käyttäjän tyytyväisyyttä voidaan mitata elevanssilla suhteessa tietotapeeseen 3 Mittaeita Takkuus (pecision): Kuinka suui osa saaduista tuloksista on elevantteja P= #elevantit_tuloksessa / #tulos Saanti (ecall): Kuinka suuen osan aineiston elevanteista dokumenteista vastaus kattaa. R= #elevantit_tuloksessa / # elevantit_aineistossa Useassa tapauksessa esim. webbihauissa takkuus on täkeämpi, on toivottavaa, että ensimmäisten tulosdokumenttien joukossa ei ole paljon huteja Joissain tilanteissa mahdollisimman kattava saanti voi olla täkeää 4 F-mittaa (painotettu hamoninen keskiavo) voidaan käyttää yhdistämään takkuus- ja saantimitat takkuus.8 Missä ( b ) PR F, a ( a) b P R P R a b a Jos b= olisi F=PR/(P+R) Rankattujen tulosten yhteydessä käytetty: takkuus-saanti käyä => takkuus kun saanti on kiinnitetty ( point cuve).6.4...4.6 Jos halutaan puolet elevanteista, niin jokaista elevanttia kohden hutia.8 saanti 5 6 H.Laine

Helsingin yliopisto/ TKTL, k 4 3.3.4 a on peinteisesti takasteltu kaksiavoisena suueena elevantti/ei-elevantti (/) Muita haun hyvyyden mittoja Ei asteisesti elevantti: 3-6 avoinen asteikko, Esimekiksi Ei lainkaan, Kohtuullinen, Hyvä Hyödyllisyys (usefulness, utility) Käyttäjäpefeenssi (use pefeence) fai fai good 7 8 palaute ja kyselyjen laajentaminen Kyselyt eivät aina onnistu löytämään elevantteja dokumentteja: Kyselytemien esiintyminen dokumenteissa ei noudata ankkauksen peustana olevia oletuksia Fekvenssiä pienentää esimekiksi synonyymien käyttö ja tautologian välttely Käyttäjä voi yittää vaikuttaa asiaan kyselyä muokkaamalla Hakujäjestelmä voisi tehdä muokkausta käyttäjän puolesta Saantia voidaan paantaa elevanssipalautetta hyödyntämällä tai globaalilla kyselyn muokkauksella palauteen (elevance feedback) hyödyntäminen: Käyttäjä antaa kyselyn Jäjestelmä tuottaa vastauksena alustavan hakutuloksen Käyttäjä avioi osan tulosdokumenteista elevanteiksi tai epäelevanteiksi Jäjestelmä muokkaa kyselyä (toivottavasti paemmaksi) Jäjestelmä tuottaa uuden tuloksen Yksi tai useampia iteaatioita. Taustalla ajatus: Käyttäjän on vaikea laatia kysely, kun hän ei tunne hyvin jäjestelmän tajoamaa sisältöä. Käyttäjä kuitenkin tunnistaa elevantin dokumentin. 9 Initial quey: [new space satellite applications] Kyselyn tulokset : ( = ank) +.539 NASA Hasn t Scapped Imaging Spectomete +.533 NASA ScatchesEnvionment GeaFomSatellitePlan 3.58 Science Panel Backs NASA Satellite Plan, But Uges Launches of Smalle Pobes 4.56 A NASA Satellite Poject Accomplishes Incedible Feat: Staying Within Budget 5.55 Scientist Who Exposed Global Waming Poposes Satellites fo Climate Reseach 6.54 Repot Povides Suppot fo the Citics Of Using Big Satellites to Study Climate 7.56 Aianespace Receives Satellite Launch Pact Fom Telesat Canada +8.59 Telecommunications Tale of Two Companies Muutettu kysely ja kyselytemien painot.74 new 5.6 space 3.86 satellite 5.66 application 5.99 nasa 5.96 eos 4.96 launch 3.97 aste 3.56 instument 3.446 aianespace 3.4 bundespost.86 ss.79 ocket.53 scientist.3 boadcast.7 eath.836 oil.646 measue Alkupeäinen oli: new space satellite applications Mekatut elevantit H.Laine

Helsingin yliopisto/ TKTL, k 4 3.3.4 Uusi tulos * ().53 NASA Scatches Envionment Gea Fom Satellite Plan * ().5 NASA Hasn t Scapped Imaging Spectomete 3.493 When the Pentagon Launches a Secet Satellite, Space Sleuths Do Some Spy Wok of Thei Own 4.493 NASA Uses Wam Supeconductos Fo Fast Cicuit * 5 (8).49 Telecommunications Tale of Two Companies 6.49 Soviets May Adapt Pats of SS- Missile Fo Commecial Use 7.49 Gaping Gap: Pentagon Lags in Race To Match the Soviets In Rocket Launches 8.49 Rescue of Satellite By Space Agency To Cost $9 Million Keskiö (centoid) on pistejoukon painopiste Dokumentit kuvataan pisteinä moniulotteisessa avauudessa, joten dokumenttijoukolle voidaan laskea keskiö: D ( ) v( d D ) d D Missä D on dokumenttijoukko ja v(d) dokumenttia d kuvaava vektoi (piste) 3 4 dokumentteja keskiö Tietotapeen kannalta kysely on optimaalinen, jos sitä kuvaava kyselyvektoi on maksimaalisen lähellä elevanttien dokumenttien joukkoa C ja mahdollisimman etäällä epäelevanttien dokumenttien joukosta C n q opt agmax [cos( q, ( C )) cos( q, ( C ))] q {Joukkoja kuvaavat niiden keskiöt ja läheisyysmittana on yksikkövektoeiden kosini. ag max x [f(x)] antaa sellaisen x:n avon, jolla f(x) saa maksimiavon } n 5 6 Optimaalinen kysely on elevanttien dokumenttien keskiöstä tämän ja epäelevanttien dokumenttien keskiöiden välisen etäisyyden vean jälkimmäisestä poispäin oleva piste qopt v( d ) ( v( d) v( d )) C C C d C d C n d Cn palautteen tapauksessa elevanttien ja epäelevanttien dokumenttien joukko ei kuitenkaan ole tiedossa, on vain muutama näyte. q opt (C ) C C n (C )- (C n ) (C n ) 7 8 H.Laine 3

Helsingin yliopisto/ TKTL, k 4 3.3.4 Roggion algoitmi ehdottaa uudelle muunnetulle kyselylle vektoia q q ( ) v( d) m q on alkupeäinen kysely, C fb ja C fbn ovat tiedossa olevat elevantit ja epäelevantit dokumentit ja, ja säädettäviä ketoimia (tyypillisiä avoja =, =.75 ja =.5 tai ) Negatiiviset painot nollataan Kaava siitää kyselyä kohti elevanttien klusteia ja poispäin epäelevanttien klusteista v d C fb d C C fb fbn d C fbn negatiivisten keskiö alkupeäinen tulos uusi kysely alkupeäinen kysely positiivisten keskiö uusi tulos 9 palautteen hyödyntämiseen liittyviä oletuksia:. Käyttäjä tuntee aineiston niin hyvin, että osaa muotoilla kohtuullisen hyvin alkupeäisen kyselyn Kijoitusviheet, poikkeava sanasto, eikielisyys ikkovat oletuksen. Relevantit dokumentit sisältävät samankaltaisia temejä samoin jakautuneina Dokumentit tiiviisti klusteoituneita, epäelevanttien ja elevanttien yhtäläisyydet vähäisiä Epäelevantit keskenään samankaltaisia (?) Samat temit liittyvät samaan asiaan (?) Kun kyselyjä tehdään dokumentin sisällön peusteella, niihin tulee paljon temejä Pitäisi katkaista Pitkät kyselyt ovat hitaita ja kalliita Käyttäjät eivät ole olleet eityisen innostuneita Hidastaa Käyttäjillä vaikeuksia nähdä, miksi jokin tulos tulee mukaan Kokeiltu myös webbihauissa (Excite) Käyttö oli vähäistä, Poistettiin tapeettomana Nykyäänkin on tajolla Simila tai Moe like this linkkejä, mutta ne eivät välttämättä aiheuta uutta kyselyä vaan tajoavat pääsyn katkaistuun vastausjoukkoon. Pseudoelevanssi palautteen vaihtoehtona on käyttäjän tekemä kyselyn muokkaus Tätä voi avustaa tajoamalla valmiita esim. faasipeustaisia vaihtoehtoja, joiden on havaittu olevan lähellä alkupeäistä kyselyä Pseudoelevanssiin peustuvassa kyselymuokkauksessa käyttäjän ei tavitse tehdä mitään. Relevanttisuus ei ole aitoa vaan avaus. Menettelyssä haetaan kyselyn peusteella k paasta vastausdokumenttia. Nämä oletetaan kaikki elevanteiksi ja muokataan uusi kysely näiden peusteella (Roggion algoitmilla). Muokatun kyselyn tulos palautetaan käyttäjälle Toimii keskimääin hyvin, mutta voi mennä myös pahasti pieleen 3 4 H.Laine 4

Helsingin yliopisto/ TKTL, k 4 3.3.4 Epäsuoa elevanssi Epäsuoa elevanssi peustuu ajatukseen, että käyttäjien katsomat dokumentit ovat elevantteja ja katsomatta jätetyt eivät ole Kyselyä voitaisiin muokata siis katsottujen ( klikattujen) peusteella Vaivattomampaa kuin eksplisiittinen luokittelu Edellyttää, että dokumentin kuvailutiedot ovat iittävät muuhun kuin satunnaiseen klikkailuun Voidaan tehdä kyselykohtaisesti tai keätä tietoa globaalia kyselyistä iippumatonta käsittelyä vaten (esim. milloin mainoksia katsotaan() 5 Esimekki : Haettu temeillä: infomation etieval elevance feedback Tajotaan: samanlaisia, aiheeseen liittyviä, vaihtoehtoisia kyselyjä [PDF]A suvey on the use of elevance feedback fo infomation access... www.dcs.gla.ac.uk/.../ke_uthven_lalmas.pdf Cached Simila Univesity of Glasgow by I Ruthven - Cited by 37 - Related aticles elevance feedback systems and chaacteistics of seaches that can affect the... Infomation etieval (IR) systems allow uses to access lage amounts of... [PDF]Intoduction to Infomation Retieval www.cis.uni-muenchen.de/.../... Cached Simila Ludwig Maximilian Univesity of Munich by H Schütze - 3 - Cited by 7 - Related aticles May 9, 3 - Relevance feedback: Details. Quey expansion. Intoduction to Infomation Retieval http://infomationetieval.og. IIR 9: Relevance Feedback... Seaches elated to infomation etieval elevance feedback adaptive elevance feedback in infomation etieval elevance feedback in infomation etieval occhio 6 Globaali kyselyn muokkaus Globaali kyselyn muokkaus Kyselyä muokataan johonkin globaaliin esussiin esimekiksi sanastoon peustuen. Pääasiallinen tavoite on saada synonyymit tai samankaltaisuudet mukaan kyselyyn. Väljentää kyselyä, lisää saantia, mutta voi vähentää takkuutta. Tesauus on sanasto, jossa kuvataan temien välisiä suhteita. Tiedonhaun kannalta synonyymit ovat mekittäviä, samoin yleistykset ja eikoistukset. Tesauus voi olla manuaalisesti ylläpidetty ei alojen eikoissanastot, tai automaattisesti luotu Manuaalinen tesauuksen ylläpito vaatii henkilöesusseja, On kallista Tesauus on hyvälaatuinen Automaattisesti luotava tesauus syntyy dokumentteja analysoimalla Sanojen yhteisesiintyminen Kielelliset kytkennät sanojen välillä 7 8 Tesauus Samankaltaisuus peustuu yhdessäoloon tai yhteisiin kaveeihin Usein yhdessä esiintyvillä sanoilla on jokin mekityksellinen yhteys ei tiedetä mikä Sanat ovat samankaltaisia, jos ne esiintyvät yhdessä samojen sanojen kanssa Esimekiksi ca ja automobile esiintyvät yhdessä sanojen oad, gas, licence, dive, passange, jne kanssa, joten ne ovat samankaltaisia ja voisivat olla vaihtoehtoja Kielellinen analyysi selvittää sanojen kielellisiä iippuvuuksia Sanat ovat samankaltaisia, jos se ovat samoissa kielellisissä suhteissa toisten sanojen kanssa. Omenoita ja pääynöitä voidaan keätä, kuoia, syödä, pakastaa, keittää, joten se ovat samankaltaisia. 9 3 H.Laine 5