10. WWW-tiedonhaku WWW-tiedonhaun erityispiirteitä

Samankaltaiset tiedostot
TIEDONHAKU INTERNETISTÄ

[6.2 Hypertekstin tiedonhakumalleja (jatkoa)] ARC algoritmi: 3º Linkkitekstin huomiointi

Internet. Tiedon haun tekniikkaa ja ongelmia. Tietotekniikan perusteet Helsingin ammattikorkeakoulu Stadia Vesa Ollikainen

ARVO - verkkomateriaalien arviointiin

Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin?

6. Hyperteksti ja tiedonhaku. Hypertekstissä solmu on vahva, riittävä peruskäsite.

Web of ScienceTM Core Collection (1987-present)

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

Summon tehokas monihaku

Julkaisuarkistojen käyttötilastot: Mitä tilastoidaan ja miksi?

Ovid Medline käyttöohjeita (10/2010)

PIKAOHJE Web of Science tietokantojen käyttöön

ICT1TN004 Hakukoneoptimoin p ti Heikki Hiet Hie ala t

CINAHL(EBSCO) käyttöohjeita (10/2010)

8 Tiedonhaun apuvälineet

Linkkitekstit. Kaikkein vanhin WWW-suunnitteluohje:

Hakukoneoptimoinnin ABC

10 helppoa käytännön ohjetta SEO-optimointiin.

10 yleistä hakukoneoptimointivirhettä

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

10 yleistä hakukoneoptimointivirhettä

Tiedonhaku korkeakouluopinnoissa

Porin tiedekirjasto ja TTY:n verkkoaineistot

HAKURATKAISUN ANATOMIA - KURKISTUS PELLIN ALLE

Sivuston tiedotle-vintage.fr

TIEDONHANKINNAN PERUSTEET (1 op) harjoitus 3 (TaY Pori syksy 2014)

B U S I N E S S O U L U

TIEDONHANKINNAN PERUSTEET (1 op) harjoitus 1 (TaY Pori syksy 2014)

Sivuston tiedotemreemir.com

Vinkkejä musiikin tiedonhakuun OUTI-verkkokirjastossa

Semanttisen webin käyttöliittymäratkaisut. Tiedonhallinta semanttisessa webissä Osma Suominen

Hankeviestijä hakukoneiden ihmeellisessä maailmassa. Joonas Jukkara, SEOSEON Ltd.

ARTIKKELITIETOKANNAT JA OMANELLI PIRJO POHJOLAINEN

TIEDONHANKINNAN PERUSTEET (1 op) harjoitus 3 (TaY Pori syksy 2013)

Sähköpostin arkistointi

Eero Hyvönen. Semanttinen web. Linkitetyn avoimen datan käsikirja

Kuinka tutkijat hakevat tietoa Aaltoyliopiston

Sivuston tiedotakcp-sensor.de

Ilmiöprojektin tiedonhankinta

Iltalehti Kauppalehti Aamulehti Lapin Kansa Satakunnan Kansa Kainuun Sanomat Pohjolan Sanomat

Semantic Web käytännön sovelluksissa. TkT Janne Saarela Profium Oy

10 helppoa SEO-ohjetta

DigiReWork - digitaalisuus työelämän uudistajana

SANAKIRJA # S E O H A L T U UN # B L O G G A A J A NSEO # S E O J A S M O

Sivuston tiedotmysiteworthcheck.com

PubMed lääketieteellinen kokoteksti- ja viitetietokanta

DIGITAALISEN OPPIMATERIAALIN KÄYTTÖ JA SAATAVUUS, mitä, mistä ja miten. Ella Kiesi Opetushallitus

ARVO - verkkomateriaalien arviointiin

Metatieto mihin ja miten? Juha Hakala Helsingin yliopiston kirjasto

HAKUKONEOPTIMOINTI (SEO)

Sähköisten materiaalien käyttö tableteilla

Google Sites: sivun muokkaaminen (esim. tekstin, kuvien, linkkien, tiedostojen, videoiden ym. lisääminen)

Porin tiedekirjasto ja TTY:n verkkoaineistot

Sivuston tiedotskillers.tech

Avoin data Avoin kirjasto Kuvailupäivät

Finna Tunnusluvut

Hakukoneoptimointi. DigiReWork hanke Hamk.fi/digirework. Digityöpaja, Outi Mertamo.

Vinkkejä musiikin tiedonhakuun OUTI-verkkokirjastossa

Ontologiat merkitysten mallintamisessa: OWL. Eeva Ahonen

Etsintä verkosta (Searching from the Web) T Datasta tietoon Jouni Seppänen

Näin sisällönkuvailen. Sisällönkuvailupäivä Liisa Virtanen Kansalliskirjasto

Tiedonhaku opiskelun osana CHEM Virpi Palmgren Tietoasiantuntija DI Oppimiskeskus beta

Tauon jälkeen tutkijaksi. Informaatikko Marja Kokko

The OWL-S are not what they seem

Tiedonlähteille NELLIn kautta -

Tiedonhaku Nelli-portaalissa

Sivuston tiedotwindowsrepublic.com.au

Sivuston tiedotgoogle.com

CIRI Ontologiaperustainen tiedonhakuliittymä

Yhteentoimiva.suomi.fi - palvelukokonaisuuden ja työkalujen esittely

SeaMonkey pikaopas - 1

Suomi.fi-verkkopalvelu

Sivuston tiedotreviewproducts.org

Ebrary-palvelun e-kirjojen lukeminen selaimessa

Kirjastoinfo TaY Pori Porin tiedekirjasto

Kuvailusäännöt, formaatti ja kirjastojärjestelmä

Suomen virtuaaliammattikorkeakoulu Tapauskertomus tietojärjestelmähanke > 80 % % % < 50 % Suhteellinen osuus maksimiarvosta (%)

Tentissä ratkaistaan neljä ohjelmointitehtävää Javalla. Tehdään sähköisesti mikroluokan Windows-koneilla.

Sivuston tiedotmarking.seoonline.xyz

Finna ja ontologiat tms.

Sivuston tiedotaskgeek.io

Luento 12: XML ja metatieto

TYÖKALUT HAKUKONEOPTIMOINTIIN

Järjestelmäarkkitehtuuri (TK081702)

Nelli kaukopalvelutyössä

Vasteaika. Vasteaikaa koskeva ohje ei ole juuri muuttunut Robert B. Millerin vuonna 1968 pitämästä esityksestä:

Suomi.fi: Asiointi ja lomakkeet osion käyttöliittymämallien käyttäjätestaus. Testaustulosten esittely

NELLI Kansallinen tiedonhakujärjestelmä

Hieman linkkejä: lyhyt ohje komentoriviohjelmointiin.

Tee html-sivu, jossa on yllä olevat kaksi taulukkoa.

FeedNavigator. BMF Tiina Heino. Terveystieteiden keskuskirjasto - Terkko Lääketieteellinen tiedekunta

NELLI PORTAALIN KÄYTTÖOPAS

Helsinki Testbedin säätuotteet tänään ja tulevaisuudessa

ARVO - verkkomateriaalien arviointiin Arvioitava kohde: Excel-Esitystapa, Arvioija: Juha Kuula, Arviointipäivämäärä:

Suomen museoliiton Kookos-kokoelmahallinta sisältää kaiken tarvittavan

Tiedonhaku. Esim. kymenlaakso muutosjohtami* Laila Hirvisaari Tuntematon sotilas Ruksi tyhjentää hakukentän.

Verkkojalanjälki Digitaalinen löydettävyys ja maineenhallinta

Lumme-verkkokirjaston tiedonhaun opas Pieksämäen kaupunginkirjasto

1. Johdanto. Näkökulma dokumentti kohteena on yksinkertaistettu: - www-sivu tai -sivujoukko - monimutkainen tiedontarve

Transkriptio:

Tiedonhakumenetelmät 1 Luku 10. WWW-tiedonhaku Tiedonhakumenetelmät 2 Luku 10. WWW-tiedonhaku 10. WWW-tiedonhaku = yhteenvedon luonteista WWW-tiedonhausta, kehityksestä Lähteitä: BYRN, Ch. 13 IEEE Data Engineering Bulletin 23,3 (2000) (special issue on Next-Generation Web Search) 10.1 WWW-tiedonhaun erityispiirteitä - hajautettu järjestelmä: tiedot todella monessa pisteessä (miten otetaan huomioon?) - tiedot hyvin muuttuvia haun tuloksessa usein vanhentuneita linkkejä entä sivujen sisältö? vrt. perinteisen kirjaston kokoelmat... - suuret, jatkuvasti kasvavat volyymit - kokoelman struktuuri epäselvä, toisteista tietoa (jopa 30%) käsitemallina hyperteksti, todellisuus vapaampi myös sivujen rakenne ja laatu vaihtelevat - kokoelman luotettavuus huono kaikkia mahdollisia virheitä: vääriä tietoja, vanhaa, tyyliltään huonoa, viimeistelemätöntä (esim. joka kolmas nimi väärin kirjoitettu (?)) - heterogeenistä: eri muotoja, medioita, kieliä, jopa aakkostoja WWW-dokumenttien tekstiominaisuudet: sanasto suhteessa laajempi kuin paremmin kontrolloiduille teksteille, sanojen frekvenssit vaihtelevat enemmän (onko silti merkitystä?) - käyttäjän ongelmat: kyselyn muoto, tuloksen tulkinta ja käsittely (suuri määrä, yksittäinen dokumentti voi olla suuri, ilman metatietoja?) Perusasetelma silti sama kuin muille kokoelmille... Tiedonhakumenetelmät 3 Luku 10. WWW-tiedonhaku Tiedonhakumenetelmät 4 Luku 10. WWW-tiedonhaku Hakukoneiden arkkitehtuureja 1 Keskitetty järjestelmä indeksointi yhdessä pisteessä robotit hakevat tietoa verkon eri paikoista käyttö yhden pisteen (indeksin) kautta mirror-pisteitä (USA, Eurooppa,...) - riittääkö keskitetyn järjestelmän teho enää kauan? - arviot hakukoneiden indeksien kattavuudesta (1998): 15-50 % kaikista sivuista (yli 300 milj.) (nyt ainakin pari miljardia?) 2 Hajautettu arkkitehtuuri - monet hakukoneet käyttävät nyt jo yhteistä indeksiä (vähentää palvelinten kuormitusta, tietoliikennettä) - usean keräilijän (gatherer) käyttö vähentää liikennettä; voi olla useita välittäjiä, joihin käyttäjät ovat yhteydessä (Harvest-järjestelmä) - toistopalvelimia esim. maantieteellisin syin - keräilijät toimivat järjestelmällisesti (periodein) Indeksien koot (4/2001) 200..500..700 milj. sivua (Google palauttaa linkkiyhteyksien takia kaksinkertaisen määrän eli noin 1.3 mrd. sivua.) - eräiden indeksien kasvu 2000->2001 noin 100%

Tiedonhakumenetelmät 5 Luku 10. WWW-tiedonhaku Tiedonhakumenetelmät 6 Luku 10. WWW-tiedonhaku Käyttöliittymät - kyselyn esitys, tuloksen esitys - yleisesti yksinkertainen ja laajempi kyselymuoto kehittyneempiä piirteitä (HotBot, NorthernLight) and ja or, vaaditut, toivotut, kielletyt sanat, fraasit otsikko, henkilö useita kieliä aikarajoja, joustavia aikailmaisuja ( viime viikko maantieteellisiä alueita, domain-alueita valitut luokat Arts, Computing, Education, Medicine,... sivusto- tai sivutyypit Commercial, Educational, Military sites learning, questions/answers, press releases sivun sisältöön kuuluvia objektityyppejä kuvamuotoja, audio, Java,... sanojen katkaisu, vartalo? sivun asema rakenteessa (syvyys) domain-kohtainen määrärajoitus Sivujen haku verkosta (crawling) - linkit syvyys- tai leveyssuuntaisesti - rajoituksia syvyydelle (eri tapojen edullisuus?) - aikamääreitä: haku periodeittain - myös sivun muutostiheyttä voidaan seurata - sivuun osoittavien linkkien huomiointi - lähetetyt sivut (seurauksena myös vaara indeksien manipuloinnista) Hakurobottien vaikutus palvelimiin - kuormittavat; tarpeen minimoida - jotkut haluavat estää indeksoinnin kokonaan Robotin toteuttajan etiketti (Koster, 1994) - tarvitsetko oman robotin? - tunnistettavuus - ei turhia hakuja tuloksen esitysmuodolla muutama (tuttu) vaihtoehto, tulosten järjestäminen ja ryhmittely relevanssi, joskus aika Tiedonhakumenetelmät 7 Luku 10. WWW-tiedonhaku Tiedonhakumenetelmät 8 Luku 10. WWW-tiedonhaku Robotin estoprotokolla - palvelimella tiedosto.../robots.txt voi sisältää kiellon tietyille roboteille tiettyyn hakemistohierarkian osaan tai tiedostoon Esim. Disallow: / Disallow: Disallow: /cgi-bin/ Disallow: /minun_omat/ Disallow: /minun/tama_vain.html User-agent: WebCrawler Disallow: Disallow: / Indeksit - käänteishakemistoja, erilaisia piirteitä - tulokseen tiedot hakemistosta, siis esim. ensimmäiset rivit ym. tulokseen liittyvät indeksiin (+ koko, pvm, otsikko jne) - indeksin koko esim. luokkaa 150 GB / 100 milj. sivua (kuvaustiedot noin 500 tavua) - lähekkäisyyskyselyt ja fraasit vaativat sanaesiintymien paikat - hakemisto järjestyksessä: binäärihaku tyypillinen - monta hakusanaa: hakutulosten yhdistäminen (vrt. tietokantatekniikka) - koko tuloksen muodostus kerralla yleistä (usein käytetään vain ensimmäisiä sivuja!), myös lazy evaluation... - monimutkaiset haut (likimääräiset jne) vaativat helposti koko hakemiston selausta; liian hidas WWW:lle HTML:n META-tag: <meta name= robots content= noindex, nofollow > - kielletään indeksointi, linkin seuraaminen

Tiedonhakumenetelmät 9 Luku 10. WWW-tiedonhaku Selaustyyppinen haku - sellaisenaan liian hidasta (paitsi pienessä sivustossa, muutaman linkin verran) - luokitteluun perustuvat hakemistot (esim. Yahoo) - haun ja (hakemisto)selauksen yhdistäminen trendinä - luokkahakemisto voi olla laaja (kymmeniä tuhansia luokkia) - aiheenmukaisia luokkia, paikkaa tai aikaa ilmaisevia jne Tiedonhakumenetelmät 10 Luku 10. WWWtiedonhaku Metahakukoneet - kysely lähetetään monelle hakukoneelle (5..25), tulokset yhdistetään (esim. MetaCrawler) - yksi käyttöliittymä - pääsy eri indekseihin (eri hakukoneiden indeksien päällekkäisyys yllättävän vähäistä) - tuloksen muodostamisessa erilaisia tapoja dokumenttien järjestys monen tekijän mukaan painotus: esim. monen koneen löytämät ensin Haun ja selauksen yhdistäminen: - käyttäjä yksinkertaisesti vuorottelee... esim. WebGlimpse: search box (+ naapurisolmut jne) - erinäisiä apuvälineitä: sivuston havainnollistaminen visuaalisesti, standardien puuttuessa ei globaalissa käytössä Tiedonhakumenetelmät 11 Luku 10. WWWtiedonhaku Yhteenveto finding the needle in the haystack Käyttäjän ongelmia: - kyselyn sisältö ja muoto (vrt. käyttöliittymät edellä) erillisten sanojen merkitys and/or-vaikeudet (! operaatioita käytetään vähän) kirjoitusasun vaikeudet isot/pienet kirjaimet, erisnimet, vieraskieliset sanat synonyymi/homonyymi-ongelmat Esim. pelit Shogi, Go: Go vaikea löytää (merkitykset, Go/go) haun tarkoitus vaikea kuvata Esim. jaguar speed - tuloksen hahmottaminen Tiedonhakumenetelmät 12 Luku 10. WWWtiedonhaku Kyselyjen tekemistä on tutkittu: - hakukoneen valinta: helppokäyttöisyys, nopeus, indeksin kattavuus, kokemus yleensä, kokemus tulosten relevanssista - käyttötarkoituksia: tutkimus, vapaa-aika, kaupalliset, opiskelu - kyselyt: 25 %: yksi termi keskimäärin 2.5 termiä (max 393! agentit vääristävät) kyselyä muunnetaan harvoin (20 %) 64 % kyselyistä uniikkeja (?) tuloksen käsittely: 85 % tyytyy tuloksen ensimmäiseen näyttöön (10) koko, järjestys eri tavoin epäselvä yleensä ei voi tallentaa ja kokeilla joustavasti (uusi selainikkuna...)

Tiedonhakumenetelmät 13 Luku 10. WWWtiedonhaku Esim. (BYRN) Aihekohtainen haku (esim. tutkimusaihe): - valitaan tiedossa oleva relevantti artikkeli - haetaan sen tekijöiden nimillä (yleiset / harvinaiset!) - saadaan uudempia viiteosumien kautta, ja muita mahdollisesti relevantteja - saadaan tekijöiden kotisivut - iteroidaan... kovin heuristista! Entä hakemistot? - yleensä liian ylimalkaisia varsinaisen tuloksen löytämiseksi not enough depth to find the needle ( search engines return too much hay with the needle ) BYRNin yleisohje kyselytarpeen mukaan: - tarkka haku (esim. termin määritelmä, selitys) käytä tietosanakirjaa (eli valmiiksi jäsennettyä tietolähdettä) - väljä hakukohde (laaja tai tuntematon asia) käytä hakemistoa aihepiiriin pääsemiseen (sitten laajuudesta riippuen selausta tai tarkennettua hakua) - epäselvä hakukohde käytä hakukonetta, varaudu muuntamaan kyselyä eli iteroimaan Tiedonhakumenetelmät 14 Luku 10. WWWtiedonhaku 10.2 Tulevaisuus IEEE-artikkelin teemat: - linkki-informaation käyttö: PageRank, HITS ym. - sivun aiheen määritys epäsuorasti viittausten perusteella - aihe-keskeiset haut - kontekstin käyttö haun tukena - hajautettu tiedonhaku: monitietokantamalli - Hearst: Next generation web search: setting our sites 1. Johdanto Käyttäjien tyytyväisyys on aikaisempaa parempi (jopa 80%). - vaikka kyselyt minimaalisen lyhyitä: yleensä 2 sanaa Selitys? - haku on tarkoitettu vain lähtökohdaksi; löytynyt sivusto tutkitaan selaamalla tai paikallisella haulla hakua tarkennetaan (refine) Muita kehityspiirteitä: - hakukoneet ilmaisevat tuloksen yhteyden johonkin luokitteluun Esim. horseradish Recreation > Food Business > Industries > Food Products > Wegetables - linkkiyhteyksien huomiointi: osoitetut sivut (sivustot) ovat hyviä lähtökohtia jatkaa Tiedonhakumenetelmät 15 Luku 10. WWWtiedonhaku 2. Sivustohaku, tehtävän merkitys - näkökulma yksittäisen sivun sijasta sivustoon ja tehtävään - käyttäjä selaa mielellään, jos sivusto tukee sitä sivulla on näkyvissä, mihin se liittyy seuraava/edellinen jne liikkuminen on teknisesti joustavaa - sivuston suunnittelu (selaavaa hakua varten) on tärkeää; vaikeaa: käyttötapoja, -tilanteita paljon Kokeista: käyttäjä luulee toimineensa nopeasti, jos hän on voinut edetä mielekkäästi (vaikka sivut latautuisivat hitaasti - (?)) - metadatan merkitys: luokittelun luonteiset metatiedot auttavat erottamaan erityyppisiä dokumentteja tieteelliset artikkelit, reseptit, arkkitehtuurikuvat,... metadatan haku on varsinaista dataa deterministisempää kaikki luokkaan tekoäly kuuluvat artikkkelit vs. kaikki artikkelit, joissa jotain tekoälystä luokittelun yhteydessä voidaan ilmoittaa luokkaan kuuluvien dokumenttien määrä (vaikuttaa selaamiseen) jos luokkia/dokumentteja on paljon search-tyyppisen paikallisen haun merkitys korostuu dynaamiset kyselyt, useita dimensioita esim. alue, aika (muiden tietojen ohella) Tiedonhakumenetelmät 16 Luku 10. WWWtiedonhaku related -tyyppiset yhteydet voivat olla hankaliakin: esim. ravintolaa etsittäessä voidaan olla kiinnostuneita muista iltamenoista tai ei - metadata voi olla dynaamista : luokat muodostetaan haun jälkeen (eräänlaista ryvästämistä) - kaikki aihepiirit eivät ole hyvin jäsentyneitä - haun tuloksen muodostus voisi olla dynaamista: alkuvaiheessa overview-dokumentteja syvemmällä vain erikoistuneempia - tuloksen esitysjärjestyksiä: tekijöittäin, aihepiireittäin, populaarisuuteen perustuen (muut käyttäjät) jne [yhteys Flamenco-projektiin... ] 3. Muita sivuhaun näkökulmia - sivuston järjestäminen organisaation mukaisesti (periaatteessa aika yleistä...), organisaation käyttö tuloksen esittämiseen - Berkeleyn yliopiston sivut: esim. haku earthquake tuloksen osat järjestetään osastokohtaisiin ryhmiin (sopii hyvin joskus, ei aina...) - Citeseer: tutkimusjulkaisut tulokseen liitetään viittaus-, related- yms. tietoja

Tiedonhakumenetelmät 17 Luku 10. WWWtiedonhaku - luonnollisen kielen käyttö, question/answering (alakohtaisena hyvä, yleisenä?) Hearstin yhteenveto: - hakukoneet tulisi saada ottamaan käyttäjän tehtävä huomioon: ei kokoelmakeskeistä, vaan tehtäväkeskeistä Tiedonhakumenetelmät 18 Luku 10. WWWtiedonhaku BYRN: trendejä, tutkimuskohteita: - tiedonhaun mallintaminen (erityisesti WWW:lle) linkkirakenteet kyselyjen/suodatuksen yhteys - kyselyt rakenteen ja sisällön käytön yhdistäminen visuaaliset piirteet luonnollinen kieli - hajautetut arkkitehtuurit välttämättömyys volyymin kasvaessa palvelimet vai tiedonsiirto rajoitteena? - tuloksen järjestelyn parantaminen relevanssi, muu erottelu - indeksointi tiivistysmenetelmät - dynaamisten sivujen haku hidden Web käyttöön - toistuvan tiedon eliminointi - multimediahaut - käyttöliittymien kehittäminen - selaustyyppinen haku erikseen, yhdessä kyselyjen kanssa