6. Hyperteksti ja tiedonhaku. Hypertekstissä solmu on vahva, riittävä peruskäsite.



Samankaltaiset tiedostot
[6.2 Hypertekstin tiedonhakumalleja (jatkoa)] ARC algoritmi: 3º Linkkitekstin huomiointi

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

Etsintä verkosta (Searching from the Web) T Datasta tietoon Jouni Seppänen

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea.

8 Tiedonhaun apuvälineet

CIRI Ontologiaperustainen tiedonhakuliittymä

Vinkkejä yrityksen löydettävyyden ja hakukonenäkyvyyden parantamiseen. Jukka Kumpusalo Mikkelin kehitysyhtiö Miksei Oy

Luku 9. Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa

Tämän luvun sisältö. Luku 9. Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa. Webin lyhyt historia 1992: ensimmäisiä selaimia

TIEDONHAKU INTERNETISTÄ

Algoritmit 2. Luento 7 Ti Timo Männikkö

ARVO - verkkomateriaalien arviointiin

10. WWW-tiedonhaku WWW-tiedonhaun erityispiirteitä

Linkit webbihauissa / PageRank

Web of ScienceTM Core Collection (1987-present)

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

Luento 12: XML ja metatieto

Algoritmit 1. Luento 7 Ti Timo Männikkö

Summon tehokas monihaku

Eero Hyvönen. Semanttinen web. Linkitetyn avoimen datan käsikirja

Tiedonhakumenetelmät Tiedonhakumenetelmät Helsingin yliopisto / TKTL. H.Laine 1. Rankkaukseen perustuva tiedonhaku.

CODEONLINE. Monni Oo- ja Java-harjoituksia. Version 1.0

Ovid Medline käyttöohjeita (10/2010)

Ilmiöprojektin tiedonhankinta

Tiedonhaku opiskelun osana CHEM Virpi Palmgren Tietoasiantuntija DI Oppimiskeskus beta

Hankeviestijä hakukoneiden ihmeellisessä maailmassa. Joonas Jukkara, SEOSEON Ltd.

Algoritmit 1. Luento 9 Ti Timo Männikkö

Tietorakenteet ja algoritmit - syksy

Olkoon seuraavaksi G 2 sellainen tasan n solmua sisältävä suunnattu verkko,

Tietorakenteet ja algoritmit Johdanto Lauri Malmi / Ari Korhonen

Hakukoneoptimointi. DigiReWork hanke Hamk.fi/digirework. Digityöpaja, Outi Mertamo.

Tiedonlähteille NELLIn kautta -

KULTTUURIYMPÄRISTÖTIETO SIIRI TAMPEREEN KAUPUNKI, MUSEOPALVELUT, PIRKANMAAN MAAKUNTAMUSEO

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

DIGITAALISEN OPPIMATERIAALIN KÄYTTÖ JA SAATAVUUS, mitä, mistä ja miten. Ella Kiesi Opetushallitus

6 Linkit ja ankkurit 69

Päänäkymä Opiskelijan ohjeet Kurssin suorittaminen Opettajan ohjeet kurssin teko

Asko Ikävalko, k TP02S-D. Ohjelmointi (C-kieli) Projektityö. Työn valvoja: Olli Hämäläinen

Tauon jälkeen tutkijaksi. Informaatikko Marja Kokko

1. Johdanto. Näkökulma dokumentti kohteena on yksinkertaistettu: - www-sivu tai -sivujoukko - monimutkainen tiedontarve

Sivuston tiedotskillers.tech

Sivuston tiedotmysiteworthcheck.com

Teemu Kerola Kandidaatintutkielma Kevät 2017 (Tieteellisen kirjoittamisen kurssi, tiki)

3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset

JulkICT portaalin käyttöohje

Lumme-verkkokirjaston tiedonhaun opas Pieksämäen kaupunginkirjasto

Vinkkejä musiikin tiedonhakuun OUTI-verkkokirjastossa

Sivuston tiedotgoogle.com

13 Lyhimmät painotetut polut

Linkkitekstit. Kaikkein vanhin WWW-suunnitteluohje:

RATKI 1.0 Käyttäjän ohje

isomeerejä yhteensä yhdeksän kappaletta.

ESRC:n uusiutumassa olevat kotisivut on toteutettu WordPress-ohjelmalla (WP). Samaa ohjelmaa käyttävät menestyksellä ainakin SSql, HSRC ja JSK.

Monihaku ja sähköiset aineistot tutuksi. Jyväskylän kaupunginkirjaston tiedonhaun koulutus

Talonmiehen tuokio klo KANSALLISKIRJASTO

Semanttisen webin käyttöliittymäratkaisut. Tiedonhallinta semanttisessa webissä Osma Suominen

Työkalu ontologioiden editointiin ja ontologiapohjaiseen tiedonhakuun

HAKUKONEMARKKINOINTI KOTISIVUJEN PÄIVITYSOHJE

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Ilmiöprojektin tiedonhankinta

SISÄLLYSLUETTELO, KUVIEN JA TAULUKOIDEN AUTOMAATTINEN NUMEROINTI

PIKAOHJE Web of Science tietokantojen käyttöön

Terveys- ja yrityspalvelutyöpajan tutkimus Eero Hyvönen, Mikko Salonoja, Reetta Sinkkilä, Osma Suominen, Antti Tani

Kotisivu. Hakutoiminnon on oltava hyvin esillä lähes kaikilla kotisivuilla. Hakutoiminto on hyvä sijoittaa heti kotisivun yläosaan.

VVAA047 Hakuehdot VALDA 1.2

Suunnatut, etumerkilliset ja arvotetut graafit Sosiaalisten verkostojen analysoinnin näkökulmalla

Työvälineohjelmistot KSAO Liiketalous 1

Esimerkkinä - ilmainen blogi-julkaisujärjestelmä. WordPress:stä on myös palvelimelle asennettava versio (WordPress.

Tilastokeskus.fi väylä

PubMed-opas. kesäkuu 2012

Johdatus rakenteisiin dokumentteihin

TIEDONHAKU 1. HERVANNAN KIRJASTO TIETOTORI Insinöörinkatu Tampere

Ratkaisu. Tulkitaan de Bruijnin jonon etsimiseksi aakkostossa S := {0, 1} sanapituudelle n = 4. Neljän pituisia sanoja on N = 2 n = 16 kpl.

SISÄLLYSLUETTELO. Word Sisällysluettelo

Rajoittamattomat kieliopit (Unrestricted Grammars)

Vinkkejä musiikin tiedonhakuun OUTI-verkkokirjastossa

Kandidaatintutkielma, ryhmän ohjaus Teemu Kerola. Referaatti

6.4. Järjestyssuhteet

Suvi Junes/Pauliina Munter Tietohallinto/Opetusteknologiapalvelut 2014

EU-rikollisia koskevien tietojen laadun parantaminen

= 5! 2 2!3! = = 10. Edelleen tästä joukosta voidaan valita kolme särmää yhteensä = 10! 3 3!7! = = 120

Raporttiarkiston (RATKI) käyttöohjeet Ohjeet

Kombinatorinen optimointi

Ohjelmoinnin perusteet Y Python

3.1 Lineaarikuvaukset. MS-A0004/A0006 Matriisilaskenta. 3.1 Lineaarikuvaukset. 3.1 Lineaarikuvaukset

Jokaisella tiedostolla on otsake (header), joka sisältää tiedostoon liittyvää hallintatietoa

Algoritmit 2. Luento 11 Ti Timo Männikkö

Tietokannan luominen:

3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset. Olkoot A 2 := AA =

Pinot, jonot, yleisemmin sekvenssit: kokoelma peräkkäisiä alkioita (lineaarinen järjestys) Yleisempi tilanne: alkioiden hierarkia

Ebrary-palvelun e-kirjojen lukeminen selaimessa

Toiminnalliset ja ei-toiminnalliset vaatimukset Tunnus (ID) Vaatimus Vaatimuksen

Ruotsin oikeudelliset tiedonlähteet. Eduskunnan kirjaston avoin koulutus Johtava tietoasiantuntija Erika Bergström

Tiedonhakumenetelmät Tiedonhakumenetelmät Helsingin yliopisto, tktl, k2014. H.Laine 1

Käyttöohje Työturvallisuuskeskus RASSI Riskien arviointi sähköaloille Sisällys Yleistä Liitynnät Sovellusympäristö

Algoritmit 2. Luento 4 To Timo Männikkö

Kotisivuohjeet. Eteläpohjalaiset Kylät ry. Sivupohjien rakenne

Porin tiedekirjasto ja TTY:n verkkoaineistot

Transkriptio:

6. Hyperteksti ja tiedonhaku 6.1 Yleistä Hypertekstimäinen informaation jäsentely: -solmut - linkit (yhteydet) Yhteys tiedonhakuun: solmu = dokumentti tai sen osa tiivistelmä raportti sisällys Hypertekstissä solmu on vahva, riittävä peruskäsite. Tiedonhaussa pelkkä solmunäkemys on riittämätön. - haun kohde voi olla solmu tai solmujoukko! Hypertekstin perusidea: - ei-lineaarinen lukeminen, selailu (browsing, navigating) - vuorovaikutteisesti: käyttäjä löytää (tunnistaa) tiedot - apuvälineitä: karttoja. luetteloita, historialistoja, kirjanmerkkejä, maamerkkejä luku 1 luku 2 luku 3 1 2 Mihin selailu sopii? - pieni tietokanta - materiaali jollain tavalla tuttua sisältö, rakenne, muodot, - hakujen yhteydessä myös oppii (rakenteesta, sisällöstä) Linkkien ominaisuuksia (tyyppejä): - erilaisia ankkureita: teksti, kuva (esitysteknisiä eroja) -teknisiä, periaatteellisia eroja: ulkoinen, (sivun)sisäinen; rakenteellinen, viittaava Tehokkaampiakin hakuvälineitä tarvitaan! - WWW (koko!) -automatisoinnin pyrkimys yleensä, selailun rajoitukset Linkkien tärkeys: - mahdollistavat (perus)liikkumisen - ilmaisevat osien välisiä yhteyksiä (erilaisia!) 3 - esimerkkejä rakenteellisista: kokonaisuus! osa osa!kokonaisuus alaviite - semanttisia: määritelmä esimerkki erikoistapaus kommentti vastaus (periaatteessa mikä tahansa speech act tms.) 4

Tyyppien erottelu? - käyttäjälle, esim. visuaalisesti - tiedonhaussa, sopivalla määrittelyllä (metatiedolla) - Esim. HTML linkkityyppejä: start next prev sivujoukon alkudokumenttiin sivujoukon seuraavaan sivujoukon edelliseen contents sisällysluetteloon index indeksiin (?) chapter lukuun section kappaleeseen subsection alikappaleeseen appendix liitteeseen Esim. <HEAD>...other head information... <TITLE>Chapter 5</TITLE> <LINK rel="index" href="../index.html"> <LINK rel="prev" href="chapter4.html"> <LINK rel="next" href="chapter6.html"> </HEAD> (käytön laajuus nykyisin??) alternate sivun toiseen versioon, esim. toisella kielellä 5 6 Hypertekstiin kohdistuvan tiedonhaun erityispiirteitä / ongelmia: 1) haun kohde: solmu vai solmujoukko? - käyttäjälle kumpi tahansa voi olla oikea ; vaikea kuvata etukäteen - riippuu hypertekstin sisällöstä (jäsentelystä), linkityksestä sekä tiedontarpeen luonteesta - samanlaisuuden määritys: solmujoukossa enemmän osumia, skaalaus? samanlaisuuden laskenta vain solmusta / ympäristöä huomioiden / solmujoukosta? - läheiset solmut: mitkä, kuinka monta? 2) tuloksen esittäminen - pelkkä tulossolmu (sivu) / ympäristöä Dokumentti hypertekstinä, versio 1: Sisällys 3. Tutkimus 4. Tulokset Viitteet... - useita tulosdokumentteja - vähän osumia / solmu (?) - tulosdokumenttien järjestys? - tuloksen esittäminen? esim. hakukoneiden tavanomaiset linkkilistat - tuloksen kokoaminen jää käyttäjälle Viitteet 1........ 2........ 7 8

Dokumentti hypertekstinä, versio 2: Sisällys Ongelmamme on... Alussa oli.. 3. Tutkimus 4. Tulokset Viitteet 1. Salton 2. Järvelin - yksi tulosdokumentti - useita osumia, niiden löytäminen selaamalla? erottuminen visuaalisesti? - haku dokumentin sisällä jää käyttäjälle: FIND xyz, FIND AGAIN... 9 3) tiedonhaun (algoritmisen) ja selaamisen yhdistäminen Käytännön tilanteita: 1 suorita kysely, selaa joidenkin tulossivujen ympäristöä 2 navigoi jollekin sivulle (ei-algoritmisesti), hae algoritmisesti - samanlaisia sivuja -ympäristöstä (lisäksi sivunsisäisen haun ongelma, jos sivu on laaja) 10 Hypertekstin suunnittelun ongelma - sekä kokonaisuuden (solmujoukon) että solmun tasolla 6.2 Hypertekstin tiedonhakumalleja 1 Solmun ympäristön huomiointi haussa - luettavaksi (lähinnä lineaarisesti, tekstinä)? - selattavaksi? - etsittäväksi? Luonnollinen oletus on, että linkillä yhdistetyillä sivuilla on muutakin kuin teknistä yhteyttä: - ne ovat ehkä tiedonhaun mielessä lähekkäisiä, tai - ne muodostavat yhdessä hakuun paremmin sopivan kokonaisuuden Esim. aikataulusivut lähiliikenteessä Jäsentely 1: Helsinki, Espoo, Vantaa Jäsentely 2: bussi, metro, juna Jäsentely 3: alueittain (mistä mihin) -tiedontarve esim. Leppävaara! Myyrmäki - rakennelinkit - viittauslinkit - multimediapiirteet 11 Ts. pelkästään termien esiintymät solmussa eivät ratkaise solmun samanlaisuutta kyselyn nähden; otetaan huomioon myös läheisiä solmuja. solmun sisäinen paino riippuu termiesiintymistä - lukumäärä, tai -w ij =tf ij x log(n/dfj) solmun ulkoinen paino = jälkeläissolmujen (L) vaikutus, esim. niiden sisäisten painojen summa 12

Havainnollisempi kuva syntyy laajemmasta hierarkiasta: solmun kokonaispaino = W sis + α Σ W i,kok i ε L Esim. α = 0.5 ( kok / sis ) B C 2 / 2 A D 7 / 7 10 / 0 5 / 2 G 6 / 6 E 4 / 4 F 2 / 2 128 128 sisäinen paino 0 kokonaispaino 143 64 0 182 104 64 0 64 140 96 208 0 0 64 128 0 64 128 24 64 128 96 64 64 64 128 0 128 64 64 64 128 48 128 64 Järjestys: B, G, D, E, C, F; A (sis.) A, B, G, E, C, D, F (kok.) 13 64 96 14 Erilaisia laskutapoja: - jälkeläisten painojen keskiarvo - linkkityypeille erilaiset kertoimet - sykliset rakenteet: kuinka lasketaan? - edeltäjäsolmujen vaikutus? - etäisyys, kuuluminen kokoelmaan? (jos määritelty) Kokoelman (solmujoukon) käsite? 2 Linkkitopologiaan perustuva solmujen valinta Kleinberg, J., Authoritative sources in a hyperlinked environment. Cornell University, 1998. - tavoitteena löytää hyviä tulossivuja väljästi määriteltyyn kyselyyn ( broad search topic ) Esim. Java-ohjelmointikieli, hakukoneet, Harvard - hierarkia - lähekkäiset (naapurit) - sisällöllisesti samanlaiset (näiden tekijöiden yhdistelmä?) - harvoin eksplisiittinen - sivuston suunnittelijalla yleensä selvillä (ainakin osittain; WWW??) 15 - tulosjoukko on aivan liian suuri, relevantteja paljon, mutta mitkä parhaita? - keskeistä tietoa sisältävät sivut eivät ole välttämättä niitä, joissa termifrekvenssi on suurin (esim. Harvard) - esiintymiä voi olla hyvin vähän tai jopa ei yhtään (esim. tietyn hakukoneen kotisivut ) 16

- määritellään arvosivu (authority page): sivu, johon viitataan paljon (tarkemmin: viittaukset tulevat sivuilta, joilta viitataan monille arvosivuille) - paljon (arvosivuille kohdistuvia) linkkejä sisältävää sivua sanotaan napasivuksi (hub page) Arvosivut ja napasivut voidaan määrittää pelkästään linkkiyhteyksiä tutkimalla. napoja arvosivuja (ei arvosivu) 17 18 Oletuksia: - Linkkiyhteys osoittaa piilevää sivun tekijän harkintaan perustuvaa yhteyttä eli viitatun sivun arvoa. (Kaikki linkit eivät ole tällaisia!) out-degree: solmusta lähtevien linkkien lkm in-degree: tulevien linkkien lkm aliverkko: solmut ja niiden väliset linkit Arvo- ja napasivujen määritys: - Tarkastellaan laajaa (globaalia) sivujoukkoa, ei esimerkiksi paikallista sivustoa. 1) suoritetaan kysely tavanomaisella hakukoneella ja valitaan sen tuloksesta t ensimmäistä sivua juurijoukoksi - Indeksiä (tai sivujen sisältöä, termejä) käytetään vain aluksi, tavallaan epäsuorasti. - Hypertekstiä tarkastellaan suunnattuna verkkona G = (V, E); särmä (p,q) E on linkki sivulta p sivulle q 19 2) laajennetaan juurijoukko perusjoukoksi liittämällä siihen kaikki ei-paikalliset solmut, joihin viitataan juurijoukon solmusta, ja osa juurijoukon solmuihin viittaavista ei-paikallisista solmuista Paikalliset solmut (sama domain-nimi) tulkitaan teknisesti yhteenliitetyiksi; linkki ei ilmaise toisen solmun arvosta mitään. (Muitakin heuristiikkoja voidaan käyttää: samalta domain-alueelta hyväksytään vain rajattu määrä linkkejä.) 20

3) arvo- ja napasivut määritetään iteroimalla operaatioita < p I: sivun p arvopaino x > = y q :( q, p ) E < q > juuri O: sivun p napapaino y < p > (aloitus painoilla 1, skaalauksia, tuloksena tasapainotila, jossa suuren x-painon saaneet sivut valitaan arvosivuiksi ja suuren y-painon saaneet valitaan napasivuiksi) = x q :( p, q ) E < q > perusjoukko 21 22 Huom. -Solmujen termisisältöä käytetään vain alkukyselyssä. - Lopulliseen tulokseen voi linkkiyhteyksien kautta tulla solmuja, jotka eivät kuulu alkukyselyn tulokseen ja joissa ei ehkä ole kyselytermin esiintymiä lainkaan. - Mukaan voi tulla sivuja, joilla on esim. kuvia, mutta hyvin vähän tekstisisältöä. - Voi löytyä erillisiä aliverkkoja, joissa on omat arvoja napasivuparinsa (mutta vähän yhteyksiä aliverkosta toiseen). Tällöin menetelmä lähestyy ryvästämistä... - Kokeillen on todettu, että menetelmän (Clever-hakukone) tulosjoukko on jopa parempi kuin Yahoon hakemistojen kautta löydetty. - Menetelmälle on esitetty useita muitakin sovelluskohteita kuin tiedonhaku. 23