Linkit Tiedonhakumenetelmät Webbisivuilta voi viitata toisille sivuille (hyper)linkeillä Linkit webbihauissa / <a href= URL_to_B title= B title >Anchor to B</a> Otsikko (vähän käytetty) ankkuriteksti 1 2 Linkkeihin liittyviä oletuksia Linkit ja haku Linkki on laatuindikaattoori Linkin A B olemassaolo tarkoittaa, että sivun A laatija pitää sivua B korkeatasoisena ja relevanttina Onko aina näin? Ankkuriteksti kuvaa hyvin linkin kohdetta Näin pitäisi olla Yleisimmät ankkuritekstit webbisivuissa ovat kuitenkin here ja click Sivujen laatijat eivät ymmärrä linkkien merkitystä Ankkuriteksti pitäisi tulkita hieman laveammin linkin lähistöllä oleva teksti Esim.: Ohjeet harjoitustyön tekemiseksi ovat <a href= kurssisivu.htlm > täällä</a>. Laveasti tulkittu ankkuriteksti: Ohjeet harjoitustyön tekemiseksi ovat täällä. Kun ovat ja täällä ovat hukkasanoja, jäljelle jää Ohjeet harjoitustyön tekemiseksi Hakeminen sivuun viittaavalla ankkuritekstillä sivun tekstin lisäksi on usein tehokkaampaa kuin käyttämällä vain sivun oletettua tekstiä Sivun tekstit voivat johtaa harhaan Jollekin sivuston alisivulle Wikipediaan Spämmisivuille 3 4 Ankkuritekstit Linkkianalyysi Ankkuritekstit osoittavat suoraan kohteeseen Ovat usein parempia sisältökuvauksia kuin sivun oma teksti Voidaan käyttää kohdesivun indeksointiin ja painottaa sisällön kuvauksena jopa enemmän kuin sivun tekstiä Voidaan painottaa sen mukaisesti, miten hyväksi viittaajasivu arvostetaan Jos hyvältä sivulta viitataan sivulle x, niin x on myös hyvä Sivujen välisen linkityksen analysointia Lähdeviite-analyysin tapaista Tutkitaan viitteiden käyttöä tieteellisissä artikkeleissa Viittaukset artikkeliin mittaavat artikkelin vaikuttavuutta (impact) Samankaltaisen viitejoukon perusteella voidaan arvella artikkeleiden käsittelevän samaa aihepiiriä Käytetään hakutulosten rankkaukseen Samankaltainen linkitys voi toimia myös samankaltaisuuskriteerinä sivuille 5 6 H.Laine 1
Linkitykseen perustuva ranking Yksinkertainen linkkirankkaus Tekstihaun tuloksena saadut sivut järjestetään sivuun osoittavien linkkien lukumäärän (viitesuosio) perusteella Lähtösivut eivät pärjää Paljon viitattu sivu ei välttämättä ole hyvä Sisällöllinen hyvyys jää taka-alalle Pitäisi yhdistää sisällöllistä hyvyyttä kuvaava mitta ja viitesuosiota kuvaava mitta Viittaajien vaikuttavuuden huomioon ottava viitesuosion mitta 1996 Stanfordin yliopistossa (Page,Brin) Kaikki viittaukset eivät ole yhtä arvokkaita Viitesuosion voisi painottaa viittaajan vaikuttavuuden (Impact) perusteella 7 8 idea Ajatellaan, että henkilö surffailee satunnaisesti webbissä Lähtee liikkeelle satunnaisesti valitsemaltaan sivulta Tuttuaan jollakin sivulle valitsee satunnaisesti jonkin sivun linkeistä. Kaikkien linkkien valinta on yhtä todennäköistä. Pitkän ajan kuluessa havaitaan, että surffaajat eivät käy yhtä usein kaikilla sivuilla. on todennäköisyys sille, että surffaaja päätyy sivulle Määräytyy kyselyistä riippumattomasti verkon ominaisuuksien perusteella Surffaajien sivuvalintoja voidaan tarkastella Markovin ketjujen avulla mallintamalla sivut tiloina ja sivulta toiselle siirtymiset tilasiirtyminä. Tilasiirtymien todennäköisyydet määräytyvät sivuverkon rakenteen perusteella. Sivuille päätymisen todennäköisyys (=) saadaan määräämällä tilasiirtymien todennäköisyysmatriisin ominaisvektori. 9 10 Markovin ketjun sovellettavuus d1 Kytkentämatriisi 1 0 1 Jaa arvo rivin ykkösten lukumäärällä Siirtymäverkossa ei saa olla umpikujia eikä silmukoita, joista ei pääse poiis d2 d3 P i,j = todennäköisyys siirtyä tilaan j, jos on päädytty tilaan i Siirtymätodennäköisyydet ½ 0 ½ mutta webissä on sivuja, joissa ei ole linkkejä Otetaan avuksi teleportaatio, Surffaaja voi hypätä sivulta minne sivulle tahansa antamalla sivun osoitteen 11 12 H.Laine 2
Teleportaatio Teleportaatiohypyt mukaan matriisiin Umpikujasta hyppy todennäköisyydellä 1/N jollekin sivulle (N on sivujen kokonaismäärä) Muilta sivuilta todennäköisyydellä d siirtyminen satunnaisesti valitun linkin perusteella ja todennäköisyydellä (1-d) hyppy jollekin sivulle ( sivun todennäköisyys (1-d)/N) Jos sivulla 4 linkkiä, niin kukin valitaan toden näköisyydellä 0.25*d Yleisesti teleportaation huomioiva siirtymistodennäköisyys olisi (1-d)/N+d*p i,j d2 d1 Yleensä d=0.85 d3 Siirtymätodennäköisyydet ½ 0 ½ Teleportaatiohypythuomioivat siirtymätodennäköisyydet [oletetaan d=0.5] 1/6 2/3 1/6 5/12 1/6 5/12 1/6 2/3 1/6 (1-d)/N+d*p i,j 13 14 Linkkianalyysi Ominaisvektorin laskenta On saatu aikaan siirtymätodennäköisyysmatriisi (merkitään sitä P:llä) ja olisi enää määrättävä ominaisvektori (syötetään MatLabiin ja NAPS) Tämä voidaan ratkaista laskemalla iteratiivisesti t:n arvoilla 0 f xp t kunnes tuloksessa ei enää tapahdu muutoksia (= saavutetaan tasapainotila). Tässä x on lähtösivua kuvaava vektori (lähtösolmu vapaasti valittavissa). P: Valitaan siis x 0 =(1 0 0) x 1 = x 0 P = (1/6 2/3 1/6) x 2 =x 1 P = (1/3 1/3 1/3) x 3 =x 2 P = (1/4 1/2 1/4) x 4 =x 3 P = (7/24 5/12 7/25). X f = (5/18 4/9 5/18) = (tai /N) d2 on siis rankkaukseltaan ylempänä kuin d3 ja d1. 15 16 on yksi laatumitta, Google käyttää sitä mutta ei ainoana mittana Kyselyn tulokset haetaan hakutermien perusteella Sivujen järjestys määrätään mitan avulla => järjestys on kiinteä eikä riipu kyselystä Hakurobotit laskevat rankkausta uudelleen kierrellessään sivuja Todelliset käyttäjät eivät surffaa satunnaisesti Reitit ovat hyvin vinoutuneita, harvoihin aihepiireihin painottuneita ja polut lyhyitä Hakukoneet, hakemistot ja kirjanmerkit kasvattavat teleportaatiohyppyjen osuutta Hakukonetta saatetaan käyttää navigointivälineenä jolloin linkkin merkitys hakijalle vähenee Pelkästään mitan käyttö voi tuottaa huonoja tuloksia Painotettu yhdistelmä tekstirankkauksesta, ankkurirankkauksesta ja linkkirankkauksesta tuottaa ehkä parhaan tuloksen (Painot?) 17 18 H.Laine 3
Aihepiirikohtaiset sivurankkaukset Linkkirakennetta hyödyntävä aihepiirihaku Tavoitteena aihepiirikohtainen paremmuusjärjestys Voisi toimia esim. siten että, jos havaitaan käyttäjän olevan kiinnostunut tietystä aihepiiristä tarjotaan materiaali aihepiirikohtaiseen rankkaukseen perustuen (urheilu, tähtitiede, lääketiede, viihde, kokkaus, ) Voi olla hyödyllinen Laskettavuus ja resurssitarve, tarvitaan useita rankkauslukuja /sivu Miten tehdään aihepiiriluokittelu manuaalinen vai LSI? Käyttäjäkohtaiset rankkaukset??? Hyperlink-induced topic search (HITS) Kokonaiskuvaa aihepiiristä haettaessa Kyselyt voivat tuottaa tuloksenaan kahdenlaisia sivuja Asiasivut (authority page) Sisältävät tietoa jostain asiasta Suora vastaus tietotarpeeseen Viitataan usein koostesivuilta Koostesivut (hub page) Johonkin aihepiiriin liittyviä hakemistoja tai kokoelmia, joissa viitataan asiantuntijasivuille Kokonaiskuvaa aihepiiristä Voisi siis olla kahdenlaista relevanssia Asiarelevanssia Koosterelevanssia 19 20 Relevanssilajit Asia- ja koostepisteet Hyvä koostesivu viittaa useille hyville asiasivuille Hyvään asiasivuun viitataan monelta hyvältä koostesivulta Tavoitteena on löytää huippusivut Miten Valitaan joukko sivuja, jotka voisivat olla hyviä asia- tai koostesivuja Valitaan näiden joukosta huiput Haetaan kaikki sivut, jotka sisältävät kyselytermejä = lähtöjoukko Lisätään joukkoon sivut, jotka viittaavat lähtöjoukon sivuihin sivut, joihin lähtöjoukon sivut viittaavat => tuloksena perusjoukko Lasketaan kullekin perusjoukon sivulle asiapisteet a(x) ja koostepisteet (h(x) lähdetään arvosta 1 ja kasvatetaan iteratiivisesti linkitysten perusteella 21 22 Huiput Pisteiden lasku Iteraatioiden jälkeen tulostetaan huiput Sivut, joilla on korkein koostepistemäärä h() Sivut, joilla on korkein koostepistemäärä h() Pistelaskentaa iteratiivisesti h(x) x y a(y) x Lähtöjoukoissa tyypillisesti 200-1000 sivua Perusjoukossa voi olla useita tuhansia Joukkoa kasvatetaan sivun linkkejä ja kytkentätietoja käyttämällä Lähtevät ja tulevat linkit a(x) y x h(y) x Iteratiivisesti kunnes konvergoi (vastaa in yhteydessä käytettyä Markovin ketjua) 23 24 H.Laine 4
Pistemäärää voidaan skaalata, jotta se ei kasva liian suureksi. Kertoimella ei väliä, jos suuruusjärjestys säilyy. Tulokseen kahdenlaisia sivuja Tulokseen voi tulla sivuja, joissa ei mainita hakutermejä lainkaan 25 H.Laine 5