Linkit webbihauissa / PageRank

Samankaltaiset tiedostot
Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Arvostus Verkostoissa: PageRank. Idea.

Etsintä verkosta (Searching from the Web) T Datasta tietoon Jouni Seppänen

Luku 9. Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa

Tämän luvun sisältö. Luku 9. Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa. Webin lyhyt historia 1992: ensimmäisiä selaimia

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea.

Matematiikka ja teknologia, kevät 2011

MS-A0004/A0006 Matriisilaskenta

Esimerkki: Tietoliikennekytkin

Tiedonhakumenetelmät Tiedonhakumenetelmät Helsingin yliopisto / TKTL. H.Laine 1. Rankkaukseen perustuva tiedonhaku.

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Hankeviestijä hakukoneiden ihmeellisessä maailmassa. Joonas Jukkara, SEOSEON Ltd.

Numeeriset menetelmät

MS-A0003/A0005 Matriisilaskenta Malliratkaisut 5 / vko 48

pitkittäisaineistoissa

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Talousmatematiikan perusteet: Luento 11. Lineaarikuvaus Matriisin aste Käänteismatriisi

Käänteismatriisi 1 / 14

6. Hyperteksti ja tiedonhaku. Hypertekstissä solmu on vahva, riittävä peruskäsite.

Tehtävä: FIL Tiedostopolut

MS-A0004/MS-A0006 Matriisilaskenta Laskuharjoitus 6 / vko 42

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

Tiedonhakumenetelmät Tiedonhakumenetelmät Helsingin yliopisto/ TKTL, k H.Laine 1. Webbihaut Hakukone. Webbihaku. Hakukoneiden käyttö

10 helppoa SEO-ohjetta

10 helppoa käytännön ohjetta SEO-optimointiin.

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

Tiedonhakumenetelmät Tiedonhakumenetelmät Helsingin yliopisto, tktl, k2014. H.Laine 1

ARVO - verkkomateriaalien arviointiin

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

(1.1) Ae j = a k,j e k.

[6.2 Hypertekstin tiedonhakumalleja (jatkoa)] ARC algoritmi: 3º Linkkitekstin huomiointi

Kanta ja Kannan-vaihto

Matematiikka B2 - Avoin yliopisto

Tarkennamme geneeristä painamiskorotusalgoritmia

Johdatus verkkoteoriaan 4. luento

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Kohdeyleisö: toisen vuoden teekkari

ax + y + 2z = 0 2x + y + az = b 2. Kuvassa alla on esitetty nesteen virtaus eräässä putkistossa.

10 yleistä hakukoneoptimointivirhettä

811312A Tietorakenteet ja algoritmit , Harjoitus 2 ratkaisu

Harjoitus 1: Matlab. Harjoitus 1: Matlab. Mat Sovelletun matematiikan tietokonetyöt 1. Syksy 2006

Finna Tunnusluvut

SANAKIRJA # S E O H A L T U UN # B L O G G A A J A NSEO # S E O J A S M O

Järvitesti Ympäristöteknologia T571SA

VERKKORAKENTEEN VAIKUTUKSIA KAIKKI SOLMUT EIVÄT OLE SAMANLAISIA

Algoritmit 1. Luento 9 Ti Timo Männikkö

Talousmatematiikan perusteet: Luento 10. Lineaarikuvaus Matriisin aste Determinantti Käänteismatriisi

Search space traversal using metaheuristics

MATEMATIIKAN KOE, PITKÄ OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

. Kun p = 1, jono suppenee raja-arvoon 1. Jos p = 2, jono hajaantuu. Jono suppenee siis lineaarisesti. Vastaavasti jonolle r k+1 = r k, suhde on r k+1

Liikenneongelmien aikaskaalahierarkia

Lääkintähelikopterikaluston mallintaminen

Matematiikka B2 - TUDI

Harjoitus Tarkastellaan luentojen Esimerkin mukaista työttömyysmallinnusta. Merkitään. p(t) = hintaindeksi, π(t) = odotettu inflaatio,

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Tee html-sivu, jossa on yllä olevat kaksi taulukkoa.

3.1 Lineaarikuvaukset. MS-A0004/A0006 Matriisilaskenta. 3.1 Lineaarikuvaukset. 3.1 Lineaarikuvaukset

Summon tehokas monihaku

17. Differentiaaliyhtälösysteemien laadullista teoriaa.

Insinöörimatematiikka D

TIEDONHAKU INTERNETISTÄ

Tuloperiaate. Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Auta asiakkaita löytämään kauppaasi! Terhi Aho/

Talousmatematiikan perusteet: Luento 13. Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu

Matriisi-vektori-kertolasku, lineaariset yhtälöryhmät

Päättelyn voisi aloittaa myös edellisen loppupuolelta ja näyttää kuten alkupuolella, että välttämättä dim W < R 1 R 1

Lineaarisen kokonaislukuoptimointitehtävän ratkaiseminen

Datatähti 2019 loppu

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Malliratkaisut Demot

802118P Lineaarialgebra I (4 op)

Numeeriset menetelmät

Rinnakkaistietokoneet luento S

Algoritmit 2. Luento 13 Ti Timo Männikkö

Matematiikan tukikurssi

TEEMA 2 TAULUKKODATAN KÄSITTELY JA TIEDON VISUALISOINTI

Johdatus tekoälyn taustalla olevaan matematiikkaan

pitkittäisaineistoissa

MATEMATIIKAN KOE, PITKÄ OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

Hakukoneoptimointi. Frida-Maria Pessi 2014

Ylioppilastutkintolautakunta S tudentexamensnämnden

Ominaisarvo-hajoitelma ja diagonalisointi

Kotisivu. Hakutoiminnon on oltava hyvin esillä lähes kaikilla kotisivuilla. Hakutoiminto on hyvä sijoittaa heti kotisivun yläosaan.

B U S I N E S S O U L U

Ortogonaalisen kannan etsiminen

Sovellettu todennäköisyyslaskenta B

Numeeriset menetelmät

2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio

Ratkaisuehdotukset LH 3 / alkuvko 45

5 Lineaariset yhtälöryhmät

1 p p P (X 0 = 0) P (X 0 = 1) =

Markov-ketjut pitkällä aikavälillä

Osakesalkun optimointi

Numeeriset menetelmät TIEA381. Luento 5. Kirsi Valjus. Jyväskylän yliopisto. Luento 5 () Numeeriset menetelmät / 28

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

MS-A0003/A0005 Matriisilaskenta Laskuharjoitus 3 /

Determinantti. Määritelmä

1 Kannat ja kannanvaihto

Transkriptio:

Linkit Tiedonhakumenetelmät Webbisivuilta voi viitata toisille sivuille (hyper)linkeillä Linkit webbihauissa / <a href= URL_to_B title= B title >Anchor to B</a> Otsikko (vähän käytetty) ankkuriteksti 1 2 Linkkeihin liittyviä oletuksia Linkit ja haku Linkki on laatuindikaattoori Linkin A B olemassaolo tarkoittaa, että sivun A laatija pitää sivua B korkeatasoisena ja relevanttina Onko aina näin? Ankkuriteksti kuvaa hyvin linkin kohdetta Näin pitäisi olla Yleisimmät ankkuritekstit webbisivuissa ovat kuitenkin here ja click Sivujen laatijat eivät ymmärrä linkkien merkitystä Ankkuriteksti pitäisi tulkita hieman laveammin linkin lähistöllä oleva teksti Esim.: Ohjeet harjoitustyön tekemiseksi ovat <a href= kurssisivu.htlm > täällä</a>. Laveasti tulkittu ankkuriteksti: Ohjeet harjoitustyön tekemiseksi ovat täällä. Kun ovat ja täällä ovat hukkasanoja, jäljelle jää Ohjeet harjoitustyön tekemiseksi Hakeminen sivuun viittaavalla ankkuritekstillä sivun tekstin lisäksi on usein tehokkaampaa kuin käyttämällä vain sivun oletettua tekstiä Sivun tekstit voivat johtaa harhaan Jollekin sivuston alisivulle Wikipediaan Spämmisivuille 3 4 Ankkuritekstit Linkkianalyysi Ankkuritekstit osoittavat suoraan kohteeseen Ovat usein parempia sisältökuvauksia kuin sivun oma teksti Voidaan käyttää kohdesivun indeksointiin ja painottaa sisällön kuvauksena jopa enemmän kuin sivun tekstiä Voidaan painottaa sen mukaisesti, miten hyväksi viittaajasivu arvostetaan Jos hyvältä sivulta viitataan sivulle x, niin x on myös hyvä Sivujen välisen linkityksen analysointia Lähdeviite-analyysin tapaista Tutkitaan viitteiden käyttöä tieteellisissä artikkeleissa Viittaukset artikkeliin mittaavat artikkelin vaikuttavuutta (impact) Samankaltaisen viitejoukon perusteella voidaan arvella artikkeleiden käsittelevän samaa aihepiiriä Käytetään hakutulosten rankkaukseen Samankaltainen linkitys voi toimia myös samankaltaisuuskriteerinä sivuille 5 6 H.Laine 1

Linkitykseen perustuva ranking Yksinkertainen linkkirankkaus Tekstihaun tuloksena saadut sivut järjestetään sivuun osoittavien linkkien lukumäärän (viitesuosio) perusteella Lähtösivut eivät pärjää Paljon viitattu sivu ei välttämättä ole hyvä Sisällöllinen hyvyys jää taka-alalle Pitäisi yhdistää sisällöllistä hyvyyttä kuvaava mitta ja viitesuosiota kuvaava mitta Viittaajien vaikuttavuuden huomioon ottava viitesuosion mitta 1996 Stanfordin yliopistossa (Page,Brin) Kaikki viittaukset eivät ole yhtä arvokkaita Viitesuosion voisi painottaa viittaajan vaikuttavuuden (Impact) perusteella 7 8 idea Ajatellaan, että henkilö surffailee satunnaisesti webbissä Lähtee liikkeelle satunnaisesti valitsemaltaan sivulta Tuttuaan jollakin sivulle valitsee satunnaisesti jonkin sivun linkeistä. Kaikkien linkkien valinta on yhtä todennäköistä. Pitkän ajan kuluessa havaitaan, että surffaajat eivät käy yhtä usein kaikilla sivuilla. on todennäköisyys sille, että surffaaja päätyy sivulle Määräytyy kyselyistä riippumattomasti verkon ominaisuuksien perusteella Surffaajien sivuvalintoja voidaan tarkastella Markovin ketjujen avulla mallintamalla sivut tiloina ja sivulta toiselle siirtymiset tilasiirtyminä. Tilasiirtymien todennäköisyydet määräytyvät sivuverkon rakenteen perusteella. Sivuille päätymisen todennäköisyys (=) saadaan määräämällä tilasiirtymien todennäköisyysmatriisin ominaisvektori. 9 10 Markovin ketjun sovellettavuus d1 Kytkentämatriisi 1 0 1 Jaa arvo rivin ykkösten lukumäärällä Siirtymäverkossa ei saa olla umpikujia eikä silmukoita, joista ei pääse poiis d2 d3 P i,j = todennäköisyys siirtyä tilaan j, jos on päädytty tilaan i Siirtymätodennäköisyydet ½ 0 ½ mutta webissä on sivuja, joissa ei ole linkkejä Otetaan avuksi teleportaatio, Surffaaja voi hypätä sivulta minne sivulle tahansa antamalla sivun osoitteen 11 12 H.Laine 2

Teleportaatio Teleportaatiohypyt mukaan matriisiin Umpikujasta hyppy todennäköisyydellä 1/N jollekin sivulle (N on sivujen kokonaismäärä) Muilta sivuilta todennäköisyydellä d siirtyminen satunnaisesti valitun linkin perusteella ja todennäköisyydellä (1-d) hyppy jollekin sivulle ( sivun todennäköisyys (1-d)/N) Jos sivulla 4 linkkiä, niin kukin valitaan toden näköisyydellä 0.25*d Yleisesti teleportaation huomioiva siirtymistodennäköisyys olisi (1-d)/N+d*p i,j d2 d1 Yleensä d=0.85 d3 Siirtymätodennäköisyydet ½ 0 ½ Teleportaatiohypythuomioivat siirtymätodennäköisyydet [oletetaan d=0.5] 1/6 2/3 1/6 5/12 1/6 5/12 1/6 2/3 1/6 (1-d)/N+d*p i,j 13 14 Linkkianalyysi Ominaisvektorin laskenta On saatu aikaan siirtymätodennäköisyysmatriisi (merkitään sitä P:llä) ja olisi enää määrättävä ominaisvektori (syötetään MatLabiin ja NAPS) Tämä voidaan ratkaista laskemalla iteratiivisesti t:n arvoilla 0 f xp t kunnes tuloksessa ei enää tapahdu muutoksia (= saavutetaan tasapainotila). Tässä x on lähtösivua kuvaava vektori (lähtösolmu vapaasti valittavissa). P: Valitaan siis x 0 =(1 0 0) x 1 = x 0 P = (1/6 2/3 1/6) x 2 =x 1 P = (1/3 1/3 1/3) x 3 =x 2 P = (1/4 1/2 1/4) x 4 =x 3 P = (7/24 5/12 7/25). X f = (5/18 4/9 5/18) = (tai /N) d2 on siis rankkaukseltaan ylempänä kuin d3 ja d1. 15 16 on yksi laatumitta, Google käyttää sitä mutta ei ainoana mittana Kyselyn tulokset haetaan hakutermien perusteella Sivujen järjestys määrätään mitan avulla => järjestys on kiinteä eikä riipu kyselystä Hakurobotit laskevat rankkausta uudelleen kierrellessään sivuja Todelliset käyttäjät eivät surffaa satunnaisesti Reitit ovat hyvin vinoutuneita, harvoihin aihepiireihin painottuneita ja polut lyhyitä Hakukoneet, hakemistot ja kirjanmerkit kasvattavat teleportaatiohyppyjen osuutta Hakukonetta saatetaan käyttää navigointivälineenä jolloin linkkin merkitys hakijalle vähenee Pelkästään mitan käyttö voi tuottaa huonoja tuloksia Painotettu yhdistelmä tekstirankkauksesta, ankkurirankkauksesta ja linkkirankkauksesta tuottaa ehkä parhaan tuloksen (Painot?) 17 18 H.Laine 3

Aihepiirikohtaiset sivurankkaukset Linkkirakennetta hyödyntävä aihepiirihaku Tavoitteena aihepiirikohtainen paremmuusjärjestys Voisi toimia esim. siten että, jos havaitaan käyttäjän olevan kiinnostunut tietystä aihepiiristä tarjotaan materiaali aihepiirikohtaiseen rankkaukseen perustuen (urheilu, tähtitiede, lääketiede, viihde, kokkaus, ) Voi olla hyödyllinen Laskettavuus ja resurssitarve, tarvitaan useita rankkauslukuja /sivu Miten tehdään aihepiiriluokittelu manuaalinen vai LSI? Käyttäjäkohtaiset rankkaukset??? Hyperlink-induced topic search (HITS) Kokonaiskuvaa aihepiiristä haettaessa Kyselyt voivat tuottaa tuloksenaan kahdenlaisia sivuja Asiasivut (authority page) Sisältävät tietoa jostain asiasta Suora vastaus tietotarpeeseen Viitataan usein koostesivuilta Koostesivut (hub page) Johonkin aihepiiriin liittyviä hakemistoja tai kokoelmia, joissa viitataan asiantuntijasivuille Kokonaiskuvaa aihepiiristä Voisi siis olla kahdenlaista relevanssia Asiarelevanssia Koosterelevanssia 19 20 Relevanssilajit Asia- ja koostepisteet Hyvä koostesivu viittaa useille hyville asiasivuille Hyvään asiasivuun viitataan monelta hyvältä koostesivulta Tavoitteena on löytää huippusivut Miten Valitaan joukko sivuja, jotka voisivat olla hyviä asia- tai koostesivuja Valitaan näiden joukosta huiput Haetaan kaikki sivut, jotka sisältävät kyselytermejä = lähtöjoukko Lisätään joukkoon sivut, jotka viittaavat lähtöjoukon sivuihin sivut, joihin lähtöjoukon sivut viittaavat => tuloksena perusjoukko Lasketaan kullekin perusjoukon sivulle asiapisteet a(x) ja koostepisteet (h(x) lähdetään arvosta 1 ja kasvatetaan iteratiivisesti linkitysten perusteella 21 22 Huiput Pisteiden lasku Iteraatioiden jälkeen tulostetaan huiput Sivut, joilla on korkein koostepistemäärä h() Sivut, joilla on korkein koostepistemäärä h() Pistelaskentaa iteratiivisesti h(x) x y a(y) x Lähtöjoukoissa tyypillisesti 200-1000 sivua Perusjoukossa voi olla useita tuhansia Joukkoa kasvatetaan sivun linkkejä ja kytkentätietoja käyttämällä Lähtevät ja tulevat linkit a(x) y x h(y) x Iteratiivisesti kunnes konvergoi (vastaa in yhteydessä käytettyä Markovin ketjua) 23 24 H.Laine 4

Pistemäärää voidaan skaalata, jotta se ei kasva liian suureksi. Kertoimella ei väliä, jos suuruusjärjestys säilyy. Tulokseen kahdenlaisia sivuja Tulokseen voi tulla sivuja, joissa ei mainita hakutermejä lainkaan 25 H.Laine 5