Etsintä verkosta (Searching from the Web) T Datasta tietoon Jouni Seppänen

Samankaltaiset tiedostot
Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

Luku 9. Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa

Tämän luvun sisältö. Luku 9. Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa. Webin lyhyt historia 1992: ensimmäisiä selaimia

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea.

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Arvostus Verkostoissa: PageRank. Idea.

MS-A0004/A0006 Matriisilaskenta

Ratkaisuehdotukset LH 3 / alkuvko 45

Matriisialgebra harjoitukset, syksy 2016

Matematiikka ja teknologia, kevät 2011

Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa Linkkikeskukset ja auktoriteetit (hubs and authorities) -algoritmi

Milloin A diagonalisoituva?

Ominaisarvo-hajoitelma ja diagonalisointi

ax + y + 2z = 0 2x + y + az = b 2. Kuvassa alla on esitetty nesteen virtaus eräässä putkistossa.

MS-A0003/A Matriisilaskenta Laskuharjoitus 6

Ratkaisuehdotukset LH 10 / vko 48

MS-A0004/MS-A0006 Matriisilaskenta Laskuharjoitus 6 / vko 42

[6.2 Hypertekstin tiedonhakumalleja (jatkoa)] ARC algoritmi: 3º Linkkitekstin huomiointi

5 OMINAISARVOT JA OMINAISVEKTORIT

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

Numeeriset menetelmät TIEA381. Luento 5. Kirsi Valjus. Jyväskylän yliopisto. Luento 5 () Numeeriset menetelmät / 28

Matemaattinen Analyysi / kertaus

Matriisihajotelmat. MS-A0007 Matriisilaskenta. 5.1 Diagonalisointi. 5.1 Diagonalisointi

Ratkaisuehdotukset LH 7 / vko 47

Ortogonaaliset matriisit, määritelmä 1

Ominaisarvo ja ominaisvektori

Matriisilaskenta Luento 16: Matriisin ominaisarvot ja ominaisvektorit

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

Ortogonaalisen kannan etsiminen

MS-C1340 Lineaarialgebra ja

Paikannuksen matematiikka MAT

Linkit webbihauissa / PageRank

Esimerkki 4.4. Esimerkki jatkoa. Määrää matriisin ominaisarvot ja -vektorit. Ratk. Nyt

MS-A0003/A0005 Matriisilaskenta Malliratkaisut 5 / vko 48

Talousmatematiikan perusteet: Luento 13. Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu

Harjoitus Tarkastellaan luentojen Esimerkin mukaista työttömyysmallinnusta. Merkitään. p(t) = hintaindeksi, π(t) = odotettu inflaatio,

Iteratiiviset ratkaisumenetelmät

Neliömatriisi A on ortogonaalinen (eli ortogonaalimatriisi), jos sen alkiot ovat reaalisia ja

Harjoitus 3 ( )

Numeeriset menetelmät

Inversio-ongelmien laskennallinen peruskurssi Luento 7 8

Ominaisarvot ja ominaisvektorit 140 / 170

VERKKORAKENTEEN VAIKUTUKSIA KAIKKI SOLMUT EIVÄT OLE SAMANLAISIA

Konjugaattigradienttimenetelmä

. Kun p = 1, jono suppenee raja-arvoon 1. Jos p = 2, jono hajaantuu. Jono suppenee siis lineaarisesti. Vastaavasti jonolle r k+1 = r k, suhde on r k+1

Lineaarialgebra II, MATH.1240 Matti laaksonen, Lassi Lilleberg

Ominaisarvoon 4 liittyvät ominaisvektorit ovat yhtälön Ax = 4x eli yhtälöryhmän x 1 + 2x 2 + x 3 = 4x 1 3x 2 + x 3 = 4x 2 5x 2 x 3 = 4x 3.

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

Talousmatematiikan perusteet: Luento 14. Rajoittamaton optimointi Hessen matriisi Ominaisarvot Ääriarvon laadun tarkastelu

4. Lasketaan transienttivirrat ja -jännitteet kuvan piiristä. Piirielimien arvot ovat C =

Matriisiteoria Harjoitus 1, kevät Olkoon. cos α sin α A(α) = . sin α cos α. Osoita, että A(α + β) = A(α)A(β). Mikä matriisi A(α)A( α) on?

Similaarisuus. Määritelmä. Huom.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 6: Ääriarvojen luokittelu. Lagrangen kertojat.

Lineaarialgebra ja matriisilaskenta I

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

58131 Tietorakenteet (kevät 2009) Harjoitus 11, ratkaisuja (Topi Musto)

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Esimerkki 19. Esimerkissä 16 miniminormiratkaisu on (ˆx 1, ˆx 2 ) = (1, 0).

Harjoitus 3 ( )

Matematiikka B2 - TUDI

Matriisi-vektori-kertolasku, lineaariset yhtälöryhmät

(a) Järjestellään yhtälöitä siten, että vasemmalle puolelle jää vain y i ja oikealle puolelle muut

1. (a) Seuraava algoritmi tutkii, onko jokin luku taulukossa monta kertaa:

3.2.2 Tikhonovin regularisaatio

811120P Diskreetit rakenteet

Ellipsoidimenetelmä. Samuli Leppänen Kokonaislukuoptimointi. S ysteemianalyysin Laboratorio

Algoritmit 2. Luento 11 Ti Timo Männikkö

Shorin algoritmin matematiikkaa Edvard Fagerholm

Markov-ketjut pitkällä aikavälillä

Insinöörimatematiikka D

Lineaarialgebra ja differentiaaliyhtälöt Harjoitus 4 / Ratkaisut

(0 desimaalia, 2 merkitsevää numeroa).

MAB3 - Harjoitustehtävien ratkaisut:

Tehtäväsarja I Seuraavat tehtävät liittyvät kurssimateriaalin lukuun 7 eli vapauden käsitteeseen ja homogeenisiin

Ominaisvektoreiden lineaarinen riippumattomuus

Luento 9: Newtonin iteraation sovellus: optimointiongelma

Katsaus konepellin alle - iteratiivisia menetelmiä ominaisarvotehtävälle

8 KANNAT JA ORTOGONAALISUUS. 8.1 Lineaarinen riippumattomuus. Vaasan yliopiston julkaisuja 151

Algoritmit 1. Luento 13 Ti Timo Männikkö

Matriisit ja vektorit Matriisin käsite Matriisialgebra. Olkoon A = , B = Laske A + B, , 1 3 3

Neliömatriisin adjungaatti, L24

Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016

Algoritmit 1. Luento 9 Ti Timo Männikkö

Antti Rasila. Kevät Matematiikan ja systeemianalyysin laitos Aalto-yliopisto. Antti Rasila (Aalto-yliopisto) MS-A0204 Kevät / 16

Kohdeyleisö: toisen vuoden teekkari

6 MATRIISIN DIAGONALISOINTI

Lineaarikuvaukset. 12. joulukuuta F (A r ) = F (A r ) r .(3) F (s) = s. (4) Skalaareille kannattaa määritellä lisäksi seuraavat tulot:

Lineaarikuvauksen R n R m matriisi

MS-A0003/A0005 Matriisilaskenta Laskuharjoitus 3 /

Luento 10: Optimointitehtävien numeerinen ratkaiseminen; optimointi ilman rajoitusehtoja

Matriisit ovat matlabin perustietotyyppejä. Yksinkertaisimmillaan voimme esitellä ja tallentaa 1x1 vektorin seuraavasti: >> a = 9.81 a = 9.

Sisätuloavaruudet. 4. lokakuuta 2006

Harjoitus 2 -- Ratkaisut

(1.1) Ae j = a k,j e k.

MS-A0207 Differentiaali- ja integraalilaskenta 2 (Chem) Yhteenveto, osa I

Lineaarialgebra, kertausta aiheita

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

Kombinatorinen optimointi

Harjoitus 2 -- Ratkaisut

Matematiikka ja teknologia, kevät 2011

Matematiikka B2 - Avoin yliopisto

Transkriptio:

Etsintä verkosta (Searching from the Web) T-61.2010 Datasta tietoon Jouni Seppänen 13.12.2006 1

Webin lyhyt historia 2

http://info.cern.ch/proposal.html 3

4

5

http://browser.arachne.cz/screen/ 6

7

Etsintä verkosta 8

Etsintä verkosta Miten löydetään verkosta hyviä sivuja, jotka kertovat tiedon louhinnasta? info.cern.ch: ilmoitustaulu uusista sivuista Yahoo: käsin toimitettu hakemisto Skaalautuvat huonosti... 9

Etsintä verkosta Annettuna kysely data mining Miten löydetään automaattisesti sivut, joilla nuo sanat esiintyvät (tai esiintyvät peräkkäin)? Miten löydetään näistä sivuista hyödyllisimmät? 10

Sanahaku Merkkijonomenetelmät (string algorithms): paljon hauskoja algoritmeja Esivalmisteluna käydään koko verkko läpi seuraamalla linkkejä. Kullakin sanalla X tallennetaan lista sivuista, joilla X esiintyy. 11

Sanahaku Kyselyyn X ja Y vastattessa käydään kummankin sanan osoitelistat läpi ja palautetaan ne osoitteet, jotka esiintyvät molemmissa. Käytännössä hankalampaa kuin näyttää paperilla: dataa on paljon, vastaus pitäisi saada alle sekunnissa. Paljon mielenkiintoista tekniikkaa (ks. esim. http://labs.google.com/papers/) 12

Relevanssi Results 1 10 of about 50,300,000 Vanha tapa ratkaista ongelma: käyttäjä tarkentaa kyselyä lisäämällä ovelasti valittuja sanoja ja operaattoreilla AND, OR, NOT, NEAR. 13

Relevanssi Results 1 10 of about 50,300,000 Miten valitaan ne sivut, jotka näytetään ensimmäiseksi? Heuristiikkoja: Sanojen esiintymisfrekvenssi (huono idea) Sivu on hyvä, jos siihen viitataan paljon Sivu on hyvä lähde asiasta X, jos X mainitaan sivuun viittaavissa linkeissä. 14

Keskukset ja auktoriteetit 15

Keskukset ja auktoriteetit Hubs and authorities : Jon M. Kleinberg, Authoritative Sources in a Hyperlinked Environment, IBM Research Report 1997; SODA 1998 Hyvillä auktoriteettisivuilla on paljon yhteisiä linkittäjiä, keskuksia. 16

Keskukset ja auktoriteetit Etsitään ensin sivut, joilla X ja Y esiintyy Otetaan näistä heuristiikkojen perusteella esim. 200 parasta; olkoon tämä sivujen ydinjoukko S. Muodostetaan joukko T: S ja sivut jotka viittaavat johonkin joukon S sivuun ja sivut joihin jokin S:n sivu viittaa. 17

Keskukset ja auktoriteetit Tarkastellaan joukkoa T verkkona: solmuina sivut, kaarina linkit (suunnattuja kaaria) Olkoon E verkon T kaarien joukko: (u,v) E kun sivulta u on linkki sivulle v Pelkkä sivuun osoittavien linkkien määrä ei ole kovin hyvä relevanssin mittari. 18

Keskukset ja auktoriteetit Hyvä keskus osoittaa hyviin auktoriteetteihin. Hyviin auktoriteetteihin tulee linkkejä hyvistä keskuksista. Kehämääritelmä? 19

Keskukset ja auktoriteetit Kehämääritelmästä selvitään iteratiivisella menetelmällä (vrt. c means). Kullekin joukon T sivulle s määritellään keskuspaino ks ja auktoriteettipaino as. Skaalataan painojen neliöiden summat 1:ksi: s T k 2 s = 1 ja s T a 2 s = 1. 20

Keskukset ja auktoriteetit Tarvitaan jotkin alkuarvot: a s = k s = 1 n s T Iteratiiviset päivityssäännöt: a s t T (t,s) E k t ja k s t T (s,t) E a t 21

Keskukset ja auktoriteetit a s t T (t,s) E Ajatellaan painoja vektoreina a = ( ) a s s T ja k = ( k s )s T ja verkkoa matriisina M = ( 1 jos (s, t) E, muuten 0 ) s,t T Nyt iteraatio voidaan kirjoittaa helposti: k t ja k s t T (s,t) E a t a M T k ja k Ma 22

Keskukset ja auktoriteetit Oikeastaan a MT k M T k ja k Ma Ma a = 1... MT 1 k = 1... M1 a = 1... MT M1 k = 1... MMT 1 a = 1... MT MM T 1 k = 1... MMT M1 a = 1... MT MM T M1 k = 1... MMT MM T 1 23

Keskukset ja auktoriteetit Siis i:n iteraation jälkeen a = 1 (MT M) i 1 Matriisi M T M on symmetrinen, joten sillä on reaaliset ominaisarvot ja -vektorit ja se voidaan diagonalisoida: M T M = V D n V T, missä D = diag(λ 1, λ 2,..., λ n ). Teknisellä oletuksella (M T M) i 1 = V D i V T 1 λ 1 > λ 2 saadaan V diag(λ i 1, 0,..., 0)V T 1 = ( λ i 1 vt 1 1) v 1 24

Keskukset ja auktoriteetit Siis a on matriisin M T M suurinta ominaisarvoa vastaava ominaisvektori. Vastaavasti k on matriisin MM T ominaisvektori. Ominaisvektorit voitaisiin laskea millä tahansa menetelmällä, esim. Matlabissa funktiolla eig. 25

Tuloksia (java) Authorities.328 http://www.gamelan.com/ Gamelan.251 http://java.sun.com/ JavaSoft Home Page.190 http://www.digitalfocus.com/digitalfocus/faq/howdoi.html The Java Developer: How Do I....190 http://lightyear.ncsa.uiuc.edu/ srp/java/javabooks.html The Java Book Pages.183 http://sunsite.unc.edu/javafaq/javafaq.html comp.lang.java FAQ (censorship) Authorities.378 http://www.eff.org/ EFFweb - The Electronic Frontier Foundation.344 http://www.eff.org/blueribbon.html The Blue Ribbon Campaign for Online Free Speech.238 http://www.cdt.org/ The Center for Democracy and Technology.235 http://www.vtw.org/ Voters Telecommunications Watch.218 http://www.aclu.org/ ACLU: American Civil Liberties Union ( search engines ) Authorities Jon M. Kleinberg, Authoritative Sources in a Hyperlinked Environment 26

Toinen sovellus Samankaltaisten sivujen löytäminen: sen sijasta, että aloitettaisiin sanahaun löytämistä sivuista, aloitetaan johonkin sivuun linkittävistä sivuista. (www.honda.com) Authorities.202 http://www.toyota.com/.199 http://www.honda.com/.192 http://www.ford.com/.173 http://www.bmwusa.com/.162 http://www.volvocars.com/.158 http://www.saturncars.com/.155 http://www.nissanmotors.com/.145 http://www.audi.com/.139 http://www.4adodge.com/.136 http://www.chryslercars.com/ 27

PageRank 28

PageRank Sergey Brin and Larry Page, 1998 (Google) Sivu on relevantti, jos relevantit sivut viittaavat siihen. Kehämääritelmä? iteratiivinen menetelmä 29

PageRank Jos sivulta t on linkit sivuille s1, s2,..., sk, sivun t relevanssista välittyy 1/k jokaiselle näistä sivuista. Siis r Fr, missä matriisin F määrittelee { 1/deg(t), jos t:stä on linkki s:ään F s,t = 0 muuten. (deg(t) on linkkien määrä eli k yllä). 30

PageRank Sopivilla oletuksilla r on F:n suurinta ominaisarvoa 1 vastaava ominaisvektori, joten iteraatio konvergoi. Toinen tulkinta: Satunnainen surffailija aloittaa joltain sivulta ja seuraa linkkejä satunnaisesti. Sivun relevanssi on todennäköisyys, jolla surffailija päätyy sivulle (pitkän ajan kuluessa). 31

Entä jos... 32

PageRank Lisätään linkkejä saman tien kaikkialle: sallitaan surffaajan joskus kyllästyä (lisäksi vältytään teknisiltä hankaluuksilta konvergenssitodistuksessa) F s,t = 1 ɛ deg(t) + ɛ n, jos t:stä on linkki s:ään 1/n jos t:stä ei ole linkkejä minnekään ɛ/n muuten. 33

Tuloksia: 34

http://www.enquiro.com/eye-tracking-pr.asp 35