Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

Samankaltaiset tiedostot
Etsintä verkosta (Searching from the Web) T Datasta tietoon Jouni Seppänen

Luku 9. Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa

Tämän luvun sisältö. Luku 9. Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa. Webin lyhyt historia 1992: ensimmäisiä selaimia

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea.

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Arvostus Verkostoissa: PageRank. Idea.

Matematiikka ja teknologia, kevät 2011

Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa Linkkikeskukset ja auktoriteetit (hubs and authorities) -algoritmi

MS-A0004/A0006 Matriisilaskenta

ax + y + 2z = 0 2x + y + az = b 2. Kuvassa alla on esitetty nesteen virtaus eräässä putkistossa.

[6.2 Hypertekstin tiedonhakumalleja (jatkoa)] ARC algoritmi: 3º Linkkitekstin huomiointi

Ratkaisuehdotukset LH 7 / vko 47

MS-A0003/A Matriisilaskenta Laskuharjoitus 6

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

MS-A0004/MS-A0006 Matriisilaskenta Laskuharjoitus 6 / vko 42

Ratkaisuehdotukset LH 3 / alkuvko 45

Ominaisarvo-hajoitelma ja diagonalisointi

Ratkaisuehdotukset LH 10 / vko 48

Linkit webbihauissa / PageRank

Matemaattinen Analyysi / kertaus

Milloin A diagonalisoituva?

Ortogonaalisen kannan etsiminen

Numeeriset menetelmät TIEA381. Luento 5. Kirsi Valjus. Jyväskylän yliopisto. Luento 5 () Numeeriset menetelmät / 28

Matriisilaskenta Luento 16: Matriisin ominaisarvot ja ominaisvektorit

MS-A0003/A0005 Matriisilaskenta Malliratkaisut 5 / vko 48

Harjoitus 3 ( )

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

Matriisialgebra harjoitukset, syksy 2016

Matriisihajotelmat. MS-A0007 Matriisilaskenta. 5.1 Diagonalisointi. 5.1 Diagonalisointi

5 OMINAISARVOT JA OMINAISVEKTORIT

Harjoitus 3 ( )

Talousmatematiikan perusteet: Luento 13. Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu

MS-C1340 Lineaarialgebra ja

Esimerkki 4.4. Esimerkki jatkoa. Määrää matriisin ominaisarvot ja -vektorit. Ratk. Nyt

Algoritmit 2. Luento 11 Ti Timo Männikkö

Inversio-ongelmien laskennallinen peruskurssi Luento 7 8

Markov-ketjut pitkällä aikavälillä

Lineaarialgebra ja differentiaaliyhtälöt Harjoitus 4 / Ratkaisut

Konjugaattigradienttimenetelmä

Ominaisarvo ja ominaisvektori

VERKKORAKENTEEN VAIKUTUKSIA KAIKKI SOLMUT EIVÄT OLE SAMANLAISIA

58131 Tietorakenteet (kevät 2009) Harjoitus 11, ratkaisuja (Topi Musto)

Algoritmit 1. Luento 13 Ti Timo Männikkö

Ominaisarvot ja ominaisvektorit 140 / 170

Neliömatriisin adjungaatti, L24

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Kohdeyleisö: toisen vuoden teekkari

Antti Rasila. Kevät Matematiikan ja systeemianalyysin laitos Aalto-yliopisto. Antti Rasila (Aalto-yliopisto) MS-A0204 Kevät / 16

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

4. Lasketaan transienttivirrat ja -jännitteet kuvan piiristä. Piirielimien arvot ovat C =

Iteratiiviset ratkaisumenetelmät

Talousmatematiikan perusteet: Luento 14. Rajoittamaton optimointi Hessen matriisi Ominaisarvot Ääriarvon laadun tarkastelu

Neliömatriisi A on ortogonaalinen (eli ortogonaalimatriisi), jos sen alkiot ovat reaalisia ja

Numeeriset menetelmät

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

Ominaisarvoon 4 liittyvät ominaisvektorit ovat yhtälön Ax = 4x eli yhtälöryhmän x 1 + 2x 2 + x 3 = 4x 1 3x 2 + x 3 = 4x 2 5x 2 x 3 = 4x 3.

Lineaarialgebra II, MATH.1240 Matti laaksonen, Lassi Lilleberg

Ortogonaaliset matriisit, määritelmä 1

Ellipsoidimenetelmä. Samuli Leppänen Kokonaislukuoptimointi. S ysteemianalyysin Laboratorio

Matematiikka ja teknologia, kevät 2011

Matematiikka B2 - Avoin yliopisto

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 6: Ääriarvojen luokittelu. Lagrangen kertojat.

Luento 9: Newtonin iteraation sovellus: optimointiongelma

. Kun p = 1, jono suppenee raja-arvoon 1. Jos p = 2, jono hajaantuu. Jono suppenee siis lineaarisesti. Vastaavasti jonolle r k+1 = r k, suhde on r k+1

Paikannuksen matematiikka MAT

Shorin algoritmin matematiikkaa Edvard Fagerholm

Harj 2 teht. 13. mplv0009r.mw

8 KANNAT JA ORTOGONAALISUUS. 8.1 Lineaarinen riippumattomuus. Vaasan yliopiston julkaisuja 151

3.2.2 Tikhonovin regularisaatio

Matematiikka B2 - TUDI

Lineaarialgebra ja matriisilaskenta I

Esimerkki: Tietoliikennekytkin

1. (a) Seuraava algoritmi tutkii, onko jokin luku taulukossa monta kertaa:

TIEDONHAKU INTERNETISTÄ

Tehtävään voi perinteisen arviointitavan tilalle ottaa käyttöön monipuolisemman matriisiarvioinnin tai arviointioppaan.

(a) Järjestellään yhtälöitä siten, että vasemmalle puolelle jää vain y i ja oikealle puolelle muut

Esimerkki 19. Esimerkissä 16 miniminormiratkaisu on (ˆx 1, ˆx 2 ) = (1, 0).

Katsaus konepellin alle - iteratiivisia menetelmiä ominaisarvotehtävälle

Lineaarisen kokonaislukuoptimointitehtävän ratkaiseminen

Matriisit ja vektorit Matriisin käsite Matriisialgebra. Olkoon A = , B = Laske A + B, , 1 3 3

Matriisit ovat matlabin perustietotyyppejä. Yksinkertaisimmillaan voimme esitellä ja tallentaa 1x1 vektorin seuraavasti: >> a = 9.81 a = 9.

Tehtäväsarja I Seuraavat tehtävät liittyvät kurssimateriaalin lukuun 7 eli vapauden käsitteeseen ja homogeenisiin

Algoritmit 1. Luento 9 Ti Timo Männikkö

Kurssikoe on maanantaina Muista ilmoittautua kokeeseen viimeistään 10 päivää ennen koetta! Ilmoittautumisohjeet löytyvät kurssin kotisivuilla.

(0 desimaalia, 2 merkitsevää numeroa).

Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016

Ominaisarvo ja ominaisvektori

Differentiaaliyhtälöt II, kevät 2017 Harjoitus 5

Kombinatorinen optimointi

Graafit ja verkot. Joukko solmuja ja joukko järjestämättömiä solmupareja. eli haaroja. Joukko solmuja ja joukko järjestettyjä solmupareja eli kaaria

Insinöörimatematiikka D

Similaarisuus. Määritelmä. Huom.

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Tehtävä: FIL Tiedostopolut

Matriisi-vektori-kertolasku, lineaariset yhtälöryhmät

3.1 Lineaarikuvaukset. MS-A0004/A0006 Matriisilaskenta. 3.1 Lineaarikuvaukset. 3.1 Lineaarikuvaukset

58131 Tietorakenteet ja algoritmit (kevät 2014) Uusinta- ja erilliskoe, , vastauksia

Markov-kustannusmallit ja kulkuajat

Algoritmit 2. Luento 13 Ti Timo Männikkö

Sovellusohjelmointi Matlab-ympäristössä: Vertaisverkon koneiden klusterointi

Transkriptio:

Etsintä verkosta (Searching from the Web) T-61.2010 Datasta tietoon Heikki Mannila, Jouni Seppänen 12.12.2007

Webin lyhyt historia

http://info.cern.ch/proposal.html

http://browser.arachne.cz/screen/

Etsintä verkosta

Etsintä verkosta Miten löydetään verkosta hyviä sivuja, jotka kertovat tiedon louhinnasta? info.cern.ch: ilmoitustaulu uusista sivuista Yahoo: käsin toimitettu hakemisto Skaalautuvat huonosti...

Etsintä verkosta Annettuna kysely data mining Miten löydetään automaattisesti sivut, joilla nuo sanat esiintyvät (tai esiintyvät peräkkäin)? Miten löydetään näistä sivuista hyödyllisimmät?

Sanahaku Merkkijonomenetelmät (string algorithms): paljon hauskoja algoritmeja Esivalmisteluna käydään koko verkko läpi seuraamalla linkkejä. Kullakin sanalla X tallennetaan lista sivuista, joilla X esiintyy.

Sanahaku Kyselyyn X ja Y vastattessa käydään kummankin sanan osoitelistat läpi ja palautetaan ne osoitteet, jotka esiintyvät molemmissa. Käytännössä hankalampaa kuin näyttää paperilla: dataa on paljon, vastaus pitäisi saada alle sekunnissa. Paljon mielenkiintoista tekniikkaa (ks. esim. http://labs.google.com/papers/)

Relevanssi Results 1 10 of about 50,300,000 Vanha tapa ratkaista ongelma: käyttäjä tarkentaa kyselyä lisäämällä ovelasti valittuja sanoja ja operaattoreilla AND, OR, NOT, NEAR.

Relevanssi Results 1 10 of about 50,300,000 Miten valitaan ne sivut, jotka näytetään ensimmäiseksi? Heuristiikkoja: Sanojen esiintymisfrekvenssi (huono idea) Sivu on hyvä, jos siihen viitataan paljon Sivu on hyvä lähde asiasta X, jos X mainitaan sivuun viittaavissa linkeissä.

Keskukset ja auktoriteetit

Keskukset ja auktoriteetit Hubs and authorities : Jon M. Kleinberg, Authoritative Sources in a Hyperlinked Environment, IBM Research Report 1997; SODA 1998 Hyvillä auktoriteettisivuilla on paljon yhteisiä linkittäjiä, keskuksia.

Keskukset ja auktoriteetit Etsitään ensin sivut, joilla X ja Y esiintyy Otetaan näistä heuristiikkojen perusteella esim. 200 parasta; olkoon tämä sivujen ydinjoukko S. Muodostetaan joukko T: S ja sivut jotka viittaavat johonkin joukon S sivuun ja sivut joihin jokin S:n sivu viittaa.

Keskukset ja auktoriteetit Tarkastellaan joukkoa T verkkona: solmuina sivut, kaarina linkit (suunnattuja kaaria) Olkoon E verkon T kaarien joukko: (u,v) E kun sivulta u on linkki sivulle v Pelkkä sivuun osoittavien linkkien määrä ei ole kovin hyvä relevanssin mittari.

Keskukset ja auktoriteetit Hyvä keskus osoittaa hyviin auktoriteetteihin. Hyviin auktoriteetteihin tulee linkkejä hyvistä keskuksista. Kehämääritelmä?

Keskukset ja auktoriteetit Kehämääritelmästä selvitään iteratiivisella menetelmällä (vrt. c means). Kullekin joukon T sivulle s määritellään keskuspaino ks ja auktoriteettipaino as. Skaalataan painojen neliöiden summat 1:ksi:

Keskukset ja auktoriteetit Tarvitaan jotkin alkuarvot: Iteratiiviset päivityssäännöt:

Keskukset ja auktoriteetit Ajatellaan painoja vektoreina ja verkkoa matriisina Nyt iteraatio voidaan kirjoittaa helposti:

Oikeastaan Keskukset ja auktoriteetit

Keskukset ja auktoriteetit Siis i:n iteraation jälkeen Matriisi M T M on symmetrinen, joten sillä on reaaliset ominaisarvot ja -vektorit ja se voidaan diagonalisoida:, missä. Teknisellä oletuksella saadaan

Keskukset ja auktoriteetit Siis a on matriisin M T M suurinta ominaisarvoa vastaava ominaisvektori. Vastaavasti k on matriisin MM T ominaisvektori. Ominaisvektorit voitaisiin laskea millä tahansa menetelmällä, esim. Matlabissa funktiolla eig.

Tuloksia Jon M. Kleinberg, Authoritative Sources in a Hyperlinked Environment

Samankaltaisten sivujen löytäminen: sen sijasta, että aloitettaisiin sanahaun löytämistä sivuista, aloitetaan johonkin sivuun linkittävistä sivuista. Toinen sovellus

PageRank

PageRank Sergey Brin and Larry Page, 1998 (Google) Sivu on relevantti, jos relevantit sivut viittaavat siihen. Kehämääritelmä? iteratiivinen menetelmä

PageRank Jos sivulta t on linkit sivuille s1, s2,..., sk, sivun t relevanssista välittyy 1/k jokaiselle näistä sivuista. Siis, missä matriisin F määrittelee (deg(t) on linkkien määrä eli k yllä).

PageRank Sopivilla oletuksilla r on F:n suurinta ominaisarvoa 1 vastaava ominaisvektori, joten iteraatio konvergoi. Toinen tulkinta: Satunnainen surffailija aloittaa joltain sivulta ja seuraa linkkejä satunnaisesti. Sivun relevanssi on todennäköisyys, jolla surffailija päätyy sivulle (pitkän ajan kuluessa).

Entä jos...

PageRank Jos sivusta ei ole linkkejä minnekään, lisätään linkit kaikkialle. (Tässä n on sivujen määrä.)

PageRank Lisätään linkkejä saman tien kaikkialle: sallitaan surffaajan joskus kyllästyä (lisäksi vältytään teknisiltä hankaluuksilta konvergenssitodistuksessa)

http://www.enquiro.com/eye-tracking-pr.asp