Tedonhakumenetelmät Helsngn ylopsto/ TKTL, k 2014 Webbhaku Tedonhakumenetelmät Hakuobott (cawle) Indeksoja Indekst Manosndekst Webbhaku /ndeksont Hakukone Hae 1 2 Hakuobott Robotn elämää Hakuobotn (cawle, spde) [katottajan] tehtävänä on katottaa webbsvujen ssältöä ja tomttaa svuun lttyvää tetoa ndeksojlle. Robott alottaa katotuksen joukosta semensvuja (:t) valtsee näden joukosta jonkn :n ja hakee svun jäsentää svun ja eottelee seltä tekstä ja lnkkejä syöttää tekstn ndeksojalle ja lnkkehn lttyvät :t katotuskon ( fonte) odottamaan jatkoa. Katotusko ptää ssällään tutkmsta odottaven svujen :t, aluks semensvujen :t Postaa svun katotuskosta kun se on kästelty ja valtsee kosta uuden osotteen kästtelyyn. OTA TUTKI WEB SIVU KERÄÄ TEKSTI KERÄÄ LINKIT INDEKSOIJA 3 4 Robotn elämää Robotn elämää Vakuttaa yksnketaselta, mutta käytännössä Työ on lan so yhdellä koneella hodettavaks, joten tavtaan hajautusta Svut vovat olla pahansuopa (spämmä ja ansoja) joten tavtaan spämmn tunnstusta Kunnollsetkn svut vovat aheuttaa ongelma Etäpalvelmen vastausajat ja kastanleveys vahtelevat Svuston ylläptäjät ovat voneet asettaa ajotuksa slle mten syvälle svuston solmuvekossa vo edetä Svusto on votu pelata ja svusta esntyy kopota Svuston tomntaa e saa hätä lan thellä hakupyynnöllä Haettu teto on vkstettävä ajottan Hyvät tomntatavat Noudatetaan pelsääntöjä Pysytään salltulla svulla Noudatetaan obots.txt määtyksä Potokolla joka antaa obotelle ajattuja pääsyokeuksa http://www.obotstxt.og/og.html Van yks yhteys keallaan samaan palvelmeen Samalle palvelmelle kohdstuven peäkkästen pyyntöjen välllä muutaman sekunnn vve Kestävyys Oltava mmuun ansolle ja mulle hatolle 5 6 H.Lane 1
Tedonhakumenetelmät Helsngn ylopsto/ TKTL, k 2014 Robotlta edellytetään Hakuobotn osat Hajautettavuutta Kykyä toma usealla latteella Skaalautuvuutta Tomnnan tehostamsta lsäämällä latteta Suotuskykyä ja tehokkuutta Kykyä hyödyntää vekon omnasuuksa Tatoa hakea ensn kokeatasosemmat Vkstyskykyä Vkstää tetoja aemmn haetusta Laajennettavuutta Mahdollsuuksa lsätä uusa tetofomaatteja ja potokolla Modulaasuutta WEBBI DNS nmpalvelu Haku Kästellyt Jäsentäjä Kopotunns tus Katotusko säännöt Jatkolupa pomtut Tuplen kasja 7 8 Katotusposess Hakuobotn tomet Hakuobott tom useana nnakkasena säkeenä Mahdollsest hajautettuna posesseks e konella Robottsolmulla vo olla vastuualue, josta se katottaa anestoa Vo peustua esm. alueellseen lähesyyteen. Jäsentäjä Estää dokumentsta lnkt ja tekstelementt Kummatkn vältetään ndeksojalle, jos katsotaan, että svu on tapeen ndeksoda 9 10 Hakuobotn tomet Hakuobotn tomet Kopotunnstus Testaa onko lähes ta täysn samanssältönen svu jo kästelty aemmn Test vo peustua : yksnketaseen somenjälkvetaluun (fngepnt = hajautusavo koko svusta) Van täydellset kopot antavat saman hajautusavon katejonojen (shnglng) joukon samankaltasuuteen dokumentn w-katejonot = dokumentn kakken w-mttasten sanasekvenssen joukko, esm: 4-katejonot= 4 sanan sekvensst Samankaltasuus Jaccad-mtalla, estmotavssa katejonojen somenjälken peusteella laskettujen tunnuslukujoukkojen avulla Dokumenttehn lttyven katejonopohjasten tunnuslukujen tallennus vaat tlaa Teknkkaa vo käyttää myös lkmäääskopoden etsmseen. Teknkka käytössä myös plagonnn tunnstuksessa. Jatkolupa-kästteljä (-flte) päättää onko vastaan tullut lnkk sellanen, joka kelpas katotusetn jatkoks jotan hakukoneympästön asettama ylesohjeta esm. vastuualueet, jolla tomtaan otettava huomon svuston ylläptäjän mahdollset obotelle asettamat ajotukset (obots.txt) Suhteellsten lnkken täydennys absoluuttsks Dokumentn somenjälk ta katejonojoukon tunnusluvut (skeleton) on tallennettava 11 12 H.Lane 2
Tedonhakumenetelmät Helsngn ylopsto/ TKTL, k 2014 Hakuobotn tomet Katotusko Tuplenkasjan tehtävänä on tutka onko lnkk jo katotuskossa ta ndeksotujen joukossa. Elle ole lnkk vedään katotuskon ja slle asetetaan poteett Katotusko on tetoakenne, jonka avulla pytään Suosmaan kokealaatusten svujen theämpää ndeksonta Rajottamaan lan theään palvelmelle kohdstuva pyyntöjä Poteett laadun ja svun ylläptotheyden peusteella jokn laatumtta tavtaan (PageRank) 13 14 Katotusko Hajautettu katotus p o s o j a 1 2 N Poteettluokken jonot e t t n Sattkohtaset jonot Akajäjestetty (mllon akasntaan seuaava pyyntö) jonojen keko, 1 solmu/sattjono Hupulla olevasta jonosta kästtelyyn, Kekoon tlalle samaa jonoa kuvaava solmu, jolle akasn seuaava pyyntö esm. 5s nykyhetkestä Hakee satunnasest, mutta e hae tasapuolsest 15 WEBBI DNS nmpalvelu Haku Kästellyt Jäs entäjä Kopotunns tus Katotusko säännöt Jatkolupa Hajautetussa atkasussa::t tomtetaan nden vastuusolmulle, multa otetaan vastaavast vastaan omalla vastuulla olema Muut solmut Ulos Multa solmulta pomtut Tuplen kasja 16 Hajautetut ndekst Tempeustanen hajautus Mahdollset hajautustavat Tempeustanen Temjoukon temen kakk esntymätedot yhdessä solmussa Dokumenttpeustanen Dokumenttjoukon dokumenttehn lttyvät tedot temestä yhdessä solmussa Kyselyn kästtely ohjataan temen peusteellandekssolmulle Hyvä nnakkasuusaste, koska e temejä vodaan kästellä samanakasest Mutta Monsanasten kyselyjen kästtely edellyttää sojen esntymälstojen stelyä Solmujen kuomtus ppus kyselytendestä, jota on vakea ennustaa Mten päätetään, mtkä temt samaan solmuun Indeksen ylläpto vakeutuu 17 18 H.Lane 3
Tedonhakumenetelmät Helsngn ylopsto/ TKTL, k 2014 Dokumenttpeustanen hajautus Indeksen luont hajautetust Dokumenttjoukkoon lttyvät temen esntymätedot yhdessä solmussa Ylesemmn käytetty Temehn lttyvä esntymälstoja usessa solmussa Kysely lähetetään kaklle solmulle ja tulokset kootaan yhteen Temen fekvensst ovat elasa e solmussa Globaalt statstkat kuten df ptää kutenkn laskea koko anestosta, taustatomntana, pävtetään ajottan Mten dokumentt ostetaan solmujen kesken Kääntenen tyypllnen peusta Saman satn svut samassa solmussa kyselyt saattavat keskttyä peneen joukkoon solmuja Hajautus :n peusteella jakaa kuomaa tasasemmn Isäntä (maste) ohjaa ndeksonta Indeksont jaetaan nnakkasten tehtäven joukoks Isäntä antaa tehtävän jollekn vapaana olevalle solmulle Kahden tyyppsä tehtävä Jäsennystehtävä (pase) Indeksn kokoamstehtävä (nvete) Anestoa annetaan posessotavaks esm. hakuobotn tuottamna bulkkdataenä 19 20 Indeksen luont hajautetust Indeksen luont hajautetust Jäsennystehtävän suottaja tuottaa <temid, dokumenttid> paeja ta <temid, dokumenttid, pakka> kolmkota Kjottaa pat yhmttelytedostohn Kohdetedosto vos määäytyä vakkapa dokumenttid:hen ssältyvän doman-tunnuksen peusteella Isäntä Kontollo. Käynnstää, uudelleen alloko P1 Pk Pm I1 Indeksn kokoajat 21 Katottajan tuottamaa bulkkdataa Tekstn jäsentäjät If TemID,docID pat yhmteltynä Indeksvpaleet 22 Indeksen luont hajautetust Indeksen luont hajautetust Indeksen kokoajat saavat syöttöanestokseen tosaan vastaavat yhmätedostot, ja muodostavat <temid, dokumenttid> paen peusteella temen esntymälstat Edellä kuvattu ndeksen akentamstapa on MapReduce kehyksen (famewok) lmentymä Googlen kehttämä MapReduce on kehys/mall hajautetulle tetojenkästtelylle Kehys huoleht hajautuspalvelusta, ohjelmojan tavtsee toteuttaa van Map ja Reduce kästteljät Tässä jäsentäjä (map) ja ndeksn kokoaja (educe) 23 24 H.Lane 4
Tedonhakumenetelmät Helsngn ylopsto/ TKTL, k 2014 Webbhaku MapReduce mall: map: nput lst(key, value) educe: (key,lst(value)) output Malln nstantont ndeksen laadntaan map: web collec on lst(temid, docid) educe: (htemid 1, lst(docid), htemid 2, lst(docid),... ) (postngs lst 1, postngs lst 2,... ) 25 H.Lane 5