Webbihaku /indeksointi

Samankaltaiset tiedostot
Taustaa. Sekventiaalinen vaikutuskaavio. Päätöspuista ja vaikutuskaavioista. Esimerkki: Reaktoriongelma. Johdantoa sekventiaalikaavioon

A250A0100 Finanssi-investoinnit Harjoitukset

COULOMBIN VOIMA JA SÄHKÖKENTTÄ, PISTEVARAUKSET, JATKUVAT VARAUSJAKAUMAT

Palkanlaskennan vuodenvaihdemuistio 2014

Jaetut resurssit. Tosiaikajärjestelmät Luento 5: Resurssien hallinta ja prioriteetit. Mitä voi mennä pieleen? Resurssikilpailu ja estyminen

Työn tavoitteita. 1 Johdanto. 2 Ideaalikaasukäsite ja siihen liittyvät yhtälöt

PPSS. Roolikäyttäytymisanalyysi Tämän raportin on tuottanut: MLP Modular Learning Processes Oy Äyritie 8 A FIN Vantaa info@mlp.

Yleistä. Teräsrakenteiden liitokset. Liitos ja kiinnitys

Palkanlaskennan vuodenvaihdemuistio 2017

Sähköstaattinen energia

VERKKO-OPPIMATERIAALIN LAATUKRITEERIT

Työn tavoitteita. 1 Johdanto. 2 Ideaalikaasukäsite ja siihen liittyvät yhtälöt

FYSA220/2 (FYS222/2) VALON POLARISAATIO

1. Luvut 1, 10 on laitettu ympyrän kehälle. Osoita, että löytyy kolme vierekkäistä

Kuluttajahintojen muutokset

Turingin kone on kuin äärellinen automaatti, jolla on käytössään

XALKORI ALK-positiivisen NSCLC:n hoidossa

Luento 6 Luotettavuus Koherentit järjestelmät

A = B = T = Merkkijonon A osamerkkijono A[i..j]: n merkkiä pitkä merkkijono A:

Mat Lineaarinen ohjelmointi

6. Stokastiset prosessit (2)

ABTEKNILLINEN KORKEAKOULU

Epätäydelliset sopimukset

Timo Tarvainen PUROSEDIMENTIIANALYYSIEN HAVAINNOLLISTAMINEN GEOSTATISTIIKAN KEINOIN. Outokumpu Oy Atk-osasto

Tchebycheff-menetelmä ja STEM

Hyrynsalmen kunta, jäljempänä kunta. Laskutie 1, HYRYNSALMI. Kohde sijaitsee Hallan Sauna- nimisessä kiinteistössä.

Palvelun kuvaus. Dell EqualLogic -palvelimen etäkäyttöönotto. Palvelusopimuksen esittely

Monte Carlo -menetelmä

3D-mallintaminen konvergenttikuvilta

Täydelliset ja yksityiskohtaiset tiedot evästeistä

PRS-xPxxx- ja LBB 4428/00 - tehovahvistimet

4. A priori menetelmät

Mittausvirhe. Mittaustekniikan perusteet / luento 6. Mittausvirhe. Mittausepävarmuus ja siihen liittyvää terminologiaa

Yhdistä astianpesukoneesi tulevaisuuteen.

Uuden eläkelaitoslain vaikutus allokaatiovalintaan

7. Keko. Tarkastellaan vielä yhtä tapaa toteuttaa sivulla 162 määritelty tietotyyppi joukko

AMMATTIMAISTA KIINTEISTÖPALVELUA JO 50 VUODEN AJAN

Paperikoneiden tuotannonohjauksen optimointi ja tuotefokusointi

Eräs Vaikutuskaavioiden ratkaisumenetelmä

Täydelliset ja yksityiskohtaiset tiedot evästeistä

VIHDIN KUNTA TOIMEENTULOTUKIHAKEMUS 1(5) PERUSTURVAKESKUS Perhehuolto

ESITYSLISTA 25/2002 vp PERUSTUSLAKIVALIOKUNTA

1. YLEISKATSAUS MYYNTIPAKKAUKSEN SISÄLTÖ. ZeFit USB -latausklipsi Käyttöohje. Painike

Työllistääkö aktivointi?

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

6. Stokastiset prosessit

Aamukatsaus

Epälineaaristen pienimmän neliösumman tehtävien ratkaiseminen numeerisilla optimointimenetelmillä (valmiin työn esittely)

Painotetun metriikan ja NBI menetelmä

HIFI-KOMPONENTTIJÄRJESTELMÄ

Esittelyssä Online -ilmoituspalvelu Online -ilmoituspalvelu Yksinkertainen käyttöopas uuteen Online -ilmoituspalveluun (OLR)

Johdatus tekoälyn taustalla olevaan matematiikkaan

asettamia ehtoja veroluonteisesta suhdannetasausjärjestelmästä. komitean mietintöön. Esityksessä on muutama ratkaisevan heikko kohta.

TUTKIMUKSEN VAIKUTTAVUUDEN MITTAAMINEN MAANMITTAUSTIETEISSÄ. Juha Hyyppä, Anna Salonen

Sähkön- ja lämmöntuotannon kustannussimulointi ja herkkyysanalyysi

SUOMEN MATKAILIJAYHDISTYS MATKAILUMAJAT TALVELLA

3 Tilayhtälöiden numeerinen integrointi

Esitä koherentin QAM-ilmaisimen lohkokaavio, ja osoita matemaattisesti, että ilmaisimen lähdöstä saadaan kantataajuiset I- ja Q-signaalit ulos.

1 0 2 x 1 a. x 1 2x c b 2a c a. Alimmalta riviltä nähdään että yhtälöyhmällä on ratkaisu jos ja vain jos b 3a + c = 0.

Lohkoasetelmat. Lohkoasetelmat. Lohkoasetelmat: Mitä opimme? Lohkoasetelmat. Lohkoasetelmat. Satunnaistettu täydellinen lohkoasetelma 1/4

Base unweighted Base weighted TK2 - TK2. Kuinka usein luette kemikaalien varoitusmerkit ja käyttöohjeet?

SUOMI LATAAMINEN YHDISTÄMINEN NÄYTTÖTILAT PUHELUT ILMOITUKSET SYNKRONOINTI AKTIIVISUUSMITTARI

ER-kaaviot. Ohjelmien analysointi. Tilakaaviot. UML-kaaviot (luokkakaavio) Tietohakemisto. UML-kaaviot (sekvenssikaavio) Kirjasto

TULEVAISUUDEN KILPAILUKYKY VAATII OSAAVAT TEKIJÄNSÄ. Suomen Ammattiin Opiskelevien Liitto - SAKKI ry

Yhdistä kodinkoneesi tulevaisuuteen. Pikaopas

Tuotteiden erilaistuminen: hintakilpailu

Paikkatietotyökalut Suomenlahden merenkulun riskiarvioinnissa

Moderni portfolioteoria

Valtion hankintojen digitalisointi toteutusohjelma Työpaja ohjelmapäällikkö Seija Friman, VK

Geneettiset algoritmit ja luonnossa tapahtuva mikroevoluutio

ler-modern isaatio * d *r n ax* *neäemw & rffi rffi # Sch ind Schindler {4ssxisä tu\*vmisu a**r3 \mj**nt rei

Yhdistä kodinkoneesi tulevaisuuteen. Pikaopas

r i m i v i = L i = vakio, (2)

Asennus- ja käyttöohjeet. Videoterminaali

1, x < 0 tai x > 2a.

Suurivaltaisin, Armollisin Keisari ja Suuriruhtinas!

in 2/ InHelp palvelee aina kun apu on tarpeen INMICSIN ASIAKASLEHTI

Tietojen laskentahetki λ α per ,15 0,18 per ,15 0,18 per tai myöhempi 0,20 0,18

Majoituslautakunta. Vuonna Lautakunnalle tullut 6 kirjelmää Kuvernööriltä ^autaklumal1

KOHTA 1. AINEEN/SEOKSEN JA YHTIÖN/YRITYKSEN TUNNISTETIEDOT

Fysiikkaa työssä. fysiikan opiskelu yhteistyössä yritysten kanssa

KOHTA 3. KOOSTUMUS JA TIEDOT AINEOSISTA

Säilörehun korjuuajan vaikutus maitotilan talouteen -lyhyen aikavälin näkökulma

Yrityksellä on oikeus käyttää liketoimintaansa kunnan kanssa määriteltyä Hallan Saunan piha-aluetta.

KUVIEN LAADUN ANALYSOINTI

porsche design mobile navigation ß9611

KOKONAISRATKAISUT YHDESTÄ PAIKASTA

SOKLIN KAIVOSHANKKEEN YVA-SELVITYS (TÄYDENNYS)

VAIKKA LAINAN TAKAISIN MAKSETTAVA MÄÄRÄ ON SEN NIMELLISARVO, SIJOITTAJA VOI MENETTÄÄ OSAN MERKINTÄHINNASTA, JOS LAINA ON MERKITTY YLIKURSSIIN

on määritelty tarkemmin kohdassa 2.3 ja pi kohdassa 2.2.

Markov-prosessit (Jatkuva-aikaiset Markov-ketjut)

SUOMI LATAAMINEN LAITEPARI NÄYTTÖTILAT PUHELUT ILMOITUKSET AKTIVITEETTI UNITILA TAVOITTEET MUISTUTUKSET ÄÄNIKOMENNOT MUSIIKKI ETÄISYYSHÄLYTYS

SU/Vakuutusmatemaattinen yksikkö (5)

- Keskustelu symbolein. i

LASITETTUJEN PARVEKKEIDEN ÄÄNENERISTÄVYYDEN SUUNNITTELUOHJE

Uuden opettajan opas

Mittausepävarmuus. Mittaustekniikan perusteet / luento 7. Mittausepävarmuus. Mittausepävarmuuden laskeminen. Epävarmuuslaskelma vai virhearvio?

KlapiTuli-palotila. KlapiTuli-palotilan osat, kokoamis- ja turvaiiisuusohje. Sormikiinnikkeet. 1. Nuppi

JYVÄSKYLÄN YLIOPISTO Taloustieteiden tiedekunta

KUORMITUSKÄYRÄSTÖT VALMISTUS JA LAADUNVALVONTA... 17

Transkriptio:

Tedonhakumenetelmät Helsngn ylopsto/ TKTL, k 2014 Webbhaku Tedonhakumenetelmät Hakuobott (cawle) Indeksoja Indekst Manosndekst Webbhaku /ndeksont Hakukone Hae 1 2 Hakuobott Robotn elämää Hakuobotn (cawle, spde) [katottajan] tehtävänä on katottaa webbsvujen ssältöä ja tomttaa svuun lttyvää tetoa ndeksojlle. Robott alottaa katotuksen joukosta semensvuja (:t) valtsee näden joukosta jonkn :n ja hakee svun jäsentää svun ja eottelee seltä tekstä ja lnkkejä syöttää tekstn ndeksojalle ja lnkkehn lttyvät :t katotuskon ( fonte) odottamaan jatkoa. Katotusko ptää ssällään tutkmsta odottaven svujen :t, aluks semensvujen :t Postaa svun katotuskosta kun se on kästelty ja valtsee kosta uuden osotteen kästtelyyn. OTA TUTKI WEB SIVU KERÄÄ TEKSTI KERÄÄ LINKIT INDEKSOIJA 3 4 Robotn elämää Robotn elämää Vakuttaa yksnketaselta, mutta käytännössä Työ on lan so yhdellä koneella hodettavaks, joten tavtaan hajautusta Svut vovat olla pahansuopa (spämmä ja ansoja) joten tavtaan spämmn tunnstusta Kunnollsetkn svut vovat aheuttaa ongelma Etäpalvelmen vastausajat ja kastanleveys vahtelevat Svuston ylläptäjät ovat voneet asettaa ajotuksa slle mten syvälle svuston solmuvekossa vo edetä Svusto on votu pelata ja svusta esntyy kopota Svuston tomntaa e saa hätä lan thellä hakupyynnöllä Haettu teto on vkstettävä ajottan Hyvät tomntatavat Noudatetaan pelsääntöjä Pysytään salltulla svulla Noudatetaan obots.txt määtyksä Potokolla joka antaa obotelle ajattuja pääsyokeuksa http://www.obotstxt.og/og.html Van yks yhteys keallaan samaan palvelmeen Samalle palvelmelle kohdstuven peäkkästen pyyntöjen välllä muutaman sekunnn vve Kestävyys Oltava mmuun ansolle ja mulle hatolle 5 6 H.Lane 1

Tedonhakumenetelmät Helsngn ylopsto/ TKTL, k 2014 Robotlta edellytetään Hakuobotn osat Hajautettavuutta Kykyä toma usealla latteella Skaalautuvuutta Tomnnan tehostamsta lsäämällä latteta Suotuskykyä ja tehokkuutta Kykyä hyödyntää vekon omnasuuksa Tatoa hakea ensn kokeatasosemmat Vkstyskykyä Vkstää tetoja aemmn haetusta Laajennettavuutta Mahdollsuuksa lsätä uusa tetofomaatteja ja potokolla Modulaasuutta WEBBI DNS nmpalvelu Haku Kästellyt Jäsentäjä Kopotunns tus Katotusko säännöt Jatkolupa pomtut Tuplen kasja 7 8 Katotusposess Hakuobotn tomet Hakuobott tom useana nnakkasena säkeenä Mahdollsest hajautettuna posesseks e konella Robottsolmulla vo olla vastuualue, josta se katottaa anestoa Vo peustua esm. alueellseen lähesyyteen. Jäsentäjä Estää dokumentsta lnkt ja tekstelementt Kummatkn vältetään ndeksojalle, jos katsotaan, että svu on tapeen ndeksoda 9 10 Hakuobotn tomet Hakuobotn tomet Kopotunnstus Testaa onko lähes ta täysn samanssältönen svu jo kästelty aemmn Test vo peustua : yksnketaseen somenjälkvetaluun (fngepnt = hajautusavo koko svusta) Van täydellset kopot antavat saman hajautusavon katejonojen (shnglng) joukon samankaltasuuteen dokumentn w-katejonot = dokumentn kakken w-mttasten sanasekvenssen joukko, esm: 4-katejonot= 4 sanan sekvensst Samankaltasuus Jaccad-mtalla, estmotavssa katejonojen somenjälken peusteella laskettujen tunnuslukujoukkojen avulla Dokumenttehn lttyven katejonopohjasten tunnuslukujen tallennus vaat tlaa Teknkkaa vo käyttää myös lkmäääskopoden etsmseen. Teknkka käytössä myös plagonnn tunnstuksessa. Jatkolupa-kästteljä (-flte) päättää onko vastaan tullut lnkk sellanen, joka kelpas katotusetn jatkoks jotan hakukoneympästön asettama ylesohjeta esm. vastuualueet, jolla tomtaan otettava huomon svuston ylläptäjän mahdollset obotelle asettamat ajotukset (obots.txt) Suhteellsten lnkken täydennys absoluuttsks Dokumentn somenjälk ta katejonojoukon tunnusluvut (skeleton) on tallennettava 11 12 H.Lane 2

Tedonhakumenetelmät Helsngn ylopsto/ TKTL, k 2014 Hakuobotn tomet Katotusko Tuplenkasjan tehtävänä on tutka onko lnkk jo katotuskossa ta ndeksotujen joukossa. Elle ole lnkk vedään katotuskon ja slle asetetaan poteett Katotusko on tetoakenne, jonka avulla pytään Suosmaan kokealaatusten svujen theämpää ndeksonta Rajottamaan lan theään palvelmelle kohdstuva pyyntöjä Poteett laadun ja svun ylläptotheyden peusteella jokn laatumtta tavtaan (PageRank) 13 14 Katotusko Hajautettu katotus p o s o j a 1 2 N Poteettluokken jonot e t t n Sattkohtaset jonot Akajäjestetty (mllon akasntaan seuaava pyyntö) jonojen keko, 1 solmu/sattjono Hupulla olevasta jonosta kästtelyyn, Kekoon tlalle samaa jonoa kuvaava solmu, jolle akasn seuaava pyyntö esm. 5s nykyhetkestä Hakee satunnasest, mutta e hae tasapuolsest 15 WEBBI DNS nmpalvelu Haku Kästellyt Jäs entäjä Kopotunns tus Katotusko säännöt Jatkolupa Hajautetussa atkasussa::t tomtetaan nden vastuusolmulle, multa otetaan vastaavast vastaan omalla vastuulla olema Muut solmut Ulos Multa solmulta pomtut Tuplen kasja 16 Hajautetut ndekst Tempeustanen hajautus Mahdollset hajautustavat Tempeustanen Temjoukon temen kakk esntymätedot yhdessä solmussa Dokumenttpeustanen Dokumenttjoukon dokumenttehn lttyvät tedot temestä yhdessä solmussa Kyselyn kästtely ohjataan temen peusteellandekssolmulle Hyvä nnakkasuusaste, koska e temejä vodaan kästellä samanakasest Mutta Monsanasten kyselyjen kästtely edellyttää sojen esntymälstojen stelyä Solmujen kuomtus ppus kyselytendestä, jota on vakea ennustaa Mten päätetään, mtkä temt samaan solmuun Indeksen ylläpto vakeutuu 17 18 H.Lane 3

Tedonhakumenetelmät Helsngn ylopsto/ TKTL, k 2014 Dokumenttpeustanen hajautus Indeksen luont hajautetust Dokumenttjoukkoon lttyvät temen esntymätedot yhdessä solmussa Ylesemmn käytetty Temehn lttyvä esntymälstoja usessa solmussa Kysely lähetetään kaklle solmulle ja tulokset kootaan yhteen Temen fekvensst ovat elasa e solmussa Globaalt statstkat kuten df ptää kutenkn laskea koko anestosta, taustatomntana, pävtetään ajottan Mten dokumentt ostetaan solmujen kesken Kääntenen tyypllnen peusta Saman satn svut samassa solmussa kyselyt saattavat keskttyä peneen joukkoon solmuja Hajautus :n peusteella jakaa kuomaa tasasemmn Isäntä (maste) ohjaa ndeksonta Indeksont jaetaan nnakkasten tehtäven joukoks Isäntä antaa tehtävän jollekn vapaana olevalle solmulle Kahden tyyppsä tehtävä Jäsennystehtävä (pase) Indeksn kokoamstehtävä (nvete) Anestoa annetaan posessotavaks esm. hakuobotn tuottamna bulkkdataenä 19 20 Indeksen luont hajautetust Indeksen luont hajautetust Jäsennystehtävän suottaja tuottaa <temid, dokumenttid> paeja ta <temid, dokumenttid, pakka> kolmkota Kjottaa pat yhmttelytedostohn Kohdetedosto vos määäytyä vakkapa dokumenttid:hen ssältyvän doman-tunnuksen peusteella Isäntä Kontollo. Käynnstää, uudelleen alloko P1 Pk Pm I1 Indeksn kokoajat 21 Katottajan tuottamaa bulkkdataa Tekstn jäsentäjät If TemID,docID pat yhmteltynä Indeksvpaleet 22 Indeksen luont hajautetust Indeksen luont hajautetust Indeksen kokoajat saavat syöttöanestokseen tosaan vastaavat yhmätedostot, ja muodostavat <temid, dokumenttid> paen peusteella temen esntymälstat Edellä kuvattu ndeksen akentamstapa on MapReduce kehyksen (famewok) lmentymä Googlen kehttämä MapReduce on kehys/mall hajautetulle tetojenkästtelylle Kehys huoleht hajautuspalvelusta, ohjelmojan tavtsee toteuttaa van Map ja Reduce kästteljät Tässä jäsentäjä (map) ja ndeksn kokoaja (educe) 23 24 H.Lane 4

Tedonhakumenetelmät Helsngn ylopsto/ TKTL, k 2014 Webbhaku MapReduce mall: map: nput lst(key, value) educe: (key,lst(value)) output Malln nstantont ndeksen laadntaan map: web collec on lst(temid, docid) educe: (htemid 1, lst(docid), htemid 2, lst(docid),... ) (postngs lst 1, postngs lst 2,... ) 25 H.Lane 5