Webbihaku Hakurobotti (crawler) Indeksoija Tiedonhakumenetelmät Indeksit Mainosindeksit Webbihaut Hakukone Hae 1 2 Webbihaku Hakukoneiden käyttö Perinteisessä tiedonhaussa haetaan dokumentteja tietotarpeen tyydyttämiseksi Webbihaussa tarve voi olla: Perinteisen kaltainen tietotarve, tietää oppia (informational) Reittihaku, tavoitteena saavuttaa jokin materiaali (navigational) Toiminnallinen haku (functional) Löytää jokin palvelu Löytää materiaalia ladattavaksi Löytää hankittavaa/ostettavaa Muunlainen haku (other) Löytää aineistoluetteloita (linkkilistoja) Uteliaisuus 3 4 Hakukoneiden käyttömäärät Hakukoneiden käyttäjistä Noin 3.3G kyselyä/kk + Ask 2,4% - Yahoo 10.3% 18,4% Bing 67,5 67,5% Noin 12G kyselyä/kk 91% : hakukoneiden kautta saatu materiaali on aina tai lähes aina hyödyllistä 73%: hakukoneiden kautta saatu materiaali on enimmäkseen tarkkaa ja luotettavaa 66%: hakukoneet tarjoavat materiaalia reilusti ja tasapuolisesti 55%: hakukoneiden tulosten laatu on parantunut, 4%: hakukoneiden tulosten laatu on huonontunut Google 52%: hakukoneiden tulosten relevanssi on lisääntynyt 7%: hakukoneiden tulosten relevanssi on huonontunut (US. tuloksia 2012) ComScore: USA Feb 2014 5 6 H.Laine 1
Hakukonekyselyt Kyselyt eivät jakaudu tasaisesti Zipf:n lain mukaisesti on vähän hyvin usein käytettäviä sanoja ja paljon hyvin harvoin käytettyjä Pätee myös kyselyihin Vähän laajalti kysyttyjä asioita Paljon harvoin kysyttyjä Nimet, paikkakunnat, kirjat,. Yleisesti käytetyt kyselytermit liittyvät ajankohtaisiin tapahtumiin, paikkakuntiin, julkkiksiin, ilmiöihin, Eri puolilla maailmaa eri aiheet Dokumenttien tuottaminen ja linkittäminen hajautunut Julkaisemisen demokratisoituminen Kuka tahansa voi julkaista (+) Mitä tahansa voi julkaista (+/-) Dokumenteilta puuttuu yhtenäinen muoto Julkaiseminen koordinoimatonta 7 8 Dokumentit Vapaamuotoisia Tekstiä, html-kieltä, Puolirakenteisia Xml Rakenteisia Hyvin heterogeenista Aineistoa on paljon ja se kasvaa Yli 700M palvelinta, Yli 4G kyselyä päivässä Staattiset sivut Sisältö ei teoriassa muutu pyyntöjen välillä Käytännössä muuttuu toisinaan - vähän tai paljon Dynaamiset sivut Ohjelmallisesti kutakin pyyntöä varten generoidut sivut Aidosti dynaamisia Muuttuvat parametrien perusteella Hakurobotit eivät syötä parametreja Esim: saapuvat lennot Teknisesti dynaamisia, generoidaan, mutta ovat luonteeltaan staattisia Voidaan haluta näkyviin hakukoneiden kautta Esim: Opetusohjelma 9 10 Linkit webbiaineistossa Aineisto monikielistä Kieli voi olla hyvää tai huonoa Laatu vaihtelee Kyselyt monikielisiä Vastaukset aluksi vain kyselyn kielisiä Vieraskielisten sanojen kirjoitus voi olla vaikeaa Käyttäjä tunnistaa asian sen nähdessään, mutta ei osaa kysyä oikein BeaujolaisNouveau viini Kirjoitusvirheisiin varautuminen Tekstin kääntäminen Webbihaku on hakua linkitetystä aineistosta (hyper)linkit <a href= URL_to_B title= B title >Anchor to B</a> Otsikko, vähän käytetty ankkuriteksti 11 12 H.Laine 2
Linkit webbiaineistossa Webbisivujen rusettimalli Suurin osa Tulolinkit (IN-links) Lähtölinkit (OUT-links) Lähtösivut IN-pages Vahvasti kytketyt Strongly connectedpages Päätesivut OUT-pages Tuloaste = tulolinkkien lukumäärä Lähtöaste = lähtölinkkien lukumäärä Zipfin laki pätee (suhde 1/i 2.1 raportoitu Broder et al) Sivuille ei linkkejä putket Tendrils (Suoria kytkentöjä) Sivuilta ei linkkejä 13 14 Kyselijät Kyselijät Käyttävät lyhyitä kyselyjä (ka 3 sanaa) Eivät käytä operaattoreita (AND,OR,NOT) Haluavat saada kyselyn aikaan nopeasti Katsovat muutaman alkupään tuloksen (75% ei etene toiselle sivulle) Arvostavat yksinkertaista selkeää käyttöliittymää Käyttäjävarianssi suurta Ikä, sukupuoli, koulutustaso, kieli, kulttuuri, käyttökokemus, mielenkiinnon kohteet Kaikille kuitenkin yksi liittymä Haku käyttäjän kannalta Perinteisiä laatumittoja (tarkkuus, saanti) voi käyttää Tarkkuus tärkeämpi kuin saanti Vastauksen alun tarkkuus tärkeä Saanti tärkeää vain, jos saalis on pieni Tärkeitä myös: Luotettavuus Duplikaattien poisto Luettavuus Nopea latautuvuus Ei ponnahtelevia ikkunoita 15 16 Vastaukselta halutaan Mitä kysyjä haluaa Luotettavuus: Mistä tiedetään? Ei kontrollia lukijan vastuulla Ei dublikaatteja Kopioita ja lähes kopioita on tarjolla runsaasti (n. 40% webbiaineistosta) Vaikka kopiot ovat yhtä arvokkaita tietolähteenä kuin ensiksi löytynyt, niiden lisäarvo on olematon Aiemmin hakutulokseen sisältyi runsaasti kopioita, nykyään karsintaan paremmin Hakusanoissa voi olla Kirjoitusvirheitä Monimerkityksellisyyksiä Yhteydestä riippumattomasti Virheenkorjaus Tarvitaan sanasto Täydennys yleisesti käytettyihin termeihin perustuen Yhteysriippuvasti (parempi) Paikkasidonnaisesti Mistä kysyjä sieltä vastaus Sessiopohjaisesti Edelliseen kyselyyn perustuen Profiiliperustaisesti Aiempaan käyttäytymiseen tai valintoihin perustuen Kuitenkin yli 80% käyttäjistä ei halua käyttäytymistään kirjattavan lainkaan 17 18 H.Laine 3
Mitä näytetään Webbihaun erityispiirteet Yhteystiedon käyttö tulosten esittämisessä Tulosten rajaus: Ei näytetä huonosti soveltuvia tuloksia google.fi kysyjälle vain.fi tuloksia Monivaiheinen rankkaus Yleisesti karkea rankkaus Hienojakoisempi personointitietojen perusteella Personoinnissa paljon mahdollisuuksia, mutta käyttäjät eivät halua käyttäytymistään seurattavan Haut webin keskeinen pyörittäjä Mainostuloilla saadaan palveluja Kontrolloimattomuus / sisällöntuotantoa ei rajoiteta Paljon spämmiä, pitää karsia Kaoottinen ja kontrolloimaton aineistokokoelma Kopioita karsittava Suuri koko 19 20 Mainokset tiedonhaussa Mainokset ja haku Varhaisissa hakukoneissa oli maksettuja bannereita Hauista riippumattomasti Haut puhtaita tekstihakuja Mainosten hinnoittelu aluksi näyttökertaperusteista Myöhemmin klikkausperusteista Mainoksen tai linkin klikkaus johti mainostajan sivulle ja raha kilahti hakukoneen omistajan kirstuun Aikaa myöten hakutuloksia ryhdyttiin säätämään maksujen perusteella Eniten tarjonneet saivat mainoksensa liitettyä hakusanaan Esim. Goto (myöhemmin Overture, jonka Yahoo osti) tarjosi hakutuloksina vain mainoksia rankattuna mainostajan huutokaupassa maksaman hinnan mukaisesti Saavutti melkoisen liiketuloksen Puhdas sisältöhaku Hakee dokumentteja niiden sisällön perusteella Tulokset rankataan rankkausalgoritmilla Hakutuloksena saatavat dokumentit voivat olla myös mainoksia Sisältöhaussa tällaiset mainokset rankataan sen perusteella miten ne sopivat yhteen kyselyn kanssa Maksupohjaisessa haussa mainokset tulevat hakutulosten joukkoon, jolloin maksu nostaa niiden rankkausta (ei käytössä merkittävissä hakukoneissa?) tai erilliseen mainososioon hakutuloksissa 21 22 Mainosten rankkaus Mainosten hyödyllisyys Mainostajat tekevät huutokaupassa tarjouksia tiettyyn avainsanaan liittyen Kuka tahansa voi osallistua ja tehdä tarjouksen Mainostajia laskutetaan klikkausten perusteella Hinta riippuu tarjouksesta ja laadusta Rankkaus voi riippua paitsi tarjotusta hinnasta myös sopivuudesta kyselyyn ja sivun laadusta Ensisijainen tekijä sopivuus yhteen kyselyn kanssa (relevanssi, voidaan mitata esim. klikkausten määrällä) On havaittu, että verkkoliiketoiminnassa yli 80% asiakkaista löytää yrityksen webiin laitetun mainoksen perusteella. Vuonna 2014 tehdyn kyselytutkimuksen (USA) perusteella n. 80% käyttäjistä ei klikkaa maksettuja mainoksia, vaan suosii sisältöhaun perusteella löytyviä Kertooko tämä jonkinlaisesta epäluulosta maksettuja mainoksia kohtaan? Hakukoneyhtiö ei saa tuloja sisältöhaun perusteella löytyvistä mainoksista 23 24 H.Laine 4
Mainosten hyödyllisyys Hakukoneoptimointi Kumpikin voittaa Hakukoneyhtiö saa tuottoa joka kerta kun käyttäjä klikkaa mainosta Käyttäjät klikkaavat vain, jos asia kiinnostaa Hakukoneet rankaisevat harhaanjohtavia ja epärelevantteja mainoksia (ei klikkauksia sijoitus laskee) Käyttäjät ovat tyytyväisiä klikkaamiensa mainosten kautta saatuun sisältöön Mainostaja saa edullisesti uusia asiakkaita Yritykset haluavat tyypillisesti Paljon kävijöitä sivuilleen Paljon liikevaihtoa, uusia asiakkaita Hakukoneoptimoinnilla (search engine optimization, SEO) Säädetään sivua siten, että sen rankkaus nousee korkealle joitakin hakusanoja käyttävässä sisältöhaussa Vaihtoehto maksetuille mainoksille 25 26 Hakukoneoptimointi on tietyssä mitassa perusteltua Välttää putoamisen hakukoneiden tuloksista Ei oleellisia asioita kuvina vaan tekstinä Kuvaavien avainsanojen valinta Kohtuullinen toisto Pidettävä mielessä, että epärelevanttisuus ärsyttää käyttäjää ja voi johtaa päinvastaiseen tulokseen kuin mitä haluttiin Vältettävä spämmäystä (voi johtaa tiputukseen tuloksista) Spämmäys webissä Jotta saataisiin paljon osumia halutaan saada sivu hakukoneen tuloksiin mahdollisimman laajasti Voidaan saada käyttäjät käymään sivulla ja saadaan sitten välitettyä haluttua viestiä tai haittaa Keinoja Avainsanojen ymppäys (keyword stuffing)/ piiloteksti (hidden text) Oveaukot ja vastaanottosivut Toisto Kätkeminen Linkkispämmi 27 28 Avainsanojen ymppäys (keyword stuffing) / piiloteksti (hidden text) Sijoitetaan sivulle harhaanjohtavia meta-tietoja Toistetaan massiivisesti avainsanoja Teksti piilotettu (taustaväri, csstemput) Oli aikoinaan hyvin tehokasta, mutta nykyaikaiset hakukoneet osaavat enimmäkseen löytää yritykset -> rankataan spämmiksi Oviaukko (doorway page) Sivu optimoidaan jollekin avainsanalle. Saapuminen sivulle uudelleenohjaa varsinaiselle sivulle. Vastaanottosivu Sivu on optimoitu jollekin avainsanalle tai virheellisesti kirjoitetulle osoitteelle. Houkutteleva sivusisältö pyrkii saamaan käyttäjän klikkaamaan mainoksia Toisto (duplicates) Hankitaan jostain hyvää sisältöä Tuotetaan siitä useita versioita vähäisin muutoksin Kätkeminen (cloaking) Tarjotaan hakurobotille väärää sisältöä Oletko hakurobotti? olen en Väärä sisältö spämmi 29 30 H.Laine 5
n torjunta Linkkispämmäys Luodaan paljon kohdesivulle osoittavia linkkejä, jotka sijoitetaan sivuille, joilla on korkea rankkaus Uusi domain Runsaasti ristiinviittauksia sisältävä sivujoukko Maksettu sijoitus korkeasti rankatulle sivulle Laitetaan blogeihin linkin sisältäviä kommentteja Robotit Generoidaan kyselyjä nostamaan rankkausta Laatuindikaattorit Suositaan arvovaltaisia (hyväksi havittuja) sivuja: Tekijöihin perustuen (linkkejä hyödyntävä) Käyttäjien mielestä (käyttötietoa hyödyntävä) Tekstin jakautuminen ja rakenne Ei avainsanojen ymppäystä Rajoitetaan metatietojen määrää Toimituspolitiikka, minne sivu annetaan (anti-robot test) Kattava linkki analyysi Hylätään tilastollisesti epätodennäköiset linkit tai tekstit Käytetään linkkianalyysiä spammereiden havaitsemiseen 31 32 n torjunta n torjunta Spammin tunnistus koneoppimisen keinoin Opetus tunnetulla aineistolla (esim. spämmin torjunta sähköpostissa) Lapsisuodattimet Kielianalyysi, luokittelutekniikat, jne. Kuville, erilaiset tunnistusohjelmat, tekstianalyysi lähdetietoon, jne. Valvonta sulkulistat Eniten kysyttyjen seuranta Valituksien noteeraus Epäilyttävien hahmojen tunnistus Merkittävillä hakukoneilla ohjeita webmastereille Mikä sallittua optimointia, mikä spammiä Esimerkiksi http://help.yahoo.com/help/us/ysearch/index.html and http://www.google.com/intl/en/webmasters/ Ohjeiden noudattamatta jättäminen on riski Kun hakurobotti leimaa spämmeriksi koko palvelin joutuu leimatuksi ja syrjään indeksoinnilta Adversarial information retrieval 33 34 H.Laine 6