Tiedonhakumenetelmät 8.4.2014. Tiedonhakumenetelmät Helsingin yliopisto/ TKTL, k 2014. H.Laine 1. Webbihaut Hakukone. Webbihaku. Hakukoneiden käyttö



Samankaltaiset tiedostot
HAKUKONEOPTIMOINTI (SEO)

Näkyvyys nousuun hakukoneoptimoinnilla

Hakukoneoptimoinnin ABC

Mikä ihmeen hakukonemarkkinointi?

SANAKIRJA # S E O H A L T U UN # B L O G G A A J A NSEO # S E O J A S M O

10 yleistä hakukoneoptimointivirhettä

Hakukoneoptimointi. Frida-Maria Pessi 2014

TIEDONHAKU INTERNETISTÄ

10 yleistä hakukoneoptimointivirhettä

B U S I N E S S O U L U

ICT1TN004 Hakukoneoptimoin p ti Heikki Hiet Hie ala t

Lisämyyntiä kannattavasti Google Adwords mainonnalla. Anton Luhtala, Digisome

Johdatus Hakukoneoptimointiin

Hakukoneoptimointi. DigiReWork hanke Hamk.fi/digirework. Digityöpaja, Outi Mertamo.

Auta asiakkaita löytämään kauppaasi! Terhi Aho/

10 helppoa SEO-ohjetta

Hakukone digitaalisen mainonnan työkaluna

TYÖKALUT HAKUKONEOPTIMOINTIIN

Hakukoneoptimointi opas (SEO-opas) 2016

Sähköinen markkinointi

Suomi.fi-verkkopalvelu

Google Adwords pikaohje

Renne Brandt. Hakukoneoptimointi (SEO)

Hankeviestijä hakukoneiden ihmeellisessä maailmassa. Joonas Jukkara, SEOSEON Ltd.

Valmennusmajakka Jarkko Muhonen

Verkkojalanjälki Digitaalinen löydettävyys ja maineenhallinta

TYÖKALUT, JOILLA YRITYS LÖYDETÄÄN VERKOSSA. Robert From, Industry Manager, Google Suomi

HAKUKONEOPTIMOINTI. Vaiheet ja työkalut

Kaupan liitto

Linkkitekstit. Kaikkein vanhin WWW-suunnitteluohje:

Future-proof digital products since Ski.fi sisällön hakukoneoptimointi

Google Sites: sivun muokkaaminen (esim. tekstin, kuvien, linkkien, tiedostojen, videoiden ym. lisääminen)

vinkkiä Google -mainonnan tehostamiseksi

Sivuston tiedotsiteoptimer.com

10 helppoa käytännön ohjetta SEO-optimointiin.

Google AdWords. mainonta tehokäyttöön

Sivuston tiedotle-vintage.fr

Ohjeita informaation saavutettavuuteen

HAKUKONEMARKKINOINTI KOTISIVUJEN PÄIVITYSOHJE

Verkkokirjaston hakuohjeet

Klikit Myynniksi. Raahe Jaakko Suojanen

Ovid Medline käyttöohjeita (10/2010)

Tiedonhakumenetelmät Tiedonhakumenetelmät, Helsingin yliopisto, tktk, k2014. H.Laine 1. Tiedonhaku Boolen haku Indeksit. Tiedonhaku?

Kotisivutyöpaja -Kylien Salo-

PDF-tiedostojen optimointi hakukoneille

Hakukoneoptimointi eli SEO. Procom-koulutus Mikko Yli-Erkkilä Tulos Helsinki Oy

Sivuston tiedotskillers.tech

Sivuston tiedotqbooksupportpho nenumber.com

TOIMIVA INTERNET -SIVUSTO

Google AdWordsin esittely. Tammikuu 2012

VAASAN YLIOPISTO TEKNILLINEN TIEDEKUNTA TIETOTEKNIIKKA

Sivuston tiedotgoogle.com

8 Tiedonhaun apuvälineet

hakukoneoptimointiin

Vaasan kaupungin nuorten kesätyöt haetaan Kuntarekry.fi työnhakuportaalin kautta.

Hakukoneoptimoinnilla hyöty irti verkkosivuista

Sivuston tiedotakcp-sensor.de

Uutisjärjestelmä. Vaatimusmäärittely. Web-palvelujen kehittäminen. Versio 1.3

ARVO - verkkomateriaalien arviointiin

Sivuston tiedotemreemir.com

Tärkeimmät palvelut hakutulosten kärjessä CASE MM-KONEURAKOINTI

DIGITAALISEN MARKKINOINNIN ABC

Sivuston tiedotwixaccounting.com

Google Adwords / Yleistä

Tietokanta löytyy kirjaston sähköisistä aineistoista ja NELLI-portaalin kautta.

Sivuston tiedotqbsupportcustom erservice.com

Sivuston tiedotmysiteworthcheck.com

Digimarkkinointi. Ari Tenhunen

MITEN PARANNAT KOTISIVUJESI LÖYDETTÄVYYTTÄ HAKUKONEISSA, Kirsi Mikkola

Sisällön optimointi ja konversio. Tietotalo Academy,

Sivuston tiedotdidactum.com.w3 snoop.com

OTTELUMARKKINOINNIN JA -VIESTINNÄN CHECKLIST

Internet. Tiedon haun tekniikkaa ja ongelmia. Tietotekniikan perusteet Helsingin ammattikorkeakoulu Stadia Vesa Ollikainen

Verkkomainonnan mahdollisuudet. Kaupan liiton verkkokauppakoulutus

Verkon avulla bisnestä! Sami Kankkunen, Google Finland

Pauliina Munter/Suvi Junes Tampereen yliopisto / Tietohallinto Valitse muokkaustila päälle kurssialueen etusivun oikean yläkulman painikkeesta.

Sivuston tiedotmp3list.pro

Verkkokirjaston hakuohjeet

PubMed lääketieteellinen kokoteksti- ja viitetietokanta

Internetmarkkinointi ja sen SEURANTA!!!

HAKU LASTU-VERKKOKIRJASTOSTA LASTU-verkkokirjastosta voi toistaiseksi hakea vain Lahden aineistotietokannasta.

Sivuston tiedotwebstatinfo.com

VERKKOKAUPPA. Antero Riihimäki // Boaz Marketing Oy

Sivuston tiedottools.seo-zona.ru

Sivuston tiedotreviewproducts.org

VauhCpyörän ASIAKASHANKINTA- JA MYYNTIVALMENNUS. Tiina Räisänen Johtaja, digitaalinen markkinoinc Google AdWords Qualified Verkkoasema Oy

CIRI Ontologiaperustainen tiedonhakuliittymä

Miten tavoitan asiakkaani verkossa?

Sivuston tiedotaskgeek.io

6 SYYTÄ MAINOSTAA GOOGLESSA MIKSI GOOGLE ADWORDS?

Verkosta virtaa bisnekseen!

Oma kartta Google Maps -palveluun

WWW-sivun hakukoneoptimointi: tapaus Google

Sivuston tiedotwindowsrepublic.com.au

Sivuston tiedotrankingtodayseobookmarking.net

Markus Pappila & Tuomas Tikkanen. HAKUKONEOPTIMOINTI Case Evelace Boutique

Sivuston tiedotakcpshop.de.websiteoutlook.com

Google Forms kyselyiden teko-ohje

Web of ScienceTM Core Collection (1987-present)

Transkriptio:

Webbihaku Hakurobotti (crawler) Indeksoija Tiedonhakumenetelmät Indeksit Mainosindeksit Webbihaut Hakukone Hae 1 2 Webbihaku Hakukoneiden käyttö Perinteisessä tiedonhaussa haetaan dokumentteja tietotarpeen tyydyttämiseksi Webbihaussa tarve voi olla: Perinteisen kaltainen tietotarve, tietää oppia (informational) Reittihaku, tavoitteena saavuttaa jokin materiaali (navigational) Toiminnallinen haku (functional) Löytää jokin palvelu Löytää materiaalia ladattavaksi Löytää hankittavaa/ostettavaa Muunlainen haku (other) Löytää aineistoluetteloita (linkkilistoja) Uteliaisuus 3 4 Hakukoneiden käyttömäärät Hakukoneiden käyttäjistä Noin 3.3G kyselyä/kk + Ask 2,4% - Yahoo 10.3% 18,4% Bing 67,5 67,5% Noin 12G kyselyä/kk 91% : hakukoneiden kautta saatu materiaali on aina tai lähes aina hyödyllistä 73%: hakukoneiden kautta saatu materiaali on enimmäkseen tarkkaa ja luotettavaa 66%: hakukoneet tarjoavat materiaalia reilusti ja tasapuolisesti 55%: hakukoneiden tulosten laatu on parantunut, 4%: hakukoneiden tulosten laatu on huonontunut Google 52%: hakukoneiden tulosten relevanssi on lisääntynyt 7%: hakukoneiden tulosten relevanssi on huonontunut (US. tuloksia 2012) ComScore: USA Feb 2014 5 6 H.Laine 1

Hakukonekyselyt Kyselyt eivät jakaudu tasaisesti Zipf:n lain mukaisesti on vähän hyvin usein käytettäviä sanoja ja paljon hyvin harvoin käytettyjä Pätee myös kyselyihin Vähän laajalti kysyttyjä asioita Paljon harvoin kysyttyjä Nimet, paikkakunnat, kirjat,. Yleisesti käytetyt kyselytermit liittyvät ajankohtaisiin tapahtumiin, paikkakuntiin, julkkiksiin, ilmiöihin, Eri puolilla maailmaa eri aiheet Dokumenttien tuottaminen ja linkittäminen hajautunut Julkaisemisen demokratisoituminen Kuka tahansa voi julkaista (+) Mitä tahansa voi julkaista (+/-) Dokumenteilta puuttuu yhtenäinen muoto Julkaiseminen koordinoimatonta 7 8 Dokumentit Vapaamuotoisia Tekstiä, html-kieltä, Puolirakenteisia Xml Rakenteisia Hyvin heterogeenista Aineistoa on paljon ja se kasvaa Yli 700M palvelinta, Yli 4G kyselyä päivässä Staattiset sivut Sisältö ei teoriassa muutu pyyntöjen välillä Käytännössä muuttuu toisinaan - vähän tai paljon Dynaamiset sivut Ohjelmallisesti kutakin pyyntöä varten generoidut sivut Aidosti dynaamisia Muuttuvat parametrien perusteella Hakurobotit eivät syötä parametreja Esim: saapuvat lennot Teknisesti dynaamisia, generoidaan, mutta ovat luonteeltaan staattisia Voidaan haluta näkyviin hakukoneiden kautta Esim: Opetusohjelma 9 10 Linkit webbiaineistossa Aineisto monikielistä Kieli voi olla hyvää tai huonoa Laatu vaihtelee Kyselyt monikielisiä Vastaukset aluksi vain kyselyn kielisiä Vieraskielisten sanojen kirjoitus voi olla vaikeaa Käyttäjä tunnistaa asian sen nähdessään, mutta ei osaa kysyä oikein BeaujolaisNouveau viini Kirjoitusvirheisiin varautuminen Tekstin kääntäminen Webbihaku on hakua linkitetystä aineistosta (hyper)linkit <a href= URL_to_B title= B title >Anchor to B</a> Otsikko, vähän käytetty ankkuriteksti 11 12 H.Laine 2

Linkit webbiaineistossa Webbisivujen rusettimalli Suurin osa Tulolinkit (IN-links) Lähtölinkit (OUT-links) Lähtösivut IN-pages Vahvasti kytketyt Strongly connectedpages Päätesivut OUT-pages Tuloaste = tulolinkkien lukumäärä Lähtöaste = lähtölinkkien lukumäärä Zipfin laki pätee (suhde 1/i 2.1 raportoitu Broder et al) Sivuille ei linkkejä putket Tendrils (Suoria kytkentöjä) Sivuilta ei linkkejä 13 14 Kyselijät Kyselijät Käyttävät lyhyitä kyselyjä (ka 3 sanaa) Eivät käytä operaattoreita (AND,OR,NOT) Haluavat saada kyselyn aikaan nopeasti Katsovat muutaman alkupään tuloksen (75% ei etene toiselle sivulle) Arvostavat yksinkertaista selkeää käyttöliittymää Käyttäjävarianssi suurta Ikä, sukupuoli, koulutustaso, kieli, kulttuuri, käyttökokemus, mielenkiinnon kohteet Kaikille kuitenkin yksi liittymä Haku käyttäjän kannalta Perinteisiä laatumittoja (tarkkuus, saanti) voi käyttää Tarkkuus tärkeämpi kuin saanti Vastauksen alun tarkkuus tärkeä Saanti tärkeää vain, jos saalis on pieni Tärkeitä myös: Luotettavuus Duplikaattien poisto Luettavuus Nopea latautuvuus Ei ponnahtelevia ikkunoita 15 16 Vastaukselta halutaan Mitä kysyjä haluaa Luotettavuus: Mistä tiedetään? Ei kontrollia lukijan vastuulla Ei dublikaatteja Kopioita ja lähes kopioita on tarjolla runsaasti (n. 40% webbiaineistosta) Vaikka kopiot ovat yhtä arvokkaita tietolähteenä kuin ensiksi löytynyt, niiden lisäarvo on olematon Aiemmin hakutulokseen sisältyi runsaasti kopioita, nykyään karsintaan paremmin Hakusanoissa voi olla Kirjoitusvirheitä Monimerkityksellisyyksiä Yhteydestä riippumattomasti Virheenkorjaus Tarvitaan sanasto Täydennys yleisesti käytettyihin termeihin perustuen Yhteysriippuvasti (parempi) Paikkasidonnaisesti Mistä kysyjä sieltä vastaus Sessiopohjaisesti Edelliseen kyselyyn perustuen Profiiliperustaisesti Aiempaan käyttäytymiseen tai valintoihin perustuen Kuitenkin yli 80% käyttäjistä ei halua käyttäytymistään kirjattavan lainkaan 17 18 H.Laine 3

Mitä näytetään Webbihaun erityispiirteet Yhteystiedon käyttö tulosten esittämisessä Tulosten rajaus: Ei näytetä huonosti soveltuvia tuloksia google.fi kysyjälle vain.fi tuloksia Monivaiheinen rankkaus Yleisesti karkea rankkaus Hienojakoisempi personointitietojen perusteella Personoinnissa paljon mahdollisuuksia, mutta käyttäjät eivät halua käyttäytymistään seurattavan Haut webin keskeinen pyörittäjä Mainostuloilla saadaan palveluja Kontrolloimattomuus / sisällöntuotantoa ei rajoiteta Paljon spämmiä, pitää karsia Kaoottinen ja kontrolloimaton aineistokokoelma Kopioita karsittava Suuri koko 19 20 Mainokset tiedonhaussa Mainokset ja haku Varhaisissa hakukoneissa oli maksettuja bannereita Hauista riippumattomasti Haut puhtaita tekstihakuja Mainosten hinnoittelu aluksi näyttökertaperusteista Myöhemmin klikkausperusteista Mainoksen tai linkin klikkaus johti mainostajan sivulle ja raha kilahti hakukoneen omistajan kirstuun Aikaa myöten hakutuloksia ryhdyttiin säätämään maksujen perusteella Eniten tarjonneet saivat mainoksensa liitettyä hakusanaan Esim. Goto (myöhemmin Overture, jonka Yahoo osti) tarjosi hakutuloksina vain mainoksia rankattuna mainostajan huutokaupassa maksaman hinnan mukaisesti Saavutti melkoisen liiketuloksen Puhdas sisältöhaku Hakee dokumentteja niiden sisällön perusteella Tulokset rankataan rankkausalgoritmilla Hakutuloksena saatavat dokumentit voivat olla myös mainoksia Sisältöhaussa tällaiset mainokset rankataan sen perusteella miten ne sopivat yhteen kyselyn kanssa Maksupohjaisessa haussa mainokset tulevat hakutulosten joukkoon, jolloin maksu nostaa niiden rankkausta (ei käytössä merkittävissä hakukoneissa?) tai erilliseen mainososioon hakutuloksissa 21 22 Mainosten rankkaus Mainosten hyödyllisyys Mainostajat tekevät huutokaupassa tarjouksia tiettyyn avainsanaan liittyen Kuka tahansa voi osallistua ja tehdä tarjouksen Mainostajia laskutetaan klikkausten perusteella Hinta riippuu tarjouksesta ja laadusta Rankkaus voi riippua paitsi tarjotusta hinnasta myös sopivuudesta kyselyyn ja sivun laadusta Ensisijainen tekijä sopivuus yhteen kyselyn kanssa (relevanssi, voidaan mitata esim. klikkausten määrällä) On havaittu, että verkkoliiketoiminnassa yli 80% asiakkaista löytää yrityksen webiin laitetun mainoksen perusteella. Vuonna 2014 tehdyn kyselytutkimuksen (USA) perusteella n. 80% käyttäjistä ei klikkaa maksettuja mainoksia, vaan suosii sisältöhaun perusteella löytyviä Kertooko tämä jonkinlaisesta epäluulosta maksettuja mainoksia kohtaan? Hakukoneyhtiö ei saa tuloja sisältöhaun perusteella löytyvistä mainoksista 23 24 H.Laine 4

Mainosten hyödyllisyys Hakukoneoptimointi Kumpikin voittaa Hakukoneyhtiö saa tuottoa joka kerta kun käyttäjä klikkaa mainosta Käyttäjät klikkaavat vain, jos asia kiinnostaa Hakukoneet rankaisevat harhaanjohtavia ja epärelevantteja mainoksia (ei klikkauksia sijoitus laskee) Käyttäjät ovat tyytyväisiä klikkaamiensa mainosten kautta saatuun sisältöön Mainostaja saa edullisesti uusia asiakkaita Yritykset haluavat tyypillisesti Paljon kävijöitä sivuilleen Paljon liikevaihtoa, uusia asiakkaita Hakukoneoptimoinnilla (search engine optimization, SEO) Säädetään sivua siten, että sen rankkaus nousee korkealle joitakin hakusanoja käyttävässä sisältöhaussa Vaihtoehto maksetuille mainoksille 25 26 Hakukoneoptimointi on tietyssä mitassa perusteltua Välttää putoamisen hakukoneiden tuloksista Ei oleellisia asioita kuvina vaan tekstinä Kuvaavien avainsanojen valinta Kohtuullinen toisto Pidettävä mielessä, että epärelevanttisuus ärsyttää käyttäjää ja voi johtaa päinvastaiseen tulokseen kuin mitä haluttiin Vältettävä spämmäystä (voi johtaa tiputukseen tuloksista) Spämmäys webissä Jotta saataisiin paljon osumia halutaan saada sivu hakukoneen tuloksiin mahdollisimman laajasti Voidaan saada käyttäjät käymään sivulla ja saadaan sitten välitettyä haluttua viestiä tai haittaa Keinoja Avainsanojen ymppäys (keyword stuffing)/ piiloteksti (hidden text) Oveaukot ja vastaanottosivut Toisto Kätkeminen Linkkispämmi 27 28 Avainsanojen ymppäys (keyword stuffing) / piiloteksti (hidden text) Sijoitetaan sivulle harhaanjohtavia meta-tietoja Toistetaan massiivisesti avainsanoja Teksti piilotettu (taustaväri, csstemput) Oli aikoinaan hyvin tehokasta, mutta nykyaikaiset hakukoneet osaavat enimmäkseen löytää yritykset -> rankataan spämmiksi Oviaukko (doorway page) Sivu optimoidaan jollekin avainsanalle. Saapuminen sivulle uudelleenohjaa varsinaiselle sivulle. Vastaanottosivu Sivu on optimoitu jollekin avainsanalle tai virheellisesti kirjoitetulle osoitteelle. Houkutteleva sivusisältö pyrkii saamaan käyttäjän klikkaamaan mainoksia Toisto (duplicates) Hankitaan jostain hyvää sisältöä Tuotetaan siitä useita versioita vähäisin muutoksin Kätkeminen (cloaking) Tarjotaan hakurobotille väärää sisältöä Oletko hakurobotti? olen en Väärä sisältö spämmi 29 30 H.Laine 5

n torjunta Linkkispämmäys Luodaan paljon kohdesivulle osoittavia linkkejä, jotka sijoitetaan sivuille, joilla on korkea rankkaus Uusi domain Runsaasti ristiinviittauksia sisältävä sivujoukko Maksettu sijoitus korkeasti rankatulle sivulle Laitetaan blogeihin linkin sisältäviä kommentteja Robotit Generoidaan kyselyjä nostamaan rankkausta Laatuindikaattorit Suositaan arvovaltaisia (hyväksi havittuja) sivuja: Tekijöihin perustuen (linkkejä hyödyntävä) Käyttäjien mielestä (käyttötietoa hyödyntävä) Tekstin jakautuminen ja rakenne Ei avainsanojen ymppäystä Rajoitetaan metatietojen määrää Toimituspolitiikka, minne sivu annetaan (anti-robot test) Kattava linkki analyysi Hylätään tilastollisesti epätodennäköiset linkit tai tekstit Käytetään linkkianalyysiä spammereiden havaitsemiseen 31 32 n torjunta n torjunta Spammin tunnistus koneoppimisen keinoin Opetus tunnetulla aineistolla (esim. spämmin torjunta sähköpostissa) Lapsisuodattimet Kielianalyysi, luokittelutekniikat, jne. Kuville, erilaiset tunnistusohjelmat, tekstianalyysi lähdetietoon, jne. Valvonta sulkulistat Eniten kysyttyjen seuranta Valituksien noteeraus Epäilyttävien hahmojen tunnistus Merkittävillä hakukoneilla ohjeita webmastereille Mikä sallittua optimointia, mikä spammiä Esimerkiksi http://help.yahoo.com/help/us/ysearch/index.html and http://www.google.com/intl/en/webmasters/ Ohjeiden noudattamatta jättäminen on riski Kun hakurobotti leimaa spämmeriksi koko palvelin joutuu leimatuksi ja syrjään indeksoinnilta Adversarial information retrieval 33 34 H.Laine 6