INTERNET Hakukoneet Netin Laajemmin, tarkemmin, nopeammin PARHAAT HAKIJAT VERTAILUSSA Altavista Ihmemaa www.fi MSN Search Sonera Plaza 50 MikroPC 12 / 2001
TEKSTI: TEEMU KEMPPAINEN Suosituimmat hakusanat Ihmemaan (www.fi) mukaan. WWW.FI KARTTA.SONERAPLAZA.FI/CGI/KARTTAHAKU Hakukone on pakollinen työväline. Se auttaa internetin syvyyksiin sukeltavaa löytämään tiedon luo.valitsimme arvioitaviksi parhaat hakukoneet Suomessa ja maailmalla. Haussa oli yleishakukone, jolla löytää pätevästi suomalaisia sivustoja suuren maailman lisäksi. Hakusanojen kärki n (evreka.suomi24.fi) tilastojen perusteella. Soneran karttahaku avustaa suunnistamaan myös tosielämässä. Tietokanta kattaa useita Suomen kaupunkeja kadunnimineen: kartta.soneraplaza.fi/cgi/karttahaku. Suomalaisten tekemät nettihaut ovat erikoisia. Olemme ainoa kansa koko maailmassa, joka hakee netistä niin paljon suomenkielisiä sivustoja ja joka on kiinnostunut nimenomaan suomalaisesta sisällöstä. Tämän vertailun tarkoituksena oli vertailla internetin hakukoneita ja selvittää, millaisia eroja parhaimmissa sanahakukoneissa on. Koska tarkkoja tietoja hakukoneiden sivustoindeksien koosta ei ole saatavilla, täytyy hakukoneiden paremmuus yrittää ratkaista arvioimalla. Löydettyjen sivujen eli "osumien" lukumääristä arvioitiin tietokannan kokoa suhteessa kilpailijoihin. Mitä suurempi tietokanta, sen varmemmin haettu sivu löytyy. Vertailuun otettiin kotimaisten hakukoneiden kärkiryhmä sekä tehokkaimmat ja suurimmat maailmanlaajuiset www-hakukoneet. Maailman edistyneimmät hakukoneet ovat tällä hetkellä sekä Fast-yhtiön hakuteknologia, joka on käytössä esimerkiksi kotimaisen.fi:n sekä kansainvälisen Alltheweb.comin kautta. Internetiä käyttävä suomalainen etenkin it-alalla on usein lähes päivittäin tekemisissä englanninkielisten sivustojen kanssa. Siksi vertasimme hakukoneiden tietokannan laajuutta 10 testilauseella, joukossa sekä englannin- että suomenkielisiä hakuja. Yhteismitallisten testihakujen kokemusten perusteella arvioimme hakukoneiden välistä toimintaa. TYHJÄSTÄ TUNNETUIMMAKSI Hakukoneet eivät enää ole niin pop kuin vielä jokunen vuosi sitten. Ala on hermostunut, kuin sähköiskun repimä. Nettimaailman lumo ja sisäänrakennettu peukaloruuvi on se, että kuka vain voi milloin tahansa tehdä jotain suurta ja sensaatiomaista. Hakukonemaailman tuorein ilmiö on, joka ponkaisi netin ehkä tunnetuimmaksi hakukoneeksi melkein heti syntymänsä jälkeen. Ei ehtinyt kulua montaakaan aikayksikköä n lanseerauksesta, kun se jo oli netin kuumin hakukone, jossa on netin suurin hakutietokanta ja jonka hakuteknologia on parhaiten toimiva. on yhdestä muustakin syystä käyttäjien rakastama: se toimii nopeasti, koska siellä ei ole raskaita bannerimainoksia eikä maksettuja tuloksia. myös supistaa sitä osaa internetiä, joka on perinteisesti ollut hakukoneiden ulottumattomissa. ssa toimii nyt Deja-yhtiöltä hankittu usenet news -keskusteluiden arkistohaku, joka kattaa valtavan määrän kirjoituksia aina vuodesta 1995. Yhtä merkittävä parannus on n uusi taito indeksoida pdf-asiakirjoja niitä joiden lukemiseksi tarvitaan Adoben Acrobat. Perinteisesti hakukoneet ovat hallinneet vain htmltiedostot. LYHYT ASKEL UNHON YÖHÖN Samalla kun on noussut tähdeksi taivaalle, on hakupalveluiden joukossa tapahtunut luonnollista poistumaa. Takavuosien konkarit hiipuvat osaksi web-historiaa. Alkuajoista saakka mukana kulkeneet Infoseek ja Magellan ovat kesän aikana poistuneet näyttämöltä. Mutta huomasiko edes kukaan? Kaksikko oli pudonnut pahasti kehityksen kelkassa jo vuosia sitten, ja it-alan taloudellinen alavire taisi hoidella loput. Konkareiden hiljeneminen on helposti ymmärrettävä asia. Mukana hakijoita palvelemassa pörräävät edelleen sitkeästi monet vanhat tutut ehkä parhaiten tiedetään Altavista ja Yahoo-hakemisto. Nehän ovat olleet mukana oikeastaan aina. Altavistan hermostuneisuus on jo kuumeista. Hakukonekonkari uudistaa vähän väliä ulkoasuaan ja toimintaperiaatteitaan. Altavistan taannoin suunnittelema pörssilistaus meni penkin alle, minkä jälkeen se hylkäsi kuplaksi osoittautuneen portaalivisionsa ja palasi käyttäjien iloksi juurilleen hakukoneeksi. Käyttäjiä on Altavistaan yritetty houkutella epätoivoisellakin kikkailulla. Erilaisia mielikuvituksellisia hakujärjestelmiä on kehitetty. Ne eivät ole pitkälle kantaneet. Hiljattain Altavista luopui turhasta RagingSearch-toiminnostaan. Suomeen saatiin alkukesästä oma Altavista. Sen osoite on fi.altavista.com. Kotimaisista hakukoneista eniten on muuttunut Ihmemaa. Käyttöliittymä remontoitiin toukokuussa, ja sivuindeksi perustuu nyt uuteen teknologiaan. MikroPC 12 / 2001 51
WWW.GOOGLE.COM INTERNET Hakukoneet Arviot Altavista on hakukoneena melkein klassikko. Nyt siitä on suomenkielinen versio: fi.altavista.com. FI.ALTAVISTA.COM n hakutulosten relevanssi on yhä alan paras. Tärkeimmät löytyvät heti alusta. Altavista Suomi FI.ALTAVISTA.COM Altavista on rantautunut myös Suomeen. Olkoonkin,että tuttu altavista.com on klassikko hakukoneeksi,sen toiminnallisuus ei enää yllä suuren maailman parhaiden tasolle. Suomalainen Altavista osoitteessa fi.altavista.com on pienoinen pettymys,sillä toiminnot ovat vaisut ja tietokannan koko suppea. Kotimaisiakin sivuja on indeksoitu poloisen vähän. Haut ja tulokset voi tallentaa OmaHakuni -toiminnolla. Ääni-,mp3- ja kuva-tiedostoja varten on omat hakunsa. Babelfish-käännöstoiminto lienee nykyään Altavistan hyödyllisin toiminto. Espanjaa,ranskaa,italiaa,venäjää tai saksaa sisältävät nettisivut saa tarvittaessa käännettyä englanniksi; tulos on kieliopillisesti tökerö,mutta usein riittävän ymmärrettävä. Suomea baabelinkala ei vieläkään osaa. WWW.GOOGLE.COM kasvaa nopeasti. Tarjolla on nykyään myös usenet-keskusteluiden haku; toiminto on hankittu entiseltä Deja-palvelulta,ja kattaa hurjan määrän uutisryhmiä vuodesta 1995 alkaen. Preferences-valinnasta pääsee säätämään itselleen vakioasetukset,kuten 100 tulosta tulossivua kohden,ja suomenkielisen käyttöliittymän. Uutta on myös n taito päiväysrajaamiseen: advanced search -sivulta voit valita mukaan esimerkiksi vain 3 kuukautta uudemmat sivustot. n kielenkääntötoiminnot ja kuvahaku ovat periaatteessa beeta-testausvaiheessa,mutta kuitenkin jo avoimet yleisölle. n tietokanta on tämän hetken suurin ja sisältää 1,3 miljardia www-sivua. Hakukone hakee yllättävän nopeasti,tulossivun silmäily on helpompaa kuin missään muualla,ja todennäköisesti parhaat sivut löydät heti tuloslistan kärjestä. TEHOSTETUN HAUN PÄIVÄYSRAJAUSTOIMINNOT PIENEHKÖ TIETOKANTA TIETOKANNAN KOKO, TULOSTEN RELEVANSSI, NOPEA TOIMINTA n tietokanta on laajuutensa takia oiva apu kotimaisten sivujen etsimiseen. on kotimainen hakupalvelu,jossa on sekä suomi- että maailmantietokanta. Jälkimmäinen perustuu Fast-yhtiön kunnioitettavan suureen tietokantaan,joka on käytössä muun muassa All the Web -hakukoneessa: maailmantietokanta häviää koossa ainoastaan lle. Avaussivulla on uutis- ja viihdesisältöä. Tulossivulla näkee kerralla 10 linkkiä,mutta tulosten relevanssi on valovuoden jäljessä sta. Toiminta on kohtuunopeaa,tulossivun lopussa on näppärä hae muilla hakukoneilla -linkki mm. ihmemaahan ja altavistaan. n käyttökelpoisuutta lisää runsas aihehakemisto. Tucows-ohjelmistoarkiston kanssa tehdään yhteistyötä,ja n kautta pääsee etsimään kotiin ladattavia tietokoneohjelmia ja pelejä. Suomi-tietokanta kattaa etupäässä fi-palvelimia,eli com-osoitedomainissa toimiva suomalaisyritys ei näy n tietokannassa,vaikka sivut olisivatkin suomenkieliset. ssa vaivaa ehkä eniten päivämäärärajauksen puuttuminen. SUOMENKIELINEN, TIETOKANTOJEN KOOT EI PÄIVÄMÄÄRÄRAJAUSTA 52 MikroPC 12 / 2001
WWW.FI Sonera Plaza tarjoaa sanahakujen lisäksi karttahaun sekä chat-haun, jolla voi yrittää etsiä tuttua chattinimimerkkiä Soneran kanavilta. SEARCH.FI.SONERAPLAZA.NET Ihmemaa WWW.FI Ihmemaasta on osattu tehdä mielenkiintoinen. Käyttöliittymä hakukoneeseen sivulla www.fi/haku/ menee suoraan asiaan ja helpottaa alkuun pääsyä. Jostain syystä Ihmemaassa käytetään suomenkielisiä boolean-ehtoja: JA, EI, MUTTEI. Mp3-hakupalvelun ja uutishaun takia Ihmemaa on näppärä hakuportaali. Uutistietokanta tosin tuntuu toimivan varsin hitaasti. Uutisotsikoiden listaa ei lisäksi saa lajiteltua päivämäärän mukaiseen järjestykseen.tulossivulta saa klikkauksella tietyn palvelimen kaikkine alasivuineen piiloon tuloksista. Palvelu uudistui hiljattain. Tarjolla on myös kuvahaku. Ihmemaan uusittu hakupalvelu perustuu Inktomin kuuluisaan tietokantaan. LAAJA SUOMALAINEN TIETOKANTA, NÄPPÄRÄ UUTISHAKU HELPPO KÄYTTÖLIITTYMÄ HITAAHKO UUTISKANTA Soneraplaza SEARCH.FI.SONERAPLAZA.NET Sonera Plazan haku tarjoaa varsin rajallisen tietokannan esimerkiksi Ihmemaahan ja an verrattuna. Paljon tuloksia antaneet hakutulokset esitetään ikävästi epäjärjestyksessä, mikä heikentää käytettävyyttä. Suomeen keskittyneessä tietokannassa on satunnaisia suomenkielisiä palvelimia myös fi-domainin ulkopuolelta, etupäässä com ja net -osoitteista. Sonera Plazalla on sanahaun lisäksi suomalaisten nettisivustojen aihehakemisto. HELPPO KÄYTTÄÄ TULOSSIVUN LAJITTELEMATTOMUUS, HAKUTOIMINNOT NIUKAT MSN-ajankohtaisportaalin wwwhakutietokanta on yllättävän suppea. MSN Search SEARCH.MSN.FI MONIPUOLISET HAKUTOIMINNOT TOIMII JA LATAUTUU HITAASTI, SUPPEA SIVUSTOTIETOKANTA SEARCH.MSN.FI MSN Search tarjoaa ensinäkemältä suppean hakutoiminnon. Tarkennettu haku -alasivulta pääsee kuitenkin käsiksi edistyneisiin toimintoihin, ja tarjolla ovat niin kuva-, ääni- kuin mp3 - haut, domain-rajaukset, päivämäärähaarukointi, päivämäärän mukaan lajittelu ja muut hyödylliset optiot. MSN:n hakupalvelussa olisi ominaisuuksien osalta potentiaalia nykyistä suuremmankin tietokannan hallintaan. Suomennetun liittymän kautta toimivan palvelun puute on turhan pieni sivuindeksi. Osumat jäävät vähäisiksi. Jostain syystä oletusarvona on vielä päällä rajaus fi-palvelimiin. "Tarkemmat asetukset" -sivulta täytyy käydä ottamassa pois rajaus, jolloin tuloksia haetaan myös maamme päädomainin ulkopuolisista osoitteista. Hakukone vai hakemisto? Mikä on hakukoneen ja nettihakemiston ero? Hakemistoihin on koottu nettisivustoja hierarkkisiin aihealueisiin: sivuja on vähemmän, mutta saman aihepiirin sivustot on koottu hakemistoon yhteen paikkaan. Tyypillinen hakemisto on Yahoo. Hakukone kuten sana yleensä ymmärretään taas on robottivoimin koottu tietokanta www-sivuista. Tietokantaan pääsee tekemään sanahakuja, jolloin hakukone palauttaa tietokannastaan osoitteet niille sivuille, joilta sana löytyy. Hakemistot ja hakukoneet ovat nykyisin samojen tahojen ylläpitämiä: vertailussa olleilla hakukoneilla oli käytössä sanahakutietokannan lisäksi myös ihmisvoimin koottu www-hakemisto. MikroPC 12 / 2001 53
INTERNET Hakukoneet = HAKUPALVELIMET 600 500 400 300 200 100 MIKROPC 12/2001 Hakupalvelujen kehitys OSUMIA (KPL) Search.msn.fi Hakukoneet Altavista MSN.fi Sonera Plaza www.fi Kotimainen - Boolean-operaattorit / - Indeksoi pdf-tiedostot - - - - - Oletushaku JA-haku - - Päiväys tulossivulla - - - - Suosituimmat haut -listat - - - - Mitä muut hakevat-lista - - - - Rajaa kielen mukaan - - Päivämäärärajaus - - - Domain-rajaus = on, - = ei ole 0 30.4.01 AIKA 3.8.01 Hakukoneiden päivitysrytmi Internetin www-sivut uudistuvat ja päivittyvät jatkuvasti. Hakukoneiden robotit päivittävät hakutietokantaa aina pienellä viiveellä. Oheisessa graafissa on esitetty kolmen hakukoneen (, ja MSN Search) tietyllä hakusanalla löytämien osumien lukumäärä kuutena ajankohtana noin kolmen kuukauden aikana (30.4.3.8.2001). Tulokset kuvaavat yhden esimerkinomaisen hakulauseen osumalukumäärien kehitystä. Kahden hakukoneen ja MSN Search osumat ovat pysyneet verrattain tasaisina koko ajan. Vähiten muutosta näkyy tapahtuneen n tietokannassa, sillä hakukone löysi tasaisen varmasti vajaat 400 osumaa. MSN Searchin osumalukemat pomppasivat seurantajakson aikana lähes kaksinkertaisiksi, noin 50 osumasta noin 130 osumaan, joten tietokantaan lienee jossain vaiheessa ilmeisesti lisätty uusi www-palvelin tai toimialue. Suhteessa vielä kovemman suuruusluokan harppaus on nähtävissä myös n osumatuloksien lukumäärästä. n tietokanta on päivittynyt noin kuukauden MSN Searchin jälkeen. n osumalukumäärä on kolminkertaistunut. = Hakukantojen koot Hakutietokantojen kokoarvio perustuu elokuun 2001 tilanteeseen. Mitä korkeampi pylväs, sen enemmän osumia hakukone on löytänyt. Maailman suurin hakukone on. n globaali tietokanta, joka perustuu norjalaisen Fastyhtiön All the Webiin, on kasvanut lähes n tahdissa. Kilpailijat tulevat kaukana perässä. Kokoarvion perustana ovat useat yhteismitalliset haut eri hakukoneilla elokuussa 2001. Koneiden löytämät osumat on suhteutettu toisiinsa siten, että eniten tuloksia löytänyt hakukone saa tuloksen 1. Kokoarvio on keskiarvo noin kymmenestä hausta. Hakusanoina käytettiin englannin ja suomen kielisiä hakulauseita, joten tässä mittauksessa suomalaiset hakukoneet saavat etua: suuri suomalaispalvelimien tietokanta parantaa hakukoneen asemaa. YHTEENVETO 0,0 Parasta hakeville 1,0 0,8 0,6 0,4 0,2 Hakupalvelujen kokovertailu SUOMI 0,25 Altavista 0,34 0,39 MAAILMA 0,35 0,75 0,95 www.fi Altavista 0,18 MIKROPC 12/2001 0,33 Search.msn.fi Soneraplaza www.fi Altavistasta ja sta on kaksi eri pylvästä: suomi ja maailma. Suomi-pylväs tarkoittaa hakukoneen suomalaista tietokantaa ja maailma-pylväs vastaavasti kansainvälistä tietokantaa. Laskelma perustuu hakukoneiden kertomiin osumien lukumääriin. Testihakulauseissa käytettiin englannin ja suomen kieliä. Netin iso ongelma on tiedon löytyminen. Vaikka yhä suuri osa tiedosta on hakukoneilta piilossa, etsintä on tehostunut dramaattisesti verrattuna vaikkapa vuoden takaiseen. Vertailuun valitsimme parhaat hakukoneet, jotka etsivät tietoa www-sivuilta. Laajennus tähän on -hakukone, jolla pääsee www:n lisäksi usenet.news-keskusteluarkistoon, myös suomenkielisiin uutisryhmiin. Suomalaisista hakukoneista myönteisimmin yllätti Ihmemaa (www.fi). Toukokuusta alkaen Ihmemaassa on ollut käytössä Inktomin tietokanta. Suomi-indeksi on laaja, ja löysimme usein kotimaisia kilpailijoita enemmän nettisivuja. n suomi-tietokanta on myös kookas, aivan samoissa mitoissa Ihmemaan kanssa. Maailmanlaajuisista hakukoneista ykkönen on yhä, jonka tietokannan laajuus ja tulosten relevanssi tekevät siitä erinomaisen sanahakukoneen myös suomenkielistä aineistoa etsiville. 0,52 54 MikroPC 12 / 2001