Internet Tiedon haun tekniikkaa ja ongelmia
Tavoite ja sisältö Tavoite Taito hakea tietoa tehokkaasti ja kriittisesti Internetistä Sisältö Hakumahdollisuudet Internetistä Internet-hakukoneet: toiminta, esimerkkinä Google ja PageRank Hakutekniikkaa: Boolen lausekkeet, sovellus hakukoneissa Hakukoneoptimointi Tietosanakirjat, esimerkkinä Wikipedia Kirjastojen tietokannat Tieteelliset viitetietokannat Aihehakemistot Lähteiden arvioinnista
Hakumahdollisuuksia Internetistä Osoitteen (URL:n) perusteella Hakukoneet Tietosanakirjat (Wikipedia) Aihehakemistot Kirjastojen yms. tietokannat Keskusteluryhmät ja chatit Lähteitä: Mikkelin ammattikorkeakoulun Tiedonhankinnan verkkoopas: http://www.mikpoli.fi/kirjasto/ve rkko-opas/verkko_index.html Stadian kirjaston Tiedonhankinnan perusteita: http://www2.stadia.fi/~penka/t iedonhankinnan_opetuskalvot. pdf
Miten hakisit tietoa Nokia 7270-puhelinmallista?
Miten hakisit tietoa HTTP-protokollasta
Miten hakisit tietoa Teoksen Insinööri Andréen ilmapurjehdus sijainnista
Miten hakisit tietoa kauppamatkustajan ongelman ratkaisuista?
Haku osoitteen (URL:n) perusteella Soveltuu, kun tietoa haetaan selkeästi yhdestä organisaatiosta Ohjaa sivuston ylimpään tasoon Aluetunnus Maatunnus
Internet-hakukoneet Internet-hakukoneet ovat yleensä Internetin kautta käytettäviä ohjelmia, joiden avulla voidaan hakea Internet-sivuja avainsanojen perusteella. Hakukoneita: Google: www.google.com Lycos: www.lycos.com AltaVista: www.altavista.com MSN Search: http://search.msn.com Yahoo: www.yahoo.com Eri hakukoneiden parhaat tulokset poikkeavat varsin paljon. Ns. metahakukoneet yhdistävät hakukoneiden tuloksia esim. WebCrawler: www.webcrawler.com
Hakukoneiden toiminta-ajatus Kysely Kyselypalvelin Hakurobotit Käyttäjä Vastaus Sivut Indeksointipalvelin Hakusanat, sivut yms. Kysely kissa kissaa kissaahan Vastaus Indeksi
Esimerkki: mitä Google löytää? Google määrittää kullekin sivulle ns. PageRank-arvon. Lähde on arvovaltainen, jos moni (arvovaltainen) lähde sisältää siihen linkin. PageRank-arvo on sitä suurempi, mitä enemmän on sisään tulevia linkkejä ja mitä arvovaltaisemmista lähteistä linkit ovat. Arvojen laskenta on iteratiivinen prosessi: laskentaa toistetaan silmukassa. Tarkkaa algoritmia ei ole julkaistu, mutta perusidea on. Lisäksi Google suosii sivuja, joissa hakusanat esiintyvät lähekkäin. Lähteitä: Brin S., Page, L., The Anatomy of a Large-Scale Hypertextual Web Search Engine. Saatavilla sähköisesti: http://wwwdb.stanford.edu/~backrub/google.html [10.10.2005] Rogers, I.: The Google Pagerank Algorithm and How It Works. Saatavilla sähköisesti: http://www.iprcom.com/papers/pagerank/ [10.10.2005]
Google ja PageRank: esimerkki 2,53 B 0,15 C (A) 0.150 (B) 0.277 (C) 0.150 (D) 0.150 (E) 0.150 (F) 0.150 (A) 0.620 (B) 0.740 (C) 0.150 (D) 0.320 (E) 0.193 (F) 0.150 (A) 1.085 (B) 1.209 (C) 0.150 (D) 0.356 (E) 0.193 (F) 0.150 (A) 1.499 (B) 1.575 (C) 0.150 (D) 0.356 (E) 0.193 (F) 0.150 (A) 1.810 (B) 1.840 (C) 0.150 (D) 0.356 (E) 0.193 (F) 0.150 (A) 2.035 (B) 2.031 (C) 0.150 (D) 0.356 (E) 0.193 (F) 0.150 (A) 2.198 (B) 2.170 (C) 0.150 (D) 0.356 (E) 0.193 (F) 0.150 0,36 E 0,19 D F A 2,62 0,15 (A) 2.622 (B) 2.530 (C) 0.150 (D) 0.356 (E) 0.193 (F) 0.150 Kussakin laskenta-askeleessa sivun X PageRank-arvo PR( X ) lasketaan viittaavien sivujen i PageRank-arvojen PR(i) ja lähtevien linkkien määrän C(i) avulla. Vakio d = 0,15. PR( X ) = d + (1 d) i PR( i) C( i)
Boolen lausekkeet Formalismi joukkojen esittämiseen Leikkaus AND Yhdiste OR Negaatio NOT Sulut Esimerkiksi AltaVista-hakukone sallii haun Boolen lausekkeiden avulla. Sulut sitovat voimakkaimmin, sitten NOT, AND, OR Joukkoja kuvataan Venn-diagrammein: A AND B A OR B NOT A
Boolen lausekkeet hakukoneessa 1. Etsi sivut, joissa esiintyy sanat kukko, kana ja sika sekä jompikumpi sanoista lehmä ja hevonen mutta ei sanaa vuohi 2. Kukko AND Kana AND Sika AND (Lehmä OR Hevonen) AND NOT Vuohi 3. Hakukone (esim. AltaVista). http://www.altavista.com Lisähaku Google ei salli mielivaltaista (sulutettua) Boolen lauseketta
Esimerkki: Googlen tarkennettu haku konjunktiona AND Toteuduttava samanaikaisesti, konjunktiona AND Fraasit, esim. Kauppa- ja teollisuusministeriö. Jos useampia, konjunktiona AND konjunktiona OR Rajoittuminen verkkotunnukseen tai sen poissulku, esim. www.stadia.fi Kullekin termille negaatio NOT, konjunktio termien välillä AND
Hakukoneoptimointi Hakukoneilla on paljon valtaa. Ne ohjaavat kävijöitä sivustolle. Jotkin hakukoneet myyvät hakutuloksia. AltaVista sijoittaa maksavan yrityksen tuloslistan kärkeen. Ks. http://www.content.overture.com/d/fim/ays/ Lycosilla on maksullinen ja robotteihin perustuva indeksi, joita yhtiö ilmoittaa kohtelevansa samanarvoisesti. Tulostuvat eroteltuina. Google erottaa mainokset selkeästi hakutuloksista. Sivujen menestystä hakulistoilla on mahdollista kehittää sisältöoptimoinnein Esimerkiksi lisätään sivustolle keskeisiä (näkymättömiä) avainsanoja. Google-maineen voi menettää: Helsinkiläisravintola vaatii korvauksia nettikritiikistä Helsingin Sanomat 28.6.2005 http://www.helsinginsanomat.fi/ uutiset/tuoreet/artikkeli/ 1101980043111
Tietosanakirjat (Wikipedia) http://fi.wikipedia.org Monikielinen GNU-lisenssin alaisuudessa julkaistava Internet-tietosanakirja Kuka tahansa saa kirjoittaa artikkelin. Avustuksista jää lokimerkintä Töhryt voidaan poistaa palauttamalla vanha tieto. Gnu-lisenssit: http://www.gnu.org/licenses/ Lisenssi sallii käytön, muokkaamisen ja edelleenlevittämisen. Yleinen lisenssi vapaaohjelmistoissa
Kirjastojen tietokannat Stadian kirjasto Kurre-tietokanta: http://kurre.amkit.fi/ Sisältää myös insinööritöitä. Helsingin yliopiston kirjasto (Suomen kansalliskirjasto) Helka-tietokanta: http://www.helsinki.fi/helka/
Viitetietokannat Viitetietokannat sisältävät tiivistelmätietoja artikkeleista Mukana linkki alkuperäiseen artikkeliin tai kustantajan sivustolle. Monipuoliset hakumahdollisuudet avainsanojen, tekijöiden jne. perusteella. Tietokantoja: Citeseer tieteellisten artikkelien hakemiseksi: http://citeseer.ist.psu.edu/cs Tieteenalakohtaisia hakemistoja, esim. ACM Digital Library ja ACM Guide erityisesti tietotekniikan alalla: http://www.acm.org Medline lääketieteen alalla: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi
Aihehakemistot Hierarkkisesti aiheittain ryhmiteltyjä linkkikokoelmia. Toimituksellinen panos vaihtelee Kotimaisia http://www.makupalat.fi/ : Hämeenlinnan kaupunginkirjaston Makupalat-hakemisto, linkit kommentoituja Ulkomaisia http://www.google.fi/dirhp : Googlen hakemisto http://www.about.com/ : About.com -aihehakemisto Kattava lista aihehakemistoista on esim. VTT:n sivulla http://www.vtt.fi/inf/inflinks/#aihe Tarjoaa hakukoneita nopeamman tien perehtyä uuteen aihepiiriin.
Lähteiden arvioinnista Internet-lähteen luotettavuutta voi arvioida mm. näiden tekijöiden perusteella: Tiedon tuottaja Onko kyseessä yksityishenkilö vai organisaatio? Kuka sivuston rahoittaa? Saako sivuston ylläpitäjästä lisätietoa? Kirjoittajat: onko tiedossa, tausta, koulutus, motiivit Asettaako tiedon julkaisufoorumi rajoituksia (sensuuri) Luotettavuus Onko taustalla toimituksellinen prosessi tai vertaisarviointi? Objektiivisuus Pyrkiikö sivusto vaikuttamaan mielipiteeseen? Ajantasaisuus Milloin sivusto on kirjoitettu ja viimeksi päivitetty? Kattavuus Mitä aihepiirejä sivusto kaiken kaikkiaan käsittelee? Kuinka syvällisesti aiheisiin pureudutaan? Onko kyseessä alkuperäislähde vai toistetaanko muualta saatua tietoa? Lähteitä: Haasio, Ari: Internet-tiedonhaun opas, BTJ Kirjastopalvelu Oy, 2003 New Mexico State University Library, Evaluation Criteria. http://lib.nmsu.edu/instruction/evalcrit.html [11.10.2005] UC Berkeley Library: Evaluating Web Pages: Techniques to Apply & Questions to Ask. http://www.lib.berkeley.edu/teachinglib/guides/internet/evaluate.html [11.10.2005]