Informetriikka Luentopäiväkirja 1 Tessa
Yleistä informetriikan kurssista Informetriikan ensimmäinen luento alkoi 1.11.2007. Aihe sinänsä oli minulle täysin outo, olin toki kuullut termistä ennenkin, mutta suoralta kädeltä se ei sanonut minulle yhtään mitään. Mielenkiintoiselta se kuitenkin kuulosti, ja myöhemmin tunnilla koin ahaa-elämyksen kun kuulin että webometriikka on osa informetriikkaa. Webometriikka oli tuttu termi, sillä vaikka sitä en ole sen kummemmin käyttänytkään, kiinnostuin siitä jo jokin aika sitten kun se mainittiin jollain toisella luennolla. Sain luentosarjasta valtavasti uutta tietoa, ja erilaiset harjoitukset antoivat paljon lisää varmuutta lähteä etsimään vastauksia erilaisiin tehtävänantoihin. Olin paikalla luentosarjan kaikilla paitsi yhdellä luennolla olin poissa 8.11 koska oli kipeänä. Toinen harjoitustyö jäi myös siis tekemättä. Tein jokaisella läsnäolokerrallani paljon muistiinpanoja opettajan selostuksen pohjalta, ja päätinkin koota tämän luentopäiväkirjan lähes kokonaan pohjautuen noihin omiin muistiinpanoihini. Käytin Optimassa olleita luentopohjia vain tukenani. Huomasin nimittäin muistiinpanoja ja pohjia vertaillessani, että muistiinpanoni sisältävät yleensä aika mukavasti luentojen keskeiset asiat. Väliotsikointina päätin käyttää luennoilla olleita väliotsikoita, koska itse on todella vaikea keksiä sopivia. Käsitteistä Informetriikka, tai informetrinen tutkimus on kvantitatiivista, usein tilastollista tutkimusta. Se on terminä laajempi kuin bibliometriikka, ja se kattaakin sisäänsä edellä mainitun lisäksi myös skientometriikan ja webometriikan. Bibliometriikka on terminä informetriikkaa enemmän käytetty ja sitä paljon tunnetumpi. Suuri osa tehdystä tutkimuksesta onkin ollut bibliometristä; se on kohdistunut painettujen lähteiden tutkimiseen. Mutta informetriikka voi kohdistua muuhunkin kuin tallennettuun tietoon. Yleensä informetriikka on kuitenkin formaalin, tieteellisen viestinnän tutkimusta, mutta se voi kohdistua myös henkilökohtaiseen aineistoon, esimerkiksi blogeihin. Webometriikka on elektroniseen verkkoaineistoon sovellettua bibliometristä tutkimusta, erityisesti viittausanalyysiä. Viittaukset osoittavat, että kirjoittaja tietää aiheesta tehdystä aikaisemmasta tutkimuksesta, ja myös viittaukset ovat tutkimuksen alla bibliometriikassa. Käsitteissä menee helposti sekaisin tai ainakin minä menen. Kurssilla oli hyvää, kun käsitteet selvitettiin heti aluksi niin selkeästi, että ne varmasti tulivat selviksi. Ennen tätä kurssia bibliometriikka käsitteenä oli jäänyt minulle vähän hämärän peittoon (vaikka siis sen olinkin jo useaan otteeseen kuullut aiemmin), mutta nyt tiedän varmasti mitä termillä tarkoitetaan! 2 Tessa
Bibliometrisen tutkimuksen muuttujat Bibliometrisen tutkimuksen keskeisiä muuttujia ovat kirjoittajat, lähdeteokset, verkkojulkaisujen linkit ja termit, julkaisijat sekä viittaukset. Julkaisujen kirjo on valtava, ja tutkijan onkin usein itse määriteltävä, mitä hän katsoo julkaisuiksi. Rajaaminen voi tapahtua monella tavoin, esimerkiksi maan, maanosan, referoidun artikkelin, tietyn lehden tietyn ajanjakson artikkelit, maan tietyllä ajalla ilmestyneet julkaisut, alaa edustava opinnäytetyöt ja niin edelleen. Blogeja tutkimalla voi tutkia esimerkiksi mielipidettä ennen ja jälkeen jonkin tapahtuman. Ehkä tunnetuin tutkimustyyppi bibliometrisessä tutkimuksessa on viiteanalyysi. Viittausanalyysillä tutkitaan kuinka paljon johonkin asiaan viitataan. Myös lähdeanalyysiä tehdään paljon, eli tutkitaan sitä, mitä julkaisuja kirjoittaja käyttää. Perinteisten rinnalle ovat tulleet linkit verkkojulkaisujen kesken, eli tällöin määrätylle sivulle tuleva linkki on viittaus. Ulospäin suuntautuva linkki on ikään kuin lähdeviittaus. Termien esiintymistä on myös tutkittu bibliometrisesti, eli tutkitaan kuinka paljon termit esiintyvät ja kuinka usein. Lisäksi usein tutkitaan minkä sanojen yhteydessä termi esiintyy, sekä minkä alan julkaisussa, mistä lähtien ja niin edelleen. Mahdollisuuksia on jälleen valtavasti. Viittaus- ja lähdeanalyysi olivat verrattain tuttuja asioita; ne olivat ainakin osittain tulleet vastaan jo aiemmissakin kursseissa. Huomasin myös, että kertaus ei tehnyt lainkaan pahaa. Asiat tuppaavat unohtumaan, jos niitä ei käytä. 1. harjoitustyö Ensimmäisenä harjoitustyönä oli tutkia jonkin ilmiön julkaisujen määrää riittävän pitkällä ajanjaksolla jonkin tietokannan avulla. Valitsin aiheekseni paljon viime aikoina esillä olleen Facebookin, ja tutkin sitä Nellin kautta. Halusin selvittää ennen kaikkea milloin Facebookista alettiin kirjoittaa ja milloin kirjoitusten määrä huomattavasti nousi. En eritellyt hakutuloksia juurikaan, eli joukossa oli varmasti jonkin (ehkä paljonkin) verran epärelevantteja tuloksia. Sen verran tiesin Facebookista etukäteen, että se on perustettu vuonna 2004, joten rajasin hakua koskemaan vain vuosia 2004-2007. Hain Nellin pikahaun kautta Taloustieteiden (TT) ja Humanististen tieteiden (HT) tulokset vuosittain. Vuonna 2004 oli aiheesta kirjoitettu todella vähän, yhteensä vain 6 artikkelia. Vuonna 2005 määrä oli jo kasvanut HT:ssä tuloksia oli 9, TT:ssä jo 90. Kasvu vain jatkui vuonna 2006 silloin tulokset olivat 135 (HT) ja 1398 (TT). Tänä vuonna (2007) artikkeleita on ollut humanististen tieteiden puolella 478 ja taloustieteiden puolella 6516. 3 Tessa
Tuloksista huomaa selvästi sen, miten Facebookin suosio ja tunnettavuus on kasvanut viimeisen kahden vuoden aikana ja etenkin nyt kuluneen vuoden aikana. Yllätyin siitä, että jo Facebookin perustamisvuonna siitä oli kirjoitettu jokunen artikkeli, sillä en olisi uskonut tämän kaltaisen opiskelijoiden pystyyn laittaman palvelimen saavan niinkään paljon huomiota jo heti sen alkuaikoina! Bibliometriset tutkimusmenetelmät Julkaisujen määrää koskeva tutkimus tehdään muun muassa tietokantojen avulla. Siinä voidaan tutkia esimerkiksi sitä, mistä lähtien julkaisua on julkaistu, missä ja kuinka paljon tai vaikkapa julkaisun keskeisiä teemoja. Tarkoituksena on siis saada esimerkiksi kuva julkaisutoiminnasta tai sitten prosessista, joka on julkaisutoiminnan takana. Kirjoittajien määrää koskeva tutkimus taas voi kohdistua esimerkiksi selvittämään yhteistyötä eri tahojen välillä perustuen kirjoittajien yhteisiin julkaisuihin. Viiteanalyysissä on kaksi eri puolta viittaus- ja lähdeanalyysi. Tutkimusaineisto kootaan usein Web of Knowledge tai Web of Science tietokannoista. Viittaus- ja lähdeanalyysin erottaa näkökulma, jota käytetään lähdeluettelon tarkasteluun. Viittausanalyysissä näkökulma on viitatun kirjailijan, joka mainitaan lähdeluettelossa. Lähdeanalyysissä näkökulma on sen julkaisun kirjoittajalla, joka on laatinut lähdeluettelon. Viittausanalyysin avulla tarkastelun kohteena ovat julkaisujen käyttö ja käytöstä pois jääminen. Se on kaikkein näkyvin ala bibliometrisissä tutkimuksissa. Viittausanalyysin idea on se, että julkaisun ja kirjoittajan asemasta tiedeyhteisössä kertoo jotakin viittausten määrä. Jos viittauksia on paljon, on julkaisu tai kirjoittaja ainakin näkyvä, ehkä jopa arvokas. Viittausanalyysissä tarkastellaan ja lasketaan siis periaatteessa sitä, kuinka usein jokin teksti mainitaan muiden julkaisujen tai tekstien lähdeluettelossa, eli kuinka usein siihen viitataan. Ruotsalainen K.E. Rosengren kehitti erillään viittausanalyysin kehityksestä mainintatekniikaksi kutsutun menetelmän. Sitä voi käyttää tutkiessaan sanomalehtien, akateemisten kirjallisuuskritiikkien ja esseistien viitekehyksiä. Mainintoja tutkimalla saadaan esille kirjallisten viitekehysten rakenne, koko ja koostumus. Yhteisviittausanalyysillä tutkitaan suhteita julkaisujen välillä. Lähtökohtana on oletus siitä, että usein samoissa lähdeluetteloissa mainituilla julkaisuilla on vahvempi keskinäinen yhteys kuin julkaisuilla, joilla on harvoin yhteisviittauksia. Yhteys tulkitaan usein saman aihepiirin 4 Tessa
edustamiseksi. Yhteisviittausanalyysejä voi tehdä sekä julkaisuista että kirjoittajista. Nykyään kirjoittajat ovat yhä enemmän yhteisviittausanalyysin kohteena. Yhteissana-analyysilla kartoitetaan kognitiivista verkostoa, kuten yhteisviittausanalyysilläkin. Viittausten sijasta yhteissana-analyysillä etsitään kuitenkin avainsanoja joko julkaisujen otsikoista, tiivistelmistä tai itse julkaisuista. Yhteistyöanalyysin avulla voidaan tutkia esimerkiksi miten tuotteliaisuus ja yhteistyö liittyvät toisiinsa tai kuinka paljon eri aloilla kirjoitetaan yhteistyöjulkaisuja. Yhteistyöanalyysin avulla ei voi kuvata yksittäisten kirjailijoiden tieteellistä merkitystä tai tuotteliaisuutta, ainakaan ellei heistä saada tarkempia erittelyjä jotain muuta kautta. Yhteistyöanalyysin avulla voidaan kuitenkin tutkia muun muassa tieteenalojen sosiaalisia rakenteita. Tärkein analyysin sovellus on kuitenkin tutkia ryhmätyön vaikutuksia julkaisujen näkyvyyteen ja tieteelliseen tuotteliaisuuteen. Lähdeanalyysi on viittaavan kirjoittajan näkökulma lähdeteoksiin. Tarkastelun kohteena on se, mihin kirjoittajiin tai teoksiin hän vetoaa omassa tekstissään. Käsite bibliografinen kytkentä liittyy lähdeanalyysiin. Tällä tarkoitetaan sitä, että tieteellisten julkaisujen joukolla on merkityksellinen keskinäinen suhde (eli kytkentä), mikäli niillä on yhteisiä lähdeteoksia. Lähdeanalyysiä käytetään toisinaan kirjastojen kokoelmatyössä. Tästä osiosta olin suurimman osan poissa, koska suurimmalta osin tämä aihe käsiteltiin toisella luentokerralla. Näistä todellakin viittaus- ja lähdeanalyysi olivat ennalta tuttuja, mutta hyvä että ne tulivat kerratuksi. Lisäksi tuli ihan uutta tietoa mainintatekniikan, yhteisviittausanalyysin ja yhteissana-analyysin merkeissä. Ihan järkeenkäyviä ovat mielestäni kaikki. Koska en tunneilla ollut silloin kun näistä kerrottiin, käytin apuna opiskelussa Optiman lähteitä! Bibliometriset indikaattorit Bibliometrisilla indikaattoreilla pyritään kuvamaan tutkittavien julkaisujen ominaisuuksia. Näitä ovat muun muassa kirjoittajien, lähteiden, julkaisujen ja viitteiden määrä sekä niistä laskutoimitusten avulla johdetut indikaattorit. Viittausten määrään liittyviä indikaattoireita ovat viittauskerroin ja välittömyysindeksi. Viittauskerrointa käytetään usein arvioinnissa. Sitä alettiin laskea, jottei enemmän julkaisevalla olisi etulyöntiasemaa vähemmän julkaisevaa kohtaan. Viittauskerrointa käytettäessä on muistettava, ettei aloja saa rinnastaa keskenään sen avulla. On otettava huomioon niiden eroavuudet niin julkaisemis- kuin viittaamistavoissakin. Alan sisällä viittauskerroin on kuitenkin 5 Tessa
oiva arvioinnin väline. Viittauskerroin ei ole ainoa vaikuttava asia, kun (jos miettii) artikkelinsa julkaisua myös aihe ja lukijakunta vaikuttavat. Välittömyysindeksin laskee kuten myös viittauskertoimen ISI (Institute for Scientific Information). Se kertoo kuinka paljon artikkelit saavat viittauksia julkaisuvuotenaan. Välittömyysindeksi ei ole niin tärkeä kuin viittauskerroin, eikä sitä käytetä varsinaisesti arvioinnin välineenä. Julkaisujen ikääntymiseen liittyviä indikaattoreita ovat esimerkiksi puoliintumisaika, mediaani-ikä sekä Pricen indeksi. Puoliintumisajan laskee myös ISI. JCR määrittelee puoliintumisajan olevan mediaani-ikä artikkeleilla, joihin on sinä vuonna viitattu. Mediaani-iällä tarkoitetaan aikamäärää, jonka kohdalla lähteet ikänsä suhteen jakaantuvat kahteen samankokoiseen joukkoon puolet niistä on mediaania vanhempia ja puolet uudempia. Mediaaniikää käytetään harvoin. Pricen indeksi keskittyy lähteisiin, ei viittauksiin. Se kertoo, montako prosenttia lähteistä on korkeintaan viisi vuotta vanhoja. Ainoa tuttu asia tässä osiossa oli tuo viittauskerroin se on tullut vastaan monta kertaa aiemminkin. Oli hyvä saada vähän monipuolisempi kuva asiasta ja tutustua muihinkin indikaattoreihin nyt tietää ettei se viittauskerroin aina ole se ainoa tapa. Bibliometriset lait Bibliometriset lait eivät ole luonnonlain tyyppiä, eli muuttumattomia lakeja. Ne ovat jakautumislakeja, eli esimerkiksi miten lehdet julkaisevat, miten sanat esiintyvät. Vinojakauma on tyypillistä bibliometrisille laille, eli se että käyttö kasautuu, menestys ikään kuin ruokkii menestystä. Bibliometrisistä laista ehkä käytetyin on Bradfordin laki, sitä sovelletaan kaikkein eniten. Bradfordin laissa on ydin, jonka ympärillä on vyöhykkeitä. Jokaisella vyöhykkeellä on saman verran relevantteja artikkeleita, mutta ytimessä tarvittavien lehtien määrä on pieni, seuraavalla kehällä paljon suurempi, ja seuraavalla taas paljon suurempi. Ytimessä lehdet siis ovat relevantimpia, keskittyneempiä, alan lehtiä. Bradfordin lain laskukaava on 1:n:n 2. Garfieldin lain mukaan Bradfordin lain uloimpien kehien lehdet, ovat tietyn toisen tieteenalan ydinlehtiä. Lotkan laki kertoo, että yhden julkaisun julkaisijoita on todella paljon, kun taas sellaisia, joilla on kymmeniä julkaisuja, on paljon vähemmän. Zipfin lain mukaan, jos otoksessa on kerran esiintyviä sanoja x kappaletta, on otoksessa kaksi, kolme, neljä tai n kertaa esiintyvien sanojen lukumäärä 1/2 2, 1/3 2, 1/4 2, eli laskentakaavana voi käyttää 1/n 2. 6 Tessa
Bibliometriset lait vaativat aika paljon kovaa opiskelua, ennen kuin ne sisäisti. Bradfordin laki oli kohtalaisen helppo, kuten myös Garfieldin, eikä Lotkan lakikaan vaikealta kuulostanut. Zipfin laki taas meinasi aiheuttaa päänvaivaa, mutta uskoisin lopulta saaneeni sen oikein. Ihan mielenkiintoisia nämäkin, ja tuo Bradfordin laki tuli todella mukavasti tutuksi kurssin laajemmassa harjoitustyössä! Julkaisutoiminnan tutkimus tiedeviestinnän kannalta Tiedeviestinnässä on ainakin kaksi puolta. Alan asiantuntijoiden kesken tiedettä koskeva viestintä ja tavallisille kansalaisille tiedettä koskeva viestintä. Tieteellisen viestinnän tutkimukseen on vanhastaan käytetty bibliometrisiä menetelmiä. On mahdollista tutkia esimerkiksi jonkun tietyn aiheen näkymistä mediassa tai julkaisuissa. Lisäksi voidaan tutkia vaikka aihepiirin saamaa julkista huomiota, tai kansalaisten kiinnostusta. Tämä osa jäi suoraan sanottuna vähän huonolle ymmärtämiselle minulla. Se tuntui jollain tapaa irralliselta mistään muusta aiheesta, ja siihen oli vaikea tarttua. 3. harjoitustyö Tehtävänä oli tutkia sellaisen tieteellisen lehden viittausmääriä, jolle JCR ei kerro viittauskertoimen arvoa, sekä pohtia mihin kohtaan tämä lehti voisi sijoittua alansa lehtien joukossa viittauskertoimensa perusteella. Lehteni oli sellainen kuin Computer Science (Journal of Computer Science). Löysin lehdelle 48 viittausta vuosilta 2005-2007, artikkelimäärä ei selvinnyt. ISIssä kyseinen lehti sijoittuisi viittausmäärän perusteella - luokassa computer science, software engineering - sijalle 79 (edellisellä oli viittauksia 57, seuraavalla 47). Viittauskertoimeksi arvioisin tulosten perusteella, sekä verraten muihin lehtiin, ehkä noin 0.230 tai jotain vastaavaa. Tämä oli aika erikoinen harjoitustyö. Siinä mielessä siis, että oli melko jännittää ihan suoraan arvioida, ikään kuin musta tuntuu pohjalta, että mikä mahdollisesti olisi lehden viittauskerroin ja mihin se ehkä sijoittuisi viittauksien määrän perusteella. Webometriikka (TK:n tunti) Webometrics termi on vuodelta 1997, eikä sille ole olemassa vakiintunutta käännöstä. Webometriikka on osa informetristä tutkimusta, ja sitä käytetään esimerkiksi viestinnän ja 7 Tessa
informaatiotutkimuksen aloilla. Cybermetrics tutkii keskusteluryhmiä, postituslistoja ja muita vastaavia. Webometriikka on jaettu neljään osaan: 1) Verkkosivujen sisällönanalyysi 2) Linkkianalyysi 3) WWW:n käytön analyysi 4) Web teknologian analyysi Verkkosivujen sisällönanalyysi on yleensä laadullinen tutkimusmenetelmä. Kohteena voivat olla esimerkiksi blogit, verkkopalvelujen sisältö (mitä sivuilla tarjotaan), millä keinoin yrityksen verkkopalveluja hyödynnetään ja niin edelleen. Tärkeitä seikkoja ovat käytettävyys, muistettavuus, subjektiivisuus, miellyttävyys (eli onko kiva käyttää), käytön tehokkuus ja toimivuus (miten nopeasti lataa) ja niin edelleen. Käytettävyyttä tutkitaan monin eri tavoin. Verkkolinkkien analyysin perusteena on se, että linkit vievät sivulta toiselle, ja sivustot ovat tässä yhteydessä solmuja. Solmu voi olla esimerkiksi yksittäinen verkkosivu tai sivusto, yksi tiedosto tai sen osa. Ennen analyysin tekoa täytyy tiedostaa mihin tutkimuksen kohdistaa. Solmua yhdistävät linkit on eroteltu; tulevat linkit, ulos menevät linkit, sisäinen linkki, vastavuoroinen linkki ja yhteislinkit. Tulevia linkkejä käytetään tutkimuksessa kuin viittauksia painetuissa julkaisuissa, eli niitä käytetään huomion mittareina. Sivustoilla tulevia linkkejä voi hakea esimerkiksi soscibot:in tai Altavistan (ja myös Googlen?) kautta. Tärkeää on, että linkit ovat ihmisten tekemiä, yksilöllisiä, ja että ne perustuvat samanlaisiin kohdesivun informaation laatua koskeviin arviointeihin. Sivuston sisäiset linkit eivät kuvaa käytettävyyttä, vaan vain ulkopuoliset linkit kuvaavat sitä. Haut eivät kata koko www:tä, mutta tässä pitää muistaa, että muissakaan tutkimuksissa ei aineisto koskaan ole täydellinen. Verkkojulkaisuillakin on ehdotettu omaa viittauskerrointa, web impact factoria (WIF tai Web-IF), suomennoksena on vakiintumaton verkkoviittauskerroin. Sitä ei ole ajallisesti rajoitettu kuten normaalia viittauskerrointa. Tutkimuksen kohteena ovat myös viittaukset ja mainintakäytännöt. Webin käytön analyysi voi koskea käyttömäärää, käyttötapaa tai vastaavaa, mutta myös sitä, kenellä on websivut, websivujen liikennemääriä, ongelmia tai websivuja julkaisukanavana. Käytettävyystutkimus on lähellä käyttötapoja koskevaa tutkimusta. Web teknologian analyysiin sisältyy muun muassa hakukoneiden toimintaa koskeva tutkimus. 8 Tessa
Webometriikka on pitkään jo tuntunut minusta todella mielenkiintoiselta. En nyt muista millä kurssilla se mainittiin joskus aiemmin, mutta se sai mielenkiintoni heräämään. Todella mielenkiintoista oli nyt kuulla aiheesta enemmän, ja muistan että odotin todella innolla tämän tunnin jälkeen jo seuraavaa, Kim Holmbergin aiheeseen liittyvää tuntia! 4. harjoitustyö Neljännen harjoitustyön aiheena oli linkkianalyysi. Tehtävänä oli valita jotkin verkkosivut, joilta sitten piti tutkia ulospäin suuntautuvien linkkien kohteita ja linkittämisen perusteita. Valitsin sivustokseni Tiedotusopillisen yhdistyksen (TOY) sivut, http://www.uta.fi/laitokset/tiedotus/tiedotustutkimus/toy Löysin sivustoilta seuraavat ulospäin suuntautuvat linkit: 1) NordMedia 2007 sivustolle, joka oli viittaus tapahtumasta, eli ajankohtaisesta asiasta linkin takaa löytää lisätietoja kyseisestä jutusta. Perusteet linkille olivat mielestäni taustatiedot sekä data&fakta. 2) Nordicom, Akateeminen kirjakauppa, Tiedekirja, Turun kirjakahvila linkit olivat lähteitä, joista voi tilata yhdistyksen vanhoja lehtiä. Näin ollen perusteet olivat mainos sekä navigointi. 3) Nordicom linkki, oli linkki pohjoismaiseen tietokeskukseen. Perusteina mainos sekä data&fakta. 4) Viestintätieteiden yliopistoverkostoon linkki, jonka syynä taustat, tunnustus sekä mainos. 5) Suomen elokuvatutkimusseura, linkin tarkoituksena mainos, tunnustus sekä faktat. Webometrics (Kim Holmberg) Webometriikka ja hyperlinkkiverkostoanalyysi tutkivat lähes samoja asioita, mutta webometriikka käyttää bibliometrisiä keinoja. Webometriikalla pyritään tutkimaan webin ilmiöitä, miten webbiä jaetaan. Tämä tapahtuu lähinnä linkkien kautta, koska niitä webometriikka erityisesti käsittelee. Webometriikan tutkimus on tähän mennessä ollut hyvin teoreettista, menetelmien kehittely ja niin edelleen. Webometriikan tutkimien linkkien määrä voi olla miljoonia, ja sen vuoksi tulosten hahmottamiseen käytetään usein visuaalisia keinoja. Tiedon keruuseen tarvitaan usein hyvin suuret määrät dataa. Sen keruuseen on kaksi käyttökelpoista menetelmää; 1) hakukoneet ja 2) web crawlers (eli pieniä skriptin pätkiä). Hakukoneita voidaan käyttää yksinkertaisissa hauissa. Yksinkertaisimmillaan voidaan tarkastella sitä, kuinka monella sivulla haettu fraasi esiintyy. Voidaan hakea myös esimerkiksi sivut, joilla on linkki haetuille sivuille, tai sivut joille haetulta sivulta on linkit (eli sivuston sisään tulevat ja 9 Tessa
ulos menevät linkit). Paras lähde edellä mainittuun tarkoitukseen on aiemmin ollut live.com, mutta tällä hetkellä (KH:n mukaan) haut eivät toimi. Joten juuri nyt Altavistalla on laajimmat erikoishaut. Googlella on laajimmat tietokannat, mutta haut ovat rajoitteisia. API:en käyttö (API:t ovat ohjelmia jotka automaattisesti lähettävät hakuja hakukoneille) mahdollistaa suuret tutkimusprojektit vähällä vaivalla. Web crawlers, web robots, hakevat ja keräävät automaattisesti tietoa linkeistä ja webbisivuista. Kaikki hakukoneet käyttävät näitä, mutta niitä on olemassa myös julkiseen käyttöön. Webometriikalla on monia mahdollisuuksia. Sen avulla voi tutkia esimerkiksi verkkosivuilta artikkeleihin meneviä viitteitä (web citation analysis), analysoida hyperlinkkien tai verkon rakennetta, analysoida informaatiota (esimerkiksi seurata muutoksia verkossa ja julkaisutavoissa) tai tutkia hakukoneiden luotettavuutta. Linkkityyppejä ovat tulevat yhteislinkit, sisälinkit ja lähtevät yhteislinkit. Liikkeelle lähdetään yleensä aina sisälinkeistä. Hakutulokset muuttuvat koko ajan, eli se mikä tänään on saatu tulokseksi, voi olla jo vanhentunutta kolmen kuukauden päästä. Webometriikan mahdollisia ongelmia ovat muun muassa hakukoneiden ongelmat, eli esimerkiksi se, että hakukoneet ovat puolueellisia englanninkielisiä sivuja kohtaan; sekä teoreettiset ongelmat, eli esimerkiksi miksi sivusto tai sen linkit on luotu. Lisäksi suurin osa webometrisistä tutkimuksista on menetelmien kehitystä ja testausta vielä tällä hetkellä. Page rank on Googlen algoritmi, jonka mukaan se jaottelee sivustot paremmuusjärjestykseen. Sen mukaan 1) sivut joilla on enemmän sisään tulevia linkkejä, ovat todennäköisesti hyödyllisempiä ja 2) sisään tulevat linkit hyödyllisiltä sivuilta ovat tärkeämpiä kuin tulevat linkit muualta. Small world theory taas pyrkii selvittämään mihin linkkien kautta pääsee eli kuinka monta askelta menee, että pääsee paikasta a paikkaan b. Hyperilinnkiverkostoanalyysi pohjautuu sosiaalisiin verkostoanalyyseihin. Webometriikalla on havaittu olevan merkittävä korrelaatio online/offline ilmiöiden ja tutkimusten välillä. Syy tähän on kuitenkin vielä epäselvä. Webometriikan tutkimuksessa linkkien luomisen motiivi on tärkeä. Kvantitatiivisia metodeita vaaditaan usein täydentämään kvalitatiivisia metodeita. Webometriikka tutkii ja analysoi myös blogeja. Blogianalyysejä voidaan käyttää tutkimaan esimerkiksi kuumia aiheita. Siinä on tarjolla monia ilmaisia työkaluja, jotka mahdollistavat pääsyn käsiksi kuluttajien luomaan tietoon. Eli siinä luodaan uusia mahdollisuuksia uudenlaiselle tutkimukselle. 10 Tessa
Webometriikkaosio oli todella mielenkiintoinen ja valaiseva. Oli hyvä, kun oli edellisellä tunnilla jo vähän käyty etukäteen asioita, niin oli helpompi seurata KH:n luentoa. Luennolta sai syvemmän käsityksen webometriikasta, sen käyttömahdollisuuksista ja muista. Harjoitustunnilla tosin harjoitukset menivät vähän yli ymmärryksen sain kyllä harjoituksen tehtyä, mutta jos se olisi pitänyt yksin toistaa myöhemmin, niin siitä ei olisi tullut mitään. Bibexcel oli vähän liian hieno ja uusi kerralla sisäistettäväksi sen käyttämisen opettelu vaatisi ehdottomasti paljon enemmän kuin lyhyen kaksituntisen. Lopuksi Koin kurssin todella hyödylliseksi itselleni. Sain sieltä paljon uutta ja mielenkiintoista tietoa. Ennen kaikkea jo aiemmin mielenkiintoiselta tuntunut webometriikka aukeni yhä enemmän, ja se vaikuttaa yhäkin todella kiinnostavalta. Ajatuksissani olen alkanut leikitellä idealla, että ehkäpä proseminaari (tai jopa gradu) voisi liittyä jollain tavalla webometriikkaan. En oikein tiedä mikä siinä kiinnostaa niin paljon, mutta ehkäpä osasyynä on se, että se on kuitenkin alana niin uusi, ja tutkittavaa on niin paljon. Ja toisaalta, webin maailma on kiehtova kaikessa moninaisuudessaan. Lähteet: - informetriikan luentomuistiinpanot - Kortelainen, Terttu (Oulun yliopisto) : Informetrinen tutkimus luentosarja - Tehtävien teossa käytetty erilaisia tietokantoja sekä internetsivuja Tessa 11 Tessa