Julkaisuarkistojen käyttötilastot: Mitä tilastoidaan ja miksi? DSpace-käyttäjäryhmän tilastoseminaari Kansalliskirjaston auditoria, 3.11.2009 Jyrki Ilva (jyrki.ilva@helsinki.fi)
Miksi verkkopalveluiden käyttöä tilastoidaan? Palveluiden ja toiminnallisuuksien parantaminen Mitä käyttäjät tekevät? Miten navigointi toimii? jne. Toiminnan tuloksellisuuden osoittaminen Miten paljon palvelua ja sen sisältämiä aineistoja käytetään? Tutkijoiden ja arkiston ylläpitäjien motivoiminen Auttaa perustelemaan palvelun merkitystä rahoittajille Web-analyytikassa puhutaan konversiosta Mitä julkaisuarkiston käyttäjien halutaan tekevän? Kokotekstin lataaminen?
Tilastoinnin haasteita Käytön tilastointi vaatii asiantuntemusta Valitettavan usein halutaan vain uskoa hienolta kuulostaviin suuriin lukuihin Tarvitaan aina analyysia siitä mitä luvut oikeasti kertovat Toinen näkökulma: julkaisujen vaikuttavuus Vaikuttavuutta voidaan tutkia esim. sitaatioanalyysilla Mittaa kuitenkin enemmän organisaation tuottaman tutkimuksen laatua kuin julkaisuarkiston toimintaa
Tilastoinnin tekniset lähtökohdat Nykyään kaksi perusvaihtoehtoa: Palvelimen lokitiedostojen analysointi Verkkosivuille sijoitettu, käyttäjän www-selaimessa toimiva javascript-koodi, jolla kerätään tietoja julkoiseen palveluun (esim. Google Analytics) Kummassakin ratkaisussa omat vahvuutensa ja heikkoutensa Täydentävät toisiaan, monissa palveluissa käytetään molempia
Kerättävät tiedot Kerätään monia erilaisia tietoja (mm.): Vierailijoiden, vierailuiden ja sivulatausten määrät Vierailijoiden IP-osoitteet/domain-nimet Vierailijoiden tuloreitit ja käytetyt hakusanat Sivulla vietetty aika ja sen kautta poistuneiden osuus Teknisiä tietoja kävijöiden käyttöjärjestelmistä ja selaimista Tältä pohjalta mahdollista generoida erilaisia tilastoja (esim. suosituimmat julkaisut) Yhdistelemällä tietoja voidaan analysoida kävijöiden liikkeitä palvelussa
Julkaisuarkistot ja tilastointi Kokotekstitiedostojen latauskerrat näyttävät järkevimmältä yksittäiseltä tilastointikohteelta / mittarilta Mittaa nimenomaan julkaisujen käyttöä Vrt. kaupalliset palvelut ja konversio päämääränä; miten moni kävijöistä päätyy lataamaan julkaisun? Latauskertojen tilastoinnin haasteita: PDF:ään liittyvät ongelmat, latautuvat usein palasissa, jolloin lokeista liian suuria lukuja PDF:ien käytön saaminen näkyviin esim. Google Analyticsissa vaatii virittelyä
Julkaisuarkistot ja tilastointi (2) Muistakin tilastotiedoista toki iloa ja hyötyä Esittelysivun kävijämäärä saattaa sekin kertoa työn herättämästä huomiosta Hakujen määrää ei kovin mielekästä tilastoida, koska haut tapahtuvat pääosin muissa järjestelmissä Hakurobotit ja tilastointi Pyritään suodattamaan pois: tyypillisesti kymmeniä prosentteja käytön kokonaismäärästä Suurin osa ei indeksoi PDF-tiedostoja, eli näiden kohdalla hakukoneiden osuus jonkin verran HTMLtiedostoja pienempi
Googlen merkitys Enemmistö kävijöistä tulee Googlen kautta Suuri osa näistä tulee suoraan kokotekstitiedostoon käymättä millään muulla palvelun sivulla Jos kokotekstien käyttöä ei tilastoida, eivät näy käyttöluvuissa Jos valtaosa käyttäjistä tulee Googlen kautta, kannattaako oman käyttöliittymän viilaamiseen satsata? Toisaalta paikalliskäyttäjät pääosin oman käyttöliittymän kautta, suomalaisetkin suurelta osin Ulkomaiset käyttäjät lähes pelkästään hakukoneen kautta
Mitä latauskerta oikeastaan kertoo? Latauskerta kertoo tiedoston lataamisesta, ei anna selkeää tietoa mitä käyttäjä on sillä tehnyt Ei voi rinnastaa painetun aineiston lainaus- tai myyntilukuihin Tiedonhakija saattaa vain kurkistaa tiedostoa ja todeta ettei se kiinnosta Vrt. ottaa kirjan hyllystä ja pistää sen takaisin Emme tiedä onko käyttäjä tulostanut tai lukenut julkaisun Toisaalta tiedosto saattaa siirtyä käyttäjän omalle kovalevylle/muistitikulle ja kadota tilastoinnin piiristä
Lukujen merkityksestä Esim. Doria: v. 2008 yht. 2,3 miljoonaa latauskertaa (eli keskimäärin noin 200 000 latauskertaa kuussa) Käytetyimpiä yksittäisiä julkaisuja ladataan tyypillisesti satoja kertoja kuukaudessa Suosio ei välttämättä kerro tieteellisestä merkittävyydestä Populaareja aiheita (1,2), julkkiskirjoittajia (1,2), jne. Vrt. yliopiston kolmas tehtävä? Toisaalta tieteellinen viestintä suunnattu pääosin tiedeyhteisön sisäiselle yleisölle Kohderyhmä voi olla hyvinkin pieni
Esimerkki: Maailman julkaisuarkistojen näkyvyys Espanjalaisen tutkimuslaitoksen kokoama lista: http://repositories.webometrics.info/ Tutkittu näkyvyyttä eri verkkopalveluissa Metodeja voi kritisoida, mutta tällaisilla listoilla kuitenkin toisinaan yllättävää merkitystä (vrt. listaukset parhaista yliopistoista) Tulevaisuudessa perustuu ehkä Google Analytics - raportteihin
Tilastoinnin yhdenmukaistaminen? Tarvitaanko julkaisuarkistojen käytön tilastoinnissa yhteisiä käytäntöjä tai suosituksia? Kaupallisten kustantajien Counter-suositus yksi mahdollinen vertailukohta Kirjastot tottuneet kaupallisten aineistojen yhteydessä Yhteensopivuutta toivottu myös julkaisuarkistoihin, jolloin käytön määrää arvioitaisiin samoilla mittareilla Käytännön toteutuksia julkaisuarkisto-ohjelmistoihin odotellaan edelleen Erot eivät kuitenkaan kovin suuria