Moniulotteinen relevanssiarviointi Hannele Luomanen

Koko: px
Aloita esitys sivulta:

Download "Moniulotteinen relevanssiarviointi Hannele Luomanen"

Transkriptio

1 Moniulotteinen relevanssiarviointi Hannele Luomanen Tampereen Yliopisto Informaatiotutkimuksen laitos Pro Gradu- tutkielma maaliskuu 2008

2 TAMPEREEN YLIOPISTO Informaatiotutkimuksen laitos LUOMANEN, HANNELE: Moniulotteinen relevanssiarviointi Pro gradu -tutkielma, 44 s. Informaatiotutkimus Maaliskuu 2008 TIIVISTELMÄ Tutkimuksen tarkoituksena on selvittää moniulotteisen relevanssikorpuksen ominaisuuksia ja vertailla moniulotteisia relevanssiarvioita suhteessa yksiulotteiseen relevanssiin eli binäärisiin ja moniportaisiin relevanssiarvioihin. Lisäksi tutkitaan sitä kuinka paljon sisällöllistä päällekkäisyyttä esiintyy relevanttien dokumenttien joukossa. Tarkemmin tutkitaan pystytäänkö moniulotteisten relevanssiarvioiden perusteella ennakoimaan dokumenttien sisällöllistä päällekkäisyyttä. Aineistona on käytetty Informaatiotutkimuksen laitoksen tiedonhakulaboratorion TUTKkokoelmasta 26 hakutehtävää, joista oli tehty neliportaiset relevanssiarviot, ja jotka arvioitiin uudelleen käyttäen moniulotteista relevanssiarviointia. Lisäksi tehtiin erillinen sisällönanalyysi artikkelipareittain, jotta saataisiin selville kuinka paljon todellista sisällöllistä päällekkäisyyttä esiintyy. Tutkimuksessa havaittiin, että moniulotteiset relevanssiarviot korreloivat perinteisten relevanssiarvioiden kanssa. Teemapäällekkäisyyden ennustettavuus on suurinta yleisempien teemojen osalta ja sisällöllisen päällekkäisyyden toteaminen on todennäköisintä erittäin relevanttien dokumenttien joukossa. Dokumenttiparien vertailu osoitti, että teemojen avulla pystytään ennakoimaan myös sisältöjä, mutta teemojen ja sisältöjen suhde ei ole täysin suoraviivainen. (Avainsanat: relevanssi, moniulotteinen relevanssi)

3 Sisällysluettelo 1. Johdanto Peruskäsitteet ja aikaisempi tutkimus Relevanssi tiedonhankintatutkimuksen valossa Testikokoelmat ja relevanssin operationalisointi Testikokoelmanäkökulman kritiikki relevanssitulkinnan osalta Päällekkäisyyden huomiointi vuorovaikutteisen tiedonhaun tutkimuksessa Moniulotteinen relevanssiarviointimalli Menetelmän perusideat Moniulotteisen datan esittäminen Moniulotteisen relevanssidatan arviointiprosessi Tutkimustehtävä, aineistot ja menetelmä Tutkimuskysymykset Tutkimusaineisto Testikokoelma Arvioitavat dokumentit Relevanssiarviot Aineiston analysointi Relevanssikorpuksen ominaisuudet Sisällönanalyysi artikkelipareittain Tulokset Relevanssikorpuksen ominaisuudet Teemarelevanssi vs. perinteinen relevanssi Suhteellinen teemapäällekkäisyys Suhteellinen informaatiopäällekkäisyys Poikkeustapausten analyysi Johtopäätökset Lähteet....39

4 1. Johdanto Tiedonhaun tutkimuksen testikokoelmissa on perinteisesti käytetty yksiulotteista relevanssia, jossa dokumenttien sisällöllistä vastaavuutta hakuaiheeseen on kuvattu yhdellä luvulla. Yksiulotteista relevanssia on kritisoitu sen realistisuuden puutteesta. Tiedonhakua ja hankintaa koskevat empiiriset tutkimukset osoittavat, että relevanssi on moniulotteinen ja dynaaminen ilmiö (Schamber, 1994). Tutkimuksen tarkoituksena on selvittää moniulotteisen relevanssikorpuksen ominaisuuksia. Työn tarkoituksena on myös vertailla moniulotteisia relevanssiarvioita suhteessa yksiulotteiseen relevanssiin eli binäärisiin ja moniportaisiin relevanssiarvioihin. Tarkemmin on tarkoituksena tutkia pystytäänkö moniulotteisten relevanssiarvioiden perusteella ennakoimaan dokumenttien sisällöllistä päällekkäisyyttä. Uudella lähestymistavalla on tarkoituksena ylittää perinteisen relevanssin rajoitukset, jossa oletetaan, että kokoelman dokumentti on itsenäinen ja riippumaton kokoelman muista dokumenteista. Moniulotteisen relevanssin avulla on helpompi huomioida esimerkiksi dokumenttien sisällöllisiä päällekkäisyyksiä. Moniulotteisen relevanssin käyttö tiedonhaun tutkimuksissa ja testikokoelmissa on suhteellisen uusi asia, jota ollaan vasta kehittämässä. Aikaisemmin aiheeseen liittyviä kokeellisia asetelmia on ollut käytössä mm. vuorovaikutteisessa TREC:ssä. (Over, 2001.) Relevantin informaatiosisällön päällekkäisyyttä tai täydentävyyttä ei voida päätellä perinteisestä yksiulotteisesta relevanssikorpuksesta. Käyttäjälle olisi kuitenkin hyödyllisempää saada hakutuloksiin dokumentteja, jotka käsittelevät aihetta laajasti ja sen lisäksi mahdollisimman monipuolisesti eri näkökulmista ja aiheen eri osa-alueilta. Moniulotteisessa relevanssiarvioinnissa on mahdollista huomioida myös hakuaiheen sisällöllinen jakautuminen potentiaalisesti relevanttien dokumenttien joukossa ja näin ollen se on myös käyttäjälähtöisempi ja realistisempi lähtökohtana kuin dokumenttien yksiulotteinen arviointi. 1

5 2. Peruskäsitteet ja aikaisempi tutkimus Relevanssi on tärkeä käsite tiedonhankintatutkimuksessa ja tiedonhakujärjestelmien arvioinnissa. Relevanssin määrittelyssä on kaksi pääsuuntaa: aiherelevanssi ja käyttäjärelevanssi (Järvelin & Sormunen, 1999). Aiheenmukainen relevanssi on yleisin ja selvin määritelmä relevanssista ja sitä mitataan perinteisessä tiedonhaun systeemien evaluoinnissa. Aiheenmukainen relevanssi on kontekstista vapaa ja mittaa vain sen kuinka hyvin haku sopii löydetyn informaation sisältöön (Borlund & Ingwersen, 1998). Aiherelevanssi tarkoittaa, että dokumentti käsittelee hakupyynnön määrittelemää aihetta. Käyttäjärelevanssi huomioi dokumentin aiheen lisäksi tiedon käyttäjästä riippuvia tekijöitä. Käyttäjän arvioon voivat vaikuttaa mm. tiedontarpeen aiheuttavan tehtävän luonne, dokumenttien kieli, ulkoasu ja tuttuus käyttäjälle. Tiedontarve voidaan määritellä tiedontarvitsijan kokemukseksi tilanteensa ja ympäristönsä epävarmuudesta ja tiedon hyödyllisyydestä kyseessä olevassa tilanteessa. Tilanteen hallinta edellyttää menneiden, nykyisten ja tulevien tilanteiden ymmärtäminen. Relevanssiarviot ovat tällöin tilannesidonnaisia ja dynaamisia (Järvelin & Sormunen, 1999). Tämän perusteella Järvelin & Sormunen (1999) antavat relevanssille seuraavan määritelmän: Relevanssilla tarkoitetaan informaation arvioitua käyttökelpoisuutta tietyissä käyttötilanteissa ottaen huomioon käyttäjän tavoitteet, arvot ja odotukset. Käyttäjäsuuntautuneessa tiedonhakututkimuksessa tiedonhakijalta pyydetään löydetyistä dokumenteista relevanssiarvio, joka voi perustua edellä esitetyn määritelmän mukaisiin, tilannekohtaisiin käyttökelpoisuuskriteereihin (Harter & Hert 1997). Tuloksellisuuden arviointi perustuu käyttäjäsuuntautuneessakin tiedonhakututkimuksessa yksiulotteisen relevanssin käsitteelle. 2

6 Yksiulotteisessa relevanssiarvioinnissa dokumentin relevanssia kuvataan yhdellä luvulla, joka kuvaa yhtä dokumentin ominaisuutta. Binäärisessä relevanssiarvioinnissa dokumentti saa relevanssiarvoksi joko arvon 0 (ei relevantti) tai 1 (relevantti). Dokumentti on määritelty joko relevantiksi tai ei relevantiksi, huomioimatta lainkaan sitä kuinka laajasti ja kuinka monesta eri näkökulmasta dokumentti hakuaihetta käsittelee. Tiedonhakijan kannalta relevanteiksi määritellyt dokumentit saattavat olla hyvinkin eritasoisia ja niiden hyödyllisyys vaihdella laajasti, jolloin käyttäjälle tärkeitä dokumenttiattribuutteja jätetään huomioimatta binäärisessä hakuaihearvioinnissa. Käyttäjälle olisi useimmiten hyödyllisintä löytää dokumentteja, jotka käsittelevät hakuaihetta laajasti (Sormunen, 2002). Moniportaisissa relevanssiarvioinneissa on tyypillisesti käytetty kolmi- tai neliportaista asteikkoa, jolloin on jo selvemmin arvioitavissa kuinka laajasti hakuaihetta dokumentissa käsitellään. Kuitenkaan relevantin informaation päällekkäisyyttä ei voida päätellä relevanssikorpuksesta. Käyttäjälle olisi kuitenkin hyödyllisempää saada hakutuloksiin dokumentteja, jotka käsittelevät aihetta laajasti ja sen lisäksi mahdollisimman monipuolisesti eri näkökulmista ja aiheen eri osa-alueilta (Kekäläinen & Järvelin, 2002). Perinteisen relevanssiarvioinnin tarkoituksena on hakuaiheen ja dokumentin vastaavuuden arviointi, kun taas moniulotteisen relevanssiarvioinnin tarkoituksena on dokumentin ja kunkin hakuaiheen teeman vastaavuuden arviointi. Moniulotteinen relevanssiarviointi antaisi mahdollisuuden tunnistaa sisällöllisesti päällekkäistä informaatiota sisältävät dokumentit, jolloin käyttäjän kannalta olisi mahdollista karsia hakutuloksista jo kertaalleen löydettyä informaatiota, josta käyttäjälle ei enää olisi hyötyä ja tuoda hakutuloksiin lisää relevanttia informaatiota hakuaiheen eri aspektien osalta. 2.1 Relevanssi tiedonhankintatutkimuksen valossa Tiedonhankintatutkimuksessa esiintyy erilaisia relevanssitulkintoja. Relevanssi voidaan jakaa kahteen pääluokkaan: objektiiviseen tai systeemiperusteiseen relevanssiin ja subjektiiviseen tai käyttäjäperusteiseen relevanssiin. Tiedonhankintatutkimuksessa esiintyy nämä kaksi eri 3

7 lähestymistapaa: systeemiorientoitunut lähestymistapa ja käyttäjälähtöinen lähestymistapa. Systeemilähtöinen lähestymistapa käsittelee relevanssia staattisena ja objektiivisena käsitteenä ja käyttäjälähtöinen lähestymistapa subjektiivisena yksilöllisenä kokemuksena, johon liittyy kognitiivista toimintaa. (Borlund, 2003b.) Borlund (2003b) erottaa artikkelissaan erilaisia relevanssityyppejä lähtien systeemi- ja käyttäjäperustaisista lähestymistavoista. Erilaiset relevanssityypit viittaavat erilaisiin suhteisiin, joita on löydetyn informaation, hakutehtävän, tiedontarpeen tai tiedontarpeen luovat tilanteen taustalta. Kuvassa 1 on esitetty perinteinen tulkinta eri relevanssityypeistä ei-interaktiivisessa tiedonhakutilanteessa. Kuva 1. Borlundin malli relevanssin tyypeistä. (Borlund p. 29) Algoritminen relevanssi (A) kuvaa kyselyn ja dokumenttikokoelman suhdetta kyselyssä löydettyihin dokumentteihin. Aiheenmukainen relevanssi voidaan määritellä sen mukaan kuinka hyvin löydetyn informaation aihe vastaa hakutehtävää. Dokumentti on objektiivisesti relevantti, jos se käsittelee hakutehtävän aihetta. Relevanssi käsitetään kontekstivapaaksi, jolloin käyttäjää ei oteta huomioon ja lisäksi arvioinnissa käytetään usein binääristä asteikkoa eli dokumentti joko on relevantti tai ei ole. Borlund (2003b) pitää algoritmista relevanssia kaikkein yleisimpänä ja 4

8 selkeimpänä relevanssin määritelmänä ja sitä käytetään perinteisessä tiedonhakujärjestelmien evaluoinnissa. Intellektuaalinen aiheenmukaisuus (IT) on kytkeytynyt käyttäjään ja dokumentin relevanttius riippuu siitä kuinka arvioitsija kokee informaation vastaavan annettua hakuaihetta ja kuvailtua tiedontarvetta. Relevanssitulkinnassa otetaan huomioon eriasteiset ihmisten tekemät intellektuaaliset tulkinnat dokumentin relevanssista. Relevanssi käsitteenä voi viitata löydetyn dokumentin hyödyllisyyteen tai käytettävyyteen suhteessa hakijan tavoitteiden täyttymiseen tai hakutehtävän ratkeamiseen. Relevanssi on siten kontekstiriippuvainen. (Borlund, 2003b.) Käyttäjärelevanssi (P) on informaation tarpeen ja informaatio objektien välinen suhde, jonka käyttäjä luo hakutilanteessa. Tämä sallii dynaamisen informaatiotarpeen olemassaolon. (Borlund, 2003b.) Perinteisissä tiedonhauntestikokoelmissa (esim. Cranfield ja TREC) relevanssi on tulkittu algoritmiseksi relevanssiksi tai intellektuaaliseksi aiheenmukaisuudeksi eli informaatio-objektien ja kyselyn tai hakupyynnön väliseksi suhteeksi (Borlund, 2003b). Toisaalta tiedonhankintatutkimuksessa on noussut esille useita erilaisia oikeiden käyttäjien relevanssikriteereitä. Relevanssin yksinkertaistamista aiheenmukaisuuteen on kritisoitu käyttäjälähtöisen tiedonhakututkimuksen puolelta (Schamber 1994, Borlund & Ingwersen 1998). Tiedonhankintatutkimuksen näkökulmasta oikeat tiedonhakijat käyttävät monia relevanssikriteereitä. Monissa empiirisissä tiedonhankintatutkimuksissa tutkijat ovat tunnistaneet laajan kirjon subjektiivisia ja dynaamisesti muuttuvia relevanssikriteereitä, joita käytetään dokumenttien arvioimiseen (esim. Greisdorf 2003, Maghlaughlin & Sonnenwald 2002, Rieh 2002). Toisaalta monet käyttäjätutkimukset ovat myös osoittaneet, että dokumentin informaatiosisältö ja aiheenmukaisuus ovat kriteerejä, jotka tyypillisesti kaikki käyttäjät jakavat (Schamber 1994, Maghlaughlin & Sonnenwald 2002). 5

9 Greisdorf (2003) kiinnitti huomiota relevanssin dynaamiseen luonteeseen ja totesi, että käyttäjillä on monia erilaisia kriteerejä, joiden perusteella he tekevät päätöksiä tietokannasta löydetyn dokumentin informaation relevanssin suhteen. Hän selvitti tutkimuksessaan miten käyttäjät evaluoivat informaatiota ja millaisia relevanssikriteereitä he käyttävät. Hän on tunnistanut evaluointikriteereinä mm. aiheenmukaisuuden, hyödyllisyyden, motivaation ja systemaattisuuden. Maghlaughlin & Sonnenwald (2002) tutkivat relevanssikriteereitä, joita hakijat käyttivät relevanssiarviointiin arvioitaessa kolmiportaisella asteikolla relevantteja, osittain relevantteja ja ei-relevantteja dokumentteja, keskittyen erityisesti kriteereihin, joita käytettiin arvioitaessa dokumentti osittain relevantiksi. Tulokset osoittivat, että käyttäjillä on monia erilaisia kriteerejä relevanssiarvioita tehtäessä ja useimmilla kriteereillä voi olla joko positiivinen tai negatiivinen vaikutus dokumentin relevanssille. Maghlaughlin & Sonnenwald löysivät kaiken kaikkiaan 29 erilaista kriteeriä. Internetin kontrolloimaton ympäristö on haasteellinen käyttäjille, jotka arvioivat informaation hyödyllisyyttä. Rieh (2002) tutki internetin hakukäyttäytymistä ja käyttäjien arvioiden tekemistä löydetystä informaatiosta. Rieh keskittyi erityisesti kahteen asiaan, jotka ovat esiintyneet useissa tutkimuksissa: löydetyn informaation laatuun ja auktoriteettiin, joiden on todettu olevan kaikkein tärkeimpien relevanssikriteerien joukossa etenkin internetin kaltaisissa kontrolloimattomissa hakuympäristöissä ja havaitsi, että Web ympäristössä käyttäjät käyttävät vielä useampia kriteereitä kuin perinteisissä tiedonhakuympäristöissä. Laadun ja auktoriteetin määrittelemisessä käytettiin myös monia erilaisia tekijöitä. Esim. laadun määrittelemisessä vaikutti informaation ajantasaisuus, tarkkuus ja hyödyllisyys. Erilaisten relevanssikriteerien ja niitä määrittävien tekijöiden lisäksi käyttäjien arviointiin vaikuttaa myös tulosjoukossa muualla esiintyvät dokumentit (Rieh, 2002). Kekäläinen & Järvelin (2002) tuovat esille relevanssiarvioiden dynaamisen luonteen. Relevanssiarviot ovat dynaamisia ja ne muuttuvat tiedonhakuprosessin kuluessa. Relevanssiarvioinnissa tulisi ottaa huomioon muitakin tekijöitä kuin vain aiheenmukaisuus. Se 6

10 mikä on alussa relevanttia voi olla myöhemmin epärelevanttia tai jo tiedossa olevaa päällekkäistä informaatiota. Heidän mielestään olisi tärkeää pystyä tunnistamaan nämä tekijät informaatioobjekteista. 2.2 Testikokoelmat ja relevanssin operationalisointi Kokeellisella tiedonhaun tutkimuksella on pitkä historia. Nykyiset tiedonhakututkimuksen testikokoelmat perustuvat malliin, joka kehitettiin 1960-luvun alussa Cranfield -projekteissa. Cranfield-testikokoelma sisälsi 1400 dokumenttia ja 225 kyselyä ja se oli pitkään vallitseva testikokoelma tutkijoiden käytössä sen jälkeen. Cranfield osoitti testikokoelmien luomisen tärkeyden ja niiden käyttämisen vertailevaan evaluointiin. Myös muita kokoelmia on rakennettu, kuten CAMC kokoelma ja NPL kokoelma (Harman, 1993). Testikokoelmissa käyttäjällä ja käyttäjän ja informaation välisellä vuorovaikutuksella pieni rooli. Testikokoelman hakuaiheen ja yksittäisten dokumenttien välillä on tällöin staattinen suhde. Cranfield kokoelmassa dokumentit arvioitiin käyttäen viisiportaista relevanssiasteikkoa ja arvioinnissa huomioitiin aiheen lisäksi informaation potentiaalinen hyödyllisyys käyttäjälle. (Cleverdon, 1967.) Viime vuosina TREC konferenssit ovat olleet mittavin tutkimusfoorumi, joka perustuu laboratoriomallille. TREC:ssä on alkuperäisenä tavoitteena on ollut se, että tuloksia on mahdollista myös vertailla tutkimusryhmien välillä käyttämällä samoja dokumenttikokoelmia ja evaluointimenetelmiä. TREC on suunniteltu rohkaisemaan laajojen testikokoelmien käyttöä tiedonhauntutkimuksessa. TREC onkin tuonut tutkimukseen laajemmat ja realistisemmat testikokoelmat sekä pyrkimyksen käyttäjälähtöisempään suuntautumiseen. (Harman, 1993.) Kuten perinteiset testikokoelmat yleensä TREC:n testikokoelma koostuu kolmesta erillisestä osasta: dokumenttikokoelmasta, hakuaiheiden joukosta ja relevanssikorpuksesta. TREC:in dokumenttikokoelma koostuu pääasiassa uutisartikkeleista ja lyhennelmistä. Dokumenttien valintaan vaikuttaa mm. dokumenttien tyyppi, pituus, kirjoitustyyli, editointi ja sanasto. 7

11 Hakuaiheiden on tarkoitus olla mahdollisimman todentuntuisia ja käyttäjien oikeiden tiedontarpeiden mukaisia. Hakuaiheet saattavat sisältää myös kuvauksen minkälainen tieto on relevantti. Hakuaiheet TREC:ssä on pyritty valikoimaan käyttäjän tarpeita kuvaaviksi lauseiksi, sen sijaan, että käytössä olisi perinteisempi kysely. Aiheen kuvauksessa pyritään usein kuvaamaan todellisen käyttäjän tarpeita ja informaation mahdollisia käyttötilanteita. Relevanssiarviot ovat testikokoelman tärkeä osa. Jokaisella hakuaiheella täytyy olla mahdollisimman täydellinen lista relevanteista dokumenteista. TREC:ssä käytettiin relevanssiarvioitavien dokumenttien kartoittamisena pooling- menetelmää, joka on käytössä muissakin kokoelmissa. Metodissa eri hakujärjestelmillä haetaan tietty määrä relevantteja dokumentteja jokaisesta hakuaiheesta, tulosjoukot yhdistetään, duplikaatit poistetaan ja jäljelle jääneistä uniikeista dokumenteista arvioitsijat tekevät relevanssiarviot. Vertailtavien hakumenetelmien paremmuutta mitataan suorittamalla kyselyt kokoelmassa kullakin hakuaiheella ja laskemalla hakutulosten keskimääräiset tuloksellisuusluvut relevanssikorpuksen perusteella. Testikokoelmissa on perinteisesti käytetty evaluointimetodina tarkkuutta ja saantia, joita myös TREC:ssä käytettiin. (Harman, 1995.) Cranfieldin lähestymistapaa käyttävistä kokoelmista vallitsevin on tällä hetkellä TREC. Samanlaista lähestymistapaa ovat käyttäneet myös CLEF consortium for Cross-Language IR (ks. sekä yksittäiset tutkimusryhmät (esim. Kluck 1998, Sormunen 2000). Relevanssiarviot ovat kriittisen tärkeitä testikokoelmassa. Nykyisten testikokoelmien relevanssitulkintaa on kritisoitu realismin puutteesta. Testikokoelmissa relevanssi on usein operationalisoitu. Käytössä on ollut binaariset relevanssiarviot, jotka määrittelevät dokumentin joko aiheenmukaiseksi tai ei. TREC:n ohjeissa dokumentti määritellään relevantiksi mikäli joku osa dokumentista on relevanttia huomioonottamatta sitä kuinka suuri tai pieni osa dokumentista on relevanttia. (Sormunen, 2002.) 8

12 TREC:n tyyppiset testikokoelmat sopivat liberaaleine relevanssiarvioineen varsin heikosti monipuoliseen hakujärjestelmien testaukseen. Ottamalla käyttöön moniportaiset relevanssiarviot voidaan paremmin tutkia esimerkiksi hakumenetelmien selektiivisyyttä löytää parhaiten relevantteja dokumentteja. Tiedonhaun vielä monipuolisempaan informaation päällekkäisyyden tutkimiseen tarvitaan laajempia relevanssiskenaarioita. (Sormunen, 2002.) 2.3 Testikokoelmanäkökulman kritiikki relevanssitulkinnan osalta Testikokoelmien perinteinen relevanssiarviointi perustuu rajoittavalle oletukselle, että kokoelman dokumentti on itsenäinen ja riippumaton kokoelman muista dokumenteista (Robertson, 1977). Uudemmissa relevanssimääritelmissä on otettu huomioon relevanssin dynaaminen luonne mukaan lukien sisällöllisen päällekkäisyyden mahdollisuus. Relevanssin operationalisoinnissa ei kuitenkaan ole laajalti sovellettu käsitystä sisällöllisen päällekkäisyyden mahdollisuudesta. Relevanssin käsite on paljon käsitelty ja väitelty tiedonhaun tutkimuksessa ja artikkeleissa on tuotu esiin useita tulkintoja ja määritelmiä relevanssista. Relevanssin on todettu olevan monipuolinen ilmiö, eikä pelkästään viittaa aiheenmukaisuuteen käyttäjän arvioidessa löydettyä informaatiota (Borlund, 2003b). Tiedonhakua ja hankintaa koskevat empiiriset tutkimukset osoittavat myös, että relevanssi on moniulotteinen ja dynaaminen ilmiö (Schamber, 1994). Usein perinteisissä testikokoelmissa on käytetty binaarista relevanssiarviointia, jolloin relevanssi on operationalisoitu voimakkaasti yksinkertaistavalla tavalla. Sormunen (2002) tutki moniportaista relevanssia tekemällä osalle TREC 7 ja 8:n hakuaiheista neliportaisia relevanssiarvioita. Alkuperäisten binääristen ja tutkimuksessa tuotetun moniportaisen relevanssikorpuksen vertailu osoitti, että relevanssin kynnys on matala TREC:ssä. Marginaalisesti hakuaihetta käsittelevät dokumentit dominoivat relevanssikorpuksessa. Borlundin (2003b) mukaan dynaaminen relevanssi viittaa siihen, kuinka saman käyttäjän relevanssituntemukset voivat vaihdella yhden hakutehtävän aikana. Borlundin (2003b) ehdottama malli tilannerelevanssista (situational relevance) interaktiivisen tiedonhaun tutkimuksessa osoittaa hyvin käyttäjärelevanssin dynamiikan. 9

13 Borlundin malli Borlund (2003a) ehdottaa vaihtoehtoista lähestymistapaa interaktiivisen tiedonhakujärjestelmien evaluoinnille (IIR evaluation model). Borlund esittää mallin vaihtoehtona systeemisuuntautuneella Cranfieldin mallille, joka on edelleen vallitseva lähestymistapa tiedonhaun tutkimuksessa. Tavoitteena on mahdollisimman realistinen interaktiivisen tiedonhaun arviointi ja hakujärjestelmän suorituksen laskeminen ottamalla huomioon relevanssiarvioiden eibinaarinen luonne. Borlundin mallissa tarjotaan kehys tiedonhaun datan keräämiselle ja analyysille. Tavoitteena on tiedonhakujärjestelmien evaluointi mahdollisimman realistisesti todellisen tiedonhakuprosessin mukaisesti suhteellisen kontrolloidussa evaluointiympäristössä. Tarkoituksena on myös järjestelmän suorituskyvyn mittaaminen siten, että relevanssiarvioiden ei-binaarinen luonne voidaan ottaa huomioon. (Borlund, 2003a.) Borlundin mallin keskeisenä tarkoituksena on käyttää realistisia skenaarioita, simuloituja hakutehtäviä (simulated work task situations) ja vaihtoehtoisia tuloksellisuuden mittareita. Simuloitujen hakutehtävien tarkoituksena on luoda pohjaa realistiselle tiedontarpeelle ja sen tunnistamiselle. Simuloidut hakutehtävät sisältävät lyhyen johdannon, joka kuvailee tilannetta, jossa hakijan on tarve käyttää tiedonhakujärjestelmää. Simuloidut hakutehtävät takaavat kokeelle myös riittävästi kontrollia. Vaihtoehtoisiksi tuloksellisuuden mittareiksi Borlund ehdottaa suhteellista relevanssia (relative relevance, RR) ja ranked half-life (RHL). Lisäksi hän mainitsee Järvelinin ja Kekäläisen (2002) ehdottaman kumulatiivisen hyödyn (Cumulated Gain, CG) ja diskontatun kumulatiivisen hyödyn (Discounted Cumulated Gain, DCG). (Borlund, 2003a.) Borlundin mielestä tiedonhauntutkimuksessa tiedontarpeen määrittely tulisi olla yksilöllisten tiedonhakukokemusten ja käsitteiden dynaamisen luonteen mukainen. Hänen mielestään Cranfieldin malli ei ota huomioon dynaamista tiedontarvetta vaan käsittelee tiedontarvetta staattisena käsitteenä, jota hakulauseke kuvastaa. Yhteenvetona Borlund toteaa, että Cranfielden malli ei sovellu interaktiivisten tiedonhakujärjestelmien evaluoimiseen, jos se suoritetaan niin 10

14 realistisesti kuin mahdollista. Realismi vaatii interaktiivisuutta, potentiaalisesti dynaamista tiedontarpeen tulkintaa ja moniulotteista ja dynaamista relevanssitulkintaa. Käyttäjäsuuntautuneessa tiedonhaun tutkimuksessa on Borlundin (2003a) mukaan myös puutteita. Käyttäjäsuuntautunut lähestymistapa määrittelee tiedonhakujärjestelmän laajemmin ja näkee tiedontarpeet ja hakuprosessin kokonaisuutena. Evaluointiprosessissa kiinnitetään huomiota siihen miten hyvin käyttäjä, tiedonhakumekanismi ja tietokanta toimivat keskenään todellisista operationaalisissa tilanteissa. Tässä lähestymistavassa alkuperäinen käyttäjä tekee relevanssiarviot suhteessa omaan tiedontarpeeseensa, joka voi vaihdella hakutehtävän aikana. Oletuksena tässä on, että relevanssiarviot edustavat tietyn käyttäjän tietyssä tilanteessa tekemiä arvioita, joten relevanssiarvion voi tehdä vain käyttäjä sillä hetkellä. Relevanssitulkinta on silloin subjektiivinen, ei-binaarinen tilannerelevanssi. Näillä perusteilla realismin vaatimus olisi saavutettu. Borlund kritisoi kuitenkin käyttäjälähtöisen lähestymistavan tapaa mitata suoritustehokkuutta saanti- ja tarkkuuslukuina huolimatta siitä, että kerätään ei-binaariset relevanssiarviot. (Borlund, 2003a.) Borlund tuo ilmi tarpeen kehittää realistisempia koeasetelmia ja korostaa relevanssin dynaamista ja moniulotteista luonnetta, mutta häneltä puuttuvat ehdotukset siitä, kuinka testikokoelmien relevanssiarviointien esittämistä tulisi käytännössä kehittää. Lisäksi Borlund ei tarkastele dokumenttien sisältöjä tai niiden päällekkäisyyksiä, vaikka tarkastelee relevanssia dynaamisena ilmiönä. Tiedontarpeen dynaamisen luonteen tunnistaminen tutkimuksissa on haasteellista interaktiiviselle tiedonhauntutkimukselle. Tietoisuus relevanssin moniulotteisuudesta ja vaihtelevuudesta on muuttanut käsitystä siitä kuinka tiedonhakujärjestelmiä tulisi arvioida ja viimeaikoina testaamisessa on tapahtunut muutoksia interaktiiviseen käyttäjälähtöiseen suuntaan. (Borlund & Ingwersen, 1998.) 11

15 Simuloidut hakutehtävät kuvailevat tiedontarveskenaarion ja varmistavat, että evaluointi on hallittavissa ja relevanssiarviot ovat vertailukelpoisia. Menetelmä kaventaa kuilua subjektiivisen ja objektiivisen relevanssin välillä ja on käyttäjälähtöisempi näkökulma. Kaikki mittaustavat tuottavat hiukan erilaiset arvioinnit samoille objekteille. (Borlund & Ingwersen, 1998.) Tiedonhakututkimuksessa päähuomio on vuosien kuluessa siirtynyt aiherelevanssista kohti käyttäjärelevanssia. Tämä ei kuitenkaan tarkoita sitä, että tutkimuksessa tulisi tai edes aina voitaisiin käyttää käyttäjärelevanssiin perustuvaa hakutuloksen arviointiperustaa aiherelevanssin sijasta. Monissa järjestelmäkeskeisissä tutkimusasetelmissa aiherelevanssi antaa yksinkertaisemman toteutustavan ja riittävän pohjan hakujärjestelmän arvioinnille. Valinta riippuu tutkittavasta ongelmasta. (Järvelin & Sormunen, 1999.) Käyttäjän relevanssitulkintaan voisivat myös vaikuttaa samantapaiset tai päällekkäiset dokumentit, jotka ovat esiintyneet aiemmin tulosjoukossa. Kekäläinen ja Järvelin (2002) ovat tulleet siihen tulokseen, että aiheenmukainen relevanssi on riittävä evaluointitarkoitukseen, jos se kohtaa evaluoinnin tarkoituksen eli hakutehtävän, johon algoritmi, jota testataan on suunniteltu. Kokeellisen tutkimuksen tavoite on luoda kontrolloitu ympäristö, jossa tutkittavaa ilmiötä voidaan testata. Testikokoelmia, jotka perustuvat realistiseen dokumenttikokoelmaan, määriteltyihin simuloituihin hakutehtäviin (Borlund 2003) ja moniportaisiin aiheenmukaisiin relevanssiarvioihin (Sormunen 2002, Kekäläinen 2005) voidaan edelleen pitää luotettavina työkaluina kokeellisessa tiedonhaun tutkimuksessa. Kuitenkin, uudenlaisia lähestymistapoja täytyy kehittää, jos uusia tai laajempia evaluointiskenaarioita sovellettaisiin (Kekäläinen & Järvelin 2002). 2.4 Päällekkäisyyden huomiointi vuorovaikutteisen tiedonhaun tutkimuksessa Päällekkäisen informaation ongelma on tiedostettu tiedonhaun tutkimuksessa, mutta sen ratkaisemiseksi ei ole vielä tehty kovin paljon. Moniulotteisen relevanssin varsinainen käyttö tiedonhaun tutkimuksissa ja testikokoelmissa on suhteellisen uusi asia, jota ollaan vasta kehittelemässä. 12

16 Aiheeseen liittyviä kokeellisia asetelmia on ollut käytössä mm. TREC:ssä. Interaktiivisen TREC:in kokemukset ovat osoittaneet, että perinteiset testausmenetelmät, jotka perustuvat binääriseen yksiulotteiseen relevanssiarviointiin, eivät anna kunnollista pohjaa tutkia interaktiivista tiedonhaun ilmiötä. TREC:n interaktiivisen tiedonhaun kokeet ovat osoittaneet myös päällekkäin menevän informaation ongelman tärkeyden. Käyttäjälle tai systeemille, joka löytää päällekkäistä informaatiota, ei tulisi antaa tehokkuusvertailussa perusteetonta etua. TREC:ssä on ollut mukana interaktiivisen tiedonhaun tutkiminen alusta alkaen. TREC 1:ssä ja TREC 2:ssa tutkittiin jo myös tiedonhaun interaktiivista puolta. Kokeet kuitenkin kärsivät hakuaiheiden epärealistisesta luonteesta (Beaulieu et al. 1996). TREC 3:ssa ja TREC 4:ssä mukaan otettiin erilliset interaktiiviset tiedonhaun kokeet, joissa käytettiin kuitenkin vielä samoja hakuaiheita. TREC 6 perinteiset relevanssiarviot korvattiin aspektuaalisilla arvioinneilla ja myös saanti ja tarkkuus korvattiin aspektuaalisella saannilla ja tarkkuudella (aspectual precision and recall). TREC 7:ssä termi aspekti (aspect) korvattiin termillä instanssi (instance). Viimeisimmissä kokeissa aiheet on kehitetty interaktiivista tiedonhaun tutkimusta varten ja instanssisaantia ja - tarkkuutta on käytetty mittaamisen välineinä. Interaktiivisessa TREC:ssä käytettiin erikoishakutehtäviä, joissa tehtävänä oli löytää tietyn ajan sisällä mahdollisimman monta hakuaiheen eri instanssia käsittelevää dokumenttia. Hakutehtävänä voi olla esimerkiksi eri hoitokeinot sydänsairauksiin, joista kustakin tuli löytää informaatiota (TREC 5). Hakijan piti löytää informaatiota mahdollisimman monesta hoitokeinosta, mutta joukossa ei saanut olla päällekkäistä informaatiota. Päällekkäisen informaation löytämisestä ei annettu pisteitä tuloksellisuuden mittaamisessa. (Over, 2001.) Todellisessa hakutilanteessa käyttäjän tarkoituksena ei ole kuitenkaan luoda optimaalista kyselyä, vaan löytää informaatiota sisältäviä dokumentteja, lisäksi todellisessa hakutilanteessa kysely todennäköisesti kehittyy dynaamisesti (Beaulieu et al. 1996). TREC:ssä kehitetty relevanssiarviointi menetelmä ei ole yleiskäyttöinen, vaan sopii paremmin tietyntyyppisiin 13

17 hakutehtäviin, koska useimmiten hakutilanteissa ei ole tarkoituksena hakea instansseja vaan tiettyyn aiheeseen liittyvää informaatiota Borlund (2000). 3. Moniulotteinen relevanssiarviointimalli Moniulotteisen relevanssiarviointimallin perusajatus on sisällöllisen päällekkäisyyden arvioiminen tietyn hakuaiheen relevanteista dokumenteista. Malli perustuu siihen, että hakuaihetta käsittelevät dokumentit jaetaan erilaisiin teemoihin sisällönanalyysin kautta. Teemoihin liittyvä informaatiosisältö arvioidaan perinteisin binaarisin tai moniportaisin relevanssiarvioiden. Eri teemoissa toisiaan täydentävien tai päällekkäisten dokumenttien tunnistamiseen voidaan käyttää taulukkona esitettyä relevanssidataa. 3.1 Menetelmän perusideat Sormusen (2006) esittämä malli perustuu seuraaville taustaolettamuksille: Moniulotteisten relevanssiarviointien luomisessa tietokannan informaatiosisältö on oleellinen suhteessa tarkasti määriteltyyn tai simuloituun hakutehtävään. Potentiaalisesti relevantit dokumentit ovat relevanssiarvioiden tarkastelun kohteena. Jokainen dokumentti potentiaalisesti relevanttien dokumenttien joukossa saattaa tarjota relevanttia informaatiota käyttäjälle, joka suorittaa hakutehtävää. Tämä potentiaali arvioidaan ja esitetään moniulotteisella relevanssikorpuksella. Kriittinen kysymys on kuinka hyvin moniulotteinen relevanssidata auttaa arvioimaan minkä tahansa dokumentin uniikkia ja muiden dokumenttien kanssa päällekkäistä sisältöä. Moniulotteinen relevanssikorpus voi sisältää myös tietoja ei-aiheenmukaisista dokumenttiattribuuteista. Moniulotteisessa relevanssiarvioinnissa dokumentin relevanssia voidaan kuvata useilla luvuilla, joista kukin edustaa yhtä dokumentin ominaisuutta. Moniulotteisessa relevanssiarvioissa voidaan käyttää kunkin ominaisuuden osalta binäärisiä tai moniportaisia relevanssiarvoja. Jos moniulotteisessa relevanssiarvioinnissa keskitytään hakuaiheeseen, dokumentit arvioidaan hakuaiheesta tunnistettujen teemojen vastaavuuden perusteella. 14

18 Moniulotteisessa relevanssiarvioinnissa pyritään ottamaan huomioon enemmän myös sitä mihin aihealueeseen dokumentit sisällöllisesti jakautuvat. Sisällöllisesti päällekkäiset dokumentit voivat sisältää samaa informaatiota, jolloin toiseen kertaan löydetty informaatio ei tuo enää lisäarvoa käyttäjälle. Testikokoelmien moniulotteisten relevanssiarviointien tarkoituksena on tukea tutkimusta, jossa voidaan ottaa huomioon dokumenttien sisällön päällekkäisyys tai täydentävyys. Interaktiivinen tiedonhaun tutkimus, käyttäjiä koskeva tutkimus ja samantapaiset tutkimustarpeet voisivat hyötyä rikkaammasta relevanssidatasta kontrolloiduissa kokeissa. 3.2 Moniulotteisen datan esittäminen Taulukko 1 on esimerkki moniulotteisen relevanssidatan esittämisestä. Testikokoelman hakuaiheet on jaettu teemoihin. Teemoilla on sama rooli kuin instansseilla interaktiivisessa TREC:ssä (Over 2001), mutta ne ymmärretään yleisemmällä tasolla. Teemoille voidaan antaa eri rooleja erilaisissa hakuaiheissa ja aineistoissa. Uutismateriaalissa teemat voivat liittyä uutisjutun raportoinnin eri vaiheisiin. Esimerkiksi teemat, jotka liittyvät aiheeseen "Junaonnettomuus Jyväskylässä" voidaan jakaa seuraavasti: onnettomuus (mitä tapahtui), seuraukset (kuolleet, loukkaantuneet), henkilökohtaiset kokemukset (haastattelut), onnettomuustutkinta, oikeudenkäynti, onnettomuuden synnyttämä kirjoittelu rautateiden turvallisuudesta yleensä. Tutkimusjulkaisujen kokoelmassa sopivat teemat olisivat erilaisia. Esimerkiksi aihe "Webtiedonhaku käyttäytyminen" voitaisiin jakaa teemoihin: peruskäsitteet, mallit ja teoriat, tutkimusmetodit, empiiriset tulokset, yleiset ympäristöt ja spesifit ympäristöt (informaation tyypit, vrt. Vakkari 2001). Teemojen valinta riippuu hakutehtävästä ja aiheenmukaisten dokumenttien sisällöstä. Teemojen täytyy käsitellä aiheenmukaisuuden eri aspekteja, jotka ovat tarkoituksenmukaisia tarkastelussa olevalle hakutehtävälle. Toisaalta sellaiset aiheenmukaiset aspektit, joita ei käsitellä yhdessäkään dokumenteista voidaan jättää huomioimatta teemojen valinnassa. 15

19 Jokaisen teeman sisällä dokumentin relevanssi voidaan arvioida käyttäen binääristä tai moniportaista asteikkoa. Saantia ja tarkkuutta voidaan käyttää tuloksellisuuden mittareina. Dokumentin moniulotteiset relevanssiarvot voidaan myös muuntaa perinteisiksi yksiulotteisiksi relevanssikorpukseksi, jolloin voidaan tehdä tavanomaisia testejä. Moniulotteinen relevanssikorpus auttaa arvioimaan informaation täydentävyyttä dokumenteissa osoittamalla mitkä dokumentit käsittelevät eri teemoja. Kun dokumentit käsittelevät eri teemoja voidaan soveltaa vuorovaikutteisessa TREC:ssä kehitettyjä tuloksellisuusmittareita kuten instanssisaanti. Kun dokumentit käsittelevät samoja teemoja, on mahdollista, että informaatiosisällöt ovat päällekkäisiä (redundantteja). Kuinka suuri informaatiosisältöjen redundanttisuuden todennäköisyys on teemojen ollessa päällekkäisiä on avoin tutkimuskysymys, johon tämän tutkielman empiirisen osuuden toivotaan antavan vastauksia. Dokumentti id# Teemarelevanssi Teema1 Teema2 Teema3 Teema4 Dok Dok Dok Dok Dok Dok Dok Dok Dok Taulukko 1. Moniulotteisen relevanssidatan esittäminen. 16

20 3.3 Moniulotteisen relevanssidatan arviointiprosessi Perinteisen ja teemaperustaisen relevanssiarvioinnin suurin ero on siinä, että jälkimmäisessä arvioijan täytyy tuntea hakutehtävä hyvin. Arvioijan täytyy myös perehtyä aiheen käsittelyyn eri dokumenteissa kokonaisuutena, jotta teemojen valinta voi tapahtua mielekkäästi. Menetelmän haasteena on se, että varsinainen arviointi tehdään yksi dokumentti kerrallaan, jotta arvioija pystyy suoriutumaan tehtävästä. Kaikkien potentiaalisesti relevanttien dokumenttien rinnakkainen, yhtäaikainen vertailu ylittää arvioijan kapasiteetin. Moniulotteisen relevanssidatan keräämisen vaiheet hakuaiheelle määritellään seuraavasti: 1. Valitaan hakuaihe ja tehdään testihakuja, jotta saadaan selville minkätyyppistä materiaalia on saatavilla ja onko sitä riittävästi. (Ei poikkea normaalista käytännöstä testikokoelmien rakentamisessa.) 2. Vaiheessa 1 valituille potentiaalisesti relevanteille dokumenteille tehdään alustava sisällönanalyysi (vähintään dokumenttia, ainakin osa erittäin relevantteja) ja valitaan teemat. Kaikki teemat dokumentoidaan, jotta saadaan riittävä pohja relevanssiarvioille ja kokoelman ylläpitämiselle. 3. Suunnitellaan ja tehdään kyselyt, jotta löydetään mahdollisimman luotettavasti kaikki potentiaalisesti relevantit dokumentit. (Tämäkin vaihe normaalin testikokoelman mukaista.) 4. Arvioidaan dokumenttien relevanssi suhteessa valittuihin teemoihin. 5. Jos alkuperäisten teemojen määritelmiä pitää muuttaa tai liian laaja teema on jaettava osiin, kaikki tai osa dokumenteista joudutaan arvioimaan uudelleen määriteltyjen ja muokattujen teemojen mukaan. (Sormunen, 2006.) 4. Tutkimustehtävä, aineistot ja menetelmät Moniulotteisia relevanssikorpuksia ei ole vielä käytetty tiedonhakujärjestelmien tutkimuksessa, mutta informaatiotutkimuksen laitoksella on tuotettu menetelmää soveltaen moniulotteinen korpus. Korpusta analysoimalla on mahdollista selvittää korpuksen ominaisuuksia ja arvioida sen käyttökelpoisuutta ajatellussa käytössä. 17

21 Uuden menetelmän kyky tunnistaa sisällöllistä päällekkäisyyttä edellyttää erillistä sisällönanalyysia samoista teemoista kertovista dokumenteista. Tällöin tarkastellaan sitä, kuinka paljon todellista päällekkäisyyttä eri dokumenteissa esiintyy. Vaikka dokumentti kertoo samasta teemasta, ei voida olla varmoja siitä ovatko dokumenttien informaatiosisällöt toisensa korvaavat. Tässä tutkimuksessa pyritään saamaan selville kuinka hyvin tämä menetelmä pystyy kertomaan todellisesta sisällöllisestä päällekkäisyydestä dokumenttien välillä. 4.1 Tutkimuskysymykset Moniulotteisesti relevanssiarvioitu aineisto antaa mahdollisuuden tutkia moniulotteisen relevanssikorpuksen ominaisuuksia, relevanttien dokumenttien sisällöllisiä päällekkäisyyksiä sekä perinteisten ja moniulotteisten relevanssiarvioiden yhteyksiä. Tässä relevanssikorpusta apuna käyttäen tutkitaan seuraavia kysymyksiä: 1. Moniulotteisten relevanssikorpuksien ominaisuudet: Kuinka monta teemaa on valittu hakutehtävää kohden? Kuinka monta teemaa eri relevanssitasoja edustavissa dokumenteissa keskimäärin esiintyy? 2. Perinteisten relevanssiarvioiden suhde teemakohtaisiin relevanssiarvioihin. Korreloivatko teemakohtaiset relevanssiarviot perinteisten relevanssiarvioiden kanssa? 3. Sisällölliseen päällekkäisyyteen liittyvä tarkastelu eli kuinka paljon päällekkäisyyttä esiintyy samoista teemoista kertovien dokumenttien sisällöissä. Miten relevantit dokumentit ovat päällekkäisiä ja täydentävät toisiaan? Lisäksi on tarkoituksena tehdä moniulotteisen relevanssikorpuksen päällekkäisyystarkastelu eli tarkastella kuinka suurta vaihtelua on päällekkäisyydessä eri hakutehtävien välillä. 4. Mikä on todellinen informaation sisällöllinen päällekkäisyys relevanteissa dokumenteissa, jotka käsittelevät päällekkäisiä/ei-päällekkäisiä teemoja? Kuinka paljon todellista informaatiosisältöjen päällekkäisyyttä tai täydentävyyttä esiintyy kahden eri dokumentin saman teeman eri relevanssitasojen välillä. 18

22 4.2 Tutkimusaineisto Testikokoelma Aineistona on TUTK- kokoelmasta 26 hakutehtävää, joista on tehty neliportaiset relevanssiarviot. Informaatiotutkimuksen laitoksen tiedonhakulaboratorion TUTK- kokoelma sisältää kaiken kaikkiaan vuosina ilmestynyttä sanomalehtiartikkelia Aamulehdestä, Keskisuomalaisesta ja Kauppalehdestä. Aamulehden ulkomaan uutisosaston artikkeleita kokoelmassa on , kaikista Keskisuomalaisen osastoista ja kaikista Kauppalehden osastoista Koko tietokanta sisältää 12,5 miljoonaa sanaa. Keskimääräinen artikkelinpituus on 202 sanaa, mediaanipituus 162 sanaa ja keskihajonta 155 sanaa. Kokoelman testikanta sisältää 445 erittäin relevanttia, 833 melko relevanttia ja 1002 marginaalisesti relevanttia dokumenttia (2280 relevanttia dokumenttia yhteensä). (Sormunen, 2000). Nämä artikkelit uudelleen arvioitiin käyttäen moniulotteista relevanssiarviointia Arvioitavat dokumentit Dokumentit on valittu siten, että jokaisesta relevanssitasosta on valittu 5-10 dokumenttia kultakin relevanssitasolta (marginaalisesti, melko ja erittäin relevantit). Dokumentit on valittu 26 sellaisesta hakutehtävästä, joista löytyi vähintään viisi relevanttia dokumenttia kutakin relevanssitasoa kohti. Korkeintaan kymmenen dokumenttia otettiin mukaan kuhunkin relevanssitasoon, joten dokumenttien lukumäärä on 5-10 kutakin relevanssitasoa ja hakuaihetta kohti. Kaiken kaikkiaan moniulotteisesti arvioituja dokumentteja on noin 684 kappaletta 26 eri hakuaiheesta Relevanssiarviot Kaikista 26 hakutehtävästä on tehty moniulotteiset relevanssiarviot. Tässä mukana olevat 26 hakuaihetta on jaettu Informaatiotutkimuksen laitoksella teemoihin siten, että teemojen valinta on sidoksissa tiettyyn hakutehtävään ja siihen liittyvien dokumenttien sisältöön. 19

23 Relevanssiarviointiin perehtynyt tutkija Erkka Leppänen kehitti teemat ja suoritti relevanssiarvioinnin. Teemojen on tarkoitus luonnehtia eri aspekteja kullekin hakutehtävälle. Hakuaiheesta riippuen teemoja on kolmesta yhteentoista hakutehtävää kohti. Keskimäärin 5.2 teemaa hakuaihetta kohti. TUTK- kokoelmassa alkuperäiset relevanssiarviot on tehty neliportaisesti (0,1, 2 ja 3). Teemoittaisessa relevanssiarvioinnissa käytettiin myös neliportaista asteikkoa ja samoja relevanssikriteereitä kuin alkuperäisissä TUTK- kokoelman dokumenttien relevanssiarvioinnissa. Relevanssikriteerit neljälle eri tasolle ovat seuraavat: (Sormunen, 2002). (0) Dokumentti ei sisällä lainkaan informaatiota aiheesta. (1) Dokumentti vain viittaa aiheeseen. Ei sisällä enempää tai lisäinformaatiota aihekuvaukseen nähden. Tyypillinen laajuus: yksi lause tai fakta. (2) Dokumentti sisältää enemmän informaatiota kuin aihekuvaus, mutta aiheen käsittely ei ole syvällistä. Jos aiheeseen sisältyy useita fasetteja, vain osaa alateemoista tai näkökulmista käsitellään dokumentissa. Tyypillinen laajuus: yksi tekstikappale, 2-3 lausetta tai faktaa. (3) Dokumentti käsittelee hakuaiheen teemoja syvällisesti. Jos aiheeseen sisältyy useita fasetteja, kaikkia tai useimpia alateemoista tai näkökulmista käsitellään dokumentissa. Tyypillinen laajuus: useita tekstikappaleita, ainakin 4 lausetta tai faktaa. 4.3 Aineiston analysointi Relevanssikorpuksen ominaisuudet Keskimääräiset tunnusluvut on laskettu kullekin relevanssitasolle teemarelevanssien kokonaispistemäärästä, käsiteltävien teemojen määrästä, käsiteltyjen teemojen relevanssiarvosta ja teemarelevanssien maksimiarvosta. Teemarelevanssin kokonaispistemäärässä on laskettu yhteen kunkin teeman saamat relevanssiarvot. Käsiteltävien teemojen määrässä on laskettu kuinka montaa teemaa kussakin dokumentissa käsitellään. Käsiteltyjen teemojen relevanssiarvo kertoo kuinka suuria relevanssiarvoja käsitellyt teemat ovat keskimäärin saaneet ja teemarelevanssin maksimiarvo 20

24 kertoo mikä on korkein relevanssiarvo minkä kukin dokumentti on saanut teemakohtaisessa arvioinnissa. Vertailun kohteena on kaikki alkuperäisessä relevanssiarvioinnissa marginaalisesti (rel=1), melko (rel=2) ja erittäin (rel=3) relevanteiksi todetut dokumentit. Tarkasteltavana on kunkin dokumentin teemarelevanssiarvot, joita on vertailtu moniportaisen relevanssiarvioinnin eri relevanssitasoilla. Tunnusluvut on laskettu erikseen jokaiselta relevanssitasolta 1, 2 ja 3. Tilastollisen testauksen menetelmistä käytettiin Pearsonin korrelaationtestiä mittaamaan alkuperäisten relevanssiarvioiden ja moniulotteisten relevanssiarvioiden keskinäistä riippuvuutta. Suhteellinen teemapäällekkäisyys eli relevantit dokumentit samasta teemasta mittasi teemapäällekkäisyyttä. Tunnusluvut kertovat kuinka suuri osa relevanteista dokumenteista käsittelee valittua teemaa. Tunnusluvut on laskettu eri teemarelevanssitasoille Sisällönanalyysi artikkelipareittain Todellisten sisältöjen päällekkäisyyksien arviointi edellytti erillistä sisällönanalyysia. Suhteellinen informaatiopäällekkäisyys kertoo kuinka paljon on dokumentteja, joissa on sisällöllistä päällekkäisyyttä. Informaation päällekkäisyys arvioitiin artikkelipareittain. Moniulotteisesta relevanssikorpuksesta valittiin kpl 226 artikkeliparia. Dokumenttiparit valittiin käsin ja valintakriteereitä oli useita: tarkoituksena oli valita pareja niin monesta hakuaiheesta kuin mahdollista, tasoittaa otanta marginaalisesti, melko ja erittäin relevanttien dokumenttien välillä, sisällyttää valintaan sekä teemoittain päällekkäisiä että eipäällekkäisiä artikkelipareja, saada vaihtelevuutta päällekkäisten teemojen lukumäärään ja välttää yksittäisten dokumenttien esiintyvyyttä useasti. Kahdeksan opiskelijan joukko teki päällekkäisyysarvioinnit. Jokaisen artikkeliparin arvioi kaksi eri arvioitsijaa ja jokainen arvioitsija arvioi eri dokumenttipariryhmät. Hakuohjeissa arvioitsijoita pyydettiin tutustumaan hakuaihekuvaukseen, tutkimaan yhtä artikkeliparia kerrallaan ja merkitsemään artikkeleista lauseet, jotka käsittelevät hakuaihetta. Sen jälkeen arvioitsijoiden tuli verrata hakuaihetta käsitteleviä lauseita ja arvioida onko niissä samaa vai erillistä informaatiosisältöä, jonka jälkeen kirjattiin ylös päällekkäistä ja erillistä informaatiota sisältävien 21

25 lauseiden määrä. Kunkin artikkelin päällekkäiselle ja erilliselle informaatiosisällölle annettiin lisäksi relevanssiarvo. Artikkeliparit jaettiin neljään eri ryhmään: 1) Teemat ja sisältö eivät ole päällekkäisiä 2) Teemat ja sisältö ovat päällekkäisiä 3) Teemat ovat päällekkäisiä, mutta sisällöt eivät ja 4) Teemat eivät ole päällekkäisiä, mutta sisällöt ovat. Kategorioissa 1 ja 2 sekä teemarelevanssit ja sisällönarviointi ovat yhdenmukaisia. Kategorioissa 3 ja 4 artikkeliparien sisällönanalyysi oli ristiriidassa moniulotteisen relevanssiarvioinnin kanssa. Joko samasta teemasta kertovat dokumentit eivät sisältäneet päällekkäistä informaatiota (kategoria 3) tai sisällössä oli päällekkäisyyttä vaikka relevanssikorpuksen mukaan artikkeliparilla ei ollut yhteisiä teemoja (kategoria 4). Kategorioiden 3 ja 4 dokumenttipareista tehtiin tarkentava sisällönanalyysi, jolla voitaisiin selittää poikkeamia. 5. Tulokset 5.1 Relevanssikorpuksen ominaisuudet Taulukossa 2 on esitetty yhteenveto kuinka monessa hakuaiheessa arvioija oli valinnut tietyn määrän teemoja. Hakuaiheista oli tunnistettu 3-11 teemaa. Keskimäärin teemoja oli valittu 5,2 kappaletta. Teemojen määrä Hakuaiheiden määrä Keskiarvo 5,2 Yhteensä 35 Taulukko 2. Teemojen jakautuminen hakuaiheiden kesken. 22

26 5.2 Teemarelevanssi vs. perinteinen relevanssi Kaaviossa 3 esitetään yhteenveto teemakohtaisten (eli moniulotteisten) relevanssiarvojen ominaisuuksista eritasoisesti relevanteissa dokumenteissa. Taulukossa on laskettu keskimääräiset tunnusluvut kullekin relevanssitasolle teemarelevanssien kokonaispistemäärästä, käsiteltävien teemojen määrästä, käsiteltyjen teemojen relevanssiarvosta ja teemarelevanssien maksimiarvosta. Taulukosta käy ilmi, että erittäin relevantit dokumentit näyttäisivät saavan korkeampia arvoja kuin vähemmän relevantit dokumentit kaikkien neljän tarkastellun moniulotteisen relevanssikorpuksen tunnusluvun osalta. 5 4,75 4,5 4 3,5 3,48 3 2,5 2 1,79 1,96 2,38 1,85 2,16 2,14 2,68 rel1 rel2 rel3 1,5 1,38 1,29 1,38 1 0,5 0 teemojen kokonaispisteet teemojen määrä teemarelevanssien keskiarvo teemarelevanssin maksimi Kaavio 1. Teemakohtaisten relevanssiarvioiden eri ominaisuuksien jakautuminen eritasoisesti (erittäin, melko ja marginaalisesti) relevanttien dokumenttien kesken. Teemakohtaiset relevanssiarviot näyttävät korreloivan perinteisen relevanssiarvioiden kanssa ja erittäin relevantit dokumentit saavat myös teemakohtaisesti korkeampia arvoja. Taulukosta ilmenee, että jokaisella lasketulla tunnusluvulla erittäin relevantit dokumentit saavat kaikkein korkeimmat arvot, melko relevantit saavat toiseksi korkeimmat arvot ja edelleen jokaisen teemarelevanssiarvon kohdalla marginaalisesti relevantit saavat matalimmat arvot. Kaikkien 23

27 teemarelevanssiarvojen kohdalla löytyi tilastollisesti merkitseviä eroja. Teemarelevanssin kokonaispistemäärä eroaa huomattavasti erittäin relevanttien ja marginaalisesti relevanttien dokumenttien välillä. Erittäin relevantit saavat arvon 4,75 ja marginaalisesti relevantit arvon 1,79, joka tarkoittaa sitä, että keskimäärin teemoittain erittäin relevanteiksi arvioidut dokumentit myös sisältävät enemmän informaatiota hakuaiheen eri teemoista. Tästä johtuen voitaisiin myös olettaa, että erittäin relevanteissa dokumenteissa myös käsitellään aihetta laajemmin. Tilastollinen testaus osoittaa marginaalisesti ja erittäin relevanttien sekä marginaalisesti ja melko relevanttien välisen eron merkitseväksi (p>0,01). Erittäin relevanteissa dokumenteissa käsitellään keskimäärin 2, 38 teemaa, melko relevanteissa 1, 96 ja marginaalisesti relevanteissa dokumenteissa keskimäärin 1, 38 teemaa. Tästä voidaan päätellä, että erittäin relevanttien dokumenttien joukossa käsitellään keskimäärin useampia teemoja, jotka käsittelevät hakuaihetta. Voidaan sanoa, että erittäin relevanteissa dokumenteissa asiaa käsitellään monipuolisemmin. Vain marginaalisesti relevanttien ja erittäin relevanttien välinen vertailu osoittautui tilastollisesti merkitseväksi (p>0,01). Käsiteltävien teemojen relevanssiarvo kertoo minkä arvon käsitellyt teemat ovat keskimäärin saaneet. Teeman esiintyessä se myös saa keskimäärin korkeampia arvoja erittäin relevanttien dokumenttien joukossa. Erittäin relevantit saavat arvon 2,16, melko relevantit arvon 1,85, kun taas marginaalisesti relevantit saavat arvon 1,29. Erittäin relevanttien ja marginaalisesti relevanttien välinen ero osoittautui myöskin tilastollisesti merkitseväksi, kuten myös marginaalisesti ja melko relevanttien välinen vertailu. Teemarelevanssin maksimiarvot ovat myös korkeampia erittäin relevanteissa dokumenteissa, joka tarkoittaa sitä, että erittäin relevantit dokumentit (rel=3) saavat useammin korkeimman arvon, keskiarvon ollessa 2,68. Marginaalisesti relevantit saavat arvon 1,38, joka kertoo myös siitä, että niissäkin esiintyy dokumentteja, jotka saavat ykköstä suuremman teemarelevanssiarvon. Tämä viittaa siihen, että myös marginaalisesti relevantit dokumentit saattaisivat sisältää hyödyllistä informaatiota. Toisaalta kyse voi olla myöskin arvioiden välisistä tulkintaeroista. Eri teemojen saamat teemarelevanssi maksimit vaihtelevat kuitenkin 24

Ulla Lehtoranta. Pro gradu -tutkielma. Tampereen yliopisto Informaatiotutkimuksen laitos

Ulla Lehtoranta. Pro gradu -tutkielma. Tampereen yliopisto Informaatiotutkimuksen laitos Ulla Lehtoranta Moniulotteisen relevanssiarviointimenetelmän demonstrointi Internet-aineistoissa tiedonhakuaiheina Bernadette Soubirous, Heidi Hautala, Mauri Kunnas ja Madonna Ritchie Pro gradu -tutkielma

Lisätiedot

Simuloidun tehtävän vaikutus kyselyn muodostukseen: INEX 2004-hankkeen vuorovaikutteisen tiedonhaun tutkimuslinja

Simuloidun tehtävän vaikutus kyselyn muodostukseen: INEX 2004-hankkeen vuorovaikutteisen tiedonhaun tutkimuslinja Simuloidun tehtävän vaikutus kyselyn muodostukseen: INEX 2004-hankkeen vuorovaikutteisen tiedonhaun tutkimuslinja Mervi Nurmela Tampereen yliopisto Informaatiotutkimuksen laitos Pro gradu tutkielma Marraskuu

Lisätiedot

Moniarvoisen relevanssin hyödyntäminen XML-tiedonhakujen evaluoinnissa

Moniarvoisen relevanssin hyödyntäminen XML-tiedonhakujen evaluoinnissa Moniarvoisen relevanssin hyödyntäminen XML-tiedonhakujen evaluoinnissa Pro gradu -tutkielma Mikko Saari (67578) Tampereen yliopisto Informaatiotutkimuksen laitos 2006 TAMPEREEN YLIOPISTO Informaatiotutkimuksen

Lisätiedot

Pro gradu -tutkielmien arvostelu maantieteessä

Pro gradu -tutkielmien arvostelu maantieteessä Pro gradu -tutkielmien arvostelu maantieteessä Tutkielman arvostelussa on käytössä viisiportainen asteikko (1-5): o Ykkönen (1) merkitsee, että työ on hyväksyttävissä, mutta siinä on huomattavia puutteita.

Lisätiedot

Sisällönanalyysi. Sisältö

Sisällönanalyysi. Sisältö Sisällönanalyysi Kirsi Silius 14.4.2005 Sisältö Sisällönanalyysin kohde Aineistolähtöinen sisällönanalyysi Teoriaohjaava ja teorialähtöinen sisällönanalyysi Sisällönanalyysi kirjallisuuskatsauksessa 1

Lisätiedot

Laadullinen tutkimus. KTT Riku Oksman

Laadullinen tutkimus. KTT Riku Oksman Laadullinen tutkimus KTT Riku Oksman Kurssin tavoitteet oppia ymmärtämään laadullisen tutkimuksen yleisluonnetta oppia soveltamaan keskeisimpiä laadullisia aineiston hankinnan ja analysoinnin menetelmiä

Lisätiedot

Fakta- ja näytenäkökulmat. Pertti Alasuutari Tampereen yliopisto

Fakta- ja näytenäkökulmat. Pertti Alasuutari Tampereen yliopisto Fakta- ja näytenäkökulmat Pertti Alasuutari Tampereen yliopisto Mikä on faktanäkökulma? sosiaalitutkimuksen historia: väestötilastot, kuolleisuus- ja syntyvyystaulut. Myöhemmin kysyttiin ihmisiltä tietoa

Lisätiedot

CIRI Ontologiaperustainen tiedonhakuliittymä

CIRI Ontologiaperustainen tiedonhakuliittymä CIRI Ontologiaperustainen tiedonhakuliittymä Eija Airio, Kalervo Järvelin, Sari Suomela, Pirkko Saatsi ja Jaana Kekäläinen Tampereen yliopisto Informaatiotutkimuksen laitos Ontologian kolmitasomalli kehitetty

Lisätiedot

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0. T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset, ti 7.2.200, 8:30-0:00 Tiedon haku, Versio.0. Muutetaan tehtävässä annettu taulukko sellaiseen muotoon, joka paremmin sopii ensimmäisten mittojen

Lisätiedot

Sosiaalisten verkostojen data

Sosiaalisten verkostojen data Sosiaalisten verkostojen data Hypermedian jatko-opintoseminaari 2008-09 2. luento - 17.10.2008 Antti Kortemaa, TTY/Hlab Wasserman, S. & Faust, K.: Social Network Analysis. Methods and Applications. 1 Mitä

Lisätiedot

Teoreettisen viitekehyksen rakentaminen

Teoreettisen viitekehyksen rakentaminen Teoreettisen viitekehyksen rakentaminen Eeva Willberg Pro seminaari ja kandidaatin opinnäytetyö 26.1.09 Tutkimuksen teoreettinen viitekehys Tarkoittaa tutkimusilmiöön keskeisesti liittyvän tutkimuksen

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Rakenne-ehtojen merkitys XML-tiedonhaussa: INEX 03:n ja INEX 04:n CAS-hakutehtävien ja saantikantojen tarkastelua. Minna Marjamaa

Rakenne-ehtojen merkitys XML-tiedonhaussa: INEX 03:n ja INEX 04:n CAS-hakutehtävien ja saantikantojen tarkastelua. Minna Marjamaa Rakenne-ehtojen merkitys XML-tiedonhaussa: INEX 03:n ja INEX 04:n CAS-hakutehtävien ja saantikantojen tarkastelua Minna Marjamaa Tampereen yliopisto Informaatiotutkimuksen laitos Pro gradu -tutkielma toukokuu

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 11. lokakuuta 2007 Antti Rasila () TodB 11. lokakuuta 2007 1 / 15 1 Johdantoa tilastotieteeseen Peruskäsitteitä Tilastollisen kuvailun ja päättelyn menetelmiä

Lisätiedot

Mitä on sisällönkuvailu

Mitä on sisällönkuvailu Mitä on sisällönkuvailu Esko Siirala Helsingin yliopiston kirjasto HELKA-kirjastojen sisällönkuvailuiltapäivä 09.09.201 Helsingin yliopiston kirjasto / Esko Siirala / Mitä sisällönkuvailu on. 1 Sisällönkuvailu

Lisätiedot

MONISTE 2 Kirjoittanut Elina Katainen

MONISTE 2 Kirjoittanut Elina Katainen MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA 1 LIITE 1 VIRHEEN ARVIOINNISTA Mihin tarvitset virheen arviointia? Mittaustulokset ovat aina todellisten luonnonvakioiden ja tutkimuskohdetta kuvaavien suureiden likiarvoja, vaikka mittauslaite olisi miten

Lisätiedot

Vankien poistumislupakäytännöt ja niiden yhteneväisyys

Vankien poistumislupakäytännöt ja niiden yhteneväisyys Miten tutkimuskysymyksiin on etsitty vastausta? Kolme esimerkkiä kriminologisista tutkimuksista Vankien poistumislupakäytännöt ja niiden yhteneväisyys Tutkimuksen tavoite 1: Selvittää empiirisesti vankien

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA Oulun yliopisto Fysiikan opetuslaboratorio Fysiikan laboratoriotyöt 1 1 LIITE 1 VIRHEEN RVIOINNIST Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi

Lisätiedot

Rekisterit tutkimusaineistona: tieteenfilosofis-metodologiset lähtökohdat

Rekisterit tutkimusaineistona: tieteenfilosofis-metodologiset lähtökohdat Reijo Sund Rekisterit tutkimusaineistona: tieteenfilosofis-metodologiset lähtökohdat Rekisterit tutkimuksen apuvälineenä kurssi, Biomedicum, Helsinki 25.05.2009 Kevät 2009 Rekisterit tutkimusaineistona

Lisätiedot

ARVO - verkkomateriaalien arviointiin

ARVO - verkkomateriaalien arviointiin ARVO - verkkomateriaalien arviointiin Arvioitava kohde: Jenni Rikala: Aloittavan yrityksen suunnittelu, Arvioija: Heli Viinikainen, Arviointipäivämäärä: 12.3.2010 Osa-alue 1/8: Informaation esitystapa

Lisätiedot

Opiskelijoiden tiedontarpeet ja viitteiden hyödyllisyys tutkimussuunnitelman laatimista varten tehdyissä tiedonhauissa

Opiskelijoiden tiedontarpeet ja viitteiden hyödyllisyys tutkimussuunnitelman laatimista varten tehdyissä tiedonhauissa TAMPEREEN YLIOPISTO Sami Serola Opiskelijoiden tiedontarpeet ja viitteiden hyödyllisyys tutkimussuunnitelman laatimista varten tehdyissä tiedonhauissa Informaatiotutkimuksen pro gradu tutkielma Tampere

Lisätiedot

Arviointimenetelmät ja mittarit hyödyn raportoinnissa

Arviointimenetelmät ja mittarit hyödyn raportoinnissa Arviointimenetelmät ja mittarit hyödyn raportoinnissa 2019 1. Arviointimenetelmien käyttö hyödyn raportoinnissa Kuntoutuksesta saatavaa hyötyä arvioidaan kuntoutujien näkökulmasta, palveluntuottajien arvioinnin

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

Perimmäinen kysymys. Työllistämisen tukitoimien vaikuttavuuden arvioinnista. Mitkä ovat tukitoimen X vaikutukset Y:hyn? Kari Hämäläinen (VATT)

Perimmäinen kysymys. Työllistämisen tukitoimien vaikuttavuuden arvioinnista. Mitkä ovat tukitoimen X vaikutukset Y:hyn? Kari Hämäläinen (VATT) Työllistämisen tukitoimien vaikuttavuuden arvioinnista Kari Hämäläinen (VATT) VATES päivät, 5.5.2015 Perimmäinen kysymys Mitkä ovat tukitoimen X vaikutukset Y:hyn? 1 Kolme ehtoa kausaaliselle syy seuraussuhteelle

Lisätiedot

Ohjelmistotekniikan menetelmät, luokkamallin laatiminen

Ohjelmistotekniikan menetelmät, luokkamallin laatiminen 582101 - Ohjelmistotekniikan menetelmät, luokkamallin laatiminen 1 Lähestymistapoja Kokonaisvaltainen lähestymistapa (top-down) etsitään kerralla koko kohdealuetta kuvaavaa mallia hankalaa, jos kohdealue

Lisätiedot

PSY181 Psykologisen tutkimuksen perusteet, kirjallinen harjoitustyö ja kirjatentti

PSY181 Psykologisen tutkimuksen perusteet, kirjallinen harjoitustyö ja kirjatentti PSY181 Psykologisen tutkimuksen perusteet, kirjallinen harjoitustyö ja kirjatentti Harjoitustyön ohje Tehtävänäsi on laatia tutkimussuunnitelma. Itse tutkimusta ei toteuteta, mutta suunnitelman tulisi

Lisätiedot

Relevanssipalautteen toimivuus lyhyillä, eritasoisesti onnistuneilla aloituskyselyillä. Jari Friman

Relevanssipalautteen toimivuus lyhyillä, eritasoisesti onnistuneilla aloituskyselyillä. Jari Friman Relevanssipalautteen toimivuus lyhyillä, eritasoisesti onnistuneilla aloituskyselyillä Jari Friman Tampereen yliopisto Informaatiotutkimuksen laitos Pro gradu -tutkielma Syyskuu 2008 TIIVISTELMÄ TAMPEREEN

Lisätiedot

Koulutusohjelman vastuunhenkilön hyväksyntä nimen selvennys, virka-asema / arvo

Koulutusohjelman vastuunhenkilön hyväksyntä nimen selvennys, virka-asema / arvo Oulun yliopisto Lääketieteellinen tiedekunta Terveystieteiden laitos PRO GRADU-TUTKIELMAN ARVIOINTILOMAKE Tutkielman tekijä(t): Tutkielman nimi: Pääaine: Tutkielman ohjaaja(t): Tutkielman arviointi Tutkielman

Lisätiedot

Otannasta ja mittaamisesta

Otannasta ja mittaamisesta Otannasta ja mittaamisesta Tilastotiede käytännön tutkimuksessa - kurssi, kesä 2001 Reijo Sund Aineistot Kvantitatiivisen tutkimuksen aineistoksi kelpaa periaatteessa kaikki havaintoihin perustuva informaatio,

Lisätiedot

Tiedonhakukäyttäytyminen vuorovaikutteisessa tiedonhakutilanteessa: Tuloslistasta katsotun dokumentin vaikutus hakuavaimen valintaan kyselyn

Tiedonhakukäyttäytyminen vuorovaikutteisessa tiedonhakutilanteessa: Tuloslistasta katsotun dokumentin vaikutus hakuavaimen valintaan kyselyn Tiedonhakukäyttäytyminen vuorovaikutteisessa tiedonhakutilanteessa: Tuloslistasta katsotun dokumentin vaikutus hakuavaimen valintaan kyselyn uudelleen muotoilussa Anna-Kaisa Hyrkkänen Tampereen yliopisto

Lisätiedot

YLEISKUVA - Kysymykset

YLEISKUVA - Kysymykset INSIGHT Käyttöopas YLEISKUVA - Kysymykset 1. Insight - analysointityökalun käytön mahdollistamiseksi täytyy kyselyn raportti avata Beta - raportointityökalulla 1. Klikkaa Insight välilehteä raportilla

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin Aineistoista 11.2.09 IK Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin Muotoilussa kehittyneet menetelmät, lähinnä luotaimet Havainnointi:

Lisätiedot

LIITE 1 VIRHEEN ARVIOINNISTA

LIITE 1 VIRHEEN ARVIOINNISTA 1 Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi miten uudenaikainen tai kallis tahansa ja mittaaja olisi alansa huippututkija Tästä johtuen mittaustuloksista

Lisätiedot

6 TARKASTELU. 6.1 Vastaukset tutkimusongelmiin

6 TARKASTELU. 6.1 Vastaukset tutkimusongelmiin 173 6 TARKASTELU Hahmottavassa lähestymistavassa (H-ryhmä) käsitteen muodostamisen lähtökohtana ovat havainnot ja kokeet, mallintavassa (M-ryhmä) käsitteet, teoriat sekä teoreettiset mallit. Edellinen

Lisätiedot

Tuoreita näkökulmia kirjastojen vaikuttavuuteen. Sami Serola esittelee Tampereen yliopiston opiskelijoiden opinnäytetöitä

Tuoreita näkökulmia kirjastojen vaikuttavuuteen. Sami Serola esittelee Tampereen yliopiston opiskelijoiden opinnäytetöitä Tuoreita näkökulmia kirjastojen vaikuttavuuteen Sami Serola esittelee Tampereen yliopiston opiskelijoiden opinnäytetöitä Eero Niittymaa: Yleisten kirjastojen vaikuttavuuden arviointi Informaatiotutkimuksen

Lisätiedot

Ontologiaperustaisen WebExplorer-tiedonhakujärjestelmän käyttäjätestaus eduskunnan sisäisessä tietopalvelussa ja kirjastossa.

Ontologiaperustaisen WebExplorer-tiedonhakujärjestelmän käyttäjätestaus eduskunnan sisäisessä tietopalvelussa ja kirjastossa. Ontologiaperustaisen WebExplorer-tiedonhakujärjestelmän käyttäjätestaus eduskunnan sisäisessä tietopalvelussa ja kirjastossa Anne Keskimaa Tampereen yliopisto Informaatiotutkimuksen ja interaktiivisen

Lisätiedot

Opetus ja oppiminen verkossa. Erno Lehtinen Turun yliopisto

Opetus ja oppiminen verkossa. Erno Lehtinen Turun yliopisto Opetus ja oppiminen verkossa Erno Lehtinen Turun yliopisto Virtuaaliyliopistotoiminnan kokemukset Virtuaaliyliopisto poliittisena projektina Avoimen yliopisto-opetuksen ja kampuspohjaisen opetuksen näkökulmat

Lisätiedot

Arviointi ja mittaaminen

Arviointi ja mittaaminen Arviointi ja mittaaminen Laatuvastaavien koulutus 5.6.2007 pirjo.halonen@adm.jyu.fi 014 260 1180 050 428 5315 Arviointi itsearviointia sisäisiä auditointeja ulkoisia auditointeja johdon katselmusta vertaisarviointeja

Lisätiedot

Palvelun versio 1.0 Toimeenpanopalvelun tunnus (ks. M ) 10fea, 9c2f, 4760, 9095, f4f9295f4b19

Palvelun versio 1.0 Toimeenpanopalvelun tunnus (ks. M ) 10fea, 9c2f, 4760, 9095, f4f9295f4b19 1 5. Luokittamispalvelu 5.1. Palveluinformaatio Palvelun nimi Luokittamispalvelu Palvelun versio 1.0 Toimeenpanopalvelun tunnus (ks. M14.4.42) 10fea, 9c2f, 4760, 9095, f4f9295f4b19 5.2 Avainkäsitteet 5.2.1

Lisätiedot

Tilastotieteen jatkokurssi syksy 2003 Välikoe 2 11.12.2003

Tilastotieteen jatkokurssi syksy 2003 Välikoe 2 11.12.2003 Nimi Opiskelijanumero Tilastotieteen jatkokurssi syksy 2003 Välikoe 2 11.12.2003 Normaalisti jakautuneiden yhdistyksessä on useita tuhansia jäseniä. Yhdistyksen sääntöjen mukaan sääntöihin tehtävää muutosta

Lisätiedot

Järvitesti Ympäristöteknologia T571SA 7.5.2013

Järvitesti Ympäristöteknologia T571SA 7.5.2013 Hans Laihia Mika Tuukkanen 1 LASKENNALLISET JA TILASTOLLISET MENETELMÄT Järvitesti Ympäristöteknologia T571SA 7.5.2013 Sarkola Eino JÄRVITESTI Johdanto Järvien kuntoa tutkitaan monenlaisilla eri menetelmillä.

Lisätiedot

Nollasummapelit ja bayesilaiset pelit

Nollasummapelit ja bayesilaiset pelit Nollasummapelit ja bayesilaiset pelit Kristian Ovaska HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Seminaari: Peliteoria Helsinki 18. syyskuuta 2006 Sisältö 1 Johdanto 1 2 Nollasummapelit 1 2.1

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas LUENNOT Luento Paikka Vko Päivä Pvm Klo 1 L 304 8 Pe 21.2. 08:15-10:00 2 L 304 9 To 27.2. 12:15-14:00 3 L 304 9 Pe 28.2. 08:15-10:00 4 L 304 10 Ke 5.3.

Lisätiedot

Johdanto. Rough Sets. Peruskäsitteitä

Johdanto. Rough Sets. Peruskäsitteitä Johdanto Rough Sets "The central problem of our age is how to act decisively in the absence of certainty" B Russel, 1940 Rough sets on 1980-luvun alussa Puolassa (Z Pawlak) kehitetty epävarmuutta ja epämääräisyyttä

Lisätiedot

Miksi vaikuttavuuden osoittaminen on niin tärkeää?

Miksi vaikuttavuuden osoittaminen on niin tärkeää? Miksi vaikuttavuuden osoittaminen on niin tärkeää? Vaikuttavuus ja arviointi etsivässä työsää Valli ry:n seminaarissa 24.8.2018 Petri Uusikylä, Suomen arviointiyhdistys Mitä on arviointi? Arviointi (evaluaatio)

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi Tilastotiedettä Tilastotieteessä kerätään tietoja yksittäisistä asioista, ominaisuuksista tai tapahtumista. Näin saatua tietoa käsitellään tilastotieteen menetelmin ja saatuja tuloksia voidaan käyttää

Lisätiedot

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen Etsintä verkosta (Searching from the Web) T-61.2010 Datasta tietoon Heikki Mannila, Jouni Seppänen 12.12.2007 Webin lyhyt historia http://info.cern.ch/proposal.html http://browser.arachne.cz/screen/

Lisätiedot

Miehittämättömän lennokin ottamien ilmakuvien käyttö energiakäyttöön soveltuvien biomassojen määrän nopeassa arvioinnissa

Miehittämättömän lennokin ottamien ilmakuvien käyttö energiakäyttöön soveltuvien biomassojen määrän nopeassa arvioinnissa Miehittämättömän lennokin ottamien ilmakuvien käyttö energiakäyttöön soveltuvien biomassojen määrän nopeassa arvioinnissa Anna Lopatina, Itä-Suomen yliopisto, Metsätieteiden osasto, Anna.lopatina@uef.fi

Lisätiedot

Tehokkaiden strategioiden identifiointi vakuutusyhtiön taseesta

Tehokkaiden strategioiden identifiointi vakuutusyhtiön taseesta MS E2177 Operaatiotutkimuksen projektityöseminaari Väliraportti Tehokkaiden strategioiden identifiointi vakuutusyhtiön taseesta 28.3.2016 Asiakas: Model IT Projektiryhmä: Niko Laakkonen (projektipäällikkö),

Lisätiedot

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Luentokalvoja tilastollisesta päättelystä Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Otanta Otantamenetelmiä Näyte Tilastollinen päättely Otantavirhe Otanta Tavoitteena edustava otos = perusjoukko

Lisätiedot

Tutkimusyksikön johtajan/tutkinto-ohjelman vastuunhenkilön hyväksyntä

Tutkimusyksikön johtajan/tutkinto-ohjelman vastuunhenkilön hyväksyntä Oulun yliopisto Hoitotieteen ja terveyshallintotieteen tutkimusyksikkö PRO GRADU-TUTKIELMAN ARVIOINTILOMAKE Tutkielman tekijä(t): Tutkielman nimi: Pääaine: Tutkielman ohjaaja(t): Tutkielman arviointi Tutkielman

Lisätiedot

JULKISTEN VERKKOPALVELUJEN LAATUKRITEERISTÖN KONSEPTI

JULKISTEN VERKKOPALVELUJEN LAATUKRITEERISTÖN KONSEPTI JULKISTEN VERKKOPALVELUJEN LAATUKRITEERISTÖN KONSEPTI Onesta Solutions Oy Pasilanraitio 5 00240 HELSINKI www.onesta.fi 2/6 Versiohistoria Versio Pvm Selitys Muutokset Tekijät 0.1 26.3.2007 Alustava versio

Lisätiedot

Tarkastelen suomalaisen taloustieteen tutkimuksen tilaa erilaisten julkaisutietokantojen avulla. Käytän myös kerättyjä tietoja yliopistojen

Tarkastelen suomalaisen taloustieteen tutkimuksen tilaa erilaisten julkaisutietokantojen avulla. Käytän myös kerättyjä tietoja yliopistojen 1 2 3 Tarkastelen suomalaisen taloustieteen tutkimuksen tilaa erilaisten julkaisutietokantojen avulla. Käytän myös kerättyjä tietoja yliopistojen opettajien tutkimusalueista. 4 Kuviossa 1 esitetään kansantaloustieteen

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

Politiikka-asiakirjojen retoriikan ja diskurssien analyysi

Politiikka-asiakirjojen retoriikan ja diskurssien analyysi Politiikka-asiakirjojen retoriikan ja diskurssien analyysi Perustuu väitöskirjaan Sukupuoli ja syntyvyyden retoriikka Venäjällä ja Suomessa 1995 2010 Faculty of Social Sciences Näin se kirjoitetaan n Johdanto

Lisätiedot

Pysähdy! Nyt on syytä miettiä tämä asia uudelleen. Kiinnitä huomiosi tähän. Hienoa, jatka samaan malliin. Innokylän arviointimittari

Pysähdy! Nyt on syytä miettiä tämä asia uudelleen. Kiinnitä huomiosi tähän. Hienoa, jatka samaan malliin. Innokylän arviointimittari Innokylän arviointimittari Innokylän arviointimittari on kehittämistoiminnan itse- ja vertaisarvioinnin työkalu, jonka avulla arvioidaan kehittämisprosessia ja kehittämisen tavoitteiden saavuttamista.

Lisätiedot

Verkostoanalyysi yritysten verkostoitumista tukevien EAKRhankkeiden arvioinnin menetelmänä. Tamás Lahdelma ja Seppo Laakso

Verkostoanalyysi yritysten verkostoitumista tukevien EAKRhankkeiden arvioinnin menetelmänä. Tamás Lahdelma ja Seppo Laakso Verkostoanalyysi yritysten verkostoitumista tukevien EAKRhankkeiden arvioinnin menetelmänä Tamás Lahdelma ja Seppo Laakso Euroopan aluekehitysrahasto-ohjelmien arviointi alueellisten osaamisympäristöjen

Lisätiedot

Käsitteistä. Reliabiliteetti, validiteetti ja yleistäminen. Reliabiliteetti. Reliabiliteetti ja validiteetti

Käsitteistä. Reliabiliteetti, validiteetti ja yleistäminen. Reliabiliteetti. Reliabiliteetti ja validiteetti Käsitteistä Reliabiliteetti, validiteetti ja yleistäminen KE 62 Ilpo Koskinen 28.11.05 empiirisessä tutkimuksessa puhutaan peruskurssien jälkeen harvoin "todesta" ja "väärästä" tiedosta (tai näiden modernimmista

Lisätiedot

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)

Lisätiedot

YHTEISET TYÖPAIKAT TUTKIMUS-, VALVONTA- JA VIESTINTÄHANKKEEN TUTKIMUSOSIO YHTEISET TYÖPAIKAT KOKOUS 4/2016, PÄIVI KEKKONEN, SUUNNITTELIJA

YHTEISET TYÖPAIKAT TUTKIMUS-, VALVONTA- JA VIESTINTÄHANKKEEN TUTKIMUSOSIO YHTEISET TYÖPAIKAT KOKOUS 4/2016, PÄIVI KEKKONEN, SUUNNITTELIJA YHTEISET TYÖPAIKAT TUTKIMUS-, VALVONTA- JA VIESTINTÄHANKKEEN TUTKIMUSOSIO YHTEISET TYÖPAIKAT KOKOUS 4/2016, 6.9.2016 PÄIVI KEKKONEN, SUUNNITTELIJA TUTKIMUSOSION TOTEUTUS Ajoittuu aikavälille heinäkuu-joulukuu

Lisätiedot

TIEDONHAKU INTERNETISTÄ

TIEDONHAKU INTERNETISTÄ TIEDONHAKU INTERNETISTÄ Internetistä löytyy hyvin paljon tietoa. Tietoa ei ole mitenkään järjestetty, joten tiedonhaku voi olla hankalaa. Tieto myös muuttuu jatkuvasti. Tänään tehty tiedonhaku ei anna

Lisätiedot

LAADULLISESTA SISÄLLÖNANALYYSISTÄ

LAADULLISESTA SISÄLLÖNANALYYSISTÄ LAADULLISESTA SISÄLLÖNANALYYSISTÄ Aineiston ja teorian suhde INDUKTIIVINEN ANALYYSI Tulokset/teoria muodostetaan aineiston perusteella Tutkimuskysymykset muotoutuvat analyysin edetessä ABDUKTIIVINEN ANALYYSI

Lisätiedot

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2005) 1 ja mittaaminen Tilastollisten aineistojen kerääminen Mittaaminen ja mitta-asteikot TKK (c)

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

SUOMEN TILINTARKASTAJAT RY:N JÄSENKYSELY ISA- STANDARDIEN SUHTEELLISESTA SOVELTAMISESTA SYKSY 2018

SUOMEN TILINTARKASTAJAT RY:N JÄSENKYSELY ISA- STANDARDIEN SUHTEELLISESTA SOVELTAMISESTA SYKSY 2018 SUOMEN TILINTARKASTAJAT RY:N JÄSENKYSELY ISA- STANDARDIEN SUHTEELLISESTA SOVELTAMISESTA SYKSY 2018 Jäsenkysely 2018 Kysyimme jäseniltämme, kuinka usein he ovat kohdanneet annettuihin aihealueisiin liittyviä

Lisätiedot

Lääketieteen opiskelijoiden Medline-hakuprosessin tuloksellisuus kliinisen ongelmanratkaisun yhteydessä

Lääketieteen opiskelijoiden Medline-hakuprosessin tuloksellisuus kliinisen ongelmanratkaisun yhteydessä Lääketieteen opiskelijoiden Medline-hakuprosessin tuloksellisuus kliinisen ongelmanratkaisun yhteydessä Saila Huuskonen Tampereen yliopisto Informaatiotutkimuksen laitos Pro gradu -tutkielma Toukokuu 2006

Lisätiedot

VALTAKUNNALLISIA TARKASTELUJA

VALTAKUNNALLISIA TARKASTELUJA VALTAKUNNALLISIA TARKASTELUJA PELASTUSTOIMINNAN TYÖKUORMAN AJALLISESTA VAIHTELUSTA Pelastustoimen tutkijatapaaminen, Kuopio 6.6.2018 Hanna Rekola, Helsingin pelastuslaitos UUDENLAISIA NÄKÖKULMIA RESURSSIEN

Lisätiedot

Aiheen rajaus Tutkimussuunnitelma

Aiheen rajaus Tutkimussuunnitelma Aiheen rajaus Tutkimussuunnitelma Digitaalisen kulttuurin tutkimusmenetelmät 5.2. 2008 Aiheen rajaaminen Aihepiirin täsmentäminen ja supistaminen Aihetta helpompi tutkia Mahdollistaa syvemmän analyysin

Lisätiedot

TUKIMATERIAALI: Arvosanan kahdeksan alle jäävä osaaminen

TUKIMATERIAALI: Arvosanan kahdeksan alle jäävä osaaminen 1 FYSIIKKA Fysiikan päättöarvioinnin kriteerit arvosanalle 8 ja niitä täydentävä tukimateriaali Opetuksen tavoite Merkitys, arvot ja asenteet T1 kannustaa ja innostaa oppilasta fysiikan opiskeluun T2 ohjata

Lisätiedot

Essity Engagement Survey 2018

Essity Engagement Survey 2018 Essity Engagement Survey 2018 Tiimiraportin luomisohje EUCUSA Consulting GmbH Mariahilfer Straße 187/39 A-1150 Wien Tel: +43-1-817 40 20-0 Fax: DW 20 FN 174750 k Handelsgericht Wien www.eucusa.com e-mail:

Lisätiedot

Kandidaatintutkielman arviointikriteerit

Kandidaatintutkielman arviointikriteerit Kandidaatintutkielman arviointikriteerit Kandidaatintutkielman laajuus on 10 op, josta kypsyysnäyte 1 op ja tieteellinen tiedonhankinta 2 op. Kuvataidekasvatuksen koulutusohjelmassa tieteellinen tiedonhankinta

Lisätiedot

Ne liittyvät samaan henkilöön, paikkaan, projektiin, asiaan, asiakkaaseen, tapahtumaan tai seikkaan.

Ne liittyvät samaan henkilöön, paikkaan, projektiin, asiaan, asiakkaaseen, tapahtumaan tai seikkaan. 6. Asiakirjapalvelu 6.1 PALVELUINFORMAATIO Palvelun nimi Asiakirjapalvelu Palvelun versio 1.0 Tunnus (ks. M14.4.42) 6.2 Avainkäsitteet 6.2.1 Tarkoituksenmukainen asiakirjakoosteiden muodostaminen MoReq2010

Lisätiedot

Laadullisen tutkimuksen piirteitä

Laadullisen tutkimuksen piirteitä Laadullisen aineiston luotettavuus Kasvatustieteiden laitos/ Erityispedagogiikan yksikkö Eeva Willberg 16.2.09 Laadullisen tutkimuksen piirteitä Laadullisessa tutkimuksessa tutkitaan ihmisten elämää, tarinoita,

Lisätiedot

Nellin matala käyttöaste syyt? (Stadia / AMK) :

Nellin matala käyttöaste syyt? (Stadia / AMK) : Nellin matala käyttöaste syyt? (Stadia / AMK) : 1) Opetuksen resurssit 2) Nellin laajuus ja tekniset kompastuskivet 3) AMK:ien tutkimuskulttuuri 1) Opetuksen resurssit aikaa pahimmillaan noin 2h / ryhmä,

Lisätiedot

Tanja Saarenpää Pro gradu-tutkielma Lapin yliopisto, sosiaalityön laitos Syksy 2012

Tanja Saarenpää Pro gradu-tutkielma Lapin yliopisto, sosiaalityön laitos Syksy 2012 Se on vähän niin kuin pallo, johon jokaisella on oma kosketuspinta, vaikka se on se sama pallo Sosiaalityön, varhaiskasvatuksen ja perheen kokemuksia päiväkodissa tapahtuvasta moniammatillisesta yhteistyöstä

Lisätiedot

Käytettävyyslaatumallin rakentaminen verkkosivustolle

Käytettävyyslaatumallin rakentaminen verkkosivustolle Käytettävyyslaatumallin rakentaminen verkkosivustolle Tapaus kirjoittajan ABC-kortti Oulun yliopisto tietojenkäsittelytieteiden laitos pro gradu -tutkielma Timo Laapotti 9.6.2005 Esityksen sisältö Kirjoittajan

Lisätiedot

Ene-58.4139 LVI-tekniikan mittaukset ILMAN TILAVUUSVIRRAN MITTAUS TYÖOHJE

Ene-58.4139 LVI-tekniikan mittaukset ILMAN TILAVUUSVIRRAN MITTAUS TYÖOHJE Ene-58.4139 LVI-tekniikan mittaukset ILMAN TILAVUUSVIRRAN MITTAUS TYÖOHJE Aalto yliopisto LVI-tekniikka 2013 SISÄLLYSLUETTELO TILAVUUSVIRRAN MITTAUS...2 1 HARJOITUSTYÖN TAVOITTEET...2 2 MITTAUSJÄRJESTELY

Lisätiedot

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta

Lisätiedot

Aiheesta tutkimussuunnitelmaan

Aiheesta tutkimussuunnitelmaan Aiheesta tutkimussuunnitelmaan Aihepiiri Kiinnostaa, mutta ei ole liian tuttu oppii jotain uutta Mikä on se kysymys tai asia, jonka haluan selvittää? Miten jalostan pähkäilyni tieteellisesti tarkasteltavaksi

Lisätiedot

Fiction searching from an enriched library web service

Fiction searching from an enriched library web service Fiction searching from an enriched library web service Anna Mikkonen, Tohtoriopiskelija, Tampereen yliopisto Memornetin syysseminaari 10. 11.10.2013/Tampere Esityksen sisältö Väitöstutkimuksen tausta ja

Lisätiedot

Tiedonhaku: miten löytää näyttöön perustuva tieto massasta. 3.12.2009 Leena Lodenius

Tiedonhaku: miten löytää näyttöön perustuva tieto massasta. 3.12.2009 Leena Lodenius Tiedonhaku: miten löytää näyttöön perustuva tieto massasta 3.12.2009 Leena Lodenius 1 Tutkimusnäytön hierarkia Näytön taso Korkein Systemaattinen katsaus ja Meta-analyysi Satunnaistettu kontrolloitu kliininen

Lisätiedot

Hyvin toimivien hakulausekkeiden muotoilu ja hakujen onnistumiseen vaikuttavat tekijät täys- ja osittaistäsmäyttävässä hakujärjestelmässä

Hyvin toimivien hakulausekkeiden muotoilu ja hakujen onnistumiseen vaikuttavat tekijät täys- ja osittaistäsmäyttävässä hakujärjestelmässä Hyvin toimivien hakulausekkeiden muotoilu ja hakujen onnistumiseen vaikuttavat tekijät täys- ja osittaistäsmäyttävässä hakujärjestelmässä Tampereen yliopisto Informaatiotutkimuksen laitos Informaatiotutkimuksen

Lisätiedot

Tekijä(t) Vuosi Nro. Arviointikriteeri K E? NA

Tekijä(t) Vuosi Nro. Arviointikriteeri K E? NA JBI: Arviointikriteerit kvasikokeelliselle tutkimukselle 29.11.2018 Tätä tarkistuslistaa käytetään kvasikokeellisen tutkimuksen metodologisen laadun arviointiin ja tutkimuksen tuloksiin vaikuttavan harhan

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen

Lisätiedot

Tentti erilaiset kysymystyypit

Tentti erilaiset kysymystyypit Tentti erilaiset kysymystyypit Kysymystyyppien kanssa kannatta huomioida, että ne ovat yhteydessä tentin asetuksiin ja erityisesti Kysymysten toimintatapa-kohtaan, jossa määritellään arvioidaanko kysymykset

Lisätiedot

Lomalista-sovelluksen määrittely

Lomalista-sovelluksen määrittely Thomas Gustafsson, Henrik Heikkilä Lomalista-sovelluksen määrittely Metropolia Ammattikorkeakoulu Insinööri (AMK) Tietotekniikka Dokumentti 14.10.2013 Tiivistelmä Tekijä(t) Otsikko Sivumäärä Aika Thomas

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

Opasluonnosten ja suunnitelmien esittely

Opasluonnosten ja suunnitelmien esittely Opasluonnosten ja suunnitelmien esittely Hyvät-käytännöt seminaari 13.5.2014 Elisa Vallius, Jyväskylän yliopisto Jyri Mustajoki, SYKE IMPERIAn opastyön taustaa Oppaat ovat IMPERIA hankkeen tuotoksia, joilla

Lisätiedot

Ovid Medline käyttöohjeita (10/2010)

Ovid Medline käyttöohjeita (10/2010) Ovid Medline käyttöohjeita (10/2010) Sisältö 1. Pikahaku - Basic Search:... - 1-2. Tarkennettu haku asiasanoilla - Advanced Ovid Search... - 1-3. Tulosjoukkojen yhdistely... - 5-4. Vapaasanahaku yksittäisellä

Lisätiedot

Fiksusti verkossa: Opettaja nettilukemisen tukijana

Fiksusti verkossa: Opettaja nettilukemisen tukijana Fiksusti verkossa: Opettaja nettilukemisen tukijana Carita Kiili Kasvatustieteiden laitos Jyväskylän yliopisto Kuva: Susanna Andersson Internetlukemisen prosessimalli (muokattu Eagleton & Dobler 2007,78)

Lisätiedot

1. Johdanto. Näkökulma dokumentti kohteena on yksinkertaistettu: - www-sivu tai -sivujoukko - monimutkainen tiedontarve

1. Johdanto. Näkökulma dokumentti kohteena on yksinkertaistettu: - www-sivu tai -sivujoukko - monimutkainen tiedontarve Tiedonhakumenetelmät, k.01 1 Luku 1. Johdanto 1. Johdanto IR (Information Retrieval; Information Storage and Retrieval) Tiedonhaku = prosessit, jotka liittyvät tiedon esittämiseen organisointiin tallentamiseen

Lisätiedot

Mittaamisen maailmasta muutamia asioita. Heli Valkeinen, erikoistutkija, TtT TOIMIA-verkoston koordinaattori

Mittaamisen maailmasta muutamia asioita. Heli Valkeinen, erikoistutkija, TtT TOIMIA-verkoston koordinaattori Mittaamisen maailmasta muutamia asioita Heli Valkeinen, erikoistutkija, TtT TOIMIA-verkoston koordinaattori SISÄLTÖ 1. Mittari vs. indikaattori vs. menetelmä - mittaaminen 2. Luotettavat mittarit 3. Arvioinnin

Lisätiedot

Pro gradu - tutkielma. Kasvatustieteiden tiedekunta, Oulun yliopisto KT HANNU Heikkinen

Pro gradu - tutkielma. Kasvatustieteiden tiedekunta, Oulun yliopisto KT HANNU Heikkinen Pro gradu - tutkielma Kasvatustieteiden tiedekunta, Oulun yliopisto KT HANNU Heikkinen Usein kysyttyjä kysymyksiä infon teemat Pro gradu-tutkielman lähtökohdat Kandista graduun vai uusi tutkielma? Yksin

Lisätiedot

Gradu-seminaari (2016/17)

Gradu-seminaari (2016/17) Gradu-seminaari (2016/17) Tavoitteet Syventää ja laajentaa opiskelijan tutkimusvalmiuksia niin, että hän pystyy itsenäisesti kirjoittamaan pro gradu -tutkielman sekä käymään tutkielmaa koskevaa tieteellistä

Lisätiedot

KYSELYNKÄSITTELYMENETELMIEN EVALUOINTITUTKIMUS SUOMALAISEN VERKKOARKISTON TAIVUTUSMUOTOINDEKSIÄ KÄYTTÄEN. Petteri Veikkolainen

KYSELYNKÄSITTELYMENETELMIEN EVALUOINTITUTKIMUS SUOMALAISEN VERKKOARKISTON TAIVUTUSMUOTOINDEKSIÄ KÄYTTÄEN. Petteri Veikkolainen KYSELYNKÄSITTELYMENETELMIEN EVALUOINTITUTKIMUS SUOMALAISEN VERKKOARKISTON TAIVUTUSMUOTOINDEKSIÄ KÄYTTÄEN Petteri Veikkolainen Tampereen yliopisto Informaatiotieteiden yksikkö Informaatiotutkimus ja interaktiivinen

Lisätiedot

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO 8.9.2016/1 MTTTP1 Tilastotieteen johdantokurssi Luento 8.9.2016 1 JOHDANTO Tilastotiede menetelmätiede, joka käsittelee - tietojen hankinnan suunnittelua otantamenetelmät, koejärjestelyt, kyselylomakkeet

Lisätiedot