Moniulotteinen relevanssiarviointi Hannele Luomanen
|
|
- Hilja Laakso
- 7 vuotta sitten
- Katselukertoja:
Transkriptio
1 Moniulotteinen relevanssiarviointi Hannele Luomanen Tampereen Yliopisto Informaatiotutkimuksen laitos Pro Gradu- tutkielma maaliskuu 2008
2 TAMPEREEN YLIOPISTO Informaatiotutkimuksen laitos LUOMANEN, HANNELE: Moniulotteinen relevanssiarviointi Pro gradu -tutkielma, 44 s. Informaatiotutkimus Maaliskuu 2008 TIIVISTELMÄ Tutkimuksen tarkoituksena on selvittää moniulotteisen relevanssikorpuksen ominaisuuksia ja vertailla moniulotteisia relevanssiarvioita suhteessa yksiulotteiseen relevanssiin eli binäärisiin ja moniportaisiin relevanssiarvioihin. Lisäksi tutkitaan sitä kuinka paljon sisällöllistä päällekkäisyyttä esiintyy relevanttien dokumenttien joukossa. Tarkemmin tutkitaan pystytäänkö moniulotteisten relevanssiarvioiden perusteella ennakoimaan dokumenttien sisällöllistä päällekkäisyyttä. Aineistona on käytetty Informaatiotutkimuksen laitoksen tiedonhakulaboratorion TUTKkokoelmasta 26 hakutehtävää, joista oli tehty neliportaiset relevanssiarviot, ja jotka arvioitiin uudelleen käyttäen moniulotteista relevanssiarviointia. Lisäksi tehtiin erillinen sisällönanalyysi artikkelipareittain, jotta saataisiin selville kuinka paljon todellista sisällöllistä päällekkäisyyttä esiintyy. Tutkimuksessa havaittiin, että moniulotteiset relevanssiarviot korreloivat perinteisten relevanssiarvioiden kanssa. Teemapäällekkäisyyden ennustettavuus on suurinta yleisempien teemojen osalta ja sisällöllisen päällekkäisyyden toteaminen on todennäköisintä erittäin relevanttien dokumenttien joukossa. Dokumenttiparien vertailu osoitti, että teemojen avulla pystytään ennakoimaan myös sisältöjä, mutta teemojen ja sisältöjen suhde ei ole täysin suoraviivainen. (Avainsanat: relevanssi, moniulotteinen relevanssi)
3 Sisällysluettelo 1. Johdanto Peruskäsitteet ja aikaisempi tutkimus Relevanssi tiedonhankintatutkimuksen valossa Testikokoelmat ja relevanssin operationalisointi Testikokoelmanäkökulman kritiikki relevanssitulkinnan osalta Päällekkäisyyden huomiointi vuorovaikutteisen tiedonhaun tutkimuksessa Moniulotteinen relevanssiarviointimalli Menetelmän perusideat Moniulotteisen datan esittäminen Moniulotteisen relevanssidatan arviointiprosessi Tutkimustehtävä, aineistot ja menetelmä Tutkimuskysymykset Tutkimusaineisto Testikokoelma Arvioitavat dokumentit Relevanssiarviot Aineiston analysointi Relevanssikorpuksen ominaisuudet Sisällönanalyysi artikkelipareittain Tulokset Relevanssikorpuksen ominaisuudet Teemarelevanssi vs. perinteinen relevanssi Suhteellinen teemapäällekkäisyys Suhteellinen informaatiopäällekkäisyys Poikkeustapausten analyysi Johtopäätökset Lähteet....39
4 1. Johdanto Tiedonhaun tutkimuksen testikokoelmissa on perinteisesti käytetty yksiulotteista relevanssia, jossa dokumenttien sisällöllistä vastaavuutta hakuaiheeseen on kuvattu yhdellä luvulla. Yksiulotteista relevanssia on kritisoitu sen realistisuuden puutteesta. Tiedonhakua ja hankintaa koskevat empiiriset tutkimukset osoittavat, että relevanssi on moniulotteinen ja dynaaminen ilmiö (Schamber, 1994). Tutkimuksen tarkoituksena on selvittää moniulotteisen relevanssikorpuksen ominaisuuksia. Työn tarkoituksena on myös vertailla moniulotteisia relevanssiarvioita suhteessa yksiulotteiseen relevanssiin eli binäärisiin ja moniportaisiin relevanssiarvioihin. Tarkemmin on tarkoituksena tutkia pystytäänkö moniulotteisten relevanssiarvioiden perusteella ennakoimaan dokumenttien sisällöllistä päällekkäisyyttä. Uudella lähestymistavalla on tarkoituksena ylittää perinteisen relevanssin rajoitukset, jossa oletetaan, että kokoelman dokumentti on itsenäinen ja riippumaton kokoelman muista dokumenteista. Moniulotteisen relevanssin avulla on helpompi huomioida esimerkiksi dokumenttien sisällöllisiä päällekkäisyyksiä. Moniulotteisen relevanssin käyttö tiedonhaun tutkimuksissa ja testikokoelmissa on suhteellisen uusi asia, jota ollaan vasta kehittämässä. Aikaisemmin aiheeseen liittyviä kokeellisia asetelmia on ollut käytössä mm. vuorovaikutteisessa TREC:ssä. (Over, 2001.) Relevantin informaatiosisällön päällekkäisyyttä tai täydentävyyttä ei voida päätellä perinteisestä yksiulotteisesta relevanssikorpuksesta. Käyttäjälle olisi kuitenkin hyödyllisempää saada hakutuloksiin dokumentteja, jotka käsittelevät aihetta laajasti ja sen lisäksi mahdollisimman monipuolisesti eri näkökulmista ja aiheen eri osa-alueilta. Moniulotteisessa relevanssiarvioinnissa on mahdollista huomioida myös hakuaiheen sisällöllinen jakautuminen potentiaalisesti relevanttien dokumenttien joukossa ja näin ollen se on myös käyttäjälähtöisempi ja realistisempi lähtökohtana kuin dokumenttien yksiulotteinen arviointi. 1
5 2. Peruskäsitteet ja aikaisempi tutkimus Relevanssi on tärkeä käsite tiedonhankintatutkimuksessa ja tiedonhakujärjestelmien arvioinnissa. Relevanssin määrittelyssä on kaksi pääsuuntaa: aiherelevanssi ja käyttäjärelevanssi (Järvelin & Sormunen, 1999). Aiheenmukainen relevanssi on yleisin ja selvin määritelmä relevanssista ja sitä mitataan perinteisessä tiedonhaun systeemien evaluoinnissa. Aiheenmukainen relevanssi on kontekstista vapaa ja mittaa vain sen kuinka hyvin haku sopii löydetyn informaation sisältöön (Borlund & Ingwersen, 1998). Aiherelevanssi tarkoittaa, että dokumentti käsittelee hakupyynnön määrittelemää aihetta. Käyttäjärelevanssi huomioi dokumentin aiheen lisäksi tiedon käyttäjästä riippuvia tekijöitä. Käyttäjän arvioon voivat vaikuttaa mm. tiedontarpeen aiheuttavan tehtävän luonne, dokumenttien kieli, ulkoasu ja tuttuus käyttäjälle. Tiedontarve voidaan määritellä tiedontarvitsijan kokemukseksi tilanteensa ja ympäristönsä epävarmuudesta ja tiedon hyödyllisyydestä kyseessä olevassa tilanteessa. Tilanteen hallinta edellyttää menneiden, nykyisten ja tulevien tilanteiden ymmärtäminen. Relevanssiarviot ovat tällöin tilannesidonnaisia ja dynaamisia (Järvelin & Sormunen, 1999). Tämän perusteella Järvelin & Sormunen (1999) antavat relevanssille seuraavan määritelmän: Relevanssilla tarkoitetaan informaation arvioitua käyttökelpoisuutta tietyissä käyttötilanteissa ottaen huomioon käyttäjän tavoitteet, arvot ja odotukset. Käyttäjäsuuntautuneessa tiedonhakututkimuksessa tiedonhakijalta pyydetään löydetyistä dokumenteista relevanssiarvio, joka voi perustua edellä esitetyn määritelmän mukaisiin, tilannekohtaisiin käyttökelpoisuuskriteereihin (Harter & Hert 1997). Tuloksellisuuden arviointi perustuu käyttäjäsuuntautuneessakin tiedonhakututkimuksessa yksiulotteisen relevanssin käsitteelle. 2
6 Yksiulotteisessa relevanssiarvioinnissa dokumentin relevanssia kuvataan yhdellä luvulla, joka kuvaa yhtä dokumentin ominaisuutta. Binäärisessä relevanssiarvioinnissa dokumentti saa relevanssiarvoksi joko arvon 0 (ei relevantti) tai 1 (relevantti). Dokumentti on määritelty joko relevantiksi tai ei relevantiksi, huomioimatta lainkaan sitä kuinka laajasti ja kuinka monesta eri näkökulmasta dokumentti hakuaihetta käsittelee. Tiedonhakijan kannalta relevanteiksi määritellyt dokumentit saattavat olla hyvinkin eritasoisia ja niiden hyödyllisyys vaihdella laajasti, jolloin käyttäjälle tärkeitä dokumenttiattribuutteja jätetään huomioimatta binäärisessä hakuaihearvioinnissa. Käyttäjälle olisi useimmiten hyödyllisintä löytää dokumentteja, jotka käsittelevät hakuaihetta laajasti (Sormunen, 2002). Moniportaisissa relevanssiarvioinneissa on tyypillisesti käytetty kolmi- tai neliportaista asteikkoa, jolloin on jo selvemmin arvioitavissa kuinka laajasti hakuaihetta dokumentissa käsitellään. Kuitenkaan relevantin informaation päällekkäisyyttä ei voida päätellä relevanssikorpuksesta. Käyttäjälle olisi kuitenkin hyödyllisempää saada hakutuloksiin dokumentteja, jotka käsittelevät aihetta laajasti ja sen lisäksi mahdollisimman monipuolisesti eri näkökulmista ja aiheen eri osa-alueilta (Kekäläinen & Järvelin, 2002). Perinteisen relevanssiarvioinnin tarkoituksena on hakuaiheen ja dokumentin vastaavuuden arviointi, kun taas moniulotteisen relevanssiarvioinnin tarkoituksena on dokumentin ja kunkin hakuaiheen teeman vastaavuuden arviointi. Moniulotteinen relevanssiarviointi antaisi mahdollisuuden tunnistaa sisällöllisesti päällekkäistä informaatiota sisältävät dokumentit, jolloin käyttäjän kannalta olisi mahdollista karsia hakutuloksista jo kertaalleen löydettyä informaatiota, josta käyttäjälle ei enää olisi hyötyä ja tuoda hakutuloksiin lisää relevanttia informaatiota hakuaiheen eri aspektien osalta. 2.1 Relevanssi tiedonhankintatutkimuksen valossa Tiedonhankintatutkimuksessa esiintyy erilaisia relevanssitulkintoja. Relevanssi voidaan jakaa kahteen pääluokkaan: objektiiviseen tai systeemiperusteiseen relevanssiin ja subjektiiviseen tai käyttäjäperusteiseen relevanssiin. Tiedonhankintatutkimuksessa esiintyy nämä kaksi eri 3
7 lähestymistapaa: systeemiorientoitunut lähestymistapa ja käyttäjälähtöinen lähestymistapa. Systeemilähtöinen lähestymistapa käsittelee relevanssia staattisena ja objektiivisena käsitteenä ja käyttäjälähtöinen lähestymistapa subjektiivisena yksilöllisenä kokemuksena, johon liittyy kognitiivista toimintaa. (Borlund, 2003b.) Borlund (2003b) erottaa artikkelissaan erilaisia relevanssityyppejä lähtien systeemi- ja käyttäjäperustaisista lähestymistavoista. Erilaiset relevanssityypit viittaavat erilaisiin suhteisiin, joita on löydetyn informaation, hakutehtävän, tiedontarpeen tai tiedontarpeen luovat tilanteen taustalta. Kuvassa 1 on esitetty perinteinen tulkinta eri relevanssityypeistä ei-interaktiivisessa tiedonhakutilanteessa. Kuva 1. Borlundin malli relevanssin tyypeistä. (Borlund p. 29) Algoritminen relevanssi (A) kuvaa kyselyn ja dokumenttikokoelman suhdetta kyselyssä löydettyihin dokumentteihin. Aiheenmukainen relevanssi voidaan määritellä sen mukaan kuinka hyvin löydetyn informaation aihe vastaa hakutehtävää. Dokumentti on objektiivisesti relevantti, jos se käsittelee hakutehtävän aihetta. Relevanssi käsitetään kontekstivapaaksi, jolloin käyttäjää ei oteta huomioon ja lisäksi arvioinnissa käytetään usein binääristä asteikkoa eli dokumentti joko on relevantti tai ei ole. Borlund (2003b) pitää algoritmista relevanssia kaikkein yleisimpänä ja 4
8 selkeimpänä relevanssin määritelmänä ja sitä käytetään perinteisessä tiedonhakujärjestelmien evaluoinnissa. Intellektuaalinen aiheenmukaisuus (IT) on kytkeytynyt käyttäjään ja dokumentin relevanttius riippuu siitä kuinka arvioitsija kokee informaation vastaavan annettua hakuaihetta ja kuvailtua tiedontarvetta. Relevanssitulkinnassa otetaan huomioon eriasteiset ihmisten tekemät intellektuaaliset tulkinnat dokumentin relevanssista. Relevanssi käsitteenä voi viitata löydetyn dokumentin hyödyllisyyteen tai käytettävyyteen suhteessa hakijan tavoitteiden täyttymiseen tai hakutehtävän ratkeamiseen. Relevanssi on siten kontekstiriippuvainen. (Borlund, 2003b.) Käyttäjärelevanssi (P) on informaation tarpeen ja informaatio objektien välinen suhde, jonka käyttäjä luo hakutilanteessa. Tämä sallii dynaamisen informaatiotarpeen olemassaolon. (Borlund, 2003b.) Perinteisissä tiedonhauntestikokoelmissa (esim. Cranfield ja TREC) relevanssi on tulkittu algoritmiseksi relevanssiksi tai intellektuaaliseksi aiheenmukaisuudeksi eli informaatio-objektien ja kyselyn tai hakupyynnön väliseksi suhteeksi (Borlund, 2003b). Toisaalta tiedonhankintatutkimuksessa on noussut esille useita erilaisia oikeiden käyttäjien relevanssikriteereitä. Relevanssin yksinkertaistamista aiheenmukaisuuteen on kritisoitu käyttäjälähtöisen tiedonhakututkimuksen puolelta (Schamber 1994, Borlund & Ingwersen 1998). Tiedonhankintatutkimuksen näkökulmasta oikeat tiedonhakijat käyttävät monia relevanssikriteereitä. Monissa empiirisissä tiedonhankintatutkimuksissa tutkijat ovat tunnistaneet laajan kirjon subjektiivisia ja dynaamisesti muuttuvia relevanssikriteereitä, joita käytetään dokumenttien arvioimiseen (esim. Greisdorf 2003, Maghlaughlin & Sonnenwald 2002, Rieh 2002). Toisaalta monet käyttäjätutkimukset ovat myös osoittaneet, että dokumentin informaatiosisältö ja aiheenmukaisuus ovat kriteerejä, jotka tyypillisesti kaikki käyttäjät jakavat (Schamber 1994, Maghlaughlin & Sonnenwald 2002). 5
9 Greisdorf (2003) kiinnitti huomiota relevanssin dynaamiseen luonteeseen ja totesi, että käyttäjillä on monia erilaisia kriteerejä, joiden perusteella he tekevät päätöksiä tietokannasta löydetyn dokumentin informaation relevanssin suhteen. Hän selvitti tutkimuksessaan miten käyttäjät evaluoivat informaatiota ja millaisia relevanssikriteereitä he käyttävät. Hän on tunnistanut evaluointikriteereinä mm. aiheenmukaisuuden, hyödyllisyyden, motivaation ja systemaattisuuden. Maghlaughlin & Sonnenwald (2002) tutkivat relevanssikriteereitä, joita hakijat käyttivät relevanssiarviointiin arvioitaessa kolmiportaisella asteikolla relevantteja, osittain relevantteja ja ei-relevantteja dokumentteja, keskittyen erityisesti kriteereihin, joita käytettiin arvioitaessa dokumentti osittain relevantiksi. Tulokset osoittivat, että käyttäjillä on monia erilaisia kriteerejä relevanssiarvioita tehtäessä ja useimmilla kriteereillä voi olla joko positiivinen tai negatiivinen vaikutus dokumentin relevanssille. Maghlaughlin & Sonnenwald löysivät kaiken kaikkiaan 29 erilaista kriteeriä. Internetin kontrolloimaton ympäristö on haasteellinen käyttäjille, jotka arvioivat informaation hyödyllisyyttä. Rieh (2002) tutki internetin hakukäyttäytymistä ja käyttäjien arvioiden tekemistä löydetystä informaatiosta. Rieh keskittyi erityisesti kahteen asiaan, jotka ovat esiintyneet useissa tutkimuksissa: löydetyn informaation laatuun ja auktoriteettiin, joiden on todettu olevan kaikkein tärkeimpien relevanssikriteerien joukossa etenkin internetin kaltaisissa kontrolloimattomissa hakuympäristöissä ja havaitsi, että Web ympäristössä käyttäjät käyttävät vielä useampia kriteereitä kuin perinteisissä tiedonhakuympäristöissä. Laadun ja auktoriteetin määrittelemisessä käytettiin myös monia erilaisia tekijöitä. Esim. laadun määrittelemisessä vaikutti informaation ajantasaisuus, tarkkuus ja hyödyllisyys. Erilaisten relevanssikriteerien ja niitä määrittävien tekijöiden lisäksi käyttäjien arviointiin vaikuttaa myös tulosjoukossa muualla esiintyvät dokumentit (Rieh, 2002). Kekäläinen & Järvelin (2002) tuovat esille relevanssiarvioiden dynaamisen luonteen. Relevanssiarviot ovat dynaamisia ja ne muuttuvat tiedonhakuprosessin kuluessa. Relevanssiarvioinnissa tulisi ottaa huomioon muitakin tekijöitä kuin vain aiheenmukaisuus. Se 6
10 mikä on alussa relevanttia voi olla myöhemmin epärelevanttia tai jo tiedossa olevaa päällekkäistä informaatiota. Heidän mielestään olisi tärkeää pystyä tunnistamaan nämä tekijät informaatioobjekteista. 2.2 Testikokoelmat ja relevanssin operationalisointi Kokeellisella tiedonhaun tutkimuksella on pitkä historia. Nykyiset tiedonhakututkimuksen testikokoelmat perustuvat malliin, joka kehitettiin 1960-luvun alussa Cranfield -projekteissa. Cranfield-testikokoelma sisälsi 1400 dokumenttia ja 225 kyselyä ja se oli pitkään vallitseva testikokoelma tutkijoiden käytössä sen jälkeen. Cranfield osoitti testikokoelmien luomisen tärkeyden ja niiden käyttämisen vertailevaan evaluointiin. Myös muita kokoelmia on rakennettu, kuten CAMC kokoelma ja NPL kokoelma (Harman, 1993). Testikokoelmissa käyttäjällä ja käyttäjän ja informaation välisellä vuorovaikutuksella pieni rooli. Testikokoelman hakuaiheen ja yksittäisten dokumenttien välillä on tällöin staattinen suhde. Cranfield kokoelmassa dokumentit arvioitiin käyttäen viisiportaista relevanssiasteikkoa ja arvioinnissa huomioitiin aiheen lisäksi informaation potentiaalinen hyödyllisyys käyttäjälle. (Cleverdon, 1967.) Viime vuosina TREC konferenssit ovat olleet mittavin tutkimusfoorumi, joka perustuu laboratoriomallille. TREC:ssä on alkuperäisenä tavoitteena on ollut se, että tuloksia on mahdollista myös vertailla tutkimusryhmien välillä käyttämällä samoja dokumenttikokoelmia ja evaluointimenetelmiä. TREC on suunniteltu rohkaisemaan laajojen testikokoelmien käyttöä tiedonhauntutkimuksessa. TREC onkin tuonut tutkimukseen laajemmat ja realistisemmat testikokoelmat sekä pyrkimyksen käyttäjälähtöisempään suuntautumiseen. (Harman, 1993.) Kuten perinteiset testikokoelmat yleensä TREC:n testikokoelma koostuu kolmesta erillisestä osasta: dokumenttikokoelmasta, hakuaiheiden joukosta ja relevanssikorpuksesta. TREC:in dokumenttikokoelma koostuu pääasiassa uutisartikkeleista ja lyhennelmistä. Dokumenttien valintaan vaikuttaa mm. dokumenttien tyyppi, pituus, kirjoitustyyli, editointi ja sanasto. 7
11 Hakuaiheiden on tarkoitus olla mahdollisimman todentuntuisia ja käyttäjien oikeiden tiedontarpeiden mukaisia. Hakuaiheet saattavat sisältää myös kuvauksen minkälainen tieto on relevantti. Hakuaiheet TREC:ssä on pyritty valikoimaan käyttäjän tarpeita kuvaaviksi lauseiksi, sen sijaan, että käytössä olisi perinteisempi kysely. Aiheen kuvauksessa pyritään usein kuvaamaan todellisen käyttäjän tarpeita ja informaation mahdollisia käyttötilanteita. Relevanssiarviot ovat testikokoelman tärkeä osa. Jokaisella hakuaiheella täytyy olla mahdollisimman täydellinen lista relevanteista dokumenteista. TREC:ssä käytettiin relevanssiarvioitavien dokumenttien kartoittamisena pooling- menetelmää, joka on käytössä muissakin kokoelmissa. Metodissa eri hakujärjestelmillä haetaan tietty määrä relevantteja dokumentteja jokaisesta hakuaiheesta, tulosjoukot yhdistetään, duplikaatit poistetaan ja jäljelle jääneistä uniikeista dokumenteista arvioitsijat tekevät relevanssiarviot. Vertailtavien hakumenetelmien paremmuutta mitataan suorittamalla kyselyt kokoelmassa kullakin hakuaiheella ja laskemalla hakutulosten keskimääräiset tuloksellisuusluvut relevanssikorpuksen perusteella. Testikokoelmissa on perinteisesti käytetty evaluointimetodina tarkkuutta ja saantia, joita myös TREC:ssä käytettiin. (Harman, 1995.) Cranfieldin lähestymistapaa käyttävistä kokoelmista vallitsevin on tällä hetkellä TREC. Samanlaista lähestymistapaa ovat käyttäneet myös CLEF consortium for Cross-Language IR (ks. sekä yksittäiset tutkimusryhmät (esim. Kluck 1998, Sormunen 2000). Relevanssiarviot ovat kriittisen tärkeitä testikokoelmassa. Nykyisten testikokoelmien relevanssitulkintaa on kritisoitu realismin puutteesta. Testikokoelmissa relevanssi on usein operationalisoitu. Käytössä on ollut binaariset relevanssiarviot, jotka määrittelevät dokumentin joko aiheenmukaiseksi tai ei. TREC:n ohjeissa dokumentti määritellään relevantiksi mikäli joku osa dokumentista on relevanttia huomioonottamatta sitä kuinka suuri tai pieni osa dokumentista on relevanttia. (Sormunen, 2002.) 8
12 TREC:n tyyppiset testikokoelmat sopivat liberaaleine relevanssiarvioineen varsin heikosti monipuoliseen hakujärjestelmien testaukseen. Ottamalla käyttöön moniportaiset relevanssiarviot voidaan paremmin tutkia esimerkiksi hakumenetelmien selektiivisyyttä löytää parhaiten relevantteja dokumentteja. Tiedonhaun vielä monipuolisempaan informaation päällekkäisyyden tutkimiseen tarvitaan laajempia relevanssiskenaarioita. (Sormunen, 2002.) 2.3 Testikokoelmanäkökulman kritiikki relevanssitulkinnan osalta Testikokoelmien perinteinen relevanssiarviointi perustuu rajoittavalle oletukselle, että kokoelman dokumentti on itsenäinen ja riippumaton kokoelman muista dokumenteista (Robertson, 1977). Uudemmissa relevanssimääritelmissä on otettu huomioon relevanssin dynaaminen luonne mukaan lukien sisällöllisen päällekkäisyyden mahdollisuus. Relevanssin operationalisoinnissa ei kuitenkaan ole laajalti sovellettu käsitystä sisällöllisen päällekkäisyyden mahdollisuudesta. Relevanssin käsite on paljon käsitelty ja väitelty tiedonhaun tutkimuksessa ja artikkeleissa on tuotu esiin useita tulkintoja ja määritelmiä relevanssista. Relevanssin on todettu olevan monipuolinen ilmiö, eikä pelkästään viittaa aiheenmukaisuuteen käyttäjän arvioidessa löydettyä informaatiota (Borlund, 2003b). Tiedonhakua ja hankintaa koskevat empiiriset tutkimukset osoittavat myös, että relevanssi on moniulotteinen ja dynaaminen ilmiö (Schamber, 1994). Usein perinteisissä testikokoelmissa on käytetty binaarista relevanssiarviointia, jolloin relevanssi on operationalisoitu voimakkaasti yksinkertaistavalla tavalla. Sormunen (2002) tutki moniportaista relevanssia tekemällä osalle TREC 7 ja 8:n hakuaiheista neliportaisia relevanssiarvioita. Alkuperäisten binääristen ja tutkimuksessa tuotetun moniportaisen relevanssikorpuksen vertailu osoitti, että relevanssin kynnys on matala TREC:ssä. Marginaalisesti hakuaihetta käsittelevät dokumentit dominoivat relevanssikorpuksessa. Borlundin (2003b) mukaan dynaaminen relevanssi viittaa siihen, kuinka saman käyttäjän relevanssituntemukset voivat vaihdella yhden hakutehtävän aikana. Borlundin (2003b) ehdottama malli tilannerelevanssista (situational relevance) interaktiivisen tiedonhaun tutkimuksessa osoittaa hyvin käyttäjärelevanssin dynamiikan. 9
13 Borlundin malli Borlund (2003a) ehdottaa vaihtoehtoista lähestymistapaa interaktiivisen tiedonhakujärjestelmien evaluoinnille (IIR evaluation model). Borlund esittää mallin vaihtoehtona systeemisuuntautuneella Cranfieldin mallille, joka on edelleen vallitseva lähestymistapa tiedonhaun tutkimuksessa. Tavoitteena on mahdollisimman realistinen interaktiivisen tiedonhaun arviointi ja hakujärjestelmän suorituksen laskeminen ottamalla huomioon relevanssiarvioiden eibinaarinen luonne. Borlundin mallissa tarjotaan kehys tiedonhaun datan keräämiselle ja analyysille. Tavoitteena on tiedonhakujärjestelmien evaluointi mahdollisimman realistisesti todellisen tiedonhakuprosessin mukaisesti suhteellisen kontrolloidussa evaluointiympäristössä. Tarkoituksena on myös järjestelmän suorituskyvyn mittaaminen siten, että relevanssiarvioiden ei-binaarinen luonne voidaan ottaa huomioon. (Borlund, 2003a.) Borlundin mallin keskeisenä tarkoituksena on käyttää realistisia skenaarioita, simuloituja hakutehtäviä (simulated work task situations) ja vaihtoehtoisia tuloksellisuuden mittareita. Simuloitujen hakutehtävien tarkoituksena on luoda pohjaa realistiselle tiedontarpeelle ja sen tunnistamiselle. Simuloidut hakutehtävät sisältävät lyhyen johdannon, joka kuvailee tilannetta, jossa hakijan on tarve käyttää tiedonhakujärjestelmää. Simuloidut hakutehtävät takaavat kokeelle myös riittävästi kontrollia. Vaihtoehtoisiksi tuloksellisuuden mittareiksi Borlund ehdottaa suhteellista relevanssia (relative relevance, RR) ja ranked half-life (RHL). Lisäksi hän mainitsee Järvelinin ja Kekäläisen (2002) ehdottaman kumulatiivisen hyödyn (Cumulated Gain, CG) ja diskontatun kumulatiivisen hyödyn (Discounted Cumulated Gain, DCG). (Borlund, 2003a.) Borlundin mielestä tiedonhauntutkimuksessa tiedontarpeen määrittely tulisi olla yksilöllisten tiedonhakukokemusten ja käsitteiden dynaamisen luonteen mukainen. Hänen mielestään Cranfieldin malli ei ota huomioon dynaamista tiedontarvetta vaan käsittelee tiedontarvetta staattisena käsitteenä, jota hakulauseke kuvastaa. Yhteenvetona Borlund toteaa, että Cranfielden malli ei sovellu interaktiivisten tiedonhakujärjestelmien evaluoimiseen, jos se suoritetaan niin 10
14 realistisesti kuin mahdollista. Realismi vaatii interaktiivisuutta, potentiaalisesti dynaamista tiedontarpeen tulkintaa ja moniulotteista ja dynaamista relevanssitulkintaa. Käyttäjäsuuntautuneessa tiedonhaun tutkimuksessa on Borlundin (2003a) mukaan myös puutteita. Käyttäjäsuuntautunut lähestymistapa määrittelee tiedonhakujärjestelmän laajemmin ja näkee tiedontarpeet ja hakuprosessin kokonaisuutena. Evaluointiprosessissa kiinnitetään huomiota siihen miten hyvin käyttäjä, tiedonhakumekanismi ja tietokanta toimivat keskenään todellisista operationaalisissa tilanteissa. Tässä lähestymistavassa alkuperäinen käyttäjä tekee relevanssiarviot suhteessa omaan tiedontarpeeseensa, joka voi vaihdella hakutehtävän aikana. Oletuksena tässä on, että relevanssiarviot edustavat tietyn käyttäjän tietyssä tilanteessa tekemiä arvioita, joten relevanssiarvion voi tehdä vain käyttäjä sillä hetkellä. Relevanssitulkinta on silloin subjektiivinen, ei-binaarinen tilannerelevanssi. Näillä perusteilla realismin vaatimus olisi saavutettu. Borlund kritisoi kuitenkin käyttäjälähtöisen lähestymistavan tapaa mitata suoritustehokkuutta saanti- ja tarkkuuslukuina huolimatta siitä, että kerätään ei-binaariset relevanssiarviot. (Borlund, 2003a.) Borlund tuo ilmi tarpeen kehittää realistisempia koeasetelmia ja korostaa relevanssin dynaamista ja moniulotteista luonnetta, mutta häneltä puuttuvat ehdotukset siitä, kuinka testikokoelmien relevanssiarviointien esittämistä tulisi käytännössä kehittää. Lisäksi Borlund ei tarkastele dokumenttien sisältöjä tai niiden päällekkäisyyksiä, vaikka tarkastelee relevanssia dynaamisena ilmiönä. Tiedontarpeen dynaamisen luonteen tunnistaminen tutkimuksissa on haasteellista interaktiiviselle tiedonhauntutkimukselle. Tietoisuus relevanssin moniulotteisuudesta ja vaihtelevuudesta on muuttanut käsitystä siitä kuinka tiedonhakujärjestelmiä tulisi arvioida ja viimeaikoina testaamisessa on tapahtunut muutoksia interaktiiviseen käyttäjälähtöiseen suuntaan. (Borlund & Ingwersen, 1998.) 11
15 Simuloidut hakutehtävät kuvailevat tiedontarveskenaarion ja varmistavat, että evaluointi on hallittavissa ja relevanssiarviot ovat vertailukelpoisia. Menetelmä kaventaa kuilua subjektiivisen ja objektiivisen relevanssin välillä ja on käyttäjälähtöisempi näkökulma. Kaikki mittaustavat tuottavat hiukan erilaiset arvioinnit samoille objekteille. (Borlund & Ingwersen, 1998.) Tiedonhakututkimuksessa päähuomio on vuosien kuluessa siirtynyt aiherelevanssista kohti käyttäjärelevanssia. Tämä ei kuitenkaan tarkoita sitä, että tutkimuksessa tulisi tai edes aina voitaisiin käyttää käyttäjärelevanssiin perustuvaa hakutuloksen arviointiperustaa aiherelevanssin sijasta. Monissa järjestelmäkeskeisissä tutkimusasetelmissa aiherelevanssi antaa yksinkertaisemman toteutustavan ja riittävän pohjan hakujärjestelmän arvioinnille. Valinta riippuu tutkittavasta ongelmasta. (Järvelin & Sormunen, 1999.) Käyttäjän relevanssitulkintaan voisivat myös vaikuttaa samantapaiset tai päällekkäiset dokumentit, jotka ovat esiintyneet aiemmin tulosjoukossa. Kekäläinen ja Järvelin (2002) ovat tulleet siihen tulokseen, että aiheenmukainen relevanssi on riittävä evaluointitarkoitukseen, jos se kohtaa evaluoinnin tarkoituksen eli hakutehtävän, johon algoritmi, jota testataan on suunniteltu. Kokeellisen tutkimuksen tavoite on luoda kontrolloitu ympäristö, jossa tutkittavaa ilmiötä voidaan testata. Testikokoelmia, jotka perustuvat realistiseen dokumenttikokoelmaan, määriteltyihin simuloituihin hakutehtäviin (Borlund 2003) ja moniportaisiin aiheenmukaisiin relevanssiarvioihin (Sormunen 2002, Kekäläinen 2005) voidaan edelleen pitää luotettavina työkaluina kokeellisessa tiedonhaun tutkimuksessa. Kuitenkin, uudenlaisia lähestymistapoja täytyy kehittää, jos uusia tai laajempia evaluointiskenaarioita sovellettaisiin (Kekäläinen & Järvelin 2002). 2.4 Päällekkäisyyden huomiointi vuorovaikutteisen tiedonhaun tutkimuksessa Päällekkäisen informaation ongelma on tiedostettu tiedonhaun tutkimuksessa, mutta sen ratkaisemiseksi ei ole vielä tehty kovin paljon. Moniulotteisen relevanssin varsinainen käyttö tiedonhaun tutkimuksissa ja testikokoelmissa on suhteellisen uusi asia, jota ollaan vasta kehittelemässä. 12
16 Aiheeseen liittyviä kokeellisia asetelmia on ollut käytössä mm. TREC:ssä. Interaktiivisen TREC:in kokemukset ovat osoittaneet, että perinteiset testausmenetelmät, jotka perustuvat binääriseen yksiulotteiseen relevanssiarviointiin, eivät anna kunnollista pohjaa tutkia interaktiivista tiedonhaun ilmiötä. TREC:n interaktiivisen tiedonhaun kokeet ovat osoittaneet myös päällekkäin menevän informaation ongelman tärkeyden. Käyttäjälle tai systeemille, joka löytää päällekkäistä informaatiota, ei tulisi antaa tehokkuusvertailussa perusteetonta etua. TREC:ssä on ollut mukana interaktiivisen tiedonhaun tutkiminen alusta alkaen. TREC 1:ssä ja TREC 2:ssa tutkittiin jo myös tiedonhaun interaktiivista puolta. Kokeet kuitenkin kärsivät hakuaiheiden epärealistisesta luonteesta (Beaulieu et al. 1996). TREC 3:ssa ja TREC 4:ssä mukaan otettiin erilliset interaktiiviset tiedonhaun kokeet, joissa käytettiin kuitenkin vielä samoja hakuaiheita. TREC 6 perinteiset relevanssiarviot korvattiin aspektuaalisilla arvioinneilla ja myös saanti ja tarkkuus korvattiin aspektuaalisella saannilla ja tarkkuudella (aspectual precision and recall). TREC 7:ssä termi aspekti (aspect) korvattiin termillä instanssi (instance). Viimeisimmissä kokeissa aiheet on kehitetty interaktiivista tiedonhaun tutkimusta varten ja instanssisaantia ja - tarkkuutta on käytetty mittaamisen välineinä. Interaktiivisessa TREC:ssä käytettiin erikoishakutehtäviä, joissa tehtävänä oli löytää tietyn ajan sisällä mahdollisimman monta hakuaiheen eri instanssia käsittelevää dokumenttia. Hakutehtävänä voi olla esimerkiksi eri hoitokeinot sydänsairauksiin, joista kustakin tuli löytää informaatiota (TREC 5). Hakijan piti löytää informaatiota mahdollisimman monesta hoitokeinosta, mutta joukossa ei saanut olla päällekkäistä informaatiota. Päällekkäisen informaation löytämisestä ei annettu pisteitä tuloksellisuuden mittaamisessa. (Over, 2001.) Todellisessa hakutilanteessa käyttäjän tarkoituksena ei ole kuitenkaan luoda optimaalista kyselyä, vaan löytää informaatiota sisältäviä dokumentteja, lisäksi todellisessa hakutilanteessa kysely todennäköisesti kehittyy dynaamisesti (Beaulieu et al. 1996). TREC:ssä kehitetty relevanssiarviointi menetelmä ei ole yleiskäyttöinen, vaan sopii paremmin tietyntyyppisiin 13
17 hakutehtäviin, koska useimmiten hakutilanteissa ei ole tarkoituksena hakea instansseja vaan tiettyyn aiheeseen liittyvää informaatiota Borlund (2000). 3. Moniulotteinen relevanssiarviointimalli Moniulotteisen relevanssiarviointimallin perusajatus on sisällöllisen päällekkäisyyden arvioiminen tietyn hakuaiheen relevanteista dokumenteista. Malli perustuu siihen, että hakuaihetta käsittelevät dokumentit jaetaan erilaisiin teemoihin sisällönanalyysin kautta. Teemoihin liittyvä informaatiosisältö arvioidaan perinteisin binaarisin tai moniportaisin relevanssiarvioiden. Eri teemoissa toisiaan täydentävien tai päällekkäisten dokumenttien tunnistamiseen voidaan käyttää taulukkona esitettyä relevanssidataa. 3.1 Menetelmän perusideat Sormusen (2006) esittämä malli perustuu seuraaville taustaolettamuksille: Moniulotteisten relevanssiarviointien luomisessa tietokannan informaatiosisältö on oleellinen suhteessa tarkasti määriteltyyn tai simuloituun hakutehtävään. Potentiaalisesti relevantit dokumentit ovat relevanssiarvioiden tarkastelun kohteena. Jokainen dokumentti potentiaalisesti relevanttien dokumenttien joukossa saattaa tarjota relevanttia informaatiota käyttäjälle, joka suorittaa hakutehtävää. Tämä potentiaali arvioidaan ja esitetään moniulotteisella relevanssikorpuksella. Kriittinen kysymys on kuinka hyvin moniulotteinen relevanssidata auttaa arvioimaan minkä tahansa dokumentin uniikkia ja muiden dokumenttien kanssa päällekkäistä sisältöä. Moniulotteinen relevanssikorpus voi sisältää myös tietoja ei-aiheenmukaisista dokumenttiattribuuteista. Moniulotteisessa relevanssiarvioinnissa dokumentin relevanssia voidaan kuvata useilla luvuilla, joista kukin edustaa yhtä dokumentin ominaisuutta. Moniulotteisessa relevanssiarvioissa voidaan käyttää kunkin ominaisuuden osalta binäärisiä tai moniportaisia relevanssiarvoja. Jos moniulotteisessa relevanssiarvioinnissa keskitytään hakuaiheeseen, dokumentit arvioidaan hakuaiheesta tunnistettujen teemojen vastaavuuden perusteella. 14
18 Moniulotteisessa relevanssiarvioinnissa pyritään ottamaan huomioon enemmän myös sitä mihin aihealueeseen dokumentit sisällöllisesti jakautuvat. Sisällöllisesti päällekkäiset dokumentit voivat sisältää samaa informaatiota, jolloin toiseen kertaan löydetty informaatio ei tuo enää lisäarvoa käyttäjälle. Testikokoelmien moniulotteisten relevanssiarviointien tarkoituksena on tukea tutkimusta, jossa voidaan ottaa huomioon dokumenttien sisällön päällekkäisyys tai täydentävyys. Interaktiivinen tiedonhaun tutkimus, käyttäjiä koskeva tutkimus ja samantapaiset tutkimustarpeet voisivat hyötyä rikkaammasta relevanssidatasta kontrolloiduissa kokeissa. 3.2 Moniulotteisen datan esittäminen Taulukko 1 on esimerkki moniulotteisen relevanssidatan esittämisestä. Testikokoelman hakuaiheet on jaettu teemoihin. Teemoilla on sama rooli kuin instansseilla interaktiivisessa TREC:ssä (Over 2001), mutta ne ymmärretään yleisemmällä tasolla. Teemoille voidaan antaa eri rooleja erilaisissa hakuaiheissa ja aineistoissa. Uutismateriaalissa teemat voivat liittyä uutisjutun raportoinnin eri vaiheisiin. Esimerkiksi teemat, jotka liittyvät aiheeseen "Junaonnettomuus Jyväskylässä" voidaan jakaa seuraavasti: onnettomuus (mitä tapahtui), seuraukset (kuolleet, loukkaantuneet), henkilökohtaiset kokemukset (haastattelut), onnettomuustutkinta, oikeudenkäynti, onnettomuuden synnyttämä kirjoittelu rautateiden turvallisuudesta yleensä. Tutkimusjulkaisujen kokoelmassa sopivat teemat olisivat erilaisia. Esimerkiksi aihe "Webtiedonhaku käyttäytyminen" voitaisiin jakaa teemoihin: peruskäsitteet, mallit ja teoriat, tutkimusmetodit, empiiriset tulokset, yleiset ympäristöt ja spesifit ympäristöt (informaation tyypit, vrt. Vakkari 2001). Teemojen valinta riippuu hakutehtävästä ja aiheenmukaisten dokumenttien sisällöstä. Teemojen täytyy käsitellä aiheenmukaisuuden eri aspekteja, jotka ovat tarkoituksenmukaisia tarkastelussa olevalle hakutehtävälle. Toisaalta sellaiset aiheenmukaiset aspektit, joita ei käsitellä yhdessäkään dokumenteista voidaan jättää huomioimatta teemojen valinnassa. 15
19 Jokaisen teeman sisällä dokumentin relevanssi voidaan arvioida käyttäen binääristä tai moniportaista asteikkoa. Saantia ja tarkkuutta voidaan käyttää tuloksellisuuden mittareina. Dokumentin moniulotteiset relevanssiarvot voidaan myös muuntaa perinteisiksi yksiulotteisiksi relevanssikorpukseksi, jolloin voidaan tehdä tavanomaisia testejä. Moniulotteinen relevanssikorpus auttaa arvioimaan informaation täydentävyyttä dokumenteissa osoittamalla mitkä dokumentit käsittelevät eri teemoja. Kun dokumentit käsittelevät eri teemoja voidaan soveltaa vuorovaikutteisessa TREC:ssä kehitettyjä tuloksellisuusmittareita kuten instanssisaanti. Kun dokumentit käsittelevät samoja teemoja, on mahdollista, että informaatiosisällöt ovat päällekkäisiä (redundantteja). Kuinka suuri informaatiosisältöjen redundanttisuuden todennäköisyys on teemojen ollessa päällekkäisiä on avoin tutkimuskysymys, johon tämän tutkielman empiirisen osuuden toivotaan antavan vastauksia. Dokumentti id# Teemarelevanssi Teema1 Teema2 Teema3 Teema4 Dok Dok Dok Dok Dok Dok Dok Dok Dok Taulukko 1. Moniulotteisen relevanssidatan esittäminen. 16
20 3.3 Moniulotteisen relevanssidatan arviointiprosessi Perinteisen ja teemaperustaisen relevanssiarvioinnin suurin ero on siinä, että jälkimmäisessä arvioijan täytyy tuntea hakutehtävä hyvin. Arvioijan täytyy myös perehtyä aiheen käsittelyyn eri dokumenteissa kokonaisuutena, jotta teemojen valinta voi tapahtua mielekkäästi. Menetelmän haasteena on se, että varsinainen arviointi tehdään yksi dokumentti kerrallaan, jotta arvioija pystyy suoriutumaan tehtävästä. Kaikkien potentiaalisesti relevanttien dokumenttien rinnakkainen, yhtäaikainen vertailu ylittää arvioijan kapasiteetin. Moniulotteisen relevanssidatan keräämisen vaiheet hakuaiheelle määritellään seuraavasti: 1. Valitaan hakuaihe ja tehdään testihakuja, jotta saadaan selville minkätyyppistä materiaalia on saatavilla ja onko sitä riittävästi. (Ei poikkea normaalista käytännöstä testikokoelmien rakentamisessa.) 2. Vaiheessa 1 valituille potentiaalisesti relevanteille dokumenteille tehdään alustava sisällönanalyysi (vähintään dokumenttia, ainakin osa erittäin relevantteja) ja valitaan teemat. Kaikki teemat dokumentoidaan, jotta saadaan riittävä pohja relevanssiarvioille ja kokoelman ylläpitämiselle. 3. Suunnitellaan ja tehdään kyselyt, jotta löydetään mahdollisimman luotettavasti kaikki potentiaalisesti relevantit dokumentit. (Tämäkin vaihe normaalin testikokoelman mukaista.) 4. Arvioidaan dokumenttien relevanssi suhteessa valittuihin teemoihin. 5. Jos alkuperäisten teemojen määritelmiä pitää muuttaa tai liian laaja teema on jaettava osiin, kaikki tai osa dokumenteista joudutaan arvioimaan uudelleen määriteltyjen ja muokattujen teemojen mukaan. (Sormunen, 2006.) 4. Tutkimustehtävä, aineistot ja menetelmät Moniulotteisia relevanssikorpuksia ei ole vielä käytetty tiedonhakujärjestelmien tutkimuksessa, mutta informaatiotutkimuksen laitoksella on tuotettu menetelmää soveltaen moniulotteinen korpus. Korpusta analysoimalla on mahdollista selvittää korpuksen ominaisuuksia ja arvioida sen käyttökelpoisuutta ajatellussa käytössä. 17
21 Uuden menetelmän kyky tunnistaa sisällöllistä päällekkäisyyttä edellyttää erillistä sisällönanalyysia samoista teemoista kertovista dokumenteista. Tällöin tarkastellaan sitä, kuinka paljon todellista päällekkäisyyttä eri dokumenteissa esiintyy. Vaikka dokumentti kertoo samasta teemasta, ei voida olla varmoja siitä ovatko dokumenttien informaatiosisällöt toisensa korvaavat. Tässä tutkimuksessa pyritään saamaan selville kuinka hyvin tämä menetelmä pystyy kertomaan todellisesta sisällöllisestä päällekkäisyydestä dokumenttien välillä. 4.1 Tutkimuskysymykset Moniulotteisesti relevanssiarvioitu aineisto antaa mahdollisuuden tutkia moniulotteisen relevanssikorpuksen ominaisuuksia, relevanttien dokumenttien sisällöllisiä päällekkäisyyksiä sekä perinteisten ja moniulotteisten relevanssiarvioiden yhteyksiä. Tässä relevanssikorpusta apuna käyttäen tutkitaan seuraavia kysymyksiä: 1. Moniulotteisten relevanssikorpuksien ominaisuudet: Kuinka monta teemaa on valittu hakutehtävää kohden? Kuinka monta teemaa eri relevanssitasoja edustavissa dokumenteissa keskimäärin esiintyy? 2. Perinteisten relevanssiarvioiden suhde teemakohtaisiin relevanssiarvioihin. Korreloivatko teemakohtaiset relevanssiarviot perinteisten relevanssiarvioiden kanssa? 3. Sisällölliseen päällekkäisyyteen liittyvä tarkastelu eli kuinka paljon päällekkäisyyttä esiintyy samoista teemoista kertovien dokumenttien sisällöissä. Miten relevantit dokumentit ovat päällekkäisiä ja täydentävät toisiaan? Lisäksi on tarkoituksena tehdä moniulotteisen relevanssikorpuksen päällekkäisyystarkastelu eli tarkastella kuinka suurta vaihtelua on päällekkäisyydessä eri hakutehtävien välillä. 4. Mikä on todellinen informaation sisällöllinen päällekkäisyys relevanteissa dokumenteissa, jotka käsittelevät päällekkäisiä/ei-päällekkäisiä teemoja? Kuinka paljon todellista informaatiosisältöjen päällekkäisyyttä tai täydentävyyttä esiintyy kahden eri dokumentin saman teeman eri relevanssitasojen välillä. 18
22 4.2 Tutkimusaineisto Testikokoelma Aineistona on TUTK- kokoelmasta 26 hakutehtävää, joista on tehty neliportaiset relevanssiarviot. Informaatiotutkimuksen laitoksen tiedonhakulaboratorion TUTK- kokoelma sisältää kaiken kaikkiaan vuosina ilmestynyttä sanomalehtiartikkelia Aamulehdestä, Keskisuomalaisesta ja Kauppalehdestä. Aamulehden ulkomaan uutisosaston artikkeleita kokoelmassa on , kaikista Keskisuomalaisen osastoista ja kaikista Kauppalehden osastoista Koko tietokanta sisältää 12,5 miljoonaa sanaa. Keskimääräinen artikkelinpituus on 202 sanaa, mediaanipituus 162 sanaa ja keskihajonta 155 sanaa. Kokoelman testikanta sisältää 445 erittäin relevanttia, 833 melko relevanttia ja 1002 marginaalisesti relevanttia dokumenttia (2280 relevanttia dokumenttia yhteensä). (Sormunen, 2000). Nämä artikkelit uudelleen arvioitiin käyttäen moniulotteista relevanssiarviointia Arvioitavat dokumentit Dokumentit on valittu siten, että jokaisesta relevanssitasosta on valittu 5-10 dokumenttia kultakin relevanssitasolta (marginaalisesti, melko ja erittäin relevantit). Dokumentit on valittu 26 sellaisesta hakutehtävästä, joista löytyi vähintään viisi relevanttia dokumenttia kutakin relevanssitasoa kohti. Korkeintaan kymmenen dokumenttia otettiin mukaan kuhunkin relevanssitasoon, joten dokumenttien lukumäärä on 5-10 kutakin relevanssitasoa ja hakuaihetta kohti. Kaiken kaikkiaan moniulotteisesti arvioituja dokumentteja on noin 684 kappaletta 26 eri hakuaiheesta Relevanssiarviot Kaikista 26 hakutehtävästä on tehty moniulotteiset relevanssiarviot. Tässä mukana olevat 26 hakuaihetta on jaettu Informaatiotutkimuksen laitoksella teemoihin siten, että teemojen valinta on sidoksissa tiettyyn hakutehtävään ja siihen liittyvien dokumenttien sisältöön. 19
23 Relevanssiarviointiin perehtynyt tutkija Erkka Leppänen kehitti teemat ja suoritti relevanssiarvioinnin. Teemojen on tarkoitus luonnehtia eri aspekteja kullekin hakutehtävälle. Hakuaiheesta riippuen teemoja on kolmesta yhteentoista hakutehtävää kohti. Keskimäärin 5.2 teemaa hakuaihetta kohti. TUTK- kokoelmassa alkuperäiset relevanssiarviot on tehty neliportaisesti (0,1, 2 ja 3). Teemoittaisessa relevanssiarvioinnissa käytettiin myös neliportaista asteikkoa ja samoja relevanssikriteereitä kuin alkuperäisissä TUTK- kokoelman dokumenttien relevanssiarvioinnissa. Relevanssikriteerit neljälle eri tasolle ovat seuraavat: (Sormunen, 2002). (0) Dokumentti ei sisällä lainkaan informaatiota aiheesta. (1) Dokumentti vain viittaa aiheeseen. Ei sisällä enempää tai lisäinformaatiota aihekuvaukseen nähden. Tyypillinen laajuus: yksi lause tai fakta. (2) Dokumentti sisältää enemmän informaatiota kuin aihekuvaus, mutta aiheen käsittely ei ole syvällistä. Jos aiheeseen sisältyy useita fasetteja, vain osaa alateemoista tai näkökulmista käsitellään dokumentissa. Tyypillinen laajuus: yksi tekstikappale, 2-3 lausetta tai faktaa. (3) Dokumentti käsittelee hakuaiheen teemoja syvällisesti. Jos aiheeseen sisältyy useita fasetteja, kaikkia tai useimpia alateemoista tai näkökulmista käsitellään dokumentissa. Tyypillinen laajuus: useita tekstikappaleita, ainakin 4 lausetta tai faktaa. 4.3 Aineiston analysointi Relevanssikorpuksen ominaisuudet Keskimääräiset tunnusluvut on laskettu kullekin relevanssitasolle teemarelevanssien kokonaispistemäärästä, käsiteltävien teemojen määrästä, käsiteltyjen teemojen relevanssiarvosta ja teemarelevanssien maksimiarvosta. Teemarelevanssin kokonaispistemäärässä on laskettu yhteen kunkin teeman saamat relevanssiarvot. Käsiteltävien teemojen määrässä on laskettu kuinka montaa teemaa kussakin dokumentissa käsitellään. Käsiteltyjen teemojen relevanssiarvo kertoo kuinka suuria relevanssiarvoja käsitellyt teemat ovat keskimäärin saaneet ja teemarelevanssin maksimiarvo 20
24 kertoo mikä on korkein relevanssiarvo minkä kukin dokumentti on saanut teemakohtaisessa arvioinnissa. Vertailun kohteena on kaikki alkuperäisessä relevanssiarvioinnissa marginaalisesti (rel=1), melko (rel=2) ja erittäin (rel=3) relevanteiksi todetut dokumentit. Tarkasteltavana on kunkin dokumentin teemarelevanssiarvot, joita on vertailtu moniportaisen relevanssiarvioinnin eri relevanssitasoilla. Tunnusluvut on laskettu erikseen jokaiselta relevanssitasolta 1, 2 ja 3. Tilastollisen testauksen menetelmistä käytettiin Pearsonin korrelaationtestiä mittaamaan alkuperäisten relevanssiarvioiden ja moniulotteisten relevanssiarvioiden keskinäistä riippuvuutta. Suhteellinen teemapäällekkäisyys eli relevantit dokumentit samasta teemasta mittasi teemapäällekkäisyyttä. Tunnusluvut kertovat kuinka suuri osa relevanteista dokumenteista käsittelee valittua teemaa. Tunnusluvut on laskettu eri teemarelevanssitasoille Sisällönanalyysi artikkelipareittain Todellisten sisältöjen päällekkäisyyksien arviointi edellytti erillistä sisällönanalyysia. Suhteellinen informaatiopäällekkäisyys kertoo kuinka paljon on dokumentteja, joissa on sisällöllistä päällekkäisyyttä. Informaation päällekkäisyys arvioitiin artikkelipareittain. Moniulotteisesta relevanssikorpuksesta valittiin kpl 226 artikkeliparia. Dokumenttiparit valittiin käsin ja valintakriteereitä oli useita: tarkoituksena oli valita pareja niin monesta hakuaiheesta kuin mahdollista, tasoittaa otanta marginaalisesti, melko ja erittäin relevanttien dokumenttien välillä, sisällyttää valintaan sekä teemoittain päällekkäisiä että eipäällekkäisiä artikkelipareja, saada vaihtelevuutta päällekkäisten teemojen lukumäärään ja välttää yksittäisten dokumenttien esiintyvyyttä useasti. Kahdeksan opiskelijan joukko teki päällekkäisyysarvioinnit. Jokaisen artikkeliparin arvioi kaksi eri arvioitsijaa ja jokainen arvioitsija arvioi eri dokumenttipariryhmät. Hakuohjeissa arvioitsijoita pyydettiin tutustumaan hakuaihekuvaukseen, tutkimaan yhtä artikkeliparia kerrallaan ja merkitsemään artikkeleista lauseet, jotka käsittelevät hakuaihetta. Sen jälkeen arvioitsijoiden tuli verrata hakuaihetta käsitteleviä lauseita ja arvioida onko niissä samaa vai erillistä informaatiosisältöä, jonka jälkeen kirjattiin ylös päällekkäistä ja erillistä informaatiota sisältävien 21
25 lauseiden määrä. Kunkin artikkelin päällekkäiselle ja erilliselle informaatiosisällölle annettiin lisäksi relevanssiarvo. Artikkeliparit jaettiin neljään eri ryhmään: 1) Teemat ja sisältö eivät ole päällekkäisiä 2) Teemat ja sisältö ovat päällekkäisiä 3) Teemat ovat päällekkäisiä, mutta sisällöt eivät ja 4) Teemat eivät ole päällekkäisiä, mutta sisällöt ovat. Kategorioissa 1 ja 2 sekä teemarelevanssit ja sisällönarviointi ovat yhdenmukaisia. Kategorioissa 3 ja 4 artikkeliparien sisällönanalyysi oli ristiriidassa moniulotteisen relevanssiarvioinnin kanssa. Joko samasta teemasta kertovat dokumentit eivät sisältäneet päällekkäistä informaatiota (kategoria 3) tai sisällössä oli päällekkäisyyttä vaikka relevanssikorpuksen mukaan artikkeliparilla ei ollut yhteisiä teemoja (kategoria 4). Kategorioiden 3 ja 4 dokumenttipareista tehtiin tarkentava sisällönanalyysi, jolla voitaisiin selittää poikkeamia. 5. Tulokset 5.1 Relevanssikorpuksen ominaisuudet Taulukossa 2 on esitetty yhteenveto kuinka monessa hakuaiheessa arvioija oli valinnut tietyn määrän teemoja. Hakuaiheista oli tunnistettu 3-11 teemaa. Keskimäärin teemoja oli valittu 5,2 kappaletta. Teemojen määrä Hakuaiheiden määrä Keskiarvo 5,2 Yhteensä 35 Taulukko 2. Teemojen jakautuminen hakuaiheiden kesken. 22
26 5.2 Teemarelevanssi vs. perinteinen relevanssi Kaaviossa 3 esitetään yhteenveto teemakohtaisten (eli moniulotteisten) relevanssiarvojen ominaisuuksista eritasoisesti relevanteissa dokumenteissa. Taulukossa on laskettu keskimääräiset tunnusluvut kullekin relevanssitasolle teemarelevanssien kokonaispistemäärästä, käsiteltävien teemojen määrästä, käsiteltyjen teemojen relevanssiarvosta ja teemarelevanssien maksimiarvosta. Taulukosta käy ilmi, että erittäin relevantit dokumentit näyttäisivät saavan korkeampia arvoja kuin vähemmän relevantit dokumentit kaikkien neljän tarkastellun moniulotteisen relevanssikorpuksen tunnusluvun osalta. 5 4,75 4,5 4 3,5 3,48 3 2,5 2 1,79 1,96 2,38 1,85 2,16 2,14 2,68 rel1 rel2 rel3 1,5 1,38 1,29 1,38 1 0,5 0 teemojen kokonaispisteet teemojen määrä teemarelevanssien keskiarvo teemarelevanssin maksimi Kaavio 1. Teemakohtaisten relevanssiarvioiden eri ominaisuuksien jakautuminen eritasoisesti (erittäin, melko ja marginaalisesti) relevanttien dokumenttien kesken. Teemakohtaiset relevanssiarviot näyttävät korreloivan perinteisen relevanssiarvioiden kanssa ja erittäin relevantit dokumentit saavat myös teemakohtaisesti korkeampia arvoja. Taulukosta ilmenee, että jokaisella lasketulla tunnusluvulla erittäin relevantit dokumentit saavat kaikkein korkeimmat arvot, melko relevantit saavat toiseksi korkeimmat arvot ja edelleen jokaisen teemarelevanssiarvon kohdalla marginaalisesti relevantit saavat matalimmat arvot. Kaikkien 23
27 teemarelevanssiarvojen kohdalla löytyi tilastollisesti merkitseviä eroja. Teemarelevanssin kokonaispistemäärä eroaa huomattavasti erittäin relevanttien ja marginaalisesti relevanttien dokumenttien välillä. Erittäin relevantit saavat arvon 4,75 ja marginaalisesti relevantit arvon 1,79, joka tarkoittaa sitä, että keskimäärin teemoittain erittäin relevanteiksi arvioidut dokumentit myös sisältävät enemmän informaatiota hakuaiheen eri teemoista. Tästä johtuen voitaisiin myös olettaa, että erittäin relevanteissa dokumenteissa myös käsitellään aihetta laajemmin. Tilastollinen testaus osoittaa marginaalisesti ja erittäin relevanttien sekä marginaalisesti ja melko relevanttien välisen eron merkitseväksi (p>0,01). Erittäin relevanteissa dokumenteissa käsitellään keskimäärin 2, 38 teemaa, melko relevanteissa 1, 96 ja marginaalisesti relevanteissa dokumenteissa keskimäärin 1, 38 teemaa. Tästä voidaan päätellä, että erittäin relevanttien dokumenttien joukossa käsitellään keskimäärin useampia teemoja, jotka käsittelevät hakuaihetta. Voidaan sanoa, että erittäin relevanteissa dokumenteissa asiaa käsitellään monipuolisemmin. Vain marginaalisesti relevanttien ja erittäin relevanttien välinen vertailu osoittautui tilastollisesti merkitseväksi (p>0,01). Käsiteltävien teemojen relevanssiarvo kertoo minkä arvon käsitellyt teemat ovat keskimäärin saaneet. Teeman esiintyessä se myös saa keskimäärin korkeampia arvoja erittäin relevanttien dokumenttien joukossa. Erittäin relevantit saavat arvon 2,16, melko relevantit arvon 1,85, kun taas marginaalisesti relevantit saavat arvon 1,29. Erittäin relevanttien ja marginaalisesti relevanttien välinen ero osoittautui myöskin tilastollisesti merkitseväksi, kuten myös marginaalisesti ja melko relevanttien välinen vertailu. Teemarelevanssin maksimiarvot ovat myös korkeampia erittäin relevanteissa dokumenteissa, joka tarkoittaa sitä, että erittäin relevantit dokumentit (rel=3) saavat useammin korkeimman arvon, keskiarvon ollessa 2,68. Marginaalisesti relevantit saavat arvon 1,38, joka kertoo myös siitä, että niissäkin esiintyy dokumentteja, jotka saavat ykköstä suuremman teemarelevanssiarvon. Tämä viittaa siihen, että myös marginaalisesti relevantit dokumentit saattaisivat sisältää hyödyllistä informaatiota. Toisaalta kyse voi olla myöskin arvioiden välisistä tulkintaeroista. Eri teemojen saamat teemarelevanssi maksimit vaihtelevat kuitenkin 24
Ulla Lehtoranta. Pro gradu -tutkielma. Tampereen yliopisto Informaatiotutkimuksen laitos
Ulla Lehtoranta Moniulotteisen relevanssiarviointimenetelmän demonstrointi Internet-aineistoissa tiedonhakuaiheina Bernadette Soubirous, Heidi Hautala, Mauri Kunnas ja Madonna Ritchie Pro gradu -tutkielma
LisätiedotSimuloidun tehtävän vaikutus kyselyn muodostukseen: INEX 2004-hankkeen vuorovaikutteisen tiedonhaun tutkimuslinja
Simuloidun tehtävän vaikutus kyselyn muodostukseen: INEX 2004-hankkeen vuorovaikutteisen tiedonhaun tutkimuslinja Mervi Nurmela Tampereen yliopisto Informaatiotutkimuksen laitos Pro gradu tutkielma Marraskuu
LisätiedotMoniarvoisen relevanssin hyödyntäminen XML-tiedonhakujen evaluoinnissa
Moniarvoisen relevanssin hyödyntäminen XML-tiedonhakujen evaluoinnissa Pro gradu -tutkielma Mikko Saari (67578) Tampereen yliopisto Informaatiotutkimuksen laitos 2006 TAMPEREEN YLIOPISTO Informaatiotutkimuksen
LisätiedotPro gradu -tutkielmien arvostelu maantieteessä
Pro gradu -tutkielmien arvostelu maantieteessä Tutkielman arvostelussa on käytössä viisiportainen asteikko (1-5): o Ykkönen (1) merkitsee, että työ on hyväksyttävissä, mutta siinä on huomattavia puutteita.
LisätiedotSisällönanalyysi. Sisältö
Sisällönanalyysi Kirsi Silius 14.4.2005 Sisältö Sisällönanalyysin kohde Aineistolähtöinen sisällönanalyysi Teoriaohjaava ja teorialähtöinen sisällönanalyysi Sisällönanalyysi kirjallisuuskatsauksessa 1
LisätiedotLaadullinen tutkimus. KTT Riku Oksman
Laadullinen tutkimus KTT Riku Oksman Kurssin tavoitteet oppia ymmärtämään laadullisen tutkimuksen yleisluonnetta oppia soveltamaan keskeisimpiä laadullisia aineiston hankinnan ja analysoinnin menetelmiä
LisätiedotFakta- ja näytenäkökulmat. Pertti Alasuutari Tampereen yliopisto
Fakta- ja näytenäkökulmat Pertti Alasuutari Tampereen yliopisto Mikä on faktanäkökulma? sosiaalitutkimuksen historia: väestötilastot, kuolleisuus- ja syntyvyystaulut. Myöhemmin kysyttiin ihmisiltä tietoa
LisätiedotCIRI Ontologiaperustainen tiedonhakuliittymä
CIRI Ontologiaperustainen tiedonhakuliittymä Eija Airio, Kalervo Järvelin, Sari Suomela, Pirkko Saatsi ja Jaana Kekäläinen Tampereen yliopisto Informaatiotutkimuksen laitos Ontologian kolmitasomalli kehitetty
LisätiedotSeuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.
T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset, ti 7.2.200, 8:30-0:00 Tiedon haku, Versio.0. Muutetaan tehtävässä annettu taulukko sellaiseen muotoon, joka paremmin sopii ensimmäisten mittojen
LisätiedotSosiaalisten verkostojen data
Sosiaalisten verkostojen data Hypermedian jatko-opintoseminaari 2008-09 2. luento - 17.10.2008 Antti Kortemaa, TTY/Hlab Wasserman, S. & Faust, K.: Social Network Analysis. Methods and Applications. 1 Mitä
LisätiedotTeoreettisen viitekehyksen rakentaminen
Teoreettisen viitekehyksen rakentaminen Eeva Willberg Pro seminaari ja kandidaatin opinnäytetyö 26.1.09 Tutkimuksen teoreettinen viitekehys Tarkoittaa tutkimusilmiöön keskeisesti liittyvän tutkimuksen
LisätiedotHarjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
LisätiedotRakenne-ehtojen merkitys XML-tiedonhaussa: INEX 03:n ja INEX 04:n CAS-hakutehtävien ja saantikantojen tarkastelua. Minna Marjamaa
Rakenne-ehtojen merkitys XML-tiedonhaussa: INEX 03:n ja INEX 04:n CAS-hakutehtävien ja saantikantojen tarkastelua Minna Marjamaa Tampereen yliopisto Informaatiotutkimuksen laitos Pro gradu -tutkielma toukokuu
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 11. lokakuuta 2007 Antti Rasila () TodB 11. lokakuuta 2007 1 / 15 1 Johdantoa tilastotieteeseen Peruskäsitteitä Tilastollisen kuvailun ja päättelyn menetelmiä
LisätiedotMitä on sisällönkuvailu
Mitä on sisällönkuvailu Esko Siirala Helsingin yliopiston kirjasto HELKA-kirjastojen sisällönkuvailuiltapäivä 09.09.201 Helsingin yliopiston kirjasto / Esko Siirala / Mitä sisällönkuvailu on. 1 Sisällönkuvailu
LisätiedotMONISTE 2 Kirjoittanut Elina Katainen
MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi
LisätiedotLIITE 1 VIRHEEN ARVIOINNISTA
1 LIITE 1 VIRHEEN ARVIOINNISTA Mihin tarvitset virheen arviointia? Mittaustulokset ovat aina todellisten luonnonvakioiden ja tutkimuskohdetta kuvaavien suureiden likiarvoja, vaikka mittauslaite olisi miten
LisätiedotVankien poistumislupakäytännöt ja niiden yhteneväisyys
Miten tutkimuskysymyksiin on etsitty vastausta? Kolme esimerkkiä kriminologisista tutkimuksista Vankien poistumislupakäytännöt ja niiden yhteneväisyys Tutkimuksen tavoite 1: Selvittää empiirisesti vankien
LisätiedotLIITE 1 VIRHEEN ARVIOINNISTA
Oulun yliopisto Fysiikan opetuslaboratorio Fysiikan laboratoriotyöt 1 1 LIITE 1 VIRHEEN RVIOINNIST Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi
LisätiedotRekisterit tutkimusaineistona: tieteenfilosofis-metodologiset lähtökohdat
Reijo Sund Rekisterit tutkimusaineistona: tieteenfilosofis-metodologiset lähtökohdat Rekisterit tutkimuksen apuvälineenä kurssi, Biomedicum, Helsinki 25.05.2009 Kevät 2009 Rekisterit tutkimusaineistona
LisätiedotARVO - verkkomateriaalien arviointiin
ARVO - verkkomateriaalien arviointiin Arvioitava kohde: Jenni Rikala: Aloittavan yrityksen suunnittelu, Arvioija: Heli Viinikainen, Arviointipäivämäärä: 12.3.2010 Osa-alue 1/8: Informaation esitystapa
LisätiedotOpiskelijoiden tiedontarpeet ja viitteiden hyödyllisyys tutkimussuunnitelman laatimista varten tehdyissä tiedonhauissa
TAMPEREEN YLIOPISTO Sami Serola Opiskelijoiden tiedontarpeet ja viitteiden hyödyllisyys tutkimussuunnitelman laatimista varten tehdyissä tiedonhauissa Informaatiotutkimuksen pro gradu tutkielma Tampere
LisätiedotArviointimenetelmät ja mittarit hyödyn raportoinnissa
Arviointimenetelmät ja mittarit hyödyn raportoinnissa 2019 1. Arviointimenetelmien käyttö hyödyn raportoinnissa Kuntoutuksesta saatavaa hyötyä arvioidaan kuntoutujien näkökulmasta, palveluntuottajien arvioinnin
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon
LisätiedotPerimmäinen kysymys. Työllistämisen tukitoimien vaikuttavuuden arvioinnista. Mitkä ovat tukitoimen X vaikutukset Y:hyn? Kari Hämäläinen (VATT)
Työllistämisen tukitoimien vaikuttavuuden arvioinnista Kari Hämäläinen (VATT) VATES päivät, 5.5.2015 Perimmäinen kysymys Mitkä ovat tukitoimen X vaikutukset Y:hyn? 1 Kolme ehtoa kausaaliselle syy seuraussuhteelle
LisätiedotOhjelmistotekniikan menetelmät, luokkamallin laatiminen
582101 - Ohjelmistotekniikan menetelmät, luokkamallin laatiminen 1 Lähestymistapoja Kokonaisvaltainen lähestymistapa (top-down) etsitään kerralla koko kohdealuetta kuvaavaa mallia hankalaa, jos kohdealue
LisätiedotPSY181 Psykologisen tutkimuksen perusteet, kirjallinen harjoitustyö ja kirjatentti
PSY181 Psykologisen tutkimuksen perusteet, kirjallinen harjoitustyö ja kirjatentti Harjoitustyön ohje Tehtävänäsi on laatia tutkimussuunnitelma. Itse tutkimusta ei toteuteta, mutta suunnitelman tulisi
LisätiedotRelevanssipalautteen toimivuus lyhyillä, eritasoisesti onnistuneilla aloituskyselyillä. Jari Friman
Relevanssipalautteen toimivuus lyhyillä, eritasoisesti onnistuneilla aloituskyselyillä Jari Friman Tampereen yliopisto Informaatiotutkimuksen laitos Pro gradu -tutkielma Syyskuu 2008 TIIVISTELMÄ TAMPEREEN
LisätiedotKoulutusohjelman vastuunhenkilön hyväksyntä nimen selvennys, virka-asema / arvo
Oulun yliopisto Lääketieteellinen tiedekunta Terveystieteiden laitos PRO GRADU-TUTKIELMAN ARVIOINTILOMAKE Tutkielman tekijä(t): Tutkielman nimi: Pääaine: Tutkielman ohjaaja(t): Tutkielman arviointi Tutkielman
LisätiedotOtannasta ja mittaamisesta
Otannasta ja mittaamisesta Tilastotiede käytännön tutkimuksessa - kurssi, kesä 2001 Reijo Sund Aineistot Kvantitatiivisen tutkimuksen aineistoksi kelpaa periaatteessa kaikki havaintoihin perustuva informaatio,
LisätiedotTiedonhakukäyttäytyminen vuorovaikutteisessa tiedonhakutilanteessa: Tuloslistasta katsotun dokumentin vaikutus hakuavaimen valintaan kyselyn
Tiedonhakukäyttäytyminen vuorovaikutteisessa tiedonhakutilanteessa: Tuloslistasta katsotun dokumentin vaikutus hakuavaimen valintaan kyselyn uudelleen muotoilussa Anna-Kaisa Hyrkkänen Tampereen yliopisto
LisätiedotYLEISKUVA - Kysymykset
INSIGHT Käyttöopas YLEISKUVA - Kysymykset 1. Insight - analysointityökalun käytön mahdollistamiseksi täytyy kyselyn raportti avata Beta - raportointityökalulla 1. Klikkaa Insight välilehteä raportilla
LisätiedotTilastollinen testaus. Vilkkumaa / Kuusinen 1
Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää
LisätiedotAineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin
Aineistoista 11.2.09 IK Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin Muotoilussa kehittyneet menetelmät, lähinnä luotaimet Havainnointi:
LisätiedotLIITE 1 VIRHEEN ARVIOINNISTA
1 Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi miten uudenaikainen tai kallis tahansa ja mittaaja olisi alansa huippututkija Tästä johtuen mittaustuloksista
Lisätiedot6 TARKASTELU. 6.1 Vastaukset tutkimusongelmiin
173 6 TARKASTELU Hahmottavassa lähestymistavassa (H-ryhmä) käsitteen muodostamisen lähtökohtana ovat havainnot ja kokeet, mallintavassa (M-ryhmä) käsitteet, teoriat sekä teoreettiset mallit. Edellinen
LisätiedotTuoreita näkökulmia kirjastojen vaikuttavuuteen. Sami Serola esittelee Tampereen yliopiston opiskelijoiden opinnäytetöitä
Tuoreita näkökulmia kirjastojen vaikuttavuuteen Sami Serola esittelee Tampereen yliopiston opiskelijoiden opinnäytetöitä Eero Niittymaa: Yleisten kirjastojen vaikuttavuuden arviointi Informaatiotutkimuksen
LisätiedotOntologiaperustaisen WebExplorer-tiedonhakujärjestelmän käyttäjätestaus eduskunnan sisäisessä tietopalvelussa ja kirjastossa.
Ontologiaperustaisen WebExplorer-tiedonhakujärjestelmän käyttäjätestaus eduskunnan sisäisessä tietopalvelussa ja kirjastossa Anne Keskimaa Tampereen yliopisto Informaatiotutkimuksen ja interaktiivisen
LisätiedotOpetus ja oppiminen verkossa. Erno Lehtinen Turun yliopisto
Opetus ja oppiminen verkossa Erno Lehtinen Turun yliopisto Virtuaaliyliopistotoiminnan kokemukset Virtuaaliyliopisto poliittisena projektina Avoimen yliopisto-opetuksen ja kampuspohjaisen opetuksen näkökulmat
LisätiedotArviointi ja mittaaminen
Arviointi ja mittaaminen Laatuvastaavien koulutus 5.6.2007 pirjo.halonen@adm.jyu.fi 014 260 1180 050 428 5315 Arviointi itsearviointia sisäisiä auditointeja ulkoisia auditointeja johdon katselmusta vertaisarviointeja
LisätiedotPalvelun versio 1.0 Toimeenpanopalvelun tunnus (ks. M ) 10fea, 9c2f, 4760, 9095, f4f9295f4b19
1 5. Luokittamispalvelu 5.1. Palveluinformaatio Palvelun nimi Luokittamispalvelu Palvelun versio 1.0 Toimeenpanopalvelun tunnus (ks. M14.4.42) 10fea, 9c2f, 4760, 9095, f4f9295f4b19 5.2 Avainkäsitteet 5.2.1
LisätiedotTilastotieteen jatkokurssi syksy 2003 Välikoe 2 11.12.2003
Nimi Opiskelijanumero Tilastotieteen jatkokurssi syksy 2003 Välikoe 2 11.12.2003 Normaalisti jakautuneiden yhdistyksessä on useita tuhansia jäseniä. Yhdistyksen sääntöjen mukaan sääntöihin tehtävää muutosta
LisätiedotJärvitesti Ympäristöteknologia T571SA 7.5.2013
Hans Laihia Mika Tuukkanen 1 LASKENNALLISET JA TILASTOLLISET MENETELMÄT Järvitesti Ympäristöteknologia T571SA 7.5.2013 Sarkola Eino JÄRVITESTI Johdanto Järvien kuntoa tutkitaan monenlaisilla eri menetelmillä.
LisätiedotNollasummapelit ja bayesilaiset pelit
Nollasummapelit ja bayesilaiset pelit Kristian Ovaska HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Seminaari: Peliteoria Helsinki 18. syyskuuta 2006 Sisältö 1 Johdanto 1 2 Nollasummapelit 1 2.1
LisätiedotTUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas LUENNOT Luento Paikka Vko Päivä Pvm Klo 1 L 304 8 Pe 21.2. 08:15-10:00 2 L 304 9 To 27.2. 12:15-14:00 3 L 304 9 Pe 28.2. 08:15-10:00 4 L 304 10 Ke 5.3.
LisätiedotJohdanto. Rough Sets. Peruskäsitteitä
Johdanto Rough Sets "The central problem of our age is how to act decisively in the absence of certainty" B Russel, 1940 Rough sets on 1980-luvun alussa Puolassa (Z Pawlak) kehitetty epävarmuutta ja epämääräisyyttä
LisätiedotMiksi vaikuttavuuden osoittaminen on niin tärkeää?
Miksi vaikuttavuuden osoittaminen on niin tärkeää? Vaikuttavuus ja arviointi etsivässä työsää Valli ry:n seminaarissa 24.8.2018 Petri Uusikylä, Suomen arviointiyhdistys Mitä on arviointi? Arviointi (evaluaatio)
LisätiedotVäliestimointi (jatkoa) Heliövaara 1
Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).
LisätiedotJärvi 1 Valkjärvi. Järvi 2 Sysijärvi
Tilastotiedettä Tilastotieteessä kerätään tietoja yksittäisistä asioista, ominaisuuksista tai tapahtumista. Näin saatua tietoa käsitellään tilastotieteen menetelmin ja saatuja tuloksia voidaan käyttää
LisätiedotEtsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen
Etsintä verkosta (Searching from the Web) T-61.2010 Datasta tietoon Heikki Mannila, Jouni Seppänen 12.12.2007 Webin lyhyt historia http://info.cern.ch/proposal.html http://browser.arachne.cz/screen/
LisätiedotMiehittämättömän lennokin ottamien ilmakuvien käyttö energiakäyttöön soveltuvien biomassojen määrän nopeassa arvioinnissa
Miehittämättömän lennokin ottamien ilmakuvien käyttö energiakäyttöön soveltuvien biomassojen määrän nopeassa arvioinnissa Anna Lopatina, Itä-Suomen yliopisto, Metsätieteiden osasto, Anna.lopatina@uef.fi
LisätiedotTehokkaiden strategioiden identifiointi vakuutusyhtiön taseesta
MS E2177 Operaatiotutkimuksen projektityöseminaari Väliraportti Tehokkaiden strategioiden identifiointi vakuutusyhtiön taseesta 28.3.2016 Asiakas: Model IT Projektiryhmä: Niko Laakkonen (projektipäällikkö),
LisätiedotLuentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty 30.11.2012
Luentokalvoja tilastollisesta päättelystä Kalvot laatinut Aki Taanila Päivitetty 30.11.2012 Otanta Otantamenetelmiä Näyte Tilastollinen päättely Otantavirhe Otanta Tavoitteena edustava otos = perusjoukko
LisätiedotTutkimusyksikön johtajan/tutkinto-ohjelman vastuunhenkilön hyväksyntä
Oulun yliopisto Hoitotieteen ja terveyshallintotieteen tutkimusyksikkö PRO GRADU-TUTKIELMAN ARVIOINTILOMAKE Tutkielman tekijä(t): Tutkielman nimi: Pääaine: Tutkielman ohjaaja(t): Tutkielman arviointi Tutkielman
LisätiedotJULKISTEN VERKKOPALVELUJEN LAATUKRITEERISTÖN KONSEPTI
JULKISTEN VERKKOPALVELUJEN LAATUKRITEERISTÖN KONSEPTI Onesta Solutions Oy Pasilanraitio 5 00240 HELSINKI www.onesta.fi 2/6 Versiohistoria Versio Pvm Selitys Muutokset Tekijät 0.1 26.3.2007 Alustava versio
LisätiedotTarkastelen suomalaisen taloustieteen tutkimuksen tilaa erilaisten julkaisutietokantojen avulla. Käytän myös kerättyjä tietoja yliopistojen
1 2 3 Tarkastelen suomalaisen taloustieteen tutkimuksen tilaa erilaisten julkaisutietokantojen avulla. Käytän myös kerättyjä tietoja yliopistojen opettajien tutkimusalueista. 4 Kuviossa 1 esitetään kansantaloustieteen
LisätiedotABHELSINKI UNIVERSITY OF TECHNOLOGY
Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf
LisätiedotPolitiikka-asiakirjojen retoriikan ja diskurssien analyysi
Politiikka-asiakirjojen retoriikan ja diskurssien analyysi Perustuu väitöskirjaan Sukupuoli ja syntyvyyden retoriikka Venäjällä ja Suomessa 1995 2010 Faculty of Social Sciences Näin se kirjoitetaan n Johdanto
LisätiedotPysähdy! Nyt on syytä miettiä tämä asia uudelleen. Kiinnitä huomiosi tähän. Hienoa, jatka samaan malliin. Innokylän arviointimittari
Innokylän arviointimittari Innokylän arviointimittari on kehittämistoiminnan itse- ja vertaisarvioinnin työkalu, jonka avulla arvioidaan kehittämisprosessia ja kehittämisen tavoitteiden saavuttamista.
LisätiedotVerkostoanalyysi yritysten verkostoitumista tukevien EAKRhankkeiden arvioinnin menetelmänä. Tamás Lahdelma ja Seppo Laakso
Verkostoanalyysi yritysten verkostoitumista tukevien EAKRhankkeiden arvioinnin menetelmänä Tamás Lahdelma ja Seppo Laakso Euroopan aluekehitysrahasto-ohjelmien arviointi alueellisten osaamisympäristöjen
LisätiedotKäsitteistä. Reliabiliteetti, validiteetti ja yleistäminen. Reliabiliteetti. Reliabiliteetti ja validiteetti
Käsitteistä Reliabiliteetti, validiteetti ja yleistäminen KE 62 Ilpo Koskinen 28.11.05 empiirisessä tutkimuksessa puhutaan peruskurssien jälkeen harvoin "todesta" ja "väärästä" tiedosta (tai näiden modernimmista
LisätiedotTUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas
TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma)
LisätiedotYHTEISET TYÖPAIKAT TUTKIMUS-, VALVONTA- JA VIESTINTÄHANKKEEN TUTKIMUSOSIO YHTEISET TYÖPAIKAT KOKOUS 4/2016, PÄIVI KEKKONEN, SUUNNITTELIJA
YHTEISET TYÖPAIKAT TUTKIMUS-, VALVONTA- JA VIESTINTÄHANKKEEN TUTKIMUSOSIO YHTEISET TYÖPAIKAT KOKOUS 4/2016, 6.9.2016 PÄIVI KEKKONEN, SUUNNITTELIJA TUTKIMUSOSION TOTEUTUS Ajoittuu aikavälille heinäkuu-joulukuu
LisätiedotTIEDONHAKU INTERNETISTÄ
TIEDONHAKU INTERNETISTÄ Internetistä löytyy hyvin paljon tietoa. Tietoa ei ole mitenkään järjestetty, joten tiedonhaku voi olla hankalaa. Tieto myös muuttuu jatkuvasti. Tänään tehty tiedonhaku ei anna
LisätiedotLAADULLISESTA SISÄLLÖNANALYYSISTÄ
LAADULLISESTA SISÄLLÖNANALYYSISTÄ Aineiston ja teorian suhde INDUKTIIVINEN ANALYYSI Tulokset/teoria muodostetaan aineiston perusteella Tutkimuskysymykset muotoutuvat analyysin edetessä ABDUKTIIVINEN ANALYYSI
LisätiedotJohdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen TKK (c) Ilkka Mellin (2005) 1 ja mittaaminen Tilastollisten aineistojen kerääminen Mittaaminen ja mitta-asteikot TKK (c)
LisätiedotJohdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1
Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin
LisätiedotSUOMEN TILINTARKASTAJAT RY:N JÄSENKYSELY ISA- STANDARDIEN SUHTEELLISESTA SOVELTAMISESTA SYKSY 2018
SUOMEN TILINTARKASTAJAT RY:N JÄSENKYSELY ISA- STANDARDIEN SUHTEELLISESTA SOVELTAMISESTA SYKSY 2018 Jäsenkysely 2018 Kysyimme jäseniltämme, kuinka usein he ovat kohdanneet annettuihin aihealueisiin liittyviä
LisätiedotLääketieteen opiskelijoiden Medline-hakuprosessin tuloksellisuus kliinisen ongelmanratkaisun yhteydessä
Lääketieteen opiskelijoiden Medline-hakuprosessin tuloksellisuus kliinisen ongelmanratkaisun yhteydessä Saila Huuskonen Tampereen yliopisto Informaatiotutkimuksen laitos Pro gradu -tutkielma Toukokuu 2006
LisätiedotVALTAKUNNALLISIA TARKASTELUJA
VALTAKUNNALLISIA TARKASTELUJA PELASTUSTOIMINNAN TYÖKUORMAN AJALLISESTA VAIHTELUSTA Pelastustoimen tutkijatapaaminen, Kuopio 6.6.2018 Hanna Rekola, Helsingin pelastuslaitos UUDENLAISIA NÄKÖKULMIA RESURSSIEN
LisätiedotAiheen rajaus Tutkimussuunnitelma
Aiheen rajaus Tutkimussuunnitelma Digitaalisen kulttuurin tutkimusmenetelmät 5.2. 2008 Aiheen rajaaminen Aihepiirin täsmentäminen ja supistaminen Aihetta helpompi tutkia Mahdollistaa syvemmän analyysin
LisätiedotTUKIMATERIAALI: Arvosanan kahdeksan alle jäävä osaaminen
1 FYSIIKKA Fysiikan päättöarvioinnin kriteerit arvosanalle 8 ja niitä täydentävä tukimateriaali Opetuksen tavoite Merkitys, arvot ja asenteet T1 kannustaa ja innostaa oppilasta fysiikan opiskeluun T2 ohjata
LisätiedotEssity Engagement Survey 2018
Essity Engagement Survey 2018 Tiimiraportin luomisohje EUCUSA Consulting GmbH Mariahilfer Straße 187/39 A-1150 Wien Tel: +43-1-817 40 20-0 Fax: DW 20 FN 174750 k Handelsgericht Wien www.eucusa.com e-mail:
LisätiedotKandidaatintutkielman arviointikriteerit
Kandidaatintutkielman arviointikriteerit Kandidaatintutkielman laajuus on 10 op, josta kypsyysnäyte 1 op ja tieteellinen tiedonhankinta 2 op. Kuvataidekasvatuksen koulutusohjelmassa tieteellinen tiedonhankinta
LisätiedotNe liittyvät samaan henkilöön, paikkaan, projektiin, asiaan, asiakkaaseen, tapahtumaan tai seikkaan.
6. Asiakirjapalvelu 6.1 PALVELUINFORMAATIO Palvelun nimi Asiakirjapalvelu Palvelun versio 1.0 Tunnus (ks. M14.4.42) 6.2 Avainkäsitteet 6.2.1 Tarkoituksenmukainen asiakirjakoosteiden muodostaminen MoReq2010
LisätiedotLaadullisen tutkimuksen piirteitä
Laadullisen aineiston luotettavuus Kasvatustieteiden laitos/ Erityispedagogiikan yksikkö Eeva Willberg 16.2.09 Laadullisen tutkimuksen piirteitä Laadullisessa tutkimuksessa tutkitaan ihmisten elämää, tarinoita,
LisätiedotNellin matala käyttöaste syyt? (Stadia / AMK) :
Nellin matala käyttöaste syyt? (Stadia / AMK) : 1) Opetuksen resurssit 2) Nellin laajuus ja tekniset kompastuskivet 3) AMK:ien tutkimuskulttuuri 1) Opetuksen resurssit aikaa pahimmillaan noin 2h / ryhmä,
LisätiedotTanja Saarenpää Pro gradu-tutkielma Lapin yliopisto, sosiaalityön laitos Syksy 2012
Se on vähän niin kuin pallo, johon jokaisella on oma kosketuspinta, vaikka se on se sama pallo Sosiaalityön, varhaiskasvatuksen ja perheen kokemuksia päiväkodissa tapahtuvasta moniammatillisesta yhteistyöstä
LisätiedotKäytettävyyslaatumallin rakentaminen verkkosivustolle
Käytettävyyslaatumallin rakentaminen verkkosivustolle Tapaus kirjoittajan ABC-kortti Oulun yliopisto tietojenkäsittelytieteiden laitos pro gradu -tutkielma Timo Laapotti 9.6.2005 Esityksen sisältö Kirjoittajan
LisätiedotEne-58.4139 LVI-tekniikan mittaukset ILMAN TILAVUUSVIRRAN MITTAUS TYÖOHJE
Ene-58.4139 LVI-tekniikan mittaukset ILMAN TILAVUUSVIRRAN MITTAUS TYÖOHJE Aalto yliopisto LVI-tekniikka 2013 SISÄLLYSLUETTELO TILAVUUSVIRRAN MITTAUS...2 1 HARJOITUSTYÖN TAVOITTEET...2 2 MITTAUSJÄRJESTELY
LisätiedotTilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin
Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta
LisätiedotAiheesta tutkimussuunnitelmaan
Aiheesta tutkimussuunnitelmaan Aihepiiri Kiinnostaa, mutta ei ole liian tuttu oppii jotain uutta Mikä on se kysymys tai asia, jonka haluan selvittää? Miten jalostan pähkäilyni tieteellisesti tarkasteltavaksi
LisätiedotFiction searching from an enriched library web service
Fiction searching from an enriched library web service Anna Mikkonen, Tohtoriopiskelija, Tampereen yliopisto Memornetin syysseminaari 10. 11.10.2013/Tampere Esityksen sisältö Väitöstutkimuksen tausta ja
LisätiedotTiedonhaku: miten löytää näyttöön perustuva tieto massasta. 3.12.2009 Leena Lodenius
Tiedonhaku: miten löytää näyttöön perustuva tieto massasta 3.12.2009 Leena Lodenius 1 Tutkimusnäytön hierarkia Näytön taso Korkein Systemaattinen katsaus ja Meta-analyysi Satunnaistettu kontrolloitu kliininen
LisätiedotHyvin toimivien hakulausekkeiden muotoilu ja hakujen onnistumiseen vaikuttavat tekijät täys- ja osittaistäsmäyttävässä hakujärjestelmässä
Hyvin toimivien hakulausekkeiden muotoilu ja hakujen onnistumiseen vaikuttavat tekijät täys- ja osittaistäsmäyttävässä hakujärjestelmässä Tampereen yliopisto Informaatiotutkimuksen laitos Informaatiotutkimuksen
LisätiedotTekijä(t) Vuosi Nro. Arviointikriteeri K E? NA
JBI: Arviointikriteerit kvasikokeelliselle tutkimukselle 29.11.2018 Tätä tarkistuslistaa käytetään kvasikokeellisen tutkimuksen metodologisen laadun arviointiin ja tutkimuksen tuloksiin vaikuttavan harhan
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen
LisätiedotTentti erilaiset kysymystyypit
Tentti erilaiset kysymystyypit Kysymystyyppien kanssa kannatta huomioida, että ne ovat yhteydessä tentin asetuksiin ja erityisesti Kysymysten toimintatapa-kohtaan, jossa määritellään arvioidaanko kysymykset
LisätiedotLomalista-sovelluksen määrittely
Thomas Gustafsson, Henrik Heikkilä Lomalista-sovelluksen määrittely Metropolia Ammattikorkeakoulu Insinööri (AMK) Tietotekniikka Dokumentti 14.10.2013 Tiivistelmä Tekijä(t) Otsikko Sivumäärä Aika Thomas
Lisätiedotr = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.
A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät
LisätiedotOpasluonnosten ja suunnitelmien esittely
Opasluonnosten ja suunnitelmien esittely Hyvät-käytännöt seminaari 13.5.2014 Elisa Vallius, Jyväskylän yliopisto Jyri Mustajoki, SYKE IMPERIAn opastyön taustaa Oppaat ovat IMPERIA hankkeen tuotoksia, joilla
LisätiedotOvid Medline käyttöohjeita (10/2010)
Ovid Medline käyttöohjeita (10/2010) Sisältö 1. Pikahaku - Basic Search:... - 1-2. Tarkennettu haku asiasanoilla - Advanced Ovid Search... - 1-3. Tulosjoukkojen yhdistely... - 5-4. Vapaasanahaku yksittäisellä
LisätiedotFiksusti verkossa: Opettaja nettilukemisen tukijana
Fiksusti verkossa: Opettaja nettilukemisen tukijana Carita Kiili Kasvatustieteiden laitos Jyväskylän yliopisto Kuva: Susanna Andersson Internetlukemisen prosessimalli (muokattu Eagleton & Dobler 2007,78)
Lisätiedot1. Johdanto. Näkökulma dokumentti kohteena on yksinkertaistettu: - www-sivu tai -sivujoukko - monimutkainen tiedontarve
Tiedonhakumenetelmät, k.01 1 Luku 1. Johdanto 1. Johdanto IR (Information Retrieval; Information Storage and Retrieval) Tiedonhaku = prosessit, jotka liittyvät tiedon esittämiseen organisointiin tallentamiseen
LisätiedotMittaamisen maailmasta muutamia asioita. Heli Valkeinen, erikoistutkija, TtT TOIMIA-verkoston koordinaattori
Mittaamisen maailmasta muutamia asioita Heli Valkeinen, erikoistutkija, TtT TOIMIA-verkoston koordinaattori SISÄLTÖ 1. Mittari vs. indikaattori vs. menetelmä - mittaaminen 2. Luotettavat mittarit 3. Arvioinnin
LisätiedotPro gradu - tutkielma. Kasvatustieteiden tiedekunta, Oulun yliopisto KT HANNU Heikkinen
Pro gradu - tutkielma Kasvatustieteiden tiedekunta, Oulun yliopisto KT HANNU Heikkinen Usein kysyttyjä kysymyksiä infon teemat Pro gradu-tutkielman lähtökohdat Kandista graduun vai uusi tutkielma? Yksin
LisätiedotGradu-seminaari (2016/17)
Gradu-seminaari (2016/17) Tavoitteet Syventää ja laajentaa opiskelijan tutkimusvalmiuksia niin, että hän pystyy itsenäisesti kirjoittamaan pro gradu -tutkielman sekä käymään tutkielmaa koskevaa tieteellistä
LisätiedotKYSELYNKÄSITTELYMENETELMIEN EVALUOINTITUTKIMUS SUOMALAISEN VERKKOARKISTON TAIVUTUSMUOTOINDEKSIÄ KÄYTTÄEN. Petteri Veikkolainen
KYSELYNKÄSITTELYMENETELMIEN EVALUOINTITUTKIMUS SUOMALAISEN VERKKOARKISTON TAIVUTUSMUOTOINDEKSIÄ KÄYTTÄEN Petteri Veikkolainen Tampereen yliopisto Informaatiotieteiden yksikkö Informaatiotutkimus ja interaktiivinen
LisätiedotMTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO
8.9.2016/1 MTTTP1 Tilastotieteen johdantokurssi Luento 8.9.2016 1 JOHDANTO Tilastotiede menetelmätiede, joka käsittelee - tietojen hankinnan suunnittelua otantamenetelmät, koejärjestelyt, kyselylomakkeet
Lisätiedot