Etsikäät hywää ja älläät pahaa. Tiedonhakumenetelmien tuloksellisuuden vertailu merkkivirheitä sisältävässä historiallisessa sanomalehtikokoelmassa
|
|
- Johanna Penttilä
- 9 vuotta sitten
- Katselukertoja:
Transkriptio
1 Etsikäät hywää ja älläät pahaa. Tiedonhakumenetelmien tuloksellisuuden vertailu merkkivirheitä sisältävässä historiallisessa sanomalehtikokoelmassa Ismo Raitanen Tampereen yliopisto Informaatiotieteiden yksikkö Informaatiotutkimus ja interaktiivinen media Pro gradu -tutkielma Toukokuu 2012
2 TAMPEREEN YLIOPISTO, Informaatiotieteiden yksikkö Informaatiotutkimus ja interaktiivinen media RAITANEN, ISMO: Etsikäät hywää ja älläät pahaa. Tiedonhakumenetelmien tuloksellisuuden vertailu merkkivirheitä sisältävässä historiallisessa sanomalehtikokoelmassa Pro gradu -tutkielma, 68 s., 5 liites. Toukokuu 2012 Tutkielmani aiheena on vanhoihin suomenkielisiin sanomalehtiin kohdistuva tiedonhaku. Sanomalehtien digitoinnissa tapahtuu merkintunnistusvirheitä, jolloin dokumenttikokoelmaan päätyy roskaista tekstiä. Lisäksi vanha kieli aiheuttaa omat haasteensa tiedonhakijalle. Merkintunnistusongelmista ja historiallisesta kielestä johtuen kyselyjen ja dokumenttien sanastot eivät kohtaa, eikä hakija löydä etsimäänsä. Tutkielmani tavoitteena on selvittää, miten eräät tiedonhaku- ja tekstinesitysmenetelmät toimivat tällaisessa ympäristössä, ja onko niiden avulla mahdollista parantaa tiedonhaun tuloksellisuutta. Ratkaisin tutkimusongelman tiedonhaun laboratoriokokeiden avulla. Tutkimusaineistonani oli vuosien suomenkielisistä lehdistä merkintunnistusluennalla muodostettu noin dokumentin kokoelma. Käytössäni oli Tampereen yliopiston Histtestikokoelma, joka sisältää kyseisten dokumenttien lisäksi 56 hakuaihetta sekä tiedon näihin liittyvistä relevanteista dokumenteista. Tiedonhakujärjestelmänä käytin Solr-ohjelmistoa. Vertaillessani eri menetelmiä asetin perustasoksi tilanteen, jossa kyselyjen ja dokumenttien sanoja ei käsitelty mitenkään. Perusmuotoistamisessa kyselyjen ja dokumenttien sanat muutettiin perusmuotoon ennen hakuprosessia. Stemmauksessa eli typistämisessä sanojen pääteainekset poistettiin. N-grammauksessa sanat jaettiin n merkin mittaisiin osamerkkijonoihin vaihdellen n:n arvoa. Sumeassa haussa kyselyyn otettiin mukaan alkuperäisen kyselyn kanssa samankaltaisia sanoja. Selvitin aineiston digitoinnissa tapahtuneita virheitä otannalla, jonka tulosten perusteella kehitin vertailuun vielä kaksi menetelmää: merkkiluokkamenetelmässä sekä kyselyjen että dokumenttien sanoista tulkittiin sekaannusta aiheuttaneet merkit samana merkkinä tai merkkijonona. Dokumenttien laajentamismenetelmässä dokumenttien virheelliset, tunnistamattomat, sanat korvattiin viritetyn oikolukuohjelmiston antamilla ehdotuksilla. Otannan perusteella selvisi, että noin viidennes kokoelman sanoista oli virheellisiä ja noin viidennes sanoista poikkesi nykysuomesta. Vertailin menetelmien tuloksellisuuksia kolmella yleisesti tunnetulla tiedonhaun mittarilla. Menetelmän kokonaistuloksellisuutta arvioin keskitarkkuuden keskiarvolla. Kärkipään tulosten arviointiin käytin tarkkuutta kymmenennen tuloksen kohdalla sekä kumuloitunutta hyötyä kymmenennen tuloksen kohdalla. Tutkimuksen perusteella voidaan todeta, että vanhoihin suomenkielisiin sanomalehtiin kohdistuva haku hyötyy tutkituista tiedonhakumenetelmistä eniten n-grammeista, sumeasta hausta ja dokumenttien laajentamisesta. Mikäli painotetaan sitä, miten relevantteja dokumentteja palautuu kymmenen ensimmäisen dokumentin joukossa, on 4-, 5- ja 6-grammien yhdistelmä paras menetelmä. Jos painotetaan hakutulosta kokonaisuutena, on 5-grammimenetelmä muita menetelmiä parempi. Avainsanat: tiedonhaku, evaluointi, merkintunnistus, OCR, sanomalehtikirjasto
3 Esipuhe Television intialaisen, juuri internetin löytäneen, tytön tavoin minua kiehtoo, kuinka kaikki maailman tieto on saatavilla nappia painamalla. Alkaessani pohtia graduni aihetta oli mielenkiintoisia tiedonhaullisia tutkimuskohteita tarjolla yllin kyllin. Kalervo Järvelinin kanssa kävimme läpi kymmenkunta aihetta. Kiitos, kun jaksoit kärsivällisesti esitellä ja keskustella niistä kaikista, Kalervo. Lopulta valitsin aiheekseni sen, jota työni ohjaaja Jaana Kekäläinen oli minulle jo aikaisemmin suositellut. Kiitos Jaana hyvästä aiheesta! Hyvin taisit oppilaasi tuntea. Jaanan siirryttyä vapaalle ohjaajakseni tuli Eero Sormunen. Kiitos hyvistä kommenteista, Eero. Kiitos virikkeestä työni nimeen kuuluu ilmestyneen Suomalaisen Wirallisen Lehden numeron 140 sivun 1 fraktuurakirjakkeen latojalle. Vastaavasti kiitän tekijöitä, jotka ovat tehneet merkintunnistusohjelmiston, jolla lehden älkäät on saatu digitoitua muotoon älläät. Ilman virheitä tekeviä merkintunnistusohjelmistoja tätäkään tutkielmaa ei olisi olemassa. Päivi Jalosta kiitän suomen kielen historiaopusten lainasta, Mika Perkiömäkeä puolestaan esimerkistä opiskella vielä vähän vanhempanakin. Jossain vaiheessa työtäni aivoni alkoivat prosessoida kaiken näkemäni tekstin n-grammeina. Urheilukerho RC Eemelin nokkelille jäsenille ja sidosryhmille lausunkin: kiit iito itos liik iiku ikun kunn unna nnan iloi lois oist ista virt irtu rtua tuaa uaal aali alis list ista pers ersi rsik sikk ikka kkaa unoh noht ohta htam tama amat matt atta! Kiitos kärsivällisyydestä Salla, Konsta ja Sampo! Olette totta vie jäätelökakkunne ansainneet. Nyt sekin sitten viimeistään paljastui, miksi isä on aina tietokoneella. Salla, purnaamatta jaksoit odottaa SuperTux- ja MovieStarPlanet-vuoroasi kiitos! Konsta, olen melko varma, että tulevana tiedemiehenä keksit jonkin tutkielmani menetelmiä paremman tiedonhakutavan. Sampo, valitettavasti en saanut ujutettua sivuille yhtään miimiin kuvaa, mutta toivottavasti minulla on nyt enemmän aikaa piirtää niitä kanssasi. Satu, kiitos antamastasi tuesta ja ymmärryksestä koko toisen opiskelurupeamani aikana. Kiitos myös kun aika ajoin muistutit, mikä lopulta on tärkeintä. Sanomalehtimies J. V. Snellmanin päivänä Tampereella Ismo Raitanen ismo.raitanen@iki.fi
4 Sisällys 1 JOHDANTO VARHAISNYKYSUOMI, FRAKTUURA JA VANHAT SANOMALEHDET Varhaisnykysuomen ominaispiirteitä Fraktuura ja vanhat sanomalehdet Kansalliskirjaston Historiallinen sanomalehtikirjasto TIEDONHAUN TAUSTAA JA KÄSITTEIDEN MÄÄRITTELY Tiedonhaun tuloksellisuuden mittaaminen Evaluointi testikokoelman avulla Hakutulosten relevanssilajittelu Tilastollinen merkitsevyys ja käytännön merkitys AIKAISEMPIA TUTKIMUKSIA TREC-4 ja TREC Eripituisten n-grammien yhdistelmät Konfuusiomatriisit ja -taulukot Kyselyjen laajentaminen ja aineiston korjaaminen Taivutusmuodot, typistetyt muodot ja n-grammit Merkkiluokat, Similarex ja Levenshteinin etäisyys Yhteenveto KOEASETELMA Testikokoelma ja tiedonhakujärjestelmä Aineiston ominaisuudet Testikyselyt ja evaluointimittarit Vertailtavat menetelmät Taivutusmuoto eli perustaso Perusmuotoistaminen N-grammaus Typistäminen Taivutusmuotoindeksiin kohdistuva sumea haku Merkkiluokat Dokumenttien laajentaminen TULOKSET Menetelmien saanti-tarkkuuskäyrät Tarkkuuskeskiarvo yli kaikkien kyselyiden Tarkkuus kymmenennen tuloksen kohdalla Kumuloitunut hyöty kymmenennen tuloksen kohdalla Lukumääräiset parannukset ja heikennykset Ongelmia tuottaneet kyselyt Yhteenveto POHDINTA Tehty tutkimus ja sen suhde aikaisempiin tutkimuksiin Tehdyn työn arviointi ja jatkotutkimusmahdollisuudet...61 LÄHTEET...64 LIITTEET
5 1 Johdanto Vauhdikkaasti digitalisoituvan informaatioyhteiskunnan imussa voisi olettaa, että kaikki tekstimuotoinen aineisto on jo hakukoneilla löydettävissä. Todellisuus on kuitenkin toisenlainen. Arkistojen kätköissä mikrofilmeillä ja paperilla on vielä miljoonia vanhoja lehtiartikkeleita ajalta ennen tietokoneita. Niihin eivät hakukoneet yllä. Muun muassa tutkijat ja historioitsijat kuitenkin arvostaisivat, jos nekin olisivat haettavissa. Periaatteessa riittää, kun aineisto muunnetaan kuvanlukijalla eli skannerilla digitaaliseen muotoon ja merkit tunnistetaan automaattisesti. Kuvanlukija muuntaa aineiston digitaaliseksi kuvaksi. Kuvan sisältämät kirjaimet, numerot ja välimerkit tunnistetaan ohjelmallisesti ja muunnetaan digitaaliseksi tekstiksi. Yksi tunnetuimmista digitointiprojekteista lienee Googlen massiivinen kirjaprojekti 1, jossa teoksia muunnetaan digitaaliseen muotoon ja Googlen hakukoneella haettavaksi. Suomessa Kansalliskirjasto on muuntanut miljoonia vanhoja sanomalehtiä digitaaliseen muotoon, ja Historiallinen sanomalehtikirjasto 2 tarjoilee niitä haettavaksi ja luettavaksi. Merkkien tunnistaminen (optical character recognition, OCR) koneellisesti ei kuitenkaan ole aivan yksinkertaista. Alkuperäisen aineiston paperi tai painojälki voi olla huonolaatuista, tai aineisto voi olla kulunut. Nykyaikaisetkin tunnistusohjelmat tekevät virheitä, ja lopputuloksena syntyy roskaista tekstiä. Jopa paljon käytetty Times New Roman -kirjasinlaji saattaa aiheuttaa tunnistusongelmia. Esimerkiksi pieni l-kirjain voi tunnistautua virheellisesti numeroksi 1, y-kirjain v-kirjaimeksi, e-kirjain c-kirjaimeksi, m-kirjain r- ja n-kirjaimen yhdistelmäksi rn tai kaikki edellä mainitut toisinpäin. Jos alkuperäisaineiston sana pyörä muuttuu digitointivaiheessa y-kirjaimen tunnistusvirheen myötä muotoon pvörä, ei hakijan pyörä-kysely täsmää digitaaliseen esitysmuotoon, ja hakutulos ei ole sitä mitä hakija toivoo. Ongelma on pahimmillaan lyhyissä artikkeleissa. Pitkissä teksteissä asiaa helpottaa se, että sana esiintyy useimmiten monta kertaa todennäköisesti myös oikeassa kirjoitusasussa (Harding ym. 1997, 349)
6 Äkkiseltään voisi kuvitella, että kyselyn ja dokumenttien kohtaamisongelma korjaantuu esittämällä kysely säännöllisten lausekkeiden avulla, kuten kyselynä p[yv]örä, jonka mukaan p-kirjainta voi seurata joko y tai v. Kaikkien kombinaatioiden yrittäminen tuottaa kuitenkin lopulta pitkiä ja tehottomia kyselyjä. Suomen kieli on vahvasti taipuvaa, joten virheettömänkin suomenkielisen aineiston tiedonhaku on haastavaa. Taivutuspäätteistä johtuvaa kyselyn ja dokumenttien kohtaamisongelmaa voidaan yrittää ratkoa eri tavoin. Perusmuotoistamisessa sekä kyselyn että dokumenttien sanat muutetaan perusmuotoon 3 ennen hakuprosessia. Stemmauksessa (stemming) eli typistämisessä pyritään puolestaan löytämään morfologista analyysiä karkeammalla tavalla aikaansaatu taivutus- ja johtamispäätteistä vapaa sananmuodon alkuosa, katkaistu sana eli tyvi (stem). Lopputulokseksi saatu muoto ei välttämättä ole mikään kielitieteellinen sanavartalo tai sananmuoto. Esimerkiksi sanat pyöräileminen, pyöräilemässä, pyörällä voivat tuottaa saman tyven pyör. Kyselyä voidaan myös laajentaa automaattisesti kattamaan haun kohteessa esiintyvät sanan yleisimmät taivutusmuodot. Kirjoitusvirheitä sisältävän aineiston hakemisen avuksi on kehitetty erilaisia tekniikoita. Yksi lupaavimmista on ns. n-grammimenetelmä, jossa tiedonhakua helpottavaan tietorakenteeseen, hakemistoon eli indeksiin, viedään kokonaisten sanojen sijaan tai lisäksi sanasta muodostetut n-grammit eli n merkin mittaiset merkkijonot. Pyörä-tapauksessamme tietokantaan päätyy 3-merkkisillä merkkijonoilla eli 3-grammeilla merkkijonot pvö, vör ja örä. Vastaavasti käyttäjän kysely muutetaan ennen täsmäytystä 3- grammeiksi pyö, yör ja örä. Viimeksi mainittujen alimerkkijonojen kohdalta löytyy täsmäävyys, ja kadoksissa ollut pvörä-artikkeli löydetään pyörä-sanalla. N-grammimenetelmä näyttäisi tepsivän myös virheettömän suomen kielen taivutusmuotojen käsittelemiseen: kysely polkupyörä löytää myös artikkelit, joissa esiintyy kirjoitusasu polkupyöriä, sillä molemmista termeistä saadaan useampikin sama 5-grammi (polku, olkup, lkupy, kupyö ja upyör). Sumea (fuzzy) haku puolestaan etsii sanan kans- 3 Perusmuodosta voidaan käyttää myös nimitystä sanakirjamuoto, ja sillä tarkoitetaan suomen kielessä tavallisesti nomineilla yksikön nominatiivia (kirja, se, kaksi, vihreä) ja verbeillä ensimmäisen infinitiivin lyhyttä muotoa (olla, kirjoittaa) (Karlsson 2009, 187). 2
7 sa samankaltaisia sanoja. Sanojen samankaltaisuutta voidaan tutkia esimerkiksi laskemalla, kuinka monta merkin poistoa, lisäystä tai muutosta tarvitaan, jotta sana saadaan vastaamaan tarkasteltavaa toista sanaa. Historiallinen kieli ja vanhoissa painotuotteissa käytetty fraktuurakirjasin aiheuttavat täsmäytykseen omat lisähaasteensa. Kuinka moni huomaa esimerkiksi etsiä tietoa autoista sanalla hyrysysy tai rikollisista sanalla roswo? Fraktuurassa tunnistusongelmia aiheuttanevat samankaltaisen ulkoasunsa vuoksi ainakin kirjaimet i ja j sekä m ja w. Tutkimukseni mielenkiinnon kohteena onkin selvittää, kuinka erilaiset tiedonhakumenetelmät toimivat, jos aineistona on vanhaa fraktuuralla kirjoitettua tekstiä. Tutkimusongelmani on siis merkintunnistusongelmista ja historiallisesta suomen kielestä johtuva kyselyiden ja dokumenttien välinen kohtaamattomuus. Tutkimuskysymyksikseni muodostuvat: 1. Miten sanojen typistäminen vaikuttaa hakujen tuloksellisuuteen? 2. Miten sanojen perusmuotoistaminen vaikuttaa hakujen tuloksellisuuteen? 3. Miten sanojen pilkkominen osamerkkijonoihin eli n-grammaus vaikuttaa hakujen tuloksellisuuteen, ja mikä on optimaalisin n-grammipituus tuloksellisuuden kannalta? 4. Miten sumea hakukysely vaikuttaa hakujen tuloksellisuuteen? 5. Miten optisessa merkintunnistuksessa syntyneiden tyypillisimpien tunnistusvirheiden huomioiminen vaikuttaa hakujen tuloksellisuuteen? 6. Mikä tutkituista menetelmistä tuottaa parasta tuloksellisuutta? Haen vastaukset tutkimuskysymyksiini kontrolloitujen tiedonhaun laboratoriokokeiden avulla. Käytössäni on niin sanottu tiedonhaun testikokoelma, joka sisältää dokumenttien lisäksi joukon hakuaiheita sekä tiedon kuhunkin aiheeseen ennalta relevanteiksi arvioiduista dokumenteista. Tutkimusaineistoni dokumentit ovat suomenkielisten vuosien sanomalehtien skannauksella ja merkintunnistuksella tuotettuja tekstejä. Syntyneiden virheiden osuus tai ominaispiirteet eivät ole ennalta tiedossa. Testikokoelma ei sisällä alkuperäisiä tekstejä. Aineisto on saatu Kansalliskirjastosta, ja se on osa Historiallisen sanomalehtikirjaston aineistoa. Vertaan menetelmien avulla saatavia hakutuloksia käsittelemättömien sanojen avulla saataviin hakutuloksiin. Oletukseni on, että n-grammaus toimii näistä menetelmistä parhaiten. Perustan oletukseni kirjallisuudessa esiintyville tutkimustuloksille (ks. esim. Harding ym. 1997; Darwish & Magdy 3
8 2007; Parapar ym. 2009), joiden mukaan n-grammaus tuottaa hyviä tuloksia OCRaineistolle. Tutkimuksen pääpaino on tiedonhakumenetelmien vertailussa. Historiallisen kielen kieliopin ja sanojen merkityksen poikkeavuuteen nykykielestä en juuri puutu. Aineiston kirjakieli saattaa vaihdella lehtien välillä tai jopa saman lehden sisällä eri toimittajien välillä. Mukana on myös suoraan ruotsista tulleita sanoja, kuten esimerkiksi flikka. Huomioin vain selkeimmät erot varhaisnykysuomen 4 ja nykysuomen välillä, kuten w- kirjaimen käyttämisen v-kirjaimen sijaan. Tietojeni mukaan suomea tai varhaisnykysuomea sisältävälle OCR-aineistolle on tehty vain vähän tiedonhakututkimusta, mitä tämä tutkielma osaltaan yrittää paikata. Ahosen ja Hyvösen (2009) tutkimuslähtökohtana oli historiallisten sanomalehtien linkittäminen semanttisesti yhteenkuuluvien aineistojen kanssa eikä niinkään tiedonhaun tuloksellisuuden parantaminen. Tutkielmastani poiketen heillä ei ollut käytössään tiedonhaun testikokoelmaa, eivätkä he mitanneet tiedonhaun tuloksellisuutta. OCR-aineiston tiedonhaku on yhteneväinen kieltenvälisen tiedonhaun kanssa, sillä molemmissa kysely on eri esitysmuodossa kuin haun kohteena olevat dokumentit. Tyypillisesti kieltenvälisessä tiedonhaussa joko kyselyt käännetään kohdedokumenttien kielelle tai kohdedokumentit käännetään kyselyjen kielelle. OCR-aineiston kohdalla voidaan ajatella, että kysely on virheettömällä kielellä L, kun taas dokumenttikokoelma on virheitä sisältävällä kielellä L (Darwish & Magdy 2007). Tiedonhaun tuloksellisuuden parantamiseksi joko kyselyt muunnetaan L-muodosta L -muotoon tai dokumentit L muodosta L-muotoon (Darwish & Magdy 2007). Pelkkä nykysuomella esitettyjen kyselyjen kohdistaminen varhaisnykysuomella kirjoitettuihin dokumentteihin on sekin jo kieltenvälistä tiedonhakua, joten tutkielmassani voidaan nähdä kaksikerroksinen problematiikka, koska kohdedokumentit ovat varhaisnykysuomea ja sisältävät OCR-virheitä. OCR-aineistoon kohdistuvan tiedonhaun tuloksellisuutta voidaan yrittää parantaa korjaamalla aineiston virheet käymällä digitoidut aineistot käsin läpi, mutta kaikkien teks- 4 Varhaisnykysuomen ajaksi katsotaan yleisesti kausi noin , joten luokittelen tutkimusaineistoni tekstit tämän perusteella varhaisnykysuomeksi (ks. luku 2). 4
9 tien läpikäyminen ja korjaaminen manuaalisesti on harvoin mahdollista suuren aineistomäärän vuoksi. Korjaamiseen on kuitenkin mahdollista valjastaa internetin käyttäjiä; Digitalkoot-palvelun käyttäjät korjaavat vanhojen sanomalehtien digitoinnissa syntyneitä tunnistusvirheitä pelaamalla (Chrons & Sundell 2011). recaptcha-tietoturvakysely puolestaan pyytää käyttäjää kirjoittamaan kuvassa esiintyvät sanat erottaakseen ihmiskäyttäjän haittaohjelmasta, mutta samalla korjataan digitoinnin tunnistusvirheitä (von Ahn ym. 2008, 1465). Tässä tutkielmassa en resurssien puutteen vuoksi juurikaan pohdi aineiston korjaamista. En myöskään puutu indeksoinnin ja kyselyjen nopeuteen. Nämä jätän jatkotutkimusaiheiksi. Tässä tutkielmassa tiedonhakumallilla (retrieval model) tarkoitetaan kyselyjen ja dokumenttien täsmäytysperiaatetta. Esimerkki tällaisesta mallista on myöhemmin esiteltävä vektorimalli. Tiedonhakumenetelmällä (retrieval method) tässä tekstissä puolestaan tarkoitetaan kyselyihin ja dokumentteihin kohdistuvia toimenpiteitä. Tällaisia toimenpiteitä ovat esimerkiksi typistäminen ja n-grammaus. Jatkan seuraavaksi esittelemällä tutkimusaineistooni läheisesti liittyvien historiallisen suomen kielen ja fraktuuran ominaispiirteitä luvussa 2. Luku 3 selvittää työni kannalta keskeiset tiedonhaun teoriat ja käsitteet. Luku 4 sisältää kirjallisuuskatsauksen aihepiirin aikaisemmista tutkimuksista. Luvussa 5 esittelen tutkimusaineiston, testikokoelman, vertailtavat tiedonhakumenetelmät, testikyselyt ja koejärjestelyn. Pyrin kuvaamaan kokeen niin tarkasti, että se on tarvittaessa toistettavissa. Luku 6 sisältää kokeen tulokset. Lopuksi luvussa 7 on yhteenveto sekä pohdintaa tehdystä työstä. 5
10 2 Varhaisnykysuomi, fraktuura ja vanhat sanomalehdet Tässä luvussa käyn läpi historiallisen suomen kielen ja fraktuurakirjasimen ominaispiirteitä niiltä osin kuin ne tämän tutkimuksen kannalta ovat mielekkäitä. Historiallisen kielen, fraktuuran ja tiedonhaun yhdistävästä palvelusta esittelen esimerkkinä Kansalliskirjaston Historiallisen sanomalehtikirjaston, jonka avulla on mahdollista hakea tietoa vanhoista sanomalehdistä. Sanomalehtikirjaston aineisto on tuotettu OCR-luennalla. Tutkielmani tiedonhakumenetelmien käytännön kohteena voisi hyvinkin olla jokin vastaavanlainen sovellus. 2.1 Varhaisnykysuomen ominaispiirteitä Ikola (1965, 39) ehdottaa suomen kielen historian jaksoteltaksi varhaissuomeen (n. vuoteen 1540), vanhaan suomeen (n n. 1820), varhaisnykysuomeen (n n. 1870) ja nykysuomeen (n ). Häkkisen (1994, 13) tulkinnan mukaan varhaisnykysuomen kausi alkaa Ruotsin vallan ajan loppumisesta n ja ulottuu tai 1880-luvun loppupuolelle. Molempien määritelmien mukaan tutkimusaineistoni on siten lähestulkoon täysin varhaisnykysuomea, sillä tutkimusaineistoni ajoittuu vuosille Kielelliset uudistukset eivät 1800-luvulla tapahtuneet yhtäkkiä vaan teksteissä ilmeni sekä vanhemman kauden että uudemman kauden käytäntöjä. Muotoa tz saatettiin vielä käyttää muodon ts sijaan (etzin, etsin) tai kirjainta x yhdistelmän ks sijaan varhaisnykysuomen kaudella. (Häkkinen 1994, 180.) Äänteiden [k], [p] ja [t] vaihtoehdot ovat moninaiset m:n ja n:n jälkeen, sekä [t]:n kohdalla myös l:n jälkeen, esim. hengi, henki, ombi, ompi, waldakunda, waltakunta. (Häkkinen 1994, 171 ja 180.) W tavallisen v:n merkkinä piti pintansa pitkälle 1800-luvun loppupuolelle asti (Häkkinen 1994, 180). Vanhan kirjasuomen korkia, hopia -tyyppiset sanat vaihtuivat vähitellen nykyasuisiksi (korkea, hopea) (Pulkkinen 1972, 39). Vanhan kielen yksinäis-s:isen inessiivin (talosa, talos) tilalle tuli ssa-pääte (talossa). Abessiivin ta-pääte väistyi hitaasti abessiivin nykyisen tta-päätteen tieltä, esim. leivätä leivättä. Yhdellä konsonantilla aloittaminen alkoi yleistyä, joskin hitaasti. Vielä 1800-luvun puolivälin jälkeen esiintyi yhä kirjoitustapaa plyijy, trenki, provasti, kruuti jne. monissa tapauksissa, jotka sittemmin ovat vakiintuneet yhdellä konsonantilla alkaviksi. Hitaasti yhtenäistyi myös k:n astevaihtelun 6
11 merkintä sellaisissa tapauksissa kuin näkö, nävön näön; tuhka, tuhvan tuhan (t. tuhkan); märkä, märjän märän; nälkä, näljän nälän. Kielenkäyttö etenkin rk- ja lk-tapauksissa oli kauan sekavaa. (Pulkkinen 1972, ) Imperfektin ja konditionaalin monikon 3. persoonan muotoihin alkoi tulla vat/vät-loppu: esim. he hakkasit hakkasiwat; sanoit sanoiwat; antaisit antaisiwat (Häkkinen 1994, 301). Varhaisnykysuomen kaudella naispuolisiin tekijöihin viitattaessa käytettiin itämurteista saatua, ilmeisesti tytär-sanasta syntynyttä päätettä tar/tär: johtajatar, laulajatar, näyttelijätär, opettajatar, taiteilijatar (Häkkinen 1994, 425). Tämän tutkimuksen aineiston perusteella myös yhdyssanojen kirjoitustapa 1800-luvulla poikkesi nykyisestä. Yhdyssanoissa sanojen välissä käytettiin yhdysmerkkiä, vaikka yhdyssanan alkuosa ei päättynytkään samaan vokaaliin, jolla jälkiosa alkoi, esimerkiksi: nyky-ajan, pohjois-osissa, wastaanotto-aika, sisä-asiain, pyyntö-esitys, synnytys-osasto, perjantai-aamuna, pää-asiassa, wastaan-ottaa, pitäjän-apulainen, nimellis-hinta, jumaluus-oppi, rautatien-asemille, tehtaan-isäntä, mieli-ala, työwäen-yhdistys, tosi-asia, kansanwalistus-seura. Tässä tutkimuksessa käytettävä tiedonhakujärjestelmä pilkkoo tällaiset yhdysmerkin yhdistämät sanat erillisiksi sanoiksi. 2.2 Fraktuura ja vanhat sanomalehdet Mervola (1995, 411) määrittelee fraktuuran Suomessa tunnetuimmaksi tulleeksi goottilaisten kirjaimistojen kirjainlajiksi. Alun perin fraktuura oli jäljitellyt käsinkirjoitettua tekstiä (Mervola 1995, 152). Fraktuuran asema oli Suomessa horjumaton 1800-luvulla. Laajemmille piireille ja varsinkin rahvaalle tarkoitetuissa julkaisuissa fraktuuran käyttö oli itsestäänselvyys. (Mervola 1995, 56.) Useimmat kansanihmiset osasivat lukea vain fraktuuraa, sillä Raamattu ja kaikki kansankirjallisuus oli kautta aikojen painettu koukeroisella fraktuuralla. (Mervola 1995, 87.) Ruotsissa antiikva yleistyi lehdissä luvulla. Suomalaisissa lehdissä sitä kokeiltiin 1830-luvulla, mutta viimeistään luvulla moni suomalainen lehti palasi fraktuuraan. Vain lukeneistolle tarkoitettuja tieteellisiä esityksiä julkaistiin 1800-luvun puolivälissä antiikvakirjaimilla. (Mervola 1995, 56.) Koukeroinen ja saksalaisvaikutteinen fraktuura säilytti Suomessa asemansa luvulle asti (Mervola 1995, 57). 7
12 Kuva 1. Esimerkki fraktuuralla painetusta sanomalehtiuutisesta, Turun Wiikko-Sanomat (Kuvakaappaus Kansalliskirjaston Historiallisesta sanomalehtikirjastosta.) Fraktuuralla haluttiin tähdentää lehden kansanomaisuutta sekä helppolukuisuutta ja näin lisätä lehden menekkiä. Antiikvaa saatettiin käyttää lehden suurimmissa otsikoissa. (Mervola 1995, ) Kuva 1 esittää katkelman fraktuuralla painetusta sanomalehtiuutisesta. Fraktuura piti pintansa Suomessa, vaikka monissa Euroopan maissa siirryttiin antiikvakirjaimeen. Ilmeisesti pitkät kulttuuri- ja kauppasuhteen Saksaan ohjasivat valintaa fraktuuraan. (Mervola 1995, ) Kauppasuhteiden lisäksi fraktuuran yleisyyteen vaikutti todennäköisesti myös latojien palkkausjärjestelmä, sillä työnantajan piti maksaa antiikvan latomisesta 12,5 prosenttia enemmän kuin fraktuuran latomisesta. Antiikvasta maksettiin korkeampi latomistaksa vuoden 1906 palkkasopimukseen saakka. Merkittävin syy fraktuuran valtakauden jatkumiseen oli ehkä kuitenkin lukijoiden konservatiivisuus. Toisinaan jakajat pelkäsivät viedä antiikvalla painettua numeroa julmistuneille lukijoille. (Mervola 1995, ) Päivälehti ilmestyi kokonaan aktiikvaisena Varsinkin maaseudun lukijat protestoivat muutosta vastaan, sillä he olivat tottuneet lukemaan fraktuuratekstiä eli raamattupränttiä. Vastarinta oli ilmeisen sitkeää, sillä lehden seuraaja Helsingin Sanomat palasi takaisin fraktuuraan talvella Päivälehden yrityksen jälkeen suomenkieliset lehdet jatkoivat fraktuuraisina. Vasta vuonna 1912 Uusi Suometar siirtyi antiikvaan. Siirtyminen ei taaskaan ollut helppo, ja uutta kirjainta jouduttiin perustelemaan jopa lääketieteen keinoin ilmoittamalla, että antiikvakirjaimet olivat silmille fraktuuraa terveellisemmät. (Mervola 1995, ) Uuden Suomettaren esimerkki levisi hitaasti muihin suomenkielisiin lehtiin. Sanomalehtien siirtymistä antiikvaan helpotti ehkä se, että Raamatun taskukokoisen laitoksen 8
13 ladonnassa ja myöhemmin perhe- ja vihkiraamatussa oli otettu käyttöön antiikva. Aamulehti oli syyskuusta 1913 lähtien kokonaan antiikvainen. Turun Sanomat siirtyi keväällä 1918 osittain antiikvaan. (Mervola 1995, ) Helsingin Sanomille ja Keski-Suomelle fraktuura oli ilmeisesti vielä modernia ja kiisteltyä antiikvaa sopivampi, sillä molempien lehtien lukijakunnassa oli melko paljon yhteiskunnan alempien kerrosten väkeä. Helsingin Sanomat käyttikin fraktuuraa vuoteen 1925 saakka. Keski-Suomesta Keskisuomalaiseksi muuttunut jyväskyläläislehti irrottautui fraktuurasta vasta keväällä Varsinainen suomenkielisen lehdistön kirjainlajin vaihtokauden voidaan katsoa osuneeksi 1920-luvun loppupuolelle. (Mervola 1995, ) Myös kansalle tarkoitetussa kirjallisuudessa fraktuurakirjasin oli hallitseva luvun alkupuolelle asti (Häkkinen 1994, 27). Tämän tutkimuksen aineistona on digitaaliseen muotoon saatettuja suomenkielisiä sanomalehtitekstejä 1800-luvulta, joten todennäköisesti alkuperäiskappaleissa on ollut käytössä pääosin fraktuurakirjasin, mutta antiikvaa on saattanut esiintyä joissakin otsikoissa. Fraktuurassa on useita toisiaan muistuttavia kirjaimia (kuva 2), jotka voivat aiheuttaa tunnistusongelmia jopa ihmissilmälle puhumattakaan ohjelmistoista. Kuva 2. Esimerkkejä fraktuurakirjasimen toisiaan muistuttavista kirjaimista. (Kuvakaappaus Digitalkoot-palvelusta). 2.3 Kansalliskirjaston Historiallinen sanomalehtikirjasto Kansalliskirjaston Historialliseen sanomalehtikirjastoon on digitoitu valtaosa Suomessa vuosina ilmestyneistä sanomalehdistä. Lehtisivuja on yhteensä noin 1,7 miljoonaa. (Historiallisen sanomalehtikirjaston verkkosivut 2012.) Palvelussa voi selata lehtiä nimekkeittäin ja hakea esimerkiksi tiettynä päivänä julkaistuja numeroita (Kaukonen 2005, 45). Lisäksi tarjolla ovat haku, tarkennettu haku ja artikkelihakemisto. 9
14 Palvelun hakuominaisuuden taustalla on sumea haku eli hakusanan ei tarvitse täysin vastata vanhaa kirjoitusmuotoa. Toisaalta hakutulosten joukkoon voi tulla myös sivuja, joissa esiintyy aivan hakusanasta poikkeava sana, jonka sumea haku on arvioinut kuitenkin olevan hakusanan muoto. Aineisto on tuotettu merkintunnistusohjelmalla ja se voi sisältää kirjoitusvirheitä alkuperäisen niteen kunnosta riippuen. (Historiallisen sanomalehtikirjaston verkkosivut 2012.) Sumean haun tarkempaa periaatetta tai toteutusta ei ilmoiteta. Käyttäjä voi kohdistaa haun kaikkiin palvelun sanomalehtiin tai vain valitsemiinsa lehtiin 340 lehden joukosta 5. Lisäksi haun voi rajata tietylle päivämääräalueelle. Tarkennetussa haussa voi sumean haun muodostamasta sanalistasta valita haluamansa sanat mukaan kyselyyn. Lisäksi painoarvolla voidaan määrätä hakusanan ja sen valittujen kirjoitusmuotojen tärkeys haussa. Painoarvo voi vaihdella välillä Arvoa suurentamalla dokumentit, joissa sana esiintyy, päätyvät todennäköisemmin tulosten kärkeen. Esimerkiksi alkuperäinen kysely tanska sääty tuottaa valittavaksi vaihtoehtoisia aineistossa esiintyviä kirjoitusmuotoja, kuten ttanska, tansska, tanskalksa, tanskalia, talonpoikaiskansaa, tetamanska, tikkanskoaeita, trjpolitanska, ssääty, säätty, säääty, seppäsääty, sivilrsääty, sikaissääty, säättetty, säätyt ja siääty. Haku ja tarkennettu haku palauttavat tuloksena listan, jonka yksittäinen alkio sisältää dokumentin tekstikatkelman sekä otsikon. Tekstikatkelma on kyselykohtainen ja siinä kyselysana on korostettu. Otsikkona on lehden nimi, numero ja ilmestymispäivämäärä. Otsikko toimii linkkinä alkuperäisen lehden digitaaliseen versioon. Linkki ohjaa automaattisesti lehden oikealle sivulle, jolla kyselysanat esitetään korostettuna. Lehden sivua on mahdollista suurentaa ja pienentää näytöllä. Lehden voi myös ladata pdfmuodossa itselleen. Palvelun artikkelihakemisto perustuu 1800-luvun lopulla luotuun vuoden 1890 lehtiin asti ulottuvaan hakemistoon, joka on siirretty verkkoon (Kaukonen 2005, 46). Hakemistorakenteessa on suomea ja ruotsia, ja viitteet ovat suomeksi tai ruotsiksi artikkelin alkuperäiskielestä riippuen. Viitetiedoista on linkki kyseiseen lehteen, mikäli se on saata- 5 Lukumäärä on selvitetty laskemalla hakusivun valintalistan lehdet. 10
15 vissa digitaalisena. Viiteteksteissä voi esiintyä kirjoitusvirheitä. Artikkelihakemistoa ei päivitetä eikä luokitella uudelleen. (Historiallisen sanomalehtikirjaston verkkosivut 2012.) Esimerkiksi Biographica-otsikon alle on koottu aakkosjärjestyksessä artikkeleita aikansa tunnetuista henkilöistä (Kaukonen 2005, 46). Artikkelihakemisto sisältää yli viitettä (Hölttä 2005, 42). Käyttäjät ovat kertoneet hakevansa palvelusta tietoja esimerkiksi Napoleonin sodista, 1800-luvun uskontokuntien vaiheista, luotsi- ja satamatoiminnasta 1890-luvulla, metsätaloudesta tai siilihavainnoista Suomessa 1800-luvun loppupuolella (Hölttä 2005, 44). Tiedonhakija käy yhden käyntikerran aikana keskimäärin kuudellatoista sanomalehtisivulla (Hölttä 2005, 43 44), mikä tuntuu aika isolta luvulta. Palvelun käyttöliittymä on tarjolla suomen lisäksi ruotsiksi ja englanniksi, eikä käyttäjäkunta rajoitu pelkästään suomalaisiin. Palvelun tuottaja on saanut palautetta neljästätoista maasta (Hölttä 2005, 44). Tekstintunnistus- ja tulostusongelmat ovat yleisimpiä syitä antaa palautetta, ja ulkomaiset käyttäjät tiedustelevat lehtisivujen kääntömahdollisuutta englannin kielelle (Hölttä 2005, 45). Tenkanen (2002, 22 23) valottaa sanomalehtikirjaston tuotantoprosessia seuraavasti: Suurin osa sanomalehtikirjaston aineistosta on digitoitu mikrofilmiltä. Prosessi etenee siten, että mikrofilmiskanneriin syötetään rullafilmi. Skanneri lukee filmin siten, että yhdestä valotuksesta tulee yksi kuvatiedosto. Skannauksen jälkeen kuville tehdään tavanomaisia kuvankäsittelytoimia, kuten kääntämistä ja roskien poistoa. (Tenkanen 2002, ) Mikrofilmin laatu vaikuttaa erityisesti merkintunnistuksen onnistumiseen. Ennen vuotta 1970 kuvattujen mikrofilmien laatu ei riitä, ja ne joudutaan kuvaamaan uudestaan. Skannatut sivukuvat otetaan merkintunnistukseen mikrofilmirullallinen kerrallaan. Merkintunnistus on eniten aikaa vievä vaihe digitoinnissa. Merkintunnistusohjelma osaa tunnistaa antiikvatekstin suoraan, mutta fraktuuratyyppi on opetettava ohjelmalle erikseen. Saman nimekkeenkin painamisessa on usein käytetty erikokoisia fraktuurakirjasimia ja erilaisia fraktuuratyylejä. Tällaiset muutokset vaativat uuden tunnistusmallin opettamisen ohjelmalle, jotta tunnistus saadaan mahdollisimman kattavaksi. Riittävän opettamisen jälkeen sivukuvat luetaan erikseen antiikva- ja fraktuuratunnistusmalleilla. Tunnistuksen tuloksena saadaan yhdestä sivusta kaksi tekstitiedostoa, jotka yhdistetään yhdeksi tekstiversioksi. Tunnistuksen jälkeen kuhunkin sivukuvaan liitetään bibliografi- 11
16 set perustiedot, päivämäärä ja lehden numerointitieto sekä sivunumero. Tunnistettu teksti ja metadata talletetaan sanomalehtikirjaston perustana olevaan relaatiotietokantaan. Sivukuvat talletetaan tiedostopalvelimelle. (Tenkanen 2002, ) Tunnistuksen onnistumista voidaan kuvata tunnistustarkkuudella. Se ilmaisee oikeiden tunnistusten osuuden digitaalisessa aineistossa. Tunnistustarkkuutta voidaan tarkastella merkki- tai sanatasolla. Historiallisen sanomalehtikirjaston aineiston tunnistustarkkuus ei tietääkseni ole julkisesti tiedossa, mutta Chrons ja Sundell (2011) havainnoivat pienellä otoksella sanomalehtikirjaston sanojen tunnistustarkkuuden vaihteluväliksi %. Käytännössä siis keskimäärin noin joka viides sana oli virheellinen. Mykan ja Güntzerin (1995, 132) mielestä merkkien 99,5 % tunnistustarkkuutta voidaan nykyaikana pitää oikein hyvänä. Käytännössä siis keskimäärin joka kahdessadas merkki tai jos sana katsotaan keskimäärin 8-merkkiseksi keskimäärin kahdeskymmenesviides sana saa olla virheellinen. 12
17 3 Tiedonhaun taustaa ja käsitteiden määrittely Tässä luvussa määrittelen työni kannalta oleelliset tiedonhaun käsitteet: relevanssin, tuloksellisuuden, saannin ja tarkkuuden sekä niistä johdetut työssä käytettävät kolme tuloksellisuuden mittaria. Kerron myös evaluoinnista testikokoelman avulla, hakutulosten relevanssilajittelusta, täystäsmäyttävästä Boolen mallista sekä osittaistäsmäyttävästä vektorimallista. Esittelyn saavat myös työssä käytettävä tutkimustulosten tilastollisen merkitsevyyden testimenetelmä sekä tutkimustulosten käytännön merkityksen jäsentämiseen käytettävä menetelmä. 3.1 Tiedonhaun tuloksellisuuden mittaaminen Tiedonhaun tarkoituksena on löytää relevanttia informaatiota sitä tarvitsevalle. Relevanssin määrittelyssä voidaan erottaa aiherelevanssi ja käyttäjärelevanssi. Aiherelevanssi tarkoittaa sitä, että dokumentti käsittelee kyselyn aihetta. Dokumentin aiherelevanssin voi määritellä esimerkiksi aihepiirin asiantuntijat vertaamalla hakutehtävää kuhunkin dokumenttiin. Käyttäjärelevanssi huomioi dokumentin aiheen lisäksi hakijan arvion dokumentin käyttökelpoisuudesta. (Croft ym. 2010, 238; Järvelin & Sormunen 2010, ) Tässä tutkimuksessa tarkastellaan vain aiherelevanssia. Testikyselyt muodostetaan kuvitteellisen hakijan toimesta, ja dokumenttien relevanttiustieto on muiden ennalta arvioimaa. Relevanssiarvio voi olla binäärinen tai moniportainen. Binäärinen relevanssi tarkoittaa, että dokumentti on joko relevantti tai epärelevantti. (Croft ym. 2010, 238.) Tässä tutkimuksessa käytetään neliportaista relevanssiasteikkoa, ja arvioitu dokumentti on joko hyvin relevantti, relevantti, marginaalisesti relevantti tai epärelevantti. Moniportaisen relevanssiasteikon käyttäminen helpottaa dokumentin arvioijan tehtävää (Croft ym. 2010, 238). Tavallisimmat hakutulosta koskevat tuloksellisuuden (effectiveness) arviointikriteerit ovat tarkkuus (precision) ja saanti (recall). Tarkkuus kuvaa sitä, kuinka suuri osuus hakutuloksesta koostuu relevanteista dokumenteista. Saanti puolestaan kuvaa sitä, kuinka suuri osa kaikista relevanteista dokumenteista kyselyllä löydettiin. Tarkkuus ja saanti esitetään tavallisesti desimaalilukuna välillä [0, 1] tai prosenttilukuna välillä %. (Croft ym. 2010, 312; Järvelin & Sormunen 2010, ) 13
18 Saantiarvot lasketaan yleensä ns. suhteellisen eikä absoluuttisen saannin periaatteella. Absoluuttinen saanti ilmaisee, miten suuri osuus relevantteja dokumentteja on onnistuttu löytämään suhteessa kaikkiin relevantteihin dokumentteihin. Absoluuttisen saannin laskeminen edellyttäisi, että tietokannan jokaisen dokumentin relevanssi kunkin kyselyn suhteen olisi tiedossa. Suurissa tietokannoissa tämä on kuitenkin käytännössä mahdotonta. Suhteellisen saannin laskemiseksi riittää, että tietokannasta määritellään jokin rajallinen ja riittävän kattava osajoukko, joka sitten edustaa tietokannan kaikkia relevantteja dokumentteja, ja johon kunkin kyselyn tuloksena saatua tulosjoukkoa suhteutetaan. (Alkula 2000, 40.) Tunnettujen relevanttien dokumenttien joukosta käytetään myös nimitystä saantikanta (Järvelin & Sormunen 2010, 168). Tiedonhaun tutkimuksessa käytetään hakumenetelmien erojen havainnollistamiseen saanti-tarkkuuskäyrää (Järvelin & Sormunen 2010, 171), jossa saanti esitetään x- akselilla ja tarkkuus y-akselilla. Jotta menetelmiä voidaan verrata, menetelmien saantiarvot esitetään ns. standardisaantitasoilla 0,1 lisäyksin välillä [0, 1] eli yhteensä 11 pisteessä. Koska saantiarvot harvoin osuvat näille tasoille suoraan, täytyy arvot interpoloida eli laskea standarditason arvo kahden ympäröivän arvon avulla (Croft ym. 2010, 316.) Käytännössä saannin parantuessa tarkkuus huononee ja päinvastoin (Alkula 2000, 40.) Tuloksena saadaankin usein vasemmalta oikealle laskevia käyriä. Tätä tulkitaan siten, että mitä ylempänä käyrä pysyy vasemmalta oikealle siirryttäessä, sitä parempi menetelmä on. Varsinaiseen tuloksellisuuden mittaamiseen käytetään kuitenkin saannin ja tarkkuuden sijasta johdettuja mittareita, joilla pyritään kuvaamaan hakutulosten onnistuneisuutta ja ottamaan huomioon relevanttien dokumenttien löytymisen lisäksi myös niiden sijainti hakutuloksessa (Järvelin & Sormunen 2010, 171). Tällaisia mittareita ovat mm. keskitarkkuus (Average Precision, AP), tarkkuus tietyssä kohtaa tuloslistaa (precision at rank p, ja normalisoitu diskontattu kumulatiivinen hyöty (normalized discounted cumulative gain, ndcg). Keskitarkkuuden laskemiseksi selvitetään hakutuloksen tarkkuus jokaisen relevantin dokumentin kohdalla (Järvelin & Sormunen 2010, 171). Usein laskentaan otetaan vain tuloslistan tuhat tai sata ensimmäistä dokumenttia, joten relevantteja dokumentteja voi jäädä myös tämän joukon ulkopuolelle. Ulkopuolelle jääneen relevantin dokumentin vaikutuksen keskiarvoon katsotaan olevan nolla. (Croft ym. 2010, 316.) 14
19 Taulukko 1. Saannin ja tarkkuuden laskeminen (mukailtu Croft ym. 2010, 318). Kysely 1: yhteensä 5 relevanttia dokumenttia tähän kyselyyn Tulosnro Relevanssi 1/ Saanti 0,20 0,20 0,40 0,40 0,40 0,60 0,60 0,60 0,80 1,00 Tarkkuus 1,00 0,50 0,67 0,50 0,40 0,50 0,43 0,38 0,44 0,50 Kysely 2: yhteensä 3 relevanttia dokumenttia tähän kyselyyn Tulosnro Relevanssi 1/ Saanti 0,00 0,33 0,33 0,33 0,67 0,67 1,00 1,00 1,00 1,00 Tarkkuus 0,00 0,50 0,33 0,25 0,40 0,33 0,43 0,38 0,33 0,30 Jos tarkastellaan taulukon 1 kahta kyselyä, joista ensimmäiseen löytyy 5 relevanttia dokumenttia ja toiseen 3 relevanttia dokumenttia, saadaan kyselyn 1 keskitarkkuudeksi (1,0 + 0,67 + 0,5 + 0,44 + 0,5) / 5 0,62 ja kyselyn 2 keskitarkkuudeksi (0,5 + 0,4 + 0,43) / 3 0,44. Kun koko kyselyjoukon keskitarkkuuksille lasketaan keskiarvo, saadaan kaikkein tavallisin tuloksellisuuden mittari, keskitarkkuuden keskiarvo (Mean Average Precision, MAP) (Järvelin & Sormunen 2010, 171). Taulukon 1 kahden kyselyn muodostaman joukon keskitarkkuuden keskiarvoksi saadaan (0,62 + 0,44) / 2 0,53. Tämä luku tarkoittaa käytännössä, että niin kauan kuin relevantteja dokumentteja riittää, on keskimäärin noin joka toinen tuloksena saatu dokumentti relevantti. Keskitarkkuus kuvaa järjestelmän tai menetelmän kokonaistuloksellisuutta. Tällainen arviointi sopiikin järjestelmiin, joissa ollaan kiinnostuneita siitä, miten paljon relevantteja dokumentteja menetelmä kaiken kaikkiaan löytää. Esimerkiksi haettaessa patentteja ollaan todennäköisesti kiinnostuneita kaikista löydöksistä eikä vain pelkistä kärkipään löydöksistä. Yleensä varsinkin web-hakukoneiden yhteydessä käyttäjä on kiinnostunut kuitenkin vain kärkipään dokumenteista. Tällaisen, kärkipään dokumentteja painottavan, hakujärjestelmän evaluointiin sopii paremmin mittariksi tarkkuus tietyssä pisteessä. Esimerkiksi taulukon 1 kyselyn 1 tarkkuus kymmenennen dokumentin kohdalla on 5/10 = 0,5. Kyselylle 2 vastaava arvo on 3/10 0,3. Tarkkuusarvo pisteessä 10 ei kuitenkaan tee eroa sen suhteen, missä kohdin relevantit dokumentit sijaitsevat. Esimerkiksi, jos ainoastaan yksi relevantti dokumentti saadaan kymmenen ensimmäisen dokumentin jouk- 15
20 koon, on tarkkuus kymmenennen dokumentin kohdalla 0,1, olipa relevantti dokumentti sitten tuloslistalla ensimmäisenä tai kymmenentenä. Käyttäjälle lienee kuitenkin hyödyllisempää se, mitä lähempänä tuloslistan kärkipäätä relevantti dokumentti sijaitsee. Relevanttien dokumenttien sijoittumista tuloslistalla voidaan tarkkuutta tarkemmin tarkastella mm. diskontatun kumuloituneen hyödyn avulla, joka on suosittu mittari webhakukoneiden evaluoinnissa. Mittari perustuu yksinkertaiseen oletukseen, että hyvin relevantit dokumentit ovat hyödyllisempiä kuin vähemmän relevantit dokumentit, ja toisaalta oletukseen, että mitä kauempana tuloksissa relevantti dokumentti on, sitä vähemmän se on käyttäjälle hyödyllinen, koska se tulee pienemmällä todennäköisyydellä huomatuksi ja tarkastelluksi. (Järvelin & Kekäläinen 2002, 424; Croft ym. 2010, 323.) Mittari tarkastelee dokumenttien hyötyarvoja ja sijoittumista tuloslistalla. Hyötyarvona käytetään dokumentin numeerista relevanssiarviota. Yleensä tämän mittarin käytössä on moniportainen relevanssiasteikko (Croft ym. 2010, 324.) Hyötyarvon diskonttaukseen eli pienentämiseen siirryttäessä tuloksissa kauemmaksi kärjestä voidaan käyttää dokumentin sijainnista tuloslistalla riippuvaa logaritmiarvoa (Croft ym. 2010, 324.) Logaritmin kantaa vaihtelemalla voidaan simuloida erilaisia käyttäjiä; kanta 2 mallintaa kärsimätöntä käyttäjää, ja kanta 10 mallintaa kärsivällistä käyttäjää (Järvelin & Kekäläinen 2002, 432), joka jaksaa tutkia tuloksia pidemmälle. Diskontattu kumuloitunut hyöty voidaan laskea kaavalla 1 (Croft ym. 2010, 323): Kaavassa 1 DCG p on kertynyt diskontattu hyöty pisteessä p, rel i on dokumentin numeerinen relevanssiarvio (eli diskonttaamaton höyty) tuloslistan kohdassa i ja nimittäjän log 2 i on hyödyn diskonttaus- eli vähennystekijä. Esimerkiksi jos käytössä on neliportainen relevanssiasteikko 0 3 (epärelevantit, marginaaliset, relevantit, erittäin relevantit), ja tulosdokumenttien relevanssiarviot ovat 3, 2, 3, 0, 0, 1, 2, 2, 3, 0, diskontattu kumuloitunut hyöty saadaan laskemalla edeltävät arvot yhteen: 3 + (2 + 1, ,39 + 0,71 + 0,67 + 0,95 + 0) 3 + 6,61 = 9,61 (ks. taulukko 2). 16
21 Taulukko 2. Kumuloituneen hyödyn laskentaesimerkin arvoja (mukailtu Croft ym. 2010, ). i rel i log 2 i rel i /log 2 i ideaali_rel i ideaali_rel i / log 2 i ,00 2,00 3 3, ,58 1,89 3 1, ,00 0,00 2 1, ,32 0,00 2 0, ,58 0,39 2 0, ,81 0,71 1 0, ,00 0,67 0 0, ,17 0,95 0 0, ,32 0,00 0 0,00 Yhteensä 6,61 7,88 Diskontattua kumuloitunutta hyötyä tarkastellaan usein jossain tietyssä pisteessä, vastaavasti kuten edellä tehtiin tarkkuuden tarkastelussa. Koska tämän mittarin kiinnostuksen kohteena ovat kärkipään dokumentit, käytetään yleensä pisteitä 5 ja 10. Näitä voidaan kuvata merkinnöillä DCG@5 ja DCG@10. Edellä olleen esimerkin tapauksessa diskontattu kumuloitunut hyöty on 9,61 nimenomaan kymmenennen dokumentin kohdalla. Eri kyselyt palauttavat eri määrän dokumentteja. Jotta kyselyjä voitaisiin vertailla ja laskea kyselyille keskiarvo, täytyy diskontattu arvo vielä normalisoida jakamalla se ideaalisella, parhaalla arvolla. Normalisoitu diskontattu kumuloitunut hyöty pisteessä p (ndcg p ) saadaan siten jakamalla diskontattu kumuloitunut hyöty vastaavassa pisteessä (DCG p ) ideaalisella diskontatulla kumuloidulla hyödyllä tässä pisteessä (idcg p ) (kaava 2). (Croft ym. 2010, 325.) Esimerkille paras tulosjärjestys on 3, 3, 3, 2, 2, 2, 1, 0, 0, 0, joka antaa ideaaliarvoksi kymmenennen dokumentin kohdalla 3 + 7,88 = 10,88 (ks. taulukko 2). Näin ollen normalisoitu diskontattu kumuloitunut hyöty kymmenennen dokumentin kohdalla on 9,61/10,88 0,88. Myös tämän mittarin antama arvo osuu aina välille [0, 1]. Tiedonhaun arvioinnissa voidaan tuloksellisuuden lisäksi tarkastella tehokkuutta (efficiency). Tällöin tarkastelussa ovat mm. tiedonhakujärjestelmän nopeus kyselyjen tai indeksoinnin suhteen sekä dokumenttiesityksen eli indeksin tilantarve. (Croft ym. 2010, 17
22 ) Menetelmien tehokkuustarkastelut on kuitenkin tässä tutkimuksessa jätetty jatkotutkimusaiheiksi. Croft ja kumppanit (2010) suosittelevat tiedonhakumenetelmän tuloksellisuuden arvioinnissa käytettäväksi useampaa mittaria. Heidän mielestään tarkasteluun olisi hyvä ottaa keskiarvon keskitarkkuus, keskimääräinen tarkkuus kymmenennen dokumentin kohdalla, normalisoidun diskontatun kumuloituneen hyödyn keskiarvo tietyssä kohtaa tulosten kärkipäätä tyypillisesti kymmenennen dokumentin kohdalla sekä saantitarkkuuskäyrä, joka sisältää enemmän informaatiota kuin edellä kuvatut yksittäisen arvon esittävät mittarit. (Croft ym. 2010, ) Kaikkia näitä arvoja tulisi verrata jonkin perustason (baseline) vastaavien mittarien arvoihin (Croft ym. 2010, 338). Perustasoksi voidaan valita esimerkiksi nykyinen käytössä oleva tiedonhakumenetelmä ja sille saadut arvot. Vaihtoehtoisen menetelmän antamia arvoja verrataan perustason arvoihin, jotta saadaan merkkejä siitä, onko vaihtoehtoinen menetelmä nykyistä parempi tai huonompi. Edellä mainittujen mittarien lisäksi on hyödyllistä selvittää vaihtoehtoisen menetelmän avulla saatujen parantuneiden ja heikentyneiden kyselyiden lukumäärät perustasoon verrattuna. Mittarina voi olla esimerkiksi keskitarkkuus. Parannukset ja heikennykset voidaan vielä jaotella muutoksen prosentuaalisen suuruuden mukaan. Näin nähdään lisäksi ovatko yksittäiset muutokset isoja vai pieniä. (Croft ym. 2010, ) Tässä tutkielmassa menetelmien evaluoinnissa käytetään kaikkia edellä suositeltuja tapoja. Keskiarvotarkastelussa mittareina ovat keskitarkkuuden keskiarvo, tarkkuus kymmenennen dokumentin kohdalla ja normalisoitu diskontattu kumuloitunut hyöty kymmenennen tuloksen kohdalla. Menetelmien kokonaistuloksellisuutta visualisoidaan saanti-tarkkuuskäyrällä. Yksittäisten kyselyiden parannusten tarkastelussa mittareina ovat keskitarkkuus, tarkkuus kymmenennen dokumentin kohdalla ja normalisoitu diskontattu kumuloitunut hyöty. Parannukset jaotellaan yhdeksään kategoriaan välille %, eli tarkastelun toisessa ääripäässä ovat 100 % heikentyneet kyselyt ja toisessa yli 100 % parantuneet kyselyt. Tutkielmassa perustasona on taivutusmuotoinen menetelmä eli kyselyn ja dokumentin sanoja ei käsitellä morfologisesti eikä millään muullakaan tavalla. 18
23 3.2 Evaluointi testikokoelman avulla Tiedonhaun tuloksellisuuden mittaamisessa pyritään selvittämään, kuinka relevantteja järjestelmän tai menetelmän palauttamat dokumentit ovat tiedontarpeen suhteen. Tuloksellisuuden selvittämisessä käytetään usein edellä kuvattujen evaluointimittarien kanssa testikokoelmaa. Testikokoelma koostuu dokumenteista ja hakuaiheista sekä ihmisarvioijien tekemistä relevanssiarvioista, jotka ilmaisevat dokumenttien relevanssin hakuaiheiden suhteen. Käytännössä testikokoelman jokaisella dokumentilla ja hakuaiheella on yksilöivä tunniste, ja relevanssiarvio on lista hakuaihe-dokumenttitunnistepareja. (Sanderson 2010, 250.) Evaluoinnissa dokumentit, joille ei ole olemassa relevanssiarviota, tulkitaan epärelevanteiksi (Büttcher ym 2010, 74). Hakuaihe kuvaa kuvitteellisen tiedontarpeen ja myös relevanssiarvion perusteen, eli sen, minkälainen dokumentti tulkitaan relevantiksi. Hakuaiheen perusteella muodostetaan kysely. Yksi hakuaihe ja siitä muodostettu kysely ei anna kovin luotettavaa kuvaa menetelmän toiminnasta. Sanderson (2010, 314) esittääkin, että tarvitaan noin viisikymmentä hakuaihetta, jotta menetelmiä voidaan vertailla. Suuri osa tutkimuskäytössä olevista testikokoelmista on syntynyt tiedonhakututkimuksen kansainvälisen yhteistyöfoorumin, TRECin (Text REtrieval Conference), puitteissa (Büttcher ym. 2010, 23). Testikokoelma voidaan luoda esimerkiksi seuraavanlaisella menettelyllä: Ensin hankitaan dokumenttiaineisto. Tämän jälkeen kehitetään dokumenttiaineistoon sopivat hakuaiheet. Seuraavaksi hakuaiheet annetaan tutkimusryhmille, jotka tuottavat menetelmillään hakutulokset kaikille hakuaiheille. Tutkimusryhmien saamat tulokset yhdistetään siten, että jokaiselta tutkimusryhmältä huomioidaan kuhunkin hakuaiheeseen n kärkipään dokumenttia, ja n on tyypillisesti 100 tai 50. Ihmisarvioija arvioi yhdistetyt tulokset, jolloin saadaan aikaiseksi saantikanta. Hakuaiheen arvioitavia dokumentteja ei välttämättä ole lukumäärällisesti n * tutkimusryhmämäärä, sillä tutkimusryhmien palauttamissa tuloksissa voi olla samoja dokumentteja. Lopuksi saantikanta annetaan tutkimusryhmien käyttöön. (Sanderson 2010, ; Büttcher ym. 2010, ) Ihannetapauksessa testikokoelma on uudelleenkäytettävä eli saman testikokoelman avulla voidaan tutkia, kuinka jokin uusi menetelmä toimii aikaisempiin menetelmiin verrattuna (Büttcher ym. 2010, 75). 19
24 Evaluoinnissa tarkkaillaan ennalta relevanteiksi tiedettyjen dokumenttien sijoittumista tuloslistalla ja niiden lukumäärää tuloksissa. Käytännössä tämä voidaan tehdä niin ikään TRECin puitteissa syntyneellä trec_eval-ohjelmalla, joka vertaa testikokoelman saantikannan dokumenttien tunnisteita ja hakutuloksen dokumenttien tunnisteita. Ohjelma osaa laskea tuloksellisuusarvoja hyvin monilla mittareilla. 3.3 Hakutulosten relevanssilajittelu Boolen tiedonhakumallissa kyselyissä voi käyttää loogisia operaattoreita AND, OR ja NOT (Croft ym. 2010, 239). Boolen mallissa tulosjoukkoon tulevat kaikki loogisen ehdon täyttävät dokumentit, eikä tulosjoukolla ole kyselyn ja dokumentin samankaltaisuuteen perustuvaa järjestystä, relevanssijärjestystä (Järvelin & Sormunen, 2010, 169). Boolen mallissa kaikki tuloksena saadut dokumentit ovat relevanssin suhteen tasavertaisia (Croft ym. 2010, 239). Vektorimallissa on nimensä mukaisesti ideana esittää kysely ja dokumentti vektorina ja laskea kahden vektorin samankaltaisuus. Vektorien samankaltaisuus voidaan selvittää normalisoimalla kyselyjen ja dokumenttien vektorit yhtä pitkiksi ja tarkastelemalla vektorien välisen kulman kosinia. Kahden identtisen vektorin välisen kulman kosini on 1 (eli kulma on 0 astetta), ja kahden täysin erilaisen vektorin kulman kosini on 0 (eli kulma on 90 astetta). (Croft ym. 2010, 244.) Näin ollen kyselyn ja dokumentin välille saadaan laskettua samankaltaisuusmitta, joka vaihtelee välillä [0, 1]. Mitä lähempänä arvo on yhtä, sitä samankaltaisempia kysely ja dokumentti ovat. Arvo 1 edustaa täydellistä samankaltaisuutta, jota Boolen logiikka vaatii (Järvelin 1995, 124). Boolen logiikan avulla saadaan vain arvoja 0 ja 1, mutta vektorimallissa dokumentit voidaan esittää tuloksena laskevan samankaltaisuuden mukaan. Mukaan tulokseen voidaan ottaa vain tietyn kynnysarvon ylittävät dokumentit. Vektoreissa dokumentin sanat ilmaistaan niiden painoarvoin. Paino kuvastaa sanan tärkeyttä dokumentissa (Croft ym. 2010, 245.) Yleisesti käytetään TF*IDF-painotusta, mutta muitakin menetelmiä sanapainojen laskemiseksi on (Büttcher ym. 2010, 57). TF*IDF-paino on sanan frekvenssin (term frequency) ja käänteisen dokumenttifrekvenssin (inverse document frequency) tulo. Käänteisen dokumenttifrekvenssin laskemiseksi pitää tietää kaikkien dokumenttien määrä (N) ja niiden dokumenttien määrä, joissa sana t esiintyy (N t ). Tyypillisesti IDF-komponentti lasketaan logaritmin avulla: 20
Digitalia-projektin tekstinlouhinnan tuloksia. Kimmo Kettunen
Digitalia-projektin tekstinlouhinnan tuloksia Kimmo Kettunen Digitalia Digitalia on Kaakkois-Suomen ammattikorkeakoulun, Helsingin yliopiston ja Kansalliskirjaston yhteinen tutkimuskeskus, toiminut hankerahoituksella
TIEDONHAKU INTERNETISTÄ
TIEDONHAKU INTERNETISTÄ Internetistä löytyy hyvin paljon tietoa. Tietoa ei ole mitenkään järjestetty, joten tiedonhaku voi olla hankalaa. Tieto myös muuttuu jatkuvasti. Tänään tehty tiedonhaku ei anna
CIRI Ontologiaperustainen tiedonhakuliittymä
CIRI Ontologiaperustainen tiedonhakuliittymä Eija Airio, Kalervo Järvelin, Sari Suomela, Pirkko Saatsi ja Jaana Kekäläinen Tampereen yliopisto Informaatiotutkimuksen laitos Ontologian kolmitasomalli kehitetty
Kansalliskirjaston digitoitu historiallinen lehtiaineisto : sanatason laatu, kokoelmien käyttö ja laadun parantaminen
Kansalliskirjaston digitoitu historiallinen lehtiaineisto 1771 1910: sanatason laatu, kokoelmien käyttö ja laadun parantaminen Kimmo Kettunen, Kansalliskirjasto Tuula Pääkkönen, Kansalliskirjasto Mika
Tiedonhakumenetelmät Tiedonhakumenetelmät Helsingin yliopisto / TKTL. H.Laine 1. Rankkaukseen perustuva tiedonhaku.
Boolen haut Tiedonhakumenetelmät Rankkaukseen perustuva tiedonhaku Boolen haussa dokumentti joko täyttää hakuehdon tai ei täytä hakuehtoa Hakuehdon täyttäviä vastauksia voi olla runsaasti (tuhansia - miljoonia)
1. Skannaus ja tekstintunnistus (OCR) verkkoskannerilta
M-Files OCR M-Files OCR:n avulla voidaan skannattavalle paperidokumentille tehdä tekstintunnistus skannerista riippumatta. Tällöin tekstiä sisältävät kuvat tunnistetaan varsinaisiksi tekstimerkeiksi, jonka
Monihaku ja sähköiset aineistot tutuksi. Jyväskylän kaupunginkirjaston tiedonhaun koulutus
Monihaku ja sähköiset aineistot tutuksi Jyväskylän kaupunginkirjaston tiedonhaun koulutus Miksi monihaku? Sähköistä aineistoa valtavat määrät Laadukasta ja ei-niin-laadukasta Ilmaista ja maksullista Monihakuun
Tiedonhaku ja varaaminen
Tiedonhaku ja varaaminen Kyytin verkkokirjasto kyyti.finna.fi 20.11.2018 Tiedonhaku Kirjoita hakukenttään teoksen nimi, tekijä, aihe tai muita asiaan liittyviä hakusanoja. Tarvittaessa katkaise hakusana
Tiedonhaku. Esim. kymenlaakso muutosjohtami* Laila Hirvisaari Tuntematon sotilas Ruksi tyhjentää hakukentän.
Tiedonhaku Kirjoita hakukenttään teoksen nimi, tekijä, aihe tai muita asiaan liittyviä hakusanoja. Tarvittaessa katkaise hakusana tähdellä *. Tällöin haku löytää kaikki niin alkavat sanat. Esim. hakusana
Vinkkejä musiikin tiedonhakuun OUTI-verkkokirjastossa
Vinkkejä musiikin tiedonhakuun OUTI-verkkokirjastossa Katja Pietilä / Musiikkiosasto 23.9.2017 Sisältö Verkkokirjaston aloitussivu Tarkan haun aloitussivu Hakutuloksen lukeminen Kokonaisten julkaisujen
PIKSELIT JA RESOLUUTIO
PIKSELIT JA RESOLUUTIO 22.2.2015 ATK Seniorit Mukanetti ry / Tuula P 2 Pikselit ja resoluutio Outoja sanoja Outoja käsitteitä Mikä resoluutio? Mikä pikseli? Mitä tarkoittavat? Miksi niitä on? Milloin tarvitaan?
Uudet EU-asetukset. EUR-Lexin tarkennetun haun käyttöohje
Uudet EU-asetukset EUR-Lexin tarkennetun haun käyttöohje Aloitus Mene EUR-Lex-sivustolle: http://eur-lex.europa.eu/homepage.html?locale=fi. Valitse (tarvittaessa) vaakasuorasta valikosta "Etusivu" ja siirry
TIEDONHANKINNAN PERUSTEET (1 op) harjoitus 1 (TaY Pori syksy 2014)
TIEDONHANKINNAN PERUSTEET (1 op) harjoitus 1 (TaY Pori syksy 2014) Tärkeimmät kotimaiset hakupalvelut Porin tiedekirjaston kotisivut (kerrataan pikaisesti) Porin tiedekirjaston painettu aineisto Tutcatista:
Verkkokirjaston hakuohjeet
1 Verkkokirjaston hakuohjeet Pikahaku Hakulaatikon löydät kaikkien sivujen yläosasta. Voit valita kohdistuuko haku kirjaston aineistotietokantaan, verkkokirjastosivustoon vai avainsanoihin. Voit hakea
Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.
T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset, ti 7.2.200, 8:30-0:00 Tiedon haku, Versio.0. Muutetaan tehtävässä annettu taulukko sellaiseen muotoon, joka paremmin sopii ensimmäisten mittojen
Tiedonhaku Nelli-portaalissa
Tiedonhaku Neli-portaalissa 1 (10) Nelli-portaali Tiedonhaku Nelli-portaalissa SISÄLTÖ Monihaku... Monihaku -sanahaku... Monihaku -tarkennettu... Monihaun tulokset... Monihaku: Lista... Monihaku: Koko
Verkkokirjaston hakuohjeet
1 Verkkokirjaston hakuohjeet Pikahaku Hakulaatikon löydät kaikkien sivujen yläosasta. Voit valita kohdistuuko haku kirjaston aineistotietokantaan, verkkokirjastosivustoon vai avainsanoihin. Voit hakea
Julkaisuarkistojen käyttötilastot: Mitä tilastoidaan ja miksi?
Julkaisuarkistojen käyttötilastot: Mitä tilastoidaan ja miksi? DSpace-käyttäjäryhmän tilastoseminaari Kansalliskirjaston auditoria, 3.11.2009 Jyrki Ilva (jyrki.ilva@helsinki.fi) Miksi verkkopalveluiden
Tentti erilaiset kysymystyypit
Tentti erilaiset kysymystyypit Kysymystyyppien kanssa kannatta huomioida, että ne ovat yhteydessä tentin asetuksiin ja erityisesti Kysymysten toimintatapa-kohtaan, jossa määritellään arvioidaanko kysymykset
Sanaluokkajäsennystä rinnakkaisilla transduktoreilla
Sanaluokkajäsennystä rinnakkaisilla transduktoreilla Nykykielten laitos FIN-CLARIN-seminaarissa 4. marraskuuta 2010 Sanaluokkajäsennys Mr. Gelbert also has fun with language. NNP NNP RB VBZ NN IN NN. Sanaluokkajäsennin
Kirjoita oma versio funktioista strcpy ja strcat, jotka saavat parametrinaan kaksi merkkiosoitinta.
Tehtävä 63. Kirjoita oma versio funktiosta strcmp(),joka saa parametrinaan kaksi merkkiosoitinta. Tee ohjelma, jossa luetaan kaksi merkkijonoa, joita sitten verrataan ko. funktiolla. Tehtävä 64. Kirjoita
Tiedonlähteille NELLIn kautta -
28.8.2009 1 Tiedonlähteille NELLIn kautta - www.nelliportaali.fi/jy NELLI-portaali on tiedonhakujärjestelmä, joka tarjoaa pääsyn Jyväskylän yliopistossa käytettävissä oleviin sähköisiin aineistoihin kuten
NELLI PORTAALIN KÄYTTÖOPAS
1 (13) NELLI PORTAALIN KÄYTTÖOPAS Nelli tiedonhakuportaalissa voit käyttää PKAMKin kirjasto ja tietopalvelun tarjoamia tietokantoja ja verkkoaineistoja, mm. verkkolehtiä, e kirjoja ja sanakirjoja. Mukana
Nelli Tiedonhakuportaali Kemi-Tornion ammattikorkeakoulun elektronisiin aineistoihin. Onnistuneita hetkiä Nellin parissa!
Nelli Tiedonhakuportaali Kemi-Tornion ammattikorkeakoulun elektronisiin aineistoihin. Onnistuneita hetkiä Nellin parissa! Nelli elektroniset aineistot yhdessä paikassa Nellissä voit silmäillä mitä elektronisia
1. Johdanto. Näkökulma dokumentti kohteena on yksinkertaistettu: - www-sivu tai -sivujoukko - monimutkainen tiedontarve
Tiedonhakumenetelmät, k.01 1 Luku 1. Johdanto 1. Johdanto IR (Information Retrieval; Information Storage and Retrieval) Tiedonhaku = prosessit, jotka liittyvät tiedon esittämiseen organisointiin tallentamiseen
Kerta 2. Kerta 2 Kerta 3 Kerta 4 Kerta 5. 1. Toteuta Pythonilla seuraava ohjelma:
Kerta 2 Kerta 3 Kerta 4 Kerta 5 Kerta 2 1. Toteuta Pythonilla seuraava ohjelma: 2. Tulosta Pythonilla seuraavat luvut allekkain a. 0 10 (eli, näyttää tältä: 0 1 2 3 4 5 6 7 8 9 10 b. 0 100 c. 50 100 3.
CINAHL(EBSCO) käyttöohjeita (10/2010)
CINAHL(EBSCO) käyttöohjeita (10/2010) Sisältö 1. Katkaisumerkki, sanojen yhdistely, fraasihaku... - 1-2. Advanced Search haku vapailla hakusanoilla... - 1-3. Haku asiasanoilla (CINAHL Headings)... - 2-4.
Tuloperiaate. Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta
Tuloperiaate Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta ja 1. vaiheessa valinta voidaan tehdä n 1 tavalla,. vaiheessa valinta voidaan tehdä n tavalla,
Yhdyssana suomen kielessä ja puheessa
Yhdyssana suomen kielessä ja puheessa Tommi Nieminen Jyväskylän yliopisto Anna Lantee Tampereen yliopisto 37. Kielitieteen päivät Helsingissä 20. 22.5.2010 Yhdyssanan ortografian historia yhdyssanan käsite
Ongelma(t): Miten merkkijonoja voidaan hakea tehokkaasti? Millaisia hakuongelmia liittyy bioinformatiikkaan?
Ongelma(t): Miten merkkijonoja voidaan hakea tehokkaasti? Millaisia hakuongelmia liittyy bioinformatiikkaan? 2012-2013 Lasse Lensu 2 Ihmisen, eläinten ja kasvien hyvinvoinnin kannalta nykyaikaiset mittaus-,
Yleisten kirjastojen kansallinen käyttäjäkysely 2013
Yleisten kirjastojen kansallinen käyttäjäkysely 2013 Hyvä asiakkaamme! Pyydämme sinua vastaamaan kirjastopalveluita koskevaan asiakaskyselyyn. Kyselyn tuloksia käytetään kirjastopalveluiden arvioinnissa
E-kirjat sähköiset kirjat
Kiravo - kirjasto avoimena oppimisympäristönä Biblär - biblioteket som ett öppet lärcentrum E-kirjat sähköiset kirjat Tavoite: Tutustutaan sähköisiin kirjoihin ja kirjaston lukulaitteisiin. Sisältö Maksuttomia
Digi.kansalliskirjasto.fi:n käyttöohje
Digi.kansalliskirjasto.fi:n käyttöohje Digi.kansalliskirjasto.fi:n käyttöohje Kansalliskirjasto / Digitointi- ja konservointikeskus Uusittu 14.9.2016 Digi.kansalliskirjasto.fi - Pääsivu Etusivu Sivustokartta
Ovid Medline käyttöohjeita (10/2010)
Ovid Medline käyttöohjeita (10/2010) Sisältö 1. Pikahaku - Basic Search:... - 1-2. Tarkennettu haku asiasanoilla - Advanced Ovid Search... - 1-3. Tulosjoukkojen yhdistely... - 5-4. Vapaasanahaku yksittäisellä
Ohjelmoinnin peruskurssi Y1
Ohjelmoinnin peruskurssi Y1 CSE-A1111 30.9.2015 CSE-A1111 Ohjelmoinnin peruskurssi Y1 30.9.2015 1 / 27 Mahdollisuus antaa luentopalautetta Goblinissa vasemmassa reunassa olevassa valikossa on valinta Luentopalaute.
Web of ScienceTM Core Collection (1987-present)
Tampereen yliopiston kirjasto 2014 Web of ScienceTM Core Collection (1987-present) Science Citation Index Expanded (1987-present): Monitieteinen tietokanta, joka sisältää 8,500 tieteellistä lehteä luonnontieteiden,
NELLI Kansallinen tiedonhakujärjestelmä
NELLI Kansallinen tiedonhakujärjestelmä Nelli on väline tiedonhakuun ja -hallintaan Nelli kokoaa kirjaston elektroniset tiedonlähteet yhteen paikkaan Eri alojen tietokannat Elektroniset lehdet Kokoelmatietokannat
Aleksi ja ARTO artikkeliviitetietokannat
Aleksi ja ARTO artikkeliviitetietokannat Artikkeliviitetietokannoissa on viitteitä artikkeleihin, mutta ei varsinaisia artikkeleita. Viitteestä saa tiedot, joiden avulla voi etsiä käsiinsä lehden, jossa
Porin tiedekirjasto ja TTY:n verkkoaineistot
Porin tiedekirjasto ja TTY:n verkkoaineistot www.tut.fi/kirjasto/pori kirjasto-pori@tut.fi 040 826 2780 Sisältö: Porin tiedekirjaston kotisivu Porin tiedekirjaston aineiston haku Tutcattietokannasta (ja
Lukutaitotutkimukset arviointiprosessina. Sari Sulkunen Koulutuksen tutkimuslaitos, JY sari.sulkunen@jyu.fi
Lukutaitotutkimukset arviointiprosessina Sari Sulkunen Koulutuksen tutkimuslaitos, JY sari.sulkunen@jyu.fi Kansainväliset arviointitutkimukset Arvioinnin kohteena yleensä aina (myös) lukutaito Kansallisista
Tiedonhaku korkeakouluopinnoissa
Kun Google ei riitä Tiedonhaku korkeakouluopinnoissa Googlesta tiedon ja julkaisujen saatavuus parantunut hyvä paikantamaan jo tiedettyä lähdettä tulosten relevanssilajittelu tiedon laatu ja taso vaihtelevat
E-kirjan lainaaminen ja lukeminen
E-kirjan lainaaminen ja lukeminen Missä ne ovat LAKIA-KIRJASTOJEN E-KIRJAT OVAT ELLIBS-KIRJAKAUPAN SIVULLA. VOIT HAKEA NIITÄ KAHDELLA TAVALLA: 1. LAKIA-TIETOKANNASTA ETSIMÄLLÄ TIETTYÄ KIRJAA TAI KAIKKIA
Lumme-verkkokirjaston tiedonhaun opas Pieksämäen kaupunginkirjasto
Lumme-verkkokirjaston tiedonhaun opas Pieksämäen kaupunginkirjasto Tervetuloa Lumme-kirjastojen verkkokirjastoon! Ilman kirjautumista voit selata aineistotietokantaa tarkistaa onko teos hyllyssä vai lainassa
Nollasummapelit ja bayesilaiset pelit
Nollasummapelit ja bayesilaiset pelit Kristian Ovaska HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Seminaari: Peliteoria Helsinki 18. syyskuuta 2006 Sisältö 1 Johdanto 1 2 Nollasummapelit 1 2.1
Pyydämme sinua vastaamaan kirjastopalveluita koskevaan asiakaskyselyyn. Kyselyn tuloksia käytetään kirjastopalveluiden arvioinnissa ja kehittämisessä.
Asiakaskysely kirjastopalveluista Hyvä asiakkaamme! Pyydämme sinua vastaamaan kirjastopalveluita koskevaan asiakaskyselyyn. Kyselyn tuloksia käytetään kirjastopalveluiden arvioinnissa ja kehittämisessä.
Ohje DaisyTrio-kirjan käyttöön EasyReader Express -ohjelmalla
Ohje DaisyTrio-kirjan käyttöön EasyReader Express -ohjelmalla Tärkeää tietoa käyttäjälle Mikä on DaisyTrio-kirja? DaisyTrio-kirja sisältää painetun kirjan tekstin ääneen luettuna, koko tekstin sekä kuvia.
Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa. Kimmo Kettunen Dimiko (Digra-projekti)
Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa Kimmo Kettunen Dimiko (Digra-projekti) Tekstinlouhinta Tekstinlouhinnassa pyritään saamaan tekstimassoista automaattisesti
Tentti erilaiset kysymystyypit
Tentti erilaiset kysymystyypit Monivalinta Monivalintatehtävässä opiskelija valitsee vastauksen valmiiden vastausvaihtoehtojen joukosta. Tehtävään voi olla yksi tai useampi oikea vastaus. Varmista, että
MONOGRAFIAN KIRJOITTAMINEN. Pertti Alasuutari
MONOGRAFIAN KIRJOITTAMINEN Pertti Alasuutari Lyhyt kuvaus Monografia koostuu kolmesta pääosasta: 1. Johdantoluku 2. Sisältöluvut 3. Päätäntäluku Lyhyt kuvaus Yksittäinen luku koostuu kolmesta osasta
5.2 Ensimmäisen asteen yhtälö
5. Ensimmäisen asteen ytälö 5. Ensimmäisen asteen yhtälö Aloitetaan antamalla nimi yhtälön osille. Nyt annettavat nimet eivät riipu yhtälön tyypistä tai asteesta. Tarkastellaan seuraavaa yhtälöä. Emme
Porin tiedekirjasto ja TTY:n verkkoaineistot
Porin tiedekirjasto ja TTY:n verkkoaineistot www.tut.fi/kirjasto/pori kirjasto-pori@tut.fi 040 826 2780 Sisältö: Porin tiedekirjaston kotisivu Porin tiedekirjaston aineiston haku Tutcattietokannasta (ja
S-114.2720 Havaitseminen ja toiminta
S-114.2720 Havaitseminen ja toiminta Heikki Hyyti 60451P Harjoitustyö 2 visuaalinen prosessointi Treismanin FIT Kuva 1. Kuvassa on Treismanin kokeen ensimmäinen osio, jossa piti etsiä vihreätä T kirjainta.
Oppilaan opas. Visuaaliviestinnän Instituutti VVI Oy. Versio 0.2 (2008-01-21)
Oppilaan opas Visuaaliviestinnän Instituutti VVI Oy Versio 0.2 (2008-01-21) Versio Päivämäärä Kuvaus 0.1 2005-01-16 Ensimmäinen versio. 0.2 2008-01-21 Korjattu kuvatiedostojen maksimiresoluutio ja muutamia
Aineistokoko ja voima-analyysi
TUTKIMUSOPAS Aineistokoko ja voima-analyysi Johdanto Aineisto- eli otoskoon arviointi ja tutkimuksen voima-analyysi ovat tilastollisen tutkimuksen suunnittelussa keskeisimpiä asioita. Otoskoon arvioinnilla
Kaikkiin kysymyksiin vastataan kysymys paperille pyri pitämään vastaukset lyhyinä, voit jatkaa paperien kääntöpuolille tarvittaessa.
NIMI: OPPILASNUMERO: ALLEKIRJOITUS: tehtävä 1 2 3 4 yht pisteet max 25 25 25 25 100 arvosana Kaikkiin kysymyksiin vastataan kysymys paperille pyri pitämään vastaukset lyhyinä, voit jatkaa paperien kääntöpuolille
Kirjastojen verkkoaineistoja opetukseen
Kirjastojen verkkoaineistoja opetukseen Suomalaiset kirjastot, museot ja arkistot ovat tuoneet verkkoon vapaasti käytettäviä tekstejä, kuvia, tietoja ja videoita. Niiden hyödyntäminen vaikkapa ilmiöitä
Asiakirjojen vertailu-kurssi
Asiakirjojen vertailu-kurssi Revussa voi verrata keskenään kahta PDF:ää ja automaattisesti näyttää niiden väliset erot. Piirrosten ja kaaviokuvien vertailu sujuu siten helposti ja nopeasti. Kun haluat
Kirjastoinfo TaY Pori Porin tiedekirjasto
Kirjastoinfo TaY Pori Porin tiedekirjasto www.tut.fi/kirjasto/pori kirjasto-pori@tut.fi 040 826 2780 Kalvot www-sivuilla: Porin tiedekirjasto > Koulutus Sisältö: Porin tiedekirjaston kotisivu www.tut.fi/kirjasto/pori
Algoritmit 2. Luento 13 Ti Timo Männikkö
Algoritmit 2 Luento 13 Ti 30.4.2019 Timo Männikkö Luento 13 Simuloitu jäähdytys Merkkijonon sovitus Horspoolin algoritmi Ositus ja rekursio Rekursion toteutus Algoritmit 2 Kevät 2019 Luento 13 Ti 30.4.2019
KYSELYNKÄSITTELYMENETELMIEN EVALUOINTITUTKIMUS SUOMALAISEN VERKKOARKISTON TAIVUTUSMUOTOINDEKSIÄ KÄYTTÄEN. Petteri Veikkolainen
KYSELYNKÄSITTELYMENETELMIEN EVALUOINTITUTKIMUS SUOMALAISEN VERKKOARKISTON TAIVUTUSMUOTOINDEKSIÄ KÄYTTÄEN Petteri Veikkolainen Tampereen yliopisto Informaatiotieteiden yksikkö Informaatiotutkimus ja interaktiivinen
Elektronisen julkaisemisen uusia tuulia - sanomalehtiä ja aikakausjulkaisuja taannehtivasti verkossa AGRICOLA
1 / 5 1.2.2018 klo 22:33 Elektronisen julkaisemisen uusia tuulia - sanomalehtiä ja aikakausjulkaisuja taannehtivasti verkossa AGRICOLA Vaikka verkkobisneksen ja uusmedia-alan kovasti mainostetulla "sisällöntuotannolla"
Ilmiöprojektin tiedonhankinta
Ilmiöprojektin tiedonhankinta Aiheena suomalaiset kirjailijat Lyseon 9d ja 9e Joulukuu 2017 Mikkelin kaupunginkirjasto s. 1 Tervetuloa kirjastotunnille! Avaa sivu https://oppilaidenkirjastopolku.wordpress.com/
Finna Tunnusluvut 5.3.2015
Finna Tunnusluvut 1. TUNNUSLUVUT Nykyään Finnasta lasketaan seuraavat tunnusluvut: Osallistuvien organisaatioiden määrä Indeksin viitteiden määrä Verkossa saatavilla olevien viitteiden määrä Eri aineistotyyppien
Liite A: Kyselylomake
1/4 2/4 3/4 4/4 Liite B: Kyselyyn liitetty viesti 1/1 Hei, olen Saija Vuorialho Helsingin yliopiston Fysikaalisten tieteiden laitokselta. Teen Pro gradu tutkielmaani fysiikan historian käytöstä lukion
Kirjastoinfo TY KTMT Porin tiedekirjasto
www.tut.fi/kirjasto/pori kirjasto-pori@tut.fi facebook.com/porintiedekirjasto 040 826 2780 Kirjastoinfo TY KTMT Porin tiedekirjasto Kalvot myös netissä: Porin tiedekirjasto > Koulutus Sisältö: Porin tiedekirjaston
Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen
Etsintä verkosta (Searching from the Web) T-61.2010 Datasta tietoon Heikki Mannila, Jouni Seppänen 12.12.2007 Webin lyhyt historia http://info.cern.ch/proposal.html http://browser.arachne.cz/screen/
Ilmiöprojektin tiedonhankinta
Ilmiöprojektin tiedonhankinta Aiheena Euroopan unioni Urheilupuiston 9b 10.5.2017 Mikkelin kaupunginkirjasto s. 1 Tervetuloa kirjastotunnille! Avaa sivu https://oppilaidenkirjastopolku.wordpress.com/ Viimeisimmät
Ebrary-palvelun e-kirjojen lukeminen selaimessa
Ebrary-palvelun e-kirjojen lukeminen selaimessa Palaute: nelli @uef.fi Ohje päivitetty: 1.9.2016 / KM Lukuohjeita myös Ebraryn sivuilla: New Online Reader Yliopiston käyttöön hankitussa Ebrary-palvelussa
Kirjastojen verkkoaineistoja opetukseen
Kirjastojen verkkoaineistoja opetukseen educa-esite-fi.indd 1 13.1.2017 8:54:49 Suomalaiset kirjastot, museot ja arkistot ovat tuoneet verkkoon vapaasti käytettäviä tekstejä, kuvia, tietoja ja videoita.
Johdatus lukuteoriaan Harjoitus 2 syksy 2008 Eemeli Blåsten. Ratkaisuehdotelma
Johdatus lukuteoriaan Harjoitus 2 syksy 2008 Eemeli Blåsten Ratkaisuehdotelma Tehtävä 1 1. Etsi lukujen 4655 ja 12075 suurin yhteinen tekijä ja lausu se kyseisten lukujen lineaarikombinaationa ilman laskimen
Lähteisiin viittaaminen ja lähdekritiikki
Lähteisiin viittaaminen ja lähdekritiikki LÄHDEKRITIIKKI Lähdekritiikki on tiedonlähteiden arviointia. Lähdekritiikillä tarkoitetaan siis sen arvioimista, voiko tiedontuottajaan (siis esimerkiksi kirjan,
Ohje tutkielman tekemiseen
Sauvon koulukeskus 2011 Ohje tutkielman tekemiseen Aiheen valinta Etsi materiaalia Valitse itseäsi kiinnostava aihe. Sovi opettajan kanssa aiheen rajaus. Pyydä opettajalta tutkielmapassiin merkintä aiheen
Automaattinen semanttinen annotointi
Automaattinen semanttinen annotointi Matias Frosterus, Reetta Sinkkilä, Katariina Nyberg Semantic Computing Research Group (SeCo) School of Science and Technology, Department of Media Technology and University
58131 Tietorakenteet (kevät 2009) Harjoitus 6, ratkaisuja (Antti Laaksonen)
58131 Tietorakenteet (kevät 2009) Harjoitus 6, ratkaisuja (Antti Laaksonen) 1. Avaimet 1, 2, 3 ja 4 mahtuvat samaan lehtisolmuun. Tässä tapauksessa puussa on vain yksi solmu, joka on samaan aikaan juurisolmu
ARTIKKELITIETOKANNAT JA OMANELLI PIRJO POHJOLAINEN
ARTIKKELITIETOKANNAT JA OMANELLI PIRJO POHJOLAINEN 1 Etäkäyttö Käyttöoikeudet ja -rajoitukset PSK ITU-T IEEE Tali Helsingin Sanomien tekstiarkisto TALENTUM Suomen laki INTERNET hakukoneet aihehakemistot
INTERVALLIPÄÄTÖSPUUT JANNE GUSTAFSSON 45433E. Mat Optimointiopin seminaari Referaatti
12.11.1999 INTERVALLIPÄÄTÖSPUUT JANNE GUSTAFSSON 45433E Mat-2.142 Optimointiopin seminaari Referaatti Syksy 1999 1. JOHDANTO Thomas M. Stratin artikkeli Decision Analysis Using Belief Functions käsittelee
CEM DT-3353 Pihtimittari
CEM DT-3353 Pihtimittari Sivu 1/5 CEM DT-3353 Pihtimittari Ongelma Mittarin ohjelmisto ilmoittaa NO DATA vaikka tiedonsiirtokaapeli on kytketty tietokoneen ja mittarin välille, mittarissa on virta päällä
Blogger-blogin käyttöönotto ja perusasiat Bloggerista & bloggauksesta
1 Blogger-blogin käyttöönotto ja perusasiat Bloggerista & bloggauksesta Blogi on yhden tai useamman kirjoittajan verkkosivu tai -sivusto, jonka kautta voidaan julkaista omia kirjoituksia perinteisten julkaisukanavien
Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin
Aineistoista 11.2.09 IK Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin Muotoilussa kehittyneet menetelmät, lähinnä luotaimet Havainnointi:
Ohje: Miten haen artikkeleita Aleksista
Ohje: Miten haen artikkeleita Aleksista a) Mikä on Aleksi?... 1 b) Verkkopalvelun ulkoasu. 1 c) Artikkelien hakeminen... 2 d) Artikkelien lukeminen... 4 e) Artikkelien lisääminen koriin.. 5 a) Mikä on
TimeEdit opiskelijan ohje TimeEdit-instructions for students from this link
TimeEdit opiskelijan ohje TimeEdit-instructions for students from this link TimeEdit on työjärjestys- (lukujärjestys) ja tilanvarausohjelmisto. Sisältö 1 Oikeudet... 2 2 TimeEdit Web... 2 3 Kirjautuminen...
Vinkkejä musiikin tiedonhakuun OUTI-verkkokirjastossa
Vinkkejä musiikin tiedonhakuun OUTI-verkkokirjastossa Katja Pietilä / Musiikkiosasto 16.1.2017 Sisältö Verkkokirjaston aloitussivu Tarkan haun aloitussivu Hakutuloksen lukeminen Kokonaisten julkaisujen
PSY181 Psykologisen tutkimuksen perusteet, kirjallinen harjoitustyö ja kirjatentti
PSY181 Psykologisen tutkimuksen perusteet, kirjallinen harjoitustyö ja kirjatentti Harjoitustyön ohje Tehtävänäsi on laatia tutkimussuunnitelma. Itse tutkimusta ei toteuteta, mutta suunnitelman tulisi
Oma nimesi Tehtävä (5)
Oma nimesi Tehtävä 3.1 1 (5) Taulukot ja niiden laatiminen Tilastotaulukko on perinteinen ja monikäyttöisin tapa järjestää numeerinen havaintoaineisto tiiviiseen ja helposti omaksuttavaan muotoon. Tilastoissa
Aiheen rajaus Tutkimussuunnitelma
Aiheen rajaus Tutkimussuunnitelma Digitaalisen kulttuurin tutkimusmenetelmät 5.2. 2008 Aiheen rajaaminen Aihepiirin täsmentäminen ja supistaminen Aihetta helpompi tutkia Mahdollistaa syvemmän analyysin
Kolmannen ja neljännen asteen yhtälöistä
Solmu /019 7 Kolmannen neljännen asteen yhtälöistä Esa V. Vesalainen Matematik och statistik, Åbo Akademi Tämän pienen artikkelin tarkoituksena on satuilla hieman algebrallisista yhtälöistä. Erityisesti
Iltalehti Kauppalehti Aamulehti Lapin Kansa Satakunnan Kansa Kainuun Sanomat Pohjolan Sanomat
Media-arkisto Suomen Media-arkisto on sähköinen lehtien sisältöpankki. Saat yhdellä haulla selville, mitä sinua kiinnostavasta aiheesta, henkilöstä tai organisaatiosta eri aikoina on julkaistu maakunta-,
Pääluvun tekstin jälkeen tuleva alaotsikko erotetaan kahdella (2) enterin painalluksella,väliin jää siis yksi tyhjä rivi.
KIRJALLISEN TYÖN ULKOASU JA LÄHTEIDEN MERKITSEMINEN Tämä ohje on tehty käytettäväksi kasvatustieteiden tiedekunnan opinnoissa tehtäviin kirjallisiin töihin. Töiden ohjaajilla voi kuitenkin olla omia toivomuksiaan
Opetustapahtumien hakeminen (Hae - Opetustapahtuma)
Helsingin yliopisto WinOodi 1 (5) Opetustapahtumien hakeminen (Hae - Opetustapahtuma) Opetustapahtumien hakua tarvitaan sekä opetustapahtumien käsittelyssä että raporttien tulostamisessa. Ohjeessa käsitellään
Kiipulan ammattiopisto. Liiketalous ja tietojenkäsittely. Erja Saarinen
Kiipulan ammattiopisto Liiketalous ja tietojenkäsittely Erja Saarinen 2 Sisällysluettelo 1. Johdanto... 3 2. Hyvät internetsivut... 3 3. Kuvien koko... 4 4. Sivujen lataus... 4 5. Sivukartta... 5 6. Sisältö...
Octo käyttöohje 1. Sisältö
Octo käyttöohje 1 Sisältö Sisältö...1 Sisäänkirjautuminen...2 Etusivu...2 Uimarihaku...3 Uimariryhmät...4 Seurahaku...4 Kilpailutilastot...5 Ilmoittautuminen kilpailuun...6 Kilpailuun ilmoittautuminen...7
3.3 Paraabeli toisen asteen polynomifunktion kuvaajana. Toisen asteen epäyhtälö
3.3 Paraabeli toisen asteen polynomifunktion kuvaajana. Toisen asteen epäyhtälö Yhtälön (tai funktion) y = a + b + c, missä a 0, kuvaaja ei ole suora, mutta ei ole yhtälökään ensimmäistä astetta. Funktioiden
Relevanssipalautteen toimivuus lyhyillä, eritasoisesti onnistuneilla aloituskyselyillä. Jari Friman
Relevanssipalautteen toimivuus lyhyillä, eritasoisesti onnistuneilla aloituskyselyillä Jari Friman Tampereen yliopisto Informaatiotutkimuksen laitos Pro gradu -tutkielma Syyskuu 2008 TIIVISTELMÄ TAMPEREEN
Dawsonera e-kirjaportaalin käyttöohje
Dawsoneraopas_2014 1 (10) Dawsonera e-kirjaportaalin käyttöohje Yhteyden luonti Dawsoneraan Savonia-amk:n verkosta Dawsoneran e-kirjaluetteloon saa yhteyden Nelliportaalin kautta valitsemalla etusivun
Kirjastoinfo TuKKK Pori Porin tiedekirjasto
www.tut.fi/kirjasto/pori kirjasto-pori@tut.fi facebook.com/porintiedekirjasto 040 826 2780 Kirjastoinfo TuKKK Pori Porin tiedekirjasto Kalvot myös netissä: Porin tiedekirjasto > Koulutus Porin tiedekirjaston
Verkkosivun ulkonäkö mukautuu eri laitteisiin; älypuhelimeen, tablettiin tai tietokoneeseen. Hakuperiaatteet ovat samat laitteesta riippumatta.
Hakuohje Verkkosivun ulkonäkö mukautuu eri laitteisiin; älypuhelimeen, tablettiin tai tietokoneeseen. Hakuperiaatteet ovat samat laitteesta riippumatta. Hakukenttä on samassa paikassa kaikilla verkkosivuston
NPH ja NPJ kurssien tiedonhaun koulutukset informaatikkonäkökulmasta
KYSin tieteellinen kirjasto 1/8 NPH ja NPJ kurssien tiedonhaun koulutukset informaatikkonäkökulmasta Tuulevi Ovaska, Kirsi Salmi Näyttöön perustuva hoitotyö edellyttää tiedonhakutaitoja ja niiden oppimiseen,
SIIVOJA HALLITSEE EKG-REKISTERÖINNIN, VAIKKA SE ON VAIKEAA JOPA KLIINISEN FYSIOLOGIAN ERIKOISHOITAJILLE!
Hanna-Maarit Riski Yliopettaja Turun ammattikorkeakoulu SIIVOJA HALLITSEE EKG-REKISTERÖINNIN, VAIKKA SE ON VAIKEAA JOPA KLIINISEN FYSIOLOGIAN ERIKOISHOITAJILLE! JOHDANTO Iltasanomissa 17.3.2011 oli artikkeli,