Johdatus kieliteknologiaan Luku 3: Tiedon haku ja siihen liittyvät sovellukset
|
|
- Satu Niemi
- 6 vuotta sitten
- Katselukertoja:
Transkriptio
1 Johdatus kieliteknologiaan Luku 3: Tiedon haku ja siihen liittyvät sovellukset Kimmo Koskenniemi 5. marraskuuta 2005 Sisältö 1 Tekstimuotoisen tiedon hallinnan eri lajeja Tiedon haku Monikielinen tai kielten välinen tiedonhaku Dokumenttien automaattinen luokittelu Tekstin automaattinen tiivistäminen Automaattinen hakemistojen muodostaminen Tiedon automaattinen eristäminen Hypertekstin ja semanttisen WEBin merkintöjen tuottaminen Kieliteknologiset menetelmät, joita tarvitaan tekstitiedon hallinnassa Sanojen taipumisen ja yhdyssanojen vaikutus tiedonhakuun Morfologisen jäsentimen käyttäminen Hakuvartaloiden muodostaminen Lauseyhteyksien hyödyntäminen Tulevaisuudennäkymiä 8 1 Tekstimuotoisen tiedon hallinnan eri lajeja Tietokoneen muodossa saatavilla olevan luonnollisen kielen tiedon määrä on kasvanut valtavaksi. Varsinkin Internetissä olevien tietojen etsimiseksi on nykyään runsaasti välineitä tarjolla. Syntyneessä tilanteessa tarvitaan monenlaisia menetelmiä ja työkaluja, jotta pärjättäisiin näiden suunnattomien tietomäärien kanssa: dokumentteja (tai verkkosivuja) on haettava entistä valikoivammin (tiedonhaku) ja löytyviä sivuja on voitava asettaa paremmuusjärjestykseen (relevanssijärjestys), pitkisstä teksteistä pitäisi voida osoittaa sellaisia kohtia, joista käy ilmi tekstin pääasia (tiedon tiivistäminen), 1
2 viesteistä tai teksteistä pitäisi päätellä minkälajisia ne ovat, esim. kenen käsiteltäviksi ne kuuluvat (dokumenttien luokittelu) teksteistä pitäisi voida tehdä asiahakemistoja joko koneen avustamana tai automaattisesti (indeksointi), sisältöä pitäisi voida linkittää hienojakoisemmin eli kunkin alan määrämuotoisen käsitteistön avulla (semanttinen web) sekä dokumentteja pitäisi linkittää toisiinsa tunnistamalla kohtia, joissa on tärkeitä asioita ja kohtia, joissa olisi tarvetta viitata toisaalle, missä siinä käsitellystä asiasta on lisää tietoa (automaattinen hypertekstin muodostaminen). 1.1 Tiedon haku Tietoja verkossa ja erilaisissa tietojärjestelmissä on nykyään enemmän kuin tarpeeksi. Aikoihin ei yleisimpänä pullonkaulana ole ollut se, ettei tietoa ole olemassa, vaan vaikeutena on joko se, että haut tuottavat liikaa tuloksia tai sitten löytää keino oikean tiedon löytämiseksi. Yksinkertaistettuna tiedonhaulla tarkoitetaan niiden dokumettien löytämistä, jotka olisivat relevantteja haun kannalta eli sisältäisivät sitä tietoa, jota etsitään. Relevanssi voi olla eriasteista ja sen vuoksi tiedonhaun ohjelmien pitäisi mieluusti tarjota dokumentteja siten, että relevantimmat tulevat ensiksi. Dokumentteja etsitään useimmiten niissä esiintyvien sananmuotojen perusteella, koska tällainen on teknisesti helpointa toteuttaa. Kieliteknologialla on useampia mahdollisia tehtäviä tiedonhaun yhteydessä, sillä: monissa kielissä hakusanat voivat esiintyä useissa eri taivutusmuodoissa, minkä vuoksi voi olla vaikeaakin laatia hakuja, joissa halutun hakusanan eri taivutusmuodot kaikki löytyisivät, vaikka dokumentissa puhutaan samasta asiasta, se ilmaistaan eri sanoin kuin, mitä kyselijä tulee ajatelleeksi laatiessaan hakulauseketta, tai hakuun liittyy sanoja, joilla on erilaisia alamerkityksiä, joista vain jokin liittyy haettavaan asiaan ja muut eivät. Tiedonhaun onnistumisen arvioimiseen liittyy kaksi tärkeää suuretta: saanti (engl. recall), joka kuvaa sitä prosenttiosuutta relevanteista (eli halutuista) dokumenteista, joka kaikista relevanteista dokumenteista tuli esille haun avulla ja tarkkuus (engl. precision), joka kuvaa sitä kuinka suuri prosenttiosuus haun esille tuomista dokumenteista oli relevantteja. Tavoitteena on luonnollisesti se, että haku onnistuisi 100 % saannilla ja 100 % tarkkuudella, vaikka käytännössä tällaiseen ei yleensä voida päästä, vaan tyydytään erilaisiin kompromisseihin. Ei ole mitenkään edullista tavoitella vain toisen kriteerin optimointia, sillä sisällyttämällä kaikki mahdolliset dokumentit haun tuloksiin, saadaan korkein mahdollinen saanti, mutta aivan mitätön tarkkuus. Samoin, tyytymällä vain yhteen todennäköisimpään dokumenttiin saavutettaisiin usein 100 % tarkkuus mutta mitätön saanti. Kumpikin ääritapaus on useimmiten käyttäjälle jokseenkin hyödytön (mutta kuitenkin joskus halutaan Internetin hakukoneelta vain yksi todennäköisin osuma). Itse haku suoritetaan yleensä dokumentissa esiintyvien sanojen perusteella, siten että kelpuutetaan lähinnä vain sellaisia dokumentteja, joissa kaikki vaaditut sanat esiintyvät (tai siten, etä mahdollisimman monet, ennen kaikkea hyvin erottelevat sanat esiintyvät). Relevanssin arviointiin sen sijaan käytetään 2
3 erilaisia tilastollisia menetelmiä mm. sen mukaan, kuinka hyvin haussa annetut sanat esiintyvät yleensä ja erityisesti kyseisessä dokumentissa sekä kuinka hakukriteerinä olevat sanat yleensä erottelevat dokumentteja. Sananmuotojen esiintymisen lisäksi relevanssiin vaikuttavat muutkin asiat, kuten se, miten monet ja millaiset muut sivut viittaavat kyseiseen sivuun ja niinkin arkiset asiat kuin, esiintyvätkö saneet dokumentin alussa vai lopussa ja edelleen, esiintyvätkö otsikoissa vai juoksevassa tekstissä. Jotkut Internetin hakukoneista (itse asiassa harvat) salivat haut paitsi kokonaisilla myös katkaistuilla sananmuodoilla. Tällaisilla tyvillä voi tavoittaa taipumisen kautta tai muuten yhteen kuuluvia sananmuotoja (ja siten parantaa saantia), kunhan niissä on tarpeeksi paljon yhteistä alkuosaa (jotta tarkkuus ei liiaksi kärsi). Haut voivat koostua sananmuotojen luetteloiden sijasta myös ns. Boolen lausekkeista, joilla yksittäisiä hakutermejä yhdistellään mutkikkaammin. Boolen lausekkeilla voidaan esittää vaihtoehtoja hakutermeille (esim. laiva OR alus) ja mahdollisia kieltoja (esim. mutta NOT maine). Boolen lausekkeita pidetään usein vaikeina tavallisen käyttäjän kannalta. Eksplisiittisen hakulausekkeen muodostamisen sijasta tiedonhakua voidaan toteuttaa myös siten, että käyttäjä pyytää toisia, annetun dokumentin kaltaisia dokumentteja. Silloin tehtävä on pikemminkin arvioidan kahden dokumentin samanlaisuutta esim. niissä esiintyvien sananmuotojen avulla. Etuna arvellaan olevan se, että käyttäjien on helpompi antaa tällaista palautetta kuin mutkikkaita lausekkeita. Samanlaisten dokumenttien hakua käytetään yleensä toisena vaiheena hakulausekkeen tuottaman alustavan haun jälkeen. Internetissä on vapaasti käytettävissä erilaisia hakupalveluita ( jne.). Jotkut tarjoilevat etukäteen laaditun luokituksen mukaan viitteitä, jotkut etsivät viitteitä eri puolilta verkkoa kerättyjen sivujen sisältämien sanojen perusteella. Dokumentin sisältämien sanojen perusteella hakeminen perustuu hakurobottiin eli ohjelmaan, joka vaeltaa ympäri koko Internetiä ja kerää sivuja ja löydettyään niitä jatkaa etsimistä sivujen sisältämien uusien linkkien perusteella. Kaikista tällä tavalla löydetyistä verkkosivuista eristetään haun pohjaksi niissä esiintyvät sananmuodot. Läpikäynnissä löydettyden sivujen sananmuodoista kerätään suuri hakemisto, jonka perusteella voidaan päätellä, millä verkkosivuilla esiintyy mitäkin sananmuotoja ja erityisesti toisinpäin, mitkä ovat ne sivut, joilla tietyt sananmuodot esiintyvät. Tavallinen haku koostuu joukosta sananmuotoja, joiden kaikkien edellytetään esiintyvän haettavissa dokumenteissa ja vaativammissa hauissa Boolen lausekkeella määritellään dokumetissa vaadittavat sananmuotojen yhdistelmät. Hakukone löytää pyynnön perustella (toivottavasti kohtuullisen kokoisen) joukon dokumentteja, joiden seassa (toivon mukaan) pääosa halutuista verkkosivuista on. 1.2 Monikielinen tai kielten välinen tiedonhaku Maailma ja Eurooppa ovat monikielisiä. Kouluja käyneet ihmiset osaavat usein muutakin kieltä kuin äidinkieltään. Toisen kielen taito ei kuitenkaan yleensä ole äidinkielen veroinen. Osataan kyllä lukea, eli jos dokumentti löytyy, siitä on hyötyä vieraskielisenäkin. Ongelma voi olla siinä, että hakija ei osaisi ilmaista hakukriteeriä vieraalla kielellä läheskään yhtä onnistuneesti kuin äidinkielellään. Toinen monikielisen haun ongelma on yksinkertaisesti siinä, että olisi vaivalloista laatia hakulauseke kaikilla kyseeseen tulevilla kielillä. Kone voisi auttaa ratkaisevasti muuntamalla haun annetusta kielestä toisillekin kyseeseen tuleville kielille sopivaksi. Hakutilanteen lisäksi monikielisyyttä voidaan tukea etukäteen, jos esimerkiksi on käytettävissä automaattinen kielenkääntöjärjestelmä. Kääntämällä (vaikka jonkin verran vajavaisesti) dokumentti hakijan äidinkilelelle ja kohdistamalla hakukriteeri tähän (kenties puutteellisesti käännettyyn) dokumenttiin, voidaan kuitenkin haun tuloksena näyttää alkukielinen oikea dokumentti. 3
4 1.3 Dokumenttien automaattinen luokittelu Toinen tiedonhaun kaltainen tehtävä on dokumenttien automaattinen luokitus sisältönsä perusteella. Tällaisesta on hyötyä esim. lehden toimituksessa, jonne saapuu jatkuvanan virtana uutisviestejä. Viestit olisivat merkityksellisiä vain tietyille toimittajille ja viestit pitäisi ohjata oikealle pöydälle käsiteltäviksi. Tietoja arkistoitaessa halutaan myös usein liittää niihin luokituksia, joiden arvellaan helpottavan niiden uudelleen löytymistä. Dokumentin luokittelu, niin kuin moni muukin tähän teemaan liittyvistä sovelluksista, on tapana tehdä dokumenteissa esiintyvien sananmuotojen perusteella. Varsinkin englanninkielisille dokumenteille tämä toimiikin kohtuullisen hyvin, koska siinä kielessä sanat taipuvat kovin niukasti. Monissa muissa kielissä sanat taipuvat runsaammin ja silloin kenties sananmuotojen sijasta hakusanat ovat parempia yksiköitä sikäli, että erilaisia hakusanoja on vähemmän kuin erilaisia sananmuotoja ja samaa asiaa käsittelevillä dokumenteilla on todennäköisemmin yhteinen hakusana kuin yhteinen sananmuotoja, jos dokumentit ovat lyhyehköjä. Luokittelemisenkin uhkana on se, että jos erilaisia sananmuotoja on paljon, useimpia niistä ei esiinny dokumenteissa kertaakaan. Jos saman hakusanan eri muodot ovat erillisiä yksiköitä, dokumentit näyttävät lukujen valossa erilaisemmilta, kuin ovatkaan. Dokumentin sisältö voidaan kuvat sen tekstissä esiintyvien sananmuotojen (tai hakusanojen) frekvenssien perusteella. Tiettyjen sanojen esiintyminen lisää todennäköisyyttä kuulua tiettyihin luokkiin. Kun käytettävissä on kielen kaikki sisältöä kantavat sanat, voidaan saada kohtuullisen hyviä automaattisia luokituksia aikaan. Eräs useimpia ihmisiä koskettava tarve liittyy ns. roskapostiin, jota tulvii enenevässä määrin sähköisiin postilaatikoihin, vaikka asianomaiset eivät suinkaan tällaisia viestejä haluaisi. Viestien karsinnassa voidaan käyttää monenlaisia keinoja. Useimmiten yhdistellään erilaisia tietoja, mm. viestin lähettäjän osoitetta, isojen kirjainten käyttöä, viestin koostumista pelkistä kuvista ja erityisiä sananmuotoja (kuten viagra, nigeria,...). Roskapostin lähettäjät osaavat kuitenkin väärentää monia tietoja, esim. lähettäjän osoitteen. Sisällön perusteella tapahtuva karsinta on toki tarjolla, ja voi toimia varsin tyydyttävästikin, sikäli kun ohjelmalla on ajan tasalla käytettävä malli tyypillisimmistä roskaposteista. Eräs tyypillinen roskapostin laji sisältää paljon keinotekoista sisältöä eli sanoja, muttei mitään mielekästä viestiä. Roskapostin tunnistaminen on haaste kieliteknologialle, vaikka koko ongelma voi tietysti ratketa muillakin teknologioilla. Roskapostit ovat enimmäkseen englanninkielisiä, joten monikielisen kieliteknologian tarve ei ole juurikaan vielä niiden osalta herännyt. Roskapostin tunnistamisen nykyinen teknologia koostuu joko yksittäisistä nokkelista oivalluksistaa tai tunnetuista tilastollisista tai todennäköisyyslaskentaan perustuvista malleista. Nokkeluudeksi voi laskea sen tapaiset menetelmät, joissa perustetaan sähköpostiosoitteita vain roskapostin vastaanottamiseksi ja laitetaan osoitteet verkkoon ja keskusteluryhmiin näkyville. Tällaisiin osoitteisiin tulevat viestit ovat siten roskaa ja ne osoitteet joista sitä tulee, voidaan laittaa mustalle listalle, jota postipalvelinten ylläpitäjät voivat käyttää erottamaan roskapostia. Vastaavanlainen menettely on ns. greylisting eli se, että kaikki uusista osotteista tuleva posti käännytetään kerran takaisin. Oikea posti yleensä lähetetään uudestaan, roskapostia ei. Varsinaisiin sisällön perusteella toimiviin menetelmiin lukeutuu bayesiläiset mukautuvat todennäköisyysmallt tai esim. tukivektorikoneiden (support vector machine, SVM) käyttö. Kummankin soveltamiseen tarvitaan aluksi luokiteltua aineistoa, jossa on sekä kelvollista postia (ns. ham) ja roskapostia (ns. spam). 1.4 Tekstin automaattinen tiivistäminen Automaattinen tiivistelmän tekeminen dokumentista on useaan tarpeeseen hyödyllinen operaatio. Pitkästä dokumentista haluttaisiin saada useinkin summittainen tieto siitä, mitä dokumentti pääasiassa käsittelee. Tiivistäminen tehdään usein siten, että dokumentin tekstistä eristetään sellainen osa, joka kriteerien mukaan sisältää todennäköisesti dokumentin tärkeintä asiaa. Tällaisen tärkeänä ja kuvailevana pidettävän 4
5 jakson löytämiseksi voidaan käyttää erilaisia hyvin yksinkertaisia tai tilastollisia kriteereitä, kuten esimerkiksi sitä, että dokumentin ensimmäinen ja viimeinen kappale usein ovat tärkeitä (!), tai valitsemalla sellainen kappale, jossa on runsaasti eri dokumentteja toisistaan erottavia sananmuotoja (tai hakusanoja). Tekstejä erottelevina sananmuotoina tai hakusanoina voidaan pitää sellaisia, jotka eivät jakaudu dokumentteihin tasaisesti, vaan esiintyvät joissakin dokumenteissa yleisenä, mutta puuttuvat toisista kokonaan. Erottelevien sanojen pitää olla koko aineistossa riittävän yleisiä, jotta ne tehoaisivat moniin dokumentteihin (eikä vain yhteen). Toisaalta kaikkein yleisimmät sanat esiintyvät liian monissa dokumenteissa ollakseen hyödyllisiä. Voisi hyvin ajatella, että nyt yleistyvissä edistyneemmissä matkapuhelimissa tiivistäminen saisi erittäin tärkeän sijan, koska laitteessa on pieni näyttö, jolla ei voi kohtuullisesti selata suurempaa tekstimäärää, eikä puhesynteesinkään avulla haluta kuunnella pitkiä jaksoja. Muutenkin tiedon hakemista voisi luontevasti täydentää tarjoamalla lyhyttä tiivistelmää, jonka perusteella jo useimmiten voisi päättää, haluaako vilkaista dokumenttia vai suoraan ohittaa sen. 1.5 Automaattinen hakemistojen muodostaminen Dokumentin indeksointi eli asiahakemiston laatiminen on tavanomaisista kirjoista tuttu asia. Tekstistä pitäisi tunnistaa sisällön kannalta tärkeät termit ja erityisesti ottaa huomioon ne kohdat tekstistä, joissa termiin liittyvästä asiasta puhutaan intensiivisesti, esim. määritellään vastaava käsite. Tiedämme kokemuksesta, että kirjojen takana olevien hakemistojen tekeminen on ilmeisen vaikeaa, koskapa monissa kirjoissa nämä hakemistot ovat kovin puutteellisia. Automaattisilla menetelmillä voitaisiin ehkä päästä keskimääräistä käsintehtyä hakemistoa parempaankin laatuun. Hakemistoon pitäisi toisaalta valita ns. termejä eli sellaisia (usein yhdestä sanasta koostuvia) ilmauksia, jotka sisältävät suhteellisen paljon informaatiota. Tätä voidaan arvioida yksinkertaisimmillaan vertaamalla termin esiitymien jakautumista kaikkien dokumenttien joukossa. Parempia ovat sellaiset ilmaukset, joiden esiintymät keskittyvät osaan dokumenteista kuin sellaiset, jotka jakautuvat jokseenkin tasaisesti kaikkiin dokumentteihin. Tällaisten tilastollisten kriteerien lisäksi hyödyllistä tietoa on osoitettu olevan myös ilmausten esiintymisellä tietynlaisissa lauseasemissa tai tiettyjen sanojen argumentteina tai ilmauksissa, jotka tyypillisesti ovat jonkun käsitteen määrittelyitä tms. Enemmän asiasta, ks. (Lahtinen, 2000). 1.6 Tiedon automaattinen eristäminen Tiedon eristämisellä (engl. information extraction) tarkoitetaan sitä, että dokumenttien teksteistä eristetään tietyntyyppisiä ilmauksia kuten henkilöiden tai yritysten nimiä tai esim. tuotteiden julkistamisia tai henkilöiden nimittämisiä firmoissa uusiin tehtäviin. Tiedon eristämisessä aloitetaan usein yksinkertaisista nimellä varustetuista kohteista (named entity) kuten henkilöistä, firmoista tai tuotteista. Ongelmana näissä on yleensä se, että samasta kohteesta voidaan käyttää erilaisia ilmauksia, täydellisempiä ja lyhyempiä ja monella tavalla vaihtoehtoisia muotoja aina siihen, että pääjohtaja Thomas Watson voidaan kirjoittaa lyhyemmin Thomas Watson tai pääjohtaja tai hän. Näiden ensisijaisten kohteiden identifiointi on kuitenkin välttämätöntä, kun määritellään ja tunnistetaan isompia kokonaisuuksia vastaavia kohteita, kuten esim. IBM julkisti bluetooth-teknologian tai Sony ja Ericsson fuusioituivat. Tiedon eristämisellä usein täsmennetään tiedon seulontaa silloin, kun esim. laajasta uutisvirrasta halutaan poimia esiin yrityksen oman toiminnan kannalta olennaisia uutisia.. Vastaavasti esimerkiksi rakennettaessa vaikkapa perinteistä lehtileikearkistoa vastaavaa tietojärjestelmää, voitaisiin hyödyntää tiedon eristämistä. Tiedon hakuun liittyvää valikointia voisi tarkentaa, jos voidaan viitata tiedon eristämisen tuloksena syntyviin relaatioihin. Tiedon eristämiseen liittyy usein käsiterakennelmien laatimista ja hyödyntämistä. Käsiterakennelmat (engl. ontology) edesauttavat dokumenttien sisältämän tiedon rakenteistamista. 5
6 1.7 Hypertekstin ja semanttisen WEBin merkintöjen tuottaminen Hypertekstiä muodostettaessa pitäisi tunnistaa, missä on tietoa, johon kannattaa viitata ja mistä tällaisia viitteitä olisi tarpeen tehdä. Edellisiä merkitään HTML:ssä A-alkiona, jossa on NAME-attribuutti ja jälkimmäisiä A-alkioina, joissa on HREF-attribuutti. Semanttiseksi WEBiksi (engl. semantic web) kutsutaan XML-kielen puitteissa tapahtuvaa verkkosivujen merkkausta (engl. markup). Standardeja laaditaan siitä, millaisia merkintöjä verkkosivuihin tehtäisiin. Merkkaukset perustuvat yleensä käsitehierarkioihin (joita myös ontologioiksi kutsutaan). World Wide Web Consortium (W3C, ks. on määritellyt merkkaustavat (mm. RDF eli Resource Description Framework), joilla semanttisen webin relaatioita ilmaistaan. Olennaista on se, että tavanomaisen linkin sijasta viittauksessa ilmaistaan relaation laji. Erilajiset relaatiot puolestaan kuvataan omalla formalismillaan (OWL eli Web Ontology Language) joka määrittää näiden relaatioiden suhteita toisiinsa. Semanttinen web on näin määriteltynä lähinnä keino ilmaista näitä suhteita ja merkityksiä. W3C:n määrittelyt eivät varsinaisesti kerro, miten tällaisia merkkauksia voitaisiin tuottaa olemassa oleviin teksteihin, eikä myöskään auta siinä, miten suurta tietomassaa pitäisi lähestyä, jos siinä on valtaisa määrä tällä tavalla merkattuja relaatioita. Kyseiset kaksi aluettä jäänevät kieliteknologian haasteiksi. Tiedon eristämisen keinoilla ja jäsennysmenetelmillä voitaisiin tällaisten merkkausten tekemistä avustaa tai osin automatisoida. Vastaavasti luonnollisen kielen keskustelujärjestelmä voisi olla oikea lähestymistapa saada semanttisen webin muodossa olevasta tiedosta irti vastauksia hakijan kysymyksiin. Näin siksi, että kysyjä tuskin pystyy kerralla ilmaisemaan riittävän täsmällistä kysymystä, mutta sopivan palautteen ja täsmentävien kysymysten jälkeen ehkä kylläkin. 2 Kieliteknologiset menetelmät, joita tarvitaan tekstitiedon hallinnassa Yhteisenä tekijänä tämän luvun menetelmille on se, että ne perustuvat suoraan sananmuotojen esiintymiseen ja yleisyyteen. Niitä on sovellettu ensiksi englanninkielisiin dokumentteihin ja varsin pitkään jokseenkin ilman mitään kieliteknologisia apuvälineitä. Tämä onkin ymmärrettävää, koska englannin kielessä sanat taipuvat niukasti, minkä vuoksi aineiston kaikkien erilaisten sanamuotojen määrä on kohtuullinen ja erityisesti yhdestä hakusanasta on vain pieni määrä eri sananmuotoja. Varsinaisten kieliteknologisten morfologisten jäsentimien tms. sijasta onkin varsinkin alkuaikoina sovellettu, esimerkiksi sananmuotojen typistystä (eng. stemming) tai muuta melko karkeata käsittelyä. Kirjallisuudessa tunnetuin näistä lienee ns. Porter stemmer. Yleinen tarkastelutapa on se, että dokumentteja kuvataan niiden juoksevan tekstin sijaan vektoreilla, joiden alkiot kuvaavat kunkin mahdollisen sananmuodon esiintymiskertoja koko dokumentissa. Tällaiset vektorit ovat kovin pitkiä, kymmeniä tuhansia alkioita. Ne eivät sisällä tietoa sanajärjestyksestä, mutta toisaalta soveltuvat helposti monenlaisiin tilastollisiin menetelmiin. Ajatuksena on mm. se, että tällaisina vektoreina tekstejä voidaan helposti verrata toisiinsa. Tekstit voivat nimittäin olla enemmän tai vähemmän samansuuntaisia keskenään juuri niin, kuin vektoritkin voivat olla. 2.1 Sanojen taipumisen ja yhdyssanojen vaikutus tiedonhakuun Monissa kielissä sananmuotoja on hakusanaa kohti paljon enemmän kuin englannissa. Aiemmin todettiin suomen kielen erilaisten sananmuotojen huikea määrä. Vaarana pelkkien sananmuotojen käyttämisessä taipuvissa kielissä on se, että vaikka kaksi dokumenttia puhuisi samasta asiasta ja niissä käytettäisiin samoja hakusanoja asian ilmaisemiseen, hakusanat voivat helpostikin olla eri taivutusmuodossa. Tilastot, 6
7 joita esiintymistä lasketaan voivat hajota sananmuodoilla niin moneen eri yksikköön, että useimmat niistä ovat vain nollan tai yhden esiintymän suuruisia (ja sellaisina moniin tarkoituksiin hyödyttömiä). Taipuvassa kielessä, kuten suomessa, päälimmäisin vaara on se, että hakujen saanti sananmuotoja käytettäessä on heikko. Jos taipumista pyritään neutraloimaan sillä, että haetaan kokonaisen sananmuodon sijasta prefiksillä, paranee saanti, mutta varsinkin lyhyillä sanoilla tarkkuus kärsii, esim. vaikka suomen sana käsi ei toisi hakuterminä sen muita muotoja. Typistettynä riittävästi, jotta kaikki taivutusmuodot tulevat mukaan, jää jäljelle kä-, joka prefiksi puolestaan on aivan liian yleinen ja tuottaa enimmäkseen muita sananmuotoja kuin haluttuja. Suomessa ja monessa muussakin kielessä yhdyssanat kirjoitetaan yhteen ja yhdyssanoja on kahdenlaisia: (1) vakiintuneita, joita käytettäisiin mieluusti kokonaisina hakutermeissä (esim. penkinpainajaiset ei olisi hyvä kun etsitään painajaisia) ja (2) spontaanisti muodostettuja, usein aivan kertakäyttöisiä (esim. plasmariidassa ), joissa jälkiosa olisi mieluusti tunnistettava ja kelpuutettava hakutulokseen (kyse on riidasta ja plasmasta eli televisioiden plasmanäytöistä). Yhteen kirjoitettujen yhdyssanojen takia hakujen saanti on vaarassa pienentyä. Useimmat tiedonhakujärjestelmät eivät salli hakutermin katkaisua alusta käsin, mikä voisi auttaa löytämään yhdyssanojen jälkiosia. Niiden löytämiseksi jouduttaisiin katkaisemaan sekä alusta että lopusta ja silloin luultavasti tarkkuus taas kärsisi pahasti. 2.2 Morfologisen jäsentimen käyttäminen On luontevaa, että taipuvissa kielissä sananmuotojen sijasta käytettäisiin hakusanoja, jotteivat lukumääristä muodostetut vektorit kasvaisi tähtitieteellisen pitkiksi ja sisältäisi enimmäkseen nollia. Hakusanoihin siirtyminen on mahdollista morfologisen jäsentimen avulla. Tällainen jäsennin (tai analysaattori) on ohjelma, joka ottaa syötteekseen tietyn kielen sananmuotoja ja päättelee niistä sanakirjan ja taivutussääntöjen perusteella, mikä sananmuodon perusmuoto, ts. alla oleva hakusana voisi olla. Perusmuotoihin palautettuna tilastot saavat enemmän profiilia ja sokean tilastolliset menetelmätkin toimivat paremmin. Morfologinen jäsennin tunnistaa myös yhdyssanojen osat, jolloin niitäkin voidaan käyttää haun kriteereinä. Haun saantia saadaan parennetuksi morfologisella jäsentimellä. Sikäli, kun sananmuodot ovat moniselitteisiä, pelkän morfologisen jäsentimen käyttö voi jossakin määrin heikentää tarkkuutta, sillä tekstin sane tulee indeksoiduksi kaikkien tulkintojensa mukaisesti. Siten löytäisimme dokumentteja, joissa puhutaan hörymoottoreista ( koneista ), kun haemme koni -sanan esiintymiä. Toinen ongelma liittyy siihen, että morfologinen jäsennin ei välttämättä tunne kaikkia uudissanoja ja nimiä eli se ei anna mitään tulkintaa tällaisille sananmuodoille. Morfologisen jäsentimen rinnalla voikin olla ns. morfologinen arvausohjelma, joka päättelee, millainen hakusana voisi periaatteessa tuottaa havaitun sananmuodon taivutusmuotonaan. Tällaosten keinojan avulla kieliteknologia neutraloi kielen tuottamaa vaihtelua ja palauttaa taipuvan kielen hakutehtävän samanlaiseksi kuin se vähemmän taipuvassa kielessä on. 2.3 Hakuvartaloiden muodostaminen Eräs vaihtoehtoinen, morfologista jäsennintä yksinkertaisempi menetelmä, jota käytetään taipuvien kielten kohdalla, on ns. hakuvartaloiden muodostaminen. Useat tiedonhakujärjestelmät (joskaan eivät läheskään kaikki) osaavat hakea paitsi täsmällisten sananmuotojen perusteella, myös prefiksien avulla. Tällöin kelpuutetaan sananmuotoja, jotka alkavat annetulla prefiksillä. Joissakin tapauksissa taipumisen voi neutraloida katkaisemalla sanan vartalon sopivasta kohdasta niin, että tällainen tyvi pyydystää sanan kaikki taivutusmuodot. Tavallinen käyttäjä ei kuitenkaan ole kovin luotettava tällaisten katkaisujen tuottamisessa. Hakuvartaloita tuottava ohjelma tekee tämän käyttäjän puolesta. Esimerkiksi, kun käyttäjä syöttää substantiivin kauppa, hakuvartaloita muodostava ohjelma tuottaa seuraavat prefiksit: 7
8 kauppakaupakauppokaupo- Haku suoritetaan sitten näiden prefiksien avulla. Hakuvartaloiden ja morfologisen jäsentimen välimaastoon on myös ehdotettu menetelmiä, joissa säännöllisen lausekkeen avulla rajataan kohteena olevia sananmuotoja tarkemmin kuin hakuvartaloilla, muttei yhtä tarkkaan kuin, mitä morfologinen jäsennin tekisi. Toisaalta on tuotannossa olevia tiedonhaun järjestelmiä, joissa yhdistetään sekä hakuvartalomekanismi etä morfologinen jäsennys ja vielä näiden lisäksi hakutulosten suodatus sen perusteella, että hakuvartalon perusteella löydetty sananmuoto voisi todella olla haettavan sanan jokin taivutusmuoto. 2.4 Lauseyhteyksien hyödyntäminen Yllä olevat menetelmät paransivat ennen kaikkea saantia, joka on vaarassa jäädä huonoksi taipumisen takia. Kieliteknologiaa voidaan käyttää myös tarkkuuden parantamiseen. Myös tilastollisia menetelmiä käytettäessä saadaan oikeammin osuvia lähtötietoja, jos tulkintoja voidaan riittävän luotettavasti yksiselitteistää tai jos sanojen käytöstä saadaan lauseenjäsennyksen avulla yksityiskohtaisempaakin tietoa. Esimerkiksi raaka tilastomenetelmä tyytyisi laskemaan substantiivin esiintymiskertoja, kun kieliteknologian kanssa tähän voitaisiin liittää esim. tieto siitä, että sana esiintyy lauseessaan esim. objektina tai aivan tietynlaisen verbin subjektina. Tällä tavalla kieliteknologia voi antaa tilastomenetelmille paremmin erottelevia lähtömuuttujia. Näitä menetelmiä tarvitaan erityisesti, jos pyritään tuottamaan puoliautomaattisesti tai automaattisesti semanttisen webin merkkauksia tai kirjojen tai muiden laajojen dokumenttien hakemistoja. 3 Tulevaisuudennäkymiä Tiedonhaku sinänsä on vuosikymmenien ikäistä ja lähtenyt liikkeelle kauan ennen Internetin syntyä. Tietynlaisten tietojen etsiminen ja löytyminen onnistuu melkeinpä liiankin hyvin, esimerkiksi useiden nimien tai vakiintuneiden akronyymien. Taivutuksen neutralointi on myös ollut käytössä jo pian parikymmentä vuotta suomenkielisessä tiedonhaussa. Myös monenlaiset tavallisiinkin sanoihin perustuvat haut onnistuvat erinomaisesti, kunhan sananmuotoja on riittävän monta. Esimerkiksi Googlella löytyi helposti englanninkielinen vitsi, joka kuuluu suunnilleen seuraavasti: Three old men were talking: A: Its windy today B: No, I think it s Thursday C: So do I, let s go and have a beer And so they went to a bar. Kaikki sanat ovat perin tavallisia, mutta niiden yhdistelmä ei enää olekaan ja hakukone tuottaa melko hyvin juuri tämän vitsin sisältäviä sivuja. Silti, vaikka osa hauista onnistuu hyvin, kaikki eivät suinkaan. Esimerkiksi Googlen käyttö puheliittymän kautta olisi äärimmäisen hidasta ja piinallista, koska se hyödyntää suurta kuvaruutua ja sitä, että käyttäjä voi silmäilemällä helposti tehdä ratkaisuita siitä, mitkä haun tuottamista sivuista olisivat ylipäätänsä mahdollisia. 8
9 Puhekäyttöliittymään tarvittaisiin toisaalta parempaan tarkuutta, koska selaaminen on hidasta ja toisaalta interaktiivista dialogia, koska käyttäjän on vaikeaa kerralla antaa riittävän rajaavaa hakukriteeriä. Ehkä tämä tulee mahdolliseksi semanttisen Webin puitteissa siten, että toisaalta merkkauksia voidaan saada riittävästi verkkoon kieliteknologisilla työkaluilla ja toisaalta tällaisiin merkkauksiin voitaisiin kohdentaa tarkempia hakuja, joita vuorovaikutteisella järjestelmällä hyödynnettäisiin. Viitteet Jonathan Harrington and Steve Cassidy, Techniques in Speech Acoustics, Kluwer Academic Publishers, Daniel Jurafsky and James H. Martin, Speech and Language Processing, Prentice Hall, NJ, Timo Lahtinen, Automatic indexing: an approach using an index term corpus and combining linguistic and statistical evidence, Publications, No. 34, Department of General Linguistics, University of Helsinki, Michael F. McTear, Spoken Dialogue Technology: Enabling the Conversational User Interface, ACM Computing Surveys, Vol 34, No. 1, March 2002, pp Michael F. McTear, Spoken Dialogue Technology: Towerds the Conversational User Interface, Springer, Ruslan Mitkov (ed.), The Oxford Handbook of Computational Linguistics, Oxford University Press, Lawrence Rabiner and Biing-Hwang Juang, Fundamentals of Speech Recognition, Prentice Hall, NJ,
Johdatus kieliteknologiaan Luku 3: Tiedon haku ja siihen liittyvät sovellukset
Johdatus kieliteknologiaan Luku 3: Tiedon haku ja siihen liittyvät sovellukset Kimmo Koskenniemi 25. marraskuuta 2007 Sisältö 1 Tekstimuotoisen tiedon hallinnan eri lajeja 1 1.1 Tiedon haku.........................................
TIEDONHAKU INTERNETISTÄ
TIEDONHAKU INTERNETISTÄ Internetistä löytyy hyvin paljon tietoa. Tietoa ei ole mitenkään järjestetty, joten tiedonhaku voi olla hankalaa. Tieto myös muuttuu jatkuvasti. Tänään tehty tiedonhaku ei anna
Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa. Kimmo Kettunen Dimiko (Digra-projekti)
Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa Kimmo Kettunen Dimiko (Digra-projekti) Tekstinlouhinta Tekstinlouhinnassa pyritään saamaan tekstimassoista automaattisesti
Automaattinen semanttinen annotointi
Automaattinen semanttinen annotointi Matias Frosterus, Reetta Sinkkilä, Katariina Nyberg Semantic Computing Research Group (SeCo) School of Science and Technology, Department of Media Technology and University
Johdatus kieliteknologiaan Luku 6: Kielenoppimisen ja -opettamisen kieliteknologia
Johdatus kieliteknologiaan Luku 6: Kielenoppimisen ja -opettamisen kieliteknologia Kimmo Koskenniemi 25. marraskuuta 2007 Sisältö 1 Taustaa 1 2 Tavanomainen tietokoneavusteinen kielenopiskelu 2 3 Ymmärtävämpää
Ovid Medline käyttöohjeita (10/2010)
Ovid Medline käyttöohjeita (10/2010) Sisältö 1. Pikahaku - Basic Search:... - 1-2. Tarkennettu haku asiasanoilla - Advanced Ovid Search... - 1-3. Tulosjoukkojen yhdistely... - 5-4. Vapaasanahaku yksittäisellä
Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)
Tiedonlouhinta rakenteisista dokumenteista (seminaarityö) Miika Nurminen (minurmin@jyu.fi) Jyväskylän yliopisto Tietotekniikan laitos Kalvot ja seminaarityö verkossa: http://users.jyu.fi/~minurmin/gradusem/
Johdatus kieliteknologiaan Luku 5: Kielen kääntämisen apuvälineet ja automaattinen kielen kääntäminen
Johdatus kieliteknologiaan Luku 5: Kielen kääntämisen apuvälineet ja automaattinen kielen kääntäminen Kimmo Koskenniemi 2. joulukuuta 2004 Sisältö 1 Monikielisyys ja kääntämisen tarve 1 2 Kielen kääntämisen
Kielen ymmärtäminen kieliteknologian näkökulmasta. Kimmo Koskenniemi täysinpalvellut kieliteknologian professori Helsingin yliopisto
Kielen ymmärtäminen kieliteknologian näkökulmasta Kimmo Koskenniemi täysinpalvellut kieliteknologian professori Helsingin yliopisto Tietää vai ymmärtää? Ymmärtää eli saada järkensä avulla itselleen selväksi,
Sanaluokkajäsennystä rinnakkaisilla transduktoreilla
Sanaluokkajäsennystä rinnakkaisilla transduktoreilla Nykykielten laitos FIN-CLARIN-seminaarissa 4. marraskuuta 2010 Sanaluokkajäsennys Mr. Gelbert also has fun with language. NNP NNP RB VBZ NN IN NN. Sanaluokkajäsennin
Luento 12: XML ja metatieto
Luento 12: XML ja metatieto AS-0.110 XML-kuvauskielten perusteet Janne Kalliola XML ja metatieto Metatieto rakenne sanasto Resource Description Framework graafikuvaus XML Semanttinen Web agentit 2 1 Metatieto
TIEDONHANKINNAN PERUSTEET (1 op) harjoitus 1 (TaY Pori syksy 2014)
TIEDONHANKINNAN PERUSTEET (1 op) harjoitus 1 (TaY Pori syksy 2014) Tärkeimmät kotimaiset hakupalvelut Porin tiedekirjaston kotisivut (kerrataan pikaisesti) Porin tiedekirjaston painettu aineisto Tutcatista:
Kirjastoinfo TaY Pori Porin tiedekirjasto
Kirjastoinfo TaY Pori Porin tiedekirjasto www.tut.fi/kirjasto/pori kirjasto-pori@tut.fi 040 826 2780 Kalvot www-sivuilla: Porin tiedekirjasto > Koulutus Sisältö: Porin tiedekirjaston kotisivu www.tut.fi/kirjasto/pori
Johdatus kieliteknologiaan Luku 5: Kielen kääntämisen apuvälineet ja automaattinen kielen kääntäminen
Johdatus kieliteknologiaan Luku 5: Kielen kääntämisen apuvälineet ja automaattinen kielen kääntäminen Kimmo Koskenniemi 3. joulukuuta 2006 Sisältö 1 Monikielisyys ja kääntämisen tarve 1 2 Kielen kääntämisen
Tiedonhaku. Esim. kymenlaakso muutosjohtami* Laila Hirvisaari Tuntematon sotilas Ruksi tyhjentää hakukentän.
Tiedonhaku Kirjoita hakukenttään teoksen nimi, tekijä, aihe tai muita asiaan liittyviä hakusanoja. Tarvittaessa katkaise hakusana tähdellä *. Tällöin haku löytää kaikki niin alkavat sanat. Esim. hakusana
Suomi.fi-verkkopalvelu
Suomi.fi-verkkopalvelu Haun toiminta Suomi.fi-verkkopalvelussa Tuuli Krekelä, Suomi.fi-verkkotoimitus Janne Murtonen, Gofore 14.12.2018 Koulutus nauhoitetaan Agenda 1. Suomi.fi-haun periaatteet 2. Mikä
CIRI Ontologiaperustainen tiedonhakuliittymä
CIRI Ontologiaperustainen tiedonhakuliittymä Eija Airio, Kalervo Järvelin, Sari Suomela, Pirkko Saatsi ja Jaana Kekäläinen Tampereen yliopisto Informaatiotutkimuksen laitos Ontologian kolmitasomalli kehitetty
Tiedonhaku ja varaaminen
Tiedonhaku ja varaaminen Kyytin verkkokirjasto kyyti.finna.fi 20.11.2018 Tiedonhaku Kirjoita hakukenttään teoksen nimi, tekijä, aihe tai muita asiaan liittyviä hakusanoja. Tarvittaessa katkaise hakusana
CLT131: Tekstityökalut 2011, viides luento
CLT131: Tekstityökalut 2011, viides luento Tommi A Pirinen tommi.pirinen+clt131@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 30. marraskuuta 2011 tommi.pirinen+clt131@helsinki.fi
Semanttinen Web. Ossi Nykänen. Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), Hypermedialaboratorio W3C Suomen toimisto
Semanttinen Web Ossi Nykänen Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), Hypermedialaboratorio W3C Suomen toimisto Esitelmä Hyvin lyhyt versio: Semanttinen Web (SW) on
Lausuminen kertoo sanojen määrän
Sivu 1/5 Lausuminen kertoo sanojen määrän Monta osaa Miten selvä ero Rinnasteiset ilmaisut Yhdyssana on ilmaisu, jossa yksi sana sisältää osinaan kaksi sanaa tai enemmän. Puhutussa kielessä tätä vastaa
The OWL-S are not what they seem
The OWL-S are not what they seem...vai ovatko? Verkkopalveluiden koostamisen ontologia OWL-S Seminaariesitelmä 15.4.2013 Emilia Hjelm Internet on hankala Nykyinternet on dokumenttien verkko Asiat, joita
Tiedonlähteille NELLIn kautta -
28.8.2009 1 Tiedonlähteille NELLIn kautta - www.nelliportaali.fi/jy NELLI-portaali on tiedonhakujärjestelmä, joka tarjoaa pääsyn Jyväskylän yliopistossa käytettävissä oleviin sähköisiin aineistoihin kuten
Paikkatiedot ja Web-standardit
Paikkatiedot ja Web-standardit Ossi Nykänen Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), Hypermedialaboratorio W3C Suomen toimisto Esitelmä Hyvin lyhyt versio: World Wide
Uudet EU-asetukset. EUR-Lexin tarkennetun haun käyttöohje
Uudet EU-asetukset EUR-Lexin tarkennetun haun käyttöohje Aloitus Mene EUR-Lex-sivustolle: http://eur-lex.europa.eu/homepage.html?locale=fi. Valitse (tarvittaessa) vaakasuorasta valikosta "Etusivu" ja siirry
8 Tiedonhaun apuvälineet
8 Tiedonhaun apuvälineet Tämän luentokerran tavoitteena on perehtyä erilaisiin tiedonhaun apuvälineisiin. Tiedonhaun ja hypermedian asiantuntijat katsovat maailmaa eri näkökulmista; pian tullaan huomaamaan,
Kiipulan ammattiopisto. Liiketalous ja tietojenkäsittely. Erja Saarinen
Kiipulan ammattiopisto Liiketalous ja tietojenkäsittely Erja Saarinen 2 Sisällysluettelo 1. Johdanto... 3 2. Hyvät internetsivut... 3 3. Kuvien koko... 4 4. Sivujen lataus... 4 5. Sivukartta... 5 6. Sisältö...
Johdatus kieliteknologiaan Luku 5: Vuorovaikutus luonnollisella kielellä ihmisen ja koneen välillä
Johdatus kieliteknologiaan Luku 5: Vuorovaikutus luonnollisella kielellä ihmisen ja koneen välillä Kimmo Koskenniemi 21. marraskuuta 2005 Sisältö 1 Yleistä 1 1.1 Miksi ylipäätänsä keskustella koneen kanssa?.......................
SANAKIRJA # S E O H A L T U UN # B L O G G A A J A NSEO # S E O J A S M O
SANAKIRJA # S E O H A L T U UN # B L O G G A A J A NSEO # S E O J A S M O SEO = Hakukoneoptimointi = search engine optimization blogin sijoituksen nostaminen hakukoneiden hakutuloksissa blogipostausten
Suomi.fi julkishallinto ja julkiset palvelut yhdessä osoitteessa Suomi.fi / VM
Suomi.fi julkishallinto ja julkiset palvelut yhdessä osoitteessa Kansalaisen käsikirjasta Suomi.fi:hin Kansalaisen käsikirja kirjana v. 1992 Kansalaisen käsikirja verkkopalveluna v. 1997 Julkishallinnon
Suomen kielen Osaamispyörä -työkalu
Suomen kielen Osaamispyörä -työkalu Tavoitteet Kohderyhmät Käyttö Suomen kielen Osaamispyörän tavoitteena on tehdä näkyväksi maahanmuuttajataustaisten työntekijöiden suomen kielen osaamista. Osaamispyörä
Johdatus rakenteisiin dokumentteihin
-RKGDWXVUDNHQWHLVLLQGRNXPHQWWHLKLQ 5DNHQWHLQHQGRNXPHQWWL= rakenteellinen dokumentti dokumentti, jossa erotetaan toisistaan dokumentin 1)VLVlOW, 2) UDNHQQHja 3) XONRDVX(tai esitystapa) jotakin systemaattista
Hakusanan tarkkuus ja tähtikäsky tähtikäskyä tähtikäskyä
Lantmännen Unibake Kuvapankin käyttöohje Lantmännenin kuvapankki on yhteinen alusta kaikille Unibaken alle kuuluville maille, joten sieltä löytyy kuvia sekä Unibake Suomelta että muilta mailta. Muiden
Johdatus kieliteknologiaan Luku 1: Johdanto
Johdatus kieliteknologiaan Luku 1: Johdanto Kimmo Koskenniemi 31. lokakuuta 2005 Sisältö 1 Mitä kieliteknologia on ja mihin sitä tarvitaan? 1 2 Kielen järjestelmä 3 2.1 Kieltä ei tiedosteta.....................................
Tiedonhaku korkeakouluopinnoissa
Kun Google ei riitä Tiedonhaku korkeakouluopinnoissa Googlesta tiedon ja julkaisujen saatavuus parantunut hyvä paikantamaan jo tiedettyä lähdettä tulosten relevanssilajittelu tiedon laatu ja taso vaihtelevat
Johdatus tekoälyyn. Luento 6.10.2011: Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]
Johdatus tekoälyyn Luento 6.10.2011: Koneoppiminen Patrik Hoyer [ Kysykää ja kommentoikaa luennon aikana! ] Koneoppiminen? Määritelmä: kone = tietokone, tietokoneohjelma oppiminen = ongelmanratkaisukyvyn
Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen
Etsintä verkosta (Searching from the Web) T-61.2010 Datasta tietoon Heikki Mannila, Jouni Seppänen 12.12.2007 Webin lyhyt historia http://info.cern.ch/proposal.html http://browser.arachne.cz/screen/
Tiedonhakumenetelmät Tiedonhakumenetelmät, Helsingin yliopisto, tktk, k2014. H.Laine 1. Tiedonhaku Boolen haku Indeksit. Tiedonhaku?
Tiedonhaku? Tiedonhakumenetelmät Tiedonhaku Boolen haku Indeksit Tiedonhaku (information retrieval, IR) Tietotarpeen tyydyttävän pääasiallisesti jäsentämättömän (tyypillisesti tekstimuotoisen) materiaalin
ISO SUOMEN KIELIOPPI S2- OPETUKSESSA. Muutama havainto
ISO SUOMEN KIELIOPPI S2- OPETUKSESSA Muutama havainto Maisa Martin Alumnipäivä 26.9.2009 KOLME ASIAA Uusia termejä S2-alan näkökulmasta ja muutenkin Hyödyllisiä erotteluja Ope, mitä eroa on Mikä on tavallista?
TIEDONHAKU. Yksinkertainen tiedonhaku Googlella. Suunnitelmallinen tiedonhaku. Muita tiedonlähteitä Tero Mononen / Kumppanuuskampus
TIEDONHAKU Yksinkertainen tiedonhaku Googlella Suunnitelmallinen tiedonhaku Muita tiedonlähteitä 1 Yleistä Pikahaku, eli googlettaminen - Pikahaku sopii käytettäväksi, kun halutaan löytää vain nopeaa tietoa
Vinkkejä musiikin tiedonhakuun OUTI-verkkokirjastossa
Vinkkejä musiikin tiedonhakuun OUTI-verkkokirjastossa Katja Pietilä / Musiikkiosasto 23.9.2017 Sisältö Verkkokirjaston aloitussivu Tarkan haun aloitussivu Hakutuloksen lukeminen Kokonaisten julkaisujen
Semanttinen Web. Ossi Nykänen Tampereen teknillinen yliopisto (TTY), DMI / Hypermedialaboratorio W3C Suomen toimisto
Semanttinen Web Ossi Nykänen ossi.nykanen@tut.fi Tampereen teknillinen yliopisto (TTY), DMI / Hypermedialaboratorio W3C Suomen toimisto Esitelmä "Semanttinen Web" Sisältö Konteksti: W3C, Web-teknologiat
ARVO - verkkomateriaalien arviointiin
ARVO - verkkomateriaalien arviointiin Arvioitava kohde: Jenni Rikala: Aloittavan yrityksen suunnittelu, Arvioija: Heli Viinikainen, Arviointipäivämäärä: 12.3.2010 Osa-alue 1/8: Informaation esitystapa
PubMed lääketieteellinen kokoteksti- ja viitetietokanta
PubMed lääketieteellinen kokoteksti- ja viitetietokanta Linkki: http://www.ncbi.nlm.nih.gov/entrez PubMed-tietokanta on internetissä vapaasti käytettävissä. Tietokanta sisältää yli 16 miljoonaa viitettä
Johdatus kieliteknologiaan Luku 5: Vuorovaikutus luonnollisella kielellä ihmisen ja koneen
Johdatus kieliteknologiaan Luku 5: Vuorovaikutus luonnollisella kielellä ihmisen ja koneen välillä Kimmo Koskenniemi 18. marraskuuta 2007 Sisältö 1 Yleistä 1 1.1 Miksi ylipäätänsä keskustella koneen kanssa?.......................
Ebrary-palvelun e-kirjojen lukeminen selaimessa
Ebrary-palvelun e-kirjojen lukeminen selaimessa Palaute: nelli @uef.fi Ohje päivitetty: 1.9.2016 / KM Lukuohjeita myös Ebraryn sivuilla: New Online Reader Yliopiston käyttöön hankitussa Ebrary-palvelussa
Ilmiöprojektin tiedonhankinta
Ilmiöprojektin tiedonhankinta Aiheena suomalaiset kirjailijat Lyseon 9d ja 9e Joulukuu 2017 Mikkelin kaupunginkirjasto s. 1 Tervetuloa kirjastotunnille! Avaa sivu https://oppilaidenkirjastopolku.wordpress.com/
Ilmiöprojektin tiedonhankinta
Ilmiöprojektin tiedonhankinta Kaunokirjallisuuden genret ja kirjailijat Lyseon 8C 23.3.2017 Mikkelin kaupunginkirjasto s. 1 Tervetuloa kirjastotunnille! Avaa sivu https://oppilaidenkirjastopolku.wordpress.com/
Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin?
Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin? Avoin verkkoalusta ihmisen ja koneen ymmärtämien tietomääritysten tekemiseen Riitta Alkula 20.3.2019 Esityksen sisältö
9.2.3. Englanti. 3. luokan keskeiset tavoitteet
9.2.3. Englanti Koulussamme aloitetaan A1 kielen (englanti) opiskelu kolmannelta luokalta. Jos oppilas on valinnut omassa koulussaan jonkin toisen kielen, opiskelu tapahtuu oman koulun opetussuunnitelman
CINAHL(EBSCO) käyttöohjeita (10/2010)
CINAHL(EBSCO) käyttöohjeita (10/2010) Sisältö 1. Katkaisumerkki, sanojen yhdistely, fraasihaku... - 1-2. Advanced Search haku vapailla hakusanoilla... - 1-3. Haku asiasanoilla (CINAHL Headings)... - 2-4.
Mikä ihmeen hakukonemarkkinointi?
Mikä ihmeen hakukonemarkkinointi? Mitä teet ensimmäiseksi, kun etsit tietoa jostain asiasta? Luultavimmin Google- haun, etkä ole ainut: ihmiset ovat siirtyneet yhä enemmän nettiin käyttämään sähköisiä
E. Oja ja H. Mannila Datasta Tietoon: Luku 2
2. DATASTA TIETOON: MITÄ DATAA; MITÄ TIETOA? 2.1. Data-analyysin ongelma Tulevien vuosien valtava haaste on digitaalisessa muodossa talletetun datan kasvava määrä Arvioita: Yhdysvaltojen kongressin kirjasto
Kielellisen datan käsittely ja analyysi tutkimuksessa
Kielellisen datan käsittely ja analyysi tutkimuksessa Kimmo Koskenniemi 4.4.2007 Yleisen kielitieteen laitos Humanistinen tiedekunta Kielidataa on monenlaista Tekstiä erilaisista lähteistä kirjoista, lehdistä,
TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 30. marraskuuta 2015
TIEA241 Automaatit ja kieliopit, syksy 2015 Antti-Juhani Kaijanaho TIETOTEKNIIKAN LAITOS 30. marraskuuta 2015 Sisällys t Väitöstilaisuus 4.12.2015 kello 12 vanhassa juhlasalissa S212 saa tulla 2 demoruksia
Hankeviestijä hakukoneiden ihmeellisessä maailmassa. Joonas Jukkara, SEOSEON Ltd. https://seoseon.fi
Hankeviestijä hakukoneiden ihmeellisessä maailmassa Joonas Jukkara, SEOSEON Ltd. https://seoseon.fi Kuka, mitä, häh? Kuka? Joonas Jukkara, ikä 30v, digimarkkinointia ja hakukoneoptimointia viimeiset 4+
Hakuohjeet Haku Tiedonhaun tulokset
06/2010 Hakuohjeet 1. Haku 1.1. Hakutermien yhdistely Boolen operaattorit 1.2. Haun rajaus 1.3. Haun kohdistaminen tiettyyn kenttään 1.4 Hakuhistoria 1.5. Asiasanat -toiminto 1.6 Lehdet -toiminto 2. Tiedonhaun
Johdatus kieliteknologiaan Luku 1: Johdanto
Johdatus kieliteknologiaan Luku 1: Johdanto Kimmo Koskenniemi 4. marraskuuta 2007 Sisältö 1 Mitä kieliteknologia on ja mihin sitä tarvitaan? 1 2 Kielen järjestelmä 3 2.1 Kieltä ei tiedosteta.....................................
10 yleistä hakukoneoptimointivirhettä
10 yleistä hakukoneoptimointivirhettä Petteri Erkintalo Kehitysjohtaja Klikkicom Oy 2011-09-27 2 1. Hakukoneiden pääsy sivustolle on estetty Hakukoneiden pääsyn sivustolle voi estää usein eri keinoin Yllättävän
Yhdyssana suomen kielessä ja puheessa
Yhdyssana suomen kielessä ja puheessa Tommi Nieminen Jyväskylän yliopisto Anna Lantee Tampereen yliopisto 37. Kielitieteen päivät Helsingissä 20. 22.5.2010 Yhdyssanan ortografian historia yhdyssanan käsite
Useasti Kysyttyä ja Vastattua
1. Miksen ostaisi tykkääjiä, seuraajia tai katsojia? Sinun ei kannata ostaa palveluitamme mikäli koet että rahasi kuuluvat oikeastaan kilpailijoidesi taskuun. 2. Miksi ostaisin tykkääjiä, seuraajia tai
Johdatus kieliteknologiaan Luku 2: Kirjoittajan apuvälineet
Johdatus kieliteknologiaan Luku 2: Kirjoittajan apuvälineet Kimmo Koskenniemi 5. marraskuuta 2005 Sisältö 1 Yleistä kirjoittajien apuvälineistä 1 2 Oikeinkirjoituksen tarkistaminen ja korjaaminen 2 2.1
Verkkokirjoittaminen. Anna Perttilä Tarja Chydenius
Verkkokirjoittaminen Anna Perttilä Tarja Chydenius 1 Suosi lyhyttä tekstiä 2 Kenelle kirjoitat 3 Helpota lukijan työtä; lajittele tekstisi 3.1 Otsikot 3.2 Johdanto 3.3 Väliotsikot 3.4 Pääteksti 4 Linkit:
Tiedonhaku Nelli-portaalissa
Tiedonhaku Neli-portaalissa 1 (10) Nelli-portaali Tiedonhaku Nelli-portaalissa SISÄLTÖ Monihaku... Monihaku -sanahaku... Monihaku -tarkennettu... Monihaun tulokset... Monihaku: Lista... Monihaku: Koko
Kysy kirjastonhoitajalta. Linkkikirjasto. Tiedonhaun portti. Frank-monihaku. kirjastot.fi>
Kysy kirjastonhoitajalta Linkkikirjasto Tiedonhaun portti Frank-monihaku kirjastot.fi> : Tiedonhaku-kanava Kaikki hakupalvelut ja hakutavat { www.kirjastot.fi/tiedonhaku Tiedonhaku-kanava kokoaa yhteen
Iltalehti Kauppalehti Aamulehti Lapin Kansa Satakunnan Kansa Kainuun Sanomat Pohjolan Sanomat
Media-arkisto Suomen Media-arkisto on sähköinen lehtien sisältöpankki. Saat yhdellä haulla selville, mitä sinua kiinnostavasta aiheesta, henkilöstä tai organisaatiosta eri aikoina on julkaistu maakunta-,
Porin tiedekirjasto KAUPPATIETEIDEN GRADUJEN JA MUIDEN OPINNÄYTTEIDEN ETSIMINEN. Opinnäytteiden etsiminen
Porin tiedekirjasto KAUPPATIETEIDEN GRADUJEN JA MUIDEN OPINNÄYTTEIDEN ETSIMINEN Perusohje opinnäytteiden etsimiseen Porin tiedekirjastosta (Tutcat) löytyy Porissa tehdyt TuKKK:n gradut (tutcat.linneanet.fi
Ilmiöprojektin tiedonhankinta
Ilmiöprojektin tiedonhankinta Aiheena turvallisuus 6.11.2017 Mikkelin kaupunginkirjasto s. 1 Tervetuloa kirjastotunnille! Avaa sivu https://oppilaidenkirjastopolku.wordpress.com/ à Viimeisimmät artikkelit
Finna Tunnusluvut 5.3.2015
Finna Tunnusluvut 1. TUNNUSLUVUT Nykyään Finnasta lasketaan seuraavat tunnusluvut: Osallistuvien organisaatioiden määrä Indeksin viitteiden määrä Verkossa saatavilla olevien viitteiden määrä Eri aineistotyyppien
Suomen kielen substantiivilla on noin 2000 erilaista muotoa vai onko sittenkään? Kimmo Kettunen, Tampereen yliopisto, informaatiotutkimuksen laitos
Suomen kielen substantiivilla on noin 2000 erilaista muotoa vai onko sittenkään? Kimmo Kettunen, Tampereen yliopisto, informaatiotutkimuksen laitos Tausta Suomen kielen erilaisten sanamuotojen määrä esitetään
TYÖKALUT HAKUKONEOPTIMOINTIIN
TYÖKALUT HAKUKONEOPTIMOINTIIN 1 GOOGLE ANALYTICS Google Analytics on työkalu sivustosi kävijöiden analysoimiseen. Saat sen avulla helposti tietoja kävijöistäsi, joita muuten joutuisit vain arvailemaan.
W3C ja Web-teknologiat
W3C ja Web-teknologiat Ossi Nykänen Tampereen teknillinen yliopisto (TTY), Digitaalisen median instituutti (DMI), W3C Suomen toimisto Esitelmä Hyvin lyhyt versio: World Wide Web Consortium (W3C) on kansainvälinen
10. ASIAKASHALLINTA CRM; Osoitetarrat, ryhmäsähköposti ja export
10. ASIAKASHALLINTA CRM; Osoitetarrat, ryhmäsähköposti ja export 10.1. PERIAATE CRM asiakashallintajärjestelmästä voidaan tulostaa osoitetarrat, lähettää ryhmäsähköpostia sekä exportata (viedä) hakutuloksia
Ilmiöprojektin tiedonhankinta
Ilmiöprojektin tiedonhankinta Aiheena Euroopan unioni Urheilupuiston 9b 10.5.2017 Mikkelin kaupunginkirjasto s. 1 Tervetuloa kirjastotunnille! Avaa sivu https://oppilaidenkirjastopolku.wordpress.com/ Viimeisimmät
ONKI SKOS Sanastojen ja ontologioiden julkaiseminen ja käyttö Asiasanaston muuntaminen SKOS muotoon: case YSA
ONKI SKOS Sanastojen ja ontologioiden julkaiseminen ja käyttö Asiasanaston muuntaminen SKOS muotoon: case YSA ONKI julkistustilaisuus 12.9.2008 Jouni Tuominen, Matias Frosterus Semantic Computing Research
Epätäsmällisen tiedon esittäminen semanttisen webin ontologioissa
Epätäsmällisen tiedon esittäminen semanttisen webin ontologioissa FinnOnto, 16.11.2005 Markus Holi (markus.holi@tkk.fi) Semantic Computing Research Group http://www.seco.tkk.fi/ UNIVERSITY OF HELSINKI
Nelli kaukopalvelutyössä
Nelli kaukopalvelutyössä Jouni Nevalainen 22.5.2008 Esityksen sisältö Mikä Nelli-portaali on? Pikahaku, tietokannat, E-lehdet, monihaku Hakeminen Nellissä OmaNelli SFX-linkitys Nelli-portaali, miksi? TKK:lla
Kirjastojen verkkoaineistoja opetukseen
Kirjastojen verkkoaineistoja opetukseen Suomalaiset kirjastot, museot ja arkistot ovat tuoneet verkkoon vapaasti käytettäviä tekstejä, kuvia, tietoja ja videoita. Niiden hyödyntäminen vaikkapa ilmiöitä
CODEONLINE. Monni Oo- ja Java-harjoituksia. Version 1.0
CODEONLINE Monni Oo- ja Java-harjoituksia Version 1.0 Revision History Date Version Description Author 25.10.2000 1.0 Initial version Juha Johansson Inspection History Date Version Inspectors Approved
Verkkokirjoittamisesta tiedottaja Susanna Prokkola, PKSSK.
Verkkokirjoittamisesta tiedottaja Susanna Prokkola, PKSSK 25.10.2012 Mikä toimii painettuna, toimii harvemmin verkossa Tekstin kirjoittamisen säännöt ja tyylilajit vaihtelevat eri medioissa. Verkkotekstin
10 yleistä hakukoneoptimointivirhettä
10 yleistä hakukoneoptimointivirhettä Markus Ossi SEO Technician Klikkicom 2011-05-26 2 Henkilökuva Markus Ossi 32 vuotias ekonomi Tehnyt hakukoneoptimointia vuodesta 1998 Hakukoneoptimointiteknikk o Klikkicomissa
Ohje: Miten haen artikkeleita Aleksista
Ohje: Miten haen artikkeleita Aleksista a) Mikä on Aleksi?... 1 b) Verkkopalvelun ulkoasu. 1 c) Artikkelien hakeminen... 2 d) Artikkelien lukeminen... 4 e) Artikkelien lisääminen koriin.. 5 a) Mikä on
T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1
T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:
MOBISITE-TYÖKALUN SISÄLTÄMÄT TOIMINNOT
MOBISITE-TYÖKALU MobiSite on työkalu matkapuhelimeen soveltuvan mobiilisivuston rakentamiseen. AIMO-järjestelmän jatkuvasti päivittyvä päätelaitetunnistus tunnistaa useimmat puhelinmallit ja mukauttaa
Kirjastoinfo TY KTMT Porin tiedekirjasto
www.tut.fi/kirjasto/pori kirjasto-pori@tut.fi facebook.com/porintiedekirjasto 040 826 2780 Kirjastoinfo TY KTMT Porin tiedekirjasto Kalvot myös netissä: Porin tiedekirjasto > Koulutus Sisältö: Porin tiedekirjaston
1 Bayesin teoreeman käyttö luokittelijana
1 Bayesin teoreeman käyttö luokittelijana Bayesin kaavan mukaan merkityksen kontekstille c ehdollistettu todennäkköisyys voidaan määrittää alla olevan yhtälön perusteella: P ( c) = P (c )P ( ) P (c) (1)
Keltaisten sivujen palveluiden kuvaaminen ontologioiden avulla
Keltaisten sivujen palveluiden kuvaaminen ontologioiden avulla - IWebS-projektin (2003-2005) kokemuksia FinnONTO-symposio, 16112005 Petri Lindgren (petrilindgren@helsinkifi) Kim Viljanen (kimviljanen@tkkfi)
Hakukoneoptimoinnin ABC
Hakukoneoptimoinnin ABC Sisältö Mitä on hakukoneoptimointi? Miten hakukoneoptimointia tehdään? Miten valitset oikeat hakusanat? Miten pääsee Googlen hakutuloksissa ensimmäiselle sivulle? Mitä on hakukoneoptimointi?
Oppilas keskustelee ryhmässä ja tuo esille mielipiteitään. Oppilas osallistuu luokan ja koulun ilmaisuesityksiin. Oppilas harjoittelee
AI 6. lk Arvioitavat tavoitteet Vuorovaikutustilanteissa toimiminen (T1, T2, T3, T4) Tekstien tulkitseminen (T5, T6, T7, T8) Hyväksytty (5) Välttävä (6-7) Oppilas saa arvosanan 6, Oppilas saa arvosanan
Digitalia-projektin tekstinlouhinnan tuloksia. Kimmo Kettunen
Digitalia-projektin tekstinlouhinnan tuloksia Kimmo Kettunen Digitalia Digitalia on Kaakkois-Suomen ammattikorkeakoulun, Helsingin yliopiston ja Kansalliskirjaston yhteinen tutkimuskeskus, toiminut hankerahoituksella
1 Kannat ja kannanvaihto
1 Kannat ja kannanvaihto 1.1 Koordinaattivektori Oletetaan, että V on K-vektoriavaruus, jolla on kanta S = (v 1, v 2,..., v n ). Avaruuden V vektori v voidaan kirjoittaa kannan vektorien lineaarikombinaationa:
Tekstinkäsittelyn jatko KSAO Liiketalous 1. Osanvaihto näkyy näytöllä vaakasuorana kaksoispisteviivarivinä ja keskellä riviä lukee osanvaihdon tyyppi
KSAO Liiketalous 1 Osat Tiedosto voidaan jakaa osiin ja jokainen osa muotoilla erikseen. Osa voi olla miten pitkä tahansa, yhdestä kappaleesta kokonaiseen tiedostoon. Osanvaihto näkyy näytöllä vaakasuorana
CLT131: Tekstityökalut 2010, toinen luento
CLT131: Tekstityökalut 2010, toinen luento Tommi A Pirinen tommi.pirinen@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 2010-11-12 päivitetty: 2010-11-14 Asialista Käytännön
Semantic Web käytännön sovelluksissa. TkT Janne Saarela Profium Oy
Semantic Web käytännön sovelluksissa TkT Janne Saarela Profium Oy 26.5.2004 Sisällysluettelo Johdanto Semanttisen Webin maailmaan Mahdollisuudet Tämän päivän käyttökohteet Haasteet 1 Johdanto Semanttisen
S-114.2720 Havaitseminen ja toiminta
S-114.2720 Havaitseminen ja toiminta Heikki Hyyti 60451P Harjoitustyö 2 visuaalinen prosessointi Treismanin FIT Kuva 1. Kuvassa on Treismanin kokeen ensimmäinen osio, jossa piti etsiä vihreätä T kirjainta.
83450 Internetin verkkotekniikat, kevät 2002 Tutkielma <Aihe>
83450 Internetin verkkotekniikat, kevät 2002 Tutkielma TTKK 83450 Internetin verkkotekniikat Tekijät: Ryhmän nro:
Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.
T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset, ti 7.2.200, 8:30-0:00 Tiedon haku, Versio.0. Muutetaan tehtävässä annettu taulukko sellaiseen muotoon, joka paremmin sopii ensimmäisten mittojen
Porin tiedekirjasto ja TTY:n verkkoaineistot
Porin tiedekirjasto ja TTY:n verkkoaineistot www.tut.fi/kirjasto/pori kirjasto-pori@tut.fi 040 826 2780 Sisältö: Porin tiedekirjaston kotisivu Porin tiedekirjaston aineiston haku Tutcattietokannasta (ja
Lappeenrannan tiedekirjasto Nelli-tiedonhakuportaalin käyttöopas
1 Lappeenrannan tiedekirjasto Nelli-tiedonhakuportaalin käyttöopas Lappeenrannan teknillisen yliopiston Nelli-tiedonhakuportaali on väline elektronisten aineistojen tiedonhakuun ja - hallintaan. Nelli-tiedonhakuportaali