Suomen kielen substantiivilla on noin 2000 erilaista muotoa vai onko sittenkään? Kimmo Kettunen, Tampereen yliopisto, informaatiotutkimuksen laitos

Samankaltaiset tiedostot
Sijamuodot haussa tarvitseeko kaikkea hakutermien morfologista vaihtelua kattaa?

CIRI Ontologiaperustainen tiedonhakuliittymä

Suomenkielisten tekstien morfologinen analysointi

LUKUSANOJEN TAIVUTUS. Heljä Uusitalo

Suomen kielen sijamuodot ja sanatyypit Nominit Sijamuodot Tyyppi 1 Yhteen vokaaliin päättyvät sanat a, ä, o, ö, u, y, i Yksikkö Monikko Muita

Kielioppi Harjoituskirja - suomi 3 - harjoituslista

Tavut sananmuotojen vaihtelun hallinnan välineinä tekstitiedonhaussa

VENÄJÄN KIELEN MORFOLOGISET ONGELMAT TIEDONHAUSSA: RIITTÄÄKÖ SIJAMUOTOJEN RAJOITETTU TUOTTAMINEN RATKAISUKSI? Marja Holstila

Suomen kielioppi: Harjoitukset - Harjoituslista. Aakkoset ja äänteet

Sijoista ja kieliopillisista funktioista

Korpuspohjainen tutkimus ruotsinkielisten suomenoppijoiden paikallissijojen käytöstä kirjallisessa tuotannossa

Yhdyssana suomen kielessä ja puheessa

KIELITEKNOLOGIASTA SUOMENKIELISTEN TEKSTI EN TUTKI MISESSA

KYSELYNKÄSITTELYMENETELMIEN EVALUOINTITUTKIMUS SUOMALAISEN VERKKOARKISTON TAIVUTUSMUOTOINDEKSIÄ KÄYTTÄEN. Petteri Veikkolainen

2. Ympyröi sanasta se osa, joka kertoo, että sana on monikossa.

Laskelmia uudenvuodenpuheista

Suomen kielioppia edistyneille

Aamiaiskahvilasta ötökkätarjontaan

5. Paikallissijat/obliikvisijat

Karsittuja ja perusmuotoisia kyselyitä ja hakemistoja käyttämällä saatujen tulosjoukkojen päällekkäisyys

Avoimen lähdekoodin kaksitasokielioppikääntäjä

5. MORFOLOGIA l. muotorakenne

Tekstin tallennus- ja hakumenetelmien kehittäminen suomen kielen tulkintaohjelmien avulla: FULLTEXT-projektin loppuraportti

Neljäs- ja viidesluokkalaisten taivutusmorfologian suullinen tuottaminen ryhmäinterventiotapaamisissa

AFinLan syyssymposiumi Oulu

Kirjoja vai kirjallisuutta etsimässä? Kaunokirjallisuuden haku Melindasta käyttäjän näkökulma

CLT131: Tekstityökalut 2011, viides luento

Kielitieteellisten aineistojen käsittely

KREIKAN OPISKELUSSA TARVITTAVAA SUOMEN KIELIOPIN TERMINOLOGIAA Kamu syyskuu 2009 / Jarmo Kiilunen

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Nuõr%sääʹmǩiõl seminaar ođđeeʹjjmannust Čeʹvetjääuʹrest,

XML-tutkimus Jyväskylän yliopistossa

Learner Language, Learner Corpora Oulu

Kieli merkitys ja logiikka

Digitalia-projektin tekstinlouhinnan tuloksia. Kimmo Kettunen

ISO SUOMEN KIELIOPPI S2- OPETUKSESSA. Muutama havainto

SUOMEN KIELEN VALINTAKOE klo 9-12 salissa L4 Oulun yliopisto. Suomen kielen valintakoe jakaantuu kahteen osioon:

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

Sijojen synty ja säilyminen

Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa. Kimmo Kettunen Dimiko (Digra-projekti)

Ruotsin kielen yhdyssanat ja niiden morfologinen käsittely tiedonhaussa

A-venäjän ylioppilaskokeen kehittämishanke

Ensimmäisen infinitiivin perusmuoto subjektina, objektina, attribuuttina

ONGELMA. Käsittelen persoonapronominien monikon genetiivi- ja akkusatiivimuotojen morfologista

infinitiivilauseke voi toimia substantiivin jälkimääritteinä edussanat ovat usein sukua verbeille:

Ohjeita Korp-konkordanssihakuohjelman käyttöä varten

Kieli merkitys ja logiikka. 4: Luovuus, assosiationismi. Luovuus ja assosiationismi. Kielen luovuus. Descartes ja dualismi

PARTISIIPP PREESEEʹNS RAAJJÂM PARTISIIPIN PREESENSIN MUODOSTAMINEN. lääddas suomeksi

Post- ja prepositioiden rektiosijoista

Infiniittiset rakenteet

KV-järjestelmät suomelle

Tutkinnonuudistus ja uudet DI-ohjelmat Master s Programme in Information Networks

Sana rakenteen kategoriana (A. Radford: Transformational Grammar. A First Course)

Infiniittiset rakenteet, osa 1

11th International Congress for Finno-Ugric Studies

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

Tiedonhakumenetelmät Tiedonhakumenetelmät, Helsingin yliopisto, tktk, k2014. H.Laine 1. Tiedonhaku Boolen haku Indeksit. Tiedonhaku?

Kansalliskirjaston digitoitu historiallinen lehtiaineisto : sanatason laatu, kokoelmien käyttö ja laadun parantaminen

Kohti tehohoitotyön narratiivien tehokkaampaa hyödyntämistä luonnollisen kielen käsittelyn avulla

Eskon ja Allin ihmemaa Sivu 1 / 8

alkuun alkuun A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Å Ä Ö

Asialista. hippu ja.bashrc. Asialista. Tutkimusongelma: tekstin morfologisen jäsennyksen selvittely

Liitepartikkelit Sisältö

Totta kirjoitetun keskustelun dialogipartikkeli?

MONIKKOJEN TEORIAA. SUOMEN KIELEN MONIKOT t alkumonikko i loppumonikko

Nominien sijamuodot. Nominatiivi. Genetiivi

KIELIJÄRJESTELMIEN SAMANKALTAISUUS SUOMEN JA TURKIN MORFOLOGIASSA

Automaattinen semanttinen annotointi

SUOMEN NOMINIEN MONIKON OPETTAMINEN VIROLAISISSA KOULUISSA

Tutkinnonuudistus ja uudet DI-ohjelmat / Teknillinen fysiikka ja matematiikka. Infotilaisuus

Varhainen leikki ja sen arviointi

Lausekkeiden rakenteesta (osa 2) & omistusliitteistä

Lyhyesti uusista DI-ohjelmista Isohenkilökoulutus to Opintoasianpäällikkö Mari Knuuttila

Johdatus kieliteknologiaan Luku 1: Johdanto

Lukumummit ja -vaarit Sanavaraston kartuttamista kaunokirjallisuuden avulla

Objekti. Objekti on lauseen toinen perustava nominaalijäsen (transitiiviverbin toinen täydennys), toinen perusfunktio, joka NP:lla voi olla:

SUMERI 2. HY ma 10-12,

LYHYT SUOMEN KIELEN PERUSKIELIOPPI Timo Nurmi

Teemanumerot: Vuosikerta 10 euroa 1/1987 Äidinkielen opetuksen uudet virtaukset (loppuunmyyty, luettavissa tieteellisissä kirjastoissa) 2/1987

Itä-Suomen Liikkuva koulu -seminaaripäivä Pajakuvaus, kesto 1h

CLT131: Tekstityökalut 2010, toinen luento

Ovid Medline käyttöohjeita (10/2010)

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Saamelaiskielet suomen kielen historian valaisijana

30A02000 Tilastotieteen perusteet

Mylly: Uusi tapa ka sitella teksti- ja puheaineistoa helposti ja tehokkaasti. Mietta Lennes ja Jussi Piitulainen FIN-CLARIN, Helsingin yliopisto

Nominien sijamuodot ja niiden käyttö

TIEDONHAKU INTERNETISTÄ

Mitä on morfologia? Tommi Jantunen Jyväskylän yliopisto Kielten laitos Suomalainen viittomakieli

KOMITATIIVI NYKYSUOMESSA. Sijan typologista ja areaalista taustaa sekä sen ilmaisemat merkitykset Helsingin Sanomien korpuksessa

sukulaiskielten välisessä tiedonhaussa

Väitöstutkimus morfologisesta produktiivisuudesta

osassa III max-pist pistem pistemäärä osan III maksimista III:N MAX 30 Z Y X (X/Y)xZ=Å Åx0,3 TEHTÄVÄ

Rajoittamattomat kieliopit (Unrestricted Grammars)

Havaintoja ja keskustelua SIJA-ALLOMORFIT -DÄN JA -DÄT. Kiitän Kaisa Häkkistä, Pentti Leinoa ja Maria Vilkunaa arvokkaista kommenteista.

HAVAITUT JA ODOTETUT FREKVENSSIT

Oppilas keskustelee ryhmässä ja tuo esille mielipiteitään. Oppilas osallistuu luokan ja koulun ilmaisuesityksiin. Oppilas harjoittelee

KIELIPANKKI JA LEMMIE-OHJELMISTO

Tiedonhakumenetelmät Tiedonhakumenetelmät Helsingin yliopisto / TKTL. H.Laine 1. Rankkaukseen perustuva tiedonhaku.

Societal Challenge 5: Climate action, resource efficiency and raw materials

Transkriptio:

Suomen kielen substantiivilla on noin 2000 erilaista muotoa vai onko sittenkään? Kimmo Kettunen, Tampereen yliopisto, informaatiotutkimuksen laitos

Tausta Suomen kielen erilaisten sanamuotojen määrä esitetään kielitieteellisessä kirjallisuudessa yleensä toisiinsa liittyvien morfeemien kombinaatioiden laskelmana. Näin päädytään laskennallisesti suureen kieliopillisten sananmuotojen määrään. Substantiiveilla on mahdollista olla noin 2000 2200 erilaista muotoa, adjektiiveilla noin 6600, verbeillä noin 12 000 (Karlsson 1983). Kielitieteen päivät 2008, Vaasa K. Kettunen 2

Substantiivit Substantiivien mahdollisten kieliopillisten muotojen laskenta perustuu seuraavaan laskelmaan: 2*13*6*12 = 1 872 Kielitieteen päivät 2008, Vaasa K. Kettunen 3

Substantiivit Jos kaavasta korvataan sijamuotojen määrä 14:llä ja otetaan huomioon myös rinnakkaiset 3. persoonan omistusliitemuodot, päästään yli 2000 muodon (Karlsson 1983, s. 357). Karlsson puhunut myös 150 ydinmuodosta (core forms) Kielitieteen päivät 2008, Vaasa K. Kettunen 4

Fred Karlssonin listaus mahdollisista muodoista (automaattisesti generoitu) 2249 muotoa generoitu automaattisesti (http://www.ling.helsinki.fi/~fkarlsso/genkau2.html). kauppanikohan kauppanipahan kauppanipas kauppanikos kauppanikinko kauppanikaanko kauppanikinkohan.. Kielitieteen päivät 2008, Vaasa K. Kettunen 5

Jakaumat teksteissä Sananmuotojen jakaumat todellisissa teksteissä ovat täysin toisenlaisia: substantiiveista esiintyy teksteissä enimmäkseen kuusi sijamuotoa (nominatiivi, genetiivi, partitiivi, inessiivi, elatiivi ja illatiivi), ilman omistusliitteitä tai liitepartikkeleita. Sijamuotojen jakauman osoitti jo Räsänen (1979) selkeästi pienillä otoksilla, sittemmin samaan tulokseen on päädytty myös Lauseopin arkiston analyyseissa ja Parole korpuksen analyysissa (Pajunen & Palomäki, 1982 (ks. Karlsson 1983),Hakulinen et al. 2004). Kielitieteen päivät 2008, Vaasa K. Kettunen 6

Jakaumat Itse olen vahvistanut analyysit kahden isohkon sanomalehtiaineiston automaattisella morfologisella analyysilla (Kettunen ja Airio 2006). Muotojen jakauman vinous korpuksissa on vanhastaan tunnettua ja semanttispohjaista (Karlsson 1986), mutta tiedon konkreettiset seuraukset tai tiedon hyödyntäminen on jäänyt epäselväksi. Kielitieteen päivät 2008, Vaasa K. Kettunen 7

Räsänen 1979 Pieniä noin 2000 sanan otoksia erilaisista tekstityypeistä (kaunokirjallista tekstiä, asiatekstit). Taulukossa on vain asiatekstien jakaumat 6 tärkeimmän sijan osalta. Kielitieteen päivät 2008, Vaasa K. Kettunen 8

Lauseopin arkisto, 20 000 sanaa (4*5000 sanan otos), Pajunen & Palomäki 1982 Kielitieteen päivät 2008, Vaasa K. Kettunen 9

Lauseopin arkisto, (64 391 substantiivia) Hakulinen et al. 2004, s.1180 Kielitieteen päivät 2008, Vaasa K. Kettunen 10

Parole aineisto (Hakulinen et al. 2004, s.1179, 158 655 sanaa) Kielitieteen päivät 2008, Vaasa K. Kettunen 11

Automaattinen morfologinen analyysi Tampereen yliopiston tiedonhaun laboratorion testikokoelma TUTK muodostuu 53 893 lehtiartikkelista vuosilta 1988 1992. Tekstitietokannan sanojen frekvenssi indeksistä tekemäni laskelman mukaan sananmuotoja on yhteensä 12 109 779. Sananmuototyyppejä, erilaisia sananmuotoja, tässä määrässä on 719 011. Sananmuototyyppien sijamuodoista olen tehnyt jakaumalaskelman seuraavasti. Sananmuototyypit analysoitiin FINTWOLilla ja FINTWOLin analyyseista laskettiin kaikki ne tulkinnat, joissa oli sanaluokkana N eli substantiivi. Lukema sisältää siis myös FINTWOL analyysin monitulkintaiset tapaukset. Kielitieteen päivät 2008, Vaasa K. Kettunen 12

TUTK, FINTWOL analyysi Kielitieteen päivät 2008, Vaasa K. Kettunen 13

HUT korpus, FINTWOL analyysi (Mathias Creutz) Helsingin teknillisessä korkeakoulussa eri lähteistä kootun 32 miljoonan sananmuodon aineistosta (Creutz & Linden 2004) on ajettu vastaavanlainen FINTWOL analyysi, mutta vain ohjelman antamista yksitulkintaisista substantiivitapauksista toteumatasolla. Tästä analyysista olen koonnut tilastotiedot substantiivien kuuden yleisimmän sijamuodon suhteen. Kielitieteen päivät 2008, Vaasa K. Kettunen 14

Kuuden sijamuodon jakaumat 11,3 miljoonan substantiivin aineistossa Kielitieteen päivät 2008, Vaasa K. Kettunen 15

Koontia Kootusti edelliset tilastot kertovat yhdensuuntaisesti, että suomen kielen 14 morfologisesta sijamuodosta kuusi sijamuotoa muodostaa (asia)teksteissä noin 78 89 % kaikista sijojen esiintymistä. Tämä pätee sekä tyyppi että toteumatasolla. Entäpä omistusliitteet ja liitepartikkelit, jotka tekevät muotojen määrästä runsaan? Seuraava taulukko perustuu FINTWOL analyysiin HUT korpuksen 11,3 miljoonasta substantiivista. Kielitieteen päivät 2008, Vaasa K. Kettunen 16

Omistusliitteiden ja liitepartikkelien määrät HUT korpuksessa Kielitieteen päivät 2008, Vaasa K. Kettunen 17

Omistusliitteet ja liitepartikkelit 2,46 %:ssa substantiiveja esiintyy omistusliite tai liitepartikkeli ylipäänsä. Usean liitepartikkelin ketjuja ei analysoitu, mutta niiden määrä on todennäköisesti olematon. Vain 3. persoonan omistusliite on niin yleinen (1,83 %), että sen voi arvella esiintyvän jokseenkin usein teksteissä. Seuraavaksi yleisin on liitepartikkeli kin, mutta sen prosenttiosuus aineistossa on vain 0,25. Suuri osa omistusliitteistä ja liitepartikkeleista esiintyy aineistossa erittäin harvoin. Yleistendenssinä joka tapauksessa on, että mitä spesifisempi sija on merkitykseltään, sitä harvinaisempi se on esiintymätaajuudeltaan. (Hakulinen et al. 2004, s. 1178). Selitys pätee varmasti myös omistusliitteisiin ja liitepartikkeleihin. Mitä enemmän näitä yhdistellään toisiinsa, sitä spesifimmäksi merkitys muuttuu harvinaisuus. Kielitieteen päivät 2008, Vaasa K. Kettunen 18

Fred Karlssonin listaus mahdollisista muodoista (automaattisesti generoitu) 2249 muotoa, näistä 173 on tuntemattomia FINTWOLille (7,69 %) Suurin osa muodoista on jokseenkin teoreettisia korpusanalyysin valossa. kauppanikohan kauppanipahan kauppanipas kauppanikos kauppanikinko kauppanikaanko kauppanikinkohan Kielitieteen päivät 2008, Vaasa K. Kettunen 19

Välipäätelmiä Suomenkielisissä teksteissä substantiivit esiintyvät pääsääntöisesti 6 eri sijamuodossa. Muutamat sijamuodoista ovat äärimmäisen harvinaisia (komitatiivi, instruktiivi, abessiivi), usea muukin vähän esiintyvä (translatiivi, essiivi, ablatiivi). Omistusliitteiden ja liitepartikkelien määrä on erittäin vähäinen. 9 12 substantiivin muotoa kattaa aika ison osan tekstien substantiivien esiintymistä (6 sijaa, yksikköja monikkomuodot). Kielitieteen päivät 2008, Vaasa K. Kettunen 20

Seurauksia Tietoa voi yrittää soveltaa Tekstitiedonhaku on yksi sovelluskohde Tekstitiedonhaussa on päämääränä löytää annetuilla hakutermeillä hakijalle mahdollisimman relevantit dokumentit. Sananmuotojen vaihtelun vaikutusta dokumenttien löytyvyyteen voidaan minimoida eri keinoin: lemmaus, perusmuotoistaminen stemmaus, karsinta: karkea yhtenäistäminen vartalohaku, haku sanavartaloilla Kielitieteen päivät 2008, Vaasa K. Kettunen 21

Frekvenssitiedon soveltaminen tiedonhakuun Kokeillaan soveltaa sananmuotojen jakaumatietoa tiedonhaussa hakutermien muodon vaihtelun käsittelyssä. Ei siis yritetä kattaa kokonaan muotojen vaihtelua (kuten lemmaus tekee indeksille ja hakusanoille), vaan tuotetaan hakusanoista vain 3 12 erilaista muotoa ja katsotaan, miten haussa käy. Kielitieteen päivät 2008, Vaasa K. Kettunen 22

Kettunen & Airio 2006: käsin tehdyt kyselyt FCG prosesseilla, pitkät kyselyt Liberaali relevanssi Keskitarkkuus saantitasoilla (%) Normaali relevanssi Keskitarkkuus saantitasoilla (%) Tiukka relevanssi Keskitarkkuus saantitasoilla (%) FINTWOL 37.8 35.0 24.1 FCG_12 32.7 ( 5.1) 30.0 ( 5.0) 21.4 ( 2.7) FCG_9 32.4 ( 5.4) 29.6 ( 5.4) 21.3 ( 2.8) FCG_6 30.9 ( 6.9) 28.0 ( 7.0) 21.0 ( 3.1) Snowball 29.8 ( 8.0) 27.7 ( 7.3) 20.0 ( 4.1) FCG_3 26.4 ( 11.4) 23.9 ( 11.1) 18.9 ( 5.2) Plain (sanat hakuaiheen muodoissa) 19.6 ( 18.2) 18.9 ( 16.1) 12.4 ( 11.7) Tulokset TUTKissa Menetelmä Keskitarkkuus saantitasoilla (%) FINTWOL ositetut yhdyssanat 50.5 osittamattomat yhdyssanat 47.0 ( 3.5) Snowball 48.5 ( 2.0) FCG_12 46.4 ( 4.1) FCG_9 46.1 ( 4.4) FCG_6 41.5 ( 9.0) FCG_3 32.6 ( 17.9) Plain (sanat hakuaiheen 31.0 ( 19.5) muodoissa) Tulokset CLEF 2003:ssa Kielitieteen päivät 2008, Vaasa K. Kettunen 23

Kettunen 2008a, automaattiset lyhyet kyselyt Finnish Short Queries 1 0,9 0,8 Precision 0,7 0,6 0,5 0,4 0,3 0,2 0,1 TW OL FCG_12 FCG_9 SNOWB PLAIN 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Recall Kielitieteen päivät 2008, Vaasa K. Kettunen 24

Kettunen 2008b, automaattiset pitkät kyselyt Finnish Long Queries 1 0,9 0,8 Precision 0,7 0,6 0,5 0,4 0,3 0,2 0,1 TWOL FCG_12 FCG_9 SNOWB PLAIN 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Recall Kielitieteen päivät 2008, Vaasa K. Kettunen 25

Lisää tuloksia, vähemmän muotoja Finnish Long Queries 1 0,9 0,8 Precision 0,7 0,6 0,5 0,4 0,3 0,2 0,1 TWOL FCG_12 FCG_9 PLAIN FCG_6 FCG_4 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Recall Kielitieteen päivät 2008, Vaasa K. Kettunen 26

Lisää tuloksia, vähemmän muotoja Finnish Short Queries 1 0,9 Precision 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 TWOL FCG_12 FCG_9 SNOWB PLAIN FCG_6 FCG_4 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Recall Kielitieteen päivät 2008, Vaasa K. Kettunen 27

Lopuksi Sijamuotojen esiintymien määrät samansuuntaisia otoksen koosta riippumatta: jo pienten aineistojen antamat suhteet olisivat riittäneet soveltamiseen tähtäävän analyysin pohjaksi. Frekvenssitietämyksen soveltamisessa tiedonhaku on yksi alue, muita sovellusalueita voi keksiä lisää tarpeen mukaan. Morfologisesti rikkaan kielen sananmuotojen täydellinen käsittely ei ole kaikissa kieliteknologian sovelluksissa tarpeen, monesti vähempikin riittää. Kielitieteen päivät 2008, Vaasa K. Kettunen 28

Kirjallisuutta Creutz, M. & Linden, K. 2004. Morpheme Segmentation Gold Standards for Finnish and English. Publications in Computer and Information Science. Report A77. Espoo: Helsinki University of Technology. Hakulinen, A., Vilkuna, M., Korhonen, R., Koivisto, V. Heinonen T.R. & Alho, I. 2004. Iso suomen kielioppi. Helsinki: Suomalaisen Kirjallisuuden Seura. Karlsson, F. 1983. Suomen kielen äänne ja muotorakenne. Helsinki: WSOY. Karlsson, F. 1986. Frequency Considerations in Morphology. Zeitsschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung 39 (1), 19 28. Kettunen, K. 2005. Sijamuodot haussa tarvitseeko kaikkea hakutermien morfologista vaihtelua kattaa? Informaatiotutkimuksen sivuainetutkielma. Kettunen, K. 2008a. Frequent Case Form Generation of Query Keywords in Text Retrieval. Ks. Nuno Guimarães & Pedro Isais (eds.), Proceedings of IADIS International Conference Applied Computing, 164 170. Kettunen, K. 2008b. Automatic generation of frequent case forms of query keywords in text retrieval. Käsikirjoitus. Kettunen, K. & Airio, E. 2006. Is a morphologically complex language really that complex in full text retrieval? In T. Salakoski et al. (Eds.) Advances in Natural Language Processing, LNAI 4139. Berlin Heidelberg: Springer Verlag, 411 422. Kettunen, K., Airio, Eija & Järvelin, K. 2007. Restricted Inflectional Form Generation in Management of Morphological Keyword Variation. Information Retrieval 10, 415 444. Räsänen, S. 1979. Havaintoja suomen sijojen frekvensseistä. Sananjalka 21, 17 43. Kielitieteen päivät 2008, Vaasa K. Kettunen 29