Suomen kielen substantiivilla on noin 2000 erilaista muotoa vai onko sittenkään? Kimmo Kettunen, Tampereen yliopisto, informaatiotutkimuksen laitos
Tausta Suomen kielen erilaisten sanamuotojen määrä esitetään kielitieteellisessä kirjallisuudessa yleensä toisiinsa liittyvien morfeemien kombinaatioiden laskelmana. Näin päädytään laskennallisesti suureen kieliopillisten sananmuotojen määrään. Substantiiveilla on mahdollista olla noin 2000 2200 erilaista muotoa, adjektiiveilla noin 6600, verbeillä noin 12 000 (Karlsson 1983). Kielitieteen päivät 2008, Vaasa K. Kettunen 2
Substantiivit Substantiivien mahdollisten kieliopillisten muotojen laskenta perustuu seuraavaan laskelmaan: 2*13*6*12 = 1 872 Kielitieteen päivät 2008, Vaasa K. Kettunen 3
Substantiivit Jos kaavasta korvataan sijamuotojen määrä 14:llä ja otetaan huomioon myös rinnakkaiset 3. persoonan omistusliitemuodot, päästään yli 2000 muodon (Karlsson 1983, s. 357). Karlsson puhunut myös 150 ydinmuodosta (core forms) Kielitieteen päivät 2008, Vaasa K. Kettunen 4
Fred Karlssonin listaus mahdollisista muodoista (automaattisesti generoitu) 2249 muotoa generoitu automaattisesti (http://www.ling.helsinki.fi/~fkarlsso/genkau2.html). kauppanikohan kauppanipahan kauppanipas kauppanikos kauppanikinko kauppanikaanko kauppanikinkohan.. Kielitieteen päivät 2008, Vaasa K. Kettunen 5
Jakaumat teksteissä Sananmuotojen jakaumat todellisissa teksteissä ovat täysin toisenlaisia: substantiiveista esiintyy teksteissä enimmäkseen kuusi sijamuotoa (nominatiivi, genetiivi, partitiivi, inessiivi, elatiivi ja illatiivi), ilman omistusliitteitä tai liitepartikkeleita. Sijamuotojen jakauman osoitti jo Räsänen (1979) selkeästi pienillä otoksilla, sittemmin samaan tulokseen on päädytty myös Lauseopin arkiston analyyseissa ja Parole korpuksen analyysissa (Pajunen & Palomäki, 1982 (ks. Karlsson 1983),Hakulinen et al. 2004). Kielitieteen päivät 2008, Vaasa K. Kettunen 6
Jakaumat Itse olen vahvistanut analyysit kahden isohkon sanomalehtiaineiston automaattisella morfologisella analyysilla (Kettunen ja Airio 2006). Muotojen jakauman vinous korpuksissa on vanhastaan tunnettua ja semanttispohjaista (Karlsson 1986), mutta tiedon konkreettiset seuraukset tai tiedon hyödyntäminen on jäänyt epäselväksi. Kielitieteen päivät 2008, Vaasa K. Kettunen 7
Räsänen 1979 Pieniä noin 2000 sanan otoksia erilaisista tekstityypeistä (kaunokirjallista tekstiä, asiatekstit). Taulukossa on vain asiatekstien jakaumat 6 tärkeimmän sijan osalta. Kielitieteen päivät 2008, Vaasa K. Kettunen 8
Lauseopin arkisto, 20 000 sanaa (4*5000 sanan otos), Pajunen & Palomäki 1982 Kielitieteen päivät 2008, Vaasa K. Kettunen 9
Lauseopin arkisto, (64 391 substantiivia) Hakulinen et al. 2004, s.1180 Kielitieteen päivät 2008, Vaasa K. Kettunen 10
Parole aineisto (Hakulinen et al. 2004, s.1179, 158 655 sanaa) Kielitieteen päivät 2008, Vaasa K. Kettunen 11
Automaattinen morfologinen analyysi Tampereen yliopiston tiedonhaun laboratorion testikokoelma TUTK muodostuu 53 893 lehtiartikkelista vuosilta 1988 1992. Tekstitietokannan sanojen frekvenssi indeksistä tekemäni laskelman mukaan sananmuotoja on yhteensä 12 109 779. Sananmuototyyppejä, erilaisia sananmuotoja, tässä määrässä on 719 011. Sananmuototyyppien sijamuodoista olen tehnyt jakaumalaskelman seuraavasti. Sananmuototyypit analysoitiin FINTWOLilla ja FINTWOLin analyyseista laskettiin kaikki ne tulkinnat, joissa oli sanaluokkana N eli substantiivi. Lukema sisältää siis myös FINTWOL analyysin monitulkintaiset tapaukset. Kielitieteen päivät 2008, Vaasa K. Kettunen 12
TUTK, FINTWOL analyysi Kielitieteen päivät 2008, Vaasa K. Kettunen 13
HUT korpus, FINTWOL analyysi (Mathias Creutz) Helsingin teknillisessä korkeakoulussa eri lähteistä kootun 32 miljoonan sananmuodon aineistosta (Creutz & Linden 2004) on ajettu vastaavanlainen FINTWOL analyysi, mutta vain ohjelman antamista yksitulkintaisista substantiivitapauksista toteumatasolla. Tästä analyysista olen koonnut tilastotiedot substantiivien kuuden yleisimmän sijamuodon suhteen. Kielitieteen päivät 2008, Vaasa K. Kettunen 14
Kuuden sijamuodon jakaumat 11,3 miljoonan substantiivin aineistossa Kielitieteen päivät 2008, Vaasa K. Kettunen 15
Koontia Kootusti edelliset tilastot kertovat yhdensuuntaisesti, että suomen kielen 14 morfologisesta sijamuodosta kuusi sijamuotoa muodostaa (asia)teksteissä noin 78 89 % kaikista sijojen esiintymistä. Tämä pätee sekä tyyppi että toteumatasolla. Entäpä omistusliitteet ja liitepartikkelit, jotka tekevät muotojen määrästä runsaan? Seuraava taulukko perustuu FINTWOL analyysiin HUT korpuksen 11,3 miljoonasta substantiivista. Kielitieteen päivät 2008, Vaasa K. Kettunen 16
Omistusliitteiden ja liitepartikkelien määrät HUT korpuksessa Kielitieteen päivät 2008, Vaasa K. Kettunen 17
Omistusliitteet ja liitepartikkelit 2,46 %:ssa substantiiveja esiintyy omistusliite tai liitepartikkeli ylipäänsä. Usean liitepartikkelin ketjuja ei analysoitu, mutta niiden määrä on todennäköisesti olematon. Vain 3. persoonan omistusliite on niin yleinen (1,83 %), että sen voi arvella esiintyvän jokseenkin usein teksteissä. Seuraavaksi yleisin on liitepartikkeli kin, mutta sen prosenttiosuus aineistossa on vain 0,25. Suuri osa omistusliitteistä ja liitepartikkeleista esiintyy aineistossa erittäin harvoin. Yleistendenssinä joka tapauksessa on, että mitä spesifisempi sija on merkitykseltään, sitä harvinaisempi se on esiintymätaajuudeltaan. (Hakulinen et al. 2004, s. 1178). Selitys pätee varmasti myös omistusliitteisiin ja liitepartikkeleihin. Mitä enemmän näitä yhdistellään toisiinsa, sitä spesifimmäksi merkitys muuttuu harvinaisuus. Kielitieteen päivät 2008, Vaasa K. Kettunen 18
Fred Karlssonin listaus mahdollisista muodoista (automaattisesti generoitu) 2249 muotoa, näistä 173 on tuntemattomia FINTWOLille (7,69 %) Suurin osa muodoista on jokseenkin teoreettisia korpusanalyysin valossa. kauppanikohan kauppanipahan kauppanipas kauppanikos kauppanikinko kauppanikaanko kauppanikinkohan Kielitieteen päivät 2008, Vaasa K. Kettunen 19
Välipäätelmiä Suomenkielisissä teksteissä substantiivit esiintyvät pääsääntöisesti 6 eri sijamuodossa. Muutamat sijamuodoista ovat äärimmäisen harvinaisia (komitatiivi, instruktiivi, abessiivi), usea muukin vähän esiintyvä (translatiivi, essiivi, ablatiivi). Omistusliitteiden ja liitepartikkelien määrä on erittäin vähäinen. 9 12 substantiivin muotoa kattaa aika ison osan tekstien substantiivien esiintymistä (6 sijaa, yksikköja monikkomuodot). Kielitieteen päivät 2008, Vaasa K. Kettunen 20
Seurauksia Tietoa voi yrittää soveltaa Tekstitiedonhaku on yksi sovelluskohde Tekstitiedonhaussa on päämääränä löytää annetuilla hakutermeillä hakijalle mahdollisimman relevantit dokumentit. Sananmuotojen vaihtelun vaikutusta dokumenttien löytyvyyteen voidaan minimoida eri keinoin: lemmaus, perusmuotoistaminen stemmaus, karsinta: karkea yhtenäistäminen vartalohaku, haku sanavartaloilla Kielitieteen päivät 2008, Vaasa K. Kettunen 21
Frekvenssitiedon soveltaminen tiedonhakuun Kokeillaan soveltaa sananmuotojen jakaumatietoa tiedonhaussa hakutermien muodon vaihtelun käsittelyssä. Ei siis yritetä kattaa kokonaan muotojen vaihtelua (kuten lemmaus tekee indeksille ja hakusanoille), vaan tuotetaan hakusanoista vain 3 12 erilaista muotoa ja katsotaan, miten haussa käy. Kielitieteen päivät 2008, Vaasa K. Kettunen 22
Kettunen & Airio 2006: käsin tehdyt kyselyt FCG prosesseilla, pitkät kyselyt Liberaali relevanssi Keskitarkkuus saantitasoilla (%) Normaali relevanssi Keskitarkkuus saantitasoilla (%) Tiukka relevanssi Keskitarkkuus saantitasoilla (%) FINTWOL 37.8 35.0 24.1 FCG_12 32.7 ( 5.1) 30.0 ( 5.0) 21.4 ( 2.7) FCG_9 32.4 ( 5.4) 29.6 ( 5.4) 21.3 ( 2.8) FCG_6 30.9 ( 6.9) 28.0 ( 7.0) 21.0 ( 3.1) Snowball 29.8 ( 8.0) 27.7 ( 7.3) 20.0 ( 4.1) FCG_3 26.4 ( 11.4) 23.9 ( 11.1) 18.9 ( 5.2) Plain (sanat hakuaiheen muodoissa) 19.6 ( 18.2) 18.9 ( 16.1) 12.4 ( 11.7) Tulokset TUTKissa Menetelmä Keskitarkkuus saantitasoilla (%) FINTWOL ositetut yhdyssanat 50.5 osittamattomat yhdyssanat 47.0 ( 3.5) Snowball 48.5 ( 2.0) FCG_12 46.4 ( 4.1) FCG_9 46.1 ( 4.4) FCG_6 41.5 ( 9.0) FCG_3 32.6 ( 17.9) Plain (sanat hakuaiheen 31.0 ( 19.5) muodoissa) Tulokset CLEF 2003:ssa Kielitieteen päivät 2008, Vaasa K. Kettunen 23
Kettunen 2008a, automaattiset lyhyet kyselyt Finnish Short Queries 1 0,9 0,8 Precision 0,7 0,6 0,5 0,4 0,3 0,2 0,1 TW OL FCG_12 FCG_9 SNOWB PLAIN 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Recall Kielitieteen päivät 2008, Vaasa K. Kettunen 24
Kettunen 2008b, automaattiset pitkät kyselyt Finnish Long Queries 1 0,9 0,8 Precision 0,7 0,6 0,5 0,4 0,3 0,2 0,1 TWOL FCG_12 FCG_9 SNOWB PLAIN 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Recall Kielitieteen päivät 2008, Vaasa K. Kettunen 25
Lisää tuloksia, vähemmän muotoja Finnish Long Queries 1 0,9 0,8 Precision 0,7 0,6 0,5 0,4 0,3 0,2 0,1 TWOL FCG_12 FCG_9 PLAIN FCG_6 FCG_4 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Recall Kielitieteen päivät 2008, Vaasa K. Kettunen 26
Lisää tuloksia, vähemmän muotoja Finnish Short Queries 1 0,9 Precision 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 TWOL FCG_12 FCG_9 SNOWB PLAIN FCG_6 FCG_4 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Recall Kielitieteen päivät 2008, Vaasa K. Kettunen 27
Lopuksi Sijamuotojen esiintymien määrät samansuuntaisia otoksen koosta riippumatta: jo pienten aineistojen antamat suhteet olisivat riittäneet soveltamiseen tähtäävän analyysin pohjaksi. Frekvenssitietämyksen soveltamisessa tiedonhaku on yksi alue, muita sovellusalueita voi keksiä lisää tarpeen mukaan. Morfologisesti rikkaan kielen sananmuotojen täydellinen käsittely ei ole kaikissa kieliteknologian sovelluksissa tarpeen, monesti vähempikin riittää. Kielitieteen päivät 2008, Vaasa K. Kettunen 28
Kirjallisuutta Creutz, M. & Linden, K. 2004. Morpheme Segmentation Gold Standards for Finnish and English. Publications in Computer and Information Science. Report A77. Espoo: Helsinki University of Technology. Hakulinen, A., Vilkuna, M., Korhonen, R., Koivisto, V. Heinonen T.R. & Alho, I. 2004. Iso suomen kielioppi. Helsinki: Suomalaisen Kirjallisuuden Seura. Karlsson, F. 1983. Suomen kielen äänne ja muotorakenne. Helsinki: WSOY. Karlsson, F. 1986. Frequency Considerations in Morphology. Zeitsschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung 39 (1), 19 28. Kettunen, K. 2005. Sijamuodot haussa tarvitseeko kaikkea hakutermien morfologista vaihtelua kattaa? Informaatiotutkimuksen sivuainetutkielma. Kettunen, K. 2008a. Frequent Case Form Generation of Query Keywords in Text Retrieval. Ks. Nuno Guimarães & Pedro Isais (eds.), Proceedings of IADIS International Conference Applied Computing, 164 170. Kettunen, K. 2008b. Automatic generation of frequent case forms of query keywords in text retrieval. Käsikirjoitus. Kettunen, K. & Airio, E. 2006. Is a morphologically complex language really that complex in full text retrieval? In T. Salakoski et al. (Eds.) Advances in Natural Language Processing, LNAI 4139. Berlin Heidelberg: Springer Verlag, 411 422. Kettunen, K., Airio, Eija & Järvelin, K. 2007. Restricted Inflectional Form Generation in Management of Morphological Keyword Variation. Information Retrieval 10, 415 444. Räsänen, S. 1979. Havaintoja suomen sijojen frekvensseistä. Sananjalka 21, 17 43. Kielitieteen päivät 2008, Vaasa K. Kettunen 29