Kielellisen datan käsittely ja analyysi tutkimuksessa Kimmo Koskenniemi 4.4.2007 Yleisen kielitieteen laitos Humanistinen tiedekunta
Kielidataa on monenlaista Tekstiä erilaisista lähteistä kirjoista, lehdistä, Internetistä,... Ääntä eli digitalisoitua puhetta Merkkausta eli koodeja esim. XML:n muodossa ohjelmallisesti tai manuaalisesti lisättyjä Sanakirjoja, sanaluetteloita Yhdistelmiä näistä ja esim. liikkuvasta kuvasta litteroitua puhetta, kieliopillisesti koodattuja aineistoja, viittomakielen videotallenteita, kohdistettuja kaksikielisiä aineistoja,
Kielidataa on periaatteessa aika paljon Enin osa Internetin tiedoista on jonkun kielistä tekstiä ja siellä on paljon aineistoa (10 15 sanetta?) Tekstiä kirjoitetaan ja julkaistaan kiihtyvällä vauhdilla ja jonkinlainen osa jää talteen Puhetta tulee vieläkin enemmän, mutta siitä vain häviävän pieni osa tulee tallennetuksi
Miten kielidataa käsitellään? Satojen vuosien ajan manuaalisesti sanalipuilla ja kortistoilla, joita järjesteltiin ja käsittelyn tulos mahdollisesti kirjoitettiin puhtaaksi tai julkaistiin konkordansseina. Sittemmin samaa tehtiin tietokoneella. Kielen tutkijat ja sanakirjojen tekijät etsivät esimerkkejä tietyistä ilmiöistä tai sanojen käytöstä ja laativat mm. kielioppeja. Puhetieteilijät tutkivat mm. digitoidun äänen spektrejä, energiajakautumia, perustaajuuksien kulkua puheessa.
Miten kielidataa käsitellään - 2 Kieliteknologit rakentavat jäsentimiä kääntimiä ym. mm. mm. suurten aineistojen perusteella, joskus etsien säännönmukaisuuksia ja poikkeuksia, joskus mekaanisemmin. Koneoppimisessa lasketaan toisinaan päiväkausia mallia, jonka käyttäminen kyllä jatkossa on nopeaa. Jotkut säännöt tai lausekkeet voivat tulla tilasiirtymäverkkoina suuriksi tai suurten välitulosten kautta taas pieniksi. Kielen jäsentämisessä tulee helposti kombinatorisesti suuria lukuja, esim. 10 120 eri tulkintaa virkkeelle, joista vain yksi on kieliopin sääntöjen sallima.
Paljonko kielidataa tarvitaan? Joitakin aineistoja on rajallisesti, esim. muinaisenglantia tai sumeria. Tällaisista kaikki tarvitaan ja enemmän suotaisiin olevaksi. Nykykieliä on runsaasti saatavilla ja riippuu tehtävästä, paljonko tarvittaisiin. Biljoona (10 12 ) sanetta olisi ok moneen tarpeeseen. (Nyt suomea on 2*10 8 sanetta, venäjää ehkä 10 10 sanetta.) Monille menetelmille ei kuitenkaan mikään riitä, esim. neljän sanan yhdistelmiä olisi englannin kielessäkin n. 10 20 ja niiden yleisyyksien arviointi ei onnistu biljoonalla.
Rajoitukset ja esteet Tekijänoikeus ja kustantajat asettavat huomattavia rajoituksia aineistojen keruulle. Tuoreista aineistoista voi saada vaivannäöllä luvan (koska tekijät elossa ja tavoitettavissa). 1900-luvusta tulee pimeä vuosisata sillä tekijänoikeuksien takia niitä voidaan tutkia vasta, kun tekijän kuolemasta on kulunut 70 vuotta. Vanhemmat aineistot ovat vapaita. Tutkimuksella ei ole mitään erioikeuksia (mutta esim. vammaisten kirjastoilla on). EU:n lainsäädäntö ei salli edes paikallisia poikkeuksia tutkimuksen hyväksi.
Yhdistely ja yhteiskäyttö Kieliaineistot voisivat olla hallitussa yhteiskäytössä Euroopan- ja maailmanlaajuisesti. Koko kirjallinen perintö menneiltä vuosisadoilta voisi olla digitaalisissa arkistoissa. (Ja mielellään uudetkin tekstit.) Tekeillä on CLARIN-niminen eurooppalainen infrastruktuurihanke, jonka tavoitteena on mahdollistaa helppo yhteiskäyttö.
Humanistisen käytön kuviteltu esimerkki Islantilaisissa saagoissa puhutaan Ingvarista, joka matkasi joukkonsa kanssa Särklandiin onnettomin seurauksin. Tätä oli pidetty epäluotettavana (lögnsaga). Mats Larsson, Vikingarna i österled, 1997 muinaisislantia olevat saagat kertovat tarinan riimukirjoitukset mainitsevat Ingvarin retkellä menehtyneitä eurooppalaiset keskiaikaiset tekstit antavat taustaa Nestorin kronikka mainitsee käynneistä georgialaiset annaalit Kutaisin kaupungista kertovat Ingvarin 3000 miehen saapuneen v. 1040 ja niistä 700:n jatkaneen Kaukasuksen yli kohti Kaspianmerta. Boissert M., Histoire de la Géorgie, St. Petersburg, 1849