Kielellisen datan käsittely ja analyysi tutkimuksessa

Samankaltaiset tiedostot
Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Miten tietokone näkee suomen murteet?





Edistyksen päivät, Helsinki. Voiko tutkija muuttaa maailmaa? Humanistista meta-analyysiä merkitysneuvottelevien koneiden avulla.

Opas tekijänoikeudesta valokuvaan, piirrettyyn kuvaan, liikkuvaan kuvaan, ääneen ja musiikkitallenteisiin sekä tekijänoikeudesta internettiin.

Kotimaisten kielten keskus eli Kotus ja sen arkistot ja aineistot. Elisa Stenvall

Miksi tutkimusaineistoja halutaan avattavan? Jyrki Hakapää, Suomen Akatemia

Helsingin yliopiston rinnakkaistallennuskäytäntö

Aineistonhallinta pähkinänkuoressa METODIFESTARIT TAMPEREEN YLIOPISTO ARJA KUULA-LUUMI

Tähtitieteen käytännön menetelmiä Kevät 2009

Rinnakkaistallennuksen arkea, haasteita ja mahdollisuuksia

KIELITIETEEN ELEKTRONINEN SANAST0: Hankkeen esittelyä. Sirpa Leppänen Jyväskylän yliopisto Kielten laitos/ englanti

SUKUKIELTEN DIGITOINTIPROJEKTI JA KIRJALLISUUSPANKKI ESIMERKKEINÄ TUTKIJAYHTEISTYÖSTÄ

Visuaalisia nostoja Ylen Isossa Pajassa pidetyn Tarina! -seminaarin muistiinpanoista Petri Suni / Oppifi Oy

Tietoarkisto palveluksessanne. Avoin tutkimusdata ja aineistonhallinta ihmistieteissä Hannele Keckman-Koivuniemi

Mitä voin lainata Kielipankista?

Historiantutkimus ja tietosuja. Kirsi Vainio-Korhonen Suomen historian professori, Turun yliopisto Etiikan päivä

Hankkeet ja yhteentoimivuus. OKM:n kirjastopäivät Minna Karvonen

Vastaus Lukumäärä Prosentti 20% 40% 60% 80% 100% Vastaus Lukumäärä Prosentti 20% 40% 60% 80% 100% Vastaus Lukumäärä Prosentti 20% 40% 60% 80% 100%

Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin?

Kieliaineistojen käyttöoikeuksien hallinnan tietojärjestelmä

Kielenhuoltoa kun alettiin tekemään. Riitta Eronen Tukholma

TIEA241 Automaatit ja kieliopit, kevät 2011 (IV) Antti-Juhani Kaijanaho. 19. tammikuuta 2012

VINKKEJÄ OPISKELUUN. Tampereen teknillinen lukio

Parlametri Euroopan parlamentin Eurobarometri (EB/PE 78.2)

Kieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat

TIEA241 Automaatit ja kieliopit, kevät 2011 (IV) Antti-Juhani Kaijanaho. 31. maaliskuuta 2011

Tervetuloa selkoryhmään!

Tieteellisen artikkelin kirjoittaminen ja julkaiseminen

Kielipankki ja FIN-CLARIN

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 16. marraskuuta 2015

Ongelma(t): Miten jollakin korkeamman tason ohjelmointikielellä esitetty algoritmi saadaan suoritettua mikro-ohjelmoitavalla tietokoneella ja siinä

Yhdyssana suomen kielessä ja puheessa

1. Tietoa tekijänoikeuksista

Nuõr%sääʹmǩiõl seminaar ođđeeʹjjmannust Čeʹvetjääuʹrest,

4. Lausekielinen ohjelmointi 4.1

LUKUVUOSITODISTUKSEN ARVIOINTILAUSEET VUOSILUOKILLE 1 4

Musiikkipäiväkirjani: Maalataan, kirjoitetaan ja luetaan musiikkia (PWR1) Valitaan värejä, kuvia tai symboleja erilaisille äänille.

Digitalia-projektin tekstinlouhinnan tuloksia. Kimmo Kettunen

Tekijänoikeudet digitointihankkeissa

Yhteentoimiva.suomi.fi - palvelukokonaisuuden ja työkalujen esittely

Laki kulttuuriaineistojen tallettamisesta ja säilyttämisestä /1433 Verkkoaineisto

Äidinkielen tukeminen. varhaiskasvatuksessa. Taru Venho. Espoon kaupunki

Tietokannat, tietokoneohjelmat ja aineistokokoelmat

Korpusten käsittely clt131, P Luento 5

Ei ainoastaan kielitieteelle! Fenno-Ugrica kokoelma historiantutkimuksen tukena

Avoin tiede ja tutkimus TURUN YLIOPISTON JULKAISUPOLITIIKKA

Parlametri Euroopan parlamentin Eurobarometri (EB/PE 78.2)

Kerta 2. Kerta 2 Kerta 3 Kerta 4 Kerta Toteuta Pythonilla seuraava ohjelma:

Suomen kielimaisema muuttuu Kielelliset oikeudet Suomessa

Pelin sisältö: Pelilauta, tiimalasi, 6 pelinappulaa ja 400 korttia.

Ctl160 Tekstikorpusten tietojenkäsittely p.1/15

Tekoäly tänään , Vadim Kulikov (Helsingin Yliopisto)

Esko Korpilinna ja ketsua. Esitys Ruutiukoissa Matti Kataja

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

Kirjoitusharjoitukset

Kielten kandiohjelman opettajien digiloikka. Mietta Lennes, FIN-CLARIN / Nykykielten laitos

Kielen ymmärtäminen kieliteknologian näkökulmasta. Kimmo Koskenniemi täysinpalvellut kieliteknologian professori Helsingin yliopisto

Kasvattajan opas: Digitaalisen kuvakirjapalvelun valinta

TOIMINNAN HAVAINNOINTI. Kysely Orimattilan ja Myrskylän perusopetuksen opettajille syksyllä 2015

1 Kannat ja kannanvaihto

ERIKOISSAIRAANHOIDON LOPPULAUSUNTOJEN YMMÄRRETTÄVYYS terveyskeskussairaanhoitajien haastattelututkimus

Paneelin 20 näkökulma. Sami Pihlström Tutkijakollegium & teologinen tdk, Helsingin yliopisto sami.pihlstrom@helsinki.fi

Puhenäytteiden mittailusta puhekorpuksen perkuuseen: kalastelua mato-ongella ja verkoilla. Mietta Lennes FIN-CLARIN / Helsingin yliopisto

Tekijänoikeuden vaikutuksesta E tiedon hyödyntämisessä. Mari Lampenius Asianajaja

osassa III max-pist pistem pistemäärä osan III maksimista III:N MAX 30 Z Y X (X/Y)xZ=Å Åx0,3 TEHTÄVÄ

10 yleistä hakukoneoptimointivirhettä

Millaista tietoa tiedottaja tarvitsee? Ja mistä tieto löytyy?

Tutkija: Koulun kirjoittamisopetuksen pitää uudistua blogit ja rap-lyriikkaa aineiden tilalle?

Kielipankki ja FIN-CLARIN. Mietta Lennes Nykykielten laitos, Helsingin yliopisto

IDA-tallennuspalvelun esittely. CSC Tieteen tietotekniikan keskus Oy

How to prepare for the 7th grade entrance exam? Kuinka lukea englannin linjan soveltuvuuskokeisiin?

DAISY. Esteetöntä julkaisua

Systemaattinen apina ja miten se tehdään fmbt:llä

OPEN ACCESS JYVÄSKYLÄN YLIOPISTO AVOIN TIETEENTEKIJÄ

Составитель Л.И.Чугунова На основе учебника Hyvin menee! 2

Digitaaliset ihmistieteet. Infotilaisuus klo 15

KOHTI UUTTA "KOULUTUSSTRATEGIAA"

TERVETULOA PÄIVITTÄMÄÄN TIETOSI KORKEAKOULUOPINNOISTA! HUMANISTINEN, VALTIOTIETEELLINEN JA KÄYTTÄYTYMISTITEELLIEN

Kehitysvammaisten Tukiliitto ry Sääntömääräinen liittokokous Selkeä esityslista

10 yleistä hakukoneoptimointivirhettä

VIERAAT KIELET PERUSOPETUKSESSA. Perusopetuksen yleisten tavoitteiden ja tuntijaon uudistustyöryhmä Anna-Kaisa Mustaparta

tään painetussa ja käsin kirjoitetussa materiaalissa usein pienillä kreikkalaisilla

Ohjelmien lisensoinnista

Kansallinen digitaalinen kirjasto - toiminnan säädöspohja. Tekijänoikeusneuvos Viveca Still

Pohjoismainen oikeus uuteen nousuun! Johan Bärlund Pohjoismaisen oikeuden professori NAF:n kokous

OPEN ACCESS HELSINGIN YLIOPISTOSSA

Jarmo Saarti Kirjastojuridiikan ajankohtaispäivä Kirjastot ja datamining, tutkijan ja kirjaston näkökulmat

FORD ST _ST_Range_V2_ MY.indd FC1-FC3 27/06/ :24:01

Käyttöliittymä. Ihmisen ja tuotteen välinen rajapinta. ei rajoitu pelkästään tietokoneisiin

Englannin lausekerakenteita ja taulukkojäsentäminen

Nexetic Shield Unlimited

Sonja Kniivilä, Sari Lindblom-Ylänne & Anne Mäntynen

E-kirjat sähköiset kirjat

Mylly: Uusi tapa ka sitella teksti- ja puheaineistoa helposti ja tehokkaasti. Mietta Lennes ja Jussi Piitulainen FIN-CLARIN, Helsingin yliopisto

PUHU MINULLE KUUNTELE MINUA

Tasavertaisella ja toista kunnioittavalla tavalla luomme yhdessä luottamuksellisen ja lasta tukevan kasvatusilmapiirin.

Transkriptio:

Kielellisen datan käsittely ja analyysi tutkimuksessa Kimmo Koskenniemi 4.4.2007 Yleisen kielitieteen laitos Humanistinen tiedekunta

Kielidataa on monenlaista Tekstiä erilaisista lähteistä kirjoista, lehdistä, Internetistä,... Ääntä eli digitalisoitua puhetta Merkkausta eli koodeja esim. XML:n muodossa ohjelmallisesti tai manuaalisesti lisättyjä Sanakirjoja, sanaluetteloita Yhdistelmiä näistä ja esim. liikkuvasta kuvasta litteroitua puhetta, kieliopillisesti koodattuja aineistoja, viittomakielen videotallenteita, kohdistettuja kaksikielisiä aineistoja,

Kielidataa on periaatteessa aika paljon Enin osa Internetin tiedoista on jonkun kielistä tekstiä ja siellä on paljon aineistoa (10 15 sanetta?) Tekstiä kirjoitetaan ja julkaistaan kiihtyvällä vauhdilla ja jonkinlainen osa jää talteen Puhetta tulee vieläkin enemmän, mutta siitä vain häviävän pieni osa tulee tallennetuksi

Miten kielidataa käsitellään? Satojen vuosien ajan manuaalisesti sanalipuilla ja kortistoilla, joita järjesteltiin ja käsittelyn tulos mahdollisesti kirjoitettiin puhtaaksi tai julkaistiin konkordansseina. Sittemmin samaa tehtiin tietokoneella. Kielen tutkijat ja sanakirjojen tekijät etsivät esimerkkejä tietyistä ilmiöistä tai sanojen käytöstä ja laativat mm. kielioppeja. Puhetieteilijät tutkivat mm. digitoidun äänen spektrejä, energiajakautumia, perustaajuuksien kulkua puheessa.

Miten kielidataa käsitellään - 2 Kieliteknologit rakentavat jäsentimiä kääntimiä ym. mm. mm. suurten aineistojen perusteella, joskus etsien säännönmukaisuuksia ja poikkeuksia, joskus mekaanisemmin. Koneoppimisessa lasketaan toisinaan päiväkausia mallia, jonka käyttäminen kyllä jatkossa on nopeaa. Jotkut säännöt tai lausekkeet voivat tulla tilasiirtymäverkkoina suuriksi tai suurten välitulosten kautta taas pieniksi. Kielen jäsentämisessä tulee helposti kombinatorisesti suuria lukuja, esim. 10 120 eri tulkintaa virkkeelle, joista vain yksi on kieliopin sääntöjen sallima.

Paljonko kielidataa tarvitaan? Joitakin aineistoja on rajallisesti, esim. muinaisenglantia tai sumeria. Tällaisista kaikki tarvitaan ja enemmän suotaisiin olevaksi. Nykykieliä on runsaasti saatavilla ja riippuu tehtävästä, paljonko tarvittaisiin. Biljoona (10 12 ) sanetta olisi ok moneen tarpeeseen. (Nyt suomea on 2*10 8 sanetta, venäjää ehkä 10 10 sanetta.) Monille menetelmille ei kuitenkaan mikään riitä, esim. neljän sanan yhdistelmiä olisi englannin kielessäkin n. 10 20 ja niiden yleisyyksien arviointi ei onnistu biljoonalla.

Rajoitukset ja esteet Tekijänoikeus ja kustantajat asettavat huomattavia rajoituksia aineistojen keruulle. Tuoreista aineistoista voi saada vaivannäöllä luvan (koska tekijät elossa ja tavoitettavissa). 1900-luvusta tulee pimeä vuosisata sillä tekijänoikeuksien takia niitä voidaan tutkia vasta, kun tekijän kuolemasta on kulunut 70 vuotta. Vanhemmat aineistot ovat vapaita. Tutkimuksella ei ole mitään erioikeuksia (mutta esim. vammaisten kirjastoilla on). EU:n lainsäädäntö ei salli edes paikallisia poikkeuksia tutkimuksen hyväksi.

Yhdistely ja yhteiskäyttö Kieliaineistot voisivat olla hallitussa yhteiskäytössä Euroopan- ja maailmanlaajuisesti. Koko kirjallinen perintö menneiltä vuosisadoilta voisi olla digitaalisissa arkistoissa. (Ja mielellään uudetkin tekstit.) Tekeillä on CLARIN-niminen eurooppalainen infrastruktuurihanke, jonka tavoitteena on mahdollistaa helppo yhteiskäyttö.

Humanistisen käytön kuviteltu esimerkki Islantilaisissa saagoissa puhutaan Ingvarista, joka matkasi joukkonsa kanssa Särklandiin onnettomin seurauksin. Tätä oli pidetty epäluotettavana (lögnsaga). Mats Larsson, Vikingarna i österled, 1997 muinaisislantia olevat saagat kertovat tarinan riimukirjoitukset mainitsevat Ingvarin retkellä menehtyneitä eurooppalaiset keskiaikaiset tekstit antavat taustaa Nestorin kronikka mainitsee käynneistä georgialaiset annaalit Kutaisin kaupungista kertovat Ingvarin 3000 miehen saapuneen v. 1040 ja niistä 700:n jatkaneen Kaukasuksen yli kohti Kaspianmerta. Boissert M., Histoire de la Géorgie, St. Petersburg, 1849