Maarit Koponen. Kites Symposium

Samankaltaiset tiedostot
Konekäännöksen rooli, laatu ja odotukset

Konekäännös: mitä sillä tehdään?

Konekäännöksen laatu ja jälkieditointiin soveltuvien käännösten tunnistaminen

Konekäännöksen laadun arviointia käännöstieteen menetelmin. KäTu-symposiumi 2010 Maarit Koponen Helsingin yliopisto Nykykielten laitos

Käännösvirheiden vaikutus posteditoijien kykyyn muokata konekäännöstä

RANS0002 P2. Phonetics and Pronunciation (Fonetiikka ja ääntäminen), O, 2 ECTS. RANS0010 P3. Translation Exercise (Käännösharjoitukset) s, O, 3 ECTS

Kutsu käännöstieteen professori Kaisa Koskisen juhlaluennolle 7. päivänä joulukuuta 2016 kello 13

European Survey on Language Competences (ESLC) EU:n komission tutkimus vieraiden kielten osaamisesta EU-maissa

Konekääntimien tuottaman tekstin oikeellisuuden arvioinnista: konekäännöksen editointitehtävä

Euroopan unioni ja monikielisyys Verkkojen Eurooppa Automaattinen käännösalusta. Kimmo Rossi European Commission, CNECT.G3

Käsiteanalyysi. Käännös? Käännettävyys? Vastaavuus? Universaali käsite? Minkälainen käsite? Huono käännös = käännös?

Automaattinen käännösalusta ja Avoimen datan portaali Mitä hyötyä niistä on?

Monikielisen viestinnän ja käännöstieteen syventävien opintojen vastaavuustaulukko

KV-järjestelmät suomelle

SOKEA IDIOOTTI KONEKÄÄNTÄMISEN ONGELMIA JA MAHDOLLISUUKSIA

Ammattimaista viestintää. Ruotsin asiatekstinkääntäjien liitto

Jatko-opintoja englannista kiinnostuneille

Wordfast Classic 5.9 Asetukset ja niiden muuttaminen 1 (10)

Käytettävyyslaatumallin rakentaminen web-sivustolle. Oulun yliopisto tietojenkäsittelytieteiden laitos pro gradu -suunnitelma Timo Laapotti 28.9.

kansainvälistäminen ja paikallistaminen Zopessa Plonen käännöstyö Asko Soukka, Jyväskylän yliopisto

1. Tilastollinen konekääntäminen

Yksilöllistä, puhuroi, suorita - Mitä käyttöliittymien termien taakse kätkeytyy?

Ongelma(t): Miten jollakin korkeamman tason ohjelmointikielellä esitetty algoritmi saadaan suoritettua mikro-ohjelmoitavalla tietokoneella ja siinä

LINGMACHINE S-E. TranSmart -järjestelmän lokalisointi ulkoasiainministeriölle

LUONNOLLISTEN KIELTEN KÄÄNTÄMINEN JA KONEKÄÄNNÖS. Taustaa, teoriaa ja menetelmiä

Perusopinnot (Cmo100) 25 op

THE TEHDESSÄ CONSTRUCTION OF FINNISH AND THE TYPICALITY OF ADVANCED LEARNER LANGUAGE IN THE LIGHT OF NATIVE USERS' GRAMMATICALITY JUDGEMENTS

Virheiden vaikutus konekäännöksen laatuun

MONITULKINTAISTEN SANOJEN KÄÄNTÄMINEN KONEKÄÄNNÖSJÄRJESTELMILLÄ ENGLANNISTA SUOMEKSI. Erja Salminen

Puheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting

Kieliasiantuntijuus erikoistuneessa yhteiskunnassa -maisteriohjelma


Standardit osana käyttäjäkeskeistä suunnittelua

Sangen lyhyt L A T E X-johdatus, osa 2

Paikkaontologiat. Tomi Kauppinen ja Jari Väätäinen Aalto-yliopiston teknillinen korkeakoulu tomi.j.kauppinen at gmail.com

Sanastotyön tulevaisuuden näkymiä valtionhallinnossa. Sanastokeskus TSK 35 vuotta Kaisa Kuhmonen, valtioneuvoston kanslia,

Diploma Supplement A. Tutkintokieli B. Ison pyörän mukaan valmistuvat, joilla ei ole pääainetta

4. Lausekielinen ohjelmointi 4.1

Ymmärrettävän tuottaminen ja tuotetun ymmärtäminen teknologia kielen ja kommunikaation tukena

Kääntäminen yhteistoimintana. Mitä kääntäjä odottaa prosessin muilta toimijoilta? Kristiina Abdallah Itä-Suomen yliopisto

Valttikortit 100 -ohjelman sanasto on peruskoulun opetussuunnitelman ytimestä.

Miksi oikeustulkeille tarvitaan erikoistumiskoulutusta?

Aivovammoihin liittyvät kielelliset oireet, millaisia ne ovat ja mitä tällä hetkellä tutkitaan?

Kääntämisen sisäkkäiset etenevät ympyrät

KIELIKESKUKSEN OPETUS FILOSOFISEN TIEDEKUNNAN OPISKELIJOILLE LUKUVUONNA

Ontologiakirjasto ONKI-Paikka

Kääntäjän ääni. Kansainvälinen kääntäjienpäivä

Tähtitieteen käytännön menetelmiä Kevät 2009

Konekäännös ja käännöskone: Korvataanko kääntäjä napin painalluksella?

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

MALog-projekti kehittää oppimateriaalia matemaattiseen logiikkaan. Insinöörikoulutuksen foorumi

Digitaalinen markkinointi ja myynti Mitä DIVA meille kertoi?

Monikielinen konekäännös ja sen laadun arviointi MOLTO-hankkeessa

Lentokelpoisuustarkastajien kertausseminaari

Yhteentoimivuusvälineistö

Humanistiset tieteet

Taloustieteet ja YSA. Eeva Kärki Kansalliskirjasto

SOA SIG SOA Tuotetoimittajan näkökulma

Ostamisen muutos muutti myynnin. Technopolis Business Breakfast

Hankkisinko koreankielisen. Konekäännöksestä. Kielenkääntö

Sandstone www-termienpoimintapalvelu

Kääntäjienpäivän seminaari Helsingissä (SKTL, KAJ, SKTOL): Käännösalan tulevaisuus ja kestävä kehitys.

Johdatus kieliteknologiaan Luku 5: Kielen kääntämisen apuvälineet ja automaattinen kielen kääntäminen

How to prepare for the 7th grade entrance exam? Kuinka lukea englannin linjan soveltuvuuskokeisiin?

Laskelmia uudenvuodenpuheista

Hunningolta huipulle

Englanniksi opettamisen ihanuus ja kamaluus

8. Kieliopit ja kielet

4. Lausekielinen ohjelmointi 4.1

Tuottava esimies - simulaatiopeli

Kielellisen datan käsittely ja analyysi tutkimuksessa

Hakeminen käytännössä: osallistujaportaali ja hakemuksen kirjoittaminen Elina Holmberg Infotilaisuus

Hakeminen käytännössä: osallistujaportaali ja hakemuksen kirjoittaminen Elina Holmberg Infotilaisuus

JOHDATUS TEKOÄLYYN TEEMU ROOS

Aalto University School of Engineering Ongelmaperusteisen oppimisen innovatiivinen soveltaminen yliopisto-opetuksessa

Kaksikielisten sanakirjojen generointi tietokoneella

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 12. lokakuuta 2016

Eurooppalaista kunnostusyhteistyötä ja hyviä käytäntöjä

HAKEMUS Sivu 1

Johdatus kieliteknologiaan Luku 5: Kielen kääntämisen apuvälineet ja automaattinen kielen kääntäminen

YHTEISEN EUROOPPALAISEN KAUPPALAIN VALMISTELU: ARVIOINTI JA PARANNUSEHDOTUKSET

SAIKA Suomen aineeton pääoma kansallisen talouden ajurina Tulevaisuuden tutkimuskeskus Turun yliopisto

Yrittäjien ja selvittäjien näkemykset yritysten suorituskyvystä

Ulkomailla suoritettujen tutkintojen tunnustaminen päätöksen hakeminen ja hakemusten käsittely Opetushallituksessa

v OPINTONSA ALOITTANEIDEN HENKILÖKOHTAINEN OPINTOSUUNNITELMA Humanististen tieteiden kandidaatin tutkinto 180 op

C-ohjelmoinnin peruskurssi. Pasi Sarolahti

Orientoivat opinnot 1a Kati Toikkanen, opintopäällikkö Kieli-, käännös- ja kirjallisuustieteiden yksikkö

for Adobe InDesign CS2 (Mac) suomi

Apuja ohjelmointiin» Yleisiä virheitä

Tehostettu kisällioppiminen tietojenkäsittelytieteen ja matematiikan opetuksessa yliopistossa Thomas Vikberg

Englannin kieli ja sen testaus Suomen korkeakouluissa

Kielineuvoston suomen kielen neuvonta

Tavoite Opiskelija osaa käyttää englannin kielen rakenteita, hallitsee kielen perusilmaukset ja ymmärtää opiskelijan arkielämään liittyvää kieltä

Oppilaat kielentutkijoina

ELRC Helsinki. Kelan käännöstoiminta Carola Grönholm käännöspalvelupäällikkö Kela, Tieto- ja viestintäyksikkö, käännösryhmä

Tietotekniikka ei riitä palvelujen tuottavuus ratkaisee. Olli Martikainen

Kielen opintopolut/ Language study paths

General studies: Art and theory studies and language studies

Kielen ymmärtäminen kieliteknologian näkökulmasta. Kimmo Koskenniemi täysinpalvellut kieliteknologian professori Helsingin yliopisto

C++ Ohjelmoijan käsikirja. Johdanto

Transkriptio:

Konekäännöksen jälkieditointi onko siitä hyötyä? Maarit Koponen Turun yliopisto, Kieli- ja käännöstieteen laitos maarit.koponen@utu.fi Kites Symposium 26.10.2016 M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 1 / 15

Konekäännös, jälkieditointi ja hyöty: väitteitä 1 Konekäännöksen jälkieditointi on uusi keksintö. 2 Konekäännöksen jälkieditointi lisää tuottavuutta verrattuna kääntämiseen. 3 Konekäännöksen jälkieditointi vaikuttaa lopullisen käännöksen laatuun. 4 Konekäännöksen jälkieditoinnissa kannattaa tehdä mahdollisimman vähän muutoksia. 5 Konekääntimet korvaavat kääntäjät kokonaan. M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 2 / 15

1. Konekäännöksen jälkieditointi on uusi keksintö 1949 Warren Weaverin muistio Translation 1951 Jälkieditointi määritelty keskeiseksi konekäännöksen käyttötarkoitukseksi (Bar-Hillel) 1954 Georgetown-IBM -järjestelmän ensimmäinen julkinen demo 1957 Yhdysvaltain ilmavoimien Automatic Language Translator Mark I (1960 mennessä 70000 sanaa) 1958 Ensimmäinen dokumentoitu jälkieditointiprosessi, RAND Corporation 1966 ALPAC-raportti: konekääntäminen ja jälkieditointi ei kannata M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 3 / 15

1. Konekäännöksen jälkieditointi on uusi keksintö 1949 Warren Weaverin muistio Translation 1951 Jälkieditointi määritelty keskeiseksi konekäännöksen käyttötarkoitukseksi (Bar-Hillel) 1954 Georgetown-IBM -järjestelmän ensimmäinen julkinen demo 1957 Yhdysvaltain ilmavoimien Automatic Language Translator Mark I (1960 mennessä 70000 sanaa) 1958 Ensimmäinen dokumentoitu jälkieditointiprosessi, RAND Corporation 1966 ALPAC-raportti: konekääntäminen ja jälkieditointi ei kannata 1976 Euroopan komissio aloittaa en-fr-kääntimen kehittämisen (Systran) 1977 Kanadassa METEO: säätiedotusten kääntäminen en-fr 1982 EU:n monikielisen EUROTRA-järjestelmän kehitys alkaa 1995 Euroopan komissiossa käännetään 180 000 sivua jälkieditoiden 1997 AltaVista Babelfish (Systran) ilmainen online-käännin 2006 Google Translate 2010 MT@EC-hanke M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 3 / 15

2. Konekäännöksen jälkieditointi lisää tuottavuutta verrattuna kääntämiseen Tietyissä kielipareissa ja tekstilajeissa käyttöä jo vuosikymmenet. Usein suuria organisaatioita, joilla omat erikoistuneet järjestelmät. Kuitenkin vasta muutamien viimeisten vuosien aikana käyttö on laajentunut ja kasvanut. Korkealaatuisen käännöksen jälkieditoinnilla on todettu olevan mahdollista parantaa tuottavuutta alentamatta laatua (esim. Plitt & Masselot 2010). Keskeisin rajoittava tekijä on laatu: heikkolaatuisen käännöksen editointi kuitenkin tuottaa enemmän vaivaa kuin hyötyä... M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 4 / 15

Jälkieditoinnin tila Suomessa? Käyttö on tähän asti ollut melko vähäistä. Kysely 238 suomalaiselle kääntäjälle: konekäännöstä ei koettu merkittävänä, suurin osa tunsi Googlen mutta vain 3 oli käyttänyt muita kääntimiä (Mikhailov 2015). Pieni markkina-alue, kääntimien saatavuus heikko. Kaupallisia sovelluksia oikeastaan vain englannista/englantiin (Sunda, Kielikone, Systran?), venäjästä/venäjään (Yandex) Ilmaiset Google, Microsoft Bing ammattikäyttö ongelmallista. Tilastollisissa kääntimissä tavallista englannin käyttö välikielenä. Suomen kielen ominaispiirteet kääntimille hankalia verrattuna moniin muihin eurooppalaisiin kieliin (Koskenniemi ym. 2012). rikas morfologia suhteellisen vapaa sanajärjestys M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 5 / 15

Konekäännöksen laadusta MT@EC, Euroopan komission kääntimen arviointi Kääntäjät (3 per kielipari) arvioivat konekäännettyjen virkkeiden (en-x) käyttökelpoisuutta. Käyttökelpoisiksi (virheet editoitavissa) arvioitujen virkkeiden osuus: espanja 95 % ruotsi 85 % suomi 40 % EuroMatrix -hankkeen arviointikampanja Hankkeessa pyrittiin kehittämään konekäännöstä kaikille Euroopan kielipareille. Vastaavuus ihmisen tekemään käännökseen (TER), paras tulos: englanti-espanja 57,9 espanja-englanti 56,7 englanti-ruotsi 73,3 ruotsi-englanti 57,3 englanti-suomi 86,6 suomi-englanti 69,1 ruotsi-suomi 85,4 suomi-ruotsi 85,1 M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 6 / 15

3. Konekäännöksen jälkieditointi vaikuttaa lopullisen käännöksen laatuun Julkaisukelpoinen laatu human quality Merkitykseltään ymmärrettävä ja tarkka Kieliopillisesti oikea, syntaktisesti sujuva, välimerkit oikein Tyylillisesti sopiva M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 7 / 15

3. Konekäännöksen jälkieditointi vaikuttaa lopullisen käännöksen laatuun Julkaisukelpoinen laatu human quality Merkitykseltään ymmärrettävä ja tarkka Kieliopillisesti oikea, syntaktisesti sujuva, välimerkit oikein Tyylillisesti sopiva Informaatiolaatu good enough Merkitykseltään ymmärrettävä ja tarkka Kieliopillisesti ei välttämättä täydellinen mutta ei merkitystä haittaavia virheitä Tyyli voi olla koneellinen, sujuvuus ja luontevuus ei vaatimuksena M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 7 / 15

Editoinnin tasot (ISO/DIS 18587:2016) Kevyt jälkieditointi Jälkieditoija käyttää raakaa konekäännöstä mahdollisimman paljon hyväksi varmistaa, ettei mitään puutu eikä tekstissä ole mitään ylimääräistä editoi mahdollisesti sopimattoman sisällön korjaa lauserakennetta, jos merkitys on väärä tai epäselvä. M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 8 / 15

Editoinnin tasot (ISO/DIS 18587:2016) Perusteellinen jälkieditointi Jälkieditoija käyttää raakaa konekäännöstä mahdollisimman paljon hyväksi varmistaa, ettei mitään puutu eikä tekstissä ole mitään ylimääräistä editoi mahdollisesti sopimattoman sisällön korjaa lauserakennetta, jos merkitys on väärä tai epäselvä tuottaa kieliopillisesti, syntaktisesti ja semanttisesti oikean käännöksen noudattaa asiakkaan ja aihealueen sanastoa noudattaa oikeinkirjoitus- ja välimerkkisääntöjä varmistaa, että tyyli on tekstilajin ja asiakkaan ohjeiden mukainen noudattaa tekstin muotoiluohjeita. M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 9 / 15

3. Konekäännöksen jälkieditointi vaikuttaa lopullisen käännöksen laatuun Kääntäessä lähtötekstiä luetaan useammin ja pidempään, editoidessa katse keskittyy enemmän kohdetekstiin. Editoidessa yksiköt ovat lyhyempiä, enemmän siirtymiä lähtö- ja kohdetekstin välillä. Konekäännöksen malli ohjaa ja rajoittaa käännösvaihtoehtojen valintaa editoijat tuottavat vähemmän eri vaihtoehtoja. Sekä käännösmuisti että konekäännös tarjoavat kääntäjälle ehdotuksen, jota verrataan lähtötekstiin ja korjataan. Käännösmuistissa korjaustarve johtuu lähtötekstin eroista, konekäännöksessä kääntimen virheistä. Käännösmuisti yleensä näyttää tietoa, mistä ehdotettu käännös on peräisin, sekä ehdotuksen laadusta (osumaprosentti, eroavat kohdat). (Krings 2001; Carl ym. 2011; Teixeira 2011, 2014; Guerberof Arenas 2014) M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 10 / 15

4. Konekäännöksen jälkieditoinnissa kannattaa tehdä mahdollisimman vähän muutoksia ST Kenya registers civil servants to target ghost workers MT Kenia rekisterit virkamiesten kohdistaa Ghost työntekijöiden PE1 Kenia rekisteröi virkamiehiä haamutyöntekijöiden löytämiseksi PE2 Kenia rekisteröi virkamiehet poistaakseen haamutyöntekijät PE3 Kenia rekisteröi virkamiehiä löytääkseen haamutyöntekijöitä PE4 Kenia rekisteröi virkamiehiä poistaakseen haamutyöntekijät PE5 Kenia rekisteröi virkamiehiä kartoittaakseen haamutyöntekijöitä PE7 Kenia alkaa rekisteröidä virkamiehensä siivotakseen pois haamutyöntekijät PE8 Kenia rekisteröi virkamiehet tunnistaakseen haamutyöntekijät M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 11 / 15

4. Konekäännöksen jälkieditoinnissa kannattaa tehdä mahdollisimman vähän muutoksia Edit Extended Production Deletion Time Editor rate pauses events events (min) PE1 38.7 10 331 328 13:41 PE2 45.5 8 395 306 20:23 PE3 39.8 12 470 409 18:03 PE4 73.3 17 899 584 19:39 PE5 39.7 39 418 214 30:01 PE7 54.3 7 930 240 17:03 PE8 48.8 15 689 224 13:06 M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 12 / 15

Jälkieditoinnin aiheuttama kuormitus Editoinnin vaatima aika Editoinnin tekninen kuormitus tehdyt muutokset, kirjoittaminen Editoinnin kognitiivinen kuormitus virheiden tunnistaminen, korjausten suunnittelu M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 13 / 15

Jälkieditoinnin aiheuttama kuormitus Editoinnin vaatima aika Editoinnin tekninen kuormitus tehdyt muutokset, kirjoittaminen Editoinnin kognitiivinen kuormitus virheiden tunnistaminen, korjausten suunnittelu Tekninen kuormitus ja kognitiivinen kuormitus eivät välttämättä vastaa toisiaan. M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 13 / 15

Jälkieditoinnin aiheuttama kuormitus Editoinnin vaatima aika Editoinnin tekninen kuormitus tehdyt muutokset, kirjoittaminen Editoinnin kognitiivinen kuormitus virheiden tunnistaminen, korjausten suunnittelu Tekninen kuormitus ja kognitiivinen kuormitus eivät välttämättä vastaa toisiaan. Mahdollisimman vähäisten korjausten suunnittelu saattaa lisätä kognitiivista kuormitusta ja pidentää editointiaikaa. (Krings 2001) M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 13 / 15

5. Konekääntimet korvaavat kääntäjät kokonaan M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 14 / 15

5. Konekääntimet korvaavat kääntäjät kokonaan M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 14 / 15

Viitteet M. Carl ym. 2011. The process of post-editing: a pilot study. Proceedings of the 8th international NLPSC workshop, 131 142 European Commission. 2013. Languages and translation 6 (02/2013): Machine translation. Verkossa: http://ec.europa.eu/dgs/translation/publications/ magazines/languagestranslation/documents/issue_06_en.pdf A. Guerberof Arenas. 2014. Correlations between productivity and quality when post-editing in a professional context. Machine Translation, 28:165 186 ISO/DIS 18587:2016 Translation Services Post-editing of machine translation output Requirements. International Organization for Standardization K. Koskenniemi ym. 2012. Suomen kieli digitaalisella aikakaudella The Finnish Language in the Digital Age. G Rehm ja H Uszkoreit (toim.). META-NET White Paper Series. Springer. HP. Krings. 2001. Repairing texts: Empirical investigations of machine translation post-editing process. GS Koby (toim.). The Kent State University Press, Kent, OH. M. Mikhailov. 2015. Minor language, major challenges: the results of a survey into the IT competences of Finnish translators. Journal of Specialised Translation 24:89-111 M. Plitt, F. Masselot. 2010. A productivity test of statistical machine translation post-editing in a typical localisation context. Prague Bulletin of Mathematical Linguistics 93:7-16 C. Teixeira. 2011. Knowledge of provenance and its effects on translation performance in an integrated TM/MT environment. Proceedings of the 8th international NLPSC workshop, 107 118 M. Koponen (Turun yliopisto) Kites 2016 26.10.2016 15 / 15