Konekäännöksen rooli, laatu ja odotukset Kites, Konekääntämisen teemaryhmä 23.5.2012 Maarit Koponen, HY 1
Takana loistava tulevaisuus Konekäännökseen on kohdistunut suuria odotuksia: nopea, helppo, halpa käännös nappia painamalla. 1930-luvulla Georges Artsrounin ja Petr Trojanskin käännöskonepatentit, 1949 Warren Weaverin ehdotus (kääntäminen koodin purkamisena), 1954 IBM-Georgetown. Konekääntäminen nähtiin ongelmana, jonka oletettiin olevan ratkaistu 3-5 vuoden kuluessa. ALPAC-raportti 1966: toivottuja edistysaskeleita ei oltu saavutettu. 2
Konekääntämisen toinen aalto Koneluettavassa muodossa olevan aineiston määrä ja tietokoneiden laskentatehon kasvu avasivat uusia väyliä tilastolliselle konekäännökselle. Konekääntäminen alkoi nousta suuren yleisönkin tietoisuuteen (Google) uusi innostus: nopea, helppo, ilmainen käännös internetissä nappia painamalla! 3
Konekääntämisen toinen aalto Koneluettavassa muodossa olevan aineiston määrä ja tietokoneiden laskentatehon kasvu avasivat uusia väyliä tilastolliselle konekäännökselle. Konekääntäminen alkoi nousta suuren yleisönkin tietoisuuteen (Google) uusi innostus: nopea, helppo, ilmainen käännös internetissä nappia painamalla! 4
Konekääntämisen toinen aalto Koneluettavassa muodossa olevan aineiston määrä ja tietokoneiden laskentatehon kasvu avasivat uusia väyliä tilastolliselle konekäännökselle. Konekääntäminen alkoi nousta suuren yleisönkin tietoisuuteen (Google) uusi innostus: nopea, helppo, ilmainen käännös internetissä nappia painamalla! 5
"Konekäännöksen Graalin malja" Täysautomaattinen korkealaatuinen rajoittamattoman tekstin käännin (fully automatic high-quality translation of unrestricted text) 6
"Konekäännöksen Graalin malja" täysautomaattinen korkealaatuinen rajoittamattoman tekstin käännin (fully automatic high-quality translation of unrestricted text) täysautomaattinen korkealaatuinen rajoittamaton 7
Kääntäjä ja käännin vuorovaikutuksessa Koneavusteinen ihmiskäännös: kääntäjä editoi konekääntimen tekemiä ehdotuksia käännösmuistin tapaan. Ihmisavusteinen konekäännös: kääntäjä ratkaisee moniselitteisyydet lähtötekstissä. täysautomaattinen korkealaatuinen rajoittamaton 8
Esimerkki: CAITRA (tool.statmt.org) 9
Esimerkki: CAITRA (tool.statmt.org) 10
Esimerkki: LIDIA (www-clips.imag.fr/geta/herve.blanchon/recherche/lidia/lidia.html) 11
Esimerkki: LIDIA (www-clips.imag.fr/geta/herve.blanchon/recherche/lidia/lidia.html) 12
Rajoitetun kielen sovellukset Aihealue on tarkkaan rajattu. Säätiedotus: "wind" "tuuli", ei "henki", "kiemurrella", "kelata"... täysautomaattinen Rajoitetun kielen säännöt ja lähtötekstin pre-editointi sääntöjen mukaisesti. Esim. MOLTO-hankkeessa korkealaatuinen tavoitteena museoesineiden kuvaukset, farmakologian patentit, matematiikan harjoitukset (www.molto-project.eu) rajoittamaton 13
Esimerkki: GF Phrasebook (www.grammaticalframework.org/demos/phrasebook/) 14
Esimerkki: GF Phrasebook (www.grammaticalframework.org/demos/phrasebook/) 15
Esimerkki: GF Phrasebook (www.grammaticalframework.org/demos/phrasebook/) 16
Konekäännös riittävän hyvä? Konekäännös voi tarjota lukijalle nopeasti yleiskuvan lähtötekstin sisällöstä: tiedonhaku, esim. EPO:n patentit päätös käännättämisestä. Konekäännöstä voidaan käyttää raakaversiona, jota kääntäjä edelleen editoi. täysautomaattinen korkealaatuinen rajoittamaton Hyvälaatuisen konekäännöksen editointi voi säästää aikaa, vaivaa, rahaa huonolaatuisen editointi voi olla hidasta ja turhauttavaa. 17
Laatuarviointia ja odotuksia "Laatu" käsitteenä vaikea, erilaisia kriteereitä (tarkkuus, sujuvuus, editoinnin työläys). Eri kielipareissa ja eri tekstilajeilla laatuarviointien tulokset vaihtelevat esim. suomi tunnetusti vaikea. Fiederer ja O'Brien 2009: post-editoidulla tekstillä paremmat selkeys- ja tarkkuusarviot. Koehn 2010: ilman lähtötekstiä parhaat post-editoijat lähes kaksikielisen kääntäjän tasolla (oikeellisuus). Toisaalta korjaamisen vaikeus, erityisesti ilman lähtötekstiä kriittisen virheen jääminen huomaamatta mahdollista. Hybridikääntimet: tilastollisen ja sääntöpohjaisen vahvuuksien yhdistäminen. 18
Merkitys voi hahmottua virheistä huolimatta Last year at a foodprocessing factory near Geneva, the workers revolted when the director tried to ban mobile phones from the factory floor, and he was forced to relent. Viime vuonna foodprocessing?-tehtaassa Geneven lähellä työntekijät kapinoivat, kun johtaja yritti kieltää matkapuhelimia pääsemästä tehdassaliin, ja hän oli pakotettu antamaan periksi. (Sunda) 19
Korjaaminen voi olla työlästäkin Figuring out which insects are which can be fiendishly difficult; some scientists estimate that we have managed to identify only 10% of the insect world so far. The rest, like Barclay s almondshaped mystery bug, are perfectly happy to crawl along without any christening or approval from their gargantuan neighbors. Miettiminen jotka hyönteiset, jotka voivat olla pirullisen vaikeaa, jotkut tutkijat arvioivat, että olemme onnistuneet tunnistamaan vain 10% hyönteisten maailman toistaiseksi. Loput, kuten Barclay's mantelimuotoinen mysteeri vika, on täysin tyytyväinen indeksoida pitkin ilman kaste tai hyväksyntää niiden jättiläismäinen naapureita. (Google) 20
Ilman lähtötekstiä... Hänen tutkimuksensa Sveitsissä ja Ranskassa havaitsi, että jopa silloin kun ihmisille soitetaan, ei kasva merkittävästi. 21
Ilman lähtötekstiä... Hänen tutkimuksensa Sveitsissä ja Ranskassa havaitsi, että jopa silloin kun ihmisille soitetaan, ei kasva merkittävästi. 22
Ilman lähtötekstiä... Hänen tutkimuksensa Sveitsissä ja Ranskassa havaitsi, että jopa silloin kun ihmisille soitetaan, ei kasva merkittävästi. Her research in Switzerland and France found that even when people are given unlimited cheap or free calls, the number and length of calls does not increase significantly. 23
Ilman lähtötekstiä... Hänen tutkimuksensa Sveitsissä ja Ranskassa havaitsi, että jopa silloin kun ihmisille soitetaan, ei kasva merkittävästi. Her research in Switzerland and France found that even when people are given unlimited cheap or free calls, the number and length of calls does not increase significantly. 24
Kirjallisuutta Frédéric Blain et al. 2011. Qualitative analysis of post-editing for high quality machine translation. MT Summit XIII. Michael Carl et al.2011. The process of post-editing: a pilot study. Proceedings of the 8th international NLPSC workshop. Special theme: Human-machine interaction in translation. Rebecca Fiederer & Sharon O'Brien. 2009. Quality and machine translation: A realistic objective? The Journal of Specialised Translation, 11 (January 2009). Ignacio García 2010. Is Machine Translation Ready Yet? Target, 22(1), 7-21. Ana Guerberof 2009. Productivity and quality in the post-editing of outputs from translation memories and machine translation, Localisation Focus. The International Journal of Localisation, 7(1), 11-21. Douglas Jones et al. 2007. ILR-based MT comprehension test with multi-level questions. NAACL '07. Philipp Koehn. 2010. Enabling monolingual translators: Post-editing vs. options. NAACL HLT 2010. Hans P. Krings. 2001. Repairing texts: Empirical investigations of machine translation post-editing process. The Kent State University Press, Kent, OH. Sharon O Brien 2005. Methodologies for Measuring the Correlations between PostEditing Effort and Machine Translatability. Machine Translation, 19(1):37-58. 25
Kirjallisuutta Alina Secară 2005. Translation Evaluation a State of the Art Survey. Proceedings of the ecolore/mellange Workshop. Lucia Specia et al. 2009. Estimating the Sentence-Level Quality of Machine Translation Systems. In Proceedings of the 13th Annual Conference of the EAMT. Lucia Specia. 2011. Exploiting Objective Annotations for Measuring Translation PostEditing Effort. In Proceedings of the 15th Conference of the European Association for Machine Translation. Lucia Specia et al. 2011. Predicting Machine Translation Adequacy. MT Summit XIII. Midori Tatsumi. 2009. Correlation between Automatic Evaluation Metric Scores, PostEditing Speed, and Some Other Factors. MT Summit XII. Midori Tatsumi & Johann Roturier. 2010. Source Text Characteristics and Technical and Temporal Post-Editing Effort: What is Their Relationship? Proceedings of the Second Joint EM+/CNGL Workshop Bringing MT to the User: Research on Integrating MT in the Translation Industry (JEC 10). Irina Temnikova. 2010. Cognitive Evaluation Approach for a Controlled Language PostEditing Experiment. LREC 2010. David Vilar et al. 2006. Error analysis of statistical machine translation output. LREC2006. 26
Kirjallisuutta Frédéric Blain et al. 2011. Qualitative analysis of post-editing for high quality machine translation. MT Summit XIII. Michael Carl et al.2011. The process of post-editing: a pilot study. Proceedings of the 8th international NLPSC workshop. Special theme: Human-machine interaction in translation. Rebecca Fiederer & Sharon O'Brien. 2009. Quality and machine translation: A realistic objective? The Journal of Specialised Translation, 11 (January 2009). Ignacio García 2010. Is Machine Translation Ready Yet? Target, 22(1), 7-21. Ana Guerberof 2009. Productivity and quality in the post-editing of outputs from translation memories and machine translation, Localisation Focus. The International Journal of Localisation, 7(1), 11-21. Douglas Jones et al. 2007. ILR-based MT comprehension test with multi-level questions. NAACL '07. Philipp Koehn. 2010. Enabling monolingual translators: Post-editing vs. options. NAACL HLT 2010. Hans P. Krings. 2001. Repairing texts: Empirical investigations of machine translation post-editing process. The Kent State University Press, Kent, OH. Sharon O Brien 2005. Methodologies for Measuring the Correlations between PostEditing Effort and Machine Translatability. Machine Translation, 19(1):37-58. Alina Secară 2005. Translation Evaluation a State of the Art Survey. Proceedings of the ecolore/mellange Workshop. 27
Kirjallisuutta Frédéric Blain et al. 2011. Qualitative analysis of post-editing for high quality machine translation. MT Summit XIII. Michael Carl et al.2011. The process of post-editing: a pilot study. Proceedings of the 8th international NLPSC workshop. Special theme: Human-machine interaction in translation. Rebecca Fiederer & Sharon O'Brien. 2009. Quality and machine translation: A realistic objective? The Journal of Specialised Translation, 11 (January 2009). Ignacio García 2010. Is Machine Translation Ready Yet? Target, 22(1), 7-21. Ana Guerberof 2009. Productivity and quality in the post-editing of outputs from translation memories and machine translation, Localisation Focus. The International Journal of Localisation, 7(1), 11-21. Douglas Jones et al. 2007. ILR-based MT comprehension test with multi-level questions. NAACL '07. Philipp Koehn. 2010. Enabling monolingual translators: Post-editing vs. options. NAACL HLT 2010. Hans P. Krings. 2001. Repairing texts: Empirical investigations of machine translation post-editing process. The Kent State University Press, Kent, OH. Sharon O Brien 2005. Methodologies for Measuring the Correlations between PostEditing Effort and Machine Translatability. Machine Translation, 19(1):37-58. Alina Secară 2005. Translation Evaluation a State of the Art Survey. Proceedings of the ecolore/mellange Workshop. 28