Konekäännöksen laadun arviointi: Päätelmiä erityyppisten konekääntimien semanttisesta tarkkuudesta Kielitieteen päivät 2010 Helsinki 20.-22.5.2010 Maarit Koponen Helsingin yliopisto, Nykykielten laitos maarit.koponen@helsinki.fi
Arviointimenetelmät Manuaaliset mikrotekstuaalinen virheanalyysi tekstin kokonaislaadun arviointi ongelmakohtia: aikaavievää subjektiivista Automaattiset tilastolliset mittarit jäsennystä hyödyntävät menetelmät ongelmakohtia: korrelaatio ihmisten arvioiden kanssa kyseenalainen
Semanttisen tarkkuuden arviointi The Commission hopes that the consultation will encourage a wide range of responses. Komissio toivoo saavansa paljon vastauksia kuulemisprosessissa. Euroopan komission käännös Komissio toivoo, että kuuleminen edistää monenlaisia vastauksia. Komissio toivoo, että neuvottelu rohkaisee laajaa valikoimaa reaktioita. Googlen konekäännös Sundan konekäännös
Esimerkkiaineisto tekstit Euroopan komission Vihreä kirja National Geographic -lehden artikkeli Norton AntiVirus ohjelman asennusohje konekäännökset tilastollinen konekäännin: Google-käännin (translate.google.com) sääntöpohjainen konekäännin: Sunda (www.sunda.fi/online_demo.html) ihmisen tekemä käännös (julkaistu)
Konekääntimet Tilastollinen: Google tilastollinen oppiminen korpukset miljardeja sanoja kohdekielen korpukset kohdistetut käännöskorpukset Sääntöpohjainen: Sunda lingvistiset säännöt 150 000 leksikkosääntöä 60 000 kontekstuaalista leksikaalista sääntöä 2 000 kielioppisääntöä
Virheanalyysi käännösvirheen määritelmä semanttinen komponentti, joka ei ole lähtö- ja kohdetekstille yhteinen semanttiset komponentit käsitteet suhd e suhteet: pääsana määrite
Virhetyypit: käsitteet poisto, lisäys, merkitys, ei käännöstä The locale places them at one of the most important geographical intersections of prehistory, and the date puts them squarely at the center of one of the most enduring mysteries in all of human evolution. Locale henkilöllä on yksi tärkeimmistä maantieteellinen leikkauspisteistä esihistoriaan, ja päivä tuo ne reilusti keskelle yksi pysyviä salaisuuksia kaikilla inhimillisen kehityksen. (Google)
Virhetyypit: käsitteet poisto, merkitys, ei käännöstä, lisäys a) Click Next. Valitse Seuraava. (ihmiskääntäjä) korvaus b) Installing and activating Norton AntiVirus Norton AntiVirus -ohjelman asennus ja aktivointi (ihmiskääntäjä) selvennys
Virhetyypit: suhteet poissa, lisätty, vaihtunut By the time scientists finished their analysis (it took the better part of six years), Spain had its earliest cold case. Mennessä, kun tutkijat saivat valmiiksi analyysi (kesti paremmin osaa kuusi vuotta), Espanja sai pian syyllinen. (Google)
Virhetyypit: suhteet poissa, lisätty, vaihtunut In the Activation panel, wait for the progress bar to stop, and then (you) click Next. Aktivointipaneelissa odottakaa tilanneilmaisimen pysähtyvän ja sitten napsahtavan seuraavaksi. (Sunda) It (treaty) provides that "not less than one million citizens who are nationals of a significant number of Member States may take the initiative Siinä (sopimuksessa) määrätään, että vähintään miljoona unionin kansalaista merkittävästä määrästä jäsenvaltioita voi tehdä aloitteen (ihmiskääntäjä) korvattu
Tulokset: käsitteet
Kompensaatiosta The bones from El Sidrón were not Republican soldiers, but the fossilized remains of a group of Neanderthals who lived, and perhaps died violently, approximately 43,000 years ago. The locale places them at one of the most important geographical intersections of prehistory, and the date puts them squarely at the center of one of the most enduring mysteries in all of human evolution. El Sidrónin luut eivät olleetkaan tasavaltalaisten vaan neandertalilaisten, jotka elivät ja kuolivat ehkä väkivallan uhreina noin 43 000 vuotta sitten. Rikospaikan perusteella he elivät yhdessä esihistorian tärkeimmistä maantieteellisistä risteyskohdista ja ajallisesti keskellä yhtä ihmisen evoluution pitkällisimmistä mysteereistä. (ihmiskääntäjä)
Tulokset: suhteet
Yhteenvetoa: käännin ja kääntäjä Konekäännin käsitteitä jää pois ja lisääntyy käsite saa väärän merkityksen käsitteiden välinen suhde puuttuu suhde tai sen osapuolet vaihtuvat Kääntäjä korvaus, implisiittinen ja eksplisiittinen tieto korvaa säilyttäen merkityksen suhde puuttuu, koska sen jäsen puuttuu suhde tai osapuolet korvattu
Yhteenvetoa: eri konekääntimet Tilastollinen käännin suhteen puuttuminen käsitteiden poistot ja lisäykset (joitakin korvauksia) suhteen jäsenten vaihtuminen Sääntöpohjainen käännin käsitteen väärä merkitys ei poista eikä lisää käsitteitä (eikä siis korvaa) jäsenten välisen suhteen vaihtuminen
Kriittisyys? kaikki virheet eivät välttämättä vaikuta lähtötekstin (virke, kappale, koko teksti) sisällön ymmärtämiseen Bensoussan, Marsha, and Judith Rosenhouse 1990. Evaluating student translations by discourse analysis. Babel 36, 65-84. virhe on kriittinen, jos se rikkoo tekstin argumentaatiorakenteen Williams, Malcolm 2001. The Application of Argumentation Theory to Translation Quality Assessment. Meta 46:2, 326 344.
Esimerkki 1 The bones from El Sidrón were not Republican soldiers, but the fossilized remains of a group of Neanderthals who lived, and perhaps died violently, approximately 43,000 years ago. The locale places them at one of the most important geographical intersections of prehistory, and the date puts them squarely at the center of one of the most enduring mysteries in all of human evolution. Luut eivät El Sidróniltä olleet republikaaniset sotilaat vaan ryhmän kivettyneet jäännökset neandertalinihmisia, jotka elivät ja ehkä kuolivat väkivaltaisesti suunnilleen 43,000 vuotta sitten. Paikka sijoittaa ne yhdessä esihistorian tärkeimmistä maantieteellisista risteyksistä, ja päivämäärä laittaa ne suoraan yhden kestävimpien arvoituksien keskukseen kaikessa inhimillisessä kehityksessä. (Sunda) Luita El Sidrón ei republikaani sotilaita, mutta fossilized edelleen ryhmän Neanderthals jotka elivät, ja ehkä kuoli väkivaltaisesti, noin 43000 vuotta sitten. Locale henkilöllä on yksi tärkeimmistä maantieteellinen leikkauspisteistä esihistoriaan, ja päivä tuo ne reilusti keskelle yksi pysyviä salaisuuksia kaikilla inhimillisen kehityksen. (Google)
Esimerkki 2 In the Activation panel, wait for the progress bar to stop, and then click Next. If the Norton Account panel appears, do one of the following: If you currently have a Norton account, complete the Sign in to an existing Norton Account section. If you want to create a new Norton Account, complete the Create a Norton Account section. Click Next. Aktivointipaneelissa odottakaa tilanneilmaisimen pysähtyvän ja sitten napsahtavan seuraavaksi. Jos Norton Accountin paneeli ilmestyy, tehkää yksi seuraavasta: Jos teillä nykyisin on Nortonin tili, täydentäkää merkkiä sisällä olemassa olevaan Norton Accountin osuuteen. Jos te haluatte luoda uuden Norton Accountin, täydentäkää, luo Norton Accountin osuuden. Napsahtakaa seuraavaksi. (Sunda)
Tuleva tutkimus semanttisten kriteerien kehittäminen testiaineisto: erityyppiset virkkeet, virheet eri virhetyyppien kriittisyyden testaaminen luetunymmärryskoe lukijan virhesietoisuuden arviointi kriteerien ja menetelmän operationalisointi automaattinen jäsennys, WordNet vähentää ajan tarvetta, parantaa objektiivisuutta
Kieliteknologia ihmisten käännösten arvioinnissa konekäännettyjen aineistojen käyttö laadunarviointimenetelmien kehittäminen ja testaaminen koneellisten menetelmien käyttö laadunvalvonta opiskelijoiden arviointi