Monikielinen konekäännös ja sen laadun arviointi MOLTO-hankkeessa

Samankaltaiset tiedostot
MOLTO-konekäännösprojekti ja Grammatical Framework

Konekäännöksen laadun arviointia käännöstieteen menetelmin. KäTu-symposiumi 2010 Maarit Koponen Helsingin yliopisto Nykykielten laitos

Supporting Information

Selkokieltä S2-oppijan näkökulmasta. Sonja Dahlgren/HY Kielitieteenpäivät,

Ongelma(t): Miten jollakin korkeamman tason ohjelmointikielellä esitetty algoritmi saadaan suoritettua mikro-ohjelmoitavalla tietokoneella ja siinä

Opiskelijat valtaan! TOPIC MASTER menetelmä lukion englannin opetuksessa. Tuija Kae, englannin kielen lehtori Sotungin lukio ja etälukio

v OPINTONSA ALOITTANEIDEN HENKILÖKOHTAINEN OPINTOSUUNNITELMA Humanististen tieteiden kandidaatin tutkinto 180 op

EUROOPAN PARLAMENTTI

Säännölliset kielet. Sisällys. Säännölliset kielet. Säännölliset operaattorit. Säännölliset kielet

Kenelle? Opettajat ja koulun muu henkilöstö esi- ja perusopetuksessa, lukiossa ja ammatillisessa peruskoulutuksessa

Kenelle? Opettajat ja koulun muu henkilöstö esi- ja perusopetuksessa, lukiossa ja ammatillisessa peruskoulutuksessa

Kielen ymmärtäminen kieliteknologian näkökulmasta. Kimmo Koskenniemi täysinpalvellut kieliteknologian professori Helsingin yliopisto

Kieliversiointityökalu Java-ohjelmistoon. Ohje

(ETA:n kannalta merkityksellinen teksti)

Choose Finland-Helsinki Valitse Finland-Helsinki

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

OLS for refugees webinaari

Yhtenäispatenttipaketin tilannekatsaus. Mikko Alatossava

Hankkeiden vaikuttavuus: Työkaluja hankesuunnittelun tueksi

Maarit Koponen. Kites Symposium

Virheiden vaikutus konekäännöksen laatuun

ECVET tulee, oletko valmis!

DECIPHER Development & Export of Cultural Initiatives for the Promotion & Harmonisation of Employer-led Resources

Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin?

Lapin Rovaniemen moduuli 2 verkko-opiskelijoiden kysymyksiä tetoimiston virkailijoiden tapaamiseen AC-huoneessa:

Sopimus Asiakas- ja potilastietojärjestelmästä. Liite N: Kielivaatimukset

Discendum Oy

S SÄHKÖTEKNIIKKA JA ELEKTRONIIKKA

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

Helsingin yliopisto/tktl Kyselykielet, s 2006 Optimointi Harri Laine 1. Kyselyn optimointi. Kyselyn optimointi

Results on the new polydrug use questions in the Finnish TDI data

Ohje 1 (12) Maarit Hynninen-Ojala MOODLE PIKAOHJE. Kirjautuminen Moodleen ja työtilan valitseminen

Dawsonera e-kirjaportaalin käyttöohje

Yhteentoimiva.suomi.fi - palvelukokonaisuuden ja työkalujen esittely

KV-järjestelmät suomelle

OHJEET SISÄMARKKINOIDEN HARMONISOINTIVIRASTOSSA (TAVARAMERKIT JA MALLIT) SUORITETTAVAAN YHTEISÖN TAVARAMERKKIEN TUTKINTAAN OSA A YLEISET SÄÄNNÖT

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

TIEA241 Automaatit ja kieliopit, kevät 2011 (IV) Antti-Juhani Kaijanaho. 31. maaliskuuta 2011

Esimerkkinä - ilmainen blogi-julkaisujärjestelmä. WordPress:stä on myös palvelimelle asennettava versio (WordPress.

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Capacity Utilization

make and make and make ThinkMath 2017

Miten tutkia lähdekielen vaikutusta oppijankielen universaalina piirteenä?

EU:n lääketutkimusasetus ja eettiset toimikunnat Suomessa Mika Scheinin

Voice Over LTE (VoLTE) By Miikka Poikselkä;Harri Holma;Jukka Hongisto

Co-Design Yhteissuunnittelu

System.out.printf("%d / %d = %.2f%n", ekaluku, tokaluku, osamaara);

Poikkeusinfo XML-rajapinnan kuvaus, rajapinnan versio 2 Seasam Group

11.4. Context-free kielet 1 / 17

ATLAS-kartan esittely - Peli palveluiden yhteiskehittämisen menetelmistä Päivi Pöyry-Lassila, Aalto-yliopisto


Valppaan asennus- ja käyttöohje

Maatilan menestystekijät nyt ja tulevaisuudessa. Seminaari Salossa Toimitusjohtaja Kari Aakula

2017/S Contract notice. Supplies

Taina Hämäläinen Lehtori Espanjalainen filologia Galicialainen filologia Unionink. 38 D Helsingin yliopisto Puh Sähköposti:

815338A Ohjelmointikielten periaatteet Harjoitus 2 vastaukset

JOHDATUS TEKOÄLYYN TEEMU ROOS

Humanistiset tieteet

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

Oppilaat kielentutkijoina

Suomalainen kauno- ja tietokirjallisuus pohjoismaisille kielille

25/10/ ,2 Dichloro Ethane ,2-Dichlorethan Reincst ,4 Dioxane

TOISEN KOTIMAISEN KIELEN JA VIERAIDEN KIELTEN SÄHKÖISTEN KOKEIDEN MÄÄRÄYKSET

Yrittäjyydestä virtaa maaseudulle

Ammattimaista viestintää. Ruotsin asiatekstinkääntäjien liitto

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Konekäännös: mitä sillä tehdään?

anna minun kertoa let me tell you

Kielten oppiminen ja muuttuva maailma

Arkkitehtuurikuvaus. Ratkaisu ohjelmistotuotelinjan monikielisyyden hallintaan Innofactor Oy. Ryhmä 14

Kuva liikennemerkistä 1. Aleksanteri Numminen. ITKP101

SUOMEN KOULUJÄRJESTELMÄ

Opintokohteen luominen

System.out.printf("%d / %d = %.2f%n", ekaluku, tokaluku, osamaara);

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

Suomen kielimaisema muuttuu Kielelliset oikeudet Suomessa

Euroopan unioni ja monikielisyys Verkkojen Eurooppa Automaattinen käännösalusta. Kimmo Rossi European Commission, CNECT.G3

Network to Get Work. Tehtäviä opiskelijoille Assignments for students.

VAASAN YLIOPISTO Humanististen tieteiden kandidaatin tutkinto / Filosofian maisterin tutkinto

Røgalarm CCTSA53200 Almost invisible Smokealarm CCTSA53200 Almost invisible (Cavius type 2001-TK001)

Ecom Growth. Google Analytics: Koulutus

Curriculum. Gym card

Quizlet.

Sivuston tiedotakcp-sensor.de

S SÄHKÖTEKNIIKKA JA ELEKTRONIIKKA

The OWL-S are not what they seem

8. Kieliopit ja kielet 1 / 22

Täydentäviä muistiinpanoja laskennan rajoista

MONIKIELISYYS VAHVUUDEKSI Kansallisen kielivarannon kehittämistarpeet

Sosiaalisen median liiketoimintamallit ja käyttöön oton suunnitelma 9/23/2012

EPO antaa ja ottaa. Aamiaisseminaari Jukka Kantanen

EuroTraffic Language Training

Rajoittamattomat kieliopit (Unrestricted Grammars)

HALLITUKSEN ESITYS LIITON KIELISTRATEGIAKSI

ELM GROUP 04. Teemu Laakso Henrik Talarmo

OP1. PreDP StudyPlan

4. Lausekielinen ohjelmointi 4.1

11th International Congress for Finno-Ugric Studies

Paneurooppalainen työterveyttä ja -hyvinvointia koskeva mielipidekysely

Muodolliset kieliopit

Transkriptio:

Monikielinen konekäännös ja sen laadun arviointi MOLTO-hankkeessa Jussi Rautio, Maarit Koponen ja Lauri Carlson, Helsingin yliopisto XI Kääntämisen ja tulkkauksen symposiumi 12.-13.4.2013, Turku

Yleistä MOLTO-projektista http://www.molto-project.eu EU:n 7 th Framework projekti, aloitettu vuonna 2009 Yhteistyökumppanit: Göteborgin yliopisto, HY, Universitat Politècnica de Catalunya, Zürichin yliopisto, Ontotext AD (Sofia, Bulgaria) ja Be Informed (Alankomaat) Motto: Non multa, sed multum Ei määrä, vaan laatu Tavoite: Tuottaa työkaluja dokumenttien korkeatasoiseen ja tosiaikaiseen automaattiseen kääntämiseen usealla kielellä samanaikaisesti. Kielinä 12 EU-kieltä +venäjä, kiina, hindi, thai

Grammatical Framework MOLTO perustuu GF (Grammatical Framework, Aarne Ranta, 1998) kuvauskieleen, jolla voidaan luoda luonnollisen kielen kielioppeja. GF jäsentää ja generoi (linearisoi) kieliä yhteisen abstraktin kieliopin kautta (interlingua). GF:n kieliopit soveltuvat formaalien kielten ja alikielten (rajallinen syntaksi ja sanasto) kääntämiseen sekä monikielisen tekstin tuottamiseen. Resurssikieliopit (tällä hetkellä 34 kieltä) sisältävät kielen yleiset syntaktiset ja morfologiset säännöt, mm. taivutusparadigmat. Sovelluskieliopit sisältävät halutun domeenin erityiset säännöt. Tilastollinen käännös tähtää kattavuuteen, sääntöpohjainen GF tarkkuuteen. Leksikkoa voidaan laajentaa esim. ontologioiden avulla, Uusien sääntöjen ja sanaston lisääminen on helppoa jopa GF:ään tai kielitieteeseen perehtymättömälle (työkalut). Uuden resurssikieliopin luominen kestää 3-6 kuukautta, sovelluskielioppi voidaan luoda viikoissa. Open Source, liitettävissä eri työkaluihin, Web-API.

this delicious cheese is Italian Jäsennys PSentence (SProp (Is (ThisMass (SuchMassKind (PropQuality Delicious) Cheese)) (PropQuality (PropCit (CitiNat Italian))))) Linearisointi това превъзходно сирене е италианско. tämä herkullinen juusto on italialaista. denne lækkere ost er italiensk.

MOLTOn käyttötapaukset Turistifraasit Paikkoja, aikoja, lukumääriä, nimiä, laatuja Kielioppien testaamiseen Idiomaattisten rakenteiden tunnistamiseen Phrasebook> p -lang=eng "do they know that we don't have pizzas?" l -lang=fin,swe,ger tietävät &+ kö he, että meillä ei ole pizzoja? vet de att vi inte har pizzor? wissen sie, dass wir keine Pizzen haben?

MOLTOn käyttötapaukset Kulttuuriperintö Euroopan taidemuseoiden teosten kuvauksia Kysely ontologioista luonnollisella kielellä, vastaus samalla tai halutuilla kielellä GF muuntaa luonnollisen kielen kyselykieleksi ja kääntää saadut vastaukset Tietoja voidaan yhdistellä käytettävistä ontologioista > show everything about Mona Lisa Öljymaalauksen Mona Lisa on maalannut Leonardo da Vinci vuonna 1519. Se on kokoa 77 kertaa 53 cm. Tämä maalaus on esillä Museé du Louvressa. Mona Lisa wurde in 1519 von Leonardo da Vinci gemalt. Das Werk ist 77 mal 53 cm. Diese Ölmalerei ist ausgestellt in der Museé du Louvre. show some miniature by Pablo Picasso which miniatures are from 1862

MOLTOn käyttötapaukset Patenttikäännökset Farmakologisten patenttien haku luonnollisella kielellä esim. EPOn patenttitietokannasta Jäsennin ohjaa käyttäjää kyselyn muotoilussa

MOLTOn käyttötapaukset Patenttikäännökset Farmakologisten patenttien haku luonnollisella kielellä esim. EPOn patenttitietokannasta Jäsennin ohjaa käyttäjää kyselyn muotoilussa Järjestelmä palauttaa löytyneet patentit käännettyinä

MOLTOn käyttötapaukset Matemaattiset tehtävät Ongelmien ja vastausten sanallistaminen Symbolinen matematiikka: WebALT-kuvauskielen muuntaminen luonnolliseksi kieleksi ja vastoinpäin Piippolan vaarilla on neljä lehmää ja kahdeksan kanaa. Montako eläintä Piippolan vaarilla on? Kaksitoista

Laadun arviointi MOLTO-projektissa Käännöslaadun manuaalinen evaluointi Natiivikieliset arvioijat (3-5, crowdsourcing) valitsevat käännösvaihtoehdoista mielestään parhaan ja tekevät tarvittavat muutokset (jälkieditointi). editointiaika editointietäisyys (HTER): muutosten määrä / editoidun version sanamäärä TAUS-arvio: complete, useful, marginal, poor Käännöslaadun automaattiset mittarit Perustuvat konekäännöksen ja ihmisen tekemän käännöksen tilastolliseen vertailuun (esim. BLEU, TER) - Asiya Toolkit (http://nlp.lsi.upc.edu/asiya/). Suurin osa mittareista täysin tekstipohjaisia (merkkijonojen vertailu), joihinkin kohdekieliin mahdollista soveltaa esim. automaattista syntaktista tai semanttista jäsennystä. Vertailu muihin järjestelmiin (Google, Bing, Systran) Kyselykielten ja hakutoimintojen arviointi Hakujen kattavuus (saanti) ja tarkkuus (relevanssi), kyselykielen käytettävyys ja toiminnallisuus Kielioppi- ja leksikkokehityksen työmäärän arviointi

Esimerkki: turistiaineiston jälkieditointi Esimerkkiaineistona 139 virkettä MOLTOn turistiteksteistä (englanti-suomi). Koehenkilöinä 11 Helsingin yliopiston opiskelijaa Tietokoneavusteisen kääntämisen kurssilta äidinkieli suomi, hyvä englannintaito. Koehenkilöiden tehtävänä oli virke kerrallaan valita mielestään parhaiten lähtövirkettä vastaava käännös kolmesta konekäännösvaihtoehdosta (GF, Google, Bing) ja tekemään tarvittavat korjaukset. Tehtävä tehtiin käyttäen Appraise-työkalua (Christian Federmann, 2010).

Appraise Eri käännösvaihtoehdoista valitseminen ja jälkieditointi. Ohjelma mittaa muokkaamiseen kuluneen ajan:

Tuloksia turistiaineistosta: Valittu käännösehdotus

Tuloksia turistiaineistosta: editointiaika ja editointietäisyys

A compound according to Claims 1, 2 or 3 selected from the group consisting of : 2-Cyano-3-hydroxy-N-isopropyl-N-(2- mercapto-benzothiazo)-6-yl)-3-(4-trifluoromethyl-phenyl)-acrylamide ; 2-Cyano-N-isopropyl-N-(2-mercaptobenzothiazol-6-yl)-3-(4-trifluoromethyl-phenyl)-acrylamide ; 2-Cyano-3-hydroxy-4-methyl-hept-2-enoic acid isopropyl- (2-mercapto-benzothiazol-6-yl)-amide ; 2-Cyano-3-hydroxy-5,5-dimethyl-hex-2-enoic acid isopropyl-(2-mercaptobenzothiazol-6-yl)-amide ; 2-Cyano-3-hydroxy-4-phenyl-but-2-enoic acid isopropyl-(2-mercapto-benzothiazol-6-yl)- amide ; 2-Cyano-3-hydroxy-5-phenyl-pent-2-enoic acid isopropyl-(2-mercapto-benzothiazol-6-yl)-amide ; 2-Cyano-3- hydroxy-n-isopropyl-n-(2-mercapto-benzothiazol-6-yl)-3-(3-trifluoromethyl-phenyl)acrylamide ; 2-Cyano-3-(4-cyanophenyl)-3-hydroxy-N-isopropyl-N-(2-marcapto-benzothiazol-6-yl)-acrylamide ; 3-(4-Butoxy-phenyl)-2-cyano-3-hydroxy N-isopropyl-N-(2-mercapto-benzothiazol-6-yl)-acrylamide ; 2-Cyano-3-hydroxy-4-thiophen-2-yl-but-2-enoic acid isopropyl-(2-mercapto-benzothiazol-6-yl)-amide ; 2-Cyano-5-methyl-hex-2-enoic acid isopropyl-(2-mercaptobenzothiazol-6-yl)-amide ; 2-Cyano-N-isopropyl-N-(2-mercapto-benzothiazol-6-yl)-3-(3-trifluoromethyl-phenyl)- acrylamide ; 9-Cyano-8-hydroxy-9-[isopropyl-(2-mercapto-benzothiazot-6-yl)-carbamoyl]-non-8-enoic acid methyl ester ; 9-Cyano-8-hydroxy-9-[isopropyl-(2-mercapto-benzothiazol-6-yl)-carbamoyl]-non-8-enoic acid ; 2-Cyano-Nisopropyl-N-(2-mercapto-benzothiazol-6-yl)-3-thiophen-2-yl-acrylamide ; 2-Cyano-N-isopropyl-N-(2-mercaptobenzothiazol-6-yl)-3 thiophen-3-yl-acrylamide ; 2-Cyano-3-(4-cyano-phenyl)-N-isopropyl-N-(2-mercapto-benzothiazol-6- yl)-acrylamide ; 3-(4-Chloro-phenyl)-2-cyano-N-isopropyl-N-(2-mercapto-benzothiazol-6-yl)-acrylamide ; 3-(4-Butoxyphenyl)-2-cyano-N-isopropyl-N-(2-mercapto-benzothiazol-6-yl)-acrylamide ; 2-Cyano-3-cyclohexyl-N-isopropyl-N-(2- mercapto-benzothiazol-6-yl)-acrylamide ; 2-Cyano-N-isopropyl-N-(2-mercapto-benzothiazol-6-yl)-3-(tetrahydrofuran-3- yl)-acrylamide ; 2-Cyano-N-isopropyl-N-(2-mercapto-benzothiazol-6-yl)-3-thiazol-2-yl-acrylamide ; 2-Cyano-N-isopropyl- N-(2-mercapto-benzothiazol-6-yl)-3-(1-methyl-1H-imidazol-2-yl)-acrylamide ; 3-(4-Bromo-phenyl)-2-cyano-N-isopropyl- N-(2-mercapto-benzothiazol-6-yl)-acrylamide ; 3-(3-Chloro-phenyl)-2-cyano-N-isopropyl-N-(2-mercapto-benzothiazol-6- yl)-acrylamide ; 2-Cyano-3-(3,4-dichloro-phenyl)-N-isopropyl-N-(2-mercapto-benzothiazol-6-yl)-acrylamide ; 2-Cyano-Nisopropyl-N-(2-mercapto-benzothiazol-6-yl)-3-p-tolyl-acrylamide ; 2-Cyano-3-(4-ethyl-phenyl)-N-isopropyl-N-(2- mercapto-benzothiazol-fi-yl)-acrylamide ; 2-Cyano-N-isopropyl-N-(2-mercapto-benzothiazol-6-yl)-3-(4-methoxy phenyl)- acrylamide ; 4-{2-Cyano-2-[isopropyl-(2-mercapto-benzothiazol-6-yl)-carbamoyl]-vinyl}-benzoic acid methyl ester ; 2- Cyano-N-isopropyl-N-(2-mercapto-benzothiazol-6-yl)-3-(4-methytsulfanyl-phenyl)-acrylamide ; 2-Cyano-N-isopropyl-N- (2-mercapto-benzothiazol-6-yl)-3-pyridin-4-yl-acrylamide ; 2-Cyano-N-isopropyl-N-(2-mercapto-benzothiazol-6-yl)-3- pyridin-3-yl-acrylamide ; 2-Cyano-3-(2,3-dihydro-benzo[1,4]dioxin-6-yl)-N-isopropyl-N-(2-mercapto-benzothiazol-6-yl)- acrylamide ; 4-{2-Cyano-2-[isopropyl-(2-mercapto-benzothiazol-6-yl)-carbamoyl]-vinyl}-benzoic acid ; and 4-{2-cyano-2- [isopropyl-(2-mercapto-benzothiazol-6-yl)-carbamoyl]-vinil}-benzoic acid.