Avoimen lähdekoodin kaksitasokielioppikääntäjä



Samankaltaiset tiedostot
Luonnolliset vs. muodolliset kielet

Kielitieteellisten aineistojen käsittely

Muodolliset kieliopit

Automaattinen semanttinen annotointi

Esimerkki 1: Kahviautomaatti.

XML-tutkimus Jyväskylän yliopistossa

Rajoittamattomat kieliopit (Unrestricted Grammars)

Kontekstittomat jäsennysmenetelmät

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Nuõr%sääʹmǩiõl seminaar ođđeeʹjjmannust Čeʹvetjääuʹrest,

Hahmon etsiminen syotteesta (johdatteleva esimerkki)

SQL-perusteet, SELECT-, INSERT-, CREATE-lauseet

Laskelmia uudenvuodenpuheista

Mitä on morfologia? Tommi Jantunen Jyväskylän yliopisto Kielten laitos Suomalainen viittomakieli

FORMAALI SYSTEEMI (in Nutshell): aakkosto: alkeismerkkien joukko kieliopin määräämä syntaksi: sallittujen merkkijonojen rakenne, formaali kuvaus

JOHDATUS TEKOÄLYYN TEEMU ROOS

Helsingin yliopisto/ tktl DO Tietokantojen perusteet, s 2000 Relaatioalgebra Harri Laine 1. Relaatioalgebra

tään painetussa ja käsin kirjoitetussa materiaalissa usein pienillä kreikkalaisilla

Laskennan rajoja. TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 10. joulukuuta 2015 TIETOTEKNIIKAN LAITOS.

Muodonmuutostila hum

Julkaisufoorumin kuulumiset

5. MORFOLOGIA l. muotorakenne

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 3. joulukuuta 2015

Yleisen kielitieteen opetus

T Syksy 2002 Tietojenkäsittelyteorian perusteet Harjoitus 8 Demonstraatiotehtävien ratkaisut

Suomen kvantiteetti ja kirjoitusprosessi

Luku 3. Listankäsittelyä. 3.1 Listat

Kieli merkitys ja logiikka

Solmu 3/2001 Solmu 3/2001. Kevään 2001 ylioppilaskirjoitusten pitkän matematiikan kokeessa oli seuraava tehtävä:

Tyyppiluokat II konstruktoriluokat, funktionaaliset riippuvuudet. TIES341 Funktio-ohjelmointi 2 Kevät 2006

Hannu Mäkiö. kertolasku * jakolasku / potenssiin korotus ^ Syöte Geogebran vastaus

Leksikkojen kehittämisestä äärellistilaisille morfologisille jäsentimille

Palmikkoryhmät kryptografiassa

Aki Taanila LINEAARINEN OPTIMOINTI

Matemaattisten menetelmien hallinnan tason testi.

CLT131: Tekstityökalut 2010, toinen luento

Rajoittamattomat kieliopit

MAT Algebra I (s) periodilla IV 2012 Esko Turunen

KJR-C2002 Kontinuumimekaniikan perusteet

Laskennan teoria (kevät 2006) Harjoitus 3, ratkaisuja

Äärellisten automaattien ja säännöllisten kielten ekvivalenssi

TIEA241 Automaatit ja kieliopit, kevät 2011 (IV) Antti-Juhani Kaijanaho. 19. tammikuuta 2012

MATEMATIIKAN LATOMINEN LA T EXILLA, OSA 1

1: Korpukset ja ohjelmat" [7, ]).

Täydentäviä muistiinpanoja Turingin koneiden vaihtoehdoista

TIEA241 Automaatit ja kieliopit, kevät 2011 (IV) Antti-Juhani Kaijanaho. 31. maaliskuuta 2011

Neljän alkion kunta, solitaire-peli ja

Johdatus Ohjelmointiin

Todistus: Aiemmin esitetyn mukaan jos A ja A ovat rekursiivisesti lueteltavia, niin A on rekursiivinen.

Matematiikan tukikurssi

Prolog kielenä Periaatteet Yhteenveto. Prolog. Toni ja Laura Fadjukoff. 9. joulukuuta 2010

S BAB ABA A aas bba B bbs c

LUONNOLLINEN KIELI JA TEKOÄLYN KOGNITIO

Suomenkielisten tekstien morfologinen analysointi

MS-A0305 Differentiaali- ja integraalilaskenta 3 Luento 9: Greenin lause

(0 1) 010(0 1) Koska kieli on yksinkertainen, muodostetaan sen tunnistava epädeterministinen q 0 q 1 q 2 q3

Ehto- ja toistolauseet

Asialista. hippu ja.bashrc. Asialista. Tutkimusongelma: tekstin morfologisen jäsennyksen selvittely

Chapel. TIE Ryhmä 91. Joonas Eloranta Lari Valtonen

Kurssikoe on maanantaina Muista ilmoittautua kokeeseen viimeistään 10 päivää ennen koetta! Ilmoittautumisohjeet löytyvät kurssin kotisivuilla.

min x x2 2 x 1 + x 2 1 = 0 (1) 2x1 1, h = f = 4x 2 2x1 + v = 0 4x 2 + v = 0 min x x3 2 x1 = ± v/3 = ±a x 2 = ± v/3 = ±a, a > 0 0 6x 2

Suomen kielen substantiivilla on noin 2000 erilaista muotoa vai onko sittenkään? Kimmo Kettunen, Tampereen yliopisto, informaatiotutkimuksen laitos

Kieli merkitys ja logiikka

Säännöllisten kielten sulkeumaominaisuudet

Yhteydettömät kieliopit [Sipser luku 2.1]

uv n, v 1, ja uv i w A kaikilla

Tutki ja kirjoita -kurssi, s-2005

Työpajan tarkoitus. Prolegomena viittomaan. Kysymyksenasetteluja. Sana ~ viittoma. Näkökulmia sanaan. Näkökulmia viittomaan ja viittomistoon

Jos sekaannuksen vaaraa ei ole, samastamme säännöllisen lausekkeen ja sen esittämän kielen (eli kirjoitamme R vaikka tarkoitammekin L(R)).

Topologia Syksy 2010 Harjoitus 9

Suorista ja tasoista LaMa 1 syksyllä 2009

815338A Ohjelmointikielten periaatteet Harjoitus 2 vastaukset

T Syksy 2006 Tietojenkäsittelyteorian perusteet T Harjoitus 7 Demonstraatiotehtävien ratkaisut

Kieli merkitys ja logiikka. 4: Luovuus, assosiationismi. Luovuus ja assosiationismi. Kielen luovuus. Descartes ja dualismi

Kohti tehohoitotyön narratiivien tehokkaampaa hyödyntämistä luonnollisen kielen käsittelyn avulla

Mitä viestintäpalvelujen laatu tarkoittaa kuluttajalle? Sebastian Sonntag Tutkija, Aalto-yliopisto

Ohjelmoinnin peruskurssien laaja oppimäärä

Rekursio. Funktio f : N R määritellään yleensä antamalla lauseke funktion arvolle f (n). Vaihtoehtoinen tapa määritellä funktioita f : N R on

Säännölliset kielet. Sisällys. Säännölliset kielet. Säännölliset operaattorit. Säännölliset kielet

Vaihtoehtoinen tapa määritellä funktioita f : N R on

Lähdekielen vaikutuksen tutkimus korpusten pohjalta. Esitelmä Kielitieteen päivillä Oulussa Annekatrin Kaivapalu Tallinnan yliopisto

Yhdyssana suomen kielessä ja puheessa

VINKKI: Katso Kentät Muistioon -painikkeella, mikä on taulukon nimen oikea kirjoitusasu.

Luento 12: XML ja metatieto

The OWL-S are not what they seem

TIEP114 Tietokoneen rakenne ja arkkitehtuuri, 3 op. FT Ari Viinikainen

Matematiikka ja tilastotiede. Orientoivat opinnot /

Jos d-kohdan vasemmalla puolella perusjoukkona on X, niin oikealla puolella

Pinoautomaatit. Pois kontekstittomuudesta

Ei-yhteydettömät kielet [Sipser luku 2.3]

Tarvitseeko informaatioteknologia matematiikkaa?

Matkapuhelinverkot, 3g lisämateriaali

Havaitsevan tähtitieteen peruskurssi I

Helsingin yliopisto/tktl DO Tietokantojen perusteet, s 2000 Relaatiomallin peruskäsitteet Harri Laine 1. Relaatiotietokannat DONOTP

Matriisit ja vektorit Matriisin käsite Matriisialgebra. Olkoon A = , B = Laske A + B, , 1 3 3

RANS0002 P2. Phonetics and Pronunciation (Fonetiikka ja ääntäminen), O, 2 ECTS. RANS0010 P3. Translation Exercise (Käännösharjoitukset) s, O, 3 ECTS

Puhutun ja kirjoitetun rajalla

Harjoitus 4 ( )

Kokonaislukuoptimointi

5.3 Ratkeavia ongelmia

Transkriptio:

Avoimen lähdekoodin kaksitasokielioppikääntäjä Miikka Silfverberg miikka piste silfverberg at helsinki piste fi Kieliteknologia Helsingin yliopisto Avoimen lähdekoodin kaksitasokielioppikääntäjä p.1/23

Sisältö 1. Johdanto 2. Automaattinen morfologinen analyysi 3. Kaksitasokielioppikääntäjä 4. Leikkaava kompositio 5. Kaksitasokääntäjän evaluointia 6. Avoimuus ja aiemmat avoimet vaihtoehdot 7. Pohdintaa 8. Lähteet Avoimen lähdekoodin kaksitasokielioppikääntäjä p.2/23

2. Automaattinen morfologinen analyysi Tehdään kielelle morfologinen jäsennin, joka kuvaa relaation kielen leksikaalisen ja fonologisen tason välillä. Osatehtävät [Karttunen91] 1. Sananmuodostus PALLO+N+PL+PART palloia 2. Morfologisten vaihteluiden kuvaaminen palloia palloja Automaattisen analysin haasteita: Kieliopin muokattavuus, käännettävyys, testattavuus ja suorituskyky. Avoimen lähdekoodin kaksitasokielioppikääntäjä p.3/23

2. Automaattinen... > Äärellistilainen 1/3 Automaattinen morfologinen analyysi on pääosin hoidettavissa äärellistilaisin menetelmin [Koskenniemi83, Johnson72, Kaplan94]. Kielen mahdolliset leksikaaliset muodot voidaan koota äärellistilaiseksi transduktoriksi (?) Morfologiset vaihtelut voidaan kuvata äärellistilaisilla transduktoreina Sekventiaalinen ja rinnakkainen malli. Yksinkertainen formalismi rikas ja hyvin tunnettu algebra. Avoimen lähdekoodin kaksitasokielioppikääntäjä p.4/23

2. Automaattinen... > Äärellistilainen 2/3 Sekventiaalinen malli Johnson huomasi että generatiivinen fonologinen sääntö α β / γ _ δ vastaa äärellistilaista transduktoria. Morfologinen jäsennin on leksikon ja sääntötransduktoreiden kompositio joko lopullisesti laskettuna tai simuloiden. Avoimen lähdekoodin kaksitasokielioppikääntäjä p.5/23

2. Automaattinen... > Äärellistilainen 3/3 Rinnakkainen malli (morfologian kaksitasomalli) Kiinteä aakkosto, joka sisältää kaikki vastaavuudet leksikaalisten ja fonologisten segmenttien välillä. Säännöt ovat rinnakkaisia vastaavuuksien rajoitteita. Jokainen vastaavuus, jota ei ole erikseen kielletty, on sallittu. Morfologinen jäsennin on leksikon kompositio sääntötransduktorien leikkauksen kanssa. Kaikilla säännöillä sama syöte- ja tulostemuoto rinnakkaisen mallin säännöt voivat viitata leksikaaliseen muotoon ja fonologiseen muotoon. Avoimen lähdekoodin kaksitasokielioppikääntäjä p.6/23

2. Automaattinen... > Kaksitasomalli 1/2 Leksikko liittää morfotaksin (leksikaalisen tason) morfofonologiseen tasoon. Se esitetään alileksikoiden puuna [Koskenniemi83]. LEXICON Root talo+n+pl:talo^i Subst01Sija ; LEXION Subst01Sija +Part:^A # ; Lekseemi on sanavartalo. Leksikkossa viitataan jatkoluokkiin (häntärekursio). Avoimen lähdekoodin kaksitasokielioppikääntäjä p.7/23

2. Automaattinen... > Kaksitasomalli 2/2 Säännöt liittävät morfofonologisen tason fonologiseen tasoon. "Monikon I" ^I:j <=> :Vokaali _ :Vokaali ; Jokainen sääntö rajoittaa yhden morfofoneemin fonologisia vastineita. Säännön kontekstit ovat parien säännöllisiä lausekkeita. Sääntö hyväksyy kaikki vastaavuudet joihin se ei viittaa. Operaattorit: <=> <= => /<= Avoimen lähdekoodin kaksitasokielioppikääntäjä p.8/23

3. Kaksitasokielioppikääntäjä hfst-twolc: ohjelma, joka ottaa syötteekseen kaksitasokieliopin ja kääntää siitä joukon sääntötransduktoreita. Kieliopin osat: Aakkosto Äännejoukot Nimetyt säännölliset lausekkeet Muuttujat Säännöt Avoimen lähdekoodin kaksitasokielioppikääntäjä p.9/23

3. Kaksitasokielioppikääntäjä Kielioppiformalismissa on pyritty matkimaan Xeroxia [Karttunen92]. Aakkosto sisältää kaikki mahdolliset parit. Äännejoukkojen rajoitetut ristitulot. Säännöllisten lausekkeiden kieli. Muuttujat. Avoimen lähdekoodin kaksitasokielioppikääntäjä p.10/23

3. Kaksitasokieli... > Säännöt Sääntöjen kääntämisessä käytetään rajoitettua muotoa n.s. yleisistä kontekstirajoitteista [Yli-Jyrä06]. käännetään Σ X Σ 2 C L Σ C R, ( / Σ) Σ delete (Σ X Σ C L Σ C R ) Kontekstirajoitteet muuttavat säännön kontekstin säännölliseksi lausekkeeksi. Säännön keskus voi olla yleinen aakkoston Σ säännöllinen lauseke. Avoimen lähdekoodin kaksitasokielioppikääntäjä p.11/23

3. Kaksitasokieli... > Säännöt > Oikea nuoli "Keskuksen distribuution rajoite" x:y => V_1 _ O_1 ;... V_n _ O_n ; Kääntyy yksinkertaisesti Σ x:y Σ 2 n (V i Σ O i ) i=1 Aiemmin tällaisen säännön kääntäminen oli mutkikasta. Avoimen lähdekoodin kaksitasokielioppikääntäjä p.12/23

3. Kaksitasokieli... > Säännöt > Vasen nuoli "Kontekstin vaatimus" x:y <= V_1 _ O_1 ;... V_n _ O_n ; Kääntyy jokaiselle i V 1 (x: x:y) O i 2 Muutamia erityistapauksia, jotka ovat uusillakin kaavoilla ongelmallisia [Kaplan94] 0:x <= V _ O ; 0:x <= _ O ; Avoimen lähdekoodin kaksitasokielioppikääntäjä p.13/23

3. Kaksitasokieli... > Säännöt > Konfliktit 1/3 "Consonant gradation" %^K:0 <=> [ h Liquid Vowel: ] _ ClosedCoda ; "Geminate gradation" %^K:0 <=> :k _ ClosedCoda ; Konflikti ratkeaa ydistämällä sääntöjen oikeat puolet. %^K:0 => [ h Liquid Vowel: ] _ ClosedCoda ; :k _ ClosedCoda ; Avoimen lähdekoodin kaksitasokielioppikääntäjä p.14/23

3. Kaksitasokieli... > Säännöt > Konfliktit 2/3 "Consonant gradation" %^T:d <=> [ h Liquid Vowel: ] _ ClosedCoda ; "Gradation of t to a liquid" %^T:Cx <=> Cx _ ClosedCoda ; where Cx in Liquid ; Konflikti ratkeaa höllentämällä Consonant gradation sääntöä, mikä on helppo ilmaista, jos kontekstit ovat säännöllisiä lausekkeita. Avoimen lähdekoodin kaksitasokielioppikääntäjä p.15/23

3. Kaksitasokieli... > Säännöt > Konfliktit 3/3 [Yli-Jyrä0X] Konflikti on tilanne, jossa jokin morfofonologinen muoto jää vaille fonologista vastinetta. Generatiivisessa mallissa säännöt järjestetään erityisestä yleisempään. Mahdollisten konfliktitilanteiden luokittelu. Avoimen lähdekoodin kaksitasokielioppikääntäjä p.16/23

3. Kaksitasokieli... > Säännöt > Muuta Kaksitasokielioppien testaaminen vs. Generatiivisten kielioppien testaaminen. Monimutkaisemmat keskukset (merkkijonot, yleisemmät säännölliset lausekkeet,...) ja yleisempien sääntöjen konfliktiresoluutio. Painolliset säännöt. Voisiko konfliktiresoluution toteuttaa painoilla. Avoimen lähdekoodin kaksitasokielioppikääntäjä p.17/23

4. Leikkaava kompositio Kaksitasosääntötransduktoreiden leikkaus on usein aivan liian iso laskettavaksi. Jotta leksikko ja säännöt voidaan yhdistää, käytetään leikkaava kompositiota [Karttunen94] Lasketaan leksikon kompositiota sääntöjen simuloidun leikkauksen kanssa. Leksikko rajoittaa voimakkaasti sääntöjen leikkausta. Leikkaava kompositio on toteutettu hfst-rajapintaan. Oikeellisuus- ja suorituskykytestit. Avoimen lähdekoodin kaksitasokielioppikääntäjä p.18/23

5. Kaksitasokääntäjän evaluointia. Kääntäjällä on käännetty pohjoissaamen säännöstö, jossa on 105 sääntöä (näistä saadaan 555 tapausta, kun muuttujat eliminoidaan ja kaksisuuntaiset säännöt kännetään auki). Tuloksen oikeellisuutta on testattu testipareilla ja transduktorien ekvivalenssitestillä. Tehokkuus (angarak-palvelin): Xerox 0m56s vs. hfst-twolc 10m2s. Xeroxin twolc hoitaa konfliktiresoluution osittain väärin. Miten alla oleva rajapinta hfst vaikuttaa hfst-twolc:n suorituskykyyn? Avoimen lähdekoodin kaksitasokielioppikääntäjä p.19/23

6. Avoimuus ja aiemmat avoimet vaihtoehdot GPL-lisenssit SFST PC-KIMMO+KGEN OpenFst... Avoimen lähdekoodin kaksitasokielioppikääntäjä p.20/23

Lähteet [Karttunen91] Lauri Karttunen: Finite State Constraints, Proceedings of the International Conference on Current Issues in Computational Linguistics, June 10-14, 1991. [Johnson72] C. Douglas Johnson: Formal Aspects of Phonological Description, Mouton, 1972. [Kaplan94] Ronald Kaplan, Martin Kay: Regular Models of Phonological Rule System, Computational Linguistics, Vol. 20, Issue 3, 1994. Avoimen lähdekoodin kaksitasokielioppikääntäjä p.21/23

Lähteet [Koskenniemi83] Kimmo Koskenniemi: Two-Level Morphology: A General Computational Model for Word-Form Recognition and Production, Department of General Linguistics, University of Helsinki, 1983. [Karttunen94] Lauri Karttunen: Constructing Lexical Transducers, Proc. of COLING 94, 1994. [Yli-Jyrä06] Anssi Yli-Jyrä, Kimmo Koskenniemi: Compiling Generalized Two-Level Rules and Grammars, Advances in Natural Language Processing, Lecture Notes in Computer Science, Springer, 2006. Avoimen lähdekoodin kaksitasokielioppikääntäjä p.22/23

Lähteet [Karttunen92] Lauri Karttunen: Two-Level Rule Compiler, Technical Report. ISTL-92-9. Xerox Palo Alto Research Center, California, 1992. Avoimen lähdekoodin kaksitasokielioppikääntäjä p.23/23