Englannin lausekerakenteita ja taulukkojäsentäminen Kontekstittomat jäsennysmenetelmät Lili Aunimo lili.aunimo@helsinki.fi Helsingin yliopisto Kieliteknologia Lili Aunimo Englannin lausekerakenteita ja taulukkojäsentäminen p.1/16 2005-03-22
Kertausta Viime luennolla kontekstittomat kieliopit osittava ja kokoava jäsennys Lili Aunimo Englannin lausekerakenteita ja taulukkojäsentäminen p.2/16 2005-03-22
Englannin lausekerakenteita ks. Wilcockin kalvot Substantiivilauseke komplementti (complement) vs. modifioija (modifier) välitaso: substantiiviryhmä, NG Adjektiivilauseke komplementti (complement) vs. modifioija (modifier) välitaso: adjektiiviryhmä, AG Yleistetyt lausekerakennesäännöt Lili Aunimo Englannin lausekerakenteita ja taulukkojäsentäminen p.3/16 2005-03-22
Transformaatiokielioppi determiner (määre), komplementti, adjunkti Substantiivilausekkeet N -> (D) N (Määresääntö) N -> N PP* (Adjunktisääntö) N -> N (PP) (Komplementtisääntö) Adjektiivitiivilausekkeet A -> (D) A (Määresääntö) A -> A PP* (Adjunktisääntö) A -> A (PP) (Komplementtisääntö) Yeleistetyt säännöt X -> (D) X (Määresääntö) X -> X PP* (Adjunktisääntö) X -> Y (PP) (Komplementtisääntö) Lili Aunimo Englannin lausekerakenteita ja taulukkojäsentäminen p.4/16 2005-03-22
Taulukkojäsentäminen Tehokasta jäsentämistä Välituloksien tallentaminen: löydetyt rakenteet tutkitut hypoteesit Esim: nurses uudelleenkirjoitetaan yhä uudelleen NP:ksi viime luennon kokoavan jäsennysalgoritmin simulaatiossa (kalvo 1.16, 1.18) employed uudelleenkirjoitetaan yhä uudelleen V:ksi osittavan jäsennysalgoritmin simulaatiossa (kalvo 1.22,puu) NP yritetään uudelleenkirjoittaa yhä uudelleen kokoavan jäsennysalgoritmin simulaatiossa (esim. kalvo 1.14, 1.18) VP yritetään uudelleenkirjoittaa died yhä uudelleen (1.22, puu) Lili Aunimo Englannin lausekerakenteita ja taulukkojäsentäminen p.5/16 2005-03-22
Jäsentäminen etsintäongelmana ks. Gazdar:in kalvot 13: parsing and search epädeterministisyys moniselitteisyys agenda syvyyssuuntainen haku, agenda: pino leveyssuuntainen haku, agenda: jono Lili Aunimo Englannin lausekerakenteita ja taulukkojäsentäminen p.6/16 2005-03-22
WFST, taulukko,jäsentäminen Tietorakenteet: well-formed substring table, WFST (hyvinmuodostettujen osajonojen taulu) tallentaa löydetyt rakenteet well-formed substring chart (hyvinmuodostettujen osajonojen taulukko) tallentaa myös tutkitut hypoteesit Jäsentäminen taulukkoa hyödyntäen: Alustus Sääntöjen kutsuminen kokoava osittava Lili Aunimo Englannin lausekerakenteita ja taulukkojäsentäminen p.7/16 2005-03-22
WFST Puu sopii esittämään yksikäsitteistä valmista jäsennystä. Ongelmia: moniselitteisyys osittaiset rakenteet, jotka ehkä ovat valmiin puun osia virheelliset tai keskeneräiset syötevirkkeet (ks. Arnoldin kalvot, kohta The Inadequacy of Trees) WFST on: suunnattu syklitön verkko (ero puuhun: solmulla voi olla useita isäsolmuja) Gazdarin kalvot 13: WFST WFST voidaan esittää joukkona triplettejä kompleksisuus O(n 3 ), missä n on syötevirkkeen pituus, vrt. yksinkertaisempien algoritmien eksponentiaaliseen kompleksisuuteen: O(x n ) Huom. O(n 3 ) vain kun etsitään ensimmäinen jäsennys. Lili Aunimo Englannin lausekerakenteita ja taulukkojäsentäminen p.8/16 2005-03-22
WFST moniselitteisyys, Arnoldin kalvot: Local Ambiguity vähemmän informaatiota kuin puussa, Arnoldin kalvot: Local Ambiguity, Chart 3 Lili Aunimo Englannin lausekerakenteita ja taulukkojäsentäminen p.9/16 2005-03-22
Aktiivinen taulukko WFST ei sisällä tietoa yritetyistä hypoteeseista Gazdarin kalvot Chart Parsing, The Active Chart sallitaan syklit jos kaaren lähtö- ja tulosolmu on sama muutetaan kaarien nimet kategoriasymboleista pisteen sisältäviksi lausekerakennesäännöiksi, ks. Arnoldin kalvot Active Edges (Dotted Rules) aktiiviset ja epäaktiiviset kaaret (active and inactive edges) Taulukko voidaan esittää joukkona triplettejä, esim.: <0,2,S -> NP.VP> taulukkojäsentimet Lili Aunimo Englannin lausekerakenteita ja taulukkojäsentäminen p.10/16 2005-03-22
Jäsentäminen Taulukkojäsentämisen perussääntö (The Fundamental Rule of Chart Parsing) Deklaratiivinen Jäsennysmenetelmiä: Alustus Sääntöjen kutsuminen. Tämä vaihe voi toteuttaa jäsentämisen esim. kokoavasti, osittavasti tai kumpaakin strategiaa yhdistävästi. Lili Aunimo Englannin lausekerakenteita ja taulukkojäsentäminen p.11/16 2005-03-22
Perussääntö ks. Gazdarin kalvot: The Fundamental Rule of Chart Parsing Esim. <1,2,S -> NP.VP> <i,j,a -> W1. B W2> <2,3,VP -> V.> <j,k,b -> W3.> <1,3,S -> NP VP.> <i,k,a -> W1 B. W2> A = S B = VP W1 = NP W2 = tyhjä W3 = V Lili Aunimo Englannin lausekerakenteita ja taulukkojäsentäminen p.12/16 2005-03-22
Alustus Gazdarin kalvot: Initialisation Lili Aunimo Englannin lausekerakenteita ja taulukkojäsentäminen p.13/16 2005-03-22
Sääntöjen kutsuminen Gazdarin kalvot Rule Invocation Kokoava vasen-kulma (left-corner) jäsennys Osittava Alustusvaiheessa lisää sääntö <0,0,A ->.W>, missä A on koko taulukon yli kulkeva kaari ja W on symbolimerkkijono (mahdollisesti tyhjä). Esim: <0,0,S ->.NP VP> Lili Aunimo Englannin lausekerakenteita ja taulukkojäsentäminen p.14/16 2005-03-22
Yhteenveto WFST on asyklinen verkko, johon voi tallentaa välitulokset. Taulukot ovat verkkoja, joihin voi tallentaa välitulokset ja hypoteesit. Taulukko koostuu joukosta kaaria kuvaavia triplettejä. Epäaktiivinen kaari on tulos. Aktiivinen kaari on hypoteesi. Taulukkojäsentämistä ohjaa perussääntö. Taulukkotietorakenne ei ota kantaa jäsennys- ja etsintästrategiaan. Lili Aunimo Englannin lausekerakenteita ja taulukkojäsentäminen p.15/16 2005-03-22
Seuraavalla luennolla Alikategorisointi Lausekkeen pää Kompositionaalinen semantiikka Lili Aunimo Englannin lausekerakenteita ja taulukkojäsentäminen p.16/16 2005-03-22