Kontekstittomat jäsennysmenetelmät Yleistä, kontekstittomat kieliopit, kokoava ja osittava jäsentäminen Lili Aunimo lili.aunimo@helsinki.fi Helsingin yliopisto Kieliteknologia Lili Aunimo Kontekstittomat jäsennysmenetelmät p.1/24 2005-03-15
Yleistä Järjestelyistä: Luennot: ti klo 14.15-15.25, yhteensä 7 kertaa Käytännön harjoitukset: ti klo 15.40-16.45, yhteensä 7 kertaa (läsnäolo tai oppimispäiväkirja) Kirjalliset harjoitustehtävät, 6 kpl Kurssiassistenttina Miikka Silfverberg Esitietovaatimukset: prolog-ohjelmointitaito ja syntaksin perustiedot. Lili Aunimo Kontekstittomat jäsennysmenetelmät p.2/24 2005-03-15
Kurssin sisältö kontekstittomat kieliopit, DCG-kieliopit, kontekstittomien kielioppien jäsentäminen: kokoava ja osittava jäsentäminen, taulukkojäsentäminen englannin jäsentäminen: alikategorisointi, lausekkeen leksikaalinen pää, kompositionaalinen semantiikka, leksikko ja leksikaaliset säännöt, piirteet, virheellisen kielen jäsentäminen ja englannin variaatio, ohjelmat: prologilla toteutettu HPSG-tyylinen kielioppi GramKit ja Prologin laajennus ProFIT. Lili Aunimo Kontekstittomat jäsennysmenetelmät p.3/24 2005-03-15
Lähteitä Graham Wilkockin kevään 2004 kurssin materiaali. Ivan Sag ja Thomas Wasow. Syntactic Theory: A Formal Introduction,1999. Motivaatio Englannin kielen kuvaaminen HPSG:llä. Syntaktinen teoria pitää voida testata käytännössä. Prolog-ohjelmointitaidon soveltaminen. Lili Aunimo Kontekstittomat jäsennysmenetelmät p.4/24 2005-03-15
Kontekstittomat kieliopit (CFG:t) Kielioppi on joukko sääntöjä, joka generoi hyvin muodostettuja virkkeitä, mutta ei generoi virheellisiä virkkeitä (generatiivinen kielioppi). Kieliopin pitäisi tuottaa samat virkeet kuin ko. kielen puhujat tuottavat. Kielen puhujilta voidaan kysyä, mitä virkkeitä he pitävät hyväksyttävinä. Esimerkki (rekursiivinen rakenne) siitä, että hyväksyttävyyden ja ei-hyväksyttävyyden raja ei ole ilmiselvä (1): Esimerkit (1) - (18): http://hpsg.stanford.edu/book/first edition/slides2.ps Lili Aunimo Kontekstittomat jäsennysmenetelmät p.5/24 2005-03-15
CFG 2/7 Vaikka virke olisi tuotettu kieliopin sääntöjen mukaan, voi se puhujan mielestä olla ei-hyväksyttävä. Selitys on ei-kieliopillinen: ihmisen kielen käsittelyn rajat tulevat vastaan. Esimerkki (2). Fell on usein fall-verbin mennyt aikamuoto, ja hyvin harvoin lato ylänkö (barn fell). The horse raced past the barn fell -virke on ei-hyväksyttävä ei-kieliopillisista syistä. Chomsky erottelikin kompetenssin (competence) ja suorituskyvyn (performance) toisistaan. Kehitämme kompetenssikielioppeja, ja käytämme suorituskykyyn liittyvä tekijöitä selittämään tiettyjen virkkeiden ei-hyväksyttävyyden. Lili Aunimo Kontekstittomat jäsennysmenetelmät p.6/24 2005-03-15
CFG 3/7 Miten kielioppi tulisi esittää? Listana virkkeitä? Listan pitäisi olla ääretön. Ihmisen tietämys kielestä yleistyy myös uusiin virkkeisiin. Säännöllisisnä lausekkeina? Esimerkki (3) Esittää listat kieliopin luokkien avulla. Listat esitetään tiiviisti säännöllisten lausekkeiden avulla. Notaatio: esimerkki, (4) - (6), äärellinen automaatti (7) Ratkaisee listojen äärellisyyden ja virkekohtaisuuden ongelman. Mutta: Toisteisuus eli sama rakenne kirjoitetaan uudelleen ja uudelleen, esim. kaksi rinnastuskonjunktiolla yhdistetyä NP:tä. Mutta: Rakenteista moniselitteisyyttä on mahdoton esittää. Lili Aunimo Kontekstittomat jäsennysmenetelmät p.7/24 2005-03-15
CFG 4/7 Kontekstiton kielioppi koostuu seuraavista osista: 1. Leksikko: Lista kategorioista ja niihin kuuluvista sanoista. 2. Sääntöjoukko: C 0 C 1...C n. 3. Leksikaaliset ja ei-leksikaaliset kategoriat (esim. N, V ja NP, VP). Esimerkkikielioppi (8) generoi äärettömän määrän virkkeitä ja pystyy esittämään rakenteellisen moniselitteisyyden, ks. (9). Kontekstittoman kieliopin ominaisuuksia: 1. Yksittäisiä sanoja suuremmat yksiköt eli lausekkeet ovat kielitieteellisesti merkityksellisiä yksiköitä. 2. Lausekkeet ovat yhtenäisiä virkeen osia. 3. Kaksi lauseketta ovat joko kokonaan erilliset tai toinen sisältää toisen kokonaan. 4. Lausekkeen rakenne määräytyy kokonaan sen tyypin perusteella, eikä sen kontekstilla ole mitään merkitystä. Lili Aunimo Kontekstittomat jäsennysmenetelmät p.8/24 2005-03-15
CFG 5/7 Ominaisuudet 1-3 kuvaavat lausekerakennekielioppia (phrase structure grammar). Ominaisuus 4 erottaa kontekstittoman kieliopin kontekstisesta kieliopista (context-sensitive grammar CSG). CSG sisältää sääntöjä, joita sovelletaan vain tietyssä kontekstissa, esim. A X, jos konteksti on Y _Z. Pätevätkö väitteet 1-4 luonnolliselle kielelle? Väite 1 on melko hyväksytty. Vastaesimerkkejä: väitteelle 2: (10), väitteille 3 ja 4: (11) Lili Aunimo Kontekstittomat jäsennysmenetelmät p.9/24 2005-03-15
CFG 6/7 Kokeillaan kahta eri puumääritelmää CFG:lle: 1. Proseduraalinen kokoava (bottom up) määritelmä vaatii, että puun alemmat osat on muodostettu ennen kuin ylemmistä osista voidaan sanoa mitään. 2. Deklaratiivinen rajoitepohjainen (constraint-based) määritelmä ei aseta mitään vaatimuksia sille, missä järjestyksessä puun eri osia tarkastellaan. Esimerkki: Kielioppi (12) Kokoava määritelmä (13a), (13b), (13c), (14) Rajoitepohjainen määritelmä. Ei-leksikaaliset puut (15), ei-leksikaaliset ja leksikaaliset puut (16) Lili Aunimo Kontekstittomat jäsennysmenetelmät p.10/24 2005-03-15
CFG 7/7 Kokoava ja rajoitepohjainen määritelmä hyväksyvät erilaiset jäsennykset virkkeille, jos CFG:hen on lisätty ominaisuuksia. Esimerkki: CSG, joka voi hyväksyä jäsennyspuun, jos käytetään rajoitepohjaista määritelmää, mutta ei jos käytetään kokoavaa määritelmää (17), (18). Sag ja Wasow:n HPSG (Head-driven Phrase Structure Grammar)-tyyppinen kielioppi käyttää rajoitepohjaista eli deklaratiivista jäsennyspuun määritelmää. Sag ja Wasow:n HPSG on kontekstiton kielioppi siinä mielessä, että kaikki ehdot, joiden pitää täyttyä, jotta rakenne olisi laillinen riippuvat vain isäsolmusta ja sen poikasolmuista. Lili Aunimo Kontekstittomat jäsennysmenetelmät p.11/24 2005-03-15
CFG:n jäsentäminen Kokoava (bottom-up) jäsentäminen Osittava (top-down) jäsentäminen Lili Aunimo Kontekstittomat jäsennysmenetelmät p.12/24 2005-03-15
Kokoava jäsentäminen 1/4 Esimerkkikielioppi: S -> NP VP VP -> V NP VP -> V NP: Dr. Chan NP: MediCenter NP: nurses NP: patients V: died V: employed Esimerkkivirke: MediCenter employed nurses. Lili Aunimo Kontekstittomat jäsennysmenetelmät p.13/24 2005-03-15
Kokoava jäsentäminen 2/4 Etsitään virkkeen ensimmäinen osa, joka täsmää säännön RHS:ään tai on terminaalisymboli: NP MediCenter employed nurses. Koska NP:tä ei voi uudelleenkirjoitaa, siirrytään seuraavaan sanaan: NP V MediCenter employed nurses. Koska NP:tä ja NP V:tä ei voi uudelleenkirjoitaa, uudelleenkirjoitetaan V: VP NP V MediCenter employed nurses. Lili Aunimo Kontekstittomat jäsennysmenetelmät p.14/24 2005-03-15
Koska NP ei käy, uudelleenkirjoitetaan NP VP: S VP NP V MediCenter employed nurses. Koska S ja S nurses ei käy, uudelleenkirjoitetaan nurses: S VP NP V NP MediCenter employed nurses. Lili Aunimo Kontekstittomat jäsennysmenetelmät p.15/24 2005-03-15
Koska S, S NP ja NP ei käy, peruutetaan edelliseen valintatilanteeseen: VP NP V MediCenter employed nurses. Koska NP, NP VP on kokeiltu ja VP ei käy, uudelleenkirjoitetaan nurses: VP NP V NP MediCenter employed nurses. Uudelleenkirjoittamista ja peruuttamista jatketaan, kunnes: NP V NP MediCenter employed nurses. Lili Aunimo Kontekstittomat jäsennysmenetelmät p.16/24 2005-03-15
Uudelleenkirjoitetaan V NP: VP NP V NP MediCenter employed nurses. Koska NP ei käy, uudelleenkirjoitetaan NP VP: S VP NP V NP MediCenter employed nurses. Lili Aunimo Kontekstittomat jäsennysmenetelmät p.17/24 2005-03-15
Kokoava jäsentäminen 3/4 Sama hakupuuna: m e n NP e n NP V n NP VP n NP V NP NP VP S n NP VP NP S SUCCESS! S NP S NP Lili Aunimo Kontekstittomat jäsennysmenetelmät p.18/24 2005-03-15
Kokoava jäsentäminen 4/4 Kokoavasti ja oikealta vasemmalle toimivat jäsentimet, jotka indeksoivat kielioppisäännöt RHS:n vasemmanpuolisimman kategorian mukaan, ovat left-corner jäsentimiä. Ongelmana tyhjät RHS:t, eli ɛ -produktiot. Esim. VP -> V VCOMP VCOMP -> NP VCOMP -> ɛ Lili Aunimo Kontekstittomat jäsennysmenetelmät p.19/24 2005-03-15
Osittava jäsentäminen 1/3 S voi koostua NP:stä ja VP:stä. S NP VP NP voi koostua terminaalisymbolista nurses: S NP VP nurses NP voi koostua terminaalisymbolista nurses, mutta se ei ole merkkijonon ensimmäinen sana, MediCenter käy: S NP VP MediCenter Lili Aunimo Kontekstittomat jäsennysmenetelmät p.20/24 2005-03-15
VP voi koostua V:stä, ja V voi koostua terminaalisymbolista died, mutta se ei ole merkkijonon seuraava sana, employed käy: S NP VP V MediCenter employed Peruutetaan edelliseen valintatilanteeseen: S NP VP MediCenter Lili Aunimo Kontekstittomat jäsennysmenetelmät p.21/24 2005-03-15
VP voi koostua V:stä ja NP:stä: S NP VP V NP MediCenter V voi koostua terminaalisymbolista died, mutta se ei käy. employed käy. NP voi koostua terminaalisymbolista nurses, ja se käy: S NP VP V NP MediCenter employed nurses Lili Aunimo Kontekstittomat jäsennysmenetelmät p.22/24 2005-03-15
Osittava jäsentäminen 2/4 S: m e n NP VP: m e n m VP: m e n d VP: m e n n VP: m e n p VP:m e n VP: e n V:e n V NP: e n d:e n e: en d NP: e n e NP: e n : n NP: n d:n n: n m:n p:n SUCCESS! Lili Aunimo Kontekstittomat jäsennysmenetelmät p.23/24 2005-03-15
Kokoava jäsentäminen 3/3 Parempilaatuinen kuva, ks. http://www.ling.helsinki.fi/kit/2005k/ctl254/l1/topdownsearchtree.txt Ongelma: vasen rekursio Esimerkki: VP -> V VP -> VP NP Vasemmalta oikealle etenevä osittava jäsentäjä joutuu ikuiseen silmukkaan. Lili Aunimo Kontekstittomat jäsennysmenetelmät p.24/24 2005-03-15