Kevät 2003 Timo Honkela ja Kris- ta Lagus

Samankaltaiset tiedostot
5. Kontekstitieto ja yhteisesiintyminen

T Luonnollisen kielen tilastollinen käsittely Vastaukset 8, ti , 8:30-10:00 Tilastolliset yhteydettömät kieliopit, Versio 1.

T Syksy 2002 Tietojenkäsittelyteorian perusteet Harjoitus 8 Demonstraatiotehtävien ratkaisut

S BAB ABA A aas bba B bbs c

Chomskyn hierarkia ja yhteysherkät kieliopit

JOHDATUS TEKOÄLYYN TEEMU ROOS

Kontekstittomat jäsennysmenetelmät

Luonnollisen kielen tilastollinen käsittely. T (3 ov) L. Kevät 2004 Timo Honkela ja Kris- ta Lagus

Yhteydettömät kieliopit [Sipser luku 2.1]

T Syksy 2006 Tietojenkäsittelyteorian perusteet T Harjoitus 7 Demonstraatiotehtävien ratkaisut

9.5. Turingin kone. Turingin koneen ohjeet. Turingin kone on järjestetty seitsikko

Vasen johto S AB ab ab esittää jäsennyspuun kasvattamista vasemmalta alkaen:

8. Kieliopit ja kielet

TIEA241 Automaatit ja kieliopit, kevät Antti-Juhani Kaijanaho. 2. helmikuuta 2012

Luonnollisen kielen tilastollinen käsittely. T (3 ov) L. Kevät Luentokalvot: Krista Lagus (päivityksiä: Timo Honkela)

Rajoittamattomat kieliopit (Unrestricted Grammars)

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

uv n, v 1, ja uv i w A kaikilla

Pinoautomaatit. TIEA241 Automaatit ja kieliopit, kesä Antti-Juhani Kaijanaho. 6. kesäkuuta 2013 TIETOTEKNIIKAN LAITOS. Pinoautomaatit.

TIEA241 Automaatit ja kieliopit, kevät 2011 (IV) Antti-Juhani Kaijanaho. 31. maaliskuuta 2011

Laskennan mallit (syksy 2010) Harjoitus 8, ratkaisuja

FORMAALI SYSTEEMI (in Nutshell): aakkosto: alkeismerkkien joukko kieliopin määräämä syntaksi: sallittujen merkkijonojen rakenne, formaali kuvaus

TIEA241 Automaatit ja kieliopit, kesä Antti-Juhani Kaijanaho. 29. toukokuuta 2013

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 16. marraskuuta 2015

TIEA241 Automaatit ja kieliopit, kevät 2011 (IV) Antti-Juhani Kaijanaho. 31. maaliskuuta 2011

M =(K, Σ, Γ,, s, F ) Σ ={a, b} Γ ={c, d} = {( (s, a, e), (s, cd) ), ( (s, e, e), (f, e) ), (f, e, d), (f, e)

8. Kieliopit ja kielet 1 / 22

(0 1) 010(0 1) Koska kieli on yksinkertainen, muodostetaan sen tunnistava epädeterministinen q 0 q 1 q 2 q3

4. Tehtävässä halutaan todistaa seuraava ongelma ratkeamattomaksi:

jäsentäminen TIEA241 Automaatit ja kieliopit, syksy 2015 Antti-Juhani Kaijanaho 26. marraskuuta 2015 TIETOTEKNIIKAN LAITOS

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 3. lokakuuta 2016

Muodolliset kieliopit

Testaa: Vertaa pinon merkkijono syötteeseen merkki kerrallaan. Jos löytyy ero, hylkää. Jos pino tyhjenee samaan aikaan, kun syöte loppuu, niin

Ongelma(t): Miten jollakin korkeamman tason ohjelmointikielellä esitetty algoritmi saadaan suoritettua mikro-ohjelmoitavalla tietokoneella ja siinä

Pinoautomaatit. TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 6. lokakuuta 2016 TIETOTEKNIIKAN LAITOS

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 30. marraskuuta 2015

TIEA241 Automaatit ja kieliopit, kevät Antti-Juhani Kaijanaho. 12. kesäkuuta 2013

Luonnollisen päättelyn luotettavuus

Turingin koneet. Sisällys. Aluksi. Turingin koneet. Turingin teesi. Aluksi. Turingin koneet. Turingin teesi

1. Markov-mallit. 1.1 Näkyvät Markov-mallit (Markov-ketjut)

11.4. Context-free kielet 1 / 17

5.3 Ratkeavia ongelmia

Laskennan teoria (kevät 2006) Harjoitus 3, ratkaisuja

Luku 6. Dynaaminen ohjelmointi. 6.1 Funktion muisti

Säännölliset kielet. Sisällys. Säännölliset kielet. Säännölliset operaattorit. Säännölliset kielet

Turingin koneen laajennuksia

on rekursiivisesti numeroituva, mutta ei rekursiivinen.

Attribuuttikieliopit

Algoritmit 2. Luento 13 Ti Timo Männikkö

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tehtävä 1. Oletetaan että uv on neliö ja (u, v) = 1. Osoita, että kumpikin luvuista u ja v on. p 2j i. p j i

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

TIEA241 Automaatit ja kieliopit, kesä Antti-Juhani Kaijanaho. 10. kesäkuuta 2013

T Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1

Englannin lausekerakenteita ja taulukkojäsentäminen

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Yhteydettömän kieliopin jäsennysongelma

TIEA341 Funktio-ohjelmointi 1, kevät 2008

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 19. syyskuuta 2016

Säännöllisen kielen tunnistavat Turingin koneet

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Kieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat

Sovellettu todennäköisyyslaskenta B

Hahmon etsiminen syotteesta (johdatteleva esimerkki)

Mat Lineaarinen ohjelmointi

811312A Tietorakenteet ja algoritmit, , Harjoitus 7, ratkaisu

Konsensusongelma hajautetuissa järjestelmissä. Niko Välimäki Hajautetut algoritmit -seminaari

Kieli merkitys ja logiikka

Kieli merkitys ja logiikka

Mallipohjainen klusterointi

Algoritmit 2. Luento 8 To Timo Männikkö

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

Äärellisten automaattien ja säännöllisten kielten ekvivalenssi

815338A Ohjelmointikielten periaatteet Harjoitus 2 vastaukset

1. Osoita, että joukon X osajoukoille A ja B on voimassa toinen ns. de Morganin laki (A B) = A B.

Algoritmit 1. Luento 2 Ke Timo Männikkö

Tarkastelemme ensin konkreettista esimerkkiä ja johdamme sitten yleisen säännön, joilla voidaan tietyissä tapauksissa todeta kielen ei-säännöllisyys.

Dynaamiset regressiomallit

Sana rakenteen kategoriana (A. Radford: Transformational Grammar. A First Course)

Algoritmit 2. Luento 6 To Timo Männikkö

9. N-grammi-kielimallit

Pelaisitko seuraavaa peliä?

Chomskyn hierarkia. tyyppi 0 on juuri esitelty (ja esitellään kohta lisää) tyypit 2 ja 3 kurssilla Ohjelmoinnin ja laskennan perusmallit

4.0.2 Kuinka hyvä ennuste on?

Mat Lineaarinen ohjelmointi

1. Universaaleja laskennan malleja

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Johdatus matematiikkaan

Jäsennys. TIEA341 Funktio ohjelmointi 1 Syksy 2005

Automaatit. Muodolliset kielet

Kevät 2003 Timo Honkela ja Kris- ta Lagus

JOHDATUS TEKOÄLYYN TEEMU ROOS

1. Tilastollinen malli??

11. laskuharjoituskierros, vko 15, ratkaisut

Viikko 1: Johdantoa Matti Kääriäinen

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

Laskennan mallit (syksy 2009) Harjoitus 11, ratkaisuja

Kieli merkitys ja logiikka. 4: Luovuus, assosiationismi. Luovuus ja assosiationismi. Kielen luovuus. Descartes ja dualismi

5/11 6/11 Vaihe 1. 6/10 4/10 6/10 4/10 Vaihe 2. 5/11 6/11 4/11 7/11 6/11 5/11 5/11 6/11 Vaihe 3

MS-A0004/A0006 Matriisilaskenta

Transkriptio:

Luonnollisen kielen tilastollinen käsittely T-61.281 (3 ov) L Kevät 2003 Timo Honkela ja Kris- Luennot: ta Lagus Laskuharjoitukset: Vesa Siivola Luentokalvot: Krista Lagus ja Timo Honkela

10. Probabilistinen jäsentäminen ja PCFG:t........... 3 10.1 Mikä on PCFG................... 6 10.2 Lauseen todennäköisyyden laskeminen....... 16 10.3 Inside-algoritmi................... 18 10.4 Todennäköisimmän jäsennyksen etsiminen..... 20 10.5 PCFG:n estimointi................. 21 10.6 (P)CFG:n ongelmia................. 26 10.7 Probabilistinen leksikalisoitu CFG.......... 35 2

10. Probabilistinen jäsentäminen ja PCFG:t PCFG=Probabilistic Context Free Grammar Todennäköisyyksiin perustuva yhteysvapaa (kontekstivapaa) kielioppi Motivaatio Tähän asti kielen säännönmukaisuuksia kuvattu vain sanatasolla (ngrammimallit) tai sanakategoriatasolla (sanaluokat ja HMM) Sekventiaalisten riippuvuuksien lisäksi muunkinlaisia ilmiöitä, esim. rekursiivisia. Esim. The velocity of the seismic waves rises to... P( waves rises ) on hyvin pieni esim. sanaluokkiin perustuvalla HMMtaggerilla, koska yksiköllistä verbimuotoa harvoin edeltää monikollinen substantiivi (yleensä sitä edeltää yksiköllinen substantiivi, verbin subjekti; ilmiötä kutsutaan nimellä verb agreement ). 3

Motivaatio, jatkoa Keskeinen havainto: yksittäisten sanojen sijaan riippuvuudet voidaan ehkä paremmin kuvata suurempien kokonaisuuksien välillä oletetaan hierarkkinen rakenne myös lauseiden tai virkkeiden sisällä. (Hierarkkisuus yleisemmällä tasolla: dokumentti, kappale, lause, sana, kirjain, veto). Vastaavaa hierarkkisuutta myös muualla kuin kielessä, esim. konenäön hahmontunnistusongelmat, joihin myös voidaan soveltaa syntaktisia hahmontunnistusmenetelmiä. 4

Lauseen hierarkkinen rakenne Seuraavassa on esimerkki lauseen sisäisestä hierarkkisesta rakenteesta (kirjan kuva 11.2). Voidaan ajatella että riippuvuus on tässä peräkkäiden rakenneosien NP SG ja V P SG välillä. 5

10.1 Mikä on PCFG CFG:n luonteva laajennus: CFG, jonka sääntöihin on liitetty laukeamistodennäköisyydet. [CFG = kontekstivapaa kielioppi] PCFG on probabilististen kielioppien eräs alalaji, ts. vain eräs tapa mallintaa hierarkkista rakennetta probabilistisesti. Tekemällä erilaisia riippumattomuusoletuksia päädytään erilaiseen malliperheeseen. 6

PCFG:n osat PCFG koostuu seuraavista osista: terminaalisymbolien joukko, ei-terminaalisymbolien joukko, joukko korvaussääntöjä N i γ j jossa γ j on terminaali- ja ei-terminaalisymboleista koostuva jono Kullekin säännölle ehdollinen laukeamistodennäköisyys: P (N i γ j N i ) = 1 (1) j 7

Notaatiota G kielioppi L G kieli jonka kielioppi G tuottaa t jäsennyspuu tulostus(t) jäsennyspuun t jäsentämä sanajono {N 1,..., N n } ei-terminaalisymbolien aakkosto (N 1 on alkusymboli) {w 1,..., w V } terminaalisymbolien aakkosto w 1... w m jäsennettävä lause (sanajono) Npq j ei-terminaalisymboli N j kattaa jonossa positiot p:stä q:hun. 8

Riippumattomuusoletukset PCFG:ssä korvaussäännön tn on ehdollinen ainoastaan sille, missä ei-terminaalissa nyt ollaan, eli N i. Tarkastellaan tarkemmin riippumattomuusoletuksia, joita tässä tehdään. Rakenteellinen paikkariippumattomuus: alipuun tn ei riipu siitä, missä osassa isompaa puuta alipuu sijaitsee (vrt. HMM:n ajallinen stationaarisuus). Leksikaalinen kontekstiriippumattomuus: alipuun tn ei riipu alipuuhun kuulumattomista kontekstin sanoista. Riippumattomuus esivanhemmista: Alipuun tn ei riipu siitä, mitä sääntöjä käyttäen alipuu generoitiin. 9

Huomioita probabilistisesta kieliopista Antaa probabilistisen mallin kielen generoinnille. Arvioi kunkin jäsennyksen todennäköisyyden. Kattavissa kieliopeissa yhdelle lauseelle yleensä hyvin monta mahdollista jäsennystä, jopa tuhansia per lause. Prob. kielioppi (esim. PCFG-malliperhettä käyttäen opittu) ei yritäkään jakaa lauseita ei-kieliopillisiin ja kieliopillisiin. Virheelliset lauseet vain ovat paljon epätodennäköisempiä. Jos dataa on riittävästi, PCFG:llä kieliopin oppiminen mahdollista ilman negatiivista evidenssiä (ei-kieliopillisia lauseita). 10

Peruskysymykset PCFG:lle Lauseen todennäköisyyden laskeminen Todennäköisimmän jäsennyksen valinta lauseelle PCFG:n parametrien estimointi joko jäsennetystä (ohjattu oppiminen) tai jäsentämättömästä datasta (ohjaamaton oppiminen) 11

Chomskyn normaalimuoto Keskitytään tästedes kontekstivapaisiin kielioppeihin, jotka ovat Chomskyn normaalimuodossa eli säännöt ovat binäärisiä tai unaarisia: N i N j N k N i w j PCFG:n parametrien määrät ovat tällöin: P (N j N r N s G) P (N j w k G) Jos n ei-terminaalia, n 3 parametria Jos V terminaalia, nv parametria Kaikille j pätee lisäksi: P (N j N r N s ) + r,s k P (N j w j ) = 1 (2) Tämä johtuu siitä että yo. parametrit ovat ehdollisia todennäköisyyksiä ehdolla N j. 12

Chomskyn hierarkia kielille Yhteys-/kontekstivapaus on eräs kielen kompleksisuutta kuvaava taso. Chomsky jakaa kielet seuraavanlaiseen kompleksisuushierarkiaan: (Taulukko on kirjasta Jurafsky & Martin, s. 479) Tässä A on yksittäinen ei-terminaalisymboli ja α, β ja γ ovat mitä tahansa terminaalien ja ei-terminaalien jonoja. Tyyppi Nimi Sääntörunko 0 Turing-ekvivalentti α β s.e. α ɛ 1 Kontekstiherkkä αaβ αγβ s.e. γ ɛ 2 Kontekstivapaa A γ 3 Säännöllinen A xb tai A x 13

Chomskyn hierarkia kielille, selitykset Tyyppi 0 vastaavat niitä kieliä, joiden symbolijonot voidaan tuottaa (listata) Turing-koneella. Ainoa rajoitus säännöille on, että tyhjästä ei voi nyhjästä. Kontekstiherkät kielet muuntavat symbolin toiseksi riippuen sen oikean- ja vasemmanpuoleisesta kontekstista. Sääntöjen on myös tuotettava jotakin. Kontekstivapaissa kielissä ei-terminaalisymboli voidaan korvata millä tahansa ei-terminaalien ja terminaalien jonolla (mukaanlukien tyhjä jono). Näitä toteuttavat esim. lauserakennekieliopit. Säännölliset kielet ovat ekvivalentteja säännöllisten lausekkeiden (regular expressions) kanssa. Ne voivat olla oikea- tai vasenkätisesti lineaarisia. Niitä toteuttavat esim. äärelliset tilakoneet. 14

Yhtäläisyys HMM:n ja PRG:n välillä PRG = probabilistic regular grammar, eli todennäköisyyksiä hyödyntävä säännöllinen kielioppi. Esimerkkilause P(John decided to bake a) saisi luultavasti korkean todennäköisyyden HMM:ssä (koska se on järkevä sanajono) mutta matalan PRG:ssä (koska ei ole kokonainen lause). PRG voidaan kuitenkin implementoida HMM:n avulla lisäämällä HMM:ään alkutilan lisäksi lopputila, joka vastaa lauseen päättymistä. 15

10.2 Lauseen todennäköisyyden laskeminen P (w 1m G) = t = P (w 1m, t G) (3) t,tulostus(t)=w 1m P (t G)g (4) jossa t on kieliopin G säännöillä tuotettu jäsennyspuu lauseelle w 1m. 16

Esimerkki lauseen todennäköisyyden laskemisesta Oletetaan että t:n aikaansaamiseksi sovellettiin G:n sääntöjä s i,s k, ja s a ja tulostuksena oli sanajono w pq. Tällöin P (t G) = P (s i s k s a ) = P (s i, s k, s a ) = P (s a s i, s k )P (s k s i )P (s i ) = P (s a )P (s k )P (s i ) Ylläolevassa kaikki tn:t ovat ehdollisia kieliopille G, joten tämä on jätetty merkitsemättä. Eli P (w pq G) on niiden G:n sääntöjen todennäköisyyksien tulo joita t:n muodostamiseksi sovellettiin. Yleisessä tapauksessa ei kannata (laskennallisista syistä) summata yli kaikkien mahdollisten jäsennysten. Samoin kuin HMM:llä mahdollisia polkuja on liikaa. Ongelma voidaan paloitella osaongelmiksi, ratkaista palat kerrallaan ja vierittää palojen tuloksia eteenpäin. 17

10.3 Inside-algoritmi Inside-algoritmi vastaa HMM:ien forward-algoritmia ja sillä voidaan laskea lauseen todennäköisyys. b j (p, q) tarkoittaa N j :n alla olevan alipuun, joka kattaa sanajonon w pq, tn:n laskemista Perustapaus: lasketaan tn, kun muunnetaan ei-terminaali terminaaliksi: b j (k, k) = (w k N j kk, G) Induktioaskel: tn, kun muunnetaan ei-terminaali kahdeksi ei-terminaaliksi: oletetaan sääntö N j N r N s ja jonon jako w pq = w pd w dq Tällöin b j (p, q) = q 1 r,s d=p b r(p, d) b s (d + 1, q) Eli samalla, kun puu jakautuu kahdeksi osapuuksi, jono w pq jaetaan kahtia, ja rekursiivisesti sovelletaan induktioaskelta kumpaankin osapuuhun. 18

Lisäksi summataan yli kaikkien mahdollisten jonon jakojen ja kaikkien eiterminaalisymbolien nimien, jotka voidaan muuntaa N j :stä kieliopissa G. Inside-todennäköisyydet voidaan laskea tehokkaasti alhaalta ylös (bottomup). 19

10.4 Todennäköisimmän jäsennyksen etsiminen Todennäköisimmän jäsennyksen etsimiseen (samoin kuin HMM:llä) voidaan soveltaa Viterbi-tyypistä algoritmia. Tämä on kompleksisuudeltaan O(n 3 m 3 ) jossa m on jonon pituus ja n eiterminaalien lukumäärä kieliopissa. 20

10.5 PCFG:n estimointi Annettuna sääntöjoukko: Tapaus 1: Jokin olemassaoleva CFG, joka hyväksyy koko aineiston. Tapaus 2: Kaikkien mahdollisten sääntöjen joukko. Tapaus 3: Kaikkien mahdollisten sääntöjen joukko paitsi, että oletetaan valmiiksi jotakin rakennetta, esim. jokin ei-terminaalisymbolien osajoukko varattu generoimaan pelkästään terminaalisymboleja. 21

Estimointi, kun käytettävissä jäsennettyä aineistoa Annettuna sääntöjoukon Tapaus 1 sekä puupankki (treebank) eli suuri määrä jäsennettyä aineistoa. Lasketaan suoraan sääntöjen soveltamiskertoja ja normalisoidaan. ML-estimaatti: Count(α β) P (α β) = Count(α) 22

Estimointi, kun käytettävissä vain jäsentämätöntä aineistoa Sääntöjoukon tapaus 1: Jäsennetään aineisto annetulla CFG:llä ja tämän jälkeen kuten edellä. Käytännössä jäsennykset moniselitteisiä: yhden jäsennyksen sijaan painotetaan eri jäsennyksiä niiden tn:llä. Sääntöjoukon tapaukset 2 ja 3: Kuten HMM:llä, sovelletaan erästä EM-algoritmia, Inside-Outside-algoritmia, joka muistuttaa forward-backward-algoritmia. 23

Estimointialgoritmi Mallin ML-estimointi: maksimoidaan datan todennäköisyys. Parametreja ovat sääntöjen tn:t. Perusperiaate: Alustus esim. satunnaisilla parametreilla. Vaihe 1: Sovelletaan tämänhetkistä mallia (PCFG:tä) datan tn:n laskemiseen ja samalla pidetään kirjaa siitä, kuinka paljon mitäkin sääntöä käytettiin. Vaihe 2: Päivitetään sääntöjen tn:t vaiheen 1 kirjanpidon perusteella. Toistetaan vaiheita 1 ja 2. 24

Ongelmia probabilistisen kieliopin ei-ohjatussa oppimisessa Ongelman kompleksisuus ja tästä johtuva estimoinnin hitaus. Jokaiselle lauseelle jokainen iteraatio on kompleksisuudeltaan O(m 3 n 3 ), jossa m on lauseen pituus ja n ei-terminaalien määrä lauseessa. Kustannusfunktion lokaalit minimit ovat hyvin todennäköisiä. Esim. yksinkertaisella keinotekoisella PCFG:stä generoidulla aineistolla estimoitaessa 300 eri ajolla päädyttiin jokaisella eri lokaaliin minimiin. Alustuksella on siis hyvin suuri vaikutus. Mallien koko kasvaa helposti suureksi, koska mallin kokoa ei kustannusfunktiossa mitenkään huomioida. Ratkaisu: kustannusfunktion vaihto sellaiseksi, joka huomioi myös mallin koon. Perusteltuja lähestymistapoja tähän ovat MDL ja Bayesilainen estimointi. Ei-terminaaleilla, joita malli oppii, ei välttämättä ole mitään tekemistä lingvistisen teorian ei-terminaalien kanssa. 25

10.6 (P)CFG:n ongelmia Säännön soveltamisen todennäköisyys ei riipu siitä, missä kohtaa koko puuta alipuu sijaitsee (P)CFG ei huomioi leksikaalista kontekstia 26

Säännön soveltamisen todennäköisyys ei riipu siitä, missä kohtaa koko puuta alipuu sijaitsee. CFG:n riippumattomuusoletukset säännön soveltaminen riippuu vain senhetkisestä ei-terminaalisymbolista. Kuitenkin esim. englannissa pronominilausekkeen esiintymistn riippuu voimakkaasti sijainnista koko lauseessa: Väitelauseiden subjektina pronominin P=91% (loput 9% leksikaalisia), kun taas objektina P=34% (loput 66% leksikaalisia). Usein lauseen alkupäässä viitataan siihen mitä jo tiedetään aiemman keskustelun pohjalta ja loppupäässä tuodaan ilmi ko. asiaa koskevaa uutta tietoa: Presidentti Tarja Halonen aloitti kautensa maakuntakierroksella. Hän tapasi ensin Joensuun kaupungin johtavia virkamiehiä ja jatkoi... Ongelma ratkeaisi, jos P(NP Pronomini) ja P(NP Nomini) ehdollistettaisiin sillä, onko NP subjekti- vai objektipositiossa. Mutta juuri tätä eivät PCFG:n riippumattomuusoletukset salli. 27

(P)CFG ei huomioi leksikaalista kontekstia Englannissa prepositiolausekkeen kiinnittymisongelma: I shot an elephant in my pyjamas USA sent more than 10,000 soldiers into Afghanistan Sotilaiden lähettämisen tapauksessa leksikaalinen tieto eli että kyseessä on send-verbi ja into-prepositio auttavat disambiguoimaan esimerkin. Elefanttiesimerkkiin saatetaan tarvita maailmantietoa: elefantit eivät yleensä käytä yöpukuja paitsi saduissa. Suomessa vastaavanlainen monitulkintaisuus: Ammuin elefantin yöpuvussa Ammuin elefantin jolla oli päällään yöpuku. Ammuin yöpukusillani elefantin. 28

Vastaava ilmiö: Koordinaatiomonitulkintaisuus: dogs in houses and cats 1. dogs in [NP houses and cats] 2. [NP dogs in houses] and cats Semanttinen preferointi: koirat eivät mahdu kissoihin, joten 2. vaihtoehto olisi oikea. (P)CFG:ssä kuitenkin ylläoleviin lukutapoihin sovellettavat säännöt ovat rakenteisesti identtisiä, eli ei kykene preferoimaan vaihtoehtoja. 29

Joitain havaintoja toimivuudesta englannille: PCFG:n ennustuskyky tavallisesti parempi kuin HMM:n, kun sama määrä parametrejä. Englannille PCFG yleensä huonompi kielimalli kuin n-grammimalli. Johtuu siitä, ettei kontekstin leksikaalista tietoa huomioida (riippumattomuusoletukset). Puhdas PCFG ei siis ole hyvä, mutta ehdollistaminen leksikaalisella tiedolla tai puun rakennekontekstilla voi parantaa tulosta. 30

Onko PCFG aito kielimalli? Jotta PCFG olisi aito kielimalli, täytyisi päteä: w L = t P (t) = 1 eli kieliopin tuottamien lauseiden saaman todennäköisyysmassan pitäisi olla 1. Kuitenkin tämän toteutuminen edellyttää, että mallissa ei ole mahdollisuutta äärettömään rekursioon. Jos ääretön rekursio on mahdollista, osa tnmassasta katoaa sinne, eikä päädy koskaan kielen lauseiksi. 31

Esimerkki Tarkastellaan esimerkiksi kielioppia: S raparperi, P=1/3 S S S, P = 2/3 Tässä suuri osa eli noin 42% jäsennysten tn-massasta katoaa äärettömään rekursioon. Kyseessä on epäkonsistentti tn-jakauma. 32

Ongelmattomia tapauksia Todennäköisyysmassan katoaminen rekursiossa ei ole ongelma, kun etsitään todennäköisin jäsennys annetulle lauseelle, vertaillaan kahden lauseen tn:ää annetussa kieliopissa tai estimoidaan PCFG:n parametrit jäsennetystä korpuksesta (Chi & Geman, 1998) 33

Ongelmallisia tapauksia Todennäköisyysmassan katoaminen on ongelma, kun tehdään vertailuja eri kielioppien/kielimallien välillä, siis kun: lasketaan jonkin lauseen tn tässä kieliopissa ja verrataan tn:ään jossain toisessa kieliopissa (jossa tn-massa kokonaan tai sen erisuuri osuus kieliopin lauseilla), estimoidaan PCFG:n parametrit ohjaamattomasti toisin sanoen jäsentämättömästä korpuksesta, tai tehdään mallin valintaa eli vertaillaan eri CFG:n sääntöjoukkoja 34

10.7 Probabilistinen leksikalisoitu CFG Leksikalisointi tarkoittaa sanatiedon ottamista huomioon. Menetelmä: Jokaiseen ei-terminaalisymboli N i jäsennyspuussa t liitetään ko. alipuun pääsana (head) (Charniak 1997, Collins 1999) CFG:ssä jokaisen säännön kohdalle merkitään, mikä säännön oikealla puolella olevista symboleista on päätytär ts. sisältää pääsymbolin (esim. NN on NP:n päätytär). Päätyttären valinta suoraviivaista oppikirjalauseille, mutta yleisesti ottaen hankalaa (lingvistiikan kirjat saattavat spesifioida säännöt tämän tekemiseen kyseiselle kielelle). 35

Puuesimerkki 36

Attribuuttikieliopeista Kielioppia, jossa jokaisella ei-terminaalinoodilla on myös jokin terminaalisymboliarvo, kutsutaan myös attribuuttikieliopiksi. PCFG:ssä jokaista päätyttären mahdollista arvoa on varten oma todennäköisyys (ts. oma sääntö). Periaatteessa siis esim: V P (dumped) V BD(dumped)NP (sacks)p P (into)[3 10 10 ] V P (dumped) V BD(dumped)NP (cats)p P (into)[8 10 11 ] V P (dumped) V BD(dumped)NP (hats)p P (into)[4 10 10 ] V P (dumped) V BD(dumped)NP (sacks)p P (above)[1 10 12 ] Käytännössä mikään aineisto ei riitä näin valtavan mallin estimointiin tehdään taas tiettyjä riippumattomuusoletuksia, joiden avulla ryhmitellään (sidotaan) osa todennäköisyyksistä samoiksi. Esim. voidaan käyttää leksikalisointia vain säännön vasemmalla puolella: V P (dumped) V BD NP P P 37

Eri tilastolliset jäsentimet eroavat toisistaan siinä, minkälaisia riippumattomuusoletuksia niissä tehdään. Suuremmasta sääntömäärästä johtuen leksikalisoidun PCFG:n estimointi ohjaamattomalla (ilman jäsennettyä dataa) oppimisella käytännössä mahdotonta, ainakin toistaiseksi. 38