T Luonnollisen kielen tilastollinen käsittely Vastaukset 8, ti , 8:30-10:00 Tilastolliset yhteydettömät kieliopit, Versio 1.

Samankaltaiset tiedostot
Matematiikan tukikurssi, kurssikerta 5

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Matematiikan tukikurssi

w + x + y + z =4, wx + wy + wz + xy + xz + yz =2, wxy + wxz + wyz + xyz = 4, wxyz = 1.

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

Lukuteoria. Eukleides Aleksandrialainen (n. 300 eaa)

T Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1

T Luonnollisten kielten tilastollinen käsittely

Kolmannen ja neljännen asteen yhtälöistä

Lukion matematiikkakilpailun alkukilpailun ratkaisut Perussarja P1. Merkitään p:llä paidan ja h:lla housujen hankintahintaa sekä m:llä nä

= 2±i2 7. x 2 = 0, 1 x 2 = 0, 1+x 2 = 0.

JOHDATUS TEKOÄLYYN TEEMU ROOS

ja λ 2 = 2x 1r 0 x 2 + 2x 1r 0 x 2

Helsingin, Itä-Suomen, Jyväskylän, Oulun, Tampereen ja Turun yliopisto Matematiikan valintakoe klo 10 13

Johdatus todennäköisyyslaskentaan Kertymäfunktio. TKK (c) Ilkka Mellin (2005) 1

Diplomi-insinööri- ja arkkitehtikoulutuksen yhteisvalinta 2018 Insinöörivalinnan matematiikan koe, , Ratkaisut (Sarja A)

1 Bayesin teoreeman käyttö luokittelijana

Yhdistetty funktio. Älä sekoita arvo- eli kuvajoukkoa maalijoukkoon! (wikipedian ongelma!)

14 Jatkuva jakauma. Käsitellään kuitenkin ennen täsmällisiä määritelmiä johdatteleva

Yhtälöryhmät 1/6 Sisältö ESITIEDOT: yhtälöt

Tenttiin valmentavia harjoituksia

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.

5/11 6/11 Vaihe 1. 6/10 4/10 6/10 4/10 Vaihe 2. 5/11 6/11 4/11 7/11 6/11 5/11 5/11 6/11 Vaihe 3

Aalto-yliopiston perustieteiden korkeakoulu Matematiikan ja systeemianalyysin laitos

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Helsingin, Itä-Suomen, Jyväskylän, Oulun, Tampereen ja Turun yliopisto Matematiikan valintakoe klo Ratkaisut ja pisteytysohjeet

Matemaattinen Analyysi

811120P Diskreetit rakenteet

Ei-yhteydettömät kielet [Sipser luku 2.3]

Sarjoja ja analyyttisiä funktioita

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Kertymäfunktio. TKK (c) Ilkka Mellin (2007) 1

T Luonnollisten kielten tilastollinen käsittely Vastaukset 5, ti , 16:15-18:00 N-grammikielimallit, Versio 1.0

mplperusteet 1. Tiedosto: mplp001.tex Ohjelmat: Maple, [Mathematica] Sievennä lauseke x 1 ( mplp002.tex (PA P1 s.2011)

2.2.1 Ratkaiseminen arvausta sovittamalla

Nopea kertolasku, Karatsuban algoritmi

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

1.2 Raja-arvon määrittäminen käytännön tilanteissa

Tarkastelemme ensin konkreettista esimerkkiä ja johdamme sitten yleisen säännön, joilla voidaan tietyissä tapauksissa todeta kielen ei-säännöllisyys.

Johdatus diskreettiin matematiikkaan Harjoitus 5, Ratkaise rekursioyhtälö

Ellipsoidimenetelmä. Samuli Leppänen Kokonaislukuoptimointi. S ysteemianalyysin Laboratorio

1 Kertaus. Lineaarinen optimointitehtävä on muotoa:

LUKUTEORIA johdantoa

Vapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0.

Numeeriset menetelmät

4 Matemaattinen induktio

Lineaarikuvauksen R n R m matriisi

Aalto-yliopiston perustieteiden korkeakoulu Matematiikan ja systeemianalyysin laitos

3. Teoriaharjoitukset

7. Olemassaolo ja yksikäsitteisyys Galois n kunta GF(q) = F q, jossa on q alkiota, määriteltiin jäännösluokkarenkaaksi

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Induktiota käyttäen voidaan todistaa luonnollisia lukuja koskevia väitteitä, jotka ovat muotoa. väite P(n) on totta kaikille n = 0,1,2,...

T Luonnollisen kielen tilastollinen käsittely

1. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden heittojen lukumäärä, joilla tuli 1, 2, 3 tai 4.

Määritelmiä. Nopanheitossa taas ω 1 = saadaan 1, ω 2 = saadaan 2,..., ω 6 = saadaan

Matematiikan tukikurssi, kurssikerta 3

Matematiikan tukikurssi

Vasen johto S AB ab ab esittää jäsennyspuun kasvattamista vasemmalta alkaen:

Matematiikan tukikurssi

Mat Matematiikan peruskurssi K2

Alkulukujen harmoninen sarja

Matematiikan tukikurssi

Tehtävänanto oli ratkaista seuraavat määrätyt integraalit: b) 0 e x + 1

Injektio (1/3) Funktio f on injektio, joss. f (x 1 ) = f (x 2 ) x 1 = x 2 x 1, x 2 D(f )

Todennäköisyyslaskenta IIa, syys lokakuu 2019 / Hytönen 3. laskuharjoitus, ratkaisuehdotukset

Kokonaislukuoptimointi

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Matematiikan tukikurssi, kurssikerta 1

Matematiikan johdantokurssi, syksy 2017 Harjoitus 8, ratkaisuista

(iv) Ratkaisu 1. Sovelletaan Eukleideen algoritmia osoittajaan ja nimittäjään. (i) 7 = , 7 6 = = =

1 Lukujen jaollisuudesta

MS-A0003/A0005 Matriisilaskenta Malliratkaisut 5 / vko 48

Harjoitustyön testaus. Juha Taina

= 5! 2 2!3! = = 10. Edelleen tästä joukosta voidaan valita kolme särmää yhteensä = 10! 3 3!7! = = 120

Johdatus lukuteoriaan Harjoitus 11 syksy 2008 Eemeli Blåsten. Ratkaisuehdotelma

Lineaarinen optimointitehtävä

y = 3x2 y 2 + sin(2x). x = ex y + e y2 y = ex y + 2xye y2

1. Osoita, että joukon X osajoukoille A ja B on voimassa toinen ns. de Morganin laki (A B) = A B.

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

, c) x = 0 tai x = 2. = x 3. 9 = 2 3, = eli kun x = 5 tai x = 1. Näistä

. Kun p = 1, jono suppenee raja-arvoon 1. Jos p = 2, jono hajaantuu. Jono suppenee siis lineaarisesti. Vastaavasti jonolle r k+1 = r k, suhde on r k+1

Mitään muita operaatioita symbolille ei ole määritelty! < a kaikilla kokonaisluvuilla a, + a = kaikilla kokonaisluvuilla a.

2.2 Neliöjuuri ja sitä koskevat laskusäännöt

Demo 1: Simplex-menetelmä

Osa IX. Z muunnos. Johdanto Diskreetit funktiot

Generoivat funktiot, Poisson- ja eksponenttijakaumat

HY, MTO / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIa, syksy 2018 Harjoitus 3 Ratkaisuehdotuksia.

Shorin algoritmin matematiikkaa Edvard Fagerholm

y x1 σ t 1 = c y x 1 σ t 1 = y x 2 σ t 2 y x 2 x 1 y = σ(t 2 t 1 ) x 2 x 1 y t 2 t 1

Matriisilaskenta Laskuharjoitus 5 - Ratkaisut / vko 41

2.3 Juurien laatu. Juurien ja kertoimien väliset yhtälöt. Jako tekijöihin. b b 4ac = 2

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

Funktiot. funktioita f : A R. Yleensä funktion määrittelyjoukko M f = A on jokin väli, muttei aina.

13. Ratkaisu. Kirjoitetaan tehtävän DY hieman eri muodossa: = 1 + y x + ( y ) 2 (y )

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset

Matriisilaskenta (TFM) MS-A0001 Hakula/Vuojamo Ratkaisut, Viikko 47, 2017

6. Yhteenvetoa kurssista

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

AVL-puut. eräs tapa tasapainottaa binäärihakupuu siten, että korkeus on O(log n) kun puussa on n avainta

Transkriptio:

T-61.281 Luonnollisen kielen tilastollinen käsittely astaukset 8, ti 16.3.2004, 8:30-10:00 Tilastolliset yhteydettömät kielioit, ersio 1.0 1. Jäsennysuun todennäköisyys lasketaan aloittelemalla se säännöstön yksiköiden kokoisiin aloihin ja kertomalla näiden alojen todennäköisyydet yhteen. Esimerkiksi muunnoksen ( hän) todennäköisyys voidaan suoraan oimia säännöstöstä ja on 0.3. amoin esimerkiksi muunnos (I ) on. Kuvaan 1 on oimittu taulukoidut todennäköisyydet. 1.0 0.7 P 0.1 I 0.02 P I 1.0 0.7 P 0.08 P 0.1 I I 0.3 0.3 0.1 0.1 0.3 0.3 0.3 0.1 0.1 0.3 Hän näki koiran joka haukkui ja lähti Hän näki koiran joka haukkui ja lähti Kuva 1: Jäsennykset Nyt voimmekin laskea kummankin jäsennyksen todennäköisyydet kertomalla kaikki kuvasta löytyvät todennäköisyydet P(uu1) = 0.3 0.3 0.1 0.1 0.3 0.02 0.1 0.7 1.0 = 2.4 10 8 P(uu2) = 0.3 0.3 0.1 0.1 0.3 0.1 0.7 0.08 1.0 = 9.5 10 8 Huomataan, että mallin mukaan toinen jäsennys on todennäköisemi. Ilman muuta tietoa tai oikein ilkutettua tekstiä lienee mahdotonta äätellä, kumi jäsennys on oikea. 2. isäuoli-algoritmi (inside algorithm) on hyvin samanlainen kuin eteenäin algoritmi. Algoritmissa lasketaan uun todennäköisyyttä lähtemällä lehdistä ja kasaamalla koko ajan suuremia yksikköjä kunnes äästään juureen asti. Algoritmia läikäydessä tullaan samalla kokeilleeksi kaikki mahdolliset jäsennykset. Merkitään β j (, d) todennäköisyyttä, että uulla, joka kattaa sanat :stä d:hen on juurena jäsennys j. Nyt siis voimme alustaa algoritmin β j (k, k) arvot lehdille. Koska

suurin osa lauseen sanoista voi olla kotoisin vain yhdestä ei-terminaalisymbolista, alustus on heloa: β (1, 1) = 0.3 β (2, 2) = 0.29 Todennäköisyys, että toisen sanan ilana on ja havaitaan sana tunsi β (3, 3) = 0.15 3. sanan tila ja havainto tuulen β (3, 3) = 0.01 3. sanan tila ja havainto tuulen β A (4, 4) = 0.15 4. sanan tila A ja havainto kaleilla β (5, 5) = 0.15 5. sanan tila ja havainto kasvoillaan Todennäköisyys, että ensimmäisen sanan tilana on ja havaitaan sana hän Kaikki muut todennäköisyydet ovat nollia. Alustuksesta voidaan edetä uun juureen summaamalla kaikkien todennäköisyyksin yli seuraavan kaavan mukaisesti: β j (, q) = r,s q 1 P(N j N r N s )β r (, d)β s (d + 1, q) d= Tässä siis summataan kaikkien mahdollisten sääntöjen (r, s) ja kaikkien mahdollisten jakojen (d:stä q:hun) yli. Koska yleensä sekä transitio-, että havaintosäännöt ovat melko harvoja, on suurin osa summan termeistä nollia. Lasketaana sitten seuraavat arvot. Nyt kukin aliuulla koostuu kahdesta lasesta ja juuresta: β x (1, 2) = β y (1, 1) β z (2, 2) P(x y z) = 0 y,z β P (2, 3) = β (2, 2) β (3, 3) P( P ) = 0.29 0.15 0.7 = 0.030 β x (3, 4) = 0 x β PP (4, 5) = β A (4, 4)β (5, 5)P(PP A ) = 0.15 0.15 1.0 = 0.023 Todennäköisyys,että sanat hän, tunsi kattavan uun juuren sanaluokka olisi x Kaikki muut summan termit ovat nollia Koskaa kielioissa yhdellä solmulla olla vain kaksi lasta, saadaan seuraavalle kierrokselle todennäköisyydet summaamalla: β (1, 3) = β (1, 1)β P (2, 3)P( P) + x,y β x (1, 2)β y (3, 3)P( x y) = 0.3 0.030 1.0 + 0 = 0.0090 β x (2, 4) = 0 x β (3, 5) = β (3, 3)β PP (4, 5)P( PP) = 0.15 0.023 0.15 = 5.2 10 4 2

ielä on ari kierrosta jäljellä: β x (1, 4) = y,z β y (1, 1)β z (2, 4)P(x y z) + y,z β y (1, 2)β z (3, 4)P(x y z) + y,z β y (1, 3)β z (4, 4)P(x y z) = 0 β P (2, 5) = β (2, 2) β (3, 5) P( P ) +β P (2, 3) β PP (4, 5) P( P PP) = 0.29 5, 2 10 4 0.7 + 0.03 0.023 0.2 = 1.1 10 4 + 1.4 10 4 = 2.43 10 4 Tässä kohtaa kannattaa huomata, että laskettaessa β P (2, 5), yhdistetään kahden erilaisen jäsennyksen todennäköisyydet. Jos nyt tehtäisi iterbi-hakua, valittaisiin näistä kahdesta todennäköisemi ja merkattaisiin, kumi jäsennys on aremi. Tässä taauksessa siis on aremi jäsentää sanat tunsi ja tuulen verbilauseeksi ja sanat kaleilla kasvoillaan liittolauseeksi. Toinen vaihtoehto olisi ollut jäsentää sana tunsi verbiksi ja tuulen kaleilla kasvoillaan liitolauseeksi. Lasketaana vielä homma louun ennen tarkemia ohdintoja. β (1, 5) = β (1, 1) β P (2, 5) P( P) = 0.3 2.43 10 4 1.0 = 7.2 10 5 Kuvaan 2 on iirretty mahdolliset jäsennykset. Mallin mukaan hieman todennäköisemi jäsennys on väärä, johtunee siitä että alkueräinen malli oli hihasta ravistettu. P P PP P PP A A Hän tunsi tuulen kaleilla kasvoillaan Hän tunsi tuulen kaleilla kasvoillaan Kuva 2: Mahdolliset jäsennykset. asen uu on hiukan todennäköisemi. 3. Merkitään q = 1. Olkoon F(n) todennäköisyysmassa kaikissa n-syvyisissä tai matalammissa uissa (katso kuva 3). Nyt huomataan, että F(n + 1) voidaan ilmaista 3

F(1) 0 F(2) q w F(3) q+q 2 + w w w F(4) q+f(3) 2 + w F(3) F(3) F(n+1) q+f(n) 2 + w F(n) F(n) Kuva 3: F(n) eli kaikkiin n-syvyisiin tai matalamiin uihin uonnut todennäköisyysmassa. F(n):n avulla. Joko F(n + 1) terminoituu suoraan todennäköisyydellä q tai sitten se jakautuu kahdeksi uuksi todennäköisyydellä. Näiden uiden maksimisyvyys on n. aadaan siis F(n + 1) = q + F(n) 2 = 1 + F(n) 2 Oletetaan, että sarja konvergoi johonkin arvoon (todistetaan myöhemmin). Tällaisessa tilanteessa F(n + 1) = F(n) eli F(n + 1) = 1 + F(n) 2 = F(n) F(n) 2 F(n) + 1 = 0 Toisen asteen yhtälön ratkaisukaavasta saadaan yhtälölle juuret F(n) = { 1 1 1 Jotta voidaan todistaa, että funktio konvergoi, itää todistaa, että se on kasvava. Tutkitaan erotusta F(n + 1) F(n): F(n + 1) F(n) > 0 1 + F(n) 2 F(n) > 0 Toisen asteen yhtälön ratkaisukaavan avulla saadaan, että funktio on kasvava jos: 1 : F(n) > 1 ja < 0 2 : F(n) < 1 ja > 0 4

Näistä toinen alue on relevantti meille. Osoitetaan vielä, että funktio kasvaa asymtoottisesti kohti ienemää juurta (min(1, 1 1)). Jos F(n + 1) > 1, mitä ehtoja se asettaa F(n):lle? F(n + 1) = 1 + F(n) 2 > 1 F(n) 2 > F(n) < 1 tai F(n) > 1 Eli sarja voi saada yhtä suuremia arvoja vain, jos sarjan edellinen arvo oli jo suuremi kuin yksi. Nyt lähdemme liikkeelle nollasta F(1) = 0, joten yli yhden arvoja ei voida saada. Entää toinen juuri, mitä jos F(n + 1) > 1 1? F(n + 1) = 1 + F(n) 2 > 1 1 F(n) 2 > F(n) 2 > 1 2 + 2 ( 1 2 ) 2 aadaan ehdot 1 : F(n) > 1 1 edellinen arvo oli jo suuremi kuin juuri 2 : F(n) < 1 1 F kasvava ja F(2)=1 <1 1 kun < 1 tai >1. Ehto ei täyty. Myöskään tämän juuren ohi ei voi äästä. arjan summa on siis min(1, 1 1). Todennäköisyysjakauma on siis oikea todennäköisyysjakauma, kun. Kun >, malli rueaa generoimaan äärettömiä uita (missä generoidaan aina vaan uusia eiterminaaleja) ja todennäköisyysmassaa katoaa näihin uihin. Ovelami matemaatikko ystynee ratkaisemaan muutamalla rivillä. Tarkastelemalla mallin generoimien ei-terminaalien määrän oletusarvoa verrattuna mallin generoimien terminaalien määrän oletusarvoon, äätynee samaan tulokseen. 5