T Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ke , 12:15 14:00 Puheentunnistus ja kielimallien evaluointi Versio 1.

Samankaltaiset tiedostot
jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

T Luonnollisten kielten tilastollinen käsittely

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

11. laskuharjoituskierros, vko 15, ratkaisut

MAB3 - Harjoitustehtävien ratkaisut:

Pelaisitko seuraavaa peliä?

T Luonnollisten kielten tilastollinen käsittely Vastaukset 5, ti , 16:15-18:00 N-grammikielimallit, Versio 1.0

T Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1

MAB3 - Harjoitustehtävien ratkaisut:

Martingaalit ja informaatioprosessit

Johdatus lukuteoriaan Harjoitus 2 syksy 2008 Eemeli Blåsten. Ratkaisuehdotelma

Kenguru 2014 Benjamin (6. ja 7. luokka) sivu 1 / 7 ja Pakilan ala-aste

Matematiikan peruskurssi 2

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Demo 1: Simplex-menetelmä

Harjoitus 7: vastausvihjeet

TILASTOLLINEN OPPIMINEN

Johdatus lukuteoriaan Harjoitus 1 syksy 2008 Eemeli Blåsten. Ratkaisuehdotelma

Luonnollisen kielen tilastollinen käsittely. T (3 ov) L. Kevät 2004 Timo Honkela ja Kris- ta Lagus

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

Tehtävä 2 Todista luennoilla annettu kaava: jos lukujen n ja m alkulukuesitykset. ja m = k=1

Matemaatikot ja tilastotieteilijät

Matemaatiikan tukikurssi

SGN-1200 Signaalinkäsittelyn menetelmät Välikoe

j n j a b a c a d b c c d m j b a c a d a c b d c c j

ja λ 2 = 2x 1r 0 x 2 + 2x 1r 0 x 2

4.1 Kaksi pistettä määrää suoran

massa vesi sokeri muu aine tuore luumu b 0,73 b 0,08 b = 0,28 a y kuivattu luumu a x 0,28 a y 0,08 = 0,28 0,08 = 3,5

Matematiikan tukikurssi

Matematiikan tukikurssi

5. OSITTAISINTEGROINTI

MATP153 Approbatur 1B Ohjaus 2 Keskiviikko torstai

Tehtävänanto oli ratkaista seuraavat määrätyt integraalit: b) 0 e x + 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Matematiikan tukikurssi: kurssikerta 10

Matikkaa KA1-kurssilaisille, osa 3: suoran piirtäminen koordinaatistoon

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Matematiikan tukikurssi

58131 Tietorakenteet (kevät 2009) Harjoitus 11, ratkaisuja (Topi Musto)

Jousen jousivoiman riippuvuus venymästä

Matematiikan tukikurssi, kurssikerta 2

4 Matemaattinen induktio

Diskreetin matematiikan perusteet Laskuharjoitus 2 / vko 9

4757 4h. MAGNEETTIKENTÄT

3 Suorat ja tasot. 3.1 Suora. Tässä luvussa käsitellään avaruuksien R 2 ja R 3 suoria ja tasoja vektoreiden näkökulmasta.

Matematiikan tukikurssi

Reaalifunktioista 1 / 17. Reaalifunktioista

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

A = (a 2x) 2. f (x) = 12x 2 8ax + a 2 = 0 x = 8a ± 64a 2 48a x = a 6 tai x = a 2.

Tampereen ammattikorkeakoulu, amk-tutkinto Tietotekniikan koulutusohjelma Sulautetut järjestelmät Patrick Saikkonen

Systemaattinen apina ja miten se tehdään fmbt:llä

Yhtälön oikealla puolella on säteen neliö, joten r. = 5 eli r = ± 5. Koska säde on positiivinen, niin r = 5.

58131 Tietorakenteet (kevät 2009) Harjoitus 6, ratkaisuja (Antti Laaksonen)

Ongelma 1: Onko datassa tai informaatiossa päällekkäisyyttä?

Potenssi eli potenssiin korotus on laskutoimitus, jossa luku kerrotaan itsellään useita kertoja. Esimerkiksi 5 4 = Yleisesti.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

7. Resistanssi ja Ohmin laki

Todennäköisyyslaskenta I, kesä 2017 Helsingin yliopisto/avoin Yliopisto Harjoitus 1, ratkaisuehdotukset

Käänteismatriisin. Aiheet. Käänteismatriisin ominaisuuksia. Rivioperaatiot matriisitulona. Matriisin kääntäminen rivioperaatioiden avulla

. Veden entropiamuutos lasketaan isobaariselle prosessille yhtälöstä

LASKENNALLISEN TIETEEN OHJELMATYÖ: Diffuusion Monte Carlo -simulointi yksiulotteisessa systeemissä

CASE Varma Testauksen haasteet moniuloitteisessa testiympäristössä Tuukka Vähäpassi

2. TILASTOLLINEN TESTAAMINEN...

MATEMATIIKAN KOE, LYHYT OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

Tekijä Pitkä matematiikka

Canva CV NÄIN PÄÄSET ALKUUN CANVA CV:N TEOSSA: Canva on graafisen suunnittelun

Mikä ihmeen hakukonemarkkinointi?

Induktiotodistus: Tapaus n = 0 selvä; ol. väite pätee kun n < m.

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Matematiikan tukikurssi

Inversio-ongelmien laskennallinen peruskurssi Luento 4

MATHCAD. Kokeilemalla voi tarkistaa tunnistaako MATHCAD halutun kerrannaisyksikön: Siis ei tunnistanut millinewtonia

Suodatus ja näytteistys, kertaus

1. (a) Seuraava algoritmi tutkii, onko jokin luku taulukossa monta kertaa:

Matematiikan tukikurssi

Opetusmateriaali. Tutkimustehtävien tekeminen

Tietotekniikan valintakoe

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Kpl 2: Vuorovaikutus ja voima

Testit järjestysasteikollisille muuttujille

PHYS-C0240 Materiaalifysiikka (5op), kevät 2016

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 5. marraskuuta 2015

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Kenguru 2012 Junior sivu 1 / 8 (lukion 1. vuosi)

Salausmenetelmät. Veikko Keränen, Jouko Teeriaho (RAMK, 2006)

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

Se mistä tilasta aloitetaan, merkitään tyhjästä tulevalla nuolella. Yllä olevassa esimerkissä aloitustila on A.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Tenttiin valmentavia harjoituksia

A-osa. Ratkaise kaikki tämän osan tehtävät. Tehtävät arvostellaan pistein 0-6. Taulukkokirjaa saa käyttää apuna, laskinta ei.

Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus. Intelin osakekurssi. (Pörssi-) päivä n = 20 Intel_Volume. Auringonpilkkujen määrä

LAUSEKKEET JA NIIDEN MUUNTAMINEN

58131 Tietorakenteet ja algoritmit (syksy 2015) Toinen välikoe, malliratkaisut

Vektoreiden A = (A1, A 2, A 3 ) ja B = (B1, B 2, B 3 ) pistetulo on. Edellisestä seuraa

Matematiikan tukikurssi: kurssikerta 12

S Laskennallinen systeemibiologia

Matematiikan tukikurssi

4 Tehokkuus ja algoritmien suunnittelu

Transkriptio:

T-61.020 Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ke 18.4.2007, 12:1 14:00 Puheentunnistus ja kielimallien evaluointi Versio 1.0 1. Käytämme siis jälleen viterbi-algoritmia todennäköisimmän tilasekvenssin selvittämiseen kätketystä Markov-mallista. Eroja aikaisemman laskarin säätilamalliin on kolme: Emissiot tapahtuvat kaarissa eli tilojen välillä, mallissa on nollatransitiota ja lopetustila on määrätty. a) Alustetaan hila siten, että lähtötila on aina S 1. Merkitään ylös vain nollasta poikkeavat todennäköisyysarvot. δ 0 (1) = 1 Ensimmäinen havainto Aloitustilasta pääsee vain toiseen ja neljänteen tilaan, joten lasketaan niiden todennäköisyydet: δ 1 (2) = a 12 b 12 (o 1 ) = 0. 1 = 2 ψ 1 (2) = 1 δ 1 (4) = a 14 b 14 (o 1 ) = 0. 3 = 4 ψ 1 (4) = 1 Toinen havainto Toisesta tilasta päästään vain kolmanteen ja neljännestä vain viidenteen tilaan, joten vieläkään ei tarvita reittivalintoja. δ 2 (3) = δ 1 (2)a 23 b 23 (o 2 ) = 2 1.0 1 = 3 ψ 2 (3) = 2 δ 2 () = δ 1 (4)a 4 b 4 (o 2 ) = 4 1.0 4 = 8 ψ 2 () = 4 Tässä vaiheessa pitää kuitenkin huomata, että tiloista S 3 ja S pääsee nollasiirtymällä aloitustilaan. Toisen havainnon jälkeen voidaan siis päätyä myös sinne. Lasketaan tilaan tulevista reiteistä todennäköisempi: Kolmas havainto δ 2 (1) = max(δ 2 (3)a 31, δ 2 ()a 1 ) ψ 2 (1) = 3 = max( 3 0.9, 8 1.0) = 4. 3

Nyt mahdollisia ovat siirtymät tilasta S 1 tilaan S 2 tai S 4 sekä tilasta S 3 tilaan S 4. δ 3 (2) = δ 2 (1)a 12 b 12 (o 3 ) = 4. 3 0. 3 = 2.2 6 ψ 3 (2) = 1 δ 3 (4) = max(δ 2 (1)a 14 b 14 (o 3 ), δ 2 (3)a 34 b 34 (o 3 )) ψ 3 (4) = 3 = max(4. 3 0. 2, 3 0.1 1 ) = Neljäs havainto Jälleen toisesta tilasta päästään vain kolmanteen ja neljännestä vain viidenteen tilaan. δ 4 (3) = δ 3 (2)a 23 b 23 (o 4 ) = 2.2 6 1.0 3 = 2.2 9 ψ 4 (3) = 2 δ 4 () = δ 3 (4)a 4 b 4 (o 4 ) = 1.0 1 = 6 ψ 4 () = 4 Lopetus Lopuksi piti päästä takaisin tilaan S 1, mikä onnistuu nollasiirtymällä. Reittivaihtoehtoja on kaksi: δ 4 (1) = max(δ 4 (3)a 31, δ 4 ()a 1 ) ψ 4 (1) = = max(2.2 9 0.9, 6 1.0) = 6 Laskettu hila on kuvassa 1. Palaamalla lopusta alkuun saadaan todennäköisin tilasekvenssi S 1 S 2 S 3 S 4 S S 1. Tämä vastaa sanaa jaon. 2

δ(1) 1 4. 3 6 δ(2) 0 2 2.2 6 δ(3) 0 3 2.2 9 δ(4) 0 4 δ() 0 8 6 t=0 t=1 t=2 t=3 t=4 Kuva 1: Viterbi-haun hila lopetustilaan saavuttaessa. 3

b) Nyt pitää ottaa huomioon myös kielimallin antamat todennäköisyydet. Lasketaan todennäköisyysarvot ehdollisina mahdollisille eri sanavaihtoehdoille w j : δ t (i, w j ). Kielimallitodennäköisyys kerrotaan mukaan aina kun sanan valinta tehdään. Kuljettaessa uudestaan aloitustilan kautta valinnat pitää ottaa huomioon käyttämällä bigrammitodennäköisyyksiä. Tämän jälkeen ne voidaan tyhjentää, koska kielimalli ei tarvitse pidempiä historioita. Alustetaan hila samoin kuin a)-kohdassa. Tässä vaiheessa ei ole vielä sanavalintoja. δ 0 (1, _) = 1 Ensimmäinen havainto Aloitustilasta pääsee toiseen ja neljänteen tilaan. Toinen tila voi päätyä sanaan ja tai jaon, joten kumpikin vaihtoehto pitää laskea erikseen. δ 1 (2, ja) = P(ja)a 12 b 12 (o 1 ) = 2 0. 1 = 4 ψ 1 (2, ja) = 1 δ 1 (2, jaon) = P(jaon)a 12 b 12 (o 1 ) = 0. 1 = 7 ψ 1 (2, jaon) = 1 δ 1 (4, on) = P(on)a 14 b 14 (o 1 ) = 2 0. 3 = 6 ψ 1 (4, on) = 1 Toinen havainto Toisesta tilasta päästään vain kolmanteen ja neljännestä vain viidenteen tilaan. Lisäksi kummastakin pääsee nollasiirtymällä ensimmäiseen tilaan. Tämä voidaan luonnollisesti tehdä vain sanoille jotka ovat käsitelty loppuun. δ 2 (3, ja) = δ 1 (2, ja)a 23 b 23 (o 2 ) = 4 1.0 1 = ψ 2 (3, ja) = 2 δ 2 (3, jaon) = δ 1 (2, jaon)a 23 b 23 (o 2 ) = 7 1.0 1 = 8 ψ 2 (3, jaon) = 2 δ 2 (, on) = δ 1 (4, on)a 4 b 4 (o 2 ) = 6 1.0 4 = ψ 2 (, on) = 4 δ 2 (1, ja) = δ 2 (3, ja)a 31 = 0.9 = 4. ψ 2 (1, ja) = 3 δ 2 (1, on) = δ 2 (, on)a 1 = 1.0 = ψ 2 (1, on) = Kolmas havainto 4

Mahdollisia ovat siirtymät tilasta S 1 tilaan S 2 tai S 4 sekä tilasta S 3 tilaan S 4. Tilasta S 1 lähtevät siirtymät aloittavat uuden sanan, joten otamme kielimallitodennäköisyydet huomioon. Lisäksi pitää huomioida että tilassa S 1 oli kaksi eri sanavaihtoehtoa, joista nyt voidaan valita todennäköisempi. δ 3 (2, ja) = max(p(ja ja)δ 2 (1, ja), P(ja on)δ 2 (1, on)) a 12 b 12 (o 3 ) ψ 3 (2, ja) = 1 = max( 4 4., 2 ) 0. 1 = 2.2 δ 3 (4, on) = max(p(on ja)δ 2 (1, ja), P(on on)δ 2 (1, on)) a 14 b 14 (o 3 ) ψ 3 (4, on) = 1 = max( 2 4., 4 ) 0. 2 = 2.2 9 δ 3 (4, jaon) = δ 2 (3, jaon)a 34 b 34 (o 3 ) ψ 3 (4, jaon) = 3 = 8 1.0 1 = Neljäs havainto Toisesta tilasta päästään vain kolmanteen ja neljännestä vain viidenteen tilaan. Kummastakin päästään vielä nollasiirtymällä ensimmäiseen tilaan. δ 4 (3, ja) = δ 3 (2, ja)a 23 b 23 (o 4 ) = 2.2 1.0 3 = 2.2 13 ψ 4 (3, ja) = 2 δ 4 (, on) = δ 3 (4, on)a 4 b 4 (o 4 ) = 2.2 9 1.0 1 = 2.2 ψ 4 (, on) = 4 δ 4 (, jaon) = δ 3 (4, jaon)a 4 b 4 (o 4 ) = 1.0 1 = 11 ψ 4 (, jaon) = 4 δ 4 (1, ja) = δ 4 (3, ja)a 31 = 0.9 2.2 = 2.02 13 ψ 4 (1, ja) = 3 δ 4 (1, on) = δ 4 (, on)a 1 = 1.0 2.2 9 = 2.2 ψ 4 (1, on) = δ 4 (1, jaon) = δ 4 (, jaon)a 1 = 1.0 = 11 ψ 4 (1, jaon) = Laskettu hila on kuvassa 2. Eri sanavaihtoehdot on piirretty kuvaan erilaisilla nuolilla. Kolmesta lopetustilaan päätyneestä polusta todennäköisin on δ 4 (1, on).

Palaamalla siitä taaksepäin saadaan todennäköisin tilasekvenssi S 1 S 2 S 3 S 1 S 4 S S 1. Nyt todennäköisimmäksi saatiin siis kahden sanan sekvenssi, ja on. δ(1) 2.02 13 2.2 11 δ(2) δ(3) δ(4) δ() t=0 t=1 t=2 t=3 t=4 ja on jaon Kuva 2: Hila lopetustilaan saavuttaessa. Eri sanavaihtoehdot on merkitty erilaisilla nuolilla. 6

2. Mallissa A on noin kolme kertaa vähemmän yksiköitä kuin mallissa B. Yksiköt ovat myös keskimäärin pienempiä, ja testidata sisältää enemmän mallin A yksiköitä. Tämän takia mallien yksikkökohtaisia entropialukuja ei voi verrata suoraan toisiinsa. Jos malli esimerkiksi käyttäisi yksiköinään kirjaimia, niin jokainen yksikkö olisi keskimäärin suhteellisen helppo ennustaa, mutta koko datan todennäköisyydestä ei luultavasti tulisi kovin hyvä. Sen sijaan voimme laskea malleille entropiat sanaa kohti. Risti-entropia testidatalle D voitiin laskea H M (D) = 1 n n log P M (D i ) = 1 n log P M(D). (1) i=1 Jos yksiköiden määrän n sijaan jaamme datan uskottavuuden P M (D) logaritmin datan sanojen määrällä W D, saamme normalisoidun entropian, joka ei riipu siitä minkälaisilla yksiköillä mallinnus tehdään: H W M (D) = 1 W D log P M (D). (2) Tiedämme luvut H M (D), n ja W D, joiden avulla sanakohtaiseksi normalisoitu entropia voidaan kirjoittaa muodossa Muutetaan annetut entropiat sanakohtaisiksi: H W M (D) = n W D log H M (D). (3) H W A1(D) = 344 960 4.4 = 1.66 HA2 W 344 960 (D) = 4.39 = 1.14 HA3 W 344 960 (D) = 4.31 = 14.87 HB1 W 301 271 (D) =.19 = 1.64 HB2 W 301 271 (D) = H W B3(D) =.02 = 1.12 301 271 4.93 = 14.8 Pilkonnan B entropiat ovat siis kaikissa kokoluokissa hieman parempi kuin pilkonnan A. Pitää kuitenkin ottaa huomioon myös mallien koot, jotka pilkonnalla B olivat kauttaaltaan suurempia. Tulosten vertailu on helpointa piirtämällä kuvaaja, jossa tulokset on esitetty koko-entropia -koordinaatistossa. Tämä on tehty kuvassa 3. 7

1.8 1.6 Cross entropy vs. size A B Entropy (bits) 1.4 1.2 1 14.8 4 6 8 12 Size (n grams) x Kuva 3: Normalisoidut risti-entropiat. Pilkonnan A mittauspisteitä yhdistävä murtoviiva on joka paikassa B:n viivasta katsottuna vasemmalla puolella. Pilkonta A näyttää siis antavan hieman parempia tuloksia kuin B suhteessa kielimallien kokoihin. Katsotaan seuraavaksi tunnistustuloksia. Ne on laskettu suoraan sanoja kohti, joten normalisointeja ei tarvita. Mallin koko vs. sanavirhe -kuvaaja on esitetty kuvassa 4. Siitä nähdään, että tulokset isoilla ja pienillä malleilla menevät ristiin: A on parempi pienillä malleilla, mutta B ohittaa sen kun koot kasvavat yli 900 000 n-grammin. Word error rate (%) 18 17 16 1 14 WER vs. size A B 13 4 6 8 12 Size (n grams) x Kuva 4: Sanavirheet. Näyttää kohtuullisen selvältä, että pilkontaa A käyttävät mallit ovat parempia jos mallin koko on pieni. Suuremmilla malleilla tulokset ovat melko lähellä toisiaan. Lisäksi toiminnasta malleilla joiden koot ovat selvästi alle puoli miljoonaa, tai selvästi yli miljoonan, nämä tulokset eivät kerro mitään. Luotettavammat tulokset vaatisivat lisää mittauspisteitä sekä lukujen tilastollisten merkittävyyksien testaamista (esim. Wilcoxon signed-rank test). 8