jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

Samankaltaiset tiedostot
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

T Luonnollisten kielten tilastollinen käsittely

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

T Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ke , 12:15 14:00 Puheentunnistus ja kielimallien evaluointi Versio 1.

Algoritmit 2. Luento 13 Ti Timo Männikkö

T Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1

Yhtälön oikealla puolella on säteen neliö, joten r. = 5 eli r = ± 5. Koska säde on positiivinen, niin r = 5.

T Luonnollisten kielten tilastollinen käsittely Vastaukset 5, ti , 16:15-18:00 N-grammikielimallit, Versio 1.0

Matematiikan peruskurssi 2

x 5 15 x 25 10x 40 11x x y 36 y sijoitus jompaankumpaan yhtälöön : b)

Kerta 2. Kerta 2 Kerta 3 Kerta 4 Kerta Toteuta Pythonilla seuraava ohjelma:

Ensimmäisen ja toisen asteen yhtälöt

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Luentorunko keskiviikolle Hierarkkinen ryvästäminen

T Luonnollisen kielen tilastollinen käsittely Vastaukset 8, ti , 8:30-10:00 Tilastolliset yhteydettömät kieliopit, Versio 1.

A* Reitinhaku Aloittelijoille

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2017 Harjoitus 1 Ratkaisuehdotuksia

Injektio (1/3) Funktio f on injektio, joss. f (x 1 ) = f (x 2 ) x 1 = x 2 x 1, x 2 D(f )

Helsingin seitsemäsluokkalaisten matematiikkakilpailu Ratkaisuita

BM20A5800 Funktiot, lineaarialgebra ja vektorit Harjoitus 4, Syksy 2016

PRELIMINÄÄRIKOE PITKÄ MATEMATIIKKA

1.1 Funktion määritelmä

Tuloperiaate. Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta

Algoritmit 2. Luento 12 To Timo Männikkö

Tekijä Pitkä matematiikka Pisteen (x, y) etäisyys pisteestä (0, 2) on ( x 0) Pisteen (x, y) etäisyys x-akselista, eli suorasta y = 0 on y.

Mikäli huomaat virheen tai on kysyttävää liittyen malleihin, lähetä viesti osoitteeseen

T Luonnollisten kielten tilastollinen käsittely Vastaukset 10, ti , 8:30-10:00 Sanojen merkitysten erottelu, Versio 1.

Tietotekniikan valintakoe

Python-ohjelmointi Harjoitus 5

Geogebra -koulutus. Ohjelmistojen pedagoginen hyödyntäminen

5.2 Ensimmäisen asteen yhtälö

2 Raja-arvo ja jatkuvuus

ja λ 2 = 2x 1r 0 x 2 + 2x 1r 0 x 2

Datatähti 2019 alku. task type time limit memory limit. A Kolikot standard 1.00 s 512 MB. B Leimasin standard 1.00 s 512 MB

Yhtälönratkaisusta. Johanna Rämö, Helsingin yliopisto. 22. syyskuuta 2014

2 Pistejoukko koordinaatistossa

= 3 = 1. Induktioaskel. Induktio-oletus: Tehtävän summakaava pätee jollakin luonnollisella luvulla n 1. Induktioväite: n+1

1. Osoita, että joukon X osajoukoille A ja B on voimassa toinen ns. de Morganin laki (A B) = A B.

Tekijä Pitkä matematiikka

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018

Jatkuvat satunnaismuuttujat

Demo 1: Simplex-menetelmä

Metropolia ammattikorkeakoulu TI00AA : Ohjelmointi Kotitehtävät 3

Tietorakenteet ja algoritmit

Matematiikan tukikurssi, kurssikerta 3

MS-A0107 Differentiaali- ja integraalilaskenta 1 (CHEM)

Taulukot. Jukka Harju, Jukka Juslin

1 Bayesin teoreeman käyttö luokittelijana

Äärellisten mallien teoria

MATEMATIIKAN KOE, PITKÄ OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

Matematiikan tukikurssi: kurssikerta 10

15 Yhtäsuuruuksia 1. Päättele x:llä merkityn punnuksen massa. a) x 4 kg. x 3 kg

massa vesi sokeri muu aine tuore luumu b 0,73 b 0,08 b = 0,28 a y kuivattu luumu a x 0,28 a y 0,08 = 0,28 0,08 = 3,5

4 LUKUJONOT JA SUMMAT

Tenttiin valmentavia harjoituksia

Sekalaiset tehtävät, 11. syyskuuta 2005, sivu 1 / 13. Tehtäviä

Hierarkkinen klusterointi

Reaalilukuvälit, leikkaus ja unioni (1/2)

Mat Sovellettu todennäköisyyslasku A

1 Kannat ja kannanvaihto

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

4 Matemaattinen induktio

a) Sievennä lauseke 1+x , kun x 0jax 1. b) Aseta luvut 2, 5 suuruusjärjestykseen ja perustele vastauksesi. 3 3 ja

B. 2 E. en tiedä C ovat luonnollisia lukuja?

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

1. a) Laske lukujen 1, 1 ja keskiarvo. arvo. b) Laske lausekkeen. c) Laske integraalin ( x xdx ) arvo. MATEMATIIKAN MALLIKOE PITKÄ OPPIMÄÄRÄ

Kohdissa 2 ja 3 jos lukujen valintaan on useita vaihtoehtoja, valitaan sellaiset luvut, jotka ovat mahdollisimman lähellä listan alkua.

Ympyrän yhtälö

ITKP102 Ohjelmointi 1 (6 op)

Kahden lausekkeen merkittyä yhtäsuuruutta sanotaan yhtälöksi.

Königsbergin sillat. Königsberg 1700-luvulla. Leonhard Euler ( )

Algoritmit 2. Luento 6 To Timo Männikkö

Matematiikan tukikurssi

2 Konekieli, aliohjelmat, keskeytykset

Metropolia ammattikorkeakoulu TI00AA : Ohjelmointi Kotitehtävät 3 opettaja: Pasi Ranne

Harjoitus 6 ( )

Analyysi 1. Harjoituksia lukuihin 1 3 / Syksy Osoita täsmällisesti perustellen, että joukko A = x 4 ei ole ylhäältä rajoitettu.

Kenguru 2013 Student sivu 1 / 7 (lukion 2. ja 3. vuosi)

Vasen johto S AB ab ab esittää jäsennyspuun kasvattamista vasemmalta alkaen:

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Algoritmit 2. Luento 6 Ke Timo Männikkö

Turun seitsemäsluokkalaisten matematiikkakilpailu Ratkaisuita

Diskreetin matematiikan perusteet Laskuharjoitus 1 / vko 8

2.3 Juurien laatu. Juurien ja kertoimien väliset yhtälöt. Jako tekijöihin. b b 4ac = 2

1 2 x2 + 1 dx. (2p) x + 2dx. Kummankin integraalin laskeminen oikein (vastaukset 12 ja 20 ) antaa erikseen (2p) (integraalifunktiot

MATEMATIIKKA. Matematiikkaa pintakäsittelijöille. Ongelmanratkaisu. Isto Jokinen 2017

Matematiikan tukikurssi, kurssikerta 2

Braggin ehdon mukaan hilatasojen etäisyys (111)-tasoille on

Sovellettu todennäköisyyslaskenta B

Hierarkkinen ryvästäminen

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Se mistä tilasta aloitetaan, merkitään tyhjästä tulevalla nuolella. Yllä olevassa esimerkissä aloitustila on A.

1 Peruslaskuvalmiudet

Ristitulolle saadaan toinen muistisääntö determinantin avulla. Vektoreiden v ja w ristitulo saadaan laskemalla determinantti

MATEMATIIKAN KOE, PITKÄ OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

Algoritmit 1. Luento 10 Ke Timo Männikkö

Tekijä MAA2 Polynomifunktiot ja -yhtälöt = Vastaus a)

Transkriptio:

T-1.81 Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ti 8.4., 1:1-18: Klusterointi, Konekääntäminen. Versio 1. 1. Kuvaan 1 on piirretty klusteroinnit käyttäen annettuja algoritmeja. Sanojen yhdistämisjärjestys on merkitty numeroilla vastaavien viivojen viereen ja kutakin yhdistämistä vastaava etäisyys on merkitty kuvassa olevaan taulukkoon. Single linkklusteroinnissa etäisyydet lasketaan yhdistettävien ryhmien lähimpien alkioiden välillä. Complete link-klusteroinnissa taas etäisyys lasketaan kaukaisimpien alkioiden välillä. puukko 4 tuppi 7 maija 1 matti puukko tuppi 7 maija 4 1 matti Etäisyydet 1: 1.1 : 1.4 : 1.8 4:. :. :. 7: 4. Etäisyydet 1: 1.1 : 1.4 :. 4:. : 4.1 : 7. 7: 8.1 Kuva 1: Vasemmalla Single link, oikealla Complete link. Lasketaessa complete link-klusterointia, olisi viidentenä yhdistämisenä voitu yhdistää ryhmään (,) joko ryhmä (puukko, tuppi) tai ryhmä (), sillä molemmat ovat yhtä kaukana. Tässä tapauksessa siihen yhdistettiin ryhmä (). Piirretään vielä klusterointeja vastaavat dendrogammit. Dendrogrammissa on pystysuunnassa etäisyysasteikko, ja aina kun kaksi ryhmää yhdistetään, se merkitään tälle etäisyydelle (Kuva ). Nyt kun haluamme muodostaa klusterit, meidän pitäisi vielä dendrogrammista osata päätellä, mikä etäisyys laitetaan raja-arvoksi klustereiden muodostumiselle. Nyt vaikuttaisi siltä, että sekä single link, että complete link klusteroinnille sopiva rajaarvo olisi noin.9. Tämän rajan alapuolella molemmat menetelmät antavat saman klusteroinnin (Taulukko 1).. K-means algoritmi toimii jotakuinkin seuraavalla tavalla: 1) Päätetään kuinka monta klusteria halutaan löytää ) Sijoitetaan alkuperäiset klusterikeskukset jollain tavalla avaruuteen (esim. arpomalla järkevälle alueelle datapilven sisään) ) Merkitään kaikille datapisteille, mikä klusterikeskus on sitä lähinnä

4 8 7 4 1 1 maija matti puukko tuppi maija matti puukko tuppi Kuva : Vasemmalla Single link, oikealla Complete link. ryhmä sanat 1 matti, maija, puukko, tuppi, 4 Taulukko 1: Ryhmittely 4) Siirretään klusterikeskusta: lasketaan niiden näytteiden paikan keskiarvo, joille klusterikeskus on lähin ja siirretään klusterikeskus sinne ) Tarkistetaan, täyttyikö lopetusehto (esim. klusterointi ei muuttunut). Jos ei, palataan askeleeseen. Tässä tehtävässä siis etsitään kolmea klusteria, klustereiden alustava sijainti on annettu. Kuvassa esitetään algoritmin kulku. Tässä saatiin siis taulukossa nähtävät klusterit. ryhmä sanat 1 matti, maija, puukko, tuppi,, Taulukko : k-means -ryhmittely. a) Kuvaan 4 on piirretty annettu data. Knn-tunnistimen naapureiden määräksi valittiin. Tämä tarkoittaa sitä, että etsitään kunkin luokiteltavan sanan kolme lähintä naapuria ja nämä äänestävät siitä, mihin luokkaan sana laitetaan.

Kuva : Vasemmalla on on lähtötilanne. Datapisteet on merkitty palloilla ja klusterikeskukset tähdillä. Datapiste on yhdistetty lähimpään klusterikeskukseen viivalla. Toisessa kuvassa klusterit on siirretty ja näille siirretyille keskuksille on etsitty lähimmät naapurit. Kolmannessa kuvassa iterointi jatkuu ja neljänteen kuvaan saavuttaessa ei muutoksia enää tapahdu. kihartuminen naama kuula vetää työntää heittää nostaa hius moukari Kuva 4: Data. Verbit on merkitty laatikoilla, substantiivit ympyröillä ja luokiteltavat sanat tähdellä. Katsotaanpa ensinnä sanaa kihartuminen. Sen kolme lähintä tunnettu naapuria ovat hius, naama ja työntää. Vastaavat äänet ovat S,S ja V eli sana luokitellaan substantiiviksi. Sanalle kuula lähimmät naapurit ovat työntää, moukari ja naama. Näin ollen se luokitellaan substantiiviksi. Sana heittää naapurit vetää, nostaa ja työntää ovat yksimielisiä siitä, että sana on verbi. b) Korvataan kukin luokka sen keskipisteellä. Verbien keskipiste on (.,.) ja substantiiveille se on ( 1., 1.). Nyt sanaa heittää lähinnä on verbien keskipiste, sanaa kihartuminen substantiivejen ja sanaa kuula lähinnä verbien keskipiste. c) b-kohdan menetelmässä korvataan yksittäiset datapisteet niitä kaikkia yhteiseti edustavalla prototyypillä. Tämä vähentää tuntuvasti luokittelussa tarvittavien laskutoimitusten määrää (sen sijaan että luokiteltavan sana etäisyys pitää laskee kaikille sanoille, riittää että se lasketaan keskiarvoille). Joissain tapauksissa tällainen prototyyppimalli myös yleistää paremmin.

Tässä tapauksessa nähdään menetelmän huono puoli: Se ei pysty esittämään monimutkaisemman datapilven muotoa yhtä hyvin kuin siinä olevat datapisteen erikseen lueteltuna ja tässä luokittelee sanan kuula väärin. 4. Lähdetään liikkeelle trigrammitodennäköisyydestä: P(w n w n 1, w n ) = P(w n, G i n, G j n 1, G k n w n 1, w n ) Tässä siis G n kuvaa sanan w n ryhmää. Mahdollisia ryhmiä on M kappaletta. Oletetaan, että sana voi kuulua vain yhteen ryhmään. Hajoitetaan summan sisällä oleva lauseke käyttäen todennäköisyyslaskun kaavaa P(A, B C) = P(A B, C)P(B C). P(w n G i n, Gj n 1, Gk n, w n 1, w n )P(G i n, Gj n 1, Gk n w n 1, w n ) Sievennetään ensimmäistä termiä olettamalla että sana w n riippuu vain senhetkisestä ryhmästä G i n. Jälkimmäinen termi voidaan jakaa samalla tavalla osiin kuin äskenkin tehtiin. P(w n G i n )P(Gi n Gj n 1, Gk n, w n 1, w n )P(G j n 1, Gk n w n 1, w n ) Nyt voimme sieventää toista termiä olettamalla, että nykyinen ryhmä G i n riippuu vain edeltävistä ryhmistä, mutta ei edeltävistä sanoista. Jaetaan viimeinen termi vielä tutulla tavalla osiin. P(w n G i n )P(Gi n Gj n 1, G k n )P(Gj n 1 G n, w n 1, w n ) P(G k n w n 1, w n ) Koska sana voi kuulua vain yhteen ryhmään, riippuu todennäköisyys P(G j x w x,...) vain sanasta w x ja on yksi, kun on kyseessä ryhmä, johon sana kuuluu. P(w n G i n )P(Gi n Ga n 1, Gb n ) 1 1, w n 1 a, w n b Koska w n voi kuulua vain yhteen ryhmään G c n, kaikki muut summan termi ovat nollia: P(w n G c n )P(Gc n Ga n 1, Gb n ), w n c, w n 1 a, w n b Tämä sievennetyn lausekkeen voisi ilmaista viellä hieman yksinkertaisemmin merkitsemällä G wx x :llä ryhmää, johon sana w x kuuluu: P(w n G wn n )P(G wn n 4 G w n 1 n 1, G w n n )

Mietitäänpä vielä lopuksi, mitä tällaisella approksimaatiolla saadaan aikaiseksi. Oletetaanpa vaikka, että meillä on 4 sanasto, joista olemme muodostaneet 1 klusteria. Nyt arvioitavien parametrien määrä on pudonnut 4 =. 1 14 :sta 1 + 4 = 1 1 9 :ään. Jos oletetaan, että sanat on hyvin klusteroitu ja klusterien väliset siirtymät kuvaavat lähes yhtä hyvin kuin sanojen väliset siirtymät, saadaan nämä parametrit myös arvioitua paljon paremmin kuin trigrammimallin parametrit (enemmän dataa per parametri). Jos klusterointi puolestaan on huono, eikä klusterista toiseen siirtyminen juurikaan vastaa sanoista toiseen siirtymistä, malli arvio vähäiset parametrinsa huonosti ja on todennäköisesti paljon heikompi malli kuin trigrammimalli. Edelleenkin tietysti parametrien määrä on paljon pienempi.. Etsitään todennäköisin käännös ê ruotsinkieliselle lauseelle r: ê = argmax e P(e r) = argmaxp(e)p(r e) e Käytetään kirjassa esitettyä mallia todennäköisyydelle P(r e): P(r e) = 1 Z l a i = l a m= j=1 m P(r j e aj ) missä m on alkuperäisen ruotsinkielisen lauseen pituus ja l on käännetyn englanninkielisen lauseen pituus. Lasketaan kummallekin vaihtoehdolle: P(r e 1 ) = 1..7.9 1. 1. 1..1 =. P(r e ) = 1..7 1. 1. 1. 1. 1. 1. =.7 Tässä siis kokeillaan kaikkia käännössääntöjä jokaiselle ruotsinkielisen lauseen sanalle (huomioimatta sanajärjestystä). Koska säännöstö on hyvin harva, päästään näin yksinkertaiseen laskutoimitukseen. Prioritodennäköisyys P(e) saadaan kielimallista. Lasketaan se kummallekin lauseelle: P(e 1 ) = l P(w i ) =.18..1.1.1.1. =.8 1 9 P(e ) =.18.7.11.1.1.1.1.1 =.8 1 1 Kertomalla priori ja käännöstodennäköisyys huomataan, että jälkimmäinen käännös on todennäköisempi: P(e 1 )P(r e 1 ) =..8 1 9 = 1.8 1 1 P(e )P(r e ) =. 1 1

Huomattavaa on, että käännösmalli ei ota mitään kantaa sanajärjestykseen. Koska myöskään kielimalli (unigrammimalli) ei tätä tee, mallin mielestä sanajärjestyksellä ei ole mitään merkitystä. Jos mallilta kysytään todennäköisintä lausettta (ei testata eri vaihtoehtoja) huomataan, että todennäköisimpään lauseeseen ei voi tulla artikkeleja eikä sanaa into. Tämä johtuu siitä, että niiden lisääminen ei muuta käännöstodennäköisyyttä, mutta tiputtaa aina kielimallitodennäköisyyttä. Kielimalli siis suosii muutenkin lyhyempiä lauseita. Kasvattamalla kielimallin konteksti trigrammiksi, saisi ehkä artikkelit ja sanajärjestyksen paremmin kohdalleen. Yleisesti tällä menetelmällä tarvitaan heuristiikkaa valitsemaan käännökset, joita tutkitaan. Kaikkien vaihtoehtojen läpikäynti on käytännössä mahdotonta.