T Luonnollisten kielten tilastollinen käsittely

Samankaltaiset tiedostot
T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

T Statistical Natural Language Processing Answers 6 Collocations Version 1.0

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

T Luonnollisten kielten tilastollinen käsittely Vastaukset 5, ti , 16:15-18:00 N-grammikielimallit, Versio 1.0

T Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisia peruskäsitteitä ja Monte Carlo

Osa 2: Otokset, otosjakaumat ja estimointi

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

805306A Johdatus monimuuttujamenetelmiin, 5 op

Jatkuvat satunnaismuuttujat

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Testit laatueroasteikollisille muuttujille

6. laskuharjoitusten vastaukset (viikot 10 11)

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

Sovellettu todennäköisyyslaskenta B

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Sovellettu todennäköisyyslaskenta B

D ( ) E( ) E( ) 2.917

Todennäköisyyden ominaisuuksia

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Teema 8: Parametrien estimointi ja luottamusvälit

Harjoitus 2: Matlab - Statistical Toolbox

H0: otos peräisin normaalijakaumasta H0: otos peräisin tasajakaumasta

,ܾ jaü on annettu niin voidaan hakea funktion

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

P (A)P (B A). P (B) P (A B) = P (A = 0)P (B = 1 A = 0) P (B = 1) P (A = 1)P (B = 1 A = 1) P (B = 1)

5. Kontekstitieto ja yhteisesiintyminen

Sovellettu todennäköisyyslaskenta B

Mat Sovellettu todennäköisyyslasku A

Väliestimointi (jatkoa) Heliövaara 1

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

TILASTOLLINEN OPPIMINEN

11. laskuharjoituskierros, vko 15, ratkaisut

Sovellettu todennäköisyyslaskenta B

Mat Sovellettu todennäköisyyslasku A

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

4. laskuharjoituskierros, vko 7, ratkaisut

S Laskennallinen systeemibiologia

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

T Luonnollisen kielen tilastollinen käsittely Vastaukset 8, ti , 8:30-10:00 Tilastolliset yhteydettömät kieliopit, Versio 1.

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet

Normaalijakaumasta johdettuja jakaumia

1 Bayesin teoreeman käyttö luokittelijana

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

1. Tilastollinen malli??

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Mallipohjainen klusterointi

Tuloperiaate. Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta

T Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ke , 12:15 14:00 Puheentunnistus ja kielimallien evaluointi Versio 1.

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

Matematiikan tukikurssi, kurssikerta 3

tilastotieteen kertaus

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Otosavaruus ja todennäköisyys Otosavaruus Ë on joukko, jonka alkiot ovat kokeen tulokset Tapahtuma on otosavaruuden osajoukko

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

riippumattomia ja noudattavat samaa jakaumaa.

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

Differentiaali- ja integraalilaskenta 2 Laskuharjoitus 4 / vko 40

5/11 6/11 Vaihe 1. 6/10 4/10 6/10 4/10 Vaihe 2. 5/11 6/11 4/11 7/11 6/11 5/11 5/11 6/11 Vaihe 3

Estimointi. Vilkkumaa / Kuusinen 1

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

MAB3 - Harjoitustehtävien ratkaisut:

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kohdassa on käytetty eksponentiaalijakauman kertymäfunktiota (P(t > T τ ) = 1 P(t T τ ). λe λτ e λ(t τ) e 3λT dτ.

Moniulotteisia todennäköisyysjakaumia

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

Osa 1: Todennäköisyys ja sen laskusäännöt. Kokonaistodennäköisyyden ja Bayesin kaavat

pisteet Frekvenssi frekvenssi Yhteensä

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Tilastollinen aineisto Luottamusväli

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Transkriptio:

T-61.281 Luonnollisten kielten tilastollinen käsittely Vastaukset 3, ti 11.2.2003, 16:15-18:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä: Bigrammeja valkoinen, talo oli 710 kappaletta. Normalisoitu frekvenssimenetelmä: Sana valkoinen esiintyi 3665 kertaa ja sana talo 10 767 kertaa. Vertailuluvuksi saadaan 710 3665 10767 1.8 10 5. Kaikkien sanojen tulokset frekvenssimenetelmälle on esitetty taulukossa 1. Huomataan, että jo hihasta ravistetuilla menetelmillä päästään kohtalaisiin tuloksiin. 2. Lasketaan käsin malliksi tulos jo tutulle kollokaatiolla valkoinen, talo. Keskiarvo: Varianssi V ar( valkoinen, talo ) 1 710 2 2 + 1 + 2 6 Mean( valkoinen, talo ) = 710 + 2 + 1 + 6 0.975 = ( 1 ( 0.975))2 710 + ( 2 ( 0.975)) 2 2 + (1 ( 0.975)) 2 1 + (2 ( 0.975)) 2 6 710 + 2 + 1 + 6 0.083 Lopuille sanoille tulokset on annettu varianssin mukaan järjestettynä taulukossa 3. Taulukkoa tarkastellessamme huomaamme, että menetelmä on löytänyt käytännössä kaikki kiinteät kollokaatiot, kuten valkoinen talo. Menetelmä ei pärjää hyvin harvalla aineistolla, esin. vihainen mielenosoittaja ei selvästikään ole kollokaatio, vaikka menetelmä ensimmäiseksi sijoittaakin. Tarkasteluikkunan leveys vaikuttaa tietysti alueeseen, josta kollokaatioita etsitään. Jos aluetta kasvatetaan liian suureksi, rupeavat sanat esiintymään yhä useammin myös satunnaisesti yhdessä ja varianssi kasvaa suureksi. Liian pienellä ikkunalla ei pitempivaikutteisia kollokaatioita löydetä. Jos kollokaation toinen sana voi olla sekä referenssisanan edessä että takana, menetelmä tietysti hämääntyy täydellisesti. 3. χ 2 -testi perustuu yksinkertaiselle perusoletukselle. Katsotaan annettujen sanojen esiintymistodennäköisyydet ja lasketaan niiden perusteella, kuinka monta kertaa sanojen pitäisi esiintyä yhdessä. Tätä lukua verrataan havaittuun lukuun ja jos nämä pikkeavat suuresti toisistaan, todetaan että sanojen pitää olla kollokaatioita.

Taulukko 1: Frekvenssimenetelmän tulokset s 1 s 2 C(s 1,s 2 ) ja olla 7329 venäjä presidentti 717 valkoinen talo 710 kova tuuli 279 aste pakkanen 160 tuntematon sotilas 154 sekä myös 138 liukas keli 106 hakea työ 31 oppia lukea 21 ottaa onki 9 vihainen mielenosoittaja 7 olla ula 5 heittää veivi 3 herne nenä 3 Taulukko 2: Normalisoidun frekvenssimenetelmän tulokset s 1 s 2 Normalisoitu frekvenssi 10 8 liukas keli 1981 aste pakkanen 386 heittää veivi 293 herne nenä 268 valkoinen talo 180 tuntematon sotilas 163 vihainen mielenosoittaja 68 kova tuuli 35 ottaa onki 21 venäjä presidentti 10 oppia lukea 8 hakea työ 1 olla ula 0 sekä myös 0 ja olla 0 2

Taulukko 3: Pienimmän varianssin mukaan järjestetyt tulokset s 1 s 2 Keskiarvo Varianssi herne nenä -1.000 0.000 vihainen mielenosoittaja -1.000 0.000 tuntematon sotilas -1.025 0.025 valkoinen talo -0.975 0.083 ottaa onki -1.250 0.188 venäjä presidentti -1.128 0.472 kova tuuli -0.880 0.492 liukas keli -0.788 0.608 oppia lukea -0.606 1.087 heittää veivi -0.500 1.250 aste pakkanen -0.465 1.347 hakea työ -0.433 2.046 olla ula -0.250 2.438 sekä myös 0.252 2.981 ja olla -0.083 3.635 Taulukko 4: χ 2 -testissä tarvittavia suureita. w 1 =valkoinen w 1 valkoinen w 2 =talo 710 (valkoinen talo) 10767 710 = 10057 (punainen talo) w 2 talo 3665 710 = 2955 28181344 710 (valkoinen mopo) 10057 2955 = 28167622 (punainen pappi) 3

Taulukko 5: χ 2 -testin tulokset s 1 s 2 χ 2 liukas keli 591591 valkoinen talo 358771 aste pakkanen 173726 tuntematon sotilas 70409 ja olla 29194 kova tuuli 26644 venäjä presidentti 18147 heittää veivi 4120 herne nenä 2258 vihainen mielenosoittaja 1321 ottaa onki 525 oppia lukea 449 hakea työ 47 sekä myös 45 olla ula 0 Aloitetaan kasaamalla seuraavanlainen taulukon (taulukko 4): Nämä arvot voidaan sijoittaa sitten kahden muuttujan χ 2 -testin kaavaan: χ 2 = Luvut sijoittamalla saadaan siis: N(O 11 O 22 O 12 O 21 ) 2 (O 11 + O 12 )(O 11 + O 21 )(O 12 + O 22 )(O 21 + O 22 ) χ 2 = 28181344(710 28167622 10057 2955) 2 (710 + 10057)(710 + 2955)(10056 + 28167622)(2955 + 28167622) 358771 Jos χ 2 -testin tulos on yli 3.843, näyte on vedetty alle 5% todennäköisyydellä riippumattomasta jakaumasta. Tässä siis valkoinen talo vaikuttaa kollokaatiolta. Kuitenkin kun katsomme taulukkoa 5, huomaamme että melkein kaikki sanat olisivat sen mukaan kollokaatioita. χ 2 -testihän ei testaa sitä, ovatko sanat kollokaatioita, vaan sitä että ovatko sanat riippumattomia. Esimerkiksi sanapari ja, olla on melko korkealla tuloksissa, sillä näiden kahden sanan välillä esiintyy negatiivinen korrelaatio: sanat esiintyvät harvemmin peräkkäin kuin niiden satunnaisuuden mukaan pitäisi. Tätä riippuvuutta ei voida tietysti pitää merkkinä siitä, että sanat olisivat kollokaatioita. Viimeksi pyydettiin vielä laskemaan uskottavuussuhdetestillä järjestys sanoille. Uskottavuussuhdetestissä tarkastellaan kahden eri hypoteesin uskottavuuden suhdetta: H 1 : sanat esiintyvät satunnaisesti toisistaan riippumatta 4

Taulukko 6: Uskottavuustestin laskennassa käytettäviä suureita. H 1 H 2 P(w 2 w 1 ) p = c 2 N p 1 = c 12 c 1 P(w 2 ei w 1 ) p = c 2 N p 2 = c 2 c 12 N c 1 P(c 12 c 1 ) b(c 12, c 1, p) b(c 12, c 1, p 1 ) P(c 2 c 12 N c 1 ) b(c 2 c 12, N c 1, p) b(c 2 c 12, N c 1, p 2 ) H 2 : sanojen esiintyminen riippuu toisistaan Uskottavuussuhdetestin laskemiseen tarvitaan seuraavia suureita (luvut ovat tehtävän sanoille valkoinen ja talo ): c 1 = C(s 1 ) = 3665 c 2 = C(s 2 ) = 10767 c 12 = C(s 1, s 2 ) = 710 p = c 2 = 3.82 10 4 N p 1 = c 12 = 0.194 c 1 p 2 = c 2 c 12 N c 1 = 3.57 10 4 Jos oletetaan sanoille binomijakauma b(k, n, x) = ( ) n x k (1 x) n k, k voidaan uskottavuuksien suhde kirjoittaa (tarkempi johto kirjassa, katso myös sieltä lainattu taulukko 6) log λ = log L(H 1) L(H 2 ) = log b(c 12, c 1, p)b(c 2 c 12, N c 1, p) b(c 12, c 1, p 1 )b(c 2 c 12, N c 1, p 2 ) Tässähän lasketaan kullekin hypoteesille datan uskottavuus kahdessa osassa. Ensin lasketaan todennäköisyys niille bigrammeille, joissa ensimmäinen sana on valkoinen (näistä c 12 tapauksessa seuraa sana talo ) ja sitten todennäköisyys datan bigrammeille, joissa ensimmäinen sana ei ollut valkoinen (näistä c 2 c 12 tapauksessa seuraava sana on talo ). Ensimmäisen hypoteesin mukaan kummassakin tapauksessa todennäköisyys p on sama, sillä sanat ovat riippumattomia. Toisen hypoteesin mukaan 5

todennäkösyydet ovat erilaiset (p 1, p 2 ). Testissä lasketaan näiden datan todennäköisyyksien suhde. Määritellään vielä funktio F: F(k, n, x) = x k (1 x) n k log F(k, n, x) = k log(x) + (n k) log(1 x) Nyt voidaan uskottavuuksien suhde laskea kaavasta Sijoitellaan lukuja log λ = log F(c 12, c 1, p) + log F(c 2 c 12, N c 1, p) log F(c 12, c 1, p 1 ) log F(c 2 c 12, N c 1, p 2 ) log λ = log L(710, 3665, 3.82 10 4 ) + log L(10767 710, 28181344 3655, 3.82 10 4 ) log L(710, 3665, 0.194) log L(3665 710, 28181344 2665, 3.57 10 4 ) 3811 Kun katsomme uskottavuussuhdetestin tuloksia (taulukko 7), huomaamme että myös tässä testi ei testaa sitä, ovatko sanat kollokaatioita, vaan sitä ovatko ne riippumattomia. Tuloksia voidaan perustella samoin argumentein kuin χ 2 testin kohdalla. 4. Yhteisinformaatio kertoo, kuinka paljon lisätietoa X:n haivaitseminen antaa Y :stä. Jos X ja Y ovar riippumattomia, yhteisinformaatio on nolla. Lasketaan käsin malliksi tulos sanaparille valkoinen, talo. P(X, Y ) I(x, y) = log 2 P(X)P(Y ) 710 28181344 = log 2 9.0 3665 28181344 Tulokset koko sanajoukolle on esitetty taulukossa 8. 10767 28181344 Tulokset vaikuttavat hyviltä. Hieman kommenttia kirjan kritikkiin, että menetelmä erityisesti suosisi harvinaisia sanoja: Yksi tekijä joka tähän johtaa, on laskussa käytettyjen todennäköisyyksien estimointi tässä käytetään maksimiuskottavuusestimaattoreita. Paremman tuloksen saa varmasti, jos asettaa sanapareille priorin, että en ovat riippumattomia ja antaa datan sitten muokata tätä oletusta. 6

Taulukko 7: Uskottavuussuhdetestin tulokset s 1 s 2 L ja olla -21567 valkoinen talo -3811 venäjä presidentti -1696 kova tuuli -1013 aste pakkanen -972 liukas keli -824 tuntematon sotilas -799 oppia lukea -46 vihainen mielenosoittaja -30 heittää veivi -29 ottaa onki -28 sekä myös -26 herne nenä -17 hakea työ -15 olla ula 0 Taulukko 8: Yhteisinformaation mukaan järjestetyt tulokset s 1 s 2 MI liukas keli 12.4 aste pakkanen 10.1 heittää veivi 9.7 herne nenä 9.6 valkoinen talo 9.0 tuntematon sotilas 8.8 vihainen mielenosoittaja 7.6 kova tuuli 6.6 ottaa onki 5.9 venäjä presidentti 4.8 oppia lukea 4.5 hakea työ 1.7 olla ula 0.5 sekä myös -0.8 ja olla -2.5 7

Yhteenvetona koko laskarista voisi sanoa vaikka seuraavaa: Heuristisilla menetelmillä (1. ja 2. tehtävä) voidaan päästä yksinkertaisissa tapauksissa kohtalaisiin tuloksiin. Perinteinen tilastomatematiikka (tehtävä 3) voi olla hieman epäintuitiivista, jos sitä ei ole tottunut käyttämään. Suoraan todennäköisyyteen perustuvat menetelmät (tehtävät 4 ja 5) ovat ehkä intuitiivisesti selkeämpiä ja koska ne perustuvat todennäköisyyslaskuun, niissä on helppo ottaa huomioon monia tekijöitä. Esitettyjen todennäköisyyteen perustuvien menetelmien tulokset olisivat varmastikin luotettavimpia etenkin pienemmillä datamäärillä, jos suurimman uskottavuuden (ML) estimaattien sijaan käytettäisiin vaikkapa maksimi a posteriori (MAP) estimaatteja. 8