T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Samankaltaiset tiedostot
T Luonnollisten kielten tilastollinen käsittely

T Statistical Natural Language Processing Answers 6 Collocations Version 1.0

T Luonnollisten kielten tilastollinen käsittely Vastaukset 5, ti , 16:15-18:00 N-grammikielimallit, Versio 1.0

T Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

1 Bayesin teoreeman käyttö luokittelijana

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

6. laskuharjoitusten vastaukset (viikot 10 11)

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisia peruskäsitteitä ja Monte Carlo

Jatkuvat satunnaismuuttujat

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

D ( ) E( ) E( ) 2.917

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

Väliestimointi (jatkoa) Heliövaara 1

Matematiikan tukikurssi, kurssikerta 3

Mat Sovellettu todennäköisyyslasku A

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

T Luonnollisen kielen tilastollinen käsittely Vastaukset 8, ti , 8:30-10:00 Tilastolliset yhteydettömät kieliopit, Versio 1.

Osa 2: Otokset, otosjakaumat ja estimointi

Sovellettu todennäköisyyslaskenta B

805306A Johdatus monimuuttujamenetelmiin, 5 op

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Harjoitus 7: NCSS - Tilastollinen analyysi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Todennäköisyyden ominaisuuksia

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2010 Harjoitus Mitkä todennäköisyystulkinnat sopivat seuraaviin väitteisiin?

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Teema 8: Parametrien estimointi ja luottamusvälit

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

11. laskuharjoituskierros, vko 15, ratkaisut

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

1. Tilastollinen malli??

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Sovellettu todennäköisyyslaskenta B

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

TILASTOLLINEN OPPIMINEN

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

Testit laatueroasteikollisille muuttujille

4. laskuharjoituskierros, vko 7, ratkaisut

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

HAVAITUT JA ODOTETUT FREKVENSSIT

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Normaalijakaumasta johdettuja jakaumia

,ܾ jaü on annettu niin voidaan hakea funktion

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Yhtälönratkaisusta. Johanna Rämö, Helsingin yliopisto. 22. syyskuuta 2014

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mallipohjainen klusterointi

5. Kontekstitieto ja yhteisesiintyminen

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

MAB3 - Harjoitustehtävien ratkaisut:

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Mat Sovellettu todennäköisyyslasku A

tilastotieteen kertaus

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

5/11 6/11 Vaihe 1. 6/10 4/10 6/10 4/10 Vaihe 2. 5/11 6/11 4/11 7/11 6/11 5/11 5/11 6/11 Vaihe 3

Matematiikan peruskurssi 2

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

Maximum likelihood-estimointi Alkeet

Moniulotteisia todennäköisyysjakaumia

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

T Luonnollisten kielten tilastollinen käsittely Vastaukset 10, ti , 8:30-10:00 Sanojen merkitysten erottelu, Versio 1.

Mat Sovellettu todennäköisyyslasku A

Harjoitus 2: Matlab - Statistical Toolbox

T Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ke , 12:15 14:00 Puheentunnistus ja kielimallien evaluointi Versio 1.

Sovellettu todennäköisyyslaskenta B

S Laskennallinen systeemibiologia

LIITE 1 VIRHEEN ARVIOINNISTA

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Regressioanalyysi. Kuusinen/Heliövaara 1

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Transkriptio:

T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä: Bigrammeja valkoinen, talo oli 710 kappaletta. Normalisoitu frekvenssimenetelmä: Sana valkoinen esiintyi 3665 kertaa ja sana 710 talo 10 767 kertaa. Vertailuluvuksi saadaan 1.8 3665 10767 10 5. Kaikkien sanojen tulokset frekvenssimenetelmälle on esitetty taulukossa 1. Huomataan, että jo hihasta ravistetuilla menetelmillä päästään kohtalaisiin tuloksiin. 2. Lasketaan käsin malliksi tulos jo tutulle kollokaatiolla valkoinen, talo. Keskiarvo: Varianssi V ar( valkoinen, talo ) 1 710 2 2 + 1 + 2 6 Mean( valkoinen, talo ) = 710 + 2 + 1 + 6 0.975 = ( 1 ( 0.975))2 710 + ( 2 ( 0.975)) 2 2 + (1 ( 0.975)) 2 1 + (2 ( 0.975)) 2 6 710 + 2 + 1 + 6 0.083 Lopuille sanoille tulokset on annettu varianssin mukaan järjestettynä taulukossa 3. Taulukkoa tarkastellessamme huomaamme, että menetelmä on löytänyt käytännössä kaikki kiinteät kollokaatiot, kuten valkoinen talo. Menetelmä ei pärjää hyvin harvalla aineistolla, esim. vihainen mielenosoittaja ei selvästikään ole kollokaatio, vaikka menetelmä sen toiseksi sijoittaakin. Tarkasteluikkunan leveys vaikuttaa tietysti alueeseen, josta kollokaatioita etsitään. Jos aluetta kasvatetaan liian suureksi, rupeavat sanat esiintymään yhä useammin myös satunnaisesti yhdessä ja varianssi kasvaa suureksi. Liian pienellä ikkunalla ei pitempivaikutteisia kollokaatioita löydetä. Jos kollokaation toinen sana voi olla sekä referenssisanan edessä että takana, menetelmä tietysti hämääntyy täydellisesti. 3. χ 2 -testi perustuu yksinkertaiselle perusoletukselle. Katsotaan annettujen sanojen esiintymistodennäköisyydet ja lasketaan niiden perusteella, kuinka monta kertaa sanojen pitäisi esiintyä yhdessä. Tätä lukua verrataan havaittuun lukuun ja jos nämä pikkeavat suuresti toisistaan, todetaan että sanojen pitää olla kollokaatioita. Aloitetaan kasaamalla seuraavanlainen taulukon (taulukko 4): Nämä arvot voidaan

Taulukko 1: Frekvenssimenetelmän tulokset s 1 s 2 C(s 1,s 2 ) ja olla 7329 venäjä presidentti 717 valkoinen talo 710 kova tuuli 279 aste pakkanen 160 tuntematon sotilas 154 sekä myös 138 liukas keli 106 hakea työ 31 oppia lukea 21 ottaa onki 9 vihainen mielenosoittaja 7 olla ula 5 heittää veivi 3 herne nenä 3 Taulukko 2: Normalisoidun frekvenssimenetelmän tulokset s 1 s 2 Normalisoitu frekvenssi 10 8 liukas keli 1981 aste pakkanen 386 heittää veivi 293 herne nenä 268 valkoinen talo 180 tuntematon sotilas 163 vihainen mielenosoittaja 68 kova tuuli 35 ottaa onki 21 venäjä presidentti 10 oppia lukea 8 hakea työ 1 olla ula 0 sekä myös 0 ja olla 0 2

Taulukko 3: Pienimmän varianssin mukaan järjestetyt tulokset s 1 s 2 Keskiarvo Varianssi herne nenä -1.000 0.000 vihainen mielenosoittaja -1.000 0.000 tuntematon sotilas -1.025 0.025 valkoinen talo -0.975 0.083 ottaa onki -1.250 0.188 venäjä presidentti -1.128 0.472 kova tuuli -0.880 0.492 liukas keli -0.788 0.608 oppia lukea -0.606 1.087 heittää veivi -0.500 1.250 aste pakkanen -0.465 1.347 hakea työ -0.433 2.046 olla ula -0.250 2.438 sekä myös 0.252 2.981 ja olla -0.083 3.635 Taulukko 4: χ 2 -testissä tarvittavia suureita. w 1 =valkoinen w 1 valkoinen w 2 =talo 710 (valkoinen talo) 10767 710 = 10057 (punainen talo) w 2 talo 3665 710 = 2955 28181344 710 (valkoinen mopo) 10057 2955 = 28167622 (punainen mopo) 3

Taulukko 5: χ 2 -testin tulokset s 1 s 2 χ 2 liukas keli 591591 valkoinen talo 358771 aste pakkanen 173726 tuntematon sotilas 70409 ja olla 29194 kova tuuli 26644 venäjä presidentti 18147 heittää veivi 4120 herne nenä 2258 vihainen mielenosoittaja 1321 ottaa onki 525 oppia lukea 449 hakea työ 47 sekä myös 45 olla ula 0 sijoittaa sitten kahden muuttujan χ 2 -testin kaavaan: χ 2 = N(O 11 O 22 O 12 O 21 ) 2 (O 11 + O 12 )(O 11 + O 21 )(O 12 + O 22 )(O 21 + O 22 ) Luvut sijoittamalla saadaan siis: χ 2 = 28181344(710 28167622 10057 2955) 2 (710 + 10057)(710 + 2955)(10056 + 28167622)(2955 + 28167622) 358771 Jos χ 2 -testin tulos on yli 3.843, näyte on vedetty alle 5% todennäköisyydellä riippumattomasta jakaumasta. Tässä siis valkoinen talo vaikuttaa kollokaatiolta. Kuitenkin kun katsomme taulukkoa 5, huomaamme että melkein kaikki sanat olisivat sen mukaan kollokaatioita. χ 2 -testihän ei testaa sitä, ovatko sanat kollokaatioita, vaan sitä että ovatko sanat riippumattomia. Esimerkiksi sanapari ja, olla on melko korkealla tuloksissa, sillä näiden kahden sanan välillä esiintyy negatiivinen korrelaatio: sanat esiintyvät harvemmin peräkkäin kuin niiden satunnaisuuden mukaan pitäisi. Tätä riippuvuutta ei voida tietysti pitää merkkinä siitä, että sanat olisivat kollokaatioita. Viimeksi pyydettiin vielä laskemaan uskottavuussuhdetestillä järjestys sanoille. Uskottavuussuhdetestissä tarkastellaan kahden eri hypoteesin uskottavuuden suhdetta: H 1 : sanat esiintyvät satunnaisesti toisistaan riippumatta 4

Taulukko 6: Uskottavuustestin laskennassa käytettäviä suureita. H 1 H 2 P(w 2 w 1 ) p = c 2 N p 1 = c 12 c 1 P(w 2 ei w 1 ) p = c 2 N p 2 = c 2 c 12 N c 1 P(c 12 c 1 ) b(c 12, c 1, p) b(c 12, c 1, p 1 ) P(c 2 c 12 N c 1 ) b(c 2 c 12, N c 1, p) b(c 2 c 12, N c 1, p 2 ) H 2 : sanojen esiintyminen riippuu toisistaan Uskottavuussuhdetestin laskemiseen tarvitaan seuraavia suureita (luvut ovat tehtävän sanoille valkoinen ja talo ): Jos oletetaan sanoille binomijakauma c 1 = C(s 1 ) = 3665 (1) c 2 = C(s 2 ) = 10767 (2) c 12 = C(s 1, s 2 ) = 710 (3) p = c 2 N = 3.82 10 4 (4) p 1 = c 12 c 1 = 0.194 (5) p 2 = c 2 c 12 N c 1 = 3.57 10 4 (6) b(k, n, x) = ( ) n x k (1 x) n k, k voidaan uskottavuuksien suhde kirjoittaa (tarkempi johto kirjassa, katso myös sieltä lainattu taulukko 6) log λ = log L(H 1) L(H 2 ) = log b(c 12, c 1, p)b(c 2 c 12, N c 1, p) b(c 12, c 1, p 1 )b(c 2 c 12, N c 1, p 2 ) Tässähän lasketaan kullekin hypoteesille datan uskottavuus kahdessa osassa. Ensin lasketaan todennäköisyys niille bigrammeille, joissa ensimmäinen sana on valkoinen (näistä c 12 tapauksessa seuraa sana talo ) ja sitten todennäköisyys datan bigrammeille, joissa ensimmäinen sana ei ollut valkoinen (näistä c 2 c 12 tapauksessa seuraava sana on talo ). Ensimmäisen hypoteesin mukaan kummassakin tapauksessa todennäköisyys p on sama, sillä sanat ovat riippumattomia. Toisen hypoteesin mukaan 5 (7)

Taulukko 7: Uskottavuussuhdetestin tulokset s 1 s 2 L ja olla -21567 valkoinen talo -3811 venäjä presidentti -1696 kova tuuli -1013 aste pakkanen -972 liukas keli -824 tuntematon sotilas -799 oppia lukea -46 vihainen mielenosoittaja -30 heittää veivi -29 ottaa onki -28 sekä myös -26 herne nenä -17 hakea työ -15 olla ula 0 todennäkösyydet ovat erilaiset (p 1, p 2 ). Testissä lasketaan näiden datan todennäköisyyksien suhde. Sievennellään ( c1 ) c log λ = log 12 p c 12 (1 p) c 1 c 12 ( N c 1 ) c 2 c 12 p c 2 c 12 (1 p) N c 1 c 2 +c 12 ( c1 ) ( p1 c 12(1 c 12 p1 ) c 1 c 12 N c1 ) p2 c 2 c 12(1 c 2 c 12 p2 ) N c 1 c 2 +c 12 = c 12 (log p log p 1 ) + (c 1 c 12 )(log(1 p) log(1 p 1 )) + (c 2 c 12 )(log p log p 2 ) +(N c 1 c 2 +c 12 )(log(1 p) log(1 p 2 )) Sijoittamalla yhtälöissä 1 7 annetut arvot käyttäen luonnollisia logaritmeja saadaan tulokseksi -3811. Kun katsomme uskottavuussuhdetestin tuloksia (taulukko 7), huomaamme että myös tässä testi ei testaa sitä, ovatko sanat kollokaatioita, vaan sitä ovatko ne riippumattomia. Tuloksia voidaan perustella samoin argumentein kuin χ 2 testin kohdalla. 4. Yhteisinformaatio kertoo, kuinka paljon lisätietoa X:n havaitseminen antaa Y :stä. Jos X ja Y ovat riippumattomia, yhteisinformaatio on nolla. Lasketaan käsin malliksi tulos sanaparille valkoinen, talo. P(X, Y ) I(x, y) = log 2 P(X)P(Y ) 710 28181344 = log 2 9.0 6 3665 28181344 10767 28181344

Taulukko 8: Yhteisinformaation mukaan järjestetyt tulokset s 1 s 2 MI liukas keli 12.4 aste pakkanen 10.1 heittää veivi 9.7 herne nenä 9.6 valkoinen talo 9.0 tuntematon sotilas 8.8 vihainen mielenosoittaja 7.6 kova tuuli 6.6 ottaa onki 5.9 venäjä presidentti 4.8 oppia lukea 4.5 hakea työ 1.7 olla ula 0.5 sekä myös -0.8 ja olla -2.5 Tulokset koko sanajoukolle on esitetty taulukossa 8. Tulokset vaikuttavat hyviltä. Hieman kommenttia kirjan kritikkiin, että menetelmä erityisesti suosisi harvinaisia sanoja: Yksi tekijä joka tähän johtaa, on laskussa käytettyjen todennäköisyyksien estimointi tässä käytetään maksimiuskottavuusestimaattoreita. Paremman tuloksen saa varmasti, jos asettaa sanapareille priorin, että ne ovat riippumattomia ja antaa datan sitten muokata tätä oletusta. Yhteenvetona koko laskarista voisi sanoa vaikka seuraavaa: Heuristisilla menetelmillä (1. ja 2. tehtävä) voidaan päästä helpohkosti kohtalaisiin tuloksiin. Tehtävissä 3-5 sinänsä perustellut matemaattiset mallit mittaavat sanojen esiintymisen korrelaatiota, ei sitä, ovatko sanat kollokaatioita. Näillä menetelmillä voidaan silti saada hyviä tuloksia. Tilastomatematiikkaa on ehkä vaikeampi hahmottaa (3. tehtävän ensimmäinen osa), sitä käyttäessä on ymmärrettävä testin vaatimat oletukset. Todennäköisyyslaskuissa (3.tehtävän toinen osa, 4. tehtävä) nämä oletukset tuodaan eksplisiittisemmin esille. Todennäköisyyteen perustuvissa laskuissa joutuu myös harkitsemaan, miten tarvittavat todennäköisyydet approksimoidaan. Tässä on käytetty suurimman uskottavuuden estimaatteja (ML), jotka ovat ehkä liian herkkiä satunnaisvaihtelulle, kun näytteitä on suhteessa vähän. Parempana estimaattina voisi käyttää maksimi a posteriori (MAP) -estimaattia, jossa prioriuskomuksena olisi, että sanat eivät ole riippuvia. Tällöin malli väittäisi sanoja riippuviksi vasta kuin riittävä määrä dataa todistaa asian puolesta. 7