5. Kontekstitieto ja yhteisesiintyminen

Samankaltaiset tiedostot
Luonnollisen kielen tilastollinen käsittely. T (3 ov) L. Kevät Luentokalvot: Krista Lagus (päivityksiä: Timo Honkela)

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

T Luonnollisten kielten tilastollinen käsittely

Luonnollisen kielen tilastollinen käsittely. T (3 ov) L. Kevät Luentokalvot: Krista Lagus ja Timo Honkela

Harjoitus 7: NCSS - Tilastollinen analyysi

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Kevät 2004 Timo Honkela ja Kris- ta Lagus

Sovellettu todennäköisyyslaskenta B

Statistical and Adaptive Natural Language Processing. T (5 cr) L, Spring 2007

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Sovellettu todennäköisyyslaskenta B

Chomskyn hierarkia ja yhteysherkät kieliopit

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisia peruskäsitteitä ja Monte Carlo

Sovellettu todennäköisyyslaskenta B

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Testejä suhdeasteikollisille muuttujille

Kevät 2003 Timo Honkela ja Kris- ta Lagus

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Estimointi. Vilkkumaa / Kuusinen 1

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

2. TILASTOLLINEN TESTAAMINEN...

Todennäköisyyden ominaisuuksia

10. laskuharjoituskierros, vko 14, ratkaisut

Rajoittamattomat kieliopit (Unrestricted Grammars)

031021P Tilastomatematiikka (5 op) viikko 5

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

klusteroi data haluttuun määrään klustereita tee n-gram -mallit klustereista (tasoitus) estimoi sekoitteiden painokertoimet λ k

Testaa onko myrkkypitoisuus eri ryhmissä sama. RATK. Lasketaan kaikkien havaintoarvojen summa: k T i = = 486.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

30A02000 Tilastotieteen perusteet

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Mat Tilastollisen analyysin perusteet, kevät 2007

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Kaksisuuntainen varianssianalyysi. Heliövaara 1

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

TIEA241 Automaatit ja kieliopit, kesä Antti-Juhani Kaijanaho. 29. toukokuuta 2013

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

11. laskuharjoituskierros, vko 15, ratkaisut

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

4.0.2 Kuinka hyvä ennuste on?

Testit järjestysasteikollisille muuttujille

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

9. laskuharjoituskierros, vko 12-13, ratkaisut

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

Testit laatueroasteikollisille muuttujille

tilastotieteen kertaus

Otoskoko 107 kpl. a) 27 b) 2654

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

uv n, v 1, ja uv i w A kaikilla

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

9.5. Turingin kone. Turingin koneen ohjeet. Turingin kone on järjestetty seitsikko

6.1.2 Yhdessä populaatiossa tietyn tyyppisten alkioiden prosentuaalista osuutta koskeva päättely

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

pisteet Frekvenssi frekvenssi Yhteensä

Mat Sovellettu todennäköisyyslasku A

TIEA241 Automaatit ja kieliopit, kevät 2011 (IV) Antti-Juhani Kaijanaho. 31. maaliskuuta 2011

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi

HAVAITUT JA ODOTETUT FREKVENSSIT

Transkriptio:

5. Kontekstitieto ja yhteisesiintyminen Kontekstin tärkeys kielen tulkinnassa: esimerkiksi monitulkintaisuudet ( Aloitin alusta, Alusta kovalevy!, Näin monta alusta, Minä näin monta alusta ) Chomskyn hierarkia kielille Kontekstin pituus Yhteisesiintymismatriisi Kollokaatiot

5.1 Chomskyn hierarkia kielille Chomsky jakaa kielet seuraavanlaiseen kompleksisuushierarkiaan. Tässä A on yksittäinen ei-terminaalisymboli ja α, β ja γ ovat mitä tahansa terminaalien ja ei-terminaalien jonoja. Tyyppi Nimi Sääntörunko 0 Turing-ekvivalentti α β s.e. α ɛ 1 Kontekstiherkkä αaβ αγβ s.e. γ ɛ 2 Kontekstivapaa A γ 3 Säännöllinen A xb tai A x 2

Chomskyn hierarkia kielille, selitykset Tyyppi 0 vastaavat niitä kieliä, joiden symbolijonot voidaan tuottaa (listata) Turing-koneella. Kontekstiherkät kielet muuntavat symbolin toiseksi riippuen sen oikean- ja vasemmanpuoleisesta kontekstista. Sääntöjen on myös tuotettava jotakin. Kontekstivapaissa kielissä ei-terminaalisymboli voidaan korvata millä tahansa ei-terminaalien ja terminaalien jonolla (mukaanlukien tyhjä jono). Näitä toteuttavat esim. lauserakennekieliopit. Säännölliset kielet ovat ekvivalentteja säännöllisten lausekkeiden (regular expressions) kanssa. Ne voivat olla oikea- tai vasenkätisesti lineaarisia. Niitä toteuttavat esim. äärelliset tilakoneet. 3

5.2 Kontekstin pituus ja yhteisesiintymismatriisi n-grammit, dynaaminen konteksti yksittäiset sanat kontekstissa, sana-dokumenttimatriisi bag of words -malli versus sanapositioiden huomioiminen etäriippuvuudet ja lauserakenteen huomioiminen 4

5.3 Kollokaatiot 5 Kollokaatio on kahdesta tai useammasta sanasta koostuva konventionaalistunut ilmaus Esimerkkejä: weapons of mass destruction, disk drive, part of speech (suomessa yhdyssanoina joukkotuhoaseet, levyasema, sanaluokkatieto ) bacon and eggs verbin valinta: make a decision ei take a decision. adjektiivin valinta: strong tea mutta ei powerful tea ; vahvaa teetä, harvemmin voimakasta teetä (valinnat voivat heijastaa kulttuurin asenteita: strong tea, coffee, cigarettes powerful drugs, antidote) kick the bucket, heittää veivinsä (kiertoilmaus, sanonta, idiomi)

Olentoja, yhteisöjä, paikkoja tai tapahtumia yksilöivät nimet: White House Valkoinen talo, Tarja Halonen Kollokaation kanssa osittain päällekkäisiä käsitteitä: termi, tekninen termi, terminologinen fraasi. Huom: tiedonhaussa sanalla termi laajempi merkitys: sana tai kollokaatio. 6

Sanan frekvenssi ja sanaluokkasuodatus Pelkän frekvenssin käyttö: Esimerkki: Onko luontevampaa sanoa strong tea vai powerful tea? Ratkaisu: Etsitään Googlella: strong tea 9270, powerful tea 201 Joihinkin täsmällisiin kysymyksiin riittävä tapa. Kuitenkin järjestettäess bigrammeja frekvenssin mukaan, parhaita ovat of the, in the, to the,... Frekvenssi + sanaluokka: Jos tunnetaan kunkin sanan sanaluokka, sekä osataan kuvailla kollokaatioiden sallitut sanaluokkahahmot: Järjestetään sanaparit tai -kolmikot yleisyyden (lukumäärä) mukaan Hyväksytään vain tietyt sanaluokkahahmot: AN, NN, AAN, ANN, NAN, NNN, NPN (Justeson & Katz s POS filter) 7

8

Sanojen etäisyyden keskiarvo ja varianssi Entä joustavammat kollokaatiot, joiden keskellä on kollokaatioon kuulumattomia sanoja? Lasketaan etäisyyden keskiarvo ja varianssi. Jos keskiarvo nollasta poikkeava ja varianssi pieni, potentiaalinen kollokaatio (Huom: oletetaan siis etäisyyden jakautuvan gaussisesti). Esim. knock... door (ei hit, beat, tai rap ): a) She knocked on his door b) They knocked at the door c) 100 women knocked on Donaldson s door d) a man knocked on the metal front door 9

Algoritmi Liu uta kiinteän kokoista ikkunaa tekstin yli (leveys esim. 9) ja kerää kaikki sanaparin esiintymät koko tekstissä Laske sanojen etäisyyksien keskiarvo: d = 1/n n i=1 d i = 1/4(3 + 3 + 5 + 5) = 4.0 (jos heittomerkki ja s lasketaan sanoiksi) Estimoi varianssi s 2 (pienillä näytemäärillä): s 2 P n i=1 = (d i d) 2 = 1/3((3 4.0) 2 +(3 4.0) 2 +(5 4.0) 2 +(5 4.0) 2 ) n 1 s = 1.15 10

11

Pohdittavaksi: 1. Mitä tapahtuu jos sanoilla on kaksi tai useampia tyypillisiä positioita suhteessa toisiinsa? 2. Mikä merkitys on ikkunan leveydellä? 12

Hypoteesin testaus Onko suuri osumamäärä yhteensattumaa (esim. johtuen siitä että jommankumman perusfrekvenssi on suuri)? Osuvatko kaksi sanaa yhteen useammin kuin sattuma antaisi olettaa? 1. Formuloi nollahypoteesi H 0 : assosiaatio on sattumaa 2. Laske tn p että sanat esiintyvät yhdessä jos H 0 on tosi 3. Hylkää H 0 jos p liian alhainen, alle merkitsevyystason, esim p < 0.05 tai p < 0.01. Nollahypoteesia varten sovelletaan riippumattomuuden määritelmää. Oletetaan että sanaparin todennäköisyys, jos H 0 on tosi, on kummankin sanan oman todennäköisyyden tulo: P (w 1 w 2 ) = P (w 1 )P (w 2 ) 13

T-testi Tilastollinen testi sille eroaako havaintojoukon odotusarvo oletetun, datan generoineen jakauman odotusarvosta. Olettaa, että todennäköisyydet ovat suunnilleen normaalijakautuneita. t = x µ, jossa (1) s 2 N x, s 2 : näytejoukon keskiarvo ja varianssi, N = näytteiden lukumäärä, ja µ = jakauman keskiarvo. Valitaan haluttu p-taso (0.05 tai pienempi). Luetaan tätä vastaava t:n yläraja taulukosta. Jos t suurempi, H 0 hylätään. 14

Soveltaminen kollokaatioihin: Nollahypoteesina että sanojen yhteisosumat ovat satunnaisia: Esimerkki: H 0 : P (new companies) = P (new)p (companies) µ = P (new)p (companies) c(new companies) x = = ˆp c(, ) s 2 = p(1 p) = ˆp(1 ˆp) ˆp (pätee Bernoulli-jakaumalle) N = c(, ) Järjestetään sanat paremmuusjärjestykseen mitan mielessä TAI Hypoteesin testaus: valitaan merkittävyystaso (p=0.05 tai p=0.01) ja katsotaan t-testin taulukosta arvo, jonka ylittäminen tarkoittaa nollahypoteesin hylkäystä. 15

Vertaillaan yhtä suuren frekvenssin omaavia bigrammeja keskenään t-testillä: 16

Esimerkki soveltamisesta muuhun ongelmaan: Vertailu mitkä lähikontekst sanat parhaiten erottelevat sanoja strong ja powerful 17

18