klusteroi data haluttuun määrään klustereita tee n-gram -mallit klustereista (tasoitus) estimoi sekoitteiden painokertoimet λ k

Samankaltaiset tiedostot
T Luonnollisten kielten tilastollinen käsittely Vastaukset 5, ti , 16:15-18:00 N-grammikielimallit, Versio 1.0

T Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1

Todennäköisyyden ominaisuuksia

Laskennallinen data-analyysi II

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Dynaamiset regressiomallit

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

805324A (805679S) Aikasarja-analyysi Harjoitus 3 (2016)

9. Tila-avaruusmallit

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

6. Tietokoneharjoitukset

, tuottoprosentti r = X 1 X 0

Estimointi. Vilkkumaa / Kuusinen 1

OPTIMAALINEN INVESTOINTIPÄÄTÖS

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

T Luonnollisten kielten tilastollinen käsittely

5. Kontekstitieto ja yhteisesiintyminen

11. laskuharjoituskierros, vko 15, ratkaisut

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen aineisto Luottamusväli

Matriisit. Määritelmä 1 Reaaliluvuista a ij, missä i = 1,..., k ja j = 1,..., n, muodostettua kaaviota a 11 a 12 a 1n a 21 a 22 a 2n A =

Shorin algoritmin matematiikkaa Edvard Fagerholm

Sovellettu todennäköisyyslaskenta B

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

Mallipohjainen klusterointi

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Kevät 2003 Timo Honkela ja Kris- ta Lagus

Luottamusvälit. Normaalijakauma johnkin kohtaan

Katkonnanohjaus evoluutiolaskennan keinoin

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Uskottavuusperusteisten luottamusvälien korjaaminen bootstrap-menetelmällä Pro gradu -esitelmä

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

2. välikokeen mallivastaukset

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

Python-ohjelmointi Harjoitus 5

Sovellettu todennäköisyyslaskenta B

Testaustyökalut. Luento 11 Antti-Pekka Tuovinen. Faculty of Science Department of Computer Science

Mitä IHMEttä on MIXTURE -mallintaminen?

Vastepintamenetelmä. Kuusinen/Heliövaara 1

9. N-grammi-kielimallit

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

1 Bayesin teoreeman käyttö luokittelijana

Sovellettu todennäköisyyslaskenta B

(b) Tarkista integroimalla, että kyseessä on todella tiheysfunktio.

Investointimahdollisuudet ja niiden ajoitus

6. OMINAISARVOT JA DIAGONALISOINTI

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

1 Matriisit ja lineaariset yhtälöryhmät

Sovellettu todennäköisyyslaskenta B

Kanta ja dimensio 1 / 23

805306A Johdatus monimuuttujamenetelmiin, 5 op

Talousmatematiikan perusteet, L2 Kertaus Aiheet

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

tilastotieteen kertaus

pisteet Frekvenssi frekvenssi Yhteensä

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Algebra I, harjoitus 8,

Koodausteoria, Kesä 2014

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet

6. laskuharjoitusten vastaukset (viikot 10 11)

Stationaariset stokastiset prosessit ja ARMA-mallit

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

(0 1) 010(0 1) Koska kieli on yksinkertainen, muodostetaan sen tunnistava epädeterministinen q 0 q 1 q 2 q3

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Todennäköisyys (englanniksi probability)

η i (θ)t i (x) A(θ) + c(x),

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Sovellettu todennäköisyyslaskenta B

Harjoitus 2: Matlab - Statistical Toolbox

(0 desimaalia, 2 merkitsevää numeroa).

Funktioiden approksimointi ja interpolointi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

(1.1) Ae j = a k,j e k.

MS-A0004/A0006 Matriisilaskenta

Harjoitus 7: NCSS - Tilastollinen analyysi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

MATEMATIIKAN KOE, LYHYT OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Lineaarikuvausten. Lineaarikuvaus. Lineaarikuvauksia. Ydin. Matriisin ydin. aiheita. Aiheet. Lineaarikuvaus. Lineaarikuvauksen matriisi

7. Olemassaolo ja yksikäsitteisyys Galois n kunta GF(q) = F q, jossa on q alkiota, määriteltiin jäännösluokkarenkaaksi

JOHDATUS TEKOÄLYYN TEEMU ROOS

30A02000 Tilastotieteen perusteet

1 p p P (X 0 = 0) P (X 0 = 1) =

Transkriptio:

/DXU6HWVRH /DXU6HWVRH#KXWI 5XP0,\HUDG0DU2VWHGRUI0RGHJ/RJ'VWDH'HHGHH /DJXDJH7R0[WXUHV9HUVXV'\DP&DKH0RGHV,7UDV VHHKDGDXGRURHVVJ-DXDU\

$KHVHRWHPDGHD.l\WlW l.rhhvdwxrvd <KWHHYHWR /DXU6HWVRH

JUDPPDWKXDDYDWGHPPlHXXRWWXYDW UXYXXGHW,GHDl\WHWll\KGHPDVDVWDXVHDDPDD DKHPDD RWDHGXVWDYDWWDUHPPWHWW\l GRXPHWWW\\lDHWVWllVRYDWDRHUWRPHW HUPDHH /DXU6HWVRH

PDKHHVHRWHPDHUXVDDYD P, K, 7 λ HUXVURVHGXXU klusteroi data haluttuun määrään klustereita tee n-gram -mallit klustereista tasoitus estimoi sekoitteiden painokertoimet λ k DUDXVD aiheen tasoitus dynaamiset mallit 7 + /DXU6HWVRH

.XVWHURWDJRUWP ähtötilassa C* klusteria, tavoite C Yhdistetään ne kaksi klusteria A i ja A j, joilla suurin samankaltaisuusmitta ij Toistetaan kunnes jäljellä C klusteria 6DPDDWDVXXVPWWD $ 6 $ $ $ $ $ $ sanojen luokkien lkm klusterissa sanan sisältävien klusterien lkm + artikkelien lkm klusterissa /DXU6HWVRH

/DVHWDDDXVJUDPDKHPDWXVWHUR HUXVWHHD 9UWHWllPDW0DJRUWPD E-askel: lasketaan todennäköisyydet millä opetuslauseet kuuluvat m aiheeseen -askel: lasketaan uudelleen n-gram -todennäköisyydet, mukana back-off /DXU6HWVRH

/DXU6HWVRH E E 0/ E E φ φ + DVH 0DVH P \ \ λ λ + T T T ET E E 0/ E E T T ET T E ET ET ET ET opetuslauseiden lkm lkm lauseessa unigrammin lkm lauseessa, bigrammin φ

2JHPD alioppiminen interpoloidaan aihemallit yleisen koko datalla opetetun n- gram -mallin kanssa aiheisiin kuulumattomat lauseet lisätään aihemalleihin yleinen malli P,* λ [ α + * 7 +, K, α 7 VWPRGDDα Dλ /DXU6HWVRH

/DXU6HWVRH RVVDGHW\GDWDRXRDXVHHWXVWHURGDD WRGHl VPPlDKHHPXDD $XVVDDRWWDVDHVWPRGDDHVα DVWWHλ lauseiden lkm datajoukossa,,,, sanojen lkm lauseessa lauseiden lkm klusterissa,,, 7 7 P * 7 RG 7 RG H 7 * RG RG RG H + λ λ λ α α α α

2WDDXXVVWDKDYDWXVWDDXVHVWDGHWll GRXPHWVVllYlPXVWDKDYDWXVWD JUDPPHVWD 9lPXVWWDHDKHHP\ V\HVHHPDH sanojen frekvenssejä lisätään aihemalleihin sen mukaan miten todennäköisesti havaittu lause kuuluu kyseiseen aiheeseen eli lisätään osia frekvenssistä aiheen välimuistimalli estimoidaan kertyneiden lukumäärien mukaan P,* tasoitettu staattinen [ V µ, K, 7 λ + µ V 7 + malli välimuistimalli /DXU6HWVRH

2HWXVDHVWRRUWK$PHUD%XVHVV$% HVPRRDDVDDD miljoona sanaa sivuun lausetason ja n-gram -tason painojen estimoimiseen 6DDVWR. 7HVWDHVWR$5$HKW\VD HYDXRWWHVWRXRW.l\W VVlRKDWWXDGDWRWXPHRHDURWXVDVX DHWWX /DXU6HWVRH

7HVWRXRHUHVWHHWW Test Adaptation Trigram model 5-component mixture model Dev o 2 65 Dev Yes 7 4 Eval o 20 75 Eval Yes 75 45 7HVWRXR:5 Test Adaptation Trigram model 5-component mixture model Dev o 0,5 % 0,2 % Dev Yes 0, % 0,2 % Eval o,5 %,0 % Eval Yes, % 0,8 % /DXU6HWVRH

2HWXVDHVWR6WKERDUGRUXV HVXVWHXDPRRDDVDDD 0 000 sanaa kymmenestä keskustelusta sivuun sekoitepainojen estimoimiseksi 6DDVWR. 7HVWDHVWR%%VVlHVHWVHPlVWl HVXVWHXVWDRRVWXYD.l\W VVlVWDDWWHPD 7XRVHWWHVWRXRH Perplexity WER WBD baseline 8 4, % 6-mixture 2 40,6 % /DXU6HWVRH

/DXVHWDVRJUDPVHRWHPDDVDDYXWHWWDYVVD DUHPDWXRVDXHllJUDPPDD staattinen malli lauseiden sisällä oleville riippuvuuksille dynaaminen malli myös artikkelin sisällä oleville riippuvuuksille 6DDWWDDXWHlUVlKHRVWGDWDYlK\\GHVWl /DXU6HWVRH