klusteroi data haluttuun määrään klustereita tee n-gram -mallit klustereista (tasoitus) estimoi sekoitteiden painokertoimet λ k

/DXU6HWVRH /DXU6HWVRH#KXWI 5XP0,\HUDG0DU2VWHGRUI0RGHJ/RJ'VWDH'HHGHH /DJXDJH7R0[WXUHV9HUVXV'\DP&DKH0RGHV,7UDV VHHKDGDXGRURHVVJ-DXDU\

$KHVHRWHPDGHD.l\WlW l.rhhvdwxrvd <KWHHYHWR /DXU6HWVRH

JUDPPDWKXDDYDWGHPPlHXXRWWXYDW UXYXXGHW,GHDl\WHWll\KGHPDVDVWDXVHDDPDD DKHPDD RWDHGXVWDYDWWDUHPPWHWW\l GRXPHWWW\\lDHWVWllVRYDWDRHUWRPHW HUPDHH /DXU6HWVRH

PDKHHVHRWHPDHUXVDDYD P, K, 7 λ HUXVURVHGXXU klusteroi data haluttuun määrään klustereita tee n-gram -mallit klustereista tasoitus estimoi sekoitteiden painokertoimet λ k DUDXVD aiheen tasoitus dynaamiset mallit 7 + /DXU6HWVRH

.XVWHURWDJRUWP ähtötilassa C* klusteria, tavoite C Yhdistetään ne kaksi klusteria A i ja A j, joilla suurin samankaltaisuusmitta ij Toistetaan kunnes jäljellä C klusteria 6DPDDWDVXXVPWWD $ 6 $ $ $ $ $ $ sanojen luokkien lkm klusterissa sanan sisältävien klusterien lkm + artikkelien lkm klusterissa /DXU6HWVRH

/DVHWDDDXVJUDPDKHPDWXVWHUR HUXVWHHD 9UWHWllPDW0DJRUWPD E-askel: lasketaan todennäköisyydet millä opetuslauseet kuuluvat m aiheeseen -askel: lasketaan uudelleen n-gram -todennäköisyydet, mukana back-off /DXU6HWVRH

/DXU6HWVRH E E 0/ E E φ φ + DVH 0DVH P \ \ λ λ + T T T ET E E 0/ E E T T ET T E ET ET ET ET opetuslauseiden lkm lkm lauseessa unigrammin lkm lauseessa, bigrammin φ

2JHPD alioppiminen interpoloidaan aihemallit yleisen koko datalla opetetun n- gram -mallin kanssa aiheisiin kuulumattomat lauseet lisätään aihemalleihin yleinen malli P,* λ [ α + * 7 +, K, α 7 VWPRGDDα Dλ /DXU6HWVRH

/DXU6HWVRH RVVDGHW\GDWDRXRDXVHHWXVWHURGDD WRGHl VPPlDKHHPXDD $XVVDDRWWDVDHVWPRGDDHVα DVWWHλ lauseiden lkm datajoukossa,,,, sanojen lkm lauseessa lauseiden lkm klusterissa,,, 7 7 P * 7 RG 7 RG H 7 * RG RG RG H + λ λ λ α α α α

2WDDXXVVWDKDYDWXVWDDXVHVWDGHWll GRXPHWVVllYlPXVWDKDYDWXVWD JUDPPHVWD 9lPXVWWDHDKHHP\ V\HVHHPDH sanojen frekvenssejä lisätään aihemalleihin sen mukaan miten todennäköisesti havaittu lause kuuluu kyseiseen aiheeseen eli lisätään osia frekvenssistä aiheen välimuistimalli estimoidaan kertyneiden lukumäärien mukaan P,* tasoitettu staattinen [ V µ, K, 7 λ + µ V 7 + malli välimuistimalli /DXU6HWVRH

2HWXVDHVWRRUWK$PHUD%XVHVV$% HVPRRDDVDDD miljoona sanaa sivuun lausetason ja n-gram -tason painojen estimoimiseen 6DDVWR. 7HVWDHVWR$5$HKW\VD HYDXRWWHVWRXRW.l\W VVlRKDWWXDGDWRWXPHRHDURWXVDVX DHWWX /DXU6HWVRH

7HVWRXRHUHVWHHWW Test Adaptation Trigram model 5-component mixture model Dev o 2 65 Dev Yes 7 4 Eval o 20 75 Eval Yes 75 45 7HVWRXR:5 Test Adaptation Trigram model 5-component mixture model Dev o 0,5 % 0,2 % Dev Yes 0, % 0,2 % Eval o,5 %,0 % Eval Yes, % 0,8 % /DXU6HWVRH

2HWXVDHVWR6WKERDUGRUXV HVXVWHXDPRRDDVDDD 0 000 sanaa kymmenestä keskustelusta sivuun sekoitepainojen estimoimiseksi 6DDVWR. 7HVWDHVWR%%VVlHVHWVHPlVWl HVXVWHXVWDRRVWXYD.l\W VVlVWDDWWHPD 7XRVHWWHVWRXRH Perplexity WER WBD baseline 8 4, % 6-mixture 2 40,6 % /DXU6HWVRH

/DXVHWDVRJUDPVHRWHPDDVDDYXWHWWDYVVD DUHPDWXRVDXHllJUDPPDD staattinen malli lauseiden sisällä oleville riippuvuuksille dynaaminen malli myös artikkelin sisällä oleville riippuvuuksille 6DDWWDDXWHlUVlKHRVWGDWDYlK\\GHVWl /DXU6HWVRH