Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Samankaltaiset tiedostot
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1 Bayesin teoreeman käyttö luokittelijana

Kielellisen datan käsittely ja analyysi tutkimuksessa

T Luonnollisten kielten tilastollinen käsittely

JOHDATUS TEKOÄLYYN TEEMU ROOS

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Laskut käyvät hermoille

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Tilastotiede ottaa aivoon

T Luonnollisten kielten tilastollinen käsittely Vastaukset 5, ti , 16:15-18:00 N-grammikielimallit, Versio 1.0

dx=5&uilang=fi&lang=fi&lvv=2014

Johdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava. TKK (c) Ilkka Mellin (2005) 1

Esimerkki: Tietoliikennekytkin

Tehtäväsarja I Seuraavat tehtävät liittyvät kurssimateriaalin lukuun 7 eli vapauden käsitteeseen ja homogeenisiin

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Osa 2: Otokset, otosjakaumat ja estimointi

Ongelma(t): Miten jollakin korkeamman tason ohjelmointikielellä esitetty algoritmi saadaan suoritettua mikro-ohjelmoitavalla tietokoneella ja siinä

Osa 1: Todennäköisyys ja sen laskusäännöt. Kokonaistodennäköisyyden ja Bayesin kaavat

Todennäköisyyslaskenta I, kesä 2017 Helsingin yliopisto/avoin Yliopisto Harjoitus 1, ratkaisuehdotukset

CLT131: Tekstityökalut 2011, viides luento

Avainsanojen poimiminen Eeva Ahonen

1. Esitä rekursiivinen määritelmä lukujonolle

Tilastotiede ottaa aivoon

805306A Johdatus monimuuttujamenetelmiin, 5 op

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset

Poikkeavuuksien havainnointi (palvelinlokeista)

Sovellettu todennäköisyyslaskenta B

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Avoimen lähdekoodin kaksitasokielioppikääntäjä

Harjoitus 7: NCSS - Tilastollinen analyysi

Järvitesti Ympäristöteknologia T571SA

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

jäsentämisestä TIEA241 Automaatit ja kieliopit, syksy 2015 Antti-Juhani Kaijanaho 27. marraskuuta 2015 TIETOTEKNIIKAN LAITOS

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Liikenneteorian tehtävä

JOHDATUS TEKOÄLYYN TEEMU ROOS

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

T Luonnollisen kielen tilastollinen käsittely Vastaukset 8, ti , 8:30-10:00 Tilastolliset yhteydettömät kieliopit, Versio 1.

pitkittäisaineistoissa

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

811312A Tietorakenteet ja algoritmit I Johdanto

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Matemaatikot ja tilastotieteilijät

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I

Sovellettu todennäköisyyslaskenta B

Tehtäväsarja I Seuraavat tehtävät liittyvät kurssimateriaalin lukuun 7 eli vapauden käsitteeseen ja homogeenisiin

Esimerkkejä vaativuusluokista

Tilastollinen päättely II, kevät 2017 Harjoitus 1A

pitkittäisaineistoissa

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Lukumummit ja -vaarit Sanavaraston kartuttamista kaunokirjallisuuden avulla

JOHDATUS TEKOÄLYYN TEEMU ROOS

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

Jatkuvat satunnaismuuttujat

Lukemisvaikeuden arvioinnista kuntoutukseen. HYVÄ ALKU- messut Jyväskylä, Elisa Poskiparta, Turun yliopisto, Oppimistutkimuksen keskus

TODENNÄKÖISYYS JA TILASTOT MAA6 KERTAUS

NÄYTÖN ARVIOINTI: SYSTEMAATTINEN KIRJALLISUUSKATSAUS JA META-ANALYYSI. EHL Starck Susanna & EHL Palo Katri Vaasan kaupunki 22.9.

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

b) Määritä myös seuraavat joukot ja anna kussakin tapauksessa lyhyt sanallinen perustelu.

Mat Sovellettu todennäköisyyslasku A

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Integrointi muihin järjestelmiin case AMKE

Digitalisoitu harjoitustehtävien ratkaisujen palautus sekä arviointi matematiikan ja tilastotieteen yliopisto-opinnoissa

9 Yhteenlaskusääntö ja komplementtitapahtuma

Yhteistyötä sisältämätön peliteoria jatkuu

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

Tilastollisen tutkimuksen vaiheet

Teema 8: Parametrien estimointi ja luottamusvälit

TULOSPALVELUN OTTELUSEURANTA

Todennäköisyyden ominaisuuksia

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

Koodausteoria, Kesä 2014

Tässä luvussa käsitellään optimaalisten piirteiden valintaa, luokittelijan optimointia ja luokittelijan suorituskyvyn arviointia.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

OPS-MUUTOSINFO

CUDA. Moniydinohjelmointi Mikko Honkonen

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

MATEMATIIKKA 5 VIIKKOTUNTIA. PÄIVÄMÄÄRÄ: 8. kesäkuuta 2009

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

JOHDATUS TEKOÄLYYN TEEMU ROOS

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2010 Harjoitus Mitkä todennäköisyystulkinnat sopivat seuraaviin väitteisiin?

x 4 e 2x dx Γ(r) = x r 1 e x dx (1)

Sovellettu todennäköisyyslaskenta B

Edistyksen päivät, Helsinki. Voiko tutkija muuttaa maailmaa? Humanistista meta-analyysiä merkitysneuvottelevien koneiden avulla.

Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa. Kimmo Kettunen Dimiko (Digra-projekti)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

811120P Diskreetit rakenteet

Tässä lehdessä pääset kertaamaan Lohdutus-jakson asioita.

Tieverkon kunnon stokastinen ennustemalli ja sen soveltaminen riskienhallintaan

4. Funktion arvioimisesta eli approksimoimisesta

Matematiikka ja teknologia, kevät 2011

Ilkka Mellin Todennäköisyyslaskenta Osa 1: Todennäköisyys ja sen laskusäännöt Verkot ja todennäköisyyslaskenta

Puhesynteesin perusteet: Lingvistinen esikäsittely

Transkriptio:

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla Nykykielten laitos FIN-CLARIN-seminaarissa 4. marraskuuta 2010

Sanaluokkajäsennys Mr. Gelbert also has fun with language. NNP NNP RB VBZ NN IN NN. Sanaluokkajäsennin määrittää jokaiselle tekstin sanalle sanaluokan ja taivutusmuodon. Sanaluokkajäsentimestä on hyötyä: lauseenjäsennyksessä. oikeinkirjoituksen ja kieliopin tarkistuksessa. puhesynteesissä. tiedonhaussa.

Sanaluokkajäsennys Sanaluokkajäsentimet ovat usein joko sääntöpohjaisia tai tilastollisia. Sääntöpohjainen sanaluokkajäsennin on usein nopea ja vaatii vähän muistia. Sen kehittäminen voi kuitenkin olla hidasta. Tilastollisen sanaluokkajäsentimen kehittäminen on nopeaa kunhan saatavilla on riittävästi opetusaineistoa. Tilastolliset jäsentimet vievät kuitenkin paljon muistia ja saattavat olla hitaita.

Sanaluokkajäsennys Päämääränä hybridijäsennin Hybridijäsennin yhdistää tilastollisen ja sääntöpohjaisen sanaluokkajäsentämisen. Onnistuneessa hybridijäsentimessä opetusaineistoa tarvitaan vähemmän kuin puhtaasti tilastollisessa sanaluokkajäsentimessä Hybridijäsentimen puutteita korjataan kirjoittamalla sääntöjä joita tarvitaan vähemmän kuin sääntöpohjaisessa jäsentimessä, koska suurin osa työstä hoidetaan tilastollisella mekanismilla. Miten tilastollinen ja lingvistinen tieto yhdistetään?

Markovin piilomalli perustana on Markovin piilomalli. Markovin piilomalli luokittelee jonomaisen datan alkiota (esim. virkkeen sanoja). Mr. Gelbert also has fun with language. NNP NNP RB VBZ NN IN NN. Usein käytetty toisen asteen Markovin piilomalli päättelee sanaluokkatulkinnan (VBZ) sanamuodon (has) ja kahden edeltävän sanan sanaluokkatulkinnan (NNP ja RB) perusteella.

Markovin piilomalli Kolmen sanaluokkatunnuksen mittaiset jonot ovat harvinaisia. Tästä syystä Markovin piilomalli sisältää tietoa myös yhden ja kahden tunnuksen mittaisista jonoista. Mikäli tunnusjono NNP RB VBZ ei esiintynyt mallin opetusaineistossa, malli arvioi jonon todennäköisyyttä kahden mittaisten tunnusjonojen NNP RB ja RB VBZ avulla. Tällainen varmistusmalli voidaan toteuttaa joko tukeutuen lyhyempiin jonoihin vain mikäli pidempiä ei ollut opetusaineistossa tai laskemalla tunnuksen todennäköisyys aina yhdistelmänä pitkistä ja lyhyistä tunnusjonoista.

Transduktorit Sanaluokkajäsennin on toteutettu käyttämällä transduktoreita. Transduktorit ovat tapa esittää malleja, jotka kuvaavat jonomaista dataa. Niillä voi vaikkapa toteuttaa mallin joka kuvaa kaikkia kielen virkkeitä. 0 <fail>:<fail> 1 NNP:NNP <fail>:<fail>/1 NNP:NNP <empty>:<empty> RB:RB <fail>:<fail>/1 NNP:NNP <fail>:<fail> <fail>:<fail>/1 2 4 6 <fail>:<fail> <fail>:<fail> <fail>:<fail> Painollisilla transduktoreilla voi esittää tilastollisia malleja kuten Markovin piilomalleja mutta myös kielioppisääntöjä. 3 5 7

Mr. Gelbert also has fun with language. Tilastollinen malli Leksikko Arvain 3 gram malli 2 gram malli 1 gram malli Mr. Gelbert also has fun with language. NNP NNP RB VBZ NN IN NN.

Leksikko Leksikko sisältää tiedon siitä mitkä sanaluokkatunnukset todennäköisesti ovat oikeita sanoille. Todennäköisyyslaskentaan liittyvistä syistä leksikko ei anna sanoille sanaluokkatunnusten jakaumaa P(tunnus sana). Sen sijaan se kertoo sanaluokkatunnuksille sanojen jakauman P(sana tunnus). Leksikko on toteutettu hfst-kirjaston optimized lookup -muodossa, joten sen käyttäminen on hyvin nopeaa.

Arvain Osa sanaluokkatunnusten jakaumista varataan tuntemattomille sanoille. Arvaaminen: 1 Sana detection ei esiintynyt opetusaineistossa. 2 Opetusaineistossa esiintyi kumminkin sana protection, joka sai aina analyysin NN. 3 Sanoilla on pitkä yhteinen pääte -tection, joten on järkevää olettaa että sanat esiintyvät suurin piirtein yhtä usein tunnuksen NN kanssa. 4 Arvaaminen on epätarkkaa, joten muutkin tunnukset kuin NN ovat mahdollisia vaikka epätodennäköisiä. Lopullinen arvaus kullekin sanaluokkatunnukselle on yhdistelmä päätejakaumista päätteille -n, -on,..., -tection.

Yleinen n-gram -malli Mr. Gelbert also has fun with language. NNP NNP RB VBZ NN IN NN. N-gram-malli arvioi sanaluokkatunnuksen (esim. VBZ) esiintymistodennäköisyyttä aiempien tunnusten (esim. RB ja NNP) perusteella. Tällä hetkellä käytetään rinnakkain malleja, jotka arvioivat todennäköisyyttä edellisen ja kahden edellisen tunnuksen perusteella. Lisäksi käytetään tietoa tunnusten jakaumista ilman kontekstia. N-gram-mallin antama lopullinen arvio todennäköisyydelle on lineaarinen yhdistelmä osamallien antamista todennäköisyyksistä.

Tarkkuus ja suoritusaika Tarkkuus on tällä hetkellä 96.12% kun jäsennetään Penn Treebank -korpusta. Vertailuna perinteisesti toteutettu Markovin malli TNT-jäsennin pääsee tarkkuuteen 96.46%. Ero 0.34 %-yksikköä tarkoittaa että 300 sanaa kohti tehdään noin yksi virhe enemmän. Jäsentimen nopeus on tällä hetkellä noin 2000 sanaa sekunnissa (eli Seitsemän veljestä 45 sekunnissa). Tätä voi kuitenkin parantaa.

Sanaluokkajäsenninkirjasto Piakkoin julkaistaan hfst-rajapinnan avulla toteutettu kirjasto, jolla voi rakentaa muunkinlaisia tilastollisia malleja kuin toisen asteen Markovin malleja. n avulla voi esimerkiksi tehdä n-gram-mallin joka käyttää perusmuotoja ja sanamuotoja n-grammeissa tai n-grammeja joissa on aukkoja. Mitään erityistä tietoa tilastollisista menetelmistä tai transduktoreista ei tarvita jäsentimien rakentamisessa, koska tämä tieto on sisäänttuna kirjastoon.

Selvittämättömiä kysymyksiä liittyen tilastolliseen malliin: Kannattaako ta hyödyntää myös harvinaisten sanojen kanssa, joita esiintyi opetusaineistossa? Montako arvausta arvaimelta kannattaa pyytää? Miten eri mallit painotetaan automaattisesti?

Kielioppisääntöjen yhdistäminen tilastolliseen malliin. Mielenkiintoinen kysymys on miten tilastollinen tieto saadaan käytettyä jäsentämisen nopeuttamiseen. Lauseopillinen jäsentäminen.

Kiitos!