Sanaluokkajäsennystä rinnakkaisilla transduktoreilla Nykykielten laitos FIN-CLARIN-seminaarissa 4. marraskuuta 2010
Sanaluokkajäsennys Mr. Gelbert also has fun with language. NNP NNP RB VBZ NN IN NN. Sanaluokkajäsennin määrittää jokaiselle tekstin sanalle sanaluokan ja taivutusmuodon. Sanaluokkajäsentimestä on hyötyä: lauseenjäsennyksessä. oikeinkirjoituksen ja kieliopin tarkistuksessa. puhesynteesissä. tiedonhaussa.
Sanaluokkajäsennys Sanaluokkajäsentimet ovat usein joko sääntöpohjaisia tai tilastollisia. Sääntöpohjainen sanaluokkajäsennin on usein nopea ja vaatii vähän muistia. Sen kehittäminen voi kuitenkin olla hidasta. Tilastollisen sanaluokkajäsentimen kehittäminen on nopeaa kunhan saatavilla on riittävästi opetusaineistoa. Tilastolliset jäsentimet vievät kuitenkin paljon muistia ja saattavat olla hitaita.
Sanaluokkajäsennys Päämääränä hybridijäsennin Hybridijäsennin yhdistää tilastollisen ja sääntöpohjaisen sanaluokkajäsentämisen. Onnistuneessa hybridijäsentimessä opetusaineistoa tarvitaan vähemmän kuin puhtaasti tilastollisessa sanaluokkajäsentimessä Hybridijäsentimen puutteita korjataan kirjoittamalla sääntöjä joita tarvitaan vähemmän kuin sääntöpohjaisessa jäsentimessä, koska suurin osa työstä hoidetaan tilastollisella mekanismilla. Miten tilastollinen ja lingvistinen tieto yhdistetään?
Markovin piilomalli perustana on Markovin piilomalli. Markovin piilomalli luokittelee jonomaisen datan alkiota (esim. virkkeen sanoja). Mr. Gelbert also has fun with language. NNP NNP RB VBZ NN IN NN. Usein käytetty toisen asteen Markovin piilomalli päättelee sanaluokkatulkinnan (VBZ) sanamuodon (has) ja kahden edeltävän sanan sanaluokkatulkinnan (NNP ja RB) perusteella.
Markovin piilomalli Kolmen sanaluokkatunnuksen mittaiset jonot ovat harvinaisia. Tästä syystä Markovin piilomalli sisältää tietoa myös yhden ja kahden tunnuksen mittaisista jonoista. Mikäli tunnusjono NNP RB VBZ ei esiintynyt mallin opetusaineistossa, malli arvioi jonon todennäköisyyttä kahden mittaisten tunnusjonojen NNP RB ja RB VBZ avulla. Tällainen varmistusmalli voidaan toteuttaa joko tukeutuen lyhyempiin jonoihin vain mikäli pidempiä ei ollut opetusaineistossa tai laskemalla tunnuksen todennäköisyys aina yhdistelmänä pitkistä ja lyhyistä tunnusjonoista.
Transduktorit Sanaluokkajäsennin on toteutettu käyttämällä transduktoreita. Transduktorit ovat tapa esittää malleja, jotka kuvaavat jonomaista dataa. Niillä voi vaikkapa toteuttaa mallin joka kuvaa kaikkia kielen virkkeitä. 0 <fail>:<fail> 1 NNP:NNP <fail>:<fail>/1 NNP:NNP <empty>:<empty> RB:RB <fail>:<fail>/1 NNP:NNP <fail>:<fail> <fail>:<fail>/1 2 4 6 <fail>:<fail> <fail>:<fail> <fail>:<fail> Painollisilla transduktoreilla voi esittää tilastollisia malleja kuten Markovin piilomalleja mutta myös kielioppisääntöjä. 3 5 7
Mr. Gelbert also has fun with language. Tilastollinen malli Leksikko Arvain 3 gram malli 2 gram malli 1 gram malli Mr. Gelbert also has fun with language. NNP NNP RB VBZ NN IN NN.
Leksikko Leksikko sisältää tiedon siitä mitkä sanaluokkatunnukset todennäköisesti ovat oikeita sanoille. Todennäköisyyslaskentaan liittyvistä syistä leksikko ei anna sanoille sanaluokkatunnusten jakaumaa P(tunnus sana). Sen sijaan se kertoo sanaluokkatunnuksille sanojen jakauman P(sana tunnus). Leksikko on toteutettu hfst-kirjaston optimized lookup -muodossa, joten sen käyttäminen on hyvin nopeaa.
Arvain Osa sanaluokkatunnusten jakaumista varataan tuntemattomille sanoille. Arvaaminen: 1 Sana detection ei esiintynyt opetusaineistossa. 2 Opetusaineistossa esiintyi kumminkin sana protection, joka sai aina analyysin NN. 3 Sanoilla on pitkä yhteinen pääte -tection, joten on järkevää olettaa että sanat esiintyvät suurin piirtein yhtä usein tunnuksen NN kanssa. 4 Arvaaminen on epätarkkaa, joten muutkin tunnukset kuin NN ovat mahdollisia vaikka epätodennäköisiä. Lopullinen arvaus kullekin sanaluokkatunnukselle on yhdistelmä päätejakaumista päätteille -n, -on,..., -tection.
Yleinen n-gram -malli Mr. Gelbert also has fun with language. NNP NNP RB VBZ NN IN NN. N-gram-malli arvioi sanaluokkatunnuksen (esim. VBZ) esiintymistodennäköisyyttä aiempien tunnusten (esim. RB ja NNP) perusteella. Tällä hetkellä käytetään rinnakkain malleja, jotka arvioivat todennäköisyyttä edellisen ja kahden edellisen tunnuksen perusteella. Lisäksi käytetään tietoa tunnusten jakaumista ilman kontekstia. N-gram-mallin antama lopullinen arvio todennäköisyydelle on lineaarinen yhdistelmä osamallien antamista todennäköisyyksistä.
Tarkkuus ja suoritusaika Tarkkuus on tällä hetkellä 96.12% kun jäsennetään Penn Treebank -korpusta. Vertailuna perinteisesti toteutettu Markovin malli TNT-jäsennin pääsee tarkkuuteen 96.46%. Ero 0.34 %-yksikköä tarkoittaa että 300 sanaa kohti tehdään noin yksi virhe enemmän. Jäsentimen nopeus on tällä hetkellä noin 2000 sanaa sekunnissa (eli Seitsemän veljestä 45 sekunnissa). Tätä voi kuitenkin parantaa.
Sanaluokkajäsenninkirjasto Piakkoin julkaistaan hfst-rajapinnan avulla toteutettu kirjasto, jolla voi rakentaa muunkinlaisia tilastollisia malleja kuin toisen asteen Markovin malleja. n avulla voi esimerkiksi tehdä n-gram-mallin joka käyttää perusmuotoja ja sanamuotoja n-grammeissa tai n-grammeja joissa on aukkoja. Mitään erityistä tietoa tilastollisista menetelmistä tai transduktoreista ei tarvita jäsentimien rakentamisessa, koska tämä tieto on sisäänttuna kirjastoon.
Selvittämättömiä kysymyksiä liittyen tilastolliseen malliin: Kannattaako ta hyödyntää myös harvinaisten sanojen kanssa, joita esiintyi opetusaineistossa? Montako arvausta arvaimelta kannattaa pyytää? Miten eri mallit painotetaan automaattisesti?
Kielioppisääntöjen yhdistäminen tilastolliseen malliin. Mielenkiintoinen kysymys on miten tilastollinen tieto saadaan käytettyä jäsentämisen nopeuttamiseen. Lauseopillinen jäsentäminen.
Kiitos!