Hierarkkisesti jäsenneltyjen kieliaineistojen puurakenteen hyödyntäminen tiedon louhinnassa

hyväksymispäivä arvosana arvostelija Hierarkkisesti jäsenneltyjen kieliaineistojen puurakenteen hyödyntäminen tiedon louhinnassa Elina Ekola Seminaariraportti Helsinki 11.11.2010 HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

HELSINGIN YLIOPISTO HELSINGFORS UNIVERSITET UNIVERSITY OF HELSINKI Tiedekunta/Osasto Fakultet/Sektion Faculty/Section Laitos Institution Department Matemaattis-luonnontieteellinen tiedekunta Tietojenkäsittelytieteen laitos Tekijä Författare Author Elina Ekola Työn nimi Arbetets titel Title Hierarkkisesti jäsenneltyjen kieliaineistojen puurakenteen hyödyntäminen tiedon louhinnassa Oppiaine Läroämne Subject Tietojenkäsittelytiede / Seminaari: Kielitieteelliset aineistot Työn laji Arbetets art Level Aika Datum Month and year 11.11.2010 Sivumäärä Sidoantal Number of pages 12 Seminaariraportti Tiivistelmä?Referat?Abstract Eri tavoin kerätyt kielitieteelliset aineistot, korpukset, sisältävät paljon tietoa kielestä, sen rakenteesta ja eri tavoista käyttää kieltä. Paljon sekä kieleen itseensä että sen välittämiin merkityksiin liittyvää tietoa on koodattuna kielen hierarkkisesti jäsentyneisiin rakenteisiin, jotka ovatkin tärkeää tiedon hankinnan ja louhinnan aineistoa. Syntaktisesti jäsennetyt korpukset, joihin voidaan lisätä myös semanttisia selitteitä, ovat tutkimuksen lähtökohta, tutkittiinpa sitten kielen rakennetta tai tekstin merkityksen muodostumista. Näiden rakenteiden avulla ja esimerkiksi koneoppimisen algoritmeja käyttäen voidaan korpuksista löytää tietoa, jonka löytäminen muuten olisi vaikeaa. Esimerkkinä kielen syntaktisen rakenteen hyödyntämisestä tiedon hankinnassa on osana kansainvälistä hanketta (International Corpus of English, ICE) kerätty ICE-GB-korpus. Esimerkkinä korpuksista, joihin on lisätty semanttisia selitteitä, ovat FrameNet ja PropBank. ACM Computing Classification System (CCS): I.2.6 Learning : Knowledge acquisition H.3.3 Information Search and Retrieval : Query formulation, Retrieval models I.2.7 Natural Language Processing : Language parsing and understanding Avainsanat Nyckelord Keywords korpus, syntaktinen jäsennys, semanttinen jäsennys, tiedon hankinta, tiedon louhinta Säilytyspaikka Förvaringställe Where deposited Muita tietoja Övriga uppgifter Additional information

1 Johdanto... 1 2 Tiedon louhinnan tavoitteet... 1 3 Hierarkkisesti jäsennelty korpus... 3 3.1 Syntaktisen jäsennyspuun ominaisuudet... 3 3.2 Semanttinen jäsennys... 5 4 Syntaktisen jäsentelyn käyttö kielen ilmiöiden tutkimisessa... 6 4.1 Puurakenteiden osista kielen rakenneosiin... 6 4.2 Koneoppimisen algoritmit toistuvien piirteiden "löytäjinä"... 7 4.3 Merkitys? - Tekstin louhintaa syntaktisen jäsennyksen perusteella... 9 5 Yhteenveto... 11 Lähteet... 12

1 Johdanto Eri tavoin kerätyt kielitieteelliset aineistot, korpukset, sisältävät paljon tietoa kielestä, sen rakenteesta ja eri tavoista käyttää kieltä. Aineistot on yleensä varustettu sanaluokkia, lukua, kielenkäyttötilannetta, puhujaa tai kirjoittajaa selventävillä kommenteilla ja jäsennetty syntaktisesti. Etenkin aiemmin tämä syntaktinen jäsennys oli suuri ja paljon asiantuntijatyötä vaativa tehtävä, mutta erilaisia jäsennysalgoritmeja on kehitetty ja kehitetään edelleen, joten tämäkin vaihe korpusten esikäsittelystä tulee yhä nopeammaksi [WaN97, WaN01]. Korpukset sisältävät niin paljon erilaista kieltä koskevaa tietoa, että niiden mahdollisimman laaja ja monipuolinen käyttö on järkevää. Paljon sekä kieleen itseensä että sen välittämiin merkityksiin liittyvää tietoa on koodattuna kielen hierarkkisesti jäsentyneisiin rakenteisiin, jotka ovatkin tärkeää tiedon hankinnan ja louhinnan aineistoa. Syntaktisesti jäsennetyt korpukset ovat tutkimuksen lähtökohta, tutkittiinpa sitten kielen rakennetta tai tekstin merkityksen muodostumista, ja syntaktiseen jäsennyspuuhun, joka itsessään on syklitön, järjestetty ja lauseen täydellisesti kuvaava, voidaan liittää myös semanttisia selitteitä. Näiden rakenteiden avulla ja esimerkiksi koneoppimisen algoritmeja käyttäen voidaan korpuksista löytää tietoa, jonka löytäminen muuten olisi vaikeaa [WaN97, WaN01, HKW05, ANW07, COM08]. Esimerkkinä kielen syntaktisen rakenteen hyödyntämisestä tiedon hankinnassa on ICE-GBkorpus. Tämä on syntynyt osana kansainvälistä hanketta (International Corpus of English, ICE), jossa lähes 20 englanninkielisessä maassa kerätään identtiset korpukset kunkin maan omalla englannin kielen variantilla. ICE-GB on ICE-hankkeen Ison-Britannian korpus, johon on kehitetty oma, sumeita puun osia (Fuzzy Tree Fragments, FTF) apuna käyttävä, graafinen kyselytyökalu ICECUP [WaN97, WaN01, ANW07]. Tässä työssä esitellään joitain esimerkkejä tämän kyselytyökalun käytöstä. Esimerkkinä korpuksista, joihin on lisätty semanttisia selitteitä, ovat FrameNet ja PropBank. 1 Kummassakin semanttiset selitteet lisätään syntaktiseen jäsennyspuuhun, mutta mm. selitteiden muodot ovat erilaiset [HKW05]. Erilaiset jäsennykset, näiden kuvaukset ja näitä hyödyntävät kyselytyökalut ovat kaikki hyödyllisiä, mutta usein hierarkkisiin rakenteisiin sisältyvän tiedon löytäminen vaatii myös aineiston kommentoinnin tai kuvaamisen uudestaan nimenomaan tutkittavan ongelman näkökulmasta, monenlaisten eri menetelmien soveltamisen ja tietenkin asiantuntijan, joka kykenee löydetyt tiedot tulkitsemaan. 2 Tiedon louhinnan tavoitteet Tiedon louhinnan päätehtävä on löytää tutkimuskysymyksen kannalta mielenkiintoisia rakenteita tai vuorovaikutuksia tutkittavasta aineistosta, joka usein on jollain tavalla rakenteista. Tämä rakenne itsessään on jo tärkeä tiedonlähde ja osoittaa sellaisenaan eri ilmiöiden tai olioiden suhteita [COM08]. Kielitieteellisessä tutkimuksessa jäsennellyt ja hyvin kommentoidut korpukset ovat olennaisessa osassa. Kielen käyttötapojen tutkiminen, kielen rakenteisiin liittyvien hypoteesien laadinta ja etenkin niiden oikeellisuuden varmistaminen edellyttävät edustavien ja oikeellisten korpusten käyttöä. Ja kun tällaisia korpuksia on saatu laadittua, niitä myös kannattaa hyödyntää mahdollisimman hyvin sekä louhimalla niistä tietoa ja tietämystä että käyttämällä aineistoa muutenkin laajamittaisesti [WaN01]. 1 1 FrameNetistä löytyy lisätietoja osoitteesta http://www.icsi.berkeley.edu/~framenet ja PropBankista osoitteesta http://verbs.colorado.edu/~mpalmer/projects/ace.html

Erityisen hyödyllisiä jäsennetyt korpukset ovat silloin, kun tutkitaan kielenkäyttöä eri tilanteissa, erilaisissa teksteissä ja eri konteksteissa. Luonnollisista kielenkäyttötilanteista kootut tekstit tuovat tietoa siitä, miten kieltä missäkin yhteydessä käytetään, ja tämä tieto kannattaa käyttää hyväksi tutkimalla korpuksia erilaisin menetelmin, selvittämällä rakenteiden eroja ja tarkastelemalla aineistoa eri näkökulmista [WaN97, WaN01, ANW07]. Jo itse jäsennyspuun rakentamistakin voidaan tarkastella tiedonhankintaprosessina, sillä tiedon hankintaa (knowledge acquisition, KA tai knowledge elicitation, KE) voidaan kuvata hyvin samanlaisena prosessina kuin kieliaineiston jäsennystä (kuva 1). Prosesseissa on samanlainen syklinen ja iteroiva lähestymistapa, jossa yksittäistapausten perusteella luodaan laajempi kokonaisuus, jota testataan ja jonka perusteella tehdään lisää päätelmiä [WaN97]. Sen lisäksi, että näin saadaan jäsennettyä yksi kieliaineisto, voidaan itse jäsennysprosessia tutkimalla ja kehittämällä laatia yhä parempia automaattisia jäsentäjiä, joilla voidaan selvittää kielen sekä syntaktisia että semanttisia rakenteita ja niihin koodattua tietoa [WaN01]. Vastaavasti syntaktisen jäsennyspuun semanttinen kommentointi on eräänlainen tiedonhankintatai oppimisprosessi, ja myös semanttisen kommentoinnin automatisointiin on pyritty kehittämään oppivia järjestelmiä. Tällaisten jäsentäjien tarkoitus on löytää tekstistä semanttisia suhteita eli siis suorittaa eräänlaista semanttisten suhteiden louhintaa syntaktisesti jäsennellystä korpuksesta (ks. kuva 12) [COM08]. 2 Kuva 1 Tiedon hankinnan (a) ja korpusten syntaktisen jäsennyksen (b) kaksitasoiset ja iteratiiviset prosessimallit [WaN97]. Menetelmiä, joita on kehitetty muilla tutkimusalueilla, on voitu hyödyntää korpuslingvistisessä tutkimuksessa. Näin on erityisesti sekä syntaktisen että semanttisen jäsennyksen kehittämisessä, jotka molemmat ovat hyötyneet koneoppimisen algoritmeista [WaN01, COM08]. Hyöty ei ole kuitenkaan pelkästään yksisuuntaista, vaan korpusten rakenteisen datan tutkimuksessa kehitettyjä ja testattuja menetelmiä olisi mahdollista soveltaa myös muille aloille, joilla data on mallinnettavissa hierarkkisina suhteina. Tällaisina sovellusaloina mainitaan esimerkiksi biotieteisiin liittyvä proteiinien vuorovaikutustutkimus [COM08].

3 3 Hierarkkisesti jäsennelty korpus 3.1 Syntaktisen jäsennyspuun ominaisuudet Eri lähteistä kootut kieliaineistot, korpukset, kommentoidaan ja varustetaan erilaisin selittein ennen kuin niitä voidaan varsinaisesti hyödyntää tutkimuksessa. Perustason kommentointi käsittää ainakin sanojen luokittelun sanaluokkiin ja sanojen luvun täsmentämisen, minkä automatisointi on jo pitkällä. Tällainen jäsentely ei vielä ole hierarkkisesti rakentunutta. Syntaktinen kommentointi tuottaa puolestaan hierarkkisesti jäsenneltyä tietoa, jonka tuottaminen aiemmin oli hyvinkin työlästä [WaN01], mutta johon nyt on kehitetty toimivia jäsennysalgoritmeja [ANW07]. Syntaktinen jäsennys kuvaa lauseen rakenteen hierarkkisena puuna - puun muuttuminen tarkoittaa samalla jäsenneltävän lauseen muuttumista - ja päinvastoin. Kielitieteellisesti käyttökelpoisen syntaktisen jäsennyspuun tulee täyttää seuraavat ehdot (kuva 2): Jäsennyspuu on puhdas, syklitön puurakenne (acyclicity), jossa kullakin solmulla on vain yksi isäsolmu. Puu on täydellinen (closure) eli se rakentuu yhden juurisolmun ja lauseen sanoja vastaavan lehtisolmujoukon väliin niin, että juurisolmu määrittelee yhden jäsennysyksikön (lauseen) ja lehtisolmut ovat konkreettisen lauseen sanojen määritteitä ja siten heikosti järjestyneitä (weak ordering). Varsinainen jäsennys rakentuu näiden rajojen väliin siten, että puun kaikki solmut ovat vahvasti järjestyneitä (strong ordering), mikä määritellään siten, että Millä tahansa solmulla a, joka edeltää välitöntä sisarsolmuaan b, pätee se, että solmun a viimeinen lapsisolmu edeltää solmun b ensimmäistä lapsisolmua. Vahvasti järjestetyssä syntaktisessa puussa solmujen väliset särmät eivät siis leikkaa toisiaan eli puussa ei ole ristikkäisiä viittauksia puun eri tasojen välillä. Tällainen puurakenne kuvaa jäsennettyä lausetta juuri siinä muodossa kuin se on tallennettu, eikä ns. kieliopillisesti oikeassa muodossa. Kieltä ja sen ilmiöitä on siten mahdollista tutkia sellaisina kuin ne käytännössä ilmenevät [WaN97]. Puun sisäsolmuille määritellään usein niiden tehtävä (function) lauseessa - esimerkiksi subjekti tai objekti - ja luokka (category), joka tässä tapauksessa on tehtävää toteuttamassa - kuten substantiivilauseke. Tehtävä määrää sen, mihin luokkiin solmu voi kuulua, ja luokkaan puolestaan liittyy joukko ominaisuuksia (feature property) (kuva 3). Hierarkkisesta rakenteestaan johtuen jäsennyspuuhun voidaan ajatella liittyvän myös jonkinlaista periytyvyyttä (inheritance), mutta tämä näkökulma lienee lähinnä tapauskohtaista eikä ole jäsennyksen keskeinen ominaisuus [WaN97].

4 Kuva 2 Jäsennyspuun ominaisuudet eli syklittömyys (a), täydellisyys (b), heikko järjestys (c) ja vahva järjestys (d) [WaN97]. Kuva 3 ICE-projektin kehittämä tapa mallintaa ja kuvata syntaktinen jäsennyspuu. Esimerkkilauseena on englanninkielinen lause I saw the man (PU = Parsing Unit; CL = Clause; SU = Subject; NP = Noun Phrase; NPHD = Noun Phrase Head; PRON = Pronoun; VB = Verb; VP = Verb Phrase; MVB = Main Verb; V = Verb; OD = Direct Object; DT = Determiner; DTP = Deteminer Phrase; DTCE = Central Determiner; ART = Article; N = Noun) [WaN97]. Syntaktinen jäsennyspuu kuvaa lauseen kieliopillisen rakenteen puumaisena hierarkiana. Periaatteessa rakenne voidaan esittää puhtaana puurakenteena (kuva 4), mutta tiedot voidaan myös visualisoida eri tavoin (vrt. kuva 3) Kuva 4 Syntaktinen jäsennyspuu [COM08].

3.2 Semanttinen jäsennys Semanttista tietoa voidaan lisätä suoraan lauseen syntaktiseen jäsennyspuuhun liittämällä puun solmuihin semanttisia suhteita kuvaavia lisätietoja. Kuvassa 5 on abstrakti jäsennyspuu, johon on liitetty näitä suhteita kuvaavat luokitukset. Eri elementit, jotka ovat semanttisesti vuorovaikutuksessa keskenään, voivat sijaita syntaktisessa puussa kaukanakin toisistaan [COM08]. 5 Kuva 5 Abstrakti esimerkki jäsennyspuusta, johon on merkitty kohdesana (tgt) eli predikaatti ja sen argumentit (R 0, R 1, R 3 ). Argumenttiluokkia, jotka muodostavat predikaatin kanssa erilaisia vuorovaikutussuhteita, sanotaan rooleiksi. Tätä abstraktia esimerkkiä kannattaa verrata kuvaan 4, jossa on esitetty konkreettinen esimerkkilause. Kohdesanojen, predikaattien, sanaluokkaa kuvaavat määritteet (VB) on kuvassa 4 ympyröity ja niihin jossain suhteessa, roolissa, olevien muiden sanojen luokat (NP) on ympäröity suorakulmaisin kehyksin [COM08]. Semanttiset määritteet voivat olla lauseen predikaattiin (ns. kohdesana, target) liittyviä, ja sen merkitystä heijastelevia erityisselitteitä. Esimerkkinä tällaisista erityisselitteistä voisivat olla lauseeseen Tuomari tuomitsi rikollisen lisätyt selitteet. Koska lauseen predikaattina on tuomitsi, liitetään tuomari-sanaan semanttinen selite TUOMITSIJA ja rikollisen-sanaan selite TUOMITTU. Tämän tyyppistä semanttista kommentointia käytetään esimerkiksi FrameNet-korpuksessa [HKW05]. Toinen lähestymistapa on käyttää predikaatin merkityksestä riippumattomia selitteitä, kuten ARG0, ARG1 jne.. Kullakin tällaisella yleisselitteellä on jokin tietty merkitys esimerkiksi niin, että ARG0 on ns. PROTO-AGENT, joka on yleensä lauseen subjekti, ja ARG1 on ns. PROTO-PATIENT, joka on puolestaan lauseen objekti. Näiden pääargumenttien lisäksi lauseisiin voidaan merkitä lisäargumentteja kuvaamaan esimerkiksi paikanmääreitä (ARGM-LOC) tai aikamääreitä (ARGM-TMP) (kuva 6). Näin semanttinen tieto välitetään hieman yleiskäyttöisemmillä kommenteilla, jotka kuitenkin paljastavat sanan merkityksen lausekokonaisuudessa. Esimerkkinä tämän tyyppisestä semanttisesta kommentoinnista on PropBank-korpus [HKW05]. Kuva 6 Syntaktisen jäsennyspuun semanttinen kommentointi, jossa on käytetty predikaatin merkityksestä riippumattomia semanttisia selitteitä [HKW05].

Puurakenteet ovat tyypillisesti järjestettyjä - syntaktisissa jäsennyspuissahan tämä on suorastaan rakenteen edellytys. Semanttiset suhteet voidaan kuitenkin ilmaista myös järjestämättömissä puissa (unordered trees), joissa sisarussolmujen järjestyksellä ei ole väliä, tai vapaissa puissa (free trees), joissa solmujen välisten särmien suunnalla ei ole väliä. Kuvassa 7, jossa kuvattujen lauseiden merkitykset ovat toki erilaisia, puu (d) on järjestettynä puuna sama kuin puu (a), mutta eri kuin puut (b) ja (c). Järjestämättömänä puuna se on sama kuin puut (a) ja (b), mutta eri kuin puu (c). Vapaana puuna se sen sijaan vastaa kaikkia puita (a), (b) ja (c) [MAI05]. 6 Kuva 7 Esimerkkejä syntaktisista riippuvuuspuista tai -osapuista [MAI05]. 4 Syntaktisen jäsentelyn käyttö kielen ilmiöiden tutkimisessa 4.1 Puurakenteiden osista kielen rakenneosiin ICE-aineiston käsittelyä varten on kehitetty menetelmä, jossa käytetään ns. sumeita puun osia (Fuzzy Tree Fragment, jatkossa FTF) 2, jotka ovat tapa kuvata rakenteisia kieliopillisia kyselyitä. FTF on ikään kuin yleistetty jäsennyspuun osa, jossa osa elementeistä on jätetty täsmentämättä ja vain halutun kyselyn kannalta olennaiset osat on kuvattu. FTF voi sisältää esimerkiksi solmujen ja tekstin osien ylimalkaisen kuvauksen, elementtien välisiä suhteita, todellisia lauseen osia ja rakenteen rajapintoja kuvaavia elementtejä (kuva 8) [WaN01, ANW07]. FTF:n solmujen väliset linkit on koodattu niiden vierekkäisyyden tai läheisyyden (adjacency), järjestyksen (order) ja oikeellisuuden (correctedness) mukaan. Vierekkäisyys voi olla joko välitöntä tai lopulta ilmenevää, kuten parent:child-suhteen välitön vierekkäisyys (musta linkki solmujen välillä) tai ancestor:child-suhteen lopulta ilmenevää vierekkäisyyttä (valkoinen linkki solmujen välillä). Vastaavasti child:child-suhteen määritteinä voi olla seuraa välittömästi (kaavioissa musta nuoli), ennen tai jälkeen esiintyvä (kaavioissa kaksisuuntainen valkoinen nuoli) tai jopa tuntematon (ei nuolta lainkaan), jota tarvitaan tilanteessa, jossa FTF:n kaksi lapsisolmua eivät varsinaisessa jäsennyspuussa ole välttämättä lainkaan sisaruksia [WaN01]. 2 Termi fuzzy on tässä käännetty sumeaksi, vaikka se ei alkuperäisartikkelin mukaan olekaan FTF-termissä täysin samassa merkityksessä kuin esimerkiksi käsitteessä fuzzy logic.

7 Kuva 8 Esimerkit FTF-rakenteista. a) Kieliopillinen kysely, jossa etsitään englannin kielen substantiivista muodostuvaa suoraa objektia, jossa on artikkeli, määre ja substantiivi välittömästi peräkkäin. b) Tekstikysely, jossa haetaan yhdistelmärakennetta, jossa kyselykaaviossa annettua sanaa about seuraa numeraali. Kyselyn määrittävät solmut ovat lehtisolmuja (eli niihin liittyy välittömästi jokin lauseen sana), ja juurisolmu on niihin yhteydessä ancestor-relaatiolla (valkoinen linkki). Lehtisolmujen järjestys on määritelty välittömästi seuraavaksi (musta nuoli oikealla) [WaN01]. Koska ICE-aineistossa kokonaiset jäsennyspuut kuvataan samanlaisella grafiikalla kuin kyselyitä kuvaavat FTF:t, nämä ovat hyvä ja havainnollinen tapa tutkia koko aineistoa, sillä valmiin FTF:n sovittaminen aineistoon on jo silmämääräisestikin mahdollista (kuva 9). Samoin tutkimusongelman abstrahointi kokonaisesta jäsennyspuusta ongelmaa selvittäväksi kysymykseksi on myös helpompaa, kun jäsennyspuuta voi ikään kuin karsia kyselyn tuottamiseksi. Kuva 9 Jäsennyspuussa esiintyvä lause, johon on sovitettu kuvan 8 kyselyt. Objekti-kysely on esitetty harmaalla ja tekstikysely mustalla [WaN01]. 4.2 Koneoppimisen algoritmit toistuvien piirteiden "löytäjinä" Pidemmälle menevä korpusten hyväksikäyttö, esimerkiksi kielitieteellisten hypoteesien testaaminen tai kielen rakenteeseen liittyvän tiedon louhinta, vaatii kuitenkin enemmän kuin pelkän aineiston jäsennyksen. Lähestymistapana on usein menetelmä, jossa korpus jäsennyksen jälkeen vielä käsitteellistetään ja mallinnetaan jollain tutkimusaiheeseen sopivalla tavalla. Ja vasta tästä

vielä pidemmälle mallinnetusta aineistosta tehdään analyysejä. Vaikka pohjana siis ovat koko aineiston rakenteinen jäsennys ja mahdollisesti myös hierarkkisesti jäsennetyt tutkimusongelmat ja -kysymykset, täytyy aineisto vielä kommentoida uudelleen (redescription) nimenomaan tutkittavan ongelman näkökulmasta (kuva 10) [WaN01]. 8 Kuva 10 Prosessi, jolla korpusten käyttöä voidaan laajentaa tiedon louhintaan tai tiedonhankintaan (3A perspective = Annotation, Abstraction, Analysis) [WaN01]. ICE-aineiston käsittelyssä pyritään löytämään aineiston rakenteista löytyvää tietämystä, ja tavoitteena on tiedon hakeminen tekstimuotoisesta tietokannasta (Knowledge Discovery in Databases, KDD). Aineistoon sovelletaan koneoppimisen algoritmeja, joilla pyritään löytämään merkitseviä riippuvuuksia ja vuorovaikutuksia. Silloinkin, kun tällaisia löytyy, analyysi ei pääty tähän, sillä löydetyt ilmiöt vaativat yleensä vielä tarkemman selvityksen ja mahdollisesti vielä lisää tutkimusta. Kuitenkin, kun varsinaiset hypoteesit löydetään näin aineiston mallinnuksen ja koneoppimisalgoritmien avulla, voidaan välttää mahdolliset raaka-aineiston tai aiemman kokemuksen perusteella tehdyt virhetulkinnat [WaN01]. Normaali relaatiotietokantakin pitää normalisoida, siitä pitää poistaa mahdollinen toisteisuus ja toisistaan riippuvat ja epärelevantit tiedot ennen kuin sen tarkempi analysointi tai oppivan järjestelmän rakentaminen sen varaan on järkevää. Tekstitietokannassa, korpuksessa, aineiston uudelleenkuvaus tai mallintaminen on suorastaan ehdottoman välttämätöntä. Mallintaminen tai abstrahointi tarkoittaa korpusten yhteydessä sekä tutkimusaiheelle olennaisten muuttujien ja niihin liittyvien kuvaussääntöjen määrittämistä että tutkittavan kielenkäyttötapauksen täsmentämistä. ICE-aineistossa kummassakin näistä tehtävistä käytetään apuna FTF-rakenteita, joilla sekä kuvaussäännöt että kielenkäyttötapaukset voidaan esittää (kuva 11) [WaN01]. Kuvan 11 englanninkieltä mallintavassa esimerkissä tutkittavaksi kielenkäyttötapaukseksi (case) määritellään substantiivilauseke, jolla on jokin jälkimääre (noun phrase postmodifying, NPPO). Esimerkkejä tällaisesta rakenteesta on taulukossa 1. Tutkimusaiheen kannalta tärkeitä muuttujia puolestaan ovat esimerkiksi rakenteen muoto (form) ja verbin muoto (VP transitivity). Rakenne voi olla muodoltaan eräänlainen lauseenvastikerakenne (nonfinite) tai relatiivilause (relative), ja verbi puolestaan intransitiivinen, transitiivinen tai kopula. Nämä muuttujat on kuvattu FTF:inä, jolloin ne muodostavat tekstiin sovitettavat kuvaussäännöt. Kun nämä määritykset on tehty, käytetään koneoppimisen algoritmeja, jotka etsivät sääntöjä, joiden perusteella määriteltyjen muuttujien eri arvojen esiintymistä voi ennustaa. Sääntö voi olla esimerkiksi: IF VP_TRANSITIVITY = COP THEN FORM = RELATIVE IF TEXT_CATEGORY = "DIALOGUE" THEN FORM = RELATIVE

9 Kuva 11 Kielenkäyttötapauksen täsmentäminen, tutkimusaiheen kannalta tärkeät muuttujat ja niihin liittyvät kuvaussäännöt [WaN01]. Taulukko 1 Mallilauseet esimerkkikielenkäyttötapauksesta, jossa yhtenä olennaisena muuttujana on lauserakenteen muoto (form). Lauseenvastikerakenne (nonfinite) People living in Hawaii. The book published in London. Relatiivilause (relative) People who live in Hawaii. The book which was published in London. Sääntöjen tulkinta, niiden merkityksen ja merkityksellisyyden selvittäminen ja jalostaminen pidemmälle, esimerkiksi yhdistetyiksi säännnöiksi, vaatii asiantuntijatyötä, mutta jo tällaisten sääntöjen löytäminen laajasta korpuksesta on askel eteenpäin korpuksen rakenteisiin kätkeytyneen tiedon löytämisessä [WaN01]. 4.3 Merkitys? - Tekstin louhintaa syntaktisen jäsennyksen perusteella Tiedon hankinnan ja louhinnan mahdollisuuksia voidaan lisätä, jos syntaktisesti jäsennellyssä kieliaineistossa on myös semanttista tietoa. Lähtökohtana on tällöin siis jo varhaisemmassa vaiheessa tehty syntaktinen, hierarkkinen jäsennys, johon lisätään uutta informaatiota. Tällainen informaatio voidaan ilmaista eräänlaisena predikaatti-argumentti-rakenteena (predicate argument structure, PAS), jossa tietty sana, ns. kohde (target) saa aikaan jonkin toiminnon, tilanteen tai tapahtuman ja määrittää siten muiden lauseenosien väliset suhteet. Kun tuo toiminnon laukaiseva sana, joka usein on verbi, on määritelty, pyritään tunnistamaan ja merkitsemään ne sanat tai sanaryhmät, joilla on jokin rooli suhteessa toiminnon laukaisevaan kohdesanaan. Tätä vaihetta kutsutaan semanttisten roolien määrittelyksi (Semantic Role Labeling, SRL),. Roolit ilmaisevat tyypillisesti kohdesanan ja sen argumenttien välisiä suhteita, kuten esimerkiksi lauseessa John gave Mary the ball seuraavat: John gave Mary the ball - ANTAJA (GIVER), argumentti (rooli) - kohdesana (target), predikaatti (kohdesana) - VASTAANOTTAJA (RECIPIENT), argumentti (rooli) - ANNETTU (GIVEN_OBJECT), argumentti (rooli)

Nämä semanttiset roolit voidaan itse asiassa päätellä jo lauseen syntaktisesta jäsennyspuusta, johon itse roolit sitten määritellään solmuihin lisätyillä koodauksilla. Syntaktisen ja semanttisen jäsentelyn yhteys tekee mahdolliseksi myöhemmässä analyysissä löytää yhteyksiä myös kaukana toisistaan sijaitsevien lauseen osien tai sanojen välillä. Semanttiset roolit määrittävän järjestelmän tehtävänä voidaankin pitää sitä, että se pyrkii löytämään syntaktisena rakenteena kuvatun järjestelmän osien väliset semanttiset suhteet [COM08]. Predikaatti-argumentti-rakenteiden eli semanttisten suhteiden tunnistaminen on ongelma, jonka ratkaisussa voidaan käyttää apuna koneoppimisen menetelmiä ja algoritmeja. Tunnistaminen voidaan jakaa kahteen pienempään ongelmaan: Tutkittavasta lauseesta täytyy ensin tunnistaa se kohdesana, joka varsinaisesti luo elementtien väliset suhteet, ja tämän jälkeen täytyy vielä tunnistaa ne elementit eli argumentit, jotka ovat jossain suhteessa kohdesanaan. Tätä vaihetta voidaan kutsua solmun valinnaksi (node selection, NS) tai argumentin valinnaksi (argument selection). Kun argumentit on valittu, kullekin valitulle elementille täytyy määrittää sen rooli puhutaankin rooliluokituksesta (role classification, RC). Nämä molemmat vaiheet voidaan mallintaa erikseen oppimisongelmina, joissa käytetään valmiiksi kommentoitua malliaineistoa luokitusjärjestelmän opettamiseen (kuva 12). 10 Kuva 12 Semanttisten suhteiden hakuprosessi, jossa pyritään automatisoimaan toiminto kehittämällä oppiva järjestelmä, automaattinen semanttinen jäsentäjä (Relational Mining Architecture, RMA) [COM08]. Aineistosta poistetaan kaikki sellaiset elementit, joista jo etukäteen tiedetään, etteivät ne kuulu mihinkään predikaatti-argumentti-rakenteeseen. Tässä vaiheessa, jota voidaan sanoa ehdokkaiden suodatukseksi (candidate filtering), tekstiaineistosta poistetaan esimerkiksi XML-kommentit, kaikki indeksointitieto ja metadata, jotka eivät sisällä varsinaiseen tekstiin liittyviä semanttisia (osa)kokonaisuuksia. Tämän suodatuksen jälkeen aineistossa on jäljellä vain sellaisia osia, joilla voi olla jokin merkityksellinen yhteys valittuun predikaattiin eli kohdesanaan. Ominaisuuksien kartoitusvaiheessa (feature extraction) edellä valituista ehdokaselementeistä pyritään löytämään ne rakenteelliset tekijät, jotka yhdistävät predikaatin ja ehdokaselementin. Nämä jäsennetyistä

lauseista eristetyt ehdokaselementit varustetaan semanttisin selittein ja niitä käytetään opetusaineistona, jolla järjestelmä opetetaan tekemään sekä solmujen valinta että rooliluokitus. Tulokseksi pyritään saamaan järjestelmä, joka automaattisesti etsii - ja löytää - syntaktisiin rakenteisiin koodatun semanttisen tiedon [COM08]. Yleensä semanttisten suhteiden louhinta - tai merkitysten haku - perustuu järjestetyn syntaktisen jäsennyspuun tutkimiseen [HKW05, COM08], mutta rakenteiden tutkiminen voidaan laajentaa myös järjestämättömiin ja vapaisiin puihin [MAI05]. Tällöinkin semanttisen tiedon haun ensimmäisenä vaiheena on syntaktisen jäsennyksen teko [MAI05]. 5 Yhteenveto Korpuksiin sisältyy paljon tietoa kielestä, sen käytöstä ja tavoista, joilla tekstin merkitys muodostuu. Paljon tästä tiedosta on kiinnittyneenä kielen rakenteisiin, ja näitä rakenteita - niin syntaktisia kuin semanttisiakin - tutkimalla on mahdollista löytää uutta tietoa, varmistaa oletuksia ja luoda hypoteeseja ennemminkin aineiston kartoituksen kuin oletusten perusteella. Kieliaineiston laajempi hyödyntäminen perustuu yleensä kieliaineiston tarkkaan kommentointiin. Perustason kommentointi, joka sisältää sanaluokkien, luvun ym. merkitsemisen, ei riitä, vaan aineisto on myös jäsennettävä syntaktisesti. Tämän hierarkkisen jäsennyksen tutkiminen on jo sinänsä antoisaa, ja voi tuoda uutta tietoa. Vielä lisää tietoa voidaan löytää, kun syntaktiseen jäsennykseen lisätään semanttinen kommentointi, jossa selvitetään lauseen sanojen väliset suhteet ja eri sanojen roolit merkityksen muodostumisessa. Sekä syntaktiseen että semanttiseen jäsennykseen on kehitetty automaattisia jäsentäjiä. Syntaktinen jäsennyspuu on täydellinen syklitön puurakenne, jonka juurisolmu on jäsennysyksikkö - usein lause - ja lehtisolmut liittyvät suoraan jäsennettävän lauseen sanoihin. Varsinainen jäsennys rakentuu näiden väliin vahvasti järjestyneenä puuna, jossa ei ole ristikkäisiä viittauksia puun eri tasojen välillä. Jäsennyspuun muuttuminen tarkoittaa jäsennettävän lauseen muuttumista ja päinvastoin. Tästä rakenteesta ja sen osista on mahdollista löytää siihen koodattua tietoa, kun apuna käytetään itse rakennetta ja sen säännöllisiä ominaisuuksia, tutkimusaiheen mukaan luotua mallinnusta ja aineiston uudelleen kuvausta ja esimerkiksi koneoppimisen algoritmeja. Semanttisten suhteiden tutkiminen lähtee myös liikkeelle syntaktisesta jäsennyksestä ja siihen lisättävistä semanttisista selitteistä. Semanttiset suhteet voidaan kuitenkin kuvata vapaammin kuin syntaktiset, ja niiden kuvaamisessa ovat hyödyksi myös järjestämättömät ja vapaat puurakenteet. Esimerkkinä syntaktisesta puurakenteesta, sen graafisesta kyselykielestä ja tämän hyödyntämisestä yhdessä koneoppimisen algoritmien kanssa on ICE-GB-aineisto. Korpuksia, joihin on eri tavoin kuvattu semanttisia suhteita, ovat esimerkiksi FrameNet ja PropBank. Sekä syntaktisen ja semanttisen rakenteen tutkimuksessa että etsittäessä näihin rakenteisiin koodattua tietoa käytetään usein apuna koneoppimisen algoritmeja - toisaalta menetelmiä, jotka on kehitetty kielen rakenteiden tutkimiseen voitaneen hyödyntää myös muilla tutkimusaloilla, joilla aineisto on mallinnettavissa rakenteisina kokonaisuuksina. 11

12 Lähteet ANW07 Aarts, B, Nelson, G ja Wallis, S. Using fuzzy tree fragments to explore English grammar. English Today, 23 (2007), sivut 27-31. COM08 Coppola, B., Moschitti, A. ja Pighin, D. Generalized framework for syntax-based relation mining. Eighth IEEE International Conference on Data Mining (2008), sivut 153-162. HKW05 Support vector learning for semantic argument classification. Machine Learning, 60 (1-3) (2005), sivut 11-39. MAI05 WaN97 WaN01 Morinaga, S., Arimura, H., Ikeda, T. Sakao, Y. ja Akamine, S. Key semantics extraction by dependency tree mining. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (2005), sivut 666-671. Wallis, S. ja Nelson, G. Syntactic parsing as a knowledge acquisition problem. Knowledge acquisition, modeling and management 1319, (1997), sivut 285-300. Wallis, S. ja Nelson, G. Knowledge discovery in grammatically analysed corpora. Data Mining and Knowledge Discovery, 5, 4 (2001), sivut 305-335.