Kielitieteellisten aineistojen käsittely

Samankaltaiset tiedostot
XML-tutkimus Jyväskylän yliopistossa

Hierarkkisesti jäsenneltyjen kieliaineistojen puurakenteen hyödyntäminen tiedon louhinnassa

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

Avoimen lähdekoodin kaksitasokielioppikääntäjä

Luottamuksen ja maineen rooli palveluperustaisten yhteisöjen muodostamisessa

Laskelmia uudenvuodenpuheista

Mobiilit käyttöliittymät lääkitystietoon

Tehostettu kisällioppiminen tietojenkäsittelytieteen ja matematiikan opetuksessa yliopistossa Thomas Vikberg

Viittomakielen korpusaineisto ja sen käyttö

Kahden virtualisointiohjelmiston suorituskyvyn testaus (valmiin työn esittely)

Kuinka rakentaa globaaleja verkostoja - kommenttipuheenvuoro

Integration of Finnish web services in WebLicht Presentation in Freudenstadt by Jussi Piitulainen

Kohti tehohoitotyön narratiivien tehokkaampaa hyödyntämistä luonnollisen kielen käsittelyn avulla

Tuotekehitysverkoston läpimenoajan lyhentäminen tuotemuutostenhallinnalla ja verkoston tietojärjestelmien integroinnilla

Improving Information Access by Genre Categories

Paikkaontologiat. Tomi Kauppinen ja Jari Väätäinen Aalto-yliopiston teknillinen korkeakoulu tomi.j.kauppinen at gmail.com

Prosodinen alanmerkintä. Nonmanuals (Pfau & Quer 2010) Prosodia. Fone?ikka. Lingvis?ikka - Morfologia - Fonologia. Tommi Jantunen, SVKS112, 29.4.

Aalto University School of Engineering Ongelmaperusteisen oppimisen innovatiivinen soveltaminen yliopisto-opetuksessa

Computing Curricula raportin vertailu kolmeen suomalaiseen koulutusohjelmaan

Suojarakenteiden vaikutus maalin selviytymiseen epäsuoran tulen tai täsmäaseen iskussa

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea.

Käytettävyyslaatumallin rakentaminen web-sivustolle. Oulun yliopisto tietojenkäsittelytieteiden laitos pro gradu -suunnitelma Timo Laapotti 28.9.

Kirjoja vai kirjallisuutta etsimässä? Kaunokirjallisuuden haku Melindasta käyttäjän näkökulma

Julkaisufoorumin kuulumiset

CIRI Ontologiaperustainen tiedonhakuliittymä

Kaukopalvelu täydentää kokoelmia, Case VTT

Paikkatiedon mallinnus Dokumentoinnin ymmärtäminen. Lassi Lehto

Enterprise Architecture TJTSE Yrityksen kokonaisarkkitehtuuri

WP6: Actor-specific Services & New Technologies. Jyri Rajamäki & Timo Timonen

European Survey on Language Competences (ESLC) EU:n komission tutkimus vieraiden kielten osaamisesta EU-maissa

Kielipankki ja FIN-CLARIN. Mietta Lennes Nykykielten laitos, Helsingin yliopisto

Eero Hyvönen. Semanttinen web. Linkitetyn avoimen datan käsikirja

Konstruktiokielioppi ja osittaisen produktiivisuuden arvoitus

in condition monitoring

RANS0002 P2. Phonetics and Pronunciation (Fonetiikka ja ääntäminen), O, 2 ECTS. RANS0010 P3. Translation Exercise (Käännösharjoitukset) s, O, 3 ECTS

Bachelor level exams by date in Otaniemi

Bachelor level exams by subject in Otaniemi

Kymmenen vuotta maastolaserkeilaustutkimusta käytännön kokemuksia

Mineral raw materials Public R&D&I funding in Finland and Europe, Kari Keskinen

Ohjelmistojen mallintaminen

arvostelija OSDA ja UDDI palveluhakemistoina.

Trialoginen oppiminen: Miten edistää kohteellista, yhteisöllistä työskentelyä oppimisessa?

Valtionhallinnon käyttäjäpäivä - IBM Cognosin tulevaisuuskatsaus ja nykypäivä

T Ohjelmistotekniikan seminaari

Prognos Julkaisusuunnitelmat

SFS/SR315 Tekoäly Tekoälyn standardisointi

Tietokannan eheysrajoitteet ja niiden määrittäminen SQL-kielellä

Digitalisaation rakenteellisista jännitteistä. Tero Vartiainen tieto- ja tietoliikennetekniikan yksikkö

Palvelujen dynaaminen valvonta

Arkkitehtuurinen reflektio

VBE2 Työpaketit Jiri Hietanen / TTY

Suomen kielen substantiivilla on noin 2000 erilaista muotoa vai onko sittenkään? Kimmo Kettunen, Tampereen yliopisto, informaatiotutkimuksen laitos

2009 Doctor of Technology (Ph.D) defended at 13 th November

European Certificate for Quality in Internationalisation. Mafi Saarilammi Korkeakoulujen arviointineuvosto

1. Koskinen S, Koskenniemi J, Leino-Kilpi H & Suhonen R Ikääntyneiden osallisuus palveluiden kehittämisessä. Pro terveys 41 (2),

Paikkatiedot ja Web-standardit

.NET ajoympäristö. Juha Järvensivu 2007

HUMAN & GREEN TOIMINTAMALLI SISÄYMPÄRISTÖN KEHITTÄMISEEN

Jäsentiedote 4/ Joint Baltic-Nordic Acoustical Meeting 2004 Ahvenanmaalla

7. Product-line architectures

3 9-VUOTIAIDEN LASTEN SUORIUTUMINEN BOSTONIN NIMENTÄTESTISTÄ

KONEOPPIMINEN SISÄLLÖNTUOTANNOSSA CASE NESTE

Ontologiakirjasto ONKI-Paikka

Tietojenkäsittelytieteiden koulutusohjelma. Tietojenkäsittelytieteiden laitos Department of Information Processing Science

Power BI Tech Conference Power BI. #TechConfFI. Johdanto

Department of Media Technology EMO

Voisiko asiakirja olla kuva?

Yli 50-vuotiaiden näkemyksiä sähköisten terveydenhuoltopalveluiden. systemaattinen. Heidi kirjallisuuskatsaus. kirjallisuuskatsaus

KANNETTAVIEN TIETOKONEIDEN KÄYTTÖ LANGATTOMALLA KAMPUKSELLA VERKKO-OPETUKSESSA JA -OPISKELUSSA

DATA-ANALYYSIN TEMAATTINEN MAISTERIKOULUTUS (DATA)

SoberIT Software Business and Engineering institute

From selling to supporting - using customer data for the benefit of the customer

Poistuvat kurssit ja korvaavuudet (RRT ja YYT)

TSSH-HEnet : Kansainvälistyvä opetussuunnitelma. CASE4: International Master s Degree Programme in Information Technology

Sosiaalinen media tietolähteenä:

Kandidaatintyön esittely: Epätäydellisen preferenssi-informaation huomioon ottavien päätöksenteon tukimenetelmien vertailu

Case Otaniemi. Eetu Ristaniemi

Suomea toisena kielenä oppivat lapset, vuorovaikutus ja kielitaito

Oppijansuomen piirteitä korpusvetoisesti

Yrityksen informaatio- ja toimintoprosessien optimointi

PoSTWITA-UD: an Italian Twitter Treebank in Universal Dependencies

Ontologiamuokkaimen käyttö laskentaklusterin tehokkuusanalyysissä (valmiin työn esittely) Santtu Klemettilä

Innovaatiomaisemia VTT:n Tietoratkaisuista Click to edit Master title style

ISEB/ISTQB FOUNDATION CERTIFICATE IN SOFTWARE TESTING III

Ajankohtaista Laatukysely ja jatkotoimet Raportointi 2010 tuloksia

Kirjastotyöhön liittyvän kommunikaation käsitteelliset taustaoletukset: profession ja sen tulevaisuuden tarkastelua

WAMS 2010,Ylivieska Monitoring service of energy efficiency in housing Jan Nyman,

Tekes the Finnish Funding Agency for Technology and Innovation. Copyright Tekes

Ballististen Materiaalien mallinnusavusteinen kehittäminen - BalMa

MATKAILUALAN TIETEELLISIÄ LEHTIÄ julkaisufoorumin tasoluokittain

Metsien hoito jatkuvapeitteisenä: taloudellien optimointi ja kannattavuus Vesa-Pekka Parkatti, Helsingin yliopisto, Metsätieteiden osasto

Tiedonlouhinta ja sen mahdollisuudet

Milloin. kannattaa paaluttaa? Väitöstutkimus. Turun perustustenvahvistuksesta

Vesivoimaketjun optimointi mehiläisalgoritmilla (Valmiin työn esittely)

Lyhyesti uusista DI-ohjelmista Isohenkilökoulutus to Opintoasianpäällikkö Mari Knuuttila

OPPIMINEN ja SEN TUKEMINEN Supporting learning for understanding

Opetuksen ja opiskelun tehokas ja laadukas havainnointi verkkooppimisympäristössä

General studies: Art and theory studies and language studies

1: Korpukset ja ohjelmat" [7, ]).

Kauppalehti Tietopalvelut hinnasto

Transkriptio:

Kielitieteellisten aineistojen käsittely 1 Johdanto...1 2 Aineistojen kommentointi, metadatan tyypit...1 3 Aineistojen käsittely...2 3.1 Rakenteisten kieliaineistojen kyselykielet...2 3.2 Tiedonlouhinta monitasoisesti jäsennellyistä kieliaineistoista...2 4 Yhteenveto...3 Lähteet...3

1 1 Johdanto Kielitieteellisten aineistojen kokoaminen ja etenkin kommentointi ja metadatalla varustaminen on suuri työ. Kommentit ja metadata voivat olla hyvin monenlaisia, mutta niiden luominen on työlästä. Yksinkertainen kieliopillinen luokittelu voidaan mahdollisesti tehdä automaattisestikin, mutta monimutkaisempi kielen jäsentely vaatii yleensä asiantuntijatyötä. Jotta tällainen kieliaineistojen käsittely olisi kannattavaa, pitäisi aineistojen hyödyntämisen olla tehokasta ja monipuolista. Usein kieliaineistojen käyttö on rajoittunut erilaisiin frekvenssianalyyseihin ja kielen tyypillisten piireiden kartoittamiseen. Monimutkaisemmat analyysit vaativat pohjakseen yksityiskohtaisemmin jäsenneltyjä aineistoja, jotka on vielä jäsennelty ja kommentoitu juuri käsillä oleva tutkimusongelma huomioon ottaen. Aineistoja voidaan käyttää paitsi kielitieteellisten ongelmien tutkimiseen ja selvittämiseen myös koneoppimisen opetusaineistona, tietämyksen muodostamisen pohja-aineistona jne. 2 Aineistojen kommentointi, metadatan tyypit erilaiset metadatan/kommentoinnin tasot (kieliopillinen, morfologinen, lauseenjäsennys,jne.) erilaiset metadatan/kommentoinnin tekniikat o Bird, S., Day, D., Garofolo, J., Henderson, J., Laprun, C. & Liberman, M. 2000. ATLAS: A Flexible an Extensible Architecture for Linguistic Annotation. Proceedings of the Second International Conference on Language Resources an Evaluation, European Language Resources Association, Paris, 1699-1706. o Bird, S. & Liberman, M. 2000. A Formal Framework for Linguistic Annotation. Speech Communication. o Ide, N. & Romary, L. A Registry of Standard Data Categories for Linguistic Annotation. o Ide, N. & Suderman, K. 2007. GrAF: a graph-based format for linguistic annotations. ACL Workshops. Proceedings of the Linguistic Annotation Workshop, 1-8.

2 o Katz, G. & Arosio, F. 2001. The annotation of temporal information in natural language sentences. Annual Meeting of th ACL. Proceedings of the workshop on Temporal an spatial information processing. Volume 13, Article No. 15. o Xiaoyi, M., Lee, H., Bird, S. & Maeda, K. 2002. Models and Tools for Collaborative Annotation. Proceedings of the Third International Conference on Language Resources an Evaluation, Paris: European Language Resources Association, 2002. 3 Aineistojen käsittely 3.1 Rakenteisten kieliaineistojen kyselykielet Lause- ja virketason kommentit ovat luonteeltaan rakenteisia. Aineiston tutkimista varten on kehitetty useita erilaisia kyselykieliä. Esimerkkejä: LPath ja LPath + (XPathin kielitieteellisiä laajennoksia), MQL Graafisesti mallinnetut kommentit ja niiden kyselykielet (Emu) o Cassidy, S. & Bird, S. 2000. Querying Databases of Annotated Speech.Database Technologies: Proceedings of the Eleventh Australasian Database Conference. IEEE Computer Society, 12-20. o Lai, C. & Bird, S. 2009.Querying linguistics trees. Journal of Logic. Language and information 19 (1), 53-73. o Petersen, U. 2004. Emdros: a test database engine for analyzed or annotated text. International Conference On Computational Linguistics. Proceedings of the 20th international conference on Computational Linguistics. Geneva, Switzerland. 3.2 Tiedonlouhinta monitasoisesti jäsennellyistä kieliaineistoista Pohjana on jäsennelty kieliaineisto. Aineisto täytyy kuvata uudestaan, abstrahoida, nimenomaan tutkittava ongelma huomioon ottaen Apuna voidaan käyttää rakennefragmentteja - fuzzy tree fragments, FTF

3 Koneoppimisen algoritmit, joissa käytetään päättelysääntöjä (itsenäiset päättelysäännöt, päättelyrakenteet, järjestetyt säännöt) tai hahmontunnistusta (pattern matching) o Aarts, B., Nelson, G. & Wallis, S. 2007. Using Fuzzy Tree Fragments to explore English grammar. English Today (2007), 23: 27-31. Cambridge University Press. o Cupit, J. & Shadbolt, N. 1996. Knowledge discovery in databases: Exploiting knowledge-level redescription. Advances in Knowledge Acquisition 1076: 245-261. Springer-Verlag, Berlin. o Halstead, P. & Rose, TG. Extracting conceptual knowledge from text using explicit relation markers. Advances in Knowledge Acquisition 1076: 147-162. Springer-Verlag, Berlin. o Wallis, S. & Nelson, G. 1997. Syntactic parsing as a knowledge acquisition problem. Knowledge Acquisition, modeling ja management 1319: 285-300. Springe- Verlag, Berlin. o Wallis, S. & Nelson, G. 2001. Knowledge Discovery in Grammatically Analysed Corpora. Data Mining and Knowledge Discovery. Volume 5, Issue 4 (October 2001), 305-335. o Wallis, S. & Nelson, G. 1997. Syntactic parsing as a knowledge acquisition problem. Knowledge acquisition, modeling and management 1319: 285-300. 4 Yhteenveto Riippumatta siitä, millä menetelmällä aineistoa on tarkoitus käyttää hyväksi, tärkeää on se, että aineiston kommentointi on tehty nimenomaan tutkittavaa ongelmaa varten. Tällöin ns. yleiskäyttöinen kieliaineisto vaatii yleensä vielä jonkinlaisen abstrahoinnin ja lisäkuvauksen, jotta kyselyt tai tiedonhaut tuottaisivat tuloksen. Lähteet BDG00 Bird, S., Day, D., Garofolo, J., Henderson, J., Laprun, C. & Liberman, M. 2000. ATLAS: A Flexible an Extensible Architecture for Linguistic Annotation. Proceedings of the Second International Conference on Language Resources an Evaluation, European Language Resources Association, Paris, 1699-1706.

4 BiL00 IdeRo Bird, S. & Liberman, M. 2000. A Formal Framework for Linguistic Annotation. Speech Communication. Ide, N. & Romary, L. A Registry of Standard Data Categories for Linguistic Annotation.