Integration of Finnish web services in WebLicht Presentation in Freudenstadt 2010-10-16 by Jussi Piitulainen



Samankaltaiset tiedostot
On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Choose Finland-Helsinki Valitse Finland-Helsinki

Information on preparing Presentation

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

anna minun kertoa let me tell you

Capacity Utilization

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

TIEKE Verkottaja Service Tools for electronic data interchange utilizers. Heikki Laaksamo

LANSEERAUS LÄHESTYY AIKATAULU OMINAISUUDET. Sähköinen jäsenkortti. Yksinkertainen tapa lähettää viestejä jäsenille

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

OP1. PreDP StudyPlan

Gap-filling methods for CH 4 data

Salasanan vaihto uuteen / How to change password

Lab SBS3.FARM_Hyper-V - Navigating a SharePoint site

Asuntoreformi 2018

Olet vastuussa osaamisestasi

Efficiency change over time

National Building Code of Finland, Part D1, Building Water Supply and Sewerage Systems, Regulations and guidelines 2007

Kysymys 5 Compared to the workload, the number of credits awarded was (1 credits equals 27 working hours): (4)

1. SIT. The handler and dog stop with the dog sitting at heel. When the dog is sitting, the handler cues the dog to heel forward.

Arkkitehtuuritietoisku. eli mitä aina olet halunnut tietää arkkitehtuureista, muttet ole uskaltanut kysyä

Use of spatial data in the new production environment and in a data warehouse

Copernicus, Sentinels, Finland. Erja Ämmälahti Tekes,

MEETING PEOPLE COMMUNICATIVE QUESTIONS

make and make and make ThinkMath 2017

BLOCKCHAINS AND ODR: SMART CONTRACTS AS AN ALTERNATIVE TO ENFORCEMENT

Lakimies PDF. ==>Download: Lakimies PDF ebook

Fungi infecting cultivated moss can also cause diseases in crop plants

Other approaches to restrict multipliers

JA CHALLENGE Anna-Mari Sopenlehto Central Administration The City Development Group Business Developement and Competence

Innovative and responsible public procurement Urban Agenda kumppanuusryhmä. public-procurement

3 9-VUOTIAIDEN LASTEN SUORIUTUMINEN BOSTONIN NIMENTÄTESTISTÄ

7.4 Variability management

Expression of interest

Digitalisoituminen, verkottuminen ja koulutuksen tulevaisuus. Teemu Leinonen Medialaboratorio Taideteollinen korkeakoulu

Get Instant Access to ebook Kasvuyritys PDF at Our Huge Library KASVUYRITYS PDF. ==> Download: KASVUYRITYS PDF

ECVETin soveltuvuus suomalaisiin tutkinnon perusteisiin. Case:Yrittäjyyskurssi matkailualan opiskelijoille englantilaisen opettajan toteuttamana

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Voice Over LTE (VoLTE) By Miikka Poikselkä;Harri Holma;Jukka Hongisto

Kielipankki ja FIN-CLARIN. Mietta Lennes Nykykielten laitos, Helsingin yliopisto

16. Allocation Models

Automaatiojärjestelmän hankinnassa huomioitavat tietoturva-asiat

Statistical design. Tuomas Selander

Paikkatiedon semanttinen mallinnus, integrointi ja julkaiseminen Case Suomalainen ajallinen paikkaontologia SAPO

TIETEEN PÄIVÄT OULUSSA

Kielen opintopolut/ Language study paths

Microsoft Lync 2010 Attendee

Increase of opioid use in Finland when is there enough key indicator data to state a trend?

AYYE 9/ HOUSING POLICY

Uusi Ajatus Löytyy Luonnosta 3 (Finnish Edition)

You can check above like this: Start->Control Panel->Programs->find if Microsoft Lync or Microsoft Lync Attendeed is listed

==>Download: Lakimies PDF ebook By Allan Särkilahti

Operatioanalyysi 2011, Harjoitus 4, viikko 40

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

The CCR Model and Production Correspondence

S SÄHKÖTEKNIIKKA JA ELEKTRONIIKKA

LUONNOS RT EN AGREEMENT ON BUILDING WORKS 1 THE PARTIES. May (10)

ENE-C2001 Käytännön energiatekniikkaa. Aloitustapaaminen Osa II: Projekti- ja tiimityö

Käytön avoimuus ja datanhallintasuunnitelma. Open access and data policy. Teppo Häyrynen Tiedeasiantuntija / Science Adviser

1.3 Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

Capacity utilization

Tarua vai totta: sähkön vähittäismarkkina ei toimi? Satu Viljainen Professori, sähkömarkkinat

Tutkimusdata ja julkaiseminen Suomen Akatemian ja EU:n H2020 projekteissa

Alternative DEA Models

MALE ADULT FIBROBLAST LINE (82-6hTERT)

Green Growth Sessio - Millaisilla kansainvälistymismalleilla kasvumarkkinoille?

EUROOPAN PARLAMENTTI

LX 70. Ominaisuuksien mittaustulokset 1-kerroksinen 2-kerroksinen. Fyysiset ominaisuudet, nimellisarvot. Kalvon ominaisuudet

Enterprise Architecture TJTSE Yrityksen kokonaisarkkitehtuuri

Hankkeiden vaikuttavuus: Työkaluja hankesuunnittelun tueksi

SELL Student Games kansainvälinen opiskelijaurheilutapahtuma

WAMS 2010,Ylivieska Monitoring service of energy efficiency in housing Jan Nyman,

Mitä museo voi tehdä Wikimedian & Wikipedian kanssa

Oma sininen meresi (Finnish Edition)

Asiakaspalautteen merkitys laboratoriovirheiden paljastamisessa. Taustaa

Matkustaminen Majoittuminen

OFFICE 365 OPISKELIJOILLE

Matkustaminen Majoittuminen

Security server v6 installation requirements

Collaborative & Co-Creative Design in the Semogen -projects

Opintomatkat PDF. ==>Download: Opintomatkat PDF ebook By Risto Antikainen

VBE2 Työpaketit Jiri Hietanen / TTY

ebooks in the libraries ebib trial and results

Stormwater filtration unit

Data quality points. ICAR, Berlin,

kieltenoppimiskertomukseni My Language Biography

FeedNavigator. BMF Tiina Heino. Terveystieteiden keskuskirjasto - Terkko Lääketieteellinen tiedekunta

TietoEnator Pilot. Ari Hirvonen. TietoEnator Oyj. Senior Consultant, Ph. D. (Economics) presentation TietoEnator 2003 Page 1

Information on Finnish Language Courses Spring Semester 2018 Päivi Paukku & Jenni Laine Centre for Language and Communication Studies

Sosiaalisen median liiketoimintamallit ja käyttöön oton suunnitelma 9/23/2012

7. Product-line architectures

EU DIGITAL EUROPE MITEN SAAMME NOPEUTETTUA TAVOITELTUA MUUTOSTA? CSC Markku Markkula COR RAPPORTEUR ON DIGITAL EUROPE

Mitä mahdollisuuksia tuloksemme tarjoavat museoille?

Siirtymä maisteriohjelmiin tekniikan korkeakoulujen välillä Transfer to MSc programmes between engineering schools

Information on Finnish Language Courses Spring Semester 2017 Jenni Laine

Pelletizing trials Autum 2008

Platform economy is more than Uber. Heikki Ailisto, VTT Oy

FinFamily Installation and importing data ( ) FinFamily Asennus / Installation

Tutkimus- ja kehittämistoiminta Suomessa 1 SUOMEN AKATEMIA 2019 TUTKIMUS- JA KEHITTÄMISTOIMINTA

Co-Design Yhteissuunnittelu

Transkriptio:

Integration of Finnish web services in WebLicht Presentation in Freudenstadt 2010-10-16 by Jussi Piitulainen Who we are FIN-CLARIN University of Helsinki The Language Bank of Finland CSC - The Center for Science What we do Corpora and tools Finnish wordnet, tree bank, parse bank legal agreements, access rights What we have Finnish and Finland-Swedish corpora (newspapers) Swahili corpus small Uralic languages tools, notably HFST implemented morphological analysis Access to the Language Bank requires authorization and authentication

Finnish WebLicht integration exercise so far Installed A version of omorfi, an analyzer of Finnish morphology, at University of Helsinki CS department Installed as a chain of three tools in WebLicht 0.3: wrapper of plain text as text element, tokenizer, and then omorfi Straightforward (modulo a protocol change?) Not installed Other HFST morphologies (French, German, Swedish) Other HFST output formats Shortcomings WebLicht omorfi is not current Tokenizer is too simple (but easy to improve) No disambiguation of analyses in context

First service: wrapping of plain UTF-8 in D-Spin XML Input: plain text (Wikipedia on Orava 2010-10-08) Oravan tunnistaa helposti pitkästä tuuheasta hännästä. Oravien silmät ovat melko suuret ja eteenpäin työntyvät, Output: text element in XML (all XML rendered by Firefox) <ns4:d-spin> <MetaData> <source/> </MetaData> <ns2:textcorpus lang="fi"> <ns2:text> Oravan tunnistaa helposti pitkästä tuuheasta hännästä. Oravien silmät ovat melko suuret ja

Orava Düsseldorfissa (Wikipediasta) Eichhörnchen im Düsseldorfer Hofgarten, fotografiert von Ray eye

Second service: tokenization of the text Output: tokens element after text element säksätystä, undulaattimaista kujerrusta tai kurnutusta ja niiskuttelua. </ns2:text> <ns2:tokens> <ns2:token ID="t0">Oravan</ns2:token> <ns2:token ID="t1">tunnistaa</ns2:token> <ns2:token ID="t2">helposti</ns2:token> <ns2:token ID="t3">pitkästä</ns2:token> <ns2:token ID="t4">tuuheasta</ns2:token> <ns2:token ID="t5">hännästä</ns2:token> <ns2:token ID="t6">Oravien</ns2:token> <ns2:token ID="t7">silmät</ns2:token> <ns2:token ID="t8">ovat</ns2:token>

Third service: morphological analysis of the tokens Output: morphology element after tokens element <ns2:token ID="t92">kurnutusta</ns2:token> <ns2:token ID="t93">ja</ns2:token> <ns2:token ID="t94">niiskuttelua</ns2:token> </ns2:tokens> <ns2:morphology tagset="unihel Morph Convention"> <ns2:analysis tokid="t0" ID="a0">##orava+noun+1+sg+ins# <ns2:analysis tokid="t0" ID="a1">##orava+noun+1+sg+gen# <ns2:analysis tokid="t0" ID="a2">##orava+noun+1+sg+acc# <ns2:analysis tokid="t1" ID="a3">##tunnistaa+verb+53+ac <ns2:analysis tokid="t1" ID="a4">##tunnistaa+verb+53+ac <ns2:analysis tokid="t2" ID="a5">##helppo+noun+1+b+Dsti <ns2:analysis tokid="t2" ID="a6">##helposti+99+99##</ns <ns2:analysis tokid="t3" ID="a7">##pitkä+noun+1+sg+ela#

No fourth service! Chain for Finnish ends short At least WebLicht suggests no further services Even in absence of specifically Finnish services, no reason not to do e.g. statistics on token occurrences Interface problems? Something trivial missing or off? Or all WebLicht interface specifications too rigid? There seem to be many trivial wrapper services Would further output formats cause similar multiplication?

Visions of a possible future assuming we want to find and match data and tools on the web Strengths Interoperability with open standards, XML, UTF-8, WebLicht input and output specifications Challenges Large data volumes require computer resources Copyright and privacy may require authorization and authentication Finnish opportunities? Current omorfi Other HFST morphologies and output formats Finnish wordnet: related words? Finnish tree bank, parse bank Serve concordances from databases? OAI-PMH Metadata: soon there for corpora; could try on individual documents?

The red squirrel photo by Ray eye, retouched by Fabien1309, taken from the same Finnish Wikipedia article on Orava as the sample text, used here under the Creative Commons Attribution-ShareAlike (CC-BY-SA) 2.0 Germany licence. http://creativecommons.org/licenses/by-sa/2.0/de/deed.en