Tekstin tallennus- ja hakumenetelmien kehittäminen suomen kielen tulkintaohjelmien avulla: FULLTEXT-projektin loppuraportti

Samankaltaiset tiedostot
XML-tutkimus Jyväskylän yliopistossa

Other approaches to restrict multipliers

Efficiency change over time

Paikkatiedon semanttinen mallinnus, integrointi ja julkaiseminen Case Suomalainen ajallinen paikkaontologia SAPO

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Kielitieteellisten aineistojen käsittely

RANTALA SARI: Sairaanhoitajan eettisten ohjeiden tunnettavuus ja niiden käyttö hoitotyön tukena sisätautien vuodeosastolla

Infrastruktuurin asemoituminen kansalliseen ja kansainväliseen kenttään Outi Ala-Honkola Tiedeasiantuntija

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

TIEKE Verkottaja Service Tools for electronic data interchange utilizers. Heikki Laaksamo

Julkaisun laji Opinnäytetyö. Sivumäärä 43

Constructive Alignment in Specialisation Studies in Industrial Pharmacy in Finland

toukokuu 2011: Lukion kokeiden kehittämistyöryhmien suunnittelukokous

Valuation of Asian Quanto- Basket Options

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

APA-tyyli. Petri Nokelainen

Voice Over LTE (VoLTE) By Miikka Poikselkä;Harri Holma;Jukka Hongisto

Capacity Utilization

BDD (behavior-driven development) suunnittelumenetelmän käyttö open source projektissa, case: SpecFlow/.NET.

ProAgria. Opportunities For Success

Alternative DEA Models

3 9-VUOTIAIDEN LASTEN SUORIUTUMINEN BOSTONIN NIMENTÄTESTISTÄ

MEETING PEOPLE COMMUNICATIVE QUESTIONS

1. SIT. The handler and dog stop with the dog sitting at heel. When the dog is sitting, the handler cues the dog to heel forward.

General studies: Art and theory studies and language studies

Copernicus, Sentinels, Finland. Erja Ämmälahti Tekes,

MUSEOT KULTTUURIPALVELUINA

Lab SBS3.FARM_Hyper-V - Navigating a SharePoint site

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

FinFamily Installation and importing data ( ) FinFamily Asennus / Installation

The CCR Model and Production Correspondence

Sisällysluettelo Table of contents

Mitä mahdollisuuksia tuloksemme tarjoavat museoille?

Prognos Julkaisusuunnitelmat

Suomen kielen substantiivilla on noin 2000 erilaista muotoa vai onko sittenkään? Kimmo Kettunen, Tampereen yliopisto, informaatiotutkimuksen laitos

Land-Use Model for the Helsinki Metropolitan Area

7.4 Variability management

Group 2 - Dentego PTH Korvake. Peer Testing Report

Information on Finnish Courses Autumn Semester 2017 Jenni Laine & Päivi Paukku Centre for Language and Communication Studies

Kysymys 5 Compared to the workload, the number of credits awarded was (1 credits equals 27 working hours): (4)

Results on the new polydrug use questions in the Finnish TDI data

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Collaborative & Co-Creative Design in the Semogen -projects

Tesauruksen rooli vapaatekstihaussa

Smart City -ratkaisut

National Building Code of Finland, Part D1, Building Water Supply and Sewerage Systems, Regulations and guidelines 2007

Nuku hyvin, pieni susi -????????????,?????????????????. Kaksikielinen satukirja (suomi - venäjä) ( (Finnish Edition)

Korkeakoulujen tietohallinto ja tutkimus: kumpi ohjaa kumpaa?

Suomen 2011 osallistumiskriteerit

Choose Finland-Helsinki Valitse Finland-Helsinki

16. Allocation Models

Hotel Pikku-Syöte: accommodation options and booking

Tietokannan eheysrajoitteet ja niiden määrittäminen SQL-kielellä

WP3 Decision Support Technologies

Skene. Games Refueled. Muokkaa perustyyl. for Health, Kuopio

Kuulustelija(t) Huikku Jari Liski Matti. Vilmunen Jouko Airio Hannele Huvitus Mari Peltonen Berit Airio Hannele. Kuulustelija(t)

Bachelor level exams by date in Otaniemi

Bachelor level exams by subject in Otaniemi

Enterprise Architecture TJTSE Yrityksen kokonaisarkkitehtuuri

Miehittämätön meriliikenne

CHEM Masters Kirsi Heino Information specialist Learning center beta

Use of spatial data in the new production environment and in a data warehouse

Tietorakenteet ja algoritmit

Osallistujaraportit Erasmus+ ammatillinen koulutus

Expression of interest

Ammatillinen opettajakorkeakoulu

Työsuojelurahaston Tutkimus tutuksi - PalveluPulssi Peter Michelsson Wallstreet Asset Management Oy

Arkkitehtuuritietoisku. eli mitä aina olet halunnut tietää arkkitehtuureista, muttet ole uskaltanut kysyä

VBE2 Työpaketit Jiri Hietanen / TTY

7. Product-line architectures

Työkaluja PRH:n peruspatenttipalvelun myymiseen

TIETEEN PÄIVÄT OULUSSA

Helsinki, Turku and WMT

Information on preparing Presentation

JYX yliopiston palvelujen keskiössä. Pekka Olsbo Julkaisukoordinaattori Jyväskylän yliopiston kirjasto

Research plan for masters thesis in forest sciences. The PELLETime 2009 Symposium Mervi Juntunen

Integration of Finnish web services in WebLicht Presentation in Freudenstadt by Jussi Piitulainen

Lataa Legislating the blind spot - Nikolas Sellheim. Lataa

Hankkeiden vaikuttavuus: Työkaluja hankesuunnittelun tueksi

Benchmarking Controlled Trial - a novel concept covering all observational effectiveness studies

CIO muutosjohtajana yli organisaatiorajojen

Kuvailulehti. Korkotuki, kannattavuus. Päivämäärä Tekijä(t) Rautiainen, Joonas. Julkaisun laji Opinnäytetyö. Julkaisun kieli Suomi

The role of 3dr sector in rural -community based- tourism - potentials, challenges

Information on Finnish Language Courses Spring Semester 2018 Päivi Paukku & Jenni Laine Centre for Language and Communication Studies

Hankkeen toiminnot työsuunnitelman laatiminen

FIS IMATRAN KYLPYLÄHIIHDOT Team captains meeting

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea.

1. Liikkuvat määreet

Information on Finnish Language Courses Spring Semester 2017 Jenni Laine

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

Käytettävyyslaatumallin rakentaminen web-sivustolle. Oulun yliopisto tietojenkäsittelytieteiden laitos pro gradu -suunnitelma Timo Laapotti 28.9.

WAMS 2010,Ylivieska Monitoring service of energy efficiency in housing Jan Nyman,

Additions, deletions and changes to courses for the academic year Mitä vanhoja kursseja uusi korvaa / kommentit

SFS/SR315 Tekoäly Tekoälyn standardisointi

Kuulustelija(t) Huikku Jari Liski Matti. Vilmunen Jouko Hekkala Riitta Salovaara Antti Airio Hannele Huvitus Mari Peltonen Berit Airio Hannele

anna minun kertoa let me tell you

Oma sininen meresi (Finnish Edition)

Ajettavat luokat: SM: S1 (25 aika-ajon nopeinta)

NAO- ja ENO-osaamisohjelmien loppuunsaattaminen ajatuksia ja visioita

TU-C2030 Operations Management Project. Introduction lecture November 2nd, 2016 Lotta Lundell, Rinna Toikka, Timo Seppälä

Transkriptio:

Tekstin tallennus- ja hakumenetelmien kehittäminen suomen kielen tulkintaohjelmien avulla: FULLTEXT-projektin loppuraportti Riitta Alkula & Timo Honkela ABSTRACT The project, Linguistic processing and retrieval techniques in Finnish fulltext databases (FULLTEXT), dealt with the special problems of fulltext databases in the Finnish language. Finnish has a rich inflectional and derivational morphology. Another typical characteristic is the use of compounds; in the English language these compunds would be multi-word terms. The characteristics of Finnish result in poor system performance when commercial information retrieval systems developed for English are used. To decrease the size of the inverted file and to improve retrieval efficiency, it is reasonable to normalize the inflectional variants of a word to the basic form. In the FULLTEXT project, natural language analysis modeules for Finnish were incorporated into the BASIS and APL-MINTTU retrieval systems and severeal test databases were produced. When word forms were normalized to their basic form, the memory size of the index file was smaller than the a traditional index, where the words are saved in their inflectional form. Even when the components of the compound words were added to the basic form index it still remained smaller than the traditional index. In the retrieval tests, best recall was achieved in the index that contained the basic word forms and components of compound words. It was found that good recall did not result in poor precision. The precision ratio was about as good as in other indexes. Queries had best precision in a database where the automatically truncated terms were searched in a traditional index and then the retrievd index terms were analyzed and filtered with natural language analysis modules. Unfortunately, in this case, the recall ration was lower than in other test databases. Problems in the use of natural language modules were also investigated. When the search terms are given in their basic form, the searcher must be more conscious with derivatives and compounds than when using truncated search terms in traditional indexes. Methods to transform the search terms to their correct basic form should be further developed. Remarks The scanned original full text report starts at the 4th page of this document.

References Bain, Malcolm, Richard Bland, Lou Burnard, Jon Duke, Colin Edwards, David Lindsey, Nicholas Rossiter, and Peter Willett. Free text retrieval systems: a review and evaluation. Taylor Graham Publishing, 1989. Blair, David C. Language and representation in information retrieval. Elsevier North-Holland, Inc., 1990. Doszkocs, Tamas E., James Reggia, and Xia Lin. "Connectionist models and information retrieval." Annual review of information science and technology 25 (1990): 209-262. Lehti, Merja, and Pirkko Eskola. Suorakäyttöisten tiedonhakujärjestelmien käyttö Suomessa 1985. Valtion teknillinen tutkimuskeskus. Informaatiopalvelulaitos, 1987. Harter, Stephen P. Online information retrieval: concepts, principles, and techniques. Academic Press Professional, Inc., 1986. Heimbürger, Anneli, Riitta Alkula, and Taru Kuhanen. Hyperteksti ja hypermedia. Valtion teknillinen tutkimuskeskus, informaatiopalvelulaitos, 1990. Honkela, Timo, and Ari M. Vepsäläinen. "Interpreting imprecise expressions: Experiments with Kohonen s selforganizing maps and associative memory." In Proceedings of ICANN 2011, vol. 1, pp. 897-902. 1991. Jäppinen, Harri, Aarno Lehtola, Esa Nelimarkka, and Matti Ylilammi. "Knowledge engineering approach to morphological analysis." In Proceedings of the first conference on European chapter of the Association for Computational Linguistics, pp. 49-51. Association for Computational Linguistics, 1983. Karetnyk, David, Fred Karlsson, and Godfrey Smart. "Knowledge-based indexing of morpho-syntactically analysed language." International Journal of Applied Expert Systems 4, no. 1 (1991): 1-29. Karlsson, Fred. "Morphological tagging of Finnish." Computational Morphosyntax, Publica 13 (1985): 115-136. Koskenniemi, Kimmo. "An application of the two-level model to Finnish." Computational morphosyntax: Report on research 1984 (1981): 19-41. Koskenniemi, Kimmo. "FINSTEMS: a module for information retrieval." Computational Morphosyntax: Report on Research 84 (1981): 81-92. Kotzias, Klaus. "How to respond to different language particularities by indexing texts using automatic text analysis." In International online information meeting, pp. 61-68. 1990. Laalo, Klaus. Säkeistä patoihin: suomen kielen monitulkintaiset sananmuodot. Suomalaisen kirjallisuuden seura, 1990. Lin, Xia, Dagobert Soergel, and Gary Marchionini. "A self-organizing semantic map for information retrieval." In Proceedings of the 14th annual international ACM SIGIR conference on Research and development in information retrieval, pp. 262-269. ACM, 1991. Newton, Steve J. Text filing and retrieval systems: a practical evaluation guide. National computing centre, 1983. Peters, Thomas A. "When Smart People Fail: An Analysis of the Transaction Log of an Online Public Access Catalog." Journal of academic librarianship 15, no. 5 (1989): 267-73. Ritter, Helge, and Teuvo Kohonen. "Self-organizing semantic maps." Biological cybernetics 61, no. 4 (1989): 241-254. Saffady, William. Text storage and retrieval systems: A technology survey and product directory. Meckler, 1989. Salton, Gerard. Automatic Text Processing: The Transformation, Analysis, and Retrieval of. Addison-Wesley, 1989. Tenopir, Carol, and Jung Soon Ro. Full text databases. Greenwood Press, 1990. Thönssen, Barbara. "Automatische Indexierung und Schnittstellen zu Thesauri.[Interfaces Between Automatic Indexing and Thesauri]." Nachrichten fur Dokumentation (West Germany) 39, no. 4 (1988): 227-230. [The list of references has been reproduced to support search system operations. Errors are possible. Please check the original.]

Keywords and search terms: Named entities: VTT, Valtion teknillinen tutkimuskeskus, TEKES, VTKK, KTA-Papyrus, Aamulehti, Länsiväylä-lehti, Tampereen yliopisto, Eeva Palosuo, Juhani Virtanen, Matti Sihto, Kimmo Koskenniemi, Mika Herpiö, Pekka Vuorio, Harri Arnola, Sauli Laitinen, Eero Sormunen, Taru Kuhanen, Sanna Hätönen, Raili Salminen, Markku Kuokkala, Markku Ylinen, Tarja Hjorth, Kaarina Nazarenko, Jaakko Anttila, Kari Martiskainen, Irma Salovaara, Pirjo Valpas, Tarja Heinivaho, Klaus Nurmi, Tuija Tuominen, Kalervo Järvelin, Olli Paavola. Finnish terms: Tiedonhakujärjestelmä, hakujärjestelmä, suomen kieli, taivutusmuoto, johdos, yhdyssana, homografia, sanaliitto, hakusana, taivutusvartalo, perusmuoto, MINTTU, BASIS, testikysely, hakemisto, TWOL, hakutulos, käyttäjä, perusmuotohaku, automaattinen katkaisu English terms: Information retrieval system, database, free-text retrieval, inverted index, index term, stop word, query, Finnish language, inflectional word forms, compound word, automatic truncation, morphological analysis, APL language, C language The full report follows in a scanned form.