Kielipankki ja FIN-CLARIN. Mietta Lennes Nykykielten laitos, Helsingin yliopisto

Samankaltaiset tiedostot
Kielipankki ja FIN-CLARIN

Mitä voin lainata Kielipankista?

Kielipankin analyysityökalut ja aineistot Työmarkkinatilanteen tutkiminen lehtiaineiston avulla

Kielipankki ja AV-aineistot

Mylly: Uusi tapa ka sitella teksti- ja puheaineistoa helposti ja tehokkaasti. Mietta Lennes ja Jussi Piitulainen FIN-CLARIN, Helsingin yliopisto

Kieliaineistojen käyttöoikeuksien hallinnan tietojärjestelmä

Integration of Finnish web services in WebLicht Presentation in Freudenstadt by Jussi Piitulainen

Maksujärjestelmäsimulaattori SUOMEN PANKKI FINLANDS BANK BANK OF FINLAND

Nuorisotyöttömyys Euroopassa. Eurooppafoorumi: Työläisten Eurooppa, Tampere, Liisa Larja

IAB Europella on toimintaa 27 Euroopan maassa. IAB Finland ry perustettiin Nykyään noin sadan asiantuntijayrityksen ja liki tuhannen yksilön

The Public Interface for Finnish Libraries, Museums and Archives Ari Rouvari National Library of Finland

Ajankohtaista Fingridistä

Erasmus liikkuvuus Suomesta

Esityksessäni 10/26/2015. Naiset ja miehet ikääntyvässä Suomessa Markus Rapo, Tilastokeskus. -Vanhus / ikääntynyt määritelmä?

Historiallisten digitoitujen sanoma- ja aikakauslehtien avaaminen avoimena datana tutkijoille

SUKUKIELTEN DIGITOINTIPROJEKTI JA KIRJALLISUUSPANKKI ESIMERKKEINÄ TUTKIJAYHTEISTYÖSTÄ

EOFFICEN UUDET PIIRTEET

Erasmus-liikkuvuus Suomesta

Suomen biokapasiteetti ja sen. Prof. Jyri Seppälä Suomen ympäristökeskus

Teollisuustuotannon määrä kuukausittain

EU Participant Report feedback Sofia Lähdeniemi & Kiira Noponen

1: Korpukset ja ohjelmat" [7, ]).

Kielitaito ja talous. Roope Uusitalo

Anna Rotkirch Väestöntutkimuslaitos,

U 5/2015 vp. Helsingissä 1 päivänä heinäkuuta Opetus- ja kulttuuriministeri Sanni Grahn-Laasonen. Opetusneuvos Petteri Kauppinen

GEANT-tietosuojakäytäntö Data Protection Code of Conduct

Metsien luonnontuotteet ja luomu. Rainer Peltola, MTT Rovaniemi / LAPPI LUO

Kuka päättää sote-palveluiden kehittämisestä: asukas, professio vai manageri? Jouko Isolauri

*) %-yks. % 2018*)

Avoin tieto ja World Wide Web tietoyhteiskunnan palveluksessa. Open Data and the World Wide Web in Service for the Informaton Society

Case digitaaliset ihmistieteet

Fingrid uuden edessä. Toimitusjohtaja Jukka Ruusunen. Kantaverkkopäivä

Kuinka ammattirakenteet mukautuvat globaaleihin arvoketjuihin

VARASTOPAIKAT ONE-WAY KONTIT VARUSTELUT & MUUTOSTYÖT PROJEKTIVIENTIKONTIT KONTTIKULJETUKSET

Nuorten työttömyys -faktaa ja fiktiota

AVOIMEN TIEDON KESKUS AVOIMEN TIETEEN PALVELUJEN TUOTTAJANA

Suomi innovaatioympäristönä maailman paras?

Kansaianvälinen aikuistutkimus PIAAC 2012

Kansalliskirjaston digitoitu historiallinen lehtiaineisto : sanatason laatu, kokoelmien käyttö ja laadun parantaminen

Tietoasiantuntija Juha Piukkula Eduskunnan kirjasto

Kielellisen datan käsittely ja analyysi tutkimuksessa

Date(s) of dissemination activity. Which audiences were targeted in the dissemination activity University of Oulu, Finland.

Eduskunnan tarkastusvaliokunta

Tuottavuuskehitys pkyrityksissä

Kuntien talous ja sote-uudistus. Olli Savela, kaupunginvaltuutettu, Hyvinkää Helsinki

Kansalliset digitaaliset kulttuuriaineistot Eduskunnan kirjastossa Annamari Törnwall

Kohti uutta normaalia? Pakolaisuus ja muuttoliike lukuina, tänään

Humanististen alojen aineistojen erityispiirteet ja aineistonhallinta METODIFESTIVAALI

Mitä annettavaa Tuning-hankkeella on korkeakouluille?

Kansainvälisen tutkimusinfrastruktuurin juridinen muoto ja tutkimusinfrastruktuurin asettamat ehdot liittymiselle

MEKIN UUDET HAASTEET. Keski-Suomen matkailuparlamentti Jyväskylä Pirkko Perheentupa Matkailun edistämiskeskus

muutos *) %-yks. % 2017*)

Yhteentoimivuusvälineistö: Sanastoeditorin esittelytilaisuus klo Väestörekisterikeskus, Lintulahdenkuja 4, Helsinki

Julkaisufoorumi ja Open Access. Pekka Olsbo Julkaisukoordinaattori Jyväskylän yliopiston kirjasto

COMMISSION INTERNATIONALE DE L'ECLAIRAGE INTERNATIONAL COMMISSION ON ILLUMINATION INTERNATIONALE BELEUCHTUNGSKOMMISSION.

Sisällys. 1. Energiatehokkuudesta. 2. Energiatehokkuusindikaattorit kansantalouden makrotasolla

Miten avoin yhdistetty tieto saadaan verkkoon: kansallinen Linked Data Finland -hanke-ehdotus

Sahatavaran markkinakatsaus Vientikuljetus- ja laivauspäivät, Kotka Kai Merivuori

Työttömyysetuuksien vaikutuksesta työmarkkinakäyttäytymiseen - tarkastelussa enimmäiskeston lyhennys

muutos *) %-yks. % 2016

Suomi - Älykkään energiamittauksen kärkimaa

Finnish way to build competitiveness

CLT131: Tekstityökalut 2011, viides luento

Porvoon matkailun tunnuslukuja huhtikuu 2012

MITEN KÄY KUSTANNUSTEN EHDOTETUSSA SOTE MALLISSA

Täsmäytys kuinka tehostat tilauksellisten ja toistuvaislaskujen käsittelyä

Automaattinen semanttinen annotointi

perustamishankkeeseen ja päämajan sijoittamiseen Suomeen

Miksi tutkimusaineistoja halutaan avattavan? Jyrki Hakapää, Suomen Akatemia

Kansalliset digitaaliset kirjastohankkeet ja digitointi

SOSIAALITURVA JA LUOTTAMUS. Heikki Ervasti Seminaarialustus Työeläkepäivä

NUORET JA LIIKENNE. Aluepäällikkö Rainer Kinisjärvi Rovaniemi

Suomalaista automaatio-osaamista globaaleille aurinkoenergiamarkkinoille

Ilmailijan lääketiede. Uudet medikaalivaatimukset. Helsinki Fly In, Jukka Terttunen, AME Liikennelääketiedeyksikkö. Yhteinen asia.

OPEN ACCESS JYVÄSKYLÄN YLIOPISTO AVOIN TIETEENTEKIJÄ

Maahanmuuton ja kotoutumisen lähitulevaisuuden haasteet. Tuomas Martikainen

Elämää PISA:n varjossa

verkkovierailu Karri Huhtanen Arch Red Oy

Etelä Suomen ja Viron Interreg III A ohjelma:

Ostolasku: 100 % verkkolaskuja CloudScanratkaisun avulla.

Kansainvälinen aikuistutkimus, PIAAC

Tietojenkäsittelytieteilijöiden kokemuksia. Ella Bingham, tutkimuskoordinaattori, HIIT, Aalto

Finanssivalvonnalle tehdyt poikkeusilmoitukset liputusvelvollisuudesta

Väestöennuste 2012 mikä muuttui?

KVS2008. Pertti Kuronen

Avoin julkaiseminen (Open Access) tarkoittaa tieteellisen tiedon avointa saatavuutta internetissä.

Porvoon matkailun tunnuslukuja Marraskuu 2012

Kielitieteellisten aineistojen käsittely

Korkeakoulutettujen työllistyminen ja työmarkkinoiden muutokset

AKL:n 44. Autokauppiaspäivät , klo , Lehdistötilaisuus tj. Pekka Rissa

Kansallinen digitaalinen kirjasto KDK Miten se palvelee?

Maatalouden energiankulutus Suomessa ja Euroopassa

Projektikokemuksia pk-yrityshankkeista

Digitalia-projektin tekstinlouhinnan tuloksia. Kimmo Kettunen

Datapalveluja, infrastuktuureja, ekosysteemejä tutkimuksen hyväksi

DECIPHER Development & Export of Cultural Initiatives for the Promotion & Harmonisation of Employer-led Resources

Suomen avoimien tietojärjestelmien keskus COSS ry

Johdanto: Semanttinen Kalevala projekti

T.E.H.D.A.S. Arkisto. Kokemuksia performanssitaiteen arkistoinnista. Juha Mehtäläinen

4. KORKEA VEROTUS VIE MITALISIJAN HYVINVOINTIKILPAILUSSA

Transkriptio:

Kielipankki ja FIN-CLARIN Mietta Lennes Nykykielten laitos, Helsingin yliopisto fin-clarin@helsinki.fi

Kielipankki www.kielipankki.fi FIN-CLARIN www.helsinki.fi/fin-clarin/

Lyhyt historia UHLCS (1987) Yleisen kielitieteen laitoksen korpuspalvelin, HY Keskitetty virtuaalipalvelu (1996) www.kielipankki.fi FIN-CLARIN organisaatio (2006) www.helsinki.fi/fin-clarin/ CLARIN ERIC (2012) www.clarin.eu

Kielipankki / FIN-CLARIN CLARIN ERIC CLARIN www.clarin.eu / NL Språkbanken / Swedish CLARIN Center International cooperation and sharing of resources European Research Infrastructure Consortium founded on February 29, 2012 IDS / German CLARIN Center Netherlands Austria Bulgaria Czech Republic Denmark Estonia Germany Poland Sweden Dutch language union Norway NTU / Dutch CLARIN Center 4

Missio Tarjotaan kieliaineistoja tutkiville humanisteille, yhteiskuntatieteilijöille ja tietojenkäsittelytieteilijöille pääsy kielentutkimuksen työkaluihin ja muihin kielivaroihin.

Visio Omalla työasemallaan kielentutkijan pitäisi pystyä hakemaan relevantteja kielellisiä rakenteita ja esimerkkejä yhteiskuntatieteilijän ja historiantutkijan pitäisi voida löytää dokumentteja sisältöhakuja käyttämällä tietojenkäsittelytieteilijän pitäisi pystyä louhimaan tekstiä ja dataa esimerkiksi käsikirjoitus- ja sanomalehtikokoelmista, Internetin ja eduskunnan keskusteluista tai radio- ja TV-lähetyksistä.

Strategia Tarjotaan edistynyt sisältöhaku data-arkistoihin ja dokumenttikokoelmiin Tutkimusyksiköt, sanomalehdet, radio- ja tv-yhtiöt Kansalliskirjasto, Kansallisarkisto, eduskunta Tutkimushankkeet Tarjotaan kotimaisia kieliä tukevia avoimen lähdekoodin työkaluja tekstin ja puheen automaattiseen tunnistukseen, tekstin jäsentämiseen ja analyysiin, annotointiin, luokitteluun ja tekstinlouhintaan

Kielipankki Tekijänoikeuden alaiset aineistot, jotka saattavat myös sisältää henkilödataa PUB: julkinen ACA: akateeminen RES: rajoitettu Lisäehtoja tarvittaessa: BY, PRIV, NC, INF, NORED, Hakuliittymät, työryhmäalustat, virtuaalinen työtila Tekstiaineistot: korp.csc.fi >5 miljardia sanaa suomea ja >3 miljardia sanaa ruotsia noin 2 miljoonaa dokumenttia puhetta sisältäviä ääni- ja videoaineistoja lat.csc.fi >300 tuntia suomea ja >100 tuntia ruotsia noin 600 litteroitua haastattelua Kielipankin virtuaalinen työtila esimerkiksi datan louhintaa varten CSC Tieteen tietotekniikan keskuksen palvelimilla

Data Collections Corpora 2014 2020 Text Newspaper corpus 1790- (National Library) 8 Gw 40 Gw Discussion fora 2000- (Suomi24) 15 Gw Literature and manuscripts (Gutenberg, National Archive) 35 Mw 70 Mw Speech Broadcast news (YLE) 10000 h Finnish Parliament Debates 10000 h Dialect corpora (Kotus, UTU, SLS) 500 h 1000 h Sign language corpora (Aalto) 2000 h Multi-lingual Multilingual corpora (UTA, EuroParl) 70 Mw 150 Mw Learners corpora (UO, JyU) 2 Mw 5 Mw Open-source lexicons and terminologies (UHEL, UTROM) 200 Kw 400 Kw

Language Tools Short Mid Long User Interfaces Text corpus interface (UGOT/SE) x x Speech and video corpus interface (MPI/NL) x x Existing tools Text processing tools (UHEL/FI, UTU/FI, UGOT/SE) x x Speech processing tools (AALTO/FI) x x OCR and Critical edition editor (National Library/FI) x x Tools for minority languages (UHEL/FI, UTROM/NO) x x x Better tools needed Hand-writing recognition x x Automated video annotation x x Semantic and pragmatic analysis x x

Kielivarojen kierrättäminen Kielipankki (The Language Bank of Finland) Kieliaineiston automaattinen jäsentäminen hfst.sf.org/ Valinta ja haku korp.csc.fi/ lat.csc.fi/ Kielivarat www.meta-share.org www.clarin.eu/vlo Hakutulokset Tuloksia voidaan jatkoannotoida ja tallentaa uudet versiot muiden tutkijoiden saataville

Demo korp.csc.fi

https://lat.csc.fi/ds/annex/runloader?nodeid=mpi2817%23&time=2879&du ration=2063&viewtype=timeline