Kielipankki ja AV-aineistot Mietta Lennes FIN-CLARIN c/o Nykykielten laitos, Helsingin yliopisto
FIN-CLARIN ja Kielipankki FIN-CLARIN on kansallinen konsortio, johon kuuluu joukko yliopistoja, Kotimaisten kielten keskus ja CSC Tieteen tietotekniikan keskus. FIN-CLARIN on osa kansainvälistä CLARINtutkimusinfrastruktuuria. Kielipankki on FIN-CLARINin tärkein verkkopalveluiden kokonaisuus. Kielipankin teknisestä ylläpidosta vastaa CSC - Tieteen tietotekniikan keskus. Aineistohankinnasta, työkalukehityksestä ja koulutuksesta vastaa Helsingin yliopisto.
Kielipankki www.kielipankki.fi Aineistot voivat olla myös tekijänoikeuden alaisia ja/tai sisältää henkilödataa. PUB vapaat aineistot ACA tiedeyhteisön aineistot RES rajoitetut aineistot Aineistojen käyttöoikeuksien hallinta: lbr.csc.fi Tekstiaineistojen hakuliittymä: korp.csc.fi yli 5 mrd. suomen sanaa, yli 3 mrd. ruotsin sanaa Puheaineistojen hakuliittymä (ääni, video, kuvat): lat.csc.fi yli 500 h suomea, yli 100 h suomenruotsia Virtuaalinen työtila mm. tiedonlouhintaan
Kieliaineistot Aineistot 2015 2020 Tekstiä Gw = miljardia sanaa, Mw = miljoonaa sanaa, h = tuntia Sanoma- ja aikakauslehtiä 1770- (Kansalliskirjaston kokoelmia) 8 Gw 20 Gw Verkkokeskustelut ja muu internet 2000- (Suomi24, Ylilauta, ) 150 Mw 10 Gw Kirjallisuutta ja käsikirjoituksia (Gutenberg, FENNICA, arkistot) 35 Mw 70 Mw Puhetta Uutislähetyksiä (YLE) Suomen eduskunnan täysistunnot 10000 h 10000 h Murre- ja arkikielen aineistoja (Kotus, SLS, Turun yliopisto) 500 h 1000 h Viittomakielien aineistoja (Aalto, Kuurojen liitto) Monikielisiä aineistoja Monikielisiä aineistoja (EuroParl, laki, raamattu, tekstitykset, ) 500 h 70 Mw 1 Gw Oppijoiden aineistoja (Oulu, Jyväskylä) 2 Mw 5 Mw Avoimet sanakirjat ja terminologiat (Helsinki, Tromssa) 200 Kw 400 Kw
Miksei tutkijalle riitä Google? Tutkimuskäytössä on tärkeää tuntea aineiston sisältö, kattavuus ja taustat pystyä toistamaan tutkimus pystyä viittaamaan aineistoon pysyvällä tavalla pystyä avoimesti jakamaan ja rikastamaan aineistoa muiden (tutkijoiden) kanssa loukkaamatta tekijänoikeuksia tai henkilösuojaa Aineistojen tuottamisessa ja dokumentoinnissa on pyrittävä noudattamaan yhteisiä käytänteitä, jotta jakaminen ja uudelleenkäyttö on mahdollista.
ÄÄNI- JA VIDEOAINEISTOT: LAT-JÄRJESTELMÄ lat.csc.fi
LAT-DEMO
LAT-DEMO http://www.youtube.com/watch?v=jdgugj5zeo
Annotaatio Annotaatio tarkoittaa dokumenttien/tallenteiden sisällä olevan aineksen järjestelmällistä rajaamista, kuvailua ja/tai luokittelua. Annotaatiota voidaan tuottaa myös osittain tai kokonaan automaattisesti (mm. tekstiaineistojen kieliopillinen jäsennys tai automaattinen puheentunnistus). Erityisesti AV-aineistojen analyysimahdollisuudet ovat hyvin riippuvaisia annotaation laajuudesta ja laadusta. Automaattinen puheentunnistus ei toistaiseksi kykene läheskään samaan kuin ihminen.
Tekstiaineiston annotaatio: esimerkkejä sananmuotojen analyysi: alusta alku N Ela Sg alunen N Par Sg alus N Par Sg alusta Adp Po alusta Adp Pr alusta Adv alusta N Nom Sg alustaa V Impv Act Sg2 alustaa V Prs Act ConNeg
Tekstiaineiston annotaatio sanaluokan ratkaiseminen ja lauseenjäsennys Poika poika N nsubj syö syödä V ROOT omenan omena N dobj.. Punc punct internet-haravointi ja kielentunnistus, nimien luokittelu, synonyymien tunnistus,
AV-aineistot: Litteroinnista perusannotaatioksi Litterointi on puheen sisällön kirjoittamista tekstimuotoon. Litteraati(o)n karkeusaste ja tyyli voi vaihdella sen käyttötarkoituksesta riippuen. Litteraatti muuttuu annotaatioksi, kun litteraatin osat (esim. puheenvuorot, puhunnokset tms. jaksot) on ainakin karkeasti kohdistettu ääni- ja/tai videotallenteen vastaaviin ajallisiin kohtiin. Litteroinnin lisäksi AV-tallenteisiin voidaan kohdistaa monenlaista muutakin annotaatiota (erilaiset jaksotukset, asiasanoitus, vuorovaikutuspiirteet, eleet, ilmeet jne.) Myös litteroitua tekstiä voidaan edelleen annotoida!
LAT-DEMO: TROVA-HAKU xxxxx
LAT-DEMO: TROVA-HAKU http://www.youtube.com/watch?v=lilvwwjye9g
Miksi AV-aineistot kannattaa annotoida? Annotoinnin avulla on mahdollista nopeasti palata tiettyyn kohtaan alkuperäisessä, tulkitsemattomassa datassa eli primaariaineistossa. Annotoinnin avulla aineistosta voidaan tehdä koneellisia hakuja. Hakuihin voidaan myös liittää automaattisia mittauksia tms. järjestelmällistä tiedonkeruuta. AV-aineistoja voi ja kannattaa annotoida tähän tarkoitukseen kehitetyillä ohjelmilla (esim. ELAN, Praat).
ELAN https://tla.mpi.nl/tools/tla-tools/elan/
ELAN-DEMO
ELAN-DEMO http://www.youtube.com/watch?v=t6jjau1xxm g
Litterointi ja annotointi Litteroiminen ja annotoiminen on usein tylsää ja aikaavievää varmista tehokkuus! Mitä aiot tutkia? Millaisia hakuja joudut tekemään? Mitä luokitteluja, rajauksia tai osa-aineistoja tarvitset? Annotaation tarkoitus on helpottaa aineistosta tehtäviä hakuja ja vähentää käsityön määrää analyysivaiheessa. Pilotointi: Käy koko tutkimusprosessi ensin läpi pienemmällä osa-aineistolla ja annotoi vasta sitten koko aineisto.
Perusannotaation rakenne Tee lista yksiköistä ja annotaatiokerroksista, joita tarvitset. Perusannotaatio: Kullekin puhujalle luodaan oma annotaatiokerros, joka nimetään puhujan yksilöllisellä tunnisteella. Puheenvuorot tmv. rajataan ja litteroidaan karkeasti. Älä tee litteroinnin keskelle ylimääräisiä merkintöjä, jotka voisivat haitata merkkijonohakuja. Tee ylimääräisiä luokituksia varten omat annotaatiokerrokset. Älä tee ELANissa liian tiukkoja määritelmiä, joiden soveltaminen voi osoittautua myöhemmin vaikeaksi.
PRAAT www.praat.org
PRAAT-DEMO xxx
PRAAT-DEMO xxx
PRAAT-DEMO xxx
PRAAT-DEMO xxx
Puheen luonteesta Puhe ja puhuminen ei ole akustista kirjoitusta! Hienoinkaan annotaatio- tai luokittelujärjestelmä ei tee käyttämistäsi yksiköistä tai luokituksista todellisia ne ovat vain apukeinoja aineiston hallintaan. Kun koetat tunnistaa ja rajata ääni- tai videonäytteestä jotakin yksikköä tai piirrettä, se osoittautuu aina sekä laadultaan että ajallisilta rajoiltaan sumeaksi. Dokumentoi!
MILLOIN PRAAT? MILLOIN ELAN?
ELAN-ohjelma Melko laajassa käytössä erityisesti kieltä sisältävien videoaineistojen tutkimuksessa Toimii miltei kaikilla alustoilla Annotaatiomuoto teknisesti monimutkainen mahdollistaa kerrosten väliset emo-tytär-hierarkiat EAF-annotaatiotiedostot LAT-palvelun natiivimuoto Ei mahdollisuutta äänen akustiseen kuvantamiseen (esim. sävelkulku tms.) Mahdollisuus tutkia äänitiedoston tiettyä katkelmaa suoraan Praatilla
Praat-ohjelma www.praat.org Laajassa käytössä, tunnettu, hyvin ylläpidetty, avointa lähdekoodia Toimii miltei kaikilla alustoilla; tiedostomuodot siirrettäviä Annotaatiomuoto teknisesti yksinkertainen, tuotavissa myös ELANiin Runsaasti mahdollisuuksia aineiston prosessointiin ja akustiseen analyysiin Skriptattavissa Annotaatiotiedostot tuettuja Kielipankin LAT-palvelussa Ei toistaiseksi tue videota
OMA AINEISTO KIELIPANKKIIN?
AV-aineistoa kerätessä Hanki puhujien ja muiden aineistossa näkyvien/kuuluvien henkilöiden kirjalliset suostumukset materiaalin käyttöön ja mahdollisimman laajaan jatkokäyttöön. Hanki luvat myös mahdollisten tekijänoikeuksien haltijoilta. Kiinnitä hieman liikaa huomiota äänityksen tekniseen laatuun. Äänitteen alkuperäisversio mieluiten WAV-muotoon. Valitse mahdollisimman hyvät mikrofonit, mieluiten jokaiselle puhujalle omansa, ja suuntaa ne oikein. Videon ja äänen synkronointi Dokumentoi!
AV-aineiston teknisiä vaatimuksia Ääni- ja/tai videotiedostot jossakin tuetussa formaatissa Suositus äänitiedostoille: WAV, väh. 22 050 Hz,16 bit Suositus videoille: jokin laajasti tuettu muoto, esim. MP4 Alkuperäiset, mahdollisimman korkealaatuiset näytteet toimitetaan pitkäaikaissäilytykseen. Kielipankin kautta jaeltavat käyttökopiot voivat olla pienempiä tarpeen mukaan.
Metadata eli kuvailutiedot Kerää riittävät kuvailutiedot: puhujat / haastateltavat äänitys- ja videointilaitteet tallennustilanteen muut olosuhteet Tärkeimmät kuvailutiedot voi toimittaa FIN-CLARINille tallennettavaksi META-SHARE-palveluun jo ennen kuin aineisto on luovutettu Kielipankkiin. lyhytnimi ja kokonimi lisensointi oikeudenhaltijoiden tiedot aineiston sisällön ja annotaation kuvaus
FIN-CLARINin järjestämiä (verkko)kursseja Korpuslingvistiikan johdantokurssi (3 op), verkkokurssina III periodilla (mm. Korp-palvelun käyttö) Puheen analyysin perusteet Praat- ja ELAN-ohjelmilla (5 op), verkkokurssina IV periodilla Kieliaineiston käsittely ja aineistoklinikka (5 op) lähiopetusjakso 16.-19.11.2015 (CSC, Espoo) klinikkajakso III ja IV periodeilla Kursseille voi osallistua myös toisesta yliopistosta käsin. www.kielipankki.fi/finclarinkoulutus
Kielipankki löytyy osoitteesta www.kielipankki.fi Neuvoja voi kysyä FIN-CLARINilta: fin-clarin@helsinki.fi Kiitos!