Kielipankki ja AV-aineistot

Samankaltaiset tiedostot
Kielipankki ja FIN-CLARIN

Mitä voin lainata Kielipankista?

Kielipankin analyysityökalut ja aineistot Työmarkkinatilanteen tutkiminen lehtiaineiston avulla

Kielipankki ja FIN-CLARIN. Mietta Lennes Nykykielten laitos, Helsingin yliopisto

Mylly: Uusi tapa ka sitella teksti- ja puheaineistoa helposti ja tehokkaasti. Mietta Lennes ja Jussi Piitulainen FIN-CLARIN, Helsingin yliopisto

Puhenäytteiden mittailusta puhekorpuksen perkuuseen: kalastelua mato-ongella ja verkoilla. Mietta Lennes FIN-CLARIN / Helsingin yliopisto

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

T.E.H.D.A.S. Arkisto. Kokemuksia performanssitaiteen arkistoinnista. Juha Mehtäläinen

Tutkimusdatan pitkäaikaissäilytys ATT-hankkeessa.

Kieliaineistojen käyttöoikeuksien hallinnan tietojärjestelmä

Ääni%eiden digitoin, Kansalliskirjastossa

Automaattinen semanttinen annotointi

Metadatasuositus julkaisuarkistojen tekstiaineistoille

Tietoarkiston palvelut ja arkistointiprosessi. Annaleena Okuloff Tieteenala-asiantuntija

Kielellisen datan käsittely ja analyysi tutkimuksessa

Tieto matkaa maailmalle

Tietoasiantuntija Juha Piukkula Eduskunnan kirjasto

Kansalliset digitaaliset kulttuuriaineistot Eduskunnan kirjastossa Annamari Törnwall

klo 15:30 17, atk luokat: ls 25 (5.krs) sekä A113H (1.krs) klo 15:30 17

Datanhallinnan oppaan esittely mitä ovat IDA, AVAA, KATA, PAS, REMS? Johanna Blomqvist, CSC - Tieteen tietotekniikan keskus

Kansalliskirjaston digitoitu historiallinen lehtiaineisto : sanatason laatu, kokoelmien käyttö ja laadun parantaminen

Kohti yhteisiä aineistokäytänteitä

Laki kulttuuriaineistojen tallettamisesta ja säilyttämisestä /1433 Verkkoaineisto

KULTUURIAINEISTOLAKI JA MUSIIKKIAINEISTOT. Uudistunut kulttuuriaineistolaki -seminaari Tapani Moisio

Yhteentoimivuusvälineistö: Sanastoeditorin esittelytilaisuus klo Väestörekisterikeskus, Lintulahdenkuja 4, Helsinki

Kvalitatiivisen datan avaaminen. Tieteenala-asiantuntija, FT Katja Fält Metodifestivaalit

Tutkimuksen tietoaineistot

Muusa ja KDK:n asiakasliittymä

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

Finna ja ontologiat tms.

Uudistunut kulttuuriaineistolaki Mikä Suomessa säilyy?

Yleisten kirjastojen kuvailutyön kansallinen viitekehys. Yleisten kirjastojen neuvosto Anu Jäppinen

Visuaaliset aineistot ja Finna

Kansallinen digitaalinen kirjasto - toiminnan säädöspohja. Tekijänoikeusneuvos Viveca Still

Kansallinen digitaalinen kirjasto KDK Miten se palvelee?

Kotimaisten kielten keskus eli Kotus ja sen arkistot ja aineistot. Elisa Stenvall

TIETOSUOJAILMOITUS TUTKIMUKSESTA JA TUTKIMUKSESSA KERÄTYN AINEISTON KÄYTÖSTÄ

Liite A: Kyselylomake

Painetun aineiston saatavuus Suomessa. Viikki Pentti Vattulainen

Tekijänoikeudet digitointihankkeissa

Kansallinen digitaalinen kirjasto

TTA palvelukokonaisuuden esittely Korkeakoulujen IT-päivät

10 teesiä verkko-opetuksen suunnittelusta. Leena Hiltunen Tutkijatohtori Tietotekniikan Aineenopettajankoulutus

Sosiaalisen median ja Internet-palveluiden käyttöehdot opetuksessa. Elias Aarnio Innopark Oy / Educoss-hanke

KDK-Asiakasliittymä. KDK kevätseminaari Ari Rouvari

IDA-tallennuspalvelun esittely. CSC Tieteen tietotekniikan keskus Oy

PALVELUITA DATANHALLINTAAN

YKSA(2) ( Käyttäjän ohje

IDA-tallennuspalvelun käyttölupahakemus

KDK ja asiakasliittymä - tilannekatsaus. Tampereen kaupungnkirjasto, maakuntakirjastokokous Tapani Sainio, Kansalliskirjasto

Kansallinen digitaalinen kirjasto missä mennään? Kristiina Hormia-Poutanen

KULTTUURIAINEISTOJEN TALLETTAMINEN JA SÄILYTTÄMINEN

Digitalia-projektin tekstinlouhinnan tuloksia. Kimmo Kettunen

Pitkäaikaissäilytyksen toiminta ja ylläpito

Kansallinen digitaalinen kirjasto -tilannekatsaus. Digiajasta ikuisuuteen -seminaari Minna Karvonen

KDK:n ajankohtaiset kuulumiset

OPEN ACCESS JYVÄSKYLÄN YLIOPISTO AVOIN TIETEENTEKIJÄ

ARTOn / ARTIVAn hyödyntäminen julkaisutiedonkeruussa

Keskeltä Laatokka lainehtii Kansalliskirjaston verkkoaineistot historiantutkimuksessa

Aineistojen paketoinnin pilotit PAS-seminaari 2013 Kuisma Lehtonen

TUTKIMUSDATAN KUVAILU. Kuvailun tiedotuspäivä Tieteenala-asiantuntija, FT Katja Fält

Museoiden keskustelutilaisuus Kansalliskirjasto Museovirasto Arkistolaitos

GEANT-tietosuojakäytäntö Data Protection Code of Conduct

Webinaarin osallistujan ohje

E-kirjat sähköiset kirjat

Tietoarkisto palveluksessanne. Avoin tutkimusdata ja aineistonhallinta ihmistieteissä Hannele Keckman-Koivuniemi

Julkaisutiedot läpinäkyviksi: julkaisuportaali. Tampereen teknillinen yliopisto, Jyrki Ilva

Historiallisten digitoitujen sanoma- ja aikakauslehtien avaaminen avoimena datana tutkijoille

ARVO - verkkomateriaalien arviointiin

Tutkimuksen pitkäaikaissaatavuuden palvelukokonaisuus

Kolme vuotta digitaalista pitkäaikaissäilytystä

Valtakunnallinen kehittämistehtävä Matti Sarmela

Pitkäaikaissäilytys osana yhteentoimivaa ja vaikuttavaa kulttuuriperintöä

ASIAKASLIITTYMÄ. Erikoiskirjastokokous Ari Rouvari Kansalliskirjasto

Vuoden 2012 julkaisudata Juulissa

Tiistai klo Jari Eerola

Pentti Haddington Oulun yliopisto englantilainen filologia. Anna Marin OAMK, liiketalouden yksikkö; Oulun yliopisto, UniOGS

JUSTUS - Theseus integraatio

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

Kansallinen radio- ja televisioarkisto. Tietoisku Radioinsinööriseuran senioreille

Näin suunnittelet ja rakennat oman verkkokurssin. Työkirja. TiiaKonttinen

Lataa Datan käsittely - Hannu Karttunen. Lataa

Lataa Optimointitehtävien ratkaiseminen - Juha Haataja. Lataa

Kansalliskirjaston julkaisuarkistopalvelut. Jyrki Ilva Erikoiskirjastojen neuvosto,

Dialogisuuden tasoja tieteellisen kirjoittamisen kurssilta

KULTTUURIAINEISTOJEN TALLETTAMINEN JA SÄILYTTÄMINEN UUSI VAPAAKAPPALELAINSÄÄDÄNTÖ HE 68/2007

KDK-asiakasliittymä ja museot. Museo hankkeen aloitusseminaari Tapani Sainio, Kansalliskirjasto

Tietoarkiston palvelut. Arja Kuula-Luumi (Tietoarkisto) Tieteelliset lehdet ja tutkimusdata seminaari Tieteiden talo, Helsinki

KDK-asiakasliittymä linjauksia KDK-seminaari Kristiina Hormia-Poutanen

AHAA-palvelu ja Finnan räätälöinti

Metatieto mihin ja miten? Juha Hakala Helsingin yliopiston kirjasto

Kansallisten viitetietokantojen hyödyntäminen JUREssa

Digitoinnin työpaja 3a/4 Äänitteiden digitoinnin perusteita

Kansalliskirjaston digitaaliset lehtiaineistot vuoteen 2010 asti tutkimus-ja opetuskäyttöön yliopistoille ja korkeakouluille.

Julkaisuarkistojen yhteentoimivuus

Kielten kandiohjelman opettajien digiloikka. Mietta Lennes, FIN-CLARIN / Nykykielten laitos

Tutkimuksen avoimuus - yhteistyön ja palveluiden lähtökohdat 2018

Pitkäaikaistallennus. CSC - Tieteen tietotekniikan keskus IT2008 Ari Lukkarinen

Juuli-julkaisutietoportaali

AV-muotojen migraatiotyöpaja - ääni. KDK-pitkäaikaissäilytys seminaari / Juha Lehtonen

Transkriptio:

Kielipankki ja AV-aineistot Mietta Lennes FIN-CLARIN c/o Nykykielten laitos, Helsingin yliopisto

FIN-CLARIN ja Kielipankki FIN-CLARIN on kansallinen konsortio, johon kuuluu joukko yliopistoja, Kotimaisten kielten keskus ja CSC Tieteen tietotekniikan keskus. FIN-CLARIN on osa kansainvälistä CLARINtutkimusinfrastruktuuria. Kielipankki on FIN-CLARINin tärkein verkkopalveluiden kokonaisuus. Kielipankin teknisestä ylläpidosta vastaa CSC - Tieteen tietotekniikan keskus. Aineistohankinnasta, työkalukehityksestä ja koulutuksesta vastaa Helsingin yliopisto.

Kielipankki www.kielipankki.fi Aineistot voivat olla myös tekijänoikeuden alaisia ja/tai sisältää henkilödataa. PUB vapaat aineistot ACA tiedeyhteisön aineistot RES rajoitetut aineistot Aineistojen käyttöoikeuksien hallinta: lbr.csc.fi Tekstiaineistojen hakuliittymä: korp.csc.fi yli 5 mrd. suomen sanaa, yli 3 mrd. ruotsin sanaa Puheaineistojen hakuliittymä (ääni, video, kuvat): lat.csc.fi yli 500 h suomea, yli 100 h suomenruotsia Virtuaalinen työtila mm. tiedonlouhintaan

Kieliaineistot Aineistot 2015 2020 Tekstiä Gw = miljardia sanaa, Mw = miljoonaa sanaa, h = tuntia Sanoma- ja aikakauslehtiä 1770- (Kansalliskirjaston kokoelmia) 8 Gw 20 Gw Verkkokeskustelut ja muu internet 2000- (Suomi24, Ylilauta, ) 150 Mw 10 Gw Kirjallisuutta ja käsikirjoituksia (Gutenberg, FENNICA, arkistot) 35 Mw 70 Mw Puhetta Uutislähetyksiä (YLE) Suomen eduskunnan täysistunnot 10000 h 10000 h Murre- ja arkikielen aineistoja (Kotus, SLS, Turun yliopisto) 500 h 1000 h Viittomakielien aineistoja (Aalto, Kuurojen liitto) Monikielisiä aineistoja Monikielisiä aineistoja (EuroParl, laki, raamattu, tekstitykset, ) 500 h 70 Mw 1 Gw Oppijoiden aineistoja (Oulu, Jyväskylä) 2 Mw 5 Mw Avoimet sanakirjat ja terminologiat (Helsinki, Tromssa) 200 Kw 400 Kw

Miksei tutkijalle riitä Google? Tutkimuskäytössä on tärkeää tuntea aineiston sisältö, kattavuus ja taustat pystyä toistamaan tutkimus pystyä viittaamaan aineistoon pysyvällä tavalla pystyä avoimesti jakamaan ja rikastamaan aineistoa muiden (tutkijoiden) kanssa loukkaamatta tekijänoikeuksia tai henkilösuojaa Aineistojen tuottamisessa ja dokumentoinnissa on pyrittävä noudattamaan yhteisiä käytänteitä, jotta jakaminen ja uudelleenkäyttö on mahdollista.

ÄÄNI- JA VIDEOAINEISTOT: LAT-JÄRJESTELMÄ lat.csc.fi

LAT-DEMO

LAT-DEMO http://www.youtube.com/watch?v=jdgugj5zeo

Annotaatio Annotaatio tarkoittaa dokumenttien/tallenteiden sisällä olevan aineksen järjestelmällistä rajaamista, kuvailua ja/tai luokittelua. Annotaatiota voidaan tuottaa myös osittain tai kokonaan automaattisesti (mm. tekstiaineistojen kieliopillinen jäsennys tai automaattinen puheentunnistus). Erityisesti AV-aineistojen analyysimahdollisuudet ovat hyvin riippuvaisia annotaation laajuudesta ja laadusta. Automaattinen puheentunnistus ei toistaiseksi kykene läheskään samaan kuin ihminen.

Tekstiaineiston annotaatio: esimerkkejä sananmuotojen analyysi: alusta alku N Ela Sg alunen N Par Sg alus N Par Sg alusta Adp Po alusta Adp Pr alusta Adv alusta N Nom Sg alustaa V Impv Act Sg2 alustaa V Prs Act ConNeg

Tekstiaineiston annotaatio sanaluokan ratkaiseminen ja lauseenjäsennys Poika poika N nsubj syö syödä V ROOT omenan omena N dobj.. Punc punct internet-haravointi ja kielentunnistus, nimien luokittelu, synonyymien tunnistus,

AV-aineistot: Litteroinnista perusannotaatioksi Litterointi on puheen sisällön kirjoittamista tekstimuotoon. Litteraati(o)n karkeusaste ja tyyli voi vaihdella sen käyttötarkoituksesta riippuen. Litteraatti muuttuu annotaatioksi, kun litteraatin osat (esim. puheenvuorot, puhunnokset tms. jaksot) on ainakin karkeasti kohdistettu ääni- ja/tai videotallenteen vastaaviin ajallisiin kohtiin. Litteroinnin lisäksi AV-tallenteisiin voidaan kohdistaa monenlaista muutakin annotaatiota (erilaiset jaksotukset, asiasanoitus, vuorovaikutuspiirteet, eleet, ilmeet jne.) Myös litteroitua tekstiä voidaan edelleen annotoida!

LAT-DEMO: TROVA-HAKU xxxxx

LAT-DEMO: TROVA-HAKU http://www.youtube.com/watch?v=lilvwwjye9g

Miksi AV-aineistot kannattaa annotoida? Annotoinnin avulla on mahdollista nopeasti palata tiettyyn kohtaan alkuperäisessä, tulkitsemattomassa datassa eli primaariaineistossa. Annotoinnin avulla aineistosta voidaan tehdä koneellisia hakuja. Hakuihin voidaan myös liittää automaattisia mittauksia tms. järjestelmällistä tiedonkeruuta. AV-aineistoja voi ja kannattaa annotoida tähän tarkoitukseen kehitetyillä ohjelmilla (esim. ELAN, Praat).

ELAN https://tla.mpi.nl/tools/tla-tools/elan/

ELAN-DEMO

ELAN-DEMO http://www.youtube.com/watch?v=t6jjau1xxm g

Litterointi ja annotointi Litteroiminen ja annotoiminen on usein tylsää ja aikaavievää varmista tehokkuus! Mitä aiot tutkia? Millaisia hakuja joudut tekemään? Mitä luokitteluja, rajauksia tai osa-aineistoja tarvitset? Annotaation tarkoitus on helpottaa aineistosta tehtäviä hakuja ja vähentää käsityön määrää analyysivaiheessa. Pilotointi: Käy koko tutkimusprosessi ensin läpi pienemmällä osa-aineistolla ja annotoi vasta sitten koko aineisto.

Perusannotaation rakenne Tee lista yksiköistä ja annotaatiokerroksista, joita tarvitset. Perusannotaatio: Kullekin puhujalle luodaan oma annotaatiokerros, joka nimetään puhujan yksilöllisellä tunnisteella. Puheenvuorot tmv. rajataan ja litteroidaan karkeasti. Älä tee litteroinnin keskelle ylimääräisiä merkintöjä, jotka voisivat haitata merkkijonohakuja. Tee ylimääräisiä luokituksia varten omat annotaatiokerrokset. Älä tee ELANissa liian tiukkoja määritelmiä, joiden soveltaminen voi osoittautua myöhemmin vaikeaksi.

PRAAT www.praat.org

PRAAT-DEMO xxx

PRAAT-DEMO xxx

PRAAT-DEMO xxx

PRAAT-DEMO xxx

Puheen luonteesta Puhe ja puhuminen ei ole akustista kirjoitusta! Hienoinkaan annotaatio- tai luokittelujärjestelmä ei tee käyttämistäsi yksiköistä tai luokituksista todellisia ne ovat vain apukeinoja aineiston hallintaan. Kun koetat tunnistaa ja rajata ääni- tai videonäytteestä jotakin yksikköä tai piirrettä, se osoittautuu aina sekä laadultaan että ajallisilta rajoiltaan sumeaksi. Dokumentoi!

MILLOIN PRAAT? MILLOIN ELAN?

ELAN-ohjelma Melko laajassa käytössä erityisesti kieltä sisältävien videoaineistojen tutkimuksessa Toimii miltei kaikilla alustoilla Annotaatiomuoto teknisesti monimutkainen mahdollistaa kerrosten väliset emo-tytär-hierarkiat EAF-annotaatiotiedostot LAT-palvelun natiivimuoto Ei mahdollisuutta äänen akustiseen kuvantamiseen (esim. sävelkulku tms.) Mahdollisuus tutkia äänitiedoston tiettyä katkelmaa suoraan Praatilla

Praat-ohjelma www.praat.org Laajassa käytössä, tunnettu, hyvin ylläpidetty, avointa lähdekoodia Toimii miltei kaikilla alustoilla; tiedostomuodot siirrettäviä Annotaatiomuoto teknisesti yksinkertainen, tuotavissa myös ELANiin Runsaasti mahdollisuuksia aineiston prosessointiin ja akustiseen analyysiin Skriptattavissa Annotaatiotiedostot tuettuja Kielipankin LAT-palvelussa Ei toistaiseksi tue videota

OMA AINEISTO KIELIPANKKIIN?

AV-aineistoa kerätessä Hanki puhujien ja muiden aineistossa näkyvien/kuuluvien henkilöiden kirjalliset suostumukset materiaalin käyttöön ja mahdollisimman laajaan jatkokäyttöön. Hanki luvat myös mahdollisten tekijänoikeuksien haltijoilta. Kiinnitä hieman liikaa huomiota äänityksen tekniseen laatuun. Äänitteen alkuperäisversio mieluiten WAV-muotoon. Valitse mahdollisimman hyvät mikrofonit, mieluiten jokaiselle puhujalle omansa, ja suuntaa ne oikein. Videon ja äänen synkronointi Dokumentoi!

AV-aineiston teknisiä vaatimuksia Ääni- ja/tai videotiedostot jossakin tuetussa formaatissa Suositus äänitiedostoille: WAV, väh. 22 050 Hz,16 bit Suositus videoille: jokin laajasti tuettu muoto, esim. MP4 Alkuperäiset, mahdollisimman korkealaatuiset näytteet toimitetaan pitkäaikaissäilytykseen. Kielipankin kautta jaeltavat käyttökopiot voivat olla pienempiä tarpeen mukaan.

Metadata eli kuvailutiedot Kerää riittävät kuvailutiedot: puhujat / haastateltavat äänitys- ja videointilaitteet tallennustilanteen muut olosuhteet Tärkeimmät kuvailutiedot voi toimittaa FIN-CLARINille tallennettavaksi META-SHARE-palveluun jo ennen kuin aineisto on luovutettu Kielipankkiin. lyhytnimi ja kokonimi lisensointi oikeudenhaltijoiden tiedot aineiston sisällön ja annotaation kuvaus

FIN-CLARINin järjestämiä (verkko)kursseja Korpuslingvistiikan johdantokurssi (3 op), verkkokurssina III periodilla (mm. Korp-palvelun käyttö) Puheen analyysin perusteet Praat- ja ELAN-ohjelmilla (5 op), verkkokurssina IV periodilla Kieliaineiston käsittely ja aineistoklinikka (5 op) lähiopetusjakso 16.-19.11.2015 (CSC, Espoo) klinikkajakso III ja IV periodeilla Kursseille voi osallistua myös toisesta yliopistosta käsin. www.kielipankki.fi/finclarinkoulutus

Kielipankki löytyy osoitteesta www.kielipankki.fi Neuvoja voi kysyä FIN-CLARINilta: fin-clarin@helsinki.fi Kiitos!