Mylly: Uusi tapa ka sitella teksti- ja puheaineistoa helposti ja tehokkaasti. Mietta Lennes ja Jussi Piitulainen FIN-CLARIN, Helsingin yliopisto

Samankaltaiset tiedostot
Kielipankki ja FIN-CLARIN

Kielipankki ja FIN-CLARIN. Mietta Lennes Nykykielten laitos, Helsingin yliopisto

Kielipankki ja AV-aineistot

Mitä voin lainata Kielipankista?

Tietojen haku tuotannonohjausjärjestelmästä ja lähettäminen Minun Maatilani -ohjelmistolle MMAmmuLinkillä

5. Klikkaa avautuvan ikkunan oikeasta yläkulmasta käyttäjätunnustasi ja valitse Luo pikakuvake

Tietojen lähettäminen Minun Maatilani ohjelmistolle Lelystä MMAmmuLinkillä

OPAS KULTA2 -JÄRJESTELMÄN KÄYTTÖÖN

Ohjelmisto on tietokanta pohjainen tiedostojärjestelmä, joka sisältää virtuaalisen hakemisto rakenteen.

Toimittajaportaalin pikaohje

Tapahtumien lähettäminen MMAmmuLinkillä Minun Maatilaani. TIM ohjelmistosta

Ctl160 Tekstikorpusten tietojenkäsittely Viides luento

BlueJ ohjelman pitäisi löytyä Development valikon alta mikroluokkien koneista. Muissa koneissa BlueJ voi löytyä esim. omana ikonina työpöydältä

Ohjeet asiakirjan lisäämiseen arkistoon

Webmailin käyttöohje. Ohjeen sisältö. Sähköpostin peruskäyttö. Lomavastaajan asettaminen sähköpostiin. Sähköpostin salasanan vaihtaminen

Salasanojen turvallinen tallentaminen KeePass ohjelmalla

Netsor Webmailin käyttöohje

ASIAKASRAPORTOINNIN OHJE

ELOKUVATYÖKALUN KÄYTTÖ ANIMAATION LEIKKAAMISESSA. Kun aloitetaan uusi projekti, on se ensimmäisenä syytä tallentaa.

Päivitysohje Opus Dental

Drupal-sivuston hallintaopas

FTP -AINEISTOSIIRRON OHJE PC / MAC Ympäristö

CSV - XML ohjelman käyttöohje

Työsähköpostin sisällön siirto uuteen postijärjestelmään

Toimittajaportaalin rekisteröityminen Toimittajaportaalin sisäänkirjautuminen Laskun luonti Liitteen lisääminen laskulle Asiakkaiden hallinta Uuden

VERKKOVELHO-YLLÄPITOTYÖKALUN KÄYTTÖOHJE

UUDEN NETTIJÄSENREKISTERIN OHJEET. Kirjaudu sisään antamalla käyttäjätunnus ja salasana

Kielipankin analyysityökalut ja aineistot Työmarkkinatilanteen tutkiminen lehtiaineiston avulla

SQL Buddy JAMK Labranet Wiki

Skype for Business ohjelman asennus- ja käyttöohje Sisällys

ohjeita kirjautumiseen ja käyttöön

Etusivu Etusivulta valitaan haluttu toiminto klikkaamalla sitä joko yläreunan otsikosta tai oikeanpuoleisesta valikosta.

Fixcom Webmail ohje. Allekirjoitus. Voit lisätä yhden tai useamman allekirjoituksen.

TALLENNETAAN MUISTITIKULLE JA MUISTIKORTILLE

Sähköpostitilin määrittäminen Outlook 2010, kun ohjelma käynnistetään ensimmäistä kertaa.

Skype for Business ohjelman asennus- ja käyttöohje Sisällys

Internet Explorer 7 & 8 pop-up asetukset

KÄYTTÖOHJE LATOMO VERSO

Site Data Manager Käyttöohje

Suvi Junes Tietohallinto / Opetusteknologiapalvelut 2012

Epooqin perusominaisuudet

Visma Fivaldi selainohjeet Internet Explorer

Toimittajaportaalin pikaohje

idvd 5 ELOKUVAKASVATUS SODANKYLÄSSÄ Vasantie Sodankylä +358 (0) tommi.nevala@sodankyla.fi

Granlund Manager - Huoltokirjan käyttöohje

Sähköpostitilin määrittäminen Outlook 2013, kun ohjelma käynnistetään ensimmäistä kertaa.

INTERBASE 5.0 PÄIVITYS VERSIOON 5.6

Office 365 OneDrive Opiskelijan ohje 2017

Meeting Plannerin käyttöohje

Site Data Manager Käyttöohje

JAKELUPISTE KÄYTTÖOHJE 2/6

Microsoft Outlook Web Access. Pikaohje sähköpostin peruskäyttöön

Mathcad 14.0 Single User -asennus

3D-mallinnus Tinkercad-ohjelmalla, osa 1/2

ASTERI KIRJANPITO KIELIVERSION OHJE

Automaster tai MBS. 2. ODBC - ajurin asennus (jos ei ole jo asennettu)

klo 15:30 17, atk luokat: ls 25 (5.krs) sekä A113H (1.krs) klo 15:30 17

Ohje. Vastaanottajatietojen tuonti Työasema Prinetistä Posti SmartShipiin Julkinen - Public

Office ohjelmiston asennusohje

Lipas 2.0 käyttöohjeet ( )

Office 365 palvelujen käyttöohje Sisällys


KURRA HOCKEY RY Nettisivujen joukkueen ylläpito-ohje Piia Heiniö, 1/2018. Kurra Hockey Ry 1

OPISKELIJAN PIKAOPAS

Webpalvelin muistitikulle - Ohje

Skype for Business pikaohje

Tekstieditorin käyttö ja kuvien käsittely

VIENET JULKAISUJÄRJESTELMÄLLÄ TOTEUTETTUJEN INTERNET-SIVUJEN YLLÄPITO-OHJE

WinOodin käyttö VDI-ympäristössä

Kieliaineistojen käyttöoikeuksien hallinnan tietojärjestelmä

Vastaanottajatietojen tuonti Työasema Prinetistä Posti SmartShipiin

UpdateIT 2010: Uutisten päivitys

Tilastot ajetaan Kirjuriin automaattisesti kuukausittain joka kuukauden toisena lauantaina.

Titta-palvelun käyttöohje

TEEMA 2 Aineistot. Kirjautuminen Moodleen. Sisältö. Kirjaudut Moodleen sivulta Voit vaihtaa kielen valikosta.

Adobe Premiere Elements ohjeet

E-kirjan lainaaminen ja lukeminen

Rekisteröitymisohje. Vaihe 1. Rekisteröityminen palveluun tapahtuu seuraavasti:

Ensin klikkaa käynnistä-valikkoa ja sieltä Kaikki ohjelmat valikosta kaikki ohjelmat

Suuli api dokumentaatio

Titta-palvelun käyttöohje

Palvelusarja L - Käyttöohje

SSH Secure Shell & SSH File Transfer

Toimeentulotuen sähköinen asiointi - Käyttöohje

Kuvien siirto-ohjelman käyttöohje Huom! Tämä ohjelmisto on käytössä vain yrityksillä, joilla ei ole käytössä Java Runtime 1.4 -sovellusta.

Kylätietojen täyttöohje. Sisällys

LP-levyn digitointi Audacity-ohjelmalla

PALLOVERKON OHJEET PELIPASSIEN OSTOA VARTEN

Netikka verkkotila - käyttöohje

Punomo Tee itse -julkaisun tekeminen

KÄYTTÖOHJE / Ver 1.0 / Huhtikuu WordPress KÄYTTÖOHJE Sotkamo 2016

Kilta - yhdistyskäyttäjän ohje

Lukkarikoneen käyttöohje

RYHTI 4.0 Huoltokirja käyttöohje

Ohjeet ALS Online-palvelun käyttöön PÄIVITETTY

DIGITAALISEN TARINAN TUOTTAMINEN MICROSOFT PHOTO STORY 3- OHJELMAN AVULLA VAIHEINEEN

Ohje sähköiseen osallistumiseen

Uutiskirjesovelluksen käyttöohje

EeNet materiaalit ohje

Transkriptio:

Mylly: Uusi tapa ka sitella teksti- ja puheaineistoa helposti ja tehokkaasti Mietta Lennes ja Jussi Piitulainen FIN-CLARIN, Helsingin yliopisto

www.kielipankki.fi Kuinka aineistojen käsittelyä voitaisiin helpottaa? Aineistojen koko kasvaa jatkuvasti. Kaikkia työvaiheita ei pysty tekemään käsin. Monet työkalut ovat hankalia käyttää (esim. edellyttävät komentorivityökalujen hallintaa). Menetelmät halutaan dokumentoida. Työvuon pitäisi olla helposti toistettavissa myös uudelle aineistolle. Kielitieteen päivät 18.5.2017 2

www.kielipankki.fi Chipster CSC:n kehittämä avoimen lähdekoodin alusta (http://chipster.csc.fi/) Käytössä aiemmin luonnontieteiden puolella. 17.5.2017 3

www.kielipankki.fi Mylly (The Mill) Kielipankkiin on asennettu oma Chipsterversio nimeltään Mylly. Myllyn kautta tarjotaan erityisesti kieliaineistojen käsittelyyn ja visualisointiin sopivia työkaluja. Myllyn kautta on mahdollista kytkeä käyttöön mikä tahansa Taito-palvelimella toimiva työkalu tai skripti, joka käyttää yhtä tai useampaa tiedostoa syötteenä ja tuottaa tulokseksi uusia tiedostoja. 17.5.2017 4

www.kielipankki.fi Output = input? 17.5.2017 5

www.kielipankki.fi Käyttöesimerkkejä 1. Automaattinen puheentunnistus 2. Tekstin saneistaminen ja sananmuotojen frekvenssit 3. Suomenkielisen tekstin automaattinen jäsentäminen 4. Haku suoraan Korp-palvelusta ja tulokset taulukkomuotoon 18.5.2017 6

https://www.kielipankki.fi/tuki/mylly 18.5.2017 7

Kirjaudutaan Myllyyn CSC-käyttäjätunnus CSC-salasana

www.kielipankki.fi 1. Automaattinen puheentunnistus 18.5.2017 9

www.kielipankki.fi Lähtöaineisto: Puhetta sisältävä äänitiedosto Työkalu: Suomen kielen automaattinen puheentunnistin (AaltoASR) 17.5.2017 10

Tuodaan Myllyyn äänitiedosto

Datasets: Valitaan äänitiedosto

Analysis tools: Valitaan työkalu

Lähetetään työ AaltoASRtunnistimen käsiteltäväksi

(Tunnistustyölle voi ensin valita muutamia asetuksia)

Pyydetään tuloksia ja odotetaan

Tunnistustyö on valmis!

Voidaan katsella tekstimuotoista tulosta

Tunnistettu teksti

Tunnistustulos EAFmuodossa ELAN-ohjelmaan

ELAN pyytää valitsemaan vastaavan äänitiedoston omalta koneelta

ELAN ihmettelee vähän, mutta ei välitetä siitä

Ääni ja annotaatio ELANissa

Tunnistustulos TextGridmuodossa Praat-ohjelmaan

Etsitään omalta koneelta äänitiedosto TextGridin pariksi

Valitaan ääni+textgrid Praatin editori-ikkunaan

Ääni ja annotaatio Praatissa

www.kielipankki.fi 2. Tekstin saneistaminen ja sananmuotojen frekvenssit 18.5.2017 28

www.kielipankki.fi Lähtöaineisto: Tekstiä sisältävä tiedosto Työkalu: Tokenisointi ja sananmuotojen frekvenssien laskenta 17.5.2017 29

Tarvittaessa tuodaan tekstitiedosto Myllyyn

Saneistetaan teksti (Tokenize)

Lasketaan erilaisten sananmuotojen lukumäärät saneistetusta listasta

Sananmuotojen taajuudet

www.kielipankki.fi 3. Suomenkielisen tekstin automaattinen jäsentäminen 18.5.2017 34

www.kielipankki.fi Lähtöaineisto: Tekstiä sisältävä tiedosto Työkalu: Suomen kielen dependenssijäsennin (Turku Dependency Parser) 17.5.2017 35

Tekstitiedoston sisällön voi jäsentää Turku Dependency Parser -työkalulla

Jos jäsennettävä aineisto on iso, työn voi lähettää myös eräajona

Odotetaan työn valmistumista ja pyydetään tulokset (Wait for results)

TSV-muotoiset tulokset voi avata omalla koneella

Tulokset TSV-muodossa voivat näyttää tältä oman koneen tekstieditorissa:

TSV-tiedoston voi myös tallentaa Export-komennolla Valikko tulee näkyviin hiiren oikeaa nappia klikkaamalla!

Exceliin tuotuna TSV-tiedosto näyttää tältä:

www.kielipankki.fi 4. Haku suoraan Korp-palvelusta, tulokset taulukkomuodossa 18.5.2017 43

www.kielipankki.fi Lähtöaineisto: Korp-palvelun Suomi24 (näyte) -korpus Työkalu: Korp-API, https://www.kielipankki.fi/support/korpapi/ 17.5.2017 44

Luodaan ja tallennetaan ensin tekstitiedosto, jossa on CQP-kyselylause(ita) Huom! Tiedoston päätteenä.txt ja merkistökoodaus UTF-8!

Tuodaan kyselytiedosto Myllyyn

Valitaan kyselytiedosto ja sitten työkaluksi Korp API

Käynnistetään konkordanssihaku

Tuloksena on JSON-muotoinen tekstitiedosto konkordanssista

Käynnistetään JSON-muotoisen hakutuloksen muunnos TSV-tiedostoiksi

Tuloksena on kaksi TSV-muotoista tekstitiedostoa konkordanssista

TSV-tiedostot voi tallentaa

TSV-tiedostot voi avata Excelissä (tässä tiedosto query-tokens.tsv)

TSV-tiedostot voi avata Excelissä (tässä tiedosto query-meta.tsv)

www.kielipankki.fi Kiitos! Ehdota meille lisää Mylly-palveluita: fin-clarin@helsinki.fi 18.5.2017 55