Ctl160 Tekstikorpusten tietojenkäsittely Viides luento

Samankaltaiset tiedostot
CLT131 Korpusten käsittely Viides luento

Korpusten käsittely clt131, P Luento 6

Ctl160 Tekstikorpusten tietojenkäsittely p.1/15

Mylly: Uusi tapa ka sitella teksti- ja puheaineistoa helposti ja tehokkaasti. Mietta Lennes ja Jussi Piitulainen FIN-CLARIN, Helsingin yliopisto

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

Ctl160 Tekstikorpusten tietojenkäsittely p.1/28

Korpusten käsittely clt131, P Luento 5

Korpusten käsittely clt131, P Luento 4

Ctl160 Tekstikorpusten tietojenkäsittely Kolmas luento,

Ctl160 Tekstikorpusten tietojenkäsittely Kolmas luento

Juha Henriksson. Digitaalinen äänentallennus Dr. Juha Henriksson Finnish Jazz & Pop Archive

AV-muotojen migraatiotyöpaja - ääni. KDK-pitkäaikaissäilytys seminaari / Juha Lehtonen

XML prosessori. XML prosessointi. XML:n kirjoittaminen. Validoiva jäsennin. Tapahtumaohjattu käsittely. Tapahtumaohjattu käsittely.

Korpusten käsittely clt131, P Luento 3

Korpusten käsittely clt131, P Luento 1

Ctl160 Tekstikorpusten tietojenkäsittely p.1/24

CLT131 Korpusten käsittely (3op)

Ctl160 Tekstikorpusten tietojenkäsittely

CLT131: Tekstityökalut 2010, toinen luento

Asialista. hippu ja.bashrc. Asialista. Tutkimusongelma: tekstin morfologisen jäsennyksen selvittely

C-kasetin digitointi Audacity-ohjelmalla

LP-levyn digitointi Audacity-ohjelmalla

LP-levyn digitointi Audacity-ohjelmalla

CLT131 Korpusten käsittely

LP-levyn digitointi Audacity-ohjelmalla

Puhenäytteiden mittailusta puhekorpuksen perkuuseen: kalastelua mato-ongella ja verkoilla. Mietta Lennes FIN-CLARIN / Helsingin yliopisto

Avokelanauhan digitointi Audacity-ohjelmalla

LUE ENSIN KOKO OHJE LÄPI JA KYSY NEUVOA! 5. Klikkaa Audacity-ohjelmassa mikrofonikuvakkeen vieressä tekstiä Napsautus käynnistää seurannan.

C-kasetin digitointi Audacity-ohjelmalla

Audacity-äänenkäsittelyohjelman pikakäyttöohje

C-kasetin digitointi Audacity-ohjelmalla

Äänitiedostoista. 1 Äänen tallentaminen

Selkosanakirja sdfghjklöäzxcvbnmqwertyuiopåasdfghjklöäzxcvbnmq. Tietokoneet. wertyuiopåasdfghjklöäzxcvbnmqwertyuiopåasdfghjk 1.4.

Mono- ja stereoääni Stereoääni

Onnittelut PRO-JECT-DA-muuntimen hankkimisesta. Lue huolellisesti tämä ohje, jotta kytket laitteen oikein ja saat siten parhaan äänenlaadun.

Lataa Rentouden aalloilla (cd) - Satu Pusa. Lataa

Asiakkaan lisätietokentät

Lataa Lintu ja ääni (+cd) - Riku Cajander. Lataa

Asentaminen Android-laitteeseen

Puhesynteesin perusteet Luento 4: difonikonkatenaatio

Analyysi on helpointa aloittaa painamalla EDIT-painiketta. (Tuotu tiedosto täytyy olla aktiivinen eli valittuna).

Marantz PMD661. Äänittäminen

Tiistai klo Jari Eerola

A DIAARIT JA PÄIVÄKIRJAT. Aa Saapuneiden kirjeiden diaarit. Saapuneiden kirjeiden diaarit. Ab Lähetettyjen kirjeiden diaarit

OFFICE 365 OPISKELIJOILLE

ELOKUVATYÖKALUN KÄYTTÖ ANIMAATION LEIKKAAMISESSA. Kun aloitetaan uusi projekti, on se ensimmäisenä syytä tallentaa.

Äänikirjojen kuvailuohje

CLT131: Tekstityökalut 2011, viides luento

Kieliteknologian ATK-ympäristö Toinen luento

Tekstieditorin käyttö ja kuvien käsittely

Settings-sivun kautta on mahdollista muokata Kirjastokarttapalveluun liittyviä kirjastokohtaisia asetuksia.

YLÄ JA ALATUNNISTE...

Julkaiseminen verkossa

MINI-DISK. 1. MINI-DISK levykkeen asentaminen levyke-asemaan

Vahvistava kaulasilmukka sisäänrakennetulla äänen vahvistimella. Sopii käytettäväksi puhelimien ja audiolaitteiden kanssa.

numerot + euro, euroa, euron, sentti, senttiä + sataa + tuhat, tuhatta

SONY MZ-R700 MiniDisc-tallennin

Bc Tariffiyksikkökirjoja muuntopiireittäin ja järjestysnumeroittain

MrSmart 8-kanavainen lämpötilamittaus ja loggaus, digitoija ja talletusohjelma

ALCOVISOR. Käyttöohjeet FIN

Tutustu Daisy-soittimeen!


OHJE 1 (14) Peruskoulun ensimmäiselle luokalle ilmoittautuminen Wilmassa

Kieliteknologian ATK-ympäristö Kuudes luento

Puhesynteesin perusteet: Lingvistinen esikäsittely

Office ohjelmiston asennusohje

ADOBE CONNECT PRON GUEST KÄYTTÖOHJE Mari Jokiniemi. Sisällysluettelo

Puhelinnumeroiden lataaminen laitteesta tietokoneelle

EMVHost Online SUBJECT: EMVHOST ONLINE CLIENT - AUTOMAATTISIIRROT COMPANY: EMVHost Online Client sovelluksen käyttöohje AUTHOR: DATE:

Fixcom Webmail ohje. Allekirjoitus. Voit lisätä yhden tai useamman allekirjoituksen.

YHTEYDEN OTTAMINEN CSC:N KONEELLE HIPPU

Puhesynteesin perusteet Luento 5: unit selection -synteesi

Kieliteknologian ATK-ympäristö Kolmas luento

Windows 10 käyttöjärjestelmän helppokäyttötoiminnot ja asetukset

Discendum Oy

Miten siirrän omat työni Office 365:stä Peda.nettiin sekä jaan sen siellä muille Eija Arvola

XML tehtävien työnkulku

Luento 1 Tietokonejärjestelmän rakenne

Luento 1 Tietokonejärjestelmän rakenne. Järjestelmän eri tasot Laitteiston nopeus

DOORSin Spreadsheet export/import

Tuotetiedot C: Asennus

Ohjeet C-kasettien digitoimiseen

Kuvan ottaminen ja siirtäminen

Kielellisen datan käsittely ja analyysi tutkimuksessa

ARVO - verkkomateriaalien arviointiin

Tallennus ja tiedostot

Tentti erilaiset kysymystyypit

SONY MZ-N707 MiniDisc-tallennin

Visma Avendon asennusohje

Algoritmit. Ohjelman tekemisen hahmottamisessa käytetään

MEM-O-MATIC järjestelmä

Skype for Business ohje

Kielipankki ja FIN-CLARIN

Metallinen puutarhavaja

Tentti erilaiset kysymystyypit

Kuvaruudun striimaus tai nauhoitus. Open Broadcaster Software V.20. Tero Keso, Atso Arat & Niina Järvinen (muokattu )

Toteutus. Kun joku saa bingon, eli rastisuoran, hän voi huutaa bingo tai näyttää seuraavan sivun bingo-sanaa.

Audio- ja videotiedostoja sisältävän PowerPoint-esityksen pakkaaminen

Lataa Sigma 1. Lataa. Lataa kirja ilmaiseksi suomalainen Sigma 1 Lataa Luettu Kuunnella E-kirja Suomi epub, Pdf, ibook, Kindle, Txt, Doc, Mobi

Kuvaruudun striimaus tai nauhoitus. Open Broadcaster Software V.20. Tero Keso, Atso Arat, Niina Järvinen & Valtteri Virtanen (muokattu 20.2.

Transkriptio:

Ctl160 490160-0 Viides luento Nicholas Volk Yleisen kielitieteen laitos, Helsingin yliopisto Ctl160 490160-0Viides luento p.1/13

Merkkien esittäminen tietokoneella Kaikkia merkkejä ei aina pysty syöttämään näppäimistöltä Merkeillä on käytetyn merkkistandarin (mm. ISO-8859-1 ja Unicode) mukaiset numeeriset arvot ISO-8859-perheen 128 ensimmäistä merkkiä ovat kaikissa samat (7-bittinen ASCII-merkistö), loput 128 merkkiä ovat sisällöltään erilaisia. Esim. ISO-8859-1 sisältää meille rakkaat ääkköset. Aakkoset menevät (käytännössä) aina oikein. Ääkköset näkynevät väärin eri merkkistandardia käytettäessä. Nicholas Volk p.2/13

Oktaali- ja heksaluvut Käskyn tr 012 osa tarkoittaa Line Feed -näppäintä eli Unixin rivinvaihtomerkkiä. Esim. järjestelmistä. 012 on oktaalikuku, joka 007 on piip-ääni ainakin ASCII-pohjaisissa Perlissä voi viitata merkkiin myös heksalukuna (16-järjestelmä) Tällöin kenoviivan perään laitetaan x ja kaksinumeroinen heksaluku ([0-9A-F]): $ perl -pe tr/ba/ AB BA $ x41 102/; Nicholas Volk p.3/13

Puhekorpukset Puhetta voidaan esittää myös tekstinä (esim. keskustelunanalyysi) Ihanteellisesti alkuperäinen puhe (äänisignaali) on nauhoitettu ja tallennettu digitaalisesti. Äänisignaaliin voidaan yhdistää tekstimuotoista tietoa esim. äänne-, sana- ja lausekerajoista. Nicholas Volk p.4/13

Keskustelunanalyysi http://www.helsinki.fi/hum/skl/ca/ Itse suhtaudun (maallikkona) kriittisesti: joitain asioita merkitään erittäin tarkasti, joitakin ilmiöitä en ole näkemissä analyyseissa nähnyt merkittävän ollenkaan (esim. alkukahdennus). Käytetyn notaation (ks. yllä oleva linkki) saaminen esittäminen raakatekstinä hankalaa. http://childes.psy.cmu.edu/manuals/chat.p (Kai näilläkin joku XML on, mutta suomalaiset sivu eivät sitä tunne.) Nicholas Volk p.5/13

Puheen visualisointi - Praat Praat (http://www.praat.org) on erittäin monipuolinen Vastaavasti laajuutensa takia aluksi vaikea hahmottaa Mahdollistaa omien skriptien käytön Puheen äänne- tms. rajat ym. informaatio voidaan merkitä ja tallettaa TextGrid-nimiseen tietorakenteeseen. Mietta Lennes on pitänyt Praat-kursseja laitoksella Nicholas Volk p.6/13

Puheen visualisointi - Wavesurfer Wavesurfer (http://www.speech.kth.se/wavesurfer/) on kevyempi ja intuitiivisempi Alunperin niin intuitiivinen, ettei sille ole kirjoitettu käyttöohjetta, vaikka ohjelma onkin ajan myötä monipuolistunut, Tämän päälle on rakennettu mm. CSC:n Puh-editori http://www.csc.fi/kielipankki/puhe/ CSC:ltä löytyy myös puheaineistoja: http://www.csc.fi/kielipankki/aineistot/puhe.phtml Nicholas Volk p.7/13

Wavesurferin käyttö Ei toimi palvelimilta (HY:n venus), koska etäyhteyden palvelin ei voi tunkea ääntä paikallisen koneen äänikorttiin. wavesurfer äänitiedosto (tiedoston voi toki valita ohjelman sisältäkin). Choose configuration -valikosta meille sopii kohta Speech analysis. Se avaa kuvan aaltomuodosta, spektogrammin (formanttien kera) ja näkymyksensä puheen sävelkulusta. Nicholas Volk p.8/13

Ääniformaatit Tiedostopäätteitä: au, ogg, mp3, raw, snd, wav (riff) ja lukemattomia muita. Äänidata vie paljon levytilaa, joten osa formaateista pakkaa ääntä usein tietoa hävittäen, esim. Mp3. WAV yleisin, siitä eri muotoja, jotka kerrotaan tiedoston otsakkeessa (header) Ihmiskorva ei kuitenkaan välttämättä kuule eroa. Samaten näytteenottotaajuus voi vaihdella (CD-levy: 44100 näytettä). Samaten äänelle voi olla monta eri kanavaa (mono, stereo...) Nicholas Volk p.9/13

Ääniformaatit (2) Näytteenottotaajuus/2 on korkein tallentuva hertsimäärä, CD:llä siis 22050. Ihmiskorva ei kuitenkaan yleensä kuule läheskään näin korkeita ääniä. Lankapuhelimen kaista n. välillä 300-3000 hertsiä, joten puhelimeen on turha soittaa mitään 6000:tta näytettä sekunnissa suurempaa. Puhelimessa käytetään mm. -LAW (eli u-law tai mu-law) ja A-LAW -muotoista. Nämä ovat WAV/RIFF-formaatin kompressoituja muotoja. Nicholas Volk p.10/13

Susanne-korpuksen rakenne http://clwww.essex.ac.uk/w3c/corpus_ling/content/corpora/list/ public/susanne.html G01:0010b JJ NORTHERN northern [O[S[Np:s. G01:0010c NN2 liberals liberal.np:s] G01:0010d VBR are be [Vab.Vab] G01:0010e AT the the [Np:e. G01:0010f JB chief chief. G01:0010g NN2 supporters supporter. G01:0010h IO of of [Po. G01:0010i JJ civil civil [Np. G01:0010j NN2 rights right.np] Nicholas Volk p.11/13

Susanne-korpuksen rakenne G01:0010b JJ NORTHERN northern [O[S[Np:s. Kentät ovat sarkain-merkein ( t) erotetut. Field 1: text references Field 2: Part of speech tags (morfologinen tulkinta) Field 3: The text words (saneet) Field 4: Base form (lemma) Field 5: Syntactic annotation [ viittaa jonkin syntaktisen kokonaisuuden alkuun, ] vastaavasti loppuun Nicholas Volk p.12/13

Connexorin FDG-jäsentimen tulostusta Connexorinkin jäsentimen antama tekstituloste on selkeä: 1. Saneen sijainti lauseessa 2. Sane 3. Lemma 4. Funktionaalinen dependenssi 5. Pintasyntaktinen tagi ja morfologinen analyysi Kentät on erotettu sarkainmerkein Kenttä 4 voi olla myös tyhjä! Kenttä 5 voi olla moniselitteinen, jokaisella tulkinnalla oma kenttä! Eli kutakin sanetta kohden on 5+ kenttää! (Yleensä 5) Nicholas Volk p.13/13