Ctl160 490160-0 Viides luento Nicholas Volk Yleisen kielitieteen laitos, Helsingin yliopisto Ctl160 490160-0Viides luento p.1/13
Merkkien esittäminen tietokoneella Kaikkia merkkejä ei aina pysty syöttämään näppäimistöltä Merkeillä on käytetyn merkkistandarin (mm. ISO-8859-1 ja Unicode) mukaiset numeeriset arvot ISO-8859-perheen 128 ensimmäistä merkkiä ovat kaikissa samat (7-bittinen ASCII-merkistö), loput 128 merkkiä ovat sisällöltään erilaisia. Esim. ISO-8859-1 sisältää meille rakkaat ääkköset. Aakkoset menevät (käytännössä) aina oikein. Ääkköset näkynevät väärin eri merkkistandardia käytettäessä. Nicholas Volk p.2/13
Oktaali- ja heksaluvut Käskyn tr 012 osa tarkoittaa Line Feed -näppäintä eli Unixin rivinvaihtomerkkiä. Esim. järjestelmistä. 012 on oktaalikuku, joka 007 on piip-ääni ainakin ASCII-pohjaisissa Perlissä voi viitata merkkiin myös heksalukuna (16-järjestelmä) Tällöin kenoviivan perään laitetaan x ja kaksinumeroinen heksaluku ([0-9A-F]): $ perl -pe tr/ba/ AB BA $ x41 102/; Nicholas Volk p.3/13
Puhekorpukset Puhetta voidaan esittää myös tekstinä (esim. keskustelunanalyysi) Ihanteellisesti alkuperäinen puhe (äänisignaali) on nauhoitettu ja tallennettu digitaalisesti. Äänisignaaliin voidaan yhdistää tekstimuotoista tietoa esim. äänne-, sana- ja lausekerajoista. Nicholas Volk p.4/13
Keskustelunanalyysi http://www.helsinki.fi/hum/skl/ca/ Itse suhtaudun (maallikkona) kriittisesti: joitain asioita merkitään erittäin tarkasti, joitakin ilmiöitä en ole näkemissä analyyseissa nähnyt merkittävän ollenkaan (esim. alkukahdennus). Käytetyn notaation (ks. yllä oleva linkki) saaminen esittäminen raakatekstinä hankalaa. http://childes.psy.cmu.edu/manuals/chat.p (Kai näilläkin joku XML on, mutta suomalaiset sivu eivät sitä tunne.) Nicholas Volk p.5/13
Puheen visualisointi - Praat Praat (http://www.praat.org) on erittäin monipuolinen Vastaavasti laajuutensa takia aluksi vaikea hahmottaa Mahdollistaa omien skriptien käytön Puheen äänne- tms. rajat ym. informaatio voidaan merkitä ja tallettaa TextGrid-nimiseen tietorakenteeseen. Mietta Lennes on pitänyt Praat-kursseja laitoksella Nicholas Volk p.6/13
Puheen visualisointi - Wavesurfer Wavesurfer (http://www.speech.kth.se/wavesurfer/) on kevyempi ja intuitiivisempi Alunperin niin intuitiivinen, ettei sille ole kirjoitettu käyttöohjetta, vaikka ohjelma onkin ajan myötä monipuolistunut, Tämän päälle on rakennettu mm. CSC:n Puh-editori http://www.csc.fi/kielipankki/puhe/ CSC:ltä löytyy myös puheaineistoja: http://www.csc.fi/kielipankki/aineistot/puhe.phtml Nicholas Volk p.7/13
Wavesurferin käyttö Ei toimi palvelimilta (HY:n venus), koska etäyhteyden palvelin ei voi tunkea ääntä paikallisen koneen äänikorttiin. wavesurfer äänitiedosto (tiedoston voi toki valita ohjelman sisältäkin). Choose configuration -valikosta meille sopii kohta Speech analysis. Se avaa kuvan aaltomuodosta, spektogrammin (formanttien kera) ja näkymyksensä puheen sävelkulusta. Nicholas Volk p.8/13
Ääniformaatit Tiedostopäätteitä: au, ogg, mp3, raw, snd, wav (riff) ja lukemattomia muita. Äänidata vie paljon levytilaa, joten osa formaateista pakkaa ääntä usein tietoa hävittäen, esim. Mp3. WAV yleisin, siitä eri muotoja, jotka kerrotaan tiedoston otsakkeessa (header) Ihmiskorva ei kuitenkaan välttämättä kuule eroa. Samaten näytteenottotaajuus voi vaihdella (CD-levy: 44100 näytettä). Samaten äänelle voi olla monta eri kanavaa (mono, stereo...) Nicholas Volk p.9/13
Ääniformaatit (2) Näytteenottotaajuus/2 on korkein tallentuva hertsimäärä, CD:llä siis 22050. Ihmiskorva ei kuitenkaan yleensä kuule läheskään näin korkeita ääniä. Lankapuhelimen kaista n. välillä 300-3000 hertsiä, joten puhelimeen on turha soittaa mitään 6000:tta näytettä sekunnissa suurempaa. Puhelimessa käytetään mm. -LAW (eli u-law tai mu-law) ja A-LAW -muotoista. Nämä ovat WAV/RIFF-formaatin kompressoituja muotoja. Nicholas Volk p.10/13
Susanne-korpuksen rakenne http://clwww.essex.ac.uk/w3c/corpus_ling/content/corpora/list/ public/susanne.html G01:0010b JJ NORTHERN northern [O[S[Np:s. G01:0010c NN2 liberals liberal.np:s] G01:0010d VBR are be [Vab.Vab] G01:0010e AT the the [Np:e. G01:0010f JB chief chief. G01:0010g NN2 supporters supporter. G01:0010h IO of of [Po. G01:0010i JJ civil civil [Np. G01:0010j NN2 rights right.np] Nicholas Volk p.11/13
Susanne-korpuksen rakenne G01:0010b JJ NORTHERN northern [O[S[Np:s. Kentät ovat sarkain-merkein ( t) erotetut. Field 1: text references Field 2: Part of speech tags (morfologinen tulkinta) Field 3: The text words (saneet) Field 4: Base form (lemma) Field 5: Syntactic annotation [ viittaa jonkin syntaktisen kokonaisuuden alkuun, ] vastaavasti loppuun Nicholas Volk p.12/13
Connexorin FDG-jäsentimen tulostusta Connexorinkin jäsentimen antama tekstituloste on selkeä: 1. Saneen sijainti lauseessa 2. Sane 3. Lemma 4. Funktionaalinen dependenssi 5. Pintasyntaktinen tagi ja morfologinen analyysi Kentät on erotettu sarkainmerkein Kenttä 4 voi olla myös tyhjä! Kenttä 5 voi olla moniselitteinen, jokaisella tulkinnalla oma kenttä! Eli kutakin sanetta kohden on 5+ kenttää! (Yleensä 5) Nicholas Volk p.13/13