Symbolinen representaatio Vfo 254: Puhekorpusten käsittely: Puhekorpusten lingvistinen representaatio Martti Vainio Puhekorpuksen tutkimininen on mahdollista vain symbolisen representaation kautta näytteistettyä puhetta ei sellaisenaan voi tutkia. Kaikki korpuksen representaatiot ovat jonkinlaisen analyysin tai luokittelun tulosta. Representaatiot eivät itse ole puhetta, vaan abstraktioita! Yleensä symbolinen representaatio tarkoittaa transkriptioita, joita käytetään niin foneettisessa kuin sosiologisessakin tutkimuksessa. Käytetyn transkription tyyppi riippuu hyvin paljon, siitä mihin tarkoitukseen se on tehty. Näin ollen niiden taso ja tarkkuus vaihtelevat suuresti. Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 1 Transkription tarkkuus Suuria korpuksia on mahdotonta annotoida kovin tarkasti tarkka foneettinen segmentointi vaatii paljon taitoa ja aikaa. Yleensä suuret (spontaania puhetta) sisältävät korpukset on annotoitu vain ortografisesti (ATIS, Switchboard). Pienemmät korpukset voidaan kuitenkin analysoida ja annotoida tarkemmin segmentaalisin merkein ja jopa segmentoiden äännetasolla (TIMIT, PhonDAt). Ortografinen translitteraatio voidaan myöhemmin muuntaa ns. kanoniseen foneemiseen muotoon vaikkapa grafeemi-foneemi -säännöin. On huomattu, että luotettavien foneettisten transkriptioiden tekeminen suurille korpuksille ei ole mahdollista. Luetun vs. spontaanin puheen transkripointi Luetun puheen pohjana on kirjoitettu teksti spontaanille puheelle teksti täytyy tuottaa jälkikäteen. Spontaanin puheen luovuus aiheuttaa monia merkittäviä piirteitä, jotka erottavat sen luetusta puheesta: se on täynnä taukoja, väärin lausuttuja sanoja, vääriä aloituksia ja toistoa. Riippuen tilanteesta, spontaani puhe sisältää myös ns. puhekielisiä, epästandardeja muotoja ja reduktiota, jolloin jopa kokonaiset sanat voivat kadota. Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 2 Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 3
Dialogin transkripoiminen Ilmaus spontaanissa ja luetussa puheessa Eräs tärkeä erottava piirre spontaanin ja lukupuhunnan välillä on ilmauksen (utterance) määritteleminen: lukupuhunnassa ilmaukset yleensä korreloivat lauseiden tai virkkeiden kanssa, spontaanissa näin ei tietenkään voi olla. Spontaanin puheen suhteen joudutaan yleensä tarkasti määrittelemään ilmaukset: dialogissa ne liittyvät useinmiten (puheen)vuoroihin; monologeissa ilmaus määritellään usein taukojen rajaamaksi intervalliksi, jolla on jonkinlainen syntaktinen, semanttinen, pragmaattinen ja prosodinen rakenne. Puhujien välisessä keskustelussa on usein keskeytyksiä, jotka voivat olla kokonaisia ilmauksia tai vaikkapa affirmatiivisiä yhden sanan tai äänteen muodostamia; joo tai hmm. Yleensä keskeytykset tapahtuvat samanaikaisesti muun puheen kanssa päällekkäispuhunta tulee merkitä annotointeihin. Ortografisessa transkriptiossa voidaan käyttää esim. Switchboardin tapaan #-symbolia: A: # Right, bye # B: # Bye bye # Useamman kuin kahden puhujan kanssa tilanne monimutkaistuu ja voidaan käyttää esim. ns. partituurinotaatiota (engl. score). Esim. Praatin TextGrid. Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 4 Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 5 Transkription tasot ja tyypit Transkription tasot ja tyypit Transkriptioden tyypit Transkriptiot ja niistä tuotetut representaatiot Tärkein ero on itse transkriptioden ja niiden avulla tuotettujen muiden representaatioden välillä: Transkriptoita tehdessä joudutaan aina joko manuaalisesti tai koneellisesti monitoroimaan puhesignaalia. Transkriptioista tuotettujen representaatioiden suhteen puhesignaalia ei välttämättä tarvita: tällaiset representaatiot voivat olla esim. ortografiasta tuotetut fonologiset, morfologiset, syntaktiset yms. analyysit. Transkriptiot voidaan jakaa seuraaviin tyyppeihin, jotka kaikki voidaan kohdentaa puhesignaaliin: 1. Translitteraatiot (engl. script); esim. tuomioistuinten tallenteet 2. Ortografiset transkriptiot 3. Morfologiset, syntaktiset, semanttiset ja pragmaattiset representaatiot 4. Foneemiset (sitaatiomuotoiset) representaatiot 5. Karkeat (engl. broad) foneettiset transkriptiot 6. Tarkat (engl. narrow) foneettiset transkriptiot 7. Akustis-foneettiset transkriptiot 8. Fyysiset transkriptiot 9. Prosodiset transkriptiot Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 6 Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 7
Segmentointi ja nimikointi Segmentoinnilla tarkoitetaan puhesignaalin jakamista ei-päällekkäisiin osiin, jotka vastaavat tiettyjä lingvistisiä tai fyysisiä yksiköitä. Nimikointi (engl. labeling) tarkoittaa segmentoitujen kappaleiden nimeämistä fyysisesti tai lingvistisesti määritetyillä symboleilla. Rajatut segmentit voivat olla monen tyyppisiä riippuen korpuksen käyttötarkoituksesta. Yleisesti suositellaan ainakin seuraavia tasoja: ortografinen foneettinen tarkka foneettinen Varoituksen sana Puheen käsittäminen lineaariseksi sekvenssiksi erilaisia yksiköitä on mukavuussyistä kehitetty fiktiivinen harha. Esim. monien äänteiden väliset rajat ovat hyvinkin vaikeita paikantaa vokaalit vs. puolivokaalit, vokaalit vs. vokaalit. Toisaalta konsonanttien identiteetti ääntymäpaikan suhteen on koodattuna sitä ympäröivissä vokaaleissa jne. Näin ollen puhetta ei voida käsitellä jonona diskteettejä äänteitä tai muitakaan yksiköitä äänteellinen segmentointi on kuitenkin tiettyyn pisteeseen saakka täysin mahdollista ja arbitraarinen raja on parempi kuin ei mitään. Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 8 Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 9 CRIL konventiot CRIL (Computer Representation of Individual Languages) määriteltiin IPA:n 1989 Kielin konventiossa ja koostuu kahdesta osasta: 1. IPA-kategorioiden mappaus standardeihin IPA-numeroihin ja symbolien nimiin. 2. Puheentuoton representoimiseen kolmella distinktiivisellä tasolla. Ensimmäisen osan tarkoitus on on laajentaa IPA:n deskriptiivisten kategoroiden ja symbolien sekä tarkkeiden (diakriittien) käyttöä kuvaamaan normaalia ja häiriintynyttä puheentuottoa. Toinen CRILin komponentti pyrkii puheentuoton standardoituun representaatioon. CRILin kolme transkriptiotasoa CRILissä on kolme systemaattista ja distinktiivistä tasoa, jotka pyrkivät spesifioimaan jotain, jota voitaisiin kutsua puheen tekstiksi : 1. Ortografinen taso: puhutun tekstin ortografinen representaatio. 2. Foneettinen taso: sanojen täydelliset (redusoimattomat) foneettiset muodot; ns. sitaatiomuodot. 3. Kapea foneettinen taso: kapea foneettinen transkriptio, siitä, mitä oikeasti sanottiin. Vain viimeisellä tasolla voidaan foneettiset kategoriat suoraan assosioida signaaliin. Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 10 Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 11
Manuaalinen segmentointi Manuaalisella segmentoinnilla tarkoitetaan prosessia, jossa asiantuntija (esim. foneettisesti koulutettu transkripoija) segmentoi ja nimikoi puhesignaalia käsin. Manuaalista segmentointia ei voida koskaan kokonaan korvata automaatisilla tai puoli-automaattisilla menetelmillä menettämättä segmentoinnin tarkkuudessa. Manuaalisen segmentoinnin avulla varmistetaan myös segmentoitujen yksiköiden perkeptuaalinen validiteetti. Segmentoinnin tarkkuutta voidaan mitata mm. eri transkripoijien välisellä yhdenmukaisuudella; kunnolliseen yksimielisyyteen (> 90 %) päästään vain ns. helppojen yksiköiden suhteen (frikatiivit, lateraalit ja nasaalit). Automaattinen ja puoliautomaattinen segmentointi Automaattinen segmentointi tarkoittaa koko segmentointiprosessin suorittamista automaattisesti esim. HMM-pohjaisen tunnistimen avulla. Puoliautomaattisella segmentoinnilla tarkoitetaan prosessia, jossa automaattisen segmentoinnin tulos tarkistetaan ja korjataan käsin. Automatisoitua segmentointia tarvitaan suurten korpusten tekemiseen, mutta sen antama tarkkuus jättää toivomisen varaa. Virheitä voi sattua monella tasolla: järjestelmälle annettu symbolijono on väärä tai järjestelmä ei yksinkertaisesti löydä sopivaa rajaa signaalista. Toisaalta, järjestelmien ns. frame-koko on usein liian suuri, jotta päästäisiin tarpeelliseen tarkkuuteen. Automaattisten segmentointijärjestelmien tarkkuutta voidaan mitata vertaamalla niiden tuotosta manuaaliseen segmentointiin. Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 12 Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 13 Ortografinen transkriptio Ortografisella transkriptiolla tarkoitetaan kielen standardikirjoitusasun mukaista asua. Translitteraatiot ja ns. skriptit Luetun puheen suhteen yksinkertaisin ja nopein taso annotaatioissa on ortografinen muoto, joka on helposti saatavilla; esim. radiouutiset. Useinmiten taso on kuitenkin riittämätön ja tarvitaan muitakin tasoja. Ortografista transkriptiota käytetään (etenkin suurissa korpuksissa) silloin kun tarkempaa tietoa puheentuotosta ei tarvita. Standardin kirjoitusasun käyttö tarkoittaa, että representaation ja puhutun välillä täytyy tehdä kompromissi, joka on erityisen suuri spontaanin puheen kohdalla ja esim. voidaan käyttää redusoituneita muotoja (für den fürn) ja kirjoitettua murretta. Vastaavasti numerot ja lyhenteet voidaan kirjoittaa auki. Myös interjektioiden yms. kirjoituksessa käytetään standardia, ja jos sellaiste ei ole, sovitaan niiden kirjoituksesta erikseen. Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 14 Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 15
Morfologiset, syntaktiset, semanttiset ja pragmaattiset representaatiot Korpukset voidaan myös merkitä tai tagata lingvistisesti foneemisen tason yläpuolisilla yksiköillä. Tällaiset representaatiot ovat tärkeitä esim. tutkittaessa syntatkisen rakenteen suhdetta prosodiaan. Syntaktisella tasolla voidaan merkitä esim. lause- ja lausekerajat, yhdyssanojen sisäiset rajat jne. Lingvistiset representaatiot johdetaan yleensä automaattisten jäsentimien ym. avulla ortografisista transkriptioista. Foneemiset (sitaatiomuotoiset) representaatiot Sisältää yleensä ortografian avulla tehdyn foneemijonon. Foneemien symboleina käytetään yleensä jotain IPA:n numeerista tai ASCII -muotoa. Euroopan kielille on määritelty SAMPA-aakkosto, josta voidaan edelleen määritellä ala-aakkostot kielikohtaisesti. Sampan etu on yksi grafeemi per foneemi, jolloin foneemisekvenssi voidaan kirjoittaa ortografian lailla yhteen. Toinen ASCII-muotoinen representaatio IPAsta on Worlbet, joka on hiukan IPAa laajempi vaatii kuitenkin usein kaksi merkkiä per foneemi. Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 16 Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 17 Tarkat (engl. narrow) foneettiset transkriptiot Karkeat (engl. broad) foneettiset transkriptiot Karkealla foneettisella tasolla voidaan kuvata jo sellaisia ilmiöitä, kuin assimilaatio tai vokaalien reduktio. Tasoa kutsutaan joskus fonotyyppiseksi (Autesserre, 1989) ja se voidaan tuottaa automaattisesti fonologisten sääntöjen avulla foneemisesta kuvauksesta. Näin ollen tämäkään taso ei vielä välttämättä vaadi suoraa viittausta puhesignaaliin, mutta käytännössä tämä taso jää usein alimmaksi ja yksiköt kohdennetaan signaaliin. Tällä tasolla symbolien määrä on vielä rajallinen ja taso sopiikin myös suurten tietokantojen annotointiin. Ensimmäinen representaatiotaso, jossa transkripoija ei voi välttyä kuuntelemasta itse signaalia. Kapea foneettinen tarkekirjoitus pyrkii kuvaamaan, sitä mitä puhuja todella sanoi tuottaessaan ilmauksen. Työ on manuaalista ja kasvattaa tietokannan luomiseen tarvittavien resurssien määrää huomattavasti. Tarvittavien symbolien inventaario kasvaa kun tarvitaan symboleita myös sellaisille äänteille, joilla ei ole foneemista statusta kielessä; esim. glottaaliklusiili ja aspiraatio suomessa. Tarkkojen rajojen asettaminen on kuitenkin usein ongelmallista, mutta keskimääräinen lopputulos on melko tarkka kuva puheesta. Usein riittää, että vain osa korpuksesta on kuvattu tällä tarkkuudella. Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 18 Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 19
Akustis-foneettiset transkriptiot Tällä tasolle erotellaan kaikki akustisesti joko aaltomuodosta tai spektrogrammista erottuvat osat. Tällaisiin kuuluvat mm. klusiilien sulkeumat, eksploosiot ja aspiraatiot sekä vokaalien glottaaliset alukkeet ja nasaalien sekä frikatiivien mahdolliset soinnilliset osat. Nimikointi tehdään suhteessa selkeisiin artikulatorisiin kategorioihin, jotka voidaan edelleen helposti suhteuttaa lingvistisiin yksiköihin. Fyysiset transkriptiot Kaikista kuvaustasoista yksityiskohtaisin. Voidaan liittää myös muihin kuin akustisiin signaaleihin: esim. palatografin signaaleihin tai videkuvaan multimodaalisissa tietokannoissa. Fyysiset tapahtumat voivat olla joko diskreettejä tai päällekkäisiä ajan suhteen ja jokainen parametri kuvataankin omalla kanavallaan tai rivillään. Toistaiseksi fyysisiä transkriptioita käytetään vähän, mutta tulevaisuuden luonnollisuutta vaativat aplikaatiot vaativat niiden olemassaoloa. Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 20 Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 21 Prosodiset transkriptiot Seuraava luento! Vfo254: Puhekorpusten käyttö Martti Vainio HY - Fonetiikan laitos Kalvo 22