Puhekorpukseet. Puhekorpukset ja puhetietokannat. Puhekorpus. Martti Vainio



Samankaltaiset tiedostot
Vfo254: Puhekorpusten käyttö

Vfo254: Puhekorpusten käyttö

Vfo254: Puhekorpusten käyttö. Puhekorpusten lingvistinen representaatio. Yleistä. Symbolinen representaatio. Martti Vainio. Transkription tarkkuus

Yhdyssana suomen kielessä ja puheessa

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

Suomen prosodian variaation tutkimuksesta

FONETIIKKA SUULLISEN KIELITAIDON ARVIOINNISSA

Puhutun ja kirjoitetun rajalla

Prosodian havaitsemisesta: suomen lausepaino ja focus

Puhenäytteiden mittailusta puhekorpuksen perkuuseen: kalastelua mato-ongella ja verkoilla. Mietta Lennes FIN-CLARIN / Helsingin yliopisto

Puhe ja kommunikaatio

TTS. Puhesynteesi (tekstistä puheeksi, engl. text-tospeech,

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

Mitä suomen intonaatiosta tiedetään

Foneettiset symbolit

Puhesynteesi. Martti Vainio. 11. huhtikuuta 2003

FP1/Clt 120: Fonetiikan perusteet: artikulaatiotavat

Sanajärjestyksen ja intensiteetin vaikutus suomen intonaation havaitsemisessa ja tuotossa

Kieli ja viestinnän kokonaisuus

Puheenkäsittelyn menetelmät

Kielellisen datan käsittely ja analyysi tutkimuksessa

Teknillinen korkeakoulu T Tietojenkäsittelyopin ohjelmatyö. Testitapaukset - Koordinaattieditori

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

Ongelma(t): Miten jollakin korkeamman tason ohjelmointikielellä esitetty algoritmi saadaan suoritettua mikro-ohjelmoitavalla tietokoneella ja siinä

Johdatus rakenteisiin dokumentteihin

Tiedonhallinnan perusteet. Viikko 1 Jukka Lähetkangas

Sisällys. Sisällys. Esipuhe Äänteellisen kehityksen peruskäsitteet I Äänteellisen kehityksen edellytykset

Sisällönanalyysi. Sisältö

Ctl160 Tekstikorpusten tietojenkäsittely p.1/15

Signaalinkäsittely Musiikin sisältöanalyysi Rumpujen nuotinnos Muotoanalyysi Yhteenveto. Lectio praecursoria

Puhesynteesin perusteet Luento 5: unit selection -synteesi

Puhesynteesin perusteet Luento 4: difonikonkatenaatio

Suomen kielen variaatio 1. Puhuttu ja kirjoitettu kieli Suomen puhekielen vaihtelu

S Havaitseminen ja toiminta

Tilastotiede ottaa aivoon

Esimerkkejä vaativuusluokista

Laajennettu tiedonkäsitys ja tiedon erilaiset muodot

815338A Ohjelmointikielten periaatteet Harjoitus 2 vastaukset

Taulukot. Jukka Harju, Jukka Juslin

Tilastotiede ottaa aivoon

ELM GROUP 04. Teemu Laakso Henrik Talarmo

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

Alkukartoitus Opiskeluvalmiudet

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

Kaikki maksavat sanastotyöstä. Seija Suonuuti

Annotaatioon liittyvä ydinkäsitteistö

Edistyksen päivät, Helsinki. Voiko tutkija muuttaa maailmaa? Humanistista meta-analyysiä merkitysneuvottelevien koneiden avulla.

JHS 160 Paikkatiedon laadunhallinta Liite I: Esimerkkejä mitattavien laatutekijöiden osatekijöiden sovelluskohteista. 1. Johdanto...

Oppilas pystyy nimeämään englannin kielen lisäksi myös muita vieraita kieliä niitä kohdatessaan.

VHOPE-sovelluksen ja VHOPE-kirjastotiedostojen asentaminen

Treffit mönkään? Ääntämisen opetuksesta ja sen tärkeydestä. FT Elina Tergujeff, Jyväskylän yliopisto

Kieliohjelma Atalan koulussa

KUN LUKEMINEN ON HANKALAA. Helena Sorsa

Approbatur 3, demo 1, ratkaisut A sanoo: Vähintään yksi meistä on retku. Tehtävänä on päätellä, mitä tyyppiä A ja B ovat.

Tekstien ääniä. Tommi Nieminen Itä-Suomen yliopisto

Määrittelydokumentti

Onko empiirinen käänne vain empirian kääntötakki?

Lausuminen kertoo sanojen määrän

Kulttuuriset käytännöt opetuksessa ja oppimisessa Marianne Teräs

Digitaaliset tarinat

Lukemaan ja kirjoittamaan oppiminen toisella kielellä

Mitä puhe on? Fonetiikan perusteet kieliteknologeille. Puheen analyysin viitekehys. Puhe ja Kommunikaatio. Puhe ja kommunikaatio (jatkoa)

Mitä puhe on? Fonetiikan perusteet kieliteknologeille

Cubase perusteet pähkinänkuoressa. Mikä Cubase on? Projektin aloitus

Miten opetan suomea? luento CIMO:ssa Comenius-apulaisopettajiksi lähteville Emmi Pollari

S Havaitseminen ja toiminta

Luova opettaja, luova oppilas matematiikan tunneilla

4. Lausekielinen ohjelmointi 4.1

Järjestelmäriippumattomia siivousohjeita

Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Puheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting

Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

JOHDATUS TEKOÄLYYN TEEMU ROOS

Evantia 360 Teen Start -taulusto

Laskennan rajoja. Sisällys. Meta. Palataan torstaihin. Ratkeavuus. Meta. Universaalikoneet. Palataan torstaihin. Ratkeavuus.

Matterport vai GeoSLAM? Juliane Jokinen ja Sakari Mäenpää

Automaattinen semanttinen annotointi

Kieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat

Ohjelmoinnin perusteet Y Python

Suorityskyvyn mittaaminen viittomakielisten videoiden sisältöanalyysissä. Ville Viitaniemi Tietojenkäsittelytieteen laitos 16.1.

Nimettömien tietojen lähettäminen Lenovolle

ESIOPETUS-1-2 LUOKKA OMA OPPIMISPOLKU

ATLAS.ti -ohjelma laadullisen analyysin tukena Miten me sitä on käytetty?

LAADULLISESTA SISÄLLÖNANALYYSISTÄ

Tutkimuksen alkuasetelmat

Ongelma 1: Onko datassa tai informaatiossa päällekkäisyyttä?

Tommi Nieminen. 35. Kielitieteen päivät Vaasa

KIELITIETEEN ELEKTRONINEN SANAST0: Hankkeen esittelyä. Sirpa Leppänen Jyväskylän yliopisto Kielten laitos/ englanti

Mikä muuttuu musiikin kuvailussa? (äänitteet ja nuottijulkaisut)

Järjestelmäriippumattomia siivousohjeita

Aineistot ja kenttä tänään

Yleistä säännöistä Mikä muuttuu musiikin kuvailussa? (äänitteet ja nuottijulkaisut) 0-alue: Sisältö- ja mediatyyppi Sisältötyyppi

Tiedon arvottaminen osana arkistointia

AAC -menetelmien sovellus kehitysvammahuoltoon. Kirsi Vainio

Mitä aivokuvantaminen kertoo kielen kehityksen ja lukemisen erityisvaikeuksista?

Arkkitehtuurikuvaus. Ratkaisu ohjelmistotuotelinjan monikielisyyden hallintaan Innofactor Oy. Ryhmä 14

11.4. Context-free kielet 1 / 17

Transkriptio:

Puhekorpukset ja puhetietokannat Puhekorpus Puhekorpukset Martti Vainio Määritelmä: Puhutun kielen korpus (engl. spoken language corpus) on mikä tahansa kokoelma puheäänitteitä, joka on tietokoneen luettavassa muodossa ja on annotoitu sekä dokumentoitu siten, että sitä voi käyttää yhä uudelleen organisaation sisällä (in-house) tai sen ulkopuolella. Näin ollen, esim. yleisradioiden tallenteet jäävät määritelmän ulkopuolelle. Määritelmä koskee siis, esim. joukkoa puhesignaali-, laryngografi- ja EMG-signaaleja, sillä ehdolla, että ne on sopivasti annotoituja ja dokumentoituja. Tavallisen äänisignaalin lisäksi voimme siis sisällyttää korpukseen kaikenlaisia muitakin, joko tallennettuja tai alkuperäisestä signaalista analysoituja, signaaleja: esim. video, aikakoodi, perustaajuuskäyrät jne. Puhekorpukseet HY - Yleisen kielitieteen laitos Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 1 Puhekorpukset ja puhetietokannat Puhekorpukset ja puhetietokannat Puhekorpus sisältää siis puhesignaalin lisäksi: Annotaatiot Tiedot puhujasta: ikä sukupuoli äidinkieli murretausta yms. Mahdollisimman paljon tietoa itse äänityksestä: Äänityspaikan sijainti ja laatu Mikrofoni ja tallennintyyppi Äänitysaika yms. Yllä oleva informaatio ei ehkä vaikuta kiinnostavalta, mutta se voi olla hyvinkin tärkeätä jossain myöhemmässä vaiheessa! Tyypillisesti puhekorpukset sisältävät seuraavia asioita: Digitoidut signaalit: akustinen puhesignaali, laryngografin signaali, röntgen data. Analyysien tulokset: FFT data, LPC data, perustaajuus- ja äänekkyysdata, formantit. Markkerit: äänihuuliperiodit, vokaalien alut. Kuvailut: puhujien kuvailut, äänitysolosuhteet. Annotaatiot: (engl. annotations/labels), ortografiset, foneemiset, foneettiset, prosodiset transkriptiot, puheenvuorot, topiikit... Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 2 Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 3

Puhekorpukset ja puhetietokannat Puhekorpuksen käyttöön saattaminen koostuu kolmesta vaiheesta: 1. Vaihe ennen äänityksiä = suunnittelu 2. Äänitysvaihe 3. Jälkikäsittelyvaihe = annotointi, analyysit Vaihe, ennen äänitystä sisältää seuraavat askeleet: 1. Korpuksen tarkoituksen määrittely 2. Korpuksen lingvistisen sisällön määrittely 3. Puhujien tyypin ja lukumäärän määrittely Puhekorpukset eroavat tekstikorpuksista ainakin kahdeksalla tavalla, jotka riippuvat seuraavista asioista: 1. puhe on katoavaista, teksti pysyvää, 2. puheen ja tekstin tuottoon kuluva aika ei ole sama, 3. virheiden rooli on erilainen, 4. kirjoitetut ja puhutut sanat eroavat toisistaan, 5. erilaiset tietorakenteet: ASCII vs. näytteistetty data, 6. syyt, jotka johtavat korpusten erilaisiin kokoihin, 7. kirjoitetun ja puhutan materiaalin laillisen statuksen erot, ja 8. kirjoitettu kieli on symbolista ja puhe fyysisesti mitattavaa jatkuvaa signaalia ajassa! Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 4 Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 5 1. Puhe on transienttia Puhe katoaa heti kun se on tuotettu: kirjoitus säilyy! Puhe on siis erikseen tallennettava sen kerääminen ei ole triviaali asia, kuten on (yleensä) laita kirjoitetun tekstin kanssa. 2. Puheentuottoon käytetty aika on vähäistä Puheentuottoon kulunut aika on yleensä puhumiseen kulunut aika. Puhe tuotetaan keskimäärin 120 180 sanaa minuutissa (englanti) tai n. 300 tavua minuutissa (suomi). Kirjoittamiseen käytetään yleensä huomattavasti enemmän aikaa. Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 6 Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 7

3. Puhe on täynnä virheitä Spontaanissa puheessa puhujan editointi on kuuluvaa ja jää mukaan tallenteeseen. Keskeytykset, hesitaatiot, toistot ja korjaukset ovat olennainen osa puhetta ja tulee säilyttää (spontaanin puheen) korpuksissa. Tekstikorpuksissa kirjoittajan suorittamat korjaukset ovat jo editoidut pois. Puhekorpuksissa suuntaus on kohti spontaania puhetta luettu laboratoriopuhe on väistymässä. 4. Sanat vaihtelevat foneettisesti Puhutut versiot ortografisesti identtisistä sanoista osoittavat yleensä suurta foneettista variaatiota sekä segmentaalisesti että prosodisesti. Sanat saattavat jopa kokonaan kadota tai jäädä vain jonkin segmentaalisen tai prosodisen vihjeen varaan: onko sinulla se onksuse. Erillään lausutut sanat ovat jatkuvaan puheeseen verrattuna hyvinkin erilaiset: kanoninen tai sitaatiomuoto. Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 8 Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 9 Näin ollen on tärkeää, että korpukseen tallennetaan ainakin kahden, mieluummin kolmen tasoista, symbolista kuvausta, joilla kaikilla on suhde akustiseen signaaliin: 1. Puhutut sanat erotetaan leksikaalisesti ortografisella tasolla. 2. Sanat tulisi esittää myös karkealla foneettisella kirjoituksella ns. sitaatiomuodoissaan, jotka voidaan tuottaa esim. automaattisella grafeemi-foneemi -konversiolla. 3. Todelliset foneettiset kuvaukset tulee tehdä ns. kapealla tarkekirjoituksella, jonka symbolit suhteutetaan ajallisesti signaaliin, joko manuaalisesti tai automaattisesti. 5. Tallennettu puhe on vain aikafunktioita Puhtaana datana, kirjoitetut tekstit koostuvat lähinnä merkeistä, jotka voidaan koodata joko 7, 8 tai 16 bittisinä ASCII- tai Unikoodimerkkeinä. Koodatut merkkijonot sisältävät jo sellaista informaatiorakennetta, joka ei ole läsnä puhesignaalissa. Puhesignaali ei sisällä eksplisiittisiä sanarajoja, pilkkuja, pisteitä, huutomerkkejä jne. Tallennettu puhesignaali on primäärisesti vain digitalisoituja aikafunktioita. Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 10 Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 11

6. Puhe vaatii paljon tilaa Tallennettu puhe vie huomattavasti enemmän tilaa kuin vastaava ASCII-muotoinen data. Kolmikirjaimen sana vie vain kolme tavua (byte) tilaa kun vastaava digitoitu, puhuttu sana vie huomattavasti enemmän. Kolme äännettä: 0.5 s, 16 bittisellä kvantisoinnilla ja 48 khz:n näyttenottotaajuudella kirjoitutun ja puhutun tallenteen suhteeksi tulee 1/16000! Toisaalta puhuttujen muotojen erilaisuus vaatii jokaisen sanan tallentamista useaan kertaan riippuen puhujasta, puhetyylistä. Näin ei kuitenkaan kovin usein tehdä. 7. Puhe tuo lisää laillisia ongelmia Yleensä kirjoitetut tekstit on jo julkaistu, jolloin niiden käyttö määräytyy olemassaolevien lakien ja säännöstöjen mukaan: lait voivat mutkistaa tai estää korpusten jakamisen käyttäjille. Puheen kannalta tilanne voi olla vieläkin mutkikkaampi: valmiiksi äänitetty materiaali voi tuottaa ylitsepääsemättömiä ongelmia, joista itse äänitettävällä materiaalilla selviää tekemällä puhujan kanssa sopimuksen ennen äänittämistä. Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 12 Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 13 8. Puhe on jatkuvaa! Digitoitu signaali ei itsessään sisällä minkäänlaisia kategorioita kuten on laita kirjoitetun ASCII-datan kanssa. Nykyisillä tekniikoilla ei ole periaatteessa edes mahdollista (varmasti) sanoa, onko jokin signaali puhetta vai ei: puhedatan kategorioiminen annotaatioiksi vaatii aina manuaalista käsittelyä ja inhimillistä tulkintaa. Toisaalta puhesingnaali sisältää relevanttia prosodista ja paralingvististä informaatiota, jota teksti ei sisällä. Foneettinen tutkimus Foneettiseen tutkimukseen kuuluvat kaikki puheeseen liittyvät tekijät: usein tutkimus vaatii tarkasti kontrolloitua ja systemaattista dataa jonka tutkijat joutuvat keräämään erikseen. Kiinnostus spontaania ja vähemmän kontrolloitua puhetta kohtaan on kuitenkin antanut foneetikoillekin mahdollisuuden käyttää jo valmiita korpuksia. Spontaanin puheen tilastollinen kuvaus vaatii kaiken lisäksi suuria määriä dataa, jonka keräämiseen ja annotointiin yksittäisellä tutkijalle ei ole mahdollisuuksia. Tämä lisää edelleen spontaanin puheen korpusten arvoa foneettisessa tutkimuksessa. Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 14 Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 15

Sosiolingvistinen tutkimus Sosiolingvistinen puheentutkimus on yleensä pohjautunut kolmella tavalla hankittuun dataan: 1. Kirjoitettujen kyselyiden avulla: esim. miten vastaajat mielestään lausuvat tietyn sanan. 2. Tutkijan observaatioiden pohjalta: esim. Labovin tutkimukset /r/:n ellipsiksestä New Yorkilaisilla puhujilla. Labov yksinkertaisesti kirjasi, onko puhujalla kyseistä äännettä tietyissä sanoissa. 3. Keräämällä puhekorpuksia: perkeptuaalista analyysiä on tuettu keräämällä korpuksia. Psykolingvistinen tutkimus Psykolingvistinen tutkimus on hyvin laajaa: se vaihtelee lapsen kielen oppimisen tutkimisesta aikuisten kielen ymmärtämisen liittyvien mentaalisten prosessien tutkimukseen aina kielen häiriöiden tutkimukseen. Yksi alue, jossa psykolingvistit ovat käyttäneet puhekorpuksia on ns. lipsahdusten tutkimus. Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 16 Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 17 Lapsen kielen kehitys Lapsen kielen kehitystä tutkitaan monilla eri tieteen aloilla, tutkimus voi olla: lingvististä sosiolingvististä psykolingvististä foneettista Kaikki osa-alueet hyötyvät puhekorpuksista, mutta toistaiseksi korpukset koostuvat lähinnä transkriptioista (CHILDES). Vieraan kielen oppiminen Vieraan kielen oppimista on jonkin verran tutkittu myös puhekorpuspohjaisesti, mutta toistaiseksi tutkimus on perustunut lähinnä transkriptioihin. Korpuksia voidaan käyttää esim. opetusmateriaalin tekemiseen. Kunnollisen spontaanin puheen elisitoiminen lapsilta on vaikeaa, mutta puhetta voidaan saada helposti esim. pelien avulla. Lapsen kielen kehittymistä kuvaavien korpusten on hyvä olla longitudinaalisia; ts. saman henkilön puhetta tulee tallentaa eri kielen kehityksen vaiheissa. Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 18 Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 19

Kielitieteellinen tutkimus Chomskylainen mentalistinen kielitieteellinen tutkimus, joka koskee lähinnä kompetenssia ei introspektiivisen luonteensa vuoksi hyödy korpuksista. Kielen lopullinen teoria vaatii kuitenkin kompetenssin ja performanssin integrointia. Performanssin tutkiminen on luonnostaan dataan perustuvaa, joten puhtaasti kielitieteellinenkin tutkimuksen tulee osaltaa perustua mm. puhekorpuksiin. Puhekorpukset yhdistävät siis aukon kompetenssiin perustuvan kieliopin ja todellisen kielenkäytön välillä. Diskurssianalyysi on yksi kielitieteellinen suuntaus, joka selkeästi hyötyy korpuksista. Audiologia Audiologia on kuuloa tutkiva tiede, jota puheen havaitseminen koskee vain epäsuorasti. Audiologit ovat kuitenkin käyttäneet puhetta ja puhekorpuksia kuulon mittaamiseen jo kauan. Kuulon mittaamiseen käytetyt korpukset ovat tarkasti kalibroituja akustisten muuttujien ja normaalikuuloisten vastaanoton suhteen. Yleensä ne sisältävät erillisiä äänteitä, nonsense sanoja, todellisia sanoja ja jatkuvaa puhetta. Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 20 Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 21 Puhekorpusten käyttötarkoitukset: teknologiset sovellukset Patologinen puhe Patologisen puheen tutkimus liittyy monenlaisiin häiriöihin käheästä puheesta afasiaan. Puhekorpusten rooli patologisen puheen suhteen liittyy esim. automaattisen diagnostiikan kehittämiseen. Patologisen puheen korpuksia käytetään myös kieli- ja puhehäiriöiden aiheuttavien prosessien tutkimukseen. Sovellustyypit Teknologiset sovellukset, jotka tarvitsevat kehitykseensä puhekorpuksia, voidaan karkeasti jakaa neljään luokkaan: 1. puhesynteesi 2. puheentunnistus 3. puhejärjestelmät (esim. dialogijärjestelmät) 4. puhujan tunnistus/verifiointi Sovellusten tekemiseen tarvittavat korpukset vaihtelevat suuresti niin sisältönsä kuin kokonsakin suhteen! Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 22 Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 23

Puheen lingvistiset representaatiot Puheen lingvistiset representaatiot Symbolinen representaatio Puhekorpuksen tutkimininen on mahdollista vain symbolisen representaation kautta näytteistettyä puhetta ei sellaisenaan voi tutkia. Kaikki korpuksen representaatiot ovat jonkinlaisen analyysin tai luokittelun tulosta. Representaatiot eivät itse ole puhetta, vaan abstraktioita! Yleensä symbolinen representaatio tarkoittaa transkriptioita, joita käytetään niin foneettisessa kuin sosiologisessakin tutkimuksessa. Käytetyn transkription tyyppi riippuu hyvin paljon, siitä mihin tarkoitukseen se on tehty. Näin ollen niiden taso ja tarkkuus vaihtelevat suuresti. Transkription tarkkuus Suuria korpuksia on mahdotonta annotoida kovin tarkasti tarkka foneettinen segmentointi vaatii paljon taitoa ja aikaa. Yleensä suuret (spontaania puhetta) sisältävät korpukset on annotoitu vain ortografisesti (ATIS, Switchboard). Pienemmät korpukset voidaan kuitenkin analysoida ja annotoida tarkemmin segmentaalisin merkein ja jopa segmentoiden äännetasolla (TIMIT, PhonDAt). Ortografinen translitteraatio voidaan myöhemmin muuntaa ns. kanoniseen foneemiseen muotoon vaikkapa grafeemi-foneemi -säännöin. On huomattu, että luotettavien foneettisten transkriptioiden tekeminen suurille korpuksille ei ole mahdollista. Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 24 Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 25 Puheen lingvistiset representaatiot Puheen lingvistiset representaatiot Luetun vs. spontaanin puheen transkripointi Luetun puheen pohjana on kirjoitettu teksti spontaanille puheelle teksti täytyy tuottaa jälkikäteen. Spontaanin puheen luovuus aiheuttaa monia merkittäviä piirteitä, jotka erottavat sen luetusta puheesta: se on täynnä taukoja, väärin lausuttuja sanoja, vääriä aloituksia ja toistoa. Riippuen tilanteesta, spontaani puhe sisältää myös ns. puhekielisiä, epästandardeja muotoja ja reduktiota, jolloin jopa kokonaiset sanat voivat kadota. Ilmaus spontaanissa ja luetussa puheessa Eräs tärkeä erottava piirre spontaanin ja lukupuhunnan välillä on ilmauksen (utterance) määritteleminen: lukupuhunnassa ilmaukset yleensä korreloivat lauseiden tai virkkeiden kanssa, spontaanissa näin ei tietenkään voi olla. Spontaanin puheen suhteen joudutaan yleensä tarkasti määrittelemään ilmaukset: dialogissa ne liittyvät useinmiten (puheen)vuoroihin; monologeissa ilmaus määritellään usein taukojen rajaamaksi intervalliksi, jolla on jonkinlainen syntaktinen, semanttinen, pragmaattinen ja prosodinen rakenne. Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 26 Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 27

Puheen lingvistiset representaatiot Transkription tasot ja tyypit Dialogin transkripoiminen Puhujien välisessä keskustelussa on usein keskeytyksiä, jotka voivat olla kokonaisia ilmauksia tai vaikkapa affirmatiivisiä yhden sanan tai äänteen muodostamia; joo tai hmm. Yleensä keskeytykset tapahtuvat samanaikaisesti muun puheen kanssa päällekkäispuhunta tulee merkitä annotointeihin. Ortografisessa transkriptiossa voidaan käyttää esim. Switchboardin tapaan #-symbolia: A: # Right, bye # B: # Bye bye # Transkriptiot ja niistä tuotetut representaatiot Tärkein ero on itse transkriptioden ja niiden avulla tuotettujen muiden representaatioden välillä: Transkriptoita tehdessä joudutaan aina joko manuaalisesti tai koneellisesti monitoroimaan puhesignaalia. Transkriptioista tuotettujen representaatioiden suhteen puhesignaalia ei välttämättä tarvita: tällaiset representaatiot voivat olla esim. ortografiasta tuotetut fonologiset, morfologiset, syntaktiset yms. analyysit. Useamman kuin kahden puhujan kanssa tilanne monimutkaistuu ja voidaan käyttää esim. ns. partituurinotaatiota (engl. score). Esim. Praatin TextGrid. Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 28 Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 29 Transkription tasot ja tyypit Puhesignaalien segmentointi ja nimikointi Transkriptioden tyypit Transkriptiot voidaan jakaa seuraaviin tyyppeihin, jotka kaikki voidaan kohdentaa puhesignaaliin: 1. Translitteraatiot (engl. script); esim. tuomioistuinten tallenteet 2. Ortografiset transkriptiot 3. Morfologiset, syntaktiset, semanttiset ja pragmaattiset representaatiot 4. Foneemiset (sitaatiomuotoiset) representaatiot 5. Karkeat (engl. broad) foneettiset transkriptiot 6. Tarkat (engl. narrow) foneettiset transkriptiot 7. Akustis-foneettiset transkriptiot 8. Fyysiset transkriptiot 9. Prosodiset transkriptiot Segmentointi ja nimikointi Segmentoinnilla tarkoitetaan puhesignaalin jakamista ei-päällekkäisiin osiin, jotka vastaavat tiettyjä lingvistisiä tai fyysisiä yksiköitä. Nimikointi (engl. labeling) tarkoittaa segmentoitujen kappaleiden nimeämistä fyysisesti tai lingvistisesti määritetyillä symboleilla. Rajatut segmentit voivat olla monen tyyppisiä riippuen korpuksen käyttötarkoituksesta. Yleisesti suositellaan ainakin seuraavia tasoja: ortografinen foneettinen tarkka foneettinen Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 30 Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 31

Puhesignaalien segmentointi ja nimikointi Varoituksen sana Puheen käsittäminen lineaariseksi sekvenssiksi erilaisia yksiköitä on mukavuussyistä kehitetty fiktiivinen harha. Esim. monien äänteiden väliset rajat ovat hyvinkin vaikeita paikantaa vokaalit vs. puolivokaalit, vokaalit vs. vokaalit. Toisaalta konsonanttien identiteetti ääntymäpaikan suhteen on koodattuna sitä ympäröivissä vokaaleissa jne. Näin ollen puhetta ei voida käsitellä jonona diskteettejä äänteitä tai muitakaan yksiköitä äänteellinen segmentointi on kuitenkin tiettyyn pisteeseen saakka täysin mahdollista ja arbitraarinen raja on parempi kuin ei mitään. Puhekorpukseet HY - Yleisen kielitieteen laitos Kalvo 32