Vfo254: Puhekorpusten käyttö

Samankaltaiset tiedostot
Vfo254: Puhekorpusten käyttö

Puhekorpukseet. Puhekorpukset ja puhetietokannat. Puhekorpus. Martti Vainio

Vfo254: Puhekorpusten käyttö. Puhekorpusten lingvistinen representaatio. Yleistä. Symbolinen representaatio. Martti Vainio. Transkription tarkkuus

Mitä suomen intonaatiosta tiedetään

Suomen prosodian variaation tutkimuksesta

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

Puheenkäsittelyn menetelmät

Puhesynteesin perusteet Luento 4: difonikonkatenaatio

FONETIIKKA SUULLISEN KIELITAIDON ARVIOINNISSA

TTS. Puhesynteesi (tekstistä puheeksi, engl. text-tospeech,

Puhutun ja kirjoitetun rajalla

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

Foneettiset symbolit

Prosodian havaitsemisesta: suomen lausepaino ja focus

Yhdyssana suomen kielessä ja puheessa

Johdatus rakenteisiin dokumentteihin

Puhesynteesi. Martti Vainio. 11. huhtikuuta 2003

Puhenäytteiden mittailusta puhekorpuksen perkuuseen: kalastelua mato-ongella ja verkoilla. Mietta Lennes FIN-CLARIN / Helsingin yliopisto

Puheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

FP1/Clt 120: Fonetiikan perusteet: artikulaatiotavat

Tilastotiede ottaa aivoon

Puhesynteesin perusteet Luento 5: unit selection -synteesi

Edistyksen päivät, Helsinki. Voiko tutkija muuttaa maailmaa? Humanistista meta-analyysiä merkitysneuvottelevien koneiden avulla.

Tiedonhallinnan perusteet. Viikko 1 Jukka Lähetkangas

Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Puheteknologia Informaa2oteknologian perusteet. Kalle Palomäki Signaalinkäsi8elyn ja akus2ikan laitos

Tilastotiede ottaa aivoon

Kielellisen datan käsittely ja analyysi tutkimuksessa

Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Puheentunnistus Mikko Kurimo

Higgsin bosonin etsintä CMS-kokeessa LHC:n vuosien 2010 ja 2011 datasta CERN, 13 joulukuuta 2011

Kieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat

LAADULLISESTA SISÄLLÖNANALYYSISTÄ

5 Akustiikan peruskäsitteitä

Sanajärjestyksen ja intensiteetin vaikutus suomen intonaation havaitsemisessa ja tuotossa

Ctl160 Tekstikorpusten tietojenkäsittely p.1/15

Tietotekniikan laitoksen uusi linja

S Havaitseminen ja toiminta

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

Varhainen leikki ja sen arviointi

Suomen kielen variaatio 1. Puhuttu ja kirjoitettu kieli Suomen puhekielen vaihtelu

Luonnollisella kielellä keskustelevat järjestelmät

Teknillinen korkeakoulu T Tietojenkäsittelyopin ohjelmatyö. Testitapaukset - Koordinaattieditori

Taulukot. Jukka Harju, Jukka Juslin

SGN-4010, Puheenkäsittelyn menetelmät Harjoitus 6, 18. ja

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

Kulttuuriset käytännöt opetuksessa ja oppimisessa Marianne Teräs

Treffit mönkään? Ääntämisen opetuksesta ja sen tärkeydestä. FT Elina Tergujeff, Jyväskylän yliopisto

Puhe ja kommunikaatio

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

Kuvaruudun striimaus tai nauhoitus. Open Broadcaster Software V.20. Tero Keso, Atso Arat & Niina Järvinen (muokattu )

VHOPE-sovelluksen ja VHOPE-kirjastotiedostojen asentaminen

Johdatus tekoälyyn. Luento : Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

Tähtitieteen käytännön menetelmiä Kevät 2009

YSILUOKKA. Tasa-arvo yhteiskunnassa ja työelämässä

CHERMUG-pelien käyttö opiskelijoiden keskuudessa vaihtoehtoisen tutkimustavan oppimiseksi

11.4. Context-free kielet 1 / 17

Tiedon arvottaminen osana arkistointia

Kojemeteorologia. Sami Haapanala syksy Fysiikan laitos, Ilmakehätieteiden osasto

Digitaaliset tarinat

TIEA241 Automaatit ja kieliopit, kevät Antti-Juhani Kaijanaho. 8. maaliskuuta 2012

Puhumaan oppii vain puhumalla.

Kiinan kursseilla 1 2 painotetaan suullista kielitaitoa ja kurssista 3 alkaen lisätään vähitellen myös merkkien lukemista ja kirjoittamista.

Laskut käyvät hermoille

KUULON HARJOITTELU DYSFASIALAPSELLA, HOIDON SEURANTA HERÄTEVASTETUTKIMUKSIN

Työkalujen merkitys mittaamisessa

Aivotutkimus kielenoppimisen edistäjänä

T3 ohjata oppilasta havaitsemaan kieliä yhdistäviä ja erottavia ilmiöitä sekä tukea oppilaan kielellisen uteliaisuuden ja päättelykyvyn kehittymistä

Valttikortit 100 -ohjelman sanasto on peruskoulun opetussuunnitelman ytimestä.

Laajennettu tiedonkäsitys ja tiedon erilaiset muodot

Ohjelmointi 1. Kumppanit

MALLIT VESIJÄRJESTELMIEN TUTKIMUKSESSA

Palvelukuvaus Omakannan Omatietovaranto

S Havaitseminen ja toiminta

17/20: Keittokirja IV

Esimerkkejä vaativuusluokista

Säännölliset kielet. Sisällys. Säännölliset kielet. Säännölliset operaattorit. Säännölliset kielet

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Puheenkoodaus. Olivatpa kerran iloiset serkukset. PCM, DPCM ja ADPCM

Savonlinnan ammatti- ja aikuisopiston vieraiden kielten opetusta verkossa ja integroituna ammattiaineisiin. Johanna Venäläinen

Korpusten käsittely clt131, P Luento 1

Lahjakkuutta ja erityisvahvuuksia tukeva opetus äidinkielen näkökulma

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 30. marraskuuta 2015

F-Secure KEY salasanojenhallintaohjelman käyttöönotto PC -laitteella

Projektisuunnitelma. Projektin tavoitteet

Käyttöohje HERE Maps painos FI

Intonaation analyysi ja annotointi puhekorpuksissa

Ongelma(t): Miten jollakin korkeamman tason ohjelmointikielellä esitetty algoritmi saadaan suoritettua mikro-ohjelmoitavalla tietokoneella ja siinä

ESIOPETUS-1-2 LUOKKA OMA OPPIMISPOLKU

AINEISTOJEN JAKAMISEN MYYTEISTÄ JA HAASTEISTA

Sisällys. Sisällys. Esipuhe Äänteellisen kehityksen peruskäsitteet I Äänteellisen kehityksen edellytykset

Muodolliset kieliopit

Opetuskielen vaikutuksesta oppimiseen: Kuvailevaa evidenssiä opiskelijoiden näkemyksistä

Historian ja etnologian laitos

815338A Ohjelmointikielten periaatteet Harjoitus 2 vastaukset

EuroTraffic Language Training

811312A Tietorakenteet ja algoritmit I Johdanto

Transkriptio:

Aikataulu ja kurssin sisältö Puhekorpukset ja niiden käyttö Kurssi on jaettu luentoihin, joissa käsitellään seuraavia asioita: Puhekorpusten suunnittelu Vfo 254: Puhekorpusten käsittely Martti Vainio Puhedatan keräys Puheen annotointi Korpusten käyttö tutkimuksessa Ja käytännön harjoituksiin, joissa opitaan suunnittelemaan, tallentamaan ja annotoimaan puhekorpuksia. Kurssin harjoitustyönä tehdään pieni foneettinen tutkimus aikaansaadulla korpuksella. Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 1 Puhekorpukset ja puhetietokannat Puhekorpukset ja puhetietokannat Puhekorpus Määritelmä: Puhutun kielen korpus (engl. spoken language corpus) on mikä tahansa kokoelma puheäänitteitä, joka on tietokoneen luettavassa muodossa ja on annotoitu sekä dokumentoitu siten, että sitä voi käyttää yhä uudelleen organisaation sisällä (in-house) tai sen ulkopuolella. Näin ollen, esim. yleisradioiden tallenteet jäävät määritelmän ulkopuolelle. Määritelmä koskee siis, esim. joukkoa puhesignaali-, laryngografi- ja EMG-signaaleja, sillä ehdolla, että ne on sopivasti annotoituja ja dokumentoituja. Tavallisen äänisignaalin lisäksi voimme siis sisällyttää korpukseen kaikenlaisia muitakin, joko tallennettuja tai alkuperäisestä signaalista analysoituja, signaaleja: esim. video, aikakoodi, perustaajuuskäyrät jne. Puhekorpus sisältää siis puhesignaalin lisäksi: Annotaatiot Tiedot puhujasta: ikä sukupuoli äidinkieli murretausta yms. Mahdollisimman paljon tietoa itse äänityksestä: Äänityspaikan sijainti ja laatu Mikrofoni ja tallennintyyppi Äänitysaika yms. Yllä oleva informaatio ei ehkä vaikuta kiinnostavalta, mutta se voi olla hyvinkin tärkeätä jossain myöhemmässä vaiheessa! Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 2 Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 3

Puhekorpukset ja puhetietokannat Puhekorpukset ja puhetietokannat Tyypillisesti puhekorpukset sisältävät seuraavia asioita: Digitoidut signaalit: akustinen puhesignaali, laryngografin signaali, röntgen data. Analyysien tulokset: FFT data, LPC data, perustaajuus- ja äänekkyysdata, formantit. Markkerit: äänihuuliperiodit, vokaalien alut. Kuvailut: puhujien kuvailut, äänitysolosuhteet. Annotaatiot: (engl. annotations/labels), ortografiset, foneemiset, foneettiset, prosodiset transkriptiot, puheenvuorot, topiikit... Puhekorpuksen käyttöön saattaminen koostuu kolmesta vaiheesta: 1. Vaihe ennen äänityksiä = suunnittelu 2. Äänitysvaihe 3. Jälkikäsittelyvaihe = annotointi, analyysit Vaihe, ennen äänitystä sisältää seuraavat askeleet: 1. Korpuksen tarkoituksen määrittely 2. Korpuksen lingvistisen sisällön määrittely 3. Puhujien tyypin ja lukumäärän määrittely Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 4 Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 5 Puhekorpukset eroavat tekstikorpuksista ainakin kahdeksalla tavalla, jotka riippuvat seuraavista asioista: 1. puhe on katoavaista, teksti pysyvää, 2. puheen ja tekstin tuottoon kuluva aika ei ole sama, 3. virheiden rooli on erilainen, 4. kirjoitetut ja puhutut sanat eroavat toisistaan, 5. erilaiset tietorakenteet: ASCII vs. näytteistetty data, 6. syyt, jotka johtavat korpusten erilaisiin kokoihin, 1. Puhe on transienttia Puhe katoaa heti kun se on tuotettu: kirjoitus säilyy! Puhe on siis erikseen tallennettava sen kerääminen ei ole triviaali asia, kuten on (yleensä) laita kirjoitetun tekstin kanssa. 7. kirjoitetun ja puhutan materiaalin laillisen statuksen erot, ja 8. kirjoitettu kieli on symbolista ja puhe fyysisesti mitattavaa jatkuvaa signaalia ajassa! Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 6 Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 7

3. Puhe on täynnä virheitä 2. Puheentuottoon käytetty aika on vähäistä Puheentuottoon kulunut aika on yleensä puhumiseen kulunut aika. Puhe tuotetaan keskimäärin 120 180 tavua minuutissa. Kirjoittamiseen käytetään yleensä huomattavasti enemmän aikaa. Spontaanissa puheessa puhujan editointi on kuuluvaa ja jää mukaan tallenteeseen. Keskeytykset, hesitaatiot, toistot ja korjaukset ovat olennainen osa puhetta ja tulee säilyttää (spontaanin puheen) korpuksissa. Tekstikorpuksissa kirjoittajan suorittamat korjaukset ovat jo editoidut pois. Puhekorpuksissa suuntaus on kohti spontaania puhetta luettu laboratoriopuhe on väistymässä. Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 8 Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 9 4. Sanat vaihtelevat foneettisesti Puhutut versiot ortografisesti identtisistä sanoista osoittavat yleensä suurta foneettista variaatiota sekä segmentaalisesti että prosodisesti. Sanat saattavat jopa kokonaan kadota tai jäädä vain jonkin segmentaalisen tai prosodisen vihjeen varaan: onko sinulla se onksuse. Erillään lausutut sanat ovat jatkuvaan puheeseen verrattuna hyvinkin erilaiset: kanoninen tai sitaatiomuoto. Näin ollen on tärkeää, että korpukseen tallennetaan ainakin kahden, mieluummin kolmen tasoista, symbolista kuvausta, joilla kaikilla on suhde akustiseen signaaliin: 1. Puhutut sanat erotetaan leksikaalisesti ortografisella tasolla. 2. Sanat tulisi esittää myös karkealla foneettisella kirjoituksella ns. sitaatiomuodoissaan, jotka voidaan tuottaa esim. automaattisella grafeemi-foneemi -konversiolla. 3. Todelliset foneettiset kuvaukset tulee tehdä ns. kapealla tarkekirjoituksella, jonka symbolit suhteutetaan ajallisesti signaaliin, joko manuaalisesti tai automaattisesti. Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 10 Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 11

6. Puhe vaatii paljon tilaa 5. Tallennettu puhe on vain aikafunktioita Puhtaana datana, kirjoitetut tekstit koostuvat lähinnä merkeistä, jotka voidaan koodata joko 7, 8 tai 16 bittisinä ASCII- tai Unikoodimerkkeinä. Koodatut merkkijonot sisältävät jo sellaista informaatiorakennetta, joka ei ole läsnä puhesignaalissa. Puhesignaali ei sisällä eksplisiittisiä sanarajoja, pilkkuja, pisteitä, huutomerkkejä jne. Tallennettu puhesignaali on primäärisesti vain digitalisoituja aikafunktioita. Tallennettu puhe vie huomattavasti enemmän tilaa kuin vastaava ASCII-muotoinen data. Kolmikirjaimen sana vie vain kolme tavua (byte) tilaa kun vastaava digitoitu, puhuttu sana vie huomattavasti enemmän. Kolme äännettä: 0.5 s, 16 bittisellä kvantisoinnilla ja 48 khz:n näyttenottotaajuudella kirjoitutun ja puhutun tallenteen suhteeksi tulee 1/16000! Toisaalta puhuttujen muotojen erilaisuus vaatii jokaisen sanan tallentamista useaan kertaan riippuen puhujasta, puhetyylistä. Näin ei kuitenkaan kovin usein tehdä. Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 12 Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 13 7. Puhe tuo lisää laillisia ongelmia Yleensä kirjoitetut tekstit on jo julkaistu, jolloin niiden käyttö määräytyy olemassaolevien lakien ja säännöstöjen mukaan: lait voivat mutkistaa tai estää korpusten jakamisen käyttäjille. Puheen kannalta tilanne voi olla vieläkin mutkikkaampi: valmiiksi äänitetty materiaali voi tuottaa ylitsepääsemättömiä ongelmia, joista itse äänitettävällä materiaalilla selviää tekemällä puhujan kanssa sopimuksen ennen äänittämistä. 8. Puhe on jatkuvaa! Digitoitu signaali ei itsessään sisällä minkäänlaisia kategorioita kuten on laita kirjoitetun ASCII-datan kanssa. Nykyisillä tekniikoilla ei ole periaatteessa edes mahdollista (varmasti) sanoa, onko jokin signaali puhetta vai ei: puhedatan kategorioiminen annotaatioiksi vaatii aina manuaalista käsittelyä ja inhimillistä tulkintaa. Toisaalta puhesingnaali sisältää relevanttia prosodista ja paralingvististä informaatiota, jota teksti ei sisällä. Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 14 Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 15

Foneettinen tutkimus Foneettiseen tutkimukseen kuuluvat kaikki puheeseen liittyvät tekijät: usein tutkimus vaatii tarkasti kontrolloitua ja systemaattista dataa jonka tutkijat joutuvat keräämään erikseen. Kiinnostus spontaania ja vähemmän kontrolloitua puhetta kohtaan on kuitenkin antanut foneetikoillekin mahdollisuuden käyttää jo valmiita korpuksia. Spontaanin puheen tilastollinen kuvaus vaatii kaiken lisäksi suuria määriä dataa, jonka keräämiseen ja annotointiin yksittäisellä tutkijalle ei ole mahdollisuuksia. Tämä lisää edelleen spontaanin puheen korpusten arvoa foneettisessa tutkimuksessa. Sosiolingvistinen tutkimus Sosiolingvistinen puheentutkimus on yleensä pohjautunut kolmella tavalla hankittuun dataan: 1. Kirjoitettujen kyselyiden avulla: esim. miten vastaajat mielestään lausuvat tietyn sanan. 2. Tutkijan observaatioiden pohjalta: esim. Labovin tutkimukset /r/:n ellipsiksestä New Yorkilaisilla puhujilla. Labov yksinkertaisesti kirjasi, onko puhujalla kyseistä äännettä tietyissä sanoissa. 3. Keräämällä puhekorpuksia: perkeptuaalista analyysiä on tuettu keräämällä korpuksia. Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 16 Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 17 Lapsen kielen kehitys Psykolingvistinen tutkimus Psykolingvistinen tutkimus on hyvin laajaa: se vaihtelee lapsen kielen oppimisen tutkimisesta aikuisten kielen ymmärtämisen liittyvien mentaalisten prosessien tutkimukseen aina kielen häiriöiden tutkimukseen. Yksi alue, jossa psykolingvistit ovat käyttäneet puhekorpuksia on ns. lipsahdusten tutkimus. Lapsen kielen kehitystä tutkitaan monilla eri tieteen aloilla, tutkimus voi olla: lingvististä sosiolingvististä psykolingvististä foneettista Kaikki osa-alueet hyötyvät puhekorpuksista, mutta toistaiseksi korpukset koostuvat lähinnä transkriptioista (CHILDES). Kunnollisen spontaanin puheen elisitoiminen lapsilta on vaikeaa, mutta puhetta voidaan saada helposti esim. pelien avulla. Lapsen kielen kehittymistä kuvaavien korpusten on hyvä olla longitudinaalisia; ts. saman henkilön puhetta tulee tallentaa eri kielen kehityksen vaiheissa. Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 18 Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 19

Kielitieteellinen tutkimus Vieraan kielen oppiminen Vieraan kielen oppimista on jonkin verran tutkittu myös puhekorpuspohjaisesti, mutta toistaiseksi tutkimus on perustunut lähinnä transkriptioihin. Korpuksia voidaan käyttää esim. opetusmateriaalin tekemiseen. Chomskylainen mentalistinen kielitieteellinen tutkimus, joka koskee lähinnä kompetenssia ei introspektiivisen luonteensa vuoksi hyödy korpuksista. Kielen lopullinen teoria vaatii kuitenkin kompetenssin ja performanssin integrointia. Performanssin tutkiminen on luonnostaan dataan perustuvaa, joten puhtaasti kielitieteellinenkin tutkimuksen tulee osaltaa perustua mm. puhekorpuksiin. Puhekorpukset yhdistävät siis aukon kompetenssiin perustuvan kieliopin ja todellisen kielenkäytön välillä. Diskurssianalyysi on yksi kielitieteellinen suuntaus, joka selkeästi hyötyy korpuksista. Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 20 Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 21 Audiologia Audiologia on kuuloa tutkiva tiede, jota puheen havaitseminen koskee vain epäsuorasti. Audiologit ovat kuitenkin käyttäneet puhetta ja puhekorpuksia kuulon mittaamiseen jo kauan. Kuulon mittaamiseen käytetyt korpukset ovat tarkasti kalibroituja akustisten muuttujien ja normaalikuuloisten vastaanoton suhteen. Yleensä ne sisältävät erillisiä äänteitä, nonsense sanoja, todellisia sanoja ja jatkuvaa puhetta. Patologinen puhe Patologisen puheen tutkimus liittyy monenlaisiin häiriöihin käheästä puheesta afasiaan. Puhekorpusten rooli patologisen puheen suhteen liittyy esim. automaattisen diagnostiikan kehittämiseen. Patologisen puheen korpuksia käytetään myös kieli- ja puhehäiriöiden aiheuttavien prosessien tutkimukseen. Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 22 Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 23

Puhekorpusten käyttötarkoitukset: teknologiset sovellukset Puhekorpusten käyttötarkoitukset: teknologiset sovellukset Sovellustyypit Teknologiset sovellukset, jotka tarvitsevat kehitykseensä puhekorpuksia, voidaan karkeasti jakaa neljään luokkaan: 1. puhesynteesi 2. puheentunnistus 3. puhejärjestelmät (esim. dialogijärjestelmät) 4. puhujan tunnistus/verifiointi Sovellusten tekemiseen tarvittavat korpukset vaihtelevat suuresti niin sisältönsä kuin kokonsakin suhteen! Puhesynteesi Artikulatorinen synteesi vaatii artikulatorista dataa: puhesignaalin lisäksi tarvitaan mm. erilaisten kuvantamismenetelmien tuottamaa dataa (esim. MRI). Konkatenaatiojärjestelmät tarvitsevat hyvinkin erilaisia korpuksia difonikonkatenaatio vs. yleinen unit selection. Konkatenaatiodata voi olla edelleen parametrisoitu (esim. LPC) ja siihen voidaan liittää esim. tieto äänihuuliperioideista (engl. pitch marks). Periaatteessa kaikki mallintaminen synteesijärjestelmissä vaatii korpuksia pohjakseen ja toisaalta jokainen malli on puhujakohtainen ja esim. eri sukupuolten äänien tuottaminen vaatii omat korpuksensa. Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 24 Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 25 Tietoon perustuvat vs. stokastiset järjestelmät Erilaiset tunnistusjärjestelmät Yleisesti puheentunnistusjärjestelmät voidaan jakaa kolmeen pääluokkaan perustuen siihen, 1. minkälaista tunnistustrategiaa niissä käytetään 2. minkälaisten puhujien puhetta niissä tunnistetaan, ja 3. minkälaista puhetta ne tunnistavat. Nykyiset järjestelmät ovat kaikki ns. stokastisia. Ne ovat siis oppivia järjestelmiä ja vaativat suuria määriä opetusdataa, joka on yleisesti ollut suhteellisen köyhästi annotoitua. Uusimmissa järjestelmissä on alettu hyödyntää myös morfologista ja fonologista tietämystä tämä ei kuitenkaan paljonkaan muuta datan tarvetta; ortografinen transkriptio riittää annotoinniksi. Järjestelmien sisältämät kielimallit kuitenkin vaativat puhedatan lisäksi suuria tekstikorpuksia. Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 26 Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 27

Puhujasta riippuvaiset ja riippumattomat järjestelmät Riippuen siitä, onko järjestelmän tarkoitettu tunnistaa vain yhden ihmisen puhetta vaiko useamman, on niiden opetuskorpusten tarve hyvinkin erilainen ainakin kokonsa suhteen. Puhujasta riippumattomat järjestelmät vaativat luonnollisesti dataa mahdollisimman monelta puhujalta siitä huolimatta ne usein opetetaan tunnistamaan jonkin alaryhmän puhetta; esim. miehet vs. naiset. Jotkin järjestelmät ovat adaptiivisia, mutta erilliset opetussessiot ovat yleensä interaktiivisia eivätkä vaadi erillisiä korpuksia tällaisten järjestelmien tutkiminen ja kehittäminen toisaalta vaativat niitä. Järjestelmät ovat myös sensitiivisiä datan tallennusympäristön suhteen ja tarvitaan eri korpukset esim. autoissa vs. puhelimessa tehtävään tunnistamiseen. Erilliset sanat vs. jatkuva puhe Tunnistusjärjestelmät voidaan rakentaa tunnistamaan joko erikseen lausuttuja sanoja tai jatkuvaa puhetta. Jatkuvassa puheessa täytyy tunnistaa sanarajat, joka monimutkaistaa prosessin oleellisesti. Luonnollisesti tällaisten järjestelmien opetusdatat eroavat suuresti toisistaan. Yksi muoto erillisten sanojen tunnistamisesta on ns. word spotting, jossa tunnistetaan tiettyjä sanoja vaikkapa hyvinkin häiriöisissä olosuhteissa. Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 28 Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 29 Puheentunnistuksen tutkimus Yleisesti puheentunnistuksen tutkimus vaatii aina kahden korpuksen olemassaoloa: ns. opetus- ja testikorpukset. Aina testaamiseen ei riitä, että yksi korpus jaetaan kahteen osaan. Korpusten lopullinen muoto ja sisältä riippuvat myös täysin siitä, minkälaiseen tarkoitukseen tunnistinta tehdään: esim. numeroiden tunnistamiseen on kerätty useita suuria korpuksia. Spoken Language Systems Dialogijärjestelmien täytyy tunnistusvaiheessa saada jonkinlainen käsitys myös tunnistetun puheen merkityksestä. Järjestelmien synteesi- ja tunnistusosien tekemiseen vaadittavien korpusten lisäksi tarvitaan spontaanin puheen oleellisten piirteiden mallintamista tukevia korpuksia sekä dialogin rakenteen mallintamista tukevia korpuksia. Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 30 Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 31

Puhujan tunnistus ja verifikaatio Puhujan tunnistus (identifoiminen) voidaa yleisesti jakaa kahteen kategoriaan: suljetun ja avoimen joukon tunnistamiseen. Suljetussa joukossa tunnistetaan joku joukon jäsen ja avoimen joukon tunnistuksessa päätellään kuuluuko joku puhuja tiettyyn joukkoon. Tunnistus voi olla tekstistä riippuvaa tai riippumatonta. Puhujantunnistusta varten luotavissa korpuksissa olellista on, että ne sisältävät useita äänityksiä samalta puhujalta erilaisissa olosuhteissa. Olesuhteet voivat olla kategorisoitu esim. kanavan tilan tai puhujan fysiologisen sekä psykologisen tilan mukaan. Vfo254: Puhekorpusten käyttö HY - Fonetiikan laitos Kalvo 32