PL 9/Siltavuorenpenger 5 A, 00014 Helsingin yliopisto etunimi.sukunimi@helsinki.fi



Samankaltaiset tiedostot
HUUDETUN PUHEEN ANALYYSI JA SYNTEESI

TTS. Puhesynteesi (tekstistä puheeksi, engl. text-tospeech,

Puhesynteesi. Martti Vainio. 11. huhtikuuta 2003

T DSP: GSM codec

Puheenkäsittelyn menetelmät

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

Kohti uuden sukupolven digitaalipianoja

Pianon äänten parametrinen synteesi

Puhesynteesin perusteet Luento 4: difonikonkatenaatio

Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Luento: Puhe. Mitä puhe on? Anatomiaa ja fysiologiaa. Puhetapahtuma. Brocan ja Wernicken alueet. Anatomiaa ja fysiologiaa. Puheen tuottaminen:

Puheen tuotto ja havaitseminen I Vokaalit. Puheentuoton lähde-suodin -malli. Glottaalinen äänilähde. Fonaatio

Puheen tuotto ja havaitseminen I

Sanajärjestyksen ja intensiteetin vaikutus suomen intonaation havaitsemisessa ja tuotossa

5 Akustiikan peruskäsitteitä

SGN-4010, Puheenkäsittelyn menetelmät Harjoitus 6, 18. ja

Puheenkoodaus. Olivatpa kerran iloiset serkukset. PCM, DPCM ja ADPCM

Historiaa musiikillisten äänten fysikaalisesta mallintamisesta

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

Organization of (Simultaneous) Spectral Components

ÄÄNISYNTEESI TYÖKONESIMULAATTOREISSA

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

LASKOSTUMISEN HAVAITSEMINEN SAHA-AALLOSSA

Puheentuoton fonetiikan kertausta Vfo 251, Puhesynteesin perusteet. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen.

THE audio feature: MFCC. Mel Frequency Cepstral Coefficients

TL5503 DSK, laboraatiot (1.5 op) Suodatus 2 (ver 1.0) Jyrki Laitinen

3 Ikkunointi. Kuvio 1: Signaalin ikkunointi.

HRTFN MITTAAMINEN SULJETULLA VAI AVOIMELLA KORVA- KÄYTÄVÄLLÄ? 1 JOHDANTO 2 METODIT

Tietoliikennesignaalit & spektri

Puheen akustiikan perusteita

4.2 Akustista fonetiikkaa

Prosodian havaitsemisesta: suomen lausepaino ja focus

Puheentunnistus ja synteettinen puhe

ÄÄNEKKÄÄMMÄN KANTELEEN MALLINTAMINEN ELEMENTTIME- NETELMÄLLÄ

Puheentunnistus Mikko Kurimo

MARKKU NIEMI PUHEEN AIKASKAALAUS. Kandidaatintyö

Kuvia puheentutkimusprojektilta vuosina

SGN-4200 Digitaalinen audio

SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento TTY/Signaalinkäsittelyn laitos Konsta Koppinen

f k = 440 x 2 (k 69)/12 (demoaa yllä Äänen väri Johdanto

VIRTUAALIANALOGIASYNTEESIN LYHYT HISTORIA 1 JOHDANTO

4.1. Sovitusopas. Sisällysluettelo. Maaliskuu Tässä oppaassa on yksityiskohtaiset ohjeet kuulokojeen sovittamiseen Phonak Target -ohjelmalla.

Puheen akustiikan perusteita

Puhetilojen akustiikka. Henrik Möller Johtava akustiikkakonsultti DI, FISE AA

Kokemuksia 3D-tulostetuista ääntöväylämalleista

Digitaalinen audio

S Havaitseminen ja toiminta

Matemaattinen malli puheentutkimuksessa

FP1/Clt 120: Fonetiikan perusteet: artikulaatiotavat

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

SWEPT SINE MITTAUSTEKNIIKKA (NOR121 ANALYSAATTORILLA)

Jukka Pätynen. Jukka, Jussi, Niklas, aiheassistenat 5: Tilaääni Prof. Ville Pulkki, Juhani Paasonen

TL5503 DSK, laboraatiot (1.5 op) Kuvasignaalit. Jyrki Laitinen

PSYKOAKUSTINEN ADAPTIIVINEN EKVALISAATTORI KUULOKEKUUNTELUUN MELUSSA

SGN-4200 Digitaalinen Audio Harjoitustyö-info

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Puhesynteesin perusteet Luento 5: unit selection -synteesi

KAIKUPEDAALIN VAIKUTUKSET PIANON ÄÄNEEN: ANALYYSI JA SYNTEESI 1 JOHDANTO 2 ÄÄNITYKSET JA SIGNAALIANALYYSI

Connexx 6 Siemens-kuulokojeiden sovitusohjelma.

Toimistohuoneiden välisen ääneneristyksen ja taustamelutason vaikutus työtehokkuuteen

» Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN

Paavo Alku Aalto-yliopisto, Signaalinkäsittelyn ja akustiikan laitos 1. PUHESIGNAALIN OMINAISUUDET. 1.1 Johdanto

Signaalien generointi

SUUNTAKUULON TOIMINNALLISUUDEN MALLINTAMINEN NEURO- FYSIOLOGISELLA TASOLLA 1 JOHDANTO 2 BINAURAALINEN AUDITORINEN MALLI

Parempaa äänenvaimennusta simuloinnilla ja optimoinnilla

(1) Teknillinen korkeakoulu, Signaalinkäsittelyn ja akustiikan laitos PL 3000, FI TKK -

Seminaarityö. Puhujantunnistus Gaussian Mixture malleilla

Synteesi-analyysi koodaus

Äänen eteneminen ja heijastuminen

KIELEN PITKITTÄISTEN VÄRÄHTELYJEN HAVAITSEMINEN PIANON ÄÄNESSÄ 1 JOHDANTO 2 KUUNTELUKOKEET

TL5503 DSK, laboraatiot (1.5 op) Audiosignaalit (ver 1.0) Jyrki Laitinen

PUHEEN ARTIKULATORINEN MALLINNUS JA PUHEINVERSIO. Heikki Rasilo, Unto K. Laine

Foneettiset symbolit

ESIMERKKIPOHJAINEN MELUISAN PUHEEN AUTOMAATTINEN TUNNISTUS 1 JOHDANTO 2 ESIMERKKIPOHJAINEN PUHEENTUNNISTUS

Seurantalaskimen simulointi- ja suorituskykymallien vertailu (valmiin työn esittely) Joona Karjalainen

S Laskennallinen Neurotiede

Puhekorpukseet. Puhekorpukset ja puhetietokannat. Puhekorpus. Martti Vainio

2 CEMBALON TOIMINTAPERIAATE JA OMINAISUUKSIA

SAMETTIKOHINA 1 JOHDANTO 2 SAMETTIKOHINAN SYNTEESI. Vesa Välimäki 1, Heidi-Maria Lehtonen 1 ja Jari Kleimola 2

Radioamatöörikurssi 2015

MATTI SIRONEN PUHEEN PERUSTAAJUUDEN ESTIMOINTI

Kuulon malleihin perustuva audiokoodaus, osa II

Johdanto tieto- viestintäteknologian käyttöön: Äänitystekniikka. Vfo135 ja Vfp124 Martti Vainio

Dynaamisten systeemien identifiointi 1/2

PUHUJARIIPPUMATON AUTOMAATTINEN PUHEENTUNNISTUSJÄRJESTELMÄ MATLAB- OHJELMALLA

ADOBE CONNECT PRO. Pikaohje. 1 Tarvittavat välineet ja sovellukset Windowsin ääniominaisuuksien asetukset...2

Kompleksiluvut signaalin taajuusjakauman arvioinnissa

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä

Simulation and modeling for quality and reliability (valmiin työn esittely) Aleksi Seppänen

Laskuharjoitus 9, tehtävä 6

RAKE-vastaanotinsimulaatio. 1. Työn tarkoitus. 2. Teoriaa. 3. Kytkentä. Tietoliikennelaboratorio Versio

PIANON ÄÄNEN ANALYYSI JA SYNTEESI. Heidi-Maria Lehtonen, Jukka Rauhala, Vesa Välimäki

4 Fonetiikkaa. Puhe-elimet

6 Lineaarisen ennustuksen sovelluksia

Parametristen mallien identifiointiprosessi

Radioamatöörikurssi 2013

TYÖ 2: OPERAATIOVAHVISTIMEN PERUSKYTKENTÖJÄ

Transkriptio:

HMM-POHJAISEN PUHESYNTEESIN LAADUN PARANTAMINEN GLOTTISPULSSIKIRJASTON AVULLA Tuomo Raitio 1,AnttiSuni 2,HannuPulakka 1, Martti Vainio 2,PaavoAlku 1 1 Aalto-yliopisto, Signaalinkäsittelyn ja akustiikan laitos PL 13/Otakaari 5 A, 215 Espoo etunimi.sukunimi@tkk.fi 2 Helsingin yliopisto, Puhetieteiden laitos PL 9/Siltavuorenpenger 5 A, 14 Helsingin yliopisto etunimi.sukunimi@helsinki.fi 1 JOHDANTO Markovin piilomalleihin (hidden Markov Model, HMM) perustuvien parametristen puhesyntetisaattorien [1] käyttö on viime aikoina yleistynyt niiden monipuolisten muokkausmahdollisuuksien ja pienen tilantarpeen takia, mutta niiden tuottaman puheäänen laatu on pysynyt huonompana hyvälaatuisiin konkatenaatiosynteeseihin verrattuna. Huonompi laatu johtuu pääasiassa kolmesta eri syystä: liian yksinkertaisista vokooderitekniikoista, akustisten mallien epätarkkuudesta ja parametrien liiallisesta keskiarvoistumisesta [1]. Tässä työssä pyritään parantamaan HMM-pohjaisen synteesinlaatuajaluonnollisuutta paremman vokooderitekniikan avulla. Useimmat HMM-pohjaiset syntetisaattorit perustuvat tavalla tai toisella puheentuoton lähde-suodin malliin [2], jossa ääni syntyy kurkunpäässä sijaitsevasta glottiksesta lähtevästä herätteestä, joka tämän jälkeen suodattuu ääntöväylän akustisella suotimella. Puhesynteesin huono laatu johtuu pitkälti juuri riittämättömistä herätemalleista. Viime aikoina ääniherätteen mallinnusta onkin tutkittu runsaasti paremman äänenlaadun toivossa. Perinteisen impulssiherätteen korvaajiksi on ehdotettu esimerkiksi impulssin ja kohinan yhteisherätettä (mixed-excitation) [3] tai glottisilmavirtauksen differentioitua aaltomuotomallia, niin kutsuttua Liljencrants-Fant (LF) -mallia [4]. Vaikka nämä metodit ovat vähentäneet puheen häiritsevää konemaisuutta, puheen luonnollisuuden ja puhujan äänen eri ominaisuuksien mallintamisessa on vielä huomattavasti parantamisen varaa. Koska äänilähteen tarkka mallintaminen on osoittautunut erittäin vaikeaksi, viime aikoina mallien sijasta onkin alettu käyttää itse aidosta puheesta estimoituja glottispulsseja, mikä on selvästi parantanut synteettisen äänen luonnollisuutta [5]. Aalto-yliopiston Signaalinkäsittelyn ja akustiikan laitoksen sekä Helsingin yliopiston PuhetieteidenlaitoksenyhdessäkehittämäHMM-pohjainenpuhesynteesijärjestelmä [6] perustuu lähde-suodin malliin, jossa heräte luodaan äänilähteen käänteissuodatuksella [7] puheesta estimoidusta aidosta glottispulssista. Tällätekniikallatuotetunpuheenlaatu on parempaa verrattuna tavallisin herätemallein tuotettuun puheeseen [6, 8], mutta yhden pulssin käyttäminen rajoittaa puheen eri ominaisuuksien, mm. puhujan identiteetin ja eri ääntötapojen mallintamista. Tässä työssä kyseistä synteesimenetelmää on laajennettu sisältämään satoja tai jopa tuhansia glottispulsseja sisältävä kirjasto, josta valitaan kulloiseenkin äänteeseen, kontekstiin ja puhujaan sopivat herätepulssit. 1

2 PUHESYNTEESIJÄRJESTELMÄ 2.1 Yleiskatsaus Työssä esitetyn parametrisen HMM-pohjaisen puhesynteesijärjestelmän tavoitteena on tuottaa hyvälaatuista ja luonnollista synteettistä puhetta eri puhetyyleillä ja puhujilla. Syntetisaattorissa hyödynnetään äänilähteen käänteissuodatusta [7], jonka avulla puheesta erotetaan toisistaan puheentuoton kaksi eri komponenttia: glottiksessa syntyvä äänilähde ja ääntöväylän suodin. Tällä tavoin äänilähde voidaan erikseen parametrisoida ja siitä voidaan rakentaa glottispulssikirjasto synteesiä varten. Kuvassa 1 on esitetty puhesynteesijärjestelmän rakenne. Järjestelmä koostuu kahdesta eri osiosta: opetus- ja synteesiosiosta. Opetusvaiheessa tallennetun äänitietokannan puhesignaalit jaetaan äänilähteeseen ja ääntöväyläsuotimeen käänteissuodatuksen avulla. Tämän jälkeen äänilähde ja ääntöväyläsuodin parametrisoidaan ja äänilähteestä erotetaan yksittäiset glottispulssit. Äänilähteen parametridatasta ja glottispulsseista rakennetaan kirjasto, jota käytetään synteesivaiheessa. Tämän jälkeen puheesta saadut parametrit ja puheen foneettinen sekä lingvistinen informaatio opetetaan Markovin piilomalleihin (HMM), jotka kuvaavat tilastollisesti puheäänen parametrien ja foneettisten sekä lingvististen kontekstien suhdetta. Itse parametrit mallinnetaan Gaussian mixture -mallien (GMM) avulla. Synteesivaiheessa HMM:sta tuotetaan foneettisia ja lingvistisiä konteksteja vastaavat puheäänen parametrit syntetisoitavan tekstin mukaan. Äänilähteen luomista varten glottispulssikirjastosta valitaan äänilähteen parametreja parhaiten vastaavat pulssit. Vokooderi luo herätteen valituista pulsseista ja suodattaa herätteen ääntöväylän suotimella, jolloin saadaan aikaan synteettistä puhetta. PUHETIETOKANTA Puhesignaali Käänteissuodatus ja parametrisointi Glottispulssit ja äänilähdeparametrit Ääntöväylä ja äänilähdeparametrit Fon. ja lingv. data HMM opetus Opetusosio Synteesiosio TEKSTI Markovin piilomallit (HMM) Glottispulssikirjasto Tekstianalyysi Fon. ja lingv. data Parametrien tuottaminen HMM:sta Äänilähde parametrit Pulssien valinta Ääntöväyläparametrit Synteettinen puhe Synteesi Glottispulssit Kuva 1: Puhesynteesijärjestelmän rakenne. 2

2.2 Parametrisointi Kuvassa 2 on esitetty puheen parametrisoinnin vuokaavio. Ennen parametrisointia, signaali ylipäästösuodatetaan, jotta signaalista saadaan pois pienitaajuiset puheeseen kuulumattomat taajuuskomponentit, ja ikkunoidaan 5 ms välein kahdenlaisiin kehyksiin: 25 ms kehyksiin puheen spektrille sekä energialle ja 44 ms kehyksiin äänilähdeparametreille ja glottispulssien erottamiseen. Molemmissa kehyksissä puhesignaali erotetaan äänilähteeseen ja ääntöväylän parametreihin käyttäen automaattista iteratiivista äänilähteen käänteissuodatusta (IAIF) [7]. IAIF iteratiivisesti kumoaa ääntöväylän ja huulisäteilyn vaikutuksen puhesignaalista käyttäen all-pole mallinnusta, minkä tuloksena saadaan estimoitua äänilähdesignaali sekä ääntöväylän spektri. Jotta äänilähteen vaihtelu (mm. spektrin kaltevuus) eri äänteistä ja puhetyyleistä johtuen saadaan mallinnettua, äänilähdesignaalista estimoidaan lineaariprediktiota (LPC) käyttäen äänilähteen spektri. Ääntöväylän jaäänilähteenspektritmuutetaan paremmin tilastolliseen mallinnukseen sopivaan muotoon viivaspektritaajuuksisksi (LSF). Soinnittomissa kehyksissä puheen spektriä mallinnetaan tavallisen LPC:n avulla. Puheen perustaajuus (F )estimoidaanautokorrelaatiomenetelmällääänilähdesignaalista. Puheen soinnillisuus estimoidaan äänilähdesignaalista mittaamalla lähteen spektristä harmonisten piikkien ja näiden välisen kohinan magnitudisuhde viideltä eri ERBtaajuuskaistalta. Näiden lisäksi lasketaan kymmenen ensimmäisen harmonisen piikin magnitudit kuvaamaan tarkasti pienien taajuuksien spektrin kaltevuutta (spectral tilt). Glottispulssikirjastoa varten äänilähteestä erotetaan yksittäiset glottispulssit. Ensin äänilähdesignaalista estimoidaan glottiksen sulkeutumisajankohdat (glottal closure instant, GCI) etsimällä signaalista minimiarvoa perusjaksojen välein. Tämän jälkeen jokainen kokonainen kahden perusjakson mittainen glottispulssipari erotetaan signaalista siten, että GCI jää kehyksen keskikohtaan. Glottispulssikehys ikkunoidaan Hann-ikkunalla ja sen energia normalisoidaan, jonka jälkeen pulssi tallennetaan kirjastoon pulssia kuvaavien äänilähdeparametrien kanssa. Näiden lisäksi kirjastoon tallennetaan myös 1 ms pituinen alinäytteistetty pulssi kuvaamaan pulssin aaltomuotoa. 2.3 Synteesi Kuvassa 3 on esitetty puheen syntetisoinnin vuokaavio. Puheen herätesignaali koostuu sekä soinnillisesta että soinnittomasta äänilähteestä. Soinnillinen äänilähde luodaan glottispulssikirjastosta valituista pulsseista. Sopivin pulssi kullekin aikaindeksille valitaan minimoimalla yhteisvirhe, joka koostuu parametrivirheestä ja konkatenaatiovirheestä. Parametrivirhe on HMM:ien tuottamien äänilähdeparametrien ja kunkin glottispulssin äänilähdeparametrien erotus, ja se kuvaa glottispulssin sopivuutta syntetisoitavaan äänteeseen ja kontekstiin. Parametrivirheen minimoinnilla pyritään siihen, että äänilähteen ominaisuuksiltaan (perustaajuus, spektrin kaltevuus, kohinan määrä) sopiva pulssi tulee valituksi. Koska perustaajuus sisältyy optimoitaviin parametreihin, oikean perustaajuuden omaava pulssi tulee automaattisesti valituksi, eikäpulsseja tarvitse erikseen muokata, toisin kuin yhden pulssin tekniikassa. Vain pulssin energia asetetaan HMM:sta saadun arvon mukaiseksi. Konkatenaatiovirhe on peräkkäisten glottispulssien 3

Puhesignaali s(n) Ikkunointi Soinnillinen heräte Pulssikirjasto Soinniton heräte Valk. kohina Energia Log Äänilähteen käänteissuodatus Ääni lähde signaali g(n) LPC Estimoi F Estimoi HNR Ääntöväylän spektri V(z) Äänilähteen spektri G(z) LSF LSF Log P U H E P I I R T E E T Valitse glottis pulssi jonka konkatenaatio ja parametrivir heiden summa on pienin Aseta vahvistus Overlap add Energia F HNR Harmoniset Äänilähteen spektri G(z) Energia F Aseta vahvistus Estimoi harmoniset Soinnillinen / Soinniton Glottispulssien erotus Glottispulssi kirjasto Ääntöväyläsuodin Ääntöväylän spektri V(z) Puhe Kuva 2: Puhesignaalin parametrisointi. Kuva 3: Syntetisointi. alinäytteistettyjen aaltomuotojen erotuksen neliöllinen keskiarvo,jasekuvaaglottispulssien liitoskohdan sopivuutta. Konkatenaatiovirheen minimoinnilla pyritään siihen, että peräkkäiset pulssit eivät eroa liikaa toisistaan, mikä voituottaaepäjatkumiaäänilähteeseen ja johtaa epätasaiseen äänenlaatuun. Kussakin yhtäjaksoisessa soinnillisessa äänteessä pulssien valinta optimoidaan yhteisvirheen perusteella käyttämällä Viterbi-algoritmia. Valintaprosessia voidaan säätää muuttamalla äänilähteen parametreille, parametrivirheelle ja konkatenaatiovirheelle asetettuja erillisiä painokertoimia. Pulssien valinnan jälkeen pulssit liitetään toisiinsa overlapadd tekniikalla perustaajuuden mukaan. Soinniton heräte koostuu valkoisesta kohinasta, jonka vahvistus määräytyy HMM:sta saadun arvon perusteella. Soinnillinen ja soinniton heräteyhdistetäänyhdeksiherätteeksi perustaajuusinformaation perusteella. Ennen suodatusta, ääntöväylän suotimen parametreja muokataan [9], millä kompensoidaan tilastollisen mallinnuksen keskiarvoistumista. Näin suotimen formantit saadaan voimakkaammiksi ja siten luonnollisemmiksi. Lopulta äänilähde suodatetaan ääntöväylän suotimella, jolloin saadaan aikaan puhetta. Ääniesimerkkejä on saatavilla osoitteessa www.helsinki.fi/speechsciences/synthesis/samples.html. 3 KUUNTELUKOKEET Uuden puhesynteesijärjestelmän laatua tutkittiin järjestämällä kuuntelukokeita. Ensiksi, kaksi eri puhesynteesijärjestelmää, yhden pulssin tekniikkaa hyödyntävä järjestelmä sekä glottispulssikirjastoa hyödyntävä järjestelmä, opetettiin 6 lauseen suomenkielisen 4

Score 3 2 1 1 2 3 kirjasto 1 pulssi Score 3 2 1 1 2 3 alkuper. kirjasto 1 pulssi % 1 75 5 25 kirjasto ei eroa 1 pulssi (a) (b) (c) Kuva 4: CCR testin tulokset a) mv ja b) rjs -tietokannoilla, sekä c) samankaltaisuustestin tulokset rjs-tietokannalla: yhden pulssin tekniikka (1-pulssi), glottispulssikirjastotekniikka (kirjasto) ja luonnollinen puhe (alkuper.). 95% luotettavuusvälit on ilmoitettu kullekin tulokselle. miehen (mv) puhumalla puhetietokannalla.tietokannan 3:stä ensimmäisestä lauseesta luotiin pulssikirjasto, joka sisälsi 2244 glottispulssia. Comparison category rating (CCR) testiä käytettiin puheen laadun arvioinnissa. CCR-testissä testihenkilö kuulee ääninäyteparin, ja koehenkilön tehtävänä on arvioida comparison mean opinion score (CMOS) -asteikolla ääninäyteparin laatuero. Molemmilla järjestelmillä tuotettiin kymmenen synteettistä lausetta. Kymmenen suomenkielistä koehenkilöä arvioi yhteensä 3 ääninäyteparia. Metodien paremmuus laskettiin keskiarvoistamalla kummallekin metodille annetut arviot. Testin tulokset on esitetty Kuvassa 6a. Seuraavaksi molemmat järjestelmät opetettiin englanninkielisen miespuolisen ammattipuhujan puhetietokannalla (rjs). Kolmestakymmenestä ensimmäisestä lauseesta luotiin jälleen pulssikirjasto, joka sisälsi 23332 glottispulssia. CCR-testiä käytettiin jälleen arvioimaan puheen laatua, mutta tässä testissä arviointiin otettiin mukaan myös alkuperäiset lauseet. Kymmenen suomenkielistä mutta englantia hyvin puhuvaa koehenkilöä arvioi yhteensä 7 ääninäyteparia. Testin tulokset on esitetty Kuvassa 6b. Lopulta koehenkilöitä pyydettiin arvioimaan synteettisen puheen(rjs-puhetietokanta) samankaltaisuutta verrattuna alkuperäiseen puheeseen. Testissä koehenkilöille esitettiin kolme näytettä, A, B ja Ref,jatehtävänäolivalita,kumpivaihtoehdoistaA vai B kuulosti enemmän referenssipuhujalta Ref. Koehenkilöillä oli myös mahdollisuus valita,että kumpikaan vaihtoehdoista ei ole samankaltaisempi. Samankaltaisuustestin tulokset on esitetty Kuvassa 6c. Molemmissa CCR-testeissä pulssikirjastoa hyödyntävällä tekniikalla tuotettu synteettinen puhe on keskimäärin arvioitu paremmaksi kuin yhden pulssin tekniikalla tuotettu puhe. Tulokset eivät kuitenkaan ole tilastollisesti merkittäviä ristiriitaisten tulosten takia; jotkin kuulijat pitivät yhden pulssin tekniikan tuottamaa tasaista laatua parempana. Puheen samankaltaisuudessa pulssikirjastotekniikka on tilastollisesti parempi. 4 KESKUSTELU Kuuntelukokeiden tulokset osoittavat, että pulssikirjastoa hyödyntävä tekniikka tuottaa yhtä hyvää tai parempilaatuista puhetta kuin yhden pulssin tekniikka. Koska yhden 5

pulssin tekniikan tuottama puheen laadun on jo todettu olevan hyvin korkea [6], myös kyseessä olevan pulssikirjastotekniikan voidaan sanoa olevan selvästi tavallisia herätemalleja parempi. Tässätyössäesitetynherätemallin edutjohtuvat pulssikirjastoon tallentuvasta luonnollisesta äänilähteestä. Erityisesti osittain soinnilliset äänteet, kuten [v,f,h,z] toistuvat huomattavasti luonnollisemmin kyseisellä tekniikalla, koska yhdenpulssintekniikkaeikykene riittävästi muokkaamaan pulssia saadakseen aikaan luonnollista muistuttavaa herätettä. Kuuntelukokeet kuitenkin osoittivat, että esitetty metodi jakoi kuuntelijoiden mielipiteitä: vaikka monipuolisempi heräte koetaan yleisesti luonnollisempana, jotkin kuulijat pitivät herätettä vähemmän luonnollisena pienten epätasaisuuksientakia.esitetyn herätemallin kehitystyö jatkuu jotta herätteestä saataisiin poistettua epäluonnolliset epätasaisuudet. KIITOKSET Tutkimusta on tukenut Suomen Akatemia ja MIDE UI-ART. VIITTEET [1] BLACK A, ZEN H, & TOKUDA K, Statistical parametric speech synthesis, volume 4, pages 1229 1232, Apr. 27. [2] FANT G, Acoustic Theory of Speech Production, Mouton,TheHague,196. [3] YOSHIMURA T, TOKUDA K, MASUKO T, KOBAYASHI T, & KITAMURA T, Mixed excitation for HMM-based speech synthesis, in Proc. Eurospeech, pages 2259 2262, 21. [4] FANT G, LILJENCRANTS J, & LIN Q, A four-parameter model of glottal flow, STL-QPSR, 4(1985), 1 13. [5] DRUGMAN T, WILFART G, MOINET A, & DUTOIT T, Using a pitch-synchronous residual codebook for hybrid HMM/frame selection speech synthesis, in Proc. ICASSP,pages3793 3796,Apr.29. [6] RAITIO T, SUNI A, YAMAGISHI J, PULAKKA H, NURMINEN J, VAINIO M, & ALKU P, HMM-based speech synthesis utilizing glottal inverse filtering, IEEE Trans. on Audio, Speech, and Lang. Proc., 19(211) 1, 153 165. [7] ALKU P, Glottal wave analysis with pitch synchronous iterative adaptive inverse filtering, Speech Commun., 11(1992) 2-3, 19 118. [8] SUNI A, RAITIO T, VAINIO M, & ALKU P, The GlottHMM speech synthesis entry for Blizzard Challenge 21, in The Blizzard Challenge 21 workshop, 21, http://festvox.org/blizzard. [9] RAITIO T, SUNI A, PULAKKA H, VAINIO M, & ALKU P, Comparison of formant enhancement methods for HMM-based speech synthesis, in SSW7,pages334 339, Sep. 21. 6