PUHEEN ARTIKULATORINEN MALLINNUS JA PUHEINVERSIO. Heikki Rasilo, Unto K. Laine



Samankaltaiset tiedostot
4.2 Akustista fonetiikkaa

Luento: Puhe. Mitä puhe on? Anatomiaa ja fysiologiaa. Puhetapahtuma. Brocan ja Wernicken alueet. Anatomiaa ja fysiologiaa. Puheen tuottaminen:

5 Akustiikan peruskäsitteitä

Diskriminanttianalyysi I

9. Tila-avaruusmallit

Harjoitus 6 ( )

TIES592 Monitavoiteoptimointi ja teollisten prosessien hallinta. Yliassistentti Jussi Hakanen syksy 2010

TTS. Puhesynteesi (tekstistä puheeksi, engl. text-tospeech,

Ei välttämättä, se voi olla esimerkiksi Reuleaux n kolmio:

Pianon äänten parametrinen synteesi

HRTFN MITTAAMINEN SULJETULLA VAI AVOIMELLA KORVA- KÄYTÄVÄLLÄ? 1 JOHDANTO 2 METODIT

Harjoitus 6 ( )

Ristitulolle saadaan toinen muistisääntö determinantin avulla. Vektoreiden v ja w ristitulo saadaan laskemalla determinantti

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

6. IHMISEN ÄÄNT KOHTI PUHEKYKYÄ

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

RYHMÄKERROIN ÄÄNILÄHDERYHMÄN SUUNTAAVUUDEN

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

805306A Johdatus monimuuttujamenetelmiin, 5 op

Likimääräisratkaisut ja regularisaatio

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Osoitin ja viittaus C++:ssa

PL 9/Siltavuorenpenger 5 A, Helsingin yliopisto etunimi.sukunimi@helsinki.fi

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea.

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

MATEMATIIKKA 5 VIIKKOTUNTIA

Vektorien pistetulo on aina reaaliluku. Esimerkiksi vektorien v = (3, 2, 0) ja w = (1, 2, 3) pistetulo on

Puheenkoodaus. Olivatpa kerran iloiset serkukset. PCM, DPCM ja ADPCM

Puheenkäsittelyn menetelmät

S Havaitseminen ja toiminta

Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto


» Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN

MS-C2128 Ennustaminen ja aikasarja-analyysi ARMA esimerkkejä

Puhesynteesi. Martti Vainio. 11. huhtikuuta 2003

Kokemuksia 3D-tulostetuista ääntöväylämalleista

Esim: Mikä on tarvittava sylinterin halkaisija, jolla voidaan kannattaa 10 KN kuorma (F), kun käytettävissä on 100 bar paine (p).

GeoGebra-harjoituksia malu-opettajille

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Lineaarialgebra ja matriisilaskenta I, HY Kurssikoe Ratkaisuehdotus. 1. (35 pistettä)

Taulukot. Jukka Harju, Jukka Juslin

Malliratkaisut Demot

Puheen tuotto ja havaitseminen I Vokaalit. Puheentuoton lähde-suodin -malli. Glottaalinen äänilähde. Fonaatio

Puheen tuotto ja havaitseminen I

3.3 Paraabeli toisen asteen polynomifunktion kuvaajana. Toisen asteen epäyhtälö

Luku 8. Aluekyselyt. 8.1 Summataulukko

Dynaamiset regressiomallit

Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus.

Otoskoko 107 kpl. a) 27 b) 2654

ax + y + 2z = 0 2x + y + az = b 2. Kuvassa alla on esitetty nesteen virtaus eräässä putkistossa.

T DSP: GSM codec

Helsingin, Itä-Suomen, Jyväskylän, Oulun, Tampereen ja Turun yliopisto Matematiikan valintakoe klo Ratkaisut ja pisteytysohjeet

Moderni biolääketieteellinen optiikka X - Optinen mittaaminen sekä valmistusmenetelmät X X X

VAASAN YLIOPISTO TEKNILLINEN TIEDEKUNTA SÄHKÖTEKNIIKKA. Lauri Karppi j SATE.2010 Dynaaminen kenttäteoria DIPOLIRYHMÄANTENNI.

FYSIIKAN LABORATORIOTYÖT 2 HILA JA PRISMA

Algoritmi III Vierekkäisten kuvioiden käsittely. Metsätehon tuloskalvosarja 7a/2018 LIITE 3 Timo Melkas Kirsi Riekki Metsäteho Oy

Puhenäytteiden mittailusta puhekorpuksen perkuuseen: kalastelua mato-ongella ja verkoilla. Mietta Lennes FIN-CLARIN / Helsingin yliopisto

Sovellettu todennäköisyyslaskenta B

Kieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat

Kahden laboratorion mittaustulosten vertailu

Laskuharjoitus 9, tehtävä 6

SGN-4200 Digitaalinen Audio Harjoitustyö-info

3 Ikkunointi. Kuvio 1: Signaalin ikkunointi.

Järvitesti Ympäristöteknologia T571SA

Yhtälönratkaisusta. Johanna Rämö, Helsingin yliopisto. 22. syyskuuta 2014

ÄÄNENVAIMENTIMIEN MALLINNUSPOHJAINEN MONITAVOITTEINEN MUODONOPTIMOINTI 1 JOHDANTO. Tuomas Airaksinen 1, Erkki Heikkola 2

S Laskennallinen Neurotiede

Kvanttimekaniikan tulkinta

AVOTOIMISTOAKUSTIIKAN MITTAUS JA MALLINNUS. Jukka Keränen, Petra Virjonen, Valtteri Hongisto

Sovelletun fysiikan laitos Marko Vauhkonen, Kuopion yliopisto, Sovelletun fysiikan laitos Slide 1

LIITE 1 VIRHEEN ARVIOINNISTA

Testitapaukset - Siirtoprotokolla

Digitaalinen signaalinkäsittely Kuvankäsittely

Mekanismisynteesi. Kari Tammi, Tommi Lintilä (Janne Ojalan kalvojen pohjalta)

Osa 2: Otokset, otosjakaumat ja estimointi

SGN-4200 Digitaalinen audio

Dynaamiset regressiomallit

Kompleksiluvut signaalin taajuusjakauman arvioinnissa

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

Tilastolliset mallit hakkuukoneen katkonnan ohjauksessa. Tapio Nummi Tampereen yliopisto

Tieteen ja tutkimusalan opintoihin hyväksyttävät opintojaksot ovat (taulukossa A= aineopinnot, S=syventävät opinnot, J = jatko-opinnot):

LIITE 1 VIRHEEN ARVIOINNISTA

JOHDATUS TEKOÄLYYN TEEMU ROOS

Esimerkki: Tietoliikennekytkin

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

JAKSO 2 KANTA JA KOORDINAATIT

Nopeus, kiihtyvyys ja liikemäärä Vektorit

MATEMATIIKAN KOE, LYHYT OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

KIELEN PITKITTÄISTEN VÄRÄHTELYJEN HAVAITSEMINEN PIANON ÄÄNESSÄ 1 JOHDANTO 2 KUUNTELUKOKEET

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Luku 6. Dynaaminen ohjelmointi. 6.1 Funktion muisti

1.1 Funktion määritelmä

AKUSTISEN ABSORPTIOSUHTEEN MÄÄRITYS LABORATORIOSSA

S09 04 Kohteiden tunnistaminen 3D datasta

SIIRTOMATRIISIN JA ÄÄNENERISTÄVYYDEN MITTAUS 1 JOHDANTO. Heikki Isomoisio 1, Jukka Tanttari 1, Esa Nousiainen 2, Ville Veijanen 2

ÄÄNEKKÄÄMMÄN KANTELEEN MALLINTAMINEN ELEMENTTIME- NETELMÄLLÄ

TTY Mittausten koekenttä. Käyttö. Sijainti

Transkriptio:

Heikki Rasilo, Unto K. Laine Aalto-yliopiston Sähkötekniikan Korkeakoulu Signaalinkäsittelyn ja Akustiikan laitos PL 13000 00076 AALTO etunimi.sukunimi@aalto.fi 1 JOHDANTO Puheen monimuotoisuus tekee siitä ainutlaatuisen tiedonvälitystavan ihmisten välisessä kommunikaatiossa. Ihminen on muista eläimistä poiketen oppinut kontrolloimaan artikulatorista koneistoaan siten, että se mahdollistaa erittäin monipuolisen äännemaailman tuottamisen. Puheen kuvaaminen artikulatorisessa avaruudessa olisi oletettavasti monin tavoin sopivampi esitysmuoto kuin akustiset parametrit. Yksittäiset artikulaatioelimet liikkuvat hitaasti verrattuna puheen spektraalisiin ominaisuuksiin. Puhetta tuotettaessa artikulatoristen elinten suhteelliset liikeradat ovat verrattain samanlaisia eri puhujien välillä, mikä saattaa helpottaa ratkaisemaan monia ongelmia liittyen puhujariippuvaan vaihteluun akustisessa alueessa. Koartikulaation vuoksi myös akustisesti samanlaiset tilanteet saattavat erottua paremmin artikulatorisessa maailmassa, jos liikkeiden dynamiikka myös pidemmältä aikaväliltä saadaan huomioitua. Luotettava puheinversio artikulatorisiin parametreihin on yhä ratkaisematon ongelma, jonka ratkaisu johtaisi oletettavasti lukuisiin teknologisiin innovaatioihin, kuten uusiin tehokkaisiin menetelmiin puhekoodauksessa, puheanalyysissä ja synteesissä, puheentunnistuksessa sekä mm. puheterapian tarpeisiin. Puheen artikulatorisessa mallinnuksessa ja inversiossa käytetään usein apuna staattisia tai dynaamisia ääntöväylämalleja, joilla pyritään kuvaamaan ihmisen ääntöväylän tärkeimpiä ominaisuuksia vähäisellä määrällä parametreja. Mermelsteinin [1] ja Maedan [2] artikulatorisia malleja on käytetty paljon puheentutkijoiden keskuudessa. Mallien säädettävät parametrit ja niiden vaikutus ääntöväylän profiiliin on estimoitu analysoimalla ääntöväylän röngen-kuvasarjoja. 1990- ja 2000-luvulla on kehitetty yhä monipuolisempia ääntöväylä- ja kielimalleja. Esim. Dang ja Honda [3] ovat kehittäneet 3-ulotteisen artikulatorisen mallin, joka hyödyntää suun lihasten fyysisiä rajoitteita. Mallia käytettiin mm. vokaali-vokaali siirtymien inversioon. 1.1 Puheinversio ongelma Puheinversio-ongelmassa koetetaan löytää äänitetyistä puhesignaaleista niiden tuottamiseen käytetyt artikulatoriset liikkeet. Ihmiset kykenevät suorittamaan puheinversiota jatkuvasti, joka mahdollistaa mm. puheen matkimisen. Yksi klassisen puheen havaitsemisen motorisen teorian [esim. 4] pääväitteistä on, että ihmiset käyttävät puheen artikulatorista esitystapaa apuna myös puhetta havaittaessa; puhesignaali ikään kuin matkitaan mielessä oman puheentuottomekanismin kautta, tuoden lisää luotettavuutta puhehavaintoon. Useat koejärjestelyt puhuvat tämän väitteen puolesta. Aivojen motoristen alueiden aktivoituminen puhehavaintojen aikana on varmistettu fmri mittauksissa [5]. Kokeissa on myös huomattu että magneettinen stimulaatio huulten tai kielen liikkeistä vastaavalle motoriselle aivokuorelle vaikuttaa huulilla tai kielellä artikuloitujen foneemien erottelukykyyn [6]. 1

Puheinversio-ongelma on ns. ill-posed ongelma, joka tekee siitä vaikeasti lähestyttävän. Suora ongelma artikulatorisista parametreista akustisiin parametreihin voidaan kuvata yhtälöllä Az = u, z! Z, missä A on puheen tuottomekanismia kuvaava jatkuva operaattori (esim. artikulatorinen malli), z on vektori artikulatorisista parametreista ja u on näiden avulla syntetisoitu yksiselitteinen akustinen vektori. Käänteinen ongelma, eli vektorin z löytäminen käyttämällä mallia A ja vektoria u on huonosti käyttäytyvä. Eroavaisuus estimoidussa operaattorissa A ja todellisessa puhujan puheentuottomekanismissa saattaa aiheuttaa sen, että ratkaisua z ei välttämättä löydy mahdollisten ratkaisujen Z joukosta. Vaikka malli A olisikin täydellinen, ei ratkaisu silti yleisessä tapauksessa ole yksiselitteinen: monet artikulatoriset konfiguraatiot voivat tuottaa samat akustiset vektorit (esim. vatsastapuhujat käyttävät tätä ominaisuutta hyödykseen). Huonosti käyttäytyvien ongelmien ratkaisua voidaan lähestyä käyttämällä rajoitteita, jotka rajoittavat ratkaisujen joukkoa jollakin järkevällä tavalla. Puheinversiossa huomioitavia rajoitteita ja ratkaisutapoja on käsitellyt töissään mm. Viktor N. Sorokin [esim. 7]. Rajoitteina on mainittu mm. puheen kielelliset ja akustiset ominaisuudet, samoin kuin anatomiset rajoitteet. Artikulatoristen parametrien dynamiikka, vaihtelualueet, niiden mahdollinen synkronismi, lihaksiin vaikuttavat maksimivoimat tai niitä ohjaavien motoristen komentojen luonne ovat esimerkkejä mahdollisista rajoitteista. Täsmälliset artikulaatiota koskevat rajoitteet eivät ole selvillä, mikä vaikeuttaa inversioongelman ratkaisua. Sorokin esittää, että tasaisten vokaaliäänteiden tapauksessa artikulaatioelimet pyrkivät sijoittumaan siten, että ne ovat mahdollisimman vähän poikkeutettuina neutraaliasemistaan. Dynaamisen ääntöväylän inversioon puolestaan tarvitaan artikulaatioelinten nopeuksiin tai kiihtyvyyksiin liittyviä rajoitteita. Tällaisen parametreihin liittyvän optimointifunktion Ω(z) lisäksi on otettava huomioon estimoidun puheentuottooperaattorin A h poikkeavuus alkuperäisen puhujan operaattorista A. On siis sallittava tietty määrä poikkeavuutta alkuperäisessä mitatussa akustisessa vektorissa u! ja estimoidun mallin tuottamassa vektorissa A h z:!(a h z, u " ) = A h z! u ". Inversio-ongelma voidaan siis kuvata kustannusfunktion M(z h! ) =!(z)+ " 2 (A h z, u! ) / # (1) minimointiongelmana. β kuvaa kompromissia akustisen eron ja optimointifunktion välillä. Inversio-ongelman ratkaisua voidaan tehostaa luomalla koodikirjoja, jotka sisältävät vastaavuuksia akustisten ja artikulatoristen vektorien välillä. Koodikirjojen avulla voidaan estimoida karkeita trajektoreja, joista voidaan iteratiivisesti lähestyä optimaalisempaa ratkaisua [esim. 8]. Ouni ja Laprie [9] käyttivät kehittyneempää koodikirjaa, jossa koodikirja on jaettu pieniin hyperkuutioihin joiden sisällä kuvaus artikulatorisesta alueesta akustiseen on lineaarinen. Löydetystä aloitusratkaisusta etsittiin lopullinen pehmeä trajektori ratkaisemalla kustannusfunktiosta formuloidut Euler-Lagrange yhtälöt variaatiolaskennan avulla. Tässä työssä esitellään luomamme dynaaminen artikulatorinen malli, ja sen avulla luotu koodikirja inversiokokeita varten. Koodikirjahaussa olemme käyttäneet apuna kaksinapaista prediktoria, joka pyrkii säilyttämään artikulatoristen parametrien dynamiikan ja vähentämään koodikirjan karkeudesta johtuvia ongelmia. Testataksemme motorisen teorian hypoteeseja teemme sekä akustisilla vektoreilla että niiden inversioilla suomenkielisten tavujen luokittelukokeita. 2

2 ARTIKULATORINEN MALLI JA KOODIKIRJA Käyttämämme artikulatorinen malli perustuu pääosiltaan Mermelsteinin malliin [1]. Tiettyjä muutoksia alkuperäiseen kuvaukseen tehtiin, tarkoituksenamme pystyä mallintamaan ihmispuhujalle tyypillinen vokaaliavaruus. Kuvassa 1 (vas.) näkyy ääntöväylämallin rakenne. Kuva 1. Vasemmalla: Ääntöväylämalli ja sen liikkuvat parametrit. Oikealla: Ääntöväylämallilla luotu koodikirja esitettynä F1-F2-tasossa. Ääntöväylän kahdeksan parametrin paikat on kuvattu keskisagittaalisessa tasossa koordinaatteina, ja niiden avulla ääntöväylän ääriviivat lasketaan tiettyjen geometristen funktioiden avulla. Parametreina toimivat kieliluun x-koordinaatti, kielen tyven x- ja y- koordinaatit, kielen kärjen x- ja y-koordinaatit, leuan kulma, huulten pituus ja huulten avoimuus. Väylän pinta-alafunktio lasketaan jakamalla ilmatila tasaisesti 16 sektioon. Janojen pituuksia käytetään 16 sama-akselisten sylinterinmuotoisten putkien halkaisijoina. Pinta-alafunktio saadaan näiden putkien poikkileikkausten pinta-aloina liikuttaessa glottiksesta huulille. Kunkin segmentin pinta-ala skaalataan vielä vakiokertoimilla, jotta ääntöväylän ilmatilan vaihteleva leveys saadaan tarkemmin huomioitua. Parametrien säätö suoritettiin vertailemalla mallia MRI:llä mitattuihin keskisagittaalikuviin ja pinta-ala funktioihin [10]. Pinta-ala funktion avulla vastaavat äänet on syntetisoitu käyttämällä Kelly-Lochbaum tyyppistä siirtolinjaa [11], joka huomioi huulisäteilyn vaikutuksen. Myös dynaamisia siirtymiä ja jokellusta saadaan onnistuneesti syntetisoitua muuttamalla parametrien arvoja jatkuvasti. Akustinen-artikulatorinen koodikirja luodaan vaihtelemalla parametreja tasavälisesti niille sallittujen rajojen sisällä ja syntetisoimalla äänet. Akustisina parametreina käytetään LPCanalyysilla saatavia kolmea ensimmäistä formanttitaajuutta. Koodikirja koostuu yhteensä 212,500:sta formantti-parametri parista. Kuvan 1 oikea puoli esittää koodikirjan alkioita F1- F2-tasossa. Tunnettu vokaalikolmio on selkeästi havaittavissa. Kuvaan on lisätty suomenkielen vokaaliäänteiden F1 ja F2 arvot [12]. 3 INVERSIOKOKEET Tässä työssä inversiokokeita tehdään koodikirjan avulla ikkunoiduista äänisignaaleista artikulatorisen mallin parametreihin. Jokaiselle puhesignaalin ikkunalle etsitään kolme ensimmäistä formanttitaajuutta, joiden avulla koodikirjasta valitaan N lähintä artikulatorista 3

kandidaattia käyttäen formanttivektorien Euklidista etäisyyttä etäisyysmittana. Formanttien painotusta voidaan muuttaa kokeellisin skalaarein; kolmannelle formantille on syytä sallia enemmän vaihtelua kuin ensimmäiselle tai toiselle formantille. Tämän vaiheen jälkeen ratkaistavana on hankala optimaalisen polun etsimisongelma. Jokaiselle aikaikkunalle t = 1 T on olemassa N kandidaattia, joten mahdollisia polkuja joukon läpi on N T kappaletta. Koska kaikkien mahdollisten kombinaatioiden läpikäyminen on käytännössä mahdotonta, täytyy ongelmaan löytää approksimatiivinen ratkaisutapa. Yritämme löytää ongelmaan mahdollisimman tehokasta lähestymistapaa, joka mahdollistaa suuren näytemäärän inversion siedettävässä ajassa inversiotulosten tilastollisia testejä varten. Aikaisemmin olemme käyttäneet ahnetta (eng. greedy) dynaamista ohjelmointialgoritmia, joka valitsee seuraavaan ikkunaan aina edellistä ikkunaa lähimpänä olevan kandidaatin, lähtien liikkeelle jokaisesta ensimmäisen aikaikkunan kandidaatista [13]. Tämä metodi luo pehmeyttä artikulatorisille liikeradoille, mutta ei ota lihasten liikemääriä huomioon, ja saattaa aiheuttaa epätodenmukaisia kiihtyvyyksiä vierekkäisten ikkunoiden välille. Uudempi inversiomenetelmä käyttää kaksinapaista, alipäästötyyppistä prediktoria, joka pyrkii ennustamaan seuraavan ikkunan kandidaattia kahden edellisen ikkunan parametrin avulla. Metodi käy läpi myös suuremman määrän mahdollisia polkukandidaatteja ja valitsee lopulliseksi ratkaisuksi polun, joka käyttää minimimäärän kiihtyvyyttä koko lausahduksen läpi. Tämä malli säilyttää paremmin parametrien liikkeiden dynamiikan ja vähentää myös koodikirjan karkeuden aiheuttamia hyppäyksiä trajektoreissa [14]. Kuva 2 esittää vokaalisiirtymän /aui/ inversiota. Alkuperäiset formantit ja inversiotuloksen avulla matkitut formantit näkyvät vasemmanpuoleisessa kuvassa. Oikea kuva näyttää löydetyt parametriarvot. Monien parametriarvojen voidaan intuitiivisesti todeta vastaavan todellisuutta: /i/ äänteessä kielen tyvi siirtyy eteen ja ylöspäin, leuan aukeamiskulma on pieni ja huulet ovat voimakkaasti avonaiset. /u/ äänteessä huulet ovat työntyneet eteenpäin ja lähes suljetut, sekä kurkunpää on laajentunut. Kuva 2. Vokaalisiirtymän /aui/ inversio. Vasemmalla näkyy alkuperäisen äänteen formantit katkoviivalla ja matkitun äänen formantit yhtenäisellä viivalla. Oikealla inversion tulos parametriarvoina skaalattuna välille [-1, 1]. Tällä tavalla ratkaistuna inversio tuottaa sellaiset parametriarvot, joita käyttämällä artikulatorinen malli matkii alkuperäisen äänen formanttitaajuuksien mielessä. Testeissä kuitenkin on huomattu, että inversiotulos ei ole stabiili pienille vaihteluille inversion parametreissa. Esimerkiksi muutettaessa formanttien painotusta, saattaa inversiotulos näyttää 4

parametriavaruudessa hyvin erilaiselta, ja kompensatorisia muutoksia parametrien välillä saattaa tapahtua. Inversion laatua on pyritty testaamaan tilastollisella suomenkielen tavujen luokittelutestillä. Hypoteesinamme on ollut, että artikulatoristen parametrien mielessä eri puhujien lausumat tavut luokittuisivat luotettavammin annotaation mukaisiin luokkiin. Tavut on poimittu suomenkielisestä puhetietokannasta. Testeissä on käytetty yhteensä 2500 tavua: 20 kappaletta tavuja jokaista 125 annotoitua tavuluokkaa kohti. Eri tavuluokissa esiintyy kahdesta kuuteen eri miespuhujaa. Tilastollisia luokittelutestejä tehdään uudelleen näytteistämällä inversiotulokset ja alkuperäiset formanttivektorit samaan pituuteen (60 ms) ja luokittelemalla erikseen inversiotuloksia sekä formanttitrajektoreja k-means klusterointialgoritmilla. Luokkien määräksi valitaan tavuluokkien lukumäärä 125. Kunkin klusterin selektiivisyys S(c) = n c! max / n c kertoo klusterin yleisimmän tavun, n c! max, osuuden kaikista klusteriin valikoituneista tavuista n c. Keskimääräinen kokonaisselektiivisyys lasketaan painottamalla klusterien selektiivisyyttä klusterin alkioiden kokonaismäärällä ja keskiarvoistamalla: 125 S avg =! n c S(c) /! n (2) c c=1 Ensimmäiset tulokset [14] puhuivat sen puolesta, että inversion avulla samat tavut luokittuivat hieman luotettavammin inversion, kuin formanttitrajektorien avulla (S avg = 30.02 % ja 27.54 % vastaavasti). Painottamalla formanttitaajuuksia siten, että toiselle ja kolmannelle formantille sallitaan enemmän vaihtelua, nostaa kuitenkin myös formanttien avulla lasketun selektiivisyyden yli 30 %:iin. Yllättäen uusimmat inversiotulokset näyttävät, että jos inversiovaiheessa jokaiselle ikkunalle löydettyä 100:a parametrivektorikandidaattia keskiarvoistetaan ja käytetään tätä tulosta luokittelussa, saadaan tähänastisista luokittelutesteistä kaikkein paras tulos. Tämä todennäköisesti viittaa siihen, että kun artikulatorisesti perusteltua koodikirjaa käytetään yksittäisten ikkunoiden formanttitaajuuksien inversiossa, suuri osa lähimmistä koodikirjan formanttikandidaateista sattuu parametriavaruudessa lähelle todellista ääntöväylämuotoa. Toisin sanoen, artikulatoriset trajektorit saattavat kulkea pääosin sellaisia ratoja, joiden tuottamat akustiset signaalit ovat vähiten herkkiä pienille vaihteluille artikulaatiossa. Vaihteluvälille [-1, 1] painotetuilla formanttitrajektoreilla ja edellä kuvatulla tilastollisella inversiometodilla saadut selektiivisyystulokset on esitetty taulukossa 1. Tulokset on keskiarvoistettu 30 k-means klusteroinnin tuloksesta, koska alkuperäisten klusterikeskusten valinta voi vaikuttaa klusteroinnin lopputulokseen. Taulukko 1. Klusterien selektiivisyydet käyttämällä normalisoituja alkuperäisiä formanttitrajektoreita, sekä yksinkertaista koodikirjan avulla suoritettua inversiota. 125 c=1 Klusterin selektiivisyys S avg Keskihajonta Formanttitrajektorit (painotettu) 30.94 % 0.71 % Tilastollinen inversiometodi 32.61 % 0.73 % 5

4 YHTEENVETO Olemme luoneet dynaamisen artikulatorisen mallin, joka pystyy tuottamaan koko ihmispuhujalle tyypillisen vokaaliavaruuden käyttämällä parametreinaan kahdeksaa artikulaatioelimien paikkoja kuvaavaa koordinaattia. Mallia käyttämällä on kehitetty ja testattu uusia tehokkaita puheinversiomenetelmiä. Inversiotulosten evaluonnissa on käytetty suomenkielen tavujen klusteroitumistestejä hypoteesinamme, että eri puhujien lausumat samat tavut luokittuisivat luotettavammin artikulatorisia parametreja, kuin alkuperäisiä formanttitaajuuksia käyttäen. Inversiossa on testattu liikkeiden dynamiikkaa mallintavaa prediktorirakennetta, mutta uusimmat testit näyttävät, että yksinkertainen koodikirjan lähimpiä kandidaatteja keskiarvoistava inversio johtaa vielä parempiin luokittelutuloksiin. Tulos viittaa siihen, että tavutasolla artikulatoriset liikeradat muodostavat sellaisia polkuja, joista vähäinen poikkeaminen luo mahdollisimman pienet muutokset akustisissa trajektoreissa. 5 VIITTEET 1. MERMELSTEIN, P., Articulatory model for the study of speech production, J. Acoust. Soc. Am., 53(4), 1070-1082, 1973. 2. MAEDA, S., Compensatory articulation during speech: Evidence from the analysis and synthesis of vocal tract shapes using an articulatory model, W. J. Hardcastle and A. Marchal, Speech production and speech modeling, 131-149, Kluwer Acad. Publ., 1990. 3. DANG, J., HONDA, K., Estimation of vocal tract shapes from speech sounds with a physiological articulatory model, Journal of Phonetics, 30, 511-532, 2002. 4. LIBERMAN, A., AND MATTINGLY, I., The motor theory of speech perception revised, Cognition, 21, 1-36, 1985. 5. WILSON, STEPHEN M., et al., Listening to speech activates motor areas involved in speech production, Nature Neuroscience, 7, 701 702, 2004. 6. D AUSILIO A., ET.AL., The Motor Somatotopy of Speech Perception, Current Biology, 19, 381-385, 2009. 7. SOROKIN, VICTOR N., Speech Inversion: Problems and Solutions, Dynamics of Speech Production and Perception, 263-282, P. Divenyi et al. (Eds.), IOS Press 2006. 8. LAPRIE T, & MATHIEU B, A variational approach for estimating vocal tract shapes from the speech signal. Proceedings of the International Conference on Acoustics, Speech and Signal Processing, 2, 929 932, May 1998. 9. OUNI, S. & LAPRIE, Y., Modeling the articulatory space using a hypercube codebook for acoustic-to-articulatory inversion, J. Acoust. Soc. Am, 118 (1), 444-460, 2005. 10. STORY, B. H., TITZE, I. R., & HOFFMAN, E. A., Vocal tract area functions from magnetic resonance imaging, J. Acoust. Soc. Am., 100(1), 537-554, 1996. 11. KELLY, J. L. & LOCHBAUM, C. C., Speech Synthesis, Proc 4th Int. Congr. Acoustics, Copenhagen, 1-4, 1962. 12. WIIK, K., Finnish and English vowels, University of Turku, Turku, 1965. 13. RASILO H., et. al. Estimation studies of vocal tract shape trajectory using a variable length and lossy Kelly-Lochbaum model, Proc. Interspeech 10, Japan, 2414-2417, 2010. 14. RASILO H., et. al., Method of speech inversion with large scale statistical evaluation, submitted. 6