ESIMERKKIPOHJAINEN MELUISAN PUHEEN AUTOMAATTINEN TUNNISTUS 1 JOHDANTO 2 ESIMERKKIPOHJAINEN PUHEENTUNNISTUS



Samankaltaiset tiedostot
Puheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting

Puheentunnistus Mikko Kurimo

Hissimatkustajien automaattinen tunnistaminen. Johan Backlund

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

3 Ikkunointi. Kuvio 1: Signaalin ikkunointi.

Digitaalinen audio

THE audio feature: MFCC. Mel Frequency Cepstral Coefficients

Signaalinkäsittely Musiikin sisältöanalyysi Rumpujen nuotinnos Muotoanalyysi Yhteenveto. Lectio praecursoria

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

Avainsanojen poimiminen Eeva Ahonen

JOHDATUS TEKOÄLYYN TEEMU ROOS

Puhesynteesin perusteet Luento 4: difonikonkatenaatio

SWEPT SINE MITTAUSTEKNIIKKA (NOR121 ANALYSAATTORILLA)

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

JOHDATUS TEKOÄLYYN TEEMU ROOS

pitkittäisaineistoissa

YMPÄRISTÖMELUN MITTAUSRAPORTTI

LUKUTEORIA johdantoa

pitkittäisaineistoissa

Musiikkipäiväkirjani: Maalataan, kirjoitetaan ja luetaan musiikkia (PWR1) Valitaan värejä, kuvia tai symboleja erilaisille äänille.

SGN-4200 Digitaalinen Audio Harjoitustyö-info

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea.

Korkean resoluution ja suuren kuva-alueen SAR

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

KARTTAPAIKANNUKSEN AVULLA TEHTY KYSELYTUTKIMUS TOIMISTOTILOJEN ÄÄNIYMPÄRISTÖSTÄ. Tiivistelmä

TAKAVARIKKO TULLISSA

Algoritmit lyhyiden sekvenssien rinnastamiseen referenssigenomia vasten. Krista Longi

Esimerkki: Tietoliikennekytkin

9.5. Turingin kone. Turingin koneen ohjeet. Turingin kone on järjestetty seitsikko

Oma nimesi Tehtävä (5)

9. Tila-avaruusmallit

SGN-1251 Signaalinkäsittelyn sovellukset Välikoe Heikki Huttunen

Hahmon etsiminen syotteesta (johdatteleva esimerkki)

JOHDATUS TEKOÄLYYN TEEMU ROOS

Tietotekniikan valintakoe

SGN-4200 Digitaalinen audio

Puhe ja kieli, 28:2, (2008) 73

IIR-suodattimissa ongelmat korostuvat, koska takaisinkytkennästä seuraa virheiden kertautuminen ja joissakin tapauksissa myös vahvistuminen.

MS-C1340 Lineaarialgebra ja

Vektoreiden virittämä aliavaruus

Tänään ohjelmassa. Kognitiivinen mallintaminen Neuraalimallinnus laskarit. Ensi kerralla (11.3.)

Päivitetty Text Mining -käyttöopas

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

TTS. Puhesynteesi (tekstistä puheeksi, engl. text-tospeech,

Matriisilaskenta Luento 8: LU-hajotelma

LEHDISTÖTIEDOTE. Nikon tuo markkinoille uuden sukupolven. kuvankäsittelyohjelmiston. Capture NX2: entistä tehokkaampi ja helppokäyttöisempi

805306A Johdatus monimuuttujamenetelmiin, 5 op

Mediaanisuodattimet. Tähän asti käsitellyt suodattimet ovat olleet lineaarisia. Niille on tyypillistä, että. niiden ominaisuudet tunnetaan hyvin

MS-C1340 Lineaarialgebra ja

Connexx 6 Siemens-kuulokojeiden sovitusohjelma.

Ajalliset muunnokset eksploratiivisen paikkatietoanalyysin työkaluna. Salla Multimäki

Toinen muotoilu. {A 1,A 2,...,A n,b } 0, Edellinen sääntö toisin: Lause 2.5.{A 1,A 2,...,A n } B täsmälleen silloin kun 1 / 13

MS-A0003/A Matriisilaskenta Laskuharjoitus 6

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Probabilistiset mallit (osa 2) Matemaattisen mallinnuksen kurssi Kevät 2002, luento 10, osa 2 Jorma Merikoski Tampereen yliopisto

Evoluutiopuu. Aluksi. Avainsanat: biomatematiikka, päättely, kombinatoriikka, verkot. Luokkataso: luokka, lukio

Sanajärjestyksen ja intensiteetin vaikutus suomen intonaation havaitsemisessa ja tuotossa

Pianon äänten parametrinen synteesi

S Havaitseminen ja toiminta

Viimeistely Ajourien huomiointi puutiedoissa ja lopullinen kuviointi. Metsätehon tuloskalvosarja 5/2018 LIITE 4 Timo Melkas Kirsi Riekki Metsäteho Oy

Koodausteoria, Kesä 2014

OT2 Puheteknologian opintokokonaisuuden suunnittelu Kalle Palomäki

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Petri Kärhä 04/02/04. Luento 2: Kohina mittauksissa

KUULON HARJOITTELU DYSFASIALAPSELLA, HOIDON SEURANTA HERÄTEVASTETUTKIMUKSIN

MS-A0003/A0005 Matriisilaskenta Malliratkaisut 5 / vko 48

Algoritmit 2. Luento 13 Ti Timo Männikkö

Algoritmi III Vierekkäisten kuvioiden käsittely. Metsätehon tuloskalvosarja 7a/2018 LIITE 3 Timo Melkas Kirsi Riekki Metsäteho Oy

ja λ 2 = 2x 1r 0 x 2 + 2x 1r 0 x 2

Monitavoitteiseen optimointiin soveltuvan evoluutioalgoritmin tarkastelu

DSP:n kertausta. 1 Spektri, DFT, DTFT ja aika-taajuusresoluutio

Kognitiivinen mallintaminen. Nelli Salminen

Tällä kerralla ohjelmassa. Kognitiivinen mallintaminen Neuraalimallinnus Kertausta: Perseptronin oppimissääntö

Kuva 1. Jokaisen tavallisen kuvan tasotyökalussa näkyy vain yksi taso, tässä nimellä tausta.

Matematiikka ja teknologia, kevät 2011

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

ICF / VAT toimintakyvyn arviointi. Kumppaniksi ry, Tuomas Leinonen

Siemens kuulokojeet ja. BestSound teknologia

Prominenssin toteutuminen kolmessa yleispuhesuomen varieteetissa

Automaattinen regressiotestaus ilman testitapauksia. Pekka Aho, VTT Matias Suarez, F-Secure

BIOMETRINEN TUNNISTUS MIKA RÖNKKÖ

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

925 Design on paremman työelämän suunnittelutoimisto

Taulukot. Jukka Harju, Jukka Juslin

T Luonnollisen kielen tilastollinen käsittely Vastaukset 8, ti , 8:30-10:00 Tilastolliset yhteydettömät kieliopit, Versio 1.

Digitaalinen signaalinkäsittely Kuvankäsittely

Puheentunnistuksesta potkua toimistotyöhön. Digikuntakokeilun verkostotapaaminen , Helsinki

Lisää kvanttoreista ja päättelyä sekä predikaattilogiikan totuustaulukot 1. Negaation siirto kvanttorin ohi

Kenguru 2017 Cadet (8. ja 9. luokka)

Pohjoisväylän - Helsingintien liittymän toimivuustarkastelu

TL5503 DSK, laboraatiot (1.5 op) Suodatus 2 (ver 1.0) Jyrki Laitinen

Johdatus tekoälyn taustalla olevaan matematiikkaan

Kompleksiluvut signaalin taajuusjakauman arvioinnissa

FONETIIKKA SUULLISEN KIELITAIDON ARVIOINNISSA

Langattoman verkon spektrianalyysi

Kerta 2. Kerta 2 Kerta 3 Kerta 4 Kerta Toteuta Pythonilla seuraava ohjelma:

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

Transkriptio:

ESIMERKKIPOHJAINEN MELUISAN PUHEEN AUTOMAATTINEN TUNNISTUS Antti Hurmalainen, Tuomas Virtanen, Jort Gemmeke, Katariina Mahkonen Signaalinkäsittelyn laitos Tampereen teknillinen yliopisto PL3, 331 Tampere antti.hurmalainen@tut.fi, tuomas.virtanen@tut.fi, jgemmeke@amadana.nl, katariina.mahkonen@tut.fi 1 JOHDANTO Koneellinen puheentunnistus on pitkään tutkittu ongelma, jolle löytyy lukuisia käyttötarkoituksia mm. automaattisen transkription, puheohjattujen laitteiden ja tietojärjestelmien käytön aloilta. Nykyiset toteutukset pystyvät lähinnä häiriöttömissä oloissa hyvään tunnistustarkkuuteen, mutta laatu laskee nopeasti taustamelun myötä. Koska monet sovellukset ovat tarkoitetut käytettäviksi vaihtelevissa ääniympäristöissä,järjestelmien melusietoisuutta tulisi saada parannettua merkittävästi käyttövarmuuden takaamiseksi. Myös puhujariippumattomuus on toivottava piirre yleiseen käyttöön tarkoitussa järjestelmässä. Enemmistö nykyisistä puheentunnistimista perustuu lyhyiden aikaten ( 2 ms) analysointiin käyttäen multinormaalijakaumiin pohjautuvia spektrimalleja. Pitkään jatkuneen kehityksen ansiosta mallit on saatu toimimaan tehokkaasti puheen sisällön tunnistamista ajatellen. Lähestymistavan ongelmana on, että taustamelu turmelee helposti yksittäisten ten puhespektrin jolloin tunnistus usein epäonnistuu. Ongelmaa on yritetty ratkoa erilaisilla suodatus- ja kompensaatiomenetelmillä, mutta näillä saavutettavat parannukset eivät vielä ole tyydyttävällä tasolla laajaa käyttöä ajatellen. 2 ESIMERKKIPOHJAINEN PUHEENTUNNISTUS Puheentunnistuksen melusietoisuutta on mahdollista parantaa siirtymällä pidempään aikakontekstiin. Yksittäisen kehyksen luokittelun sijasta siirrytään useiden ten pituiseen aikaikkunaan. Puhe- ja melupiirteille olisi mahdollista luoda tällöinkin mallipohjaiset aika-taajuusjakaumat. Käytännössä kuitenkin hyviätuloksiaonsaavutettukäyttämällä ääniesimerkkejä (engl. exemplar ). Tällöin puhe- ja melumallin kantaelementteinä toimivat suoraan harjoitusmateriaalista poimitut spektrogrammilohkot. Osa näistä mallintaa puhdasta puhetta, osa pelkkää melua. Esiteltävässä järjestelmässä käytetään 23 Mel-taajuuskaistaa ja 30 aikatä. Koska siirtymätenvälilläonmillisekuntia, yksi elementti ilmentää aika-taajuustason äänitapahtumia noin 0 300 millisekunnin ajalta. Esimerkkipohjaisen menetelmän keskeinen ajatus melusietoisuuden kannalta on se, että 1

havaittu spektrogrammi voidaan esittää aiemmin kerättyjen esimerkkienavulla.koska ikkunaan sisältyy pitkiä, aikatason muutokset huomioivia piirteitä, voidaan tällaisia kokonaishahmoja löytää myös melun keskeltä. Tyypillinen äänneyhdistelmä on mahdollista havaita silloinkin, kun se hetkellisesti peittyy kokonaan häiriöiden alle. Lyhyen kontekstin tunnistimille tällainen tilanne tuottaisi suuria ongelmia. Toinen olennainen ominaisuus kuvattavassa järjestelmässäonmeluisanhavainnonmallintaminen puheen ja melun summana. Ei-negatiivisen matriisihajotelman (non-negative matrix factorisation, NMF) avulla voidaan löytää esitys, jossakokonaishavaintokootaan summaamalla kantaesimerkkien painokertoimia, aktivaatioita. Ei-negatiivisuustakaa, että esimerkkejä ainoastaan lisätään toisiinsa positiivisella painolla tai ei käytetä lainkaan. Kun piirteet ovat positiivisia spektrimagnitudeja, tämä vastaa läheisesti todellista, fyysistä mallia äänten summautumisesta. Lisäehtona hajotelmassa käytetään harvuutta (sparsity). Algoritmia ohjataan siten, että havainto mallinnetaan harvojen kantaelementtien yhdistelmänä. Toisin sanoen aktiivisia lähteitä sallitaan vähemmän kuin täysin vapaassa hajotelmassa syntyisi. Tämä pakottaa järjestelmän löytämään sellaisia ratkaisuja, joissa pieni osa esimerkeistä riittää selittämään havainnon kohtalaisella tarkkuudella. Koska etenkin puheen kohdalla puhuja voi tuottaa vain yhtä äännettä kerrallaan, harva esitys tuottaa sille uskottavan mallin. Liian monien aktivaatioiden salliminen johtaisi ylisovittamiseen epärealistisen suurella määrällä eri lähteitä. Kun havainnolle on löydetty esitys puhe- ja meluelementtien summana, voidaan esimerkiksi poistaa kokonaan meluaktivaatiot ja rekonstruoida signaali pelkästään havaittujen puheaktivaatioiden avulla. On tosin myös näytetty, että tämä vaihe ei ole tarpeen puheentunnistusta ajatellen. Puheen sisältö voidaan tulkita suoraan puheaktivaatioiden identiteetistä ja painoista. Tällä tavoin saadut tunnistustuloksetovat parempia kuinehostuspohjaisilla, signaalia puhdistavilla menetelmillä on saavutettu. [1, 2, 3] 3 MATEMAATTINEN MALLI JA TUNNISTUSJÄRJESTELMÄ Otetaan tutkittavaksi yksi havaintoikkuna, jossa on T peräkkäistä tä ja B taajuuskaistaa. Sen kaikki aika-taajuuselementit (spektrimagnitudit) voidaan esittää T B- pituisena vektorina y. JossanakirjakoostuuK samankokoisesta spektrogrammista, samoin piirrevektoreiksi muunnettuna a i (i 1...K), havainnon painotettu summaesitys on y K x i a i. (1) i=1 Siispä painokertoimet x i määrittävät sanakirjaelementtien suhteelliset osuudet havainnon selittämiseksi. Harvuus tarkoittaa, että enemmistö painoista on nollia tai hyvin pieniä. Kuvassa 1 on esitetty, kuinka havainto voi koostua useiden eri esimerkkien yhdistelmästä. Kaikki summaan valikoituvat puhe-esimerkit ovat sanasta one. Vaikka mikään näistä 2

puhe 1 puhe 2 puhe 3 puhe kaista 1 1 melu 1 1 1 melu 2 1 1 melu 3 1 1 melu kaista 1 summa Kuva 1: Piirresummaus ei täsmälleen vastaa havaittua sanaa, yhdessä ne pystyvät esittämään hiukan erilaisenkin ääntämyksen. Lisäksi osa havainnosta selittyy melulla. Ikkunan kaikki painot voidaan esittää yhdellä vektorilla x. Kun sama menettely toistetaan peräkkäisille, lomitetuille aikaikkunoille, saadaan jokaiselle ikkunalle j 1...L oma painovektori x j.nämäyhdessäkertovat,mitkäkantaelementitaktivoituvaterivaiheissa tunnistettavaa lausetta. Lauseen sisältö voidaan selvittää suoraan aktivaatioista. Jokaisensanakirjanesimerkin sisältö voidaan olettaa ennalta tunnetuksi. Niinpä puhetta vastaaviinesimerkkeihinvoidaan sisällyttää tunnisteet (label), jotka kertovat niiden foneettisen sisällön. Oletetaan,että järjestelmässä onq foneettista tilaa. Esitetään jokaisen ajanhetken j tilasisältöä vektorilla q j,jonkapituusonq.jokainenvektorinelementtikertoo,kuinkatodennäköinen kukin tila on kyseisellä ajanhetkellä. Kun tietty puhe-esimerkki aktivoituu hetkellä j,siihenkuuluvientilojentodennäköisyyttäkasvatetaanaktivaatiota vastaavalla aikavälillä. Kuvassa 2 on esitetty yllä nähtyjen puhe-esimerkkien tunnisteketjut ja niistä syntyvä yhdistelmä. tunnisteet 1 tunnisteet 2 tunnisteet 3 tunnisteet summa tila Kuva 2: Tunnistesummaus Erilaiset sanan one esimerkit tuottavat hiukan toisistaan poikkeavat tilaketjut, mutta niiden yhdistelmänä saatava kuvio on helposti tunnistettavissa oikeaksi sanaksi. Sama toistetaan kaikkien aktivaatioiden kohdalla. Lopputuloksena saadaan tilamatriisi Q, josta nähdään puheen sisältö pidemmältä ajalta. Kuvassa 3 nähdään kokonainen lauseen 3

tilamatriisi. Lauseen kesto on noin 260 tä (2.6 s) ja puhetilat esittävät erilaisia ääneen lausuttuja numeroita. tila 32 6 0 96 1 1 0 "one" "two" "three" "four" "five" "six" "seven" "eight" "nine" "zero" 0 0 0 Kuva 3: Tilamatriisi Kuvasta voidaan lukea, että lauseessa esiintyy englanninkielinen numerosarja 77. Tulkitseminen tapahtuu tehtävään sopivalla kielimallilla, kuten tavanomaisissakin järjestelmissä. TULOKSIA Esimerkkipohjaisen tunnistuksen tehokkuutta on testattu AURORA-2 -tietokannalla, jossa useat eri puhujat luettelevat englanninkielisiä numerosarjoja. Jokainen lause koostuu 1 7 numerosta, ja tehtävänä on havaita mahdollisimman moni numero oikein. Todellisten tunnistustilanteiden mallintamiseksi lauseisiin on lisätty taustamelua signaalikohinatasoilla :stä - desibeliin. Toisin sanoen vaikeimmissa tapauksissa melu on kokonaisuutena voimakkaampaa kuin puhe itse. Melua on äänitetty kahdeksasta eri lähteestä (maanalainen, auto, puheensorina, näyttely, ravintola, katu, lentokenttä, rautatieasema). Tunnistusjärjestelmää varten laadittiin sanakirjat, joihin valittiin 000 esimerkkiä puheesta sekätoiset 000esimerkkiä melusta. Jälkimmäistä varten materiaalia oli saatavilla vain neljästä ensimmäisestä melulähteestä. Sanakirjat koottiin kolmella eri ikkunanpituudella:, tai 30 peräkkäistä tä ikkunaa kohden. Sanakirjoihin ja havaintopiirteisiin sovellettiin taajuuskaistavoimakkuuksien tasausta. Tämän jälkeen lausepiirteistä laskettiin hajotelmat ja näin saadut aktivaatiot tunnistettiin edellä kuvatulla tavalla. Tulokset on koottu taulukoihin 1 (melujoukko A ) ja 2 (melujoukko B ). Luvut kuvaavat oikein tunnistettujen sanojen prosentteja eri kohinatasoilla ja ikkunanpituuksilla. Lisäksi on esitetty vertailutulokset tavanomaisemmasta, jonkin verran melua kompensoivasta järjestelmästä. Joukon A taustamelu käsittää ne neljä lähdettä, joista oli saatavillaesimerkkejäsanakirjoja varten. Joukon B häiriö oli ennalta tuntematonta.

Taulukko 1: A-tuloksia SNR clean 1 0 - vert. 99.7 97.9 9. 91. 2.6 62.1 17.1 T= 96.2 9.3 9. 92.1.7 71.2 39.6 T= 96.6 9. 9. 92.7. 7.1 3.1 T=30 9.7 93. 93.3 92.2 9.9 79. 6.7 Taulukko 2: B-tuloksia SNR clean 1 0 - vert. 99.7 9.3 91.2.3 70. 0.2.2 T= 96.2 9.7 93.6 7.9 7. 7.1 27. T= 96.6 9.3 93.7 9.9 2.7 63.1 3.7 T=30 9.7 93. 93.2 90.1.7 67. 37.6 Nähdään, että normaalijakaumien mallinnukseen perustuva vertailujärjestelmä suoriutuu paremmin puhtaan puheen tunnistuksesta. Tässä suhteessa esitetty malli ei vielä ole optimoitujen tunnistimien tasolla. Toisaalta kohinan lisääntyessä esitetty algoritmi saavuttaa merkittävästi parempia tuloksia. - desibelin kohdalla vertailumenetelmä muuttuu käytännössä käyttökelvottomaksi, mutta esimerkkipohjainen tunnistin saavuttaa yhteensopivan sanakirjan kanssa yli 0 prosentin tunnistustarkkuuden. DISKUSSIO Esimerkkipohjainen puheentunnistusmenetelmä on osoittautunut perinteisiä normaalijakaumien mallinnukseen perustuvia menetelmiä toimivammaksi erittäin häiriöisessä ympäristössä. Ääniesimerkkien käyttö on kätevä tapa mallintaa äänneyhdistelmien laajempia hahmoja. Mitä enemmän signaalissa on häiriötä, sitä enemmän puhe-esimerkkien ajallisesta pituudesta on etua tunnistukseen. Häiriöosuuson helppo poistaa puheesta, joka on mallinnettu summautuvien puhe- ja meluesimerkkien avulla. Tällöin mallia voidaan käyttää myös puheäänen laadun parantamiseen. VIITTEET [1] VIRTANEN T, GEMMEKE J, & HURMALAINEN A, State-based labelling for a sparse representation of speech and its application to robust speech recognition, in Proceedings of INTERSPEECH,pages93 96,Makuhari,Japan,. [2] RAJ B, VIRTANEN T, CHAUDHURE S, & SINGH R, Non-negative matrix factorization based compensation of music for automatic speech recognition, in Proceedings of INTERSPEECH,pages717 7,Makuhari,Japan,. [3] GEMMEKE J, VIRTANEN T, & HURMALAINEN A, Exemplar-based sparse representations for noise robust automatic speech recognition, IEEE Transactions on Audio, Speech and Language Processing,(11).