Seminaarityö. Puhujantunnistus Gaussian Mixture malleilla



Samankaltaiset tiedostot
Maximum likelihood-estimointi Alkeet

Puheenkäsittelyn menetelmät

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Puheentunnistus Mikko Kurimo

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

805306A Johdatus monimuuttujamenetelmiin, 5 op

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Signaalinkäsittely Musiikin sisältöanalyysi Rumpujen nuotinnos Muotoanalyysi Yhteenveto. Lectio praecursoria

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Dynamiikan hallinta Lähde: Zölzer. Digital audio signal processing. Wiley & Sons, Zölzer (ed.) DAFX Digital Audio Effects. Wiley & Sons, 2002.

S Laskennallinen Neurotiede

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Sovellettu todennäköisyyslaskenta B

T Luonnollisten kielten tilastollinen käsittely

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Dynaamiset regressiomallit

Puheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting

S Havaitseminen ja toiminta

Harjoitus 7: NCSS - Tilastollinen analyysi

Mallipohjainen klusterointi

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Dynaamiset regressiomallit

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

1. TILASTOLLINEN HAHMONTUNNISTUS

Sanajärjestyksen ja intensiteetin vaikutus suomen intonaation havaitsemisessa ja tuotossa

S09 04 Kohteiden tunnistaminen 3D datasta

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Pianon äänten parametrinen synteesi

Otoskoko 107 kpl. a) 27 b) 2654

Testejä suhdeasteikollisille muuttujille

Väliestimointi (jatkoa) Heliövaara 1

Sovellettu todennäköisyyslaskenta B

ÄÄNEKKÄÄMMÄN KANTELEEN MALLINTAMINEN ELEMENTTIME- NETELMÄLLÄ

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Esimerkki: Tietoliikennekytkin

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Tilastotieteen aihehakemisto

Sovellettu todennäköisyyslaskenta B

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

1. Tilastollinen malli??

Identifiointiprosessi

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

TTS. Puhesynteesi (tekstistä puheeksi, engl. text-tospeech,

Sovellettu todennäköisyyslaskenta B

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

THE audio feature: MFCC. Mel Frequency Cepstral Coefficients

Tilastotiede ottaa aivoon

Prosodian havaitsemisesta: suomen lausepaino ja focus

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Sovellettu todennäköisyyslaskenta B

JUSSI TAIPALMAA TEKSTIRIIPPUMATON PUHUJANTUNNISTUS

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

FUNKTIONAALIANALYYSIN PERUSKURSSI Johdanto

MATEMATIIKAN KOE, PITKÄ OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

Tekoäly ja alustatalous. Miten voit hyödyntää niitä omassa liiketoiminnassasi

Matriisit ja vektorit Matriisin käsite Matriisialgebra. Olkoon A = , B = Laske A + B, , 1 3 3

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Kompleksiluvut signaalin taajuusjakauman arvioinnissa

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

Johdatus tekoälyn taustalla olevaan matematiikkaan

Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Johdatus tekoälyyn. Luento : Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

A. Huutokaupat ovat tärkeitä ainakin kolmesta syystä. 1. Valtava määrä taloudellisia transaktioita tapahtuu huutokauppojen välityksellä.

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

9. Tila-avaruusmallit

Luku 6. Dynaaminen ohjelmointi. 6.1 Funktion muisti

tilastotieteen kertaus

PUHUJARIIPPUMATON AUTOMAATTINEN PUHEENTUNNISTUSJÄRJESTELMÄ MATLAB- OHJELMALLA

Tilastotiede ottaa aivoon

Cubature Integration Methods in Non-Linear Kalman Filtering and Smoothing (valmiin työn esittely)

Tarvitseeko informaatioteknologia matematiikkaa?

Siemens kuulokojeet ja. BestSound teknologia

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

JOHDATUS TEKOÄLYYN TEEMU ROOS

Jatkuvat satunnaismuuttujat

JOHDATUS TEKOÄLYYN TEEMU ROOS

EPMAn tarjoamat analyysimahdollisuudet

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

BIOMETRINEN TUNNISTUS MIKA RÖNKKÖ

Osa 2: Otokset, otosjakaumat ja estimointi

Rekisterit tutkimusaineistona: tieteenfilosofis-metodologiset lähtökohdat

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Puhutun ja kirjoitetun rajalla

JOHDATUS TEKOÄLYYN TEEMU ROOS

Laskuharjoitus 9, tehtävä 6

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

SGN-4200 Digitaalinen Audio Harjoitustyö-info

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Computing Curricula raportin vertailu kolmeen suomalaiseen koulutusohjelmaan

Transkriptio:

Lappeenrannan teknillinen yliopisto Teknillistaloudellinen tiedekunta Tietotekniikan koulutusohjelma Seminaarityö Puhujantunnistus Gaussian Mixture malleilla Seminaaripaperin ohjaajana toimii TkT Leena Ikonen Niko Reunanen, 0312399 niko.reunanen@lut.fi Petri Hienonen, 0326592 petri.hienonen@lut.fi 2013

TIIVISTELMÄ Lappeenrannan teknillinen yliopisto Teknillistaloudellinen tiedekunta Tietotekniikan koulutusohjelma Niko Reunanen Petri Hienonen Puhujantunnistus Gaussian Mixture malleilla 2013 26 sivua, 5 kuvaa, 18 kaavaa Tarkastaja: Leena Ikonen Hakusanat: mfcc, gmm, ubm, puhujantunnistus TIIVISTELMÄ Puhujan tunnistuksessa tehtävänä on päätellä puhujasta äänen ja sanojen peruteella puhujan persoona. Monet moderneista järjestelmistä pohjautuvat tilastollisille malleille, kuten Gaussian Mixture malli (GMM), Universal Background malli (UBM) ja Hidden Markov malli (HMM). Yksi syistä joiden takia GMM mallit ovat yleisiä on, että niiden parametrit on mahdollista arvioida automaattisesti suuresta määrästä dataa ja ne ovat laskennallisesti yksinkertaisia. ii

ABSTRACT Lappeenranta University of Technology Faculty of Technology Management Department of Information Technology Niko Reunanen Petri Hienonen Speaker recognition using Gaussian mixture models 2013 26 pages, 5 figures, 18 equations Examiner: Leena Ikonen Keywords: mfcc, gmm, speaker recognition Purpose of speaker recognition is to identify person behind the voice and words. Many of the modern systems are based on statistic models like Gaussian Mixture Models (GMM), Universal Background Model (UBM) and Hidden Markov models (HMM). One reason for GMM popularity is the possibility to approximate model parameters using a big amount of data and they are computationally simple. iii

Sisällysluettelo 1 JOHDANTO 3 1.1 Tausta.................................... 3 1.2 Tavoitteet ja rajaukset............................ 4 1.3 Työn rakenne................................ 4 2 HISTORIA JA KÄSITTEET 5 3 KOMPONENTIT 6 3.1 Puheen parametrisointi........................... 8 3.1.1 Lyhyen aikavälin spektriset ominaisuudet............. 9 3.1.2 Äänilähteen ominaisuudet..................... 10 3.1.3 Spektroväliaikaiset ominaisuudet................. 10 3.1.4 Prosodiset ominaisuudet...................... 10 3.1.5 Korkeamman tason ominaisuudet................. 11 3.2 Tilastolliset mallit.............................. 11 3.2.1 Muunnellut Gaussian Mixture mallit................ 12 3.2.2 Universaali kohina malli...................... 14 3.2.3 Hidden-Markov mallit....................... 15 3.3 Normalisointi ja pisteytys.......................... 16 4 TEKNISET HAASTEET JA POHDINTA 18 4.1 Erilaiset akustiset ympäristöt ja muut muuttuvat tekijät.......... 18 4.2 Itseoppivuus ja muuntautuvuus....................... 18 4.3 Usean ihmisen tunnistus.......................... 18 4.4 Usean ihmisen tunnistus samanaikaisesta puheesta............ 19 4.5 Äänen jäljittely............................... 19 4.6 Äänen nauhoitus.............................. 19 4.7 Tulevaisuus................................. 20 5 YHTEENVETO 21 LÄHTEET 22 1

Symboliluettelo HMM Hidden Markov malli Hidden Markov Model GMM Gaussinen Mixture malli Gaussian Mixture Model UBM Universaali Kohina malli Universal Background Model MAP Maksimi jalkeis todennakoisyys Maximum Posterior Probability EM Oletusarvon maksimointi Expectation Maximisation ML Korkein todennäköisyys Maximum Likelihood LR Todennäköisyyksien suhde Likelihood ratio N Normaalijakauma σ 2 Varianssi µ Keskiarvo µ k Sopeutettu keskiarvovektori Ŝ Yksittäinen puhuja Y Arvioitu puhuja X Puheen ominaisuusvektori λ Puhujan yksittäinen Gaussian Mixture Model λ UBM x Y Ŵ Universaali taustamalli Puuttuvan tiedon ominaisuusvektori Suodatinpankin ulostulo Sanasarja 2

1 JOHDANTO Biometrisillä tunnisteilla voidaan toteuttaa käteviä, toimivia sekä turvallisia menetelmiä henkilöiden tunnistamiseen. Menetelmät perustuvat ajatukseen, että erilaiset biometriset ominaisuudet vaihtelevat tai ovat uniikkeja ihmisten välillä. Tyypillinen stereotyyppinen esimerkki on ihmisten sormenjäljet, joilla ihmiset voidaan erotella toisistaan. Ihmisen ääntä pystytään käyttämään käyttäjän tunnistamiseen. Puhuminen on ihmiselle erittäin luonteva ja nopea toimenpide joten biometrinen tunnistaminen ihmisen äänen perusteella kätevä tapa tunnistaa henkilö. Henkilön tunnistamisella on monenlaisia käyttötarkoituksia. Intuitiivinen idea on käyttää henkilön tunnistamista autentikointiin tai jonkinlaisen kulunpääsyn hallintaan rakennuksissa. Autentikoinnilla on monia käyttökohteita kuten esimerkiks henkilökohtaisiin tietoihin pääsy päätelaitteella. Biometrinen autentikointi voi myös tukea perinteisiä autentikointimenetelmiä. 1.1 Tausta Puheen ja puhujan tunnistuksessa tehtävänä on päätellä puhujasta äänen ja sanojen peruteella puhujan persoona. Pitkällä aikavälillä ollakseen tehokas tämä vaatii integraatiota monien luonnollisen kielen prosessointi komponenttien välillä. Tunnistautumisessa käytettävät menetelmät perustuvat tilastollisille piirteille, kuten Hidden Markov malleille (HMM) ja Gaussian Mixture malleilla. Yhteinen piirre malleille on että niiden parametrit on mahdollista arvioida automaattisesti suuresta määrästä syötteitä ja ne ovat yksinkertaisia ja laskennallisesti yksinkertaisi. Puhujan tunnistaminen voidaan jakaa karkeasti kahteen osaan: puhujan tunnistus ja puhujan varmistus. Tunnistuksessa tunnistetaan puhuva henkilö kaikista henkilöistä, joille on koulutettu oma puhujamalli. Kaikki järjestelmää käyttävän henkilöt tarvitsevat äänelleen koulutetun mallin. Suljetun joukon tunnistamisessa äänisignaali tunnistetaan yhdeksi järjestelmän kaikista opetetuista äänistä. Oletuksena äänilähteen tulee opetetuista käyttäjistä. Tyypillisesti esimerkiksi organisaatioden sisällä käytetään suljetun joukon tunnistamista, olettaen että ulkopuoliset eivät pääse käyttämään järjestelmää. Avoimen joukon tunnista- 3

misessa testattava ääni voi tulla ulkopuoliselta henkilöltä, joten ensiksi päätetään tuleeko ääni tunnetulta puhujamallilta. Tuntematon puhuja hylätään. Tunnistettu ääni tunnistaan suljetun joukon puhujamalleista. Puhujan varmistamisessa järjestelmä varmistaa puhujan olevan väitetty identiteetti. Varmistaminen on osa tietoturvaa, jotta huijari ei voi käyttää esimerkiksi pankin palveluita matkimalla alkuperäisen identiteetin puhujamallia. [TP11] 1.2 Tavoitteet ja rajaukset Työssä käsittelemme perusteet perinteisestä puhujantunnistusjärjestelmästä. Nykyaikaisia menetelmiä emme käsittele tarkemmin, kuten esimerkiksi Deep Learningiin perustuvia järjestelmiä. Varsinaista puhujantunnistuksen järjestelmää ei toteuteta. Tekstistä riippuvia malleja ei esitellä niiden HMM perusteita tarkemmin. Keskitymme erityisesti Gaussisiin Mixture malleihin, joiden on havaittu olevan yksi tehokkaimista perinteisistä menetelmistä [RR95]. 1.3 Työn rakenne Toisessa kappaleessa käydään läpi puheen ja puhujantunnistuksen historia ja puheentunnistusprosessi yleisesti. Kolmannessa kappaleessa pyritään antamaan tarkempi kuva puheentunnistuksen yksittäisistä komponenteista, kerrotaan kuinka puhesignaalista voidaan irroittaa tilastollisia piirteitä ja keskustellaan eri mallien käyttämiseksi piirteiden luokitteluun. Kappaleen päätteeksi käsittelemme luokittelun normalisointia, pistetystä ja lopullista puhujan tunnistamista. Neljännessä kappaleessa keskitytään puheentunnistuksen teknisiin haasteisiin ja pohdintaan. Viimeisessä kappaleessa muodostetaan yhteenveto seminaaripaperin sisällöstä. 4

2 HISTORIA JA KÄSITTEET Puheentunnistus syntyi tutkijoiden yrityksille hyödyntää akustisen fonetiikan teoriaa. Esimerkiksi vuonna 1956 RCA:n laboratoriossa yritettiin tunnistaa kymmenen eri puhuttua tavua. Suuri ongelma oli puheosien vaihtelevat kestot. Seuraavaksi 60 - luvulla RCA:n laboratoriossa kehitettiin menetelmiä ajan normalisointiin ja tunnistustuloksia parannettiin. Lopulta 60 - luvun lopussa aloitettiin tutkimus jatkuvan puheentunnistuksen saavuttamiseksi foneemien dynaamiseen seuraamisen avulla. Monia onnistumisia saavutettiin 70 - luvulla kun eri tutkijat eri maista alkoivat muodostamaan yksittäisten sanojen tunnistamisen uskottavaksi järjestelmäksi. Tilastolliset mallit omaksuttiin vasta 80 - luvulla ja esimerkiksi HMM alettiin käyttämään. Vasta 80 - luvun puolessavälissä HMM yleistyi puheentunnistuksen tutkimustyössä. Useimmat nykyiset puheentunnistusjärjestelmät pohjautuvat tilastotietoihin. Keinotekoiset neuroverkot otettiin käyttöön 80 - luvulla. Keinotekoiset neuroverkot kehitettiin 50 - luvulla, mutta vasta 80 - luvulla neuroverkot saatiin käyttöön. Kehitystä tapahtui myös 90- ja 2000 - luvuilla etenkin syvien neuroverkkojen ja ensemble luokittimien alueella. [Fur05] Tutkimus puhuja tunnistamisesta alkoi 60 - luvulla, kun Pruzansky tutki puhujan tunnistamista käyttämällä kahden digitaalisen spektrogrammin samankaltaisuuden mittaa ja signaalin suodattimia. Myös puheen ominaisuuksien tunnistamista tutkittiin johon ei liity varsinainen puheen sisältö. Signaalista määritettiin erilaisia tilastollisia ja ennustavia avainarvoja, kuten esimerkiksi signaalin keskimääräinen autokorrelaatio. Kuten puheentunnistuksessa, puhujan tunnistuksessa otettiin käyttöön HMM niiden tarjoaman vakauden takia templaattihakuun verrattuna. Vakaa tunnistaminen oli 90 - luvun tutkimuksen yksi oleellisimmista ideoista. Kehitys HMM keskellä jatkui, ja HMM itsessään saatiin kehitettyä antamaan parempia tuloksia puhujan tunnistamisessa. Myös havaittiin, että tietyissä tilanteista GMM antoivat lähes samoja tuloksia kuin HMM. Lopulta 2000 - luvulla päästiin tunnistamaan korkean tason ominaisuuksia, kuten esimerkiksi ääntämistä ja sanojen yksilömurretta. [Fur05] 5

3 KOMPONENTIT Puheprosessi käynnistyy, kun puhujan mieli päättää viestin W. Viesti W kulkee hälyisen puhujan äänijänteistä koostuvan kommunikaatiokanavan läpi. Ne muokkaavat tulosanalistan ilman värähtelyksi, joka vastaanotetaan mikrofonissa ja muutetaan digitaaliseksi signaaliksi X. Tämän jälkeen erilaisilla signaaliin kohdistetuilla operaatioilla pyritään irrottamaan merkittäviä ominaisuuksia. Esimerkiksi signaali X voidaan muuttaa takaisin sanajoukoksi Ŵ, mikä on ideaalissa tilanteessa lähellä alkuperäistä W :tä. Tämän jälkeen suoritetaan tunnistaminen. (Kuva 1.). Kuva 1: Yksinkertaistettu järjestelmän arkkitehtuuri puhujantunnistusjärjestelmässä Akustinen malli käsittää tiedon akustiikasta, ääntämisestä, mikrofonista, ympäristön vaihtelevaisuudesta, sukupuolesta, murre-eroista puhujien välillä, jne. Kielelliset mallit viittaavat järjestelmän tietoon siitä mikä on mahdolinen sana, mitkä sanat mahdollisesti ovat toistensa lähellä ja missä järjestyksessä. Kielellinen malli koostuu semantiikasta ja halutuista funktioista. Signaalinkäsittelyssä haasteita aiheuttavat puhujan karasteristiikka, puhetyyli ja puhenopeus, puheen perussegmenttien tunnistus, mahdolliset sanat, todennäköiset sanat, tuntemattomat sanat, kieliopilliset erot, mahdollinen häly ja tulosten pisteytyksen tulokset. Puhesignaali prosessoidaan signaalinprosessointimoduulissa, joka irrottaa piirrevektoreita käsittelyä varten. Esimerkiksi HMM malleissa käytetään sekä akustisia ja kielellisiä malleja luodakseen sanajärjestyksen, jolla on suurin jälkitodennäköisyys saapuneelle vektorille. Dekoodari voi myös tarjota tietoa jota tarvitaan muuttuville parametreille muokatakseen akustista tai kielellistä ominaisuuksia mallin parantamiseksi. Jako akustisen mallintamisen ja kielen mallintamisen välillä voidaan kuvata tilastollisen puheentunnistuksen 6

Kuva 2: Lähdekanavamalli tyypillisessä järjestelmässä perustavalla yhtälöllä: P (W )P (A W ) Ŵ = arg W maxp (W A) = arg W max P (A) (1) Yhtälössä annettu akustinen havainto tai ominaisuusvektorisarja X = X 1, X 2,...X n tarkoituksenaan löytää vasta sanasarja Ŵ = W 1, W 2,...W m jolla on maksimi jälkeistodennäköisyys jonka yhtälö 1 toteuttaa. Koska yhtälön 1 maksimointi toteutetaan käyttäen kiinteää havaintoa X, ylläoleva yhtälö vastaa jaettavan maksimointia: Ŵ = arg W maxp (W )P (X W ) (2) jossa P (W ) ja P (X W ) vastaavat todennäköisyyksiä jotka on laskettu akustiikan ja kielen mallintamisessa. Tarkan akustisen mallin P (X W ) ja puhuttua kieltä kuvaavan kielimallin P (W ) rakentaminen muodostuu käytännössä ongelmaksi. Laajan sanavaraston puheentunnistuksessa sana hajotetaan alisanalistaksi (kutsutaan yleensä äänteiden mallintamiseksi), koska sanoja on paljon. Sen vuoksi P (X W ) on läheinen phoneettiseen mallintamiseen. Akustisen mallin P (X W ):n tulisi huomioida puhujan vaihtelut, ääntämiserot, ympäristön muutokset sekä kontekstuaaliset muutokset. Kielimallin P (W ) ja akustisen mallin P (X W ) mukauttaminen on tärkeää maksimoidakseen P (W X). Dekoodausprosessissa etsitään parhaiten vastaava sanajoukko W vastaamaan sisäänotettua signaalia X. Toimenpide on 7

monimutkaisempi kuin yksinkertainen hahmontunnistusongelma, koska vastassa on lähes ääretön määrä erilaisia mahdollisia piirteitä. 3.1 Puheen parametrisointi Parametrisoiminen sisältää puheen muuttamisen joukoksi ominaisuusvektoreita. Muutoksen päämääränä on muuttaa signaali kuvaukseksi joka on pienempi, vähemmän päällekkäinen ja paremmin soveltuva tilastolliseen mallintamiseen. Useimmat puhujantunnistusjärjestelmät käyttävät Mel-Frequency Cepstral kerroin - kuvausta puheesta. Puheentunnistusjärjestelmän tarkkuuteen vaikuttaa muutama tunnettu tekijä. Tärkeimpiä näistä ovat kontekstin muutokset, ihmisten väliset muutokset ja ympäristön muutokset. Akustinen mallintaminen on hyvin merkittävässä asemassa koko järjestelmän toiminnan kannalta. Puheen akustisella mallilla viitataan normaalisti prosessiin, jossa luodaan tilastollinen esitys piirrevektorin aaltomallista laskettuja sekvenssejä varten. HMM on yksi yleisimmistä askustisten mallien tyypeistä. Muita malleja ovat mm. segmentoidut mallit, keinotekoiset neuroverkot, maksimi entropia mallit ja mahdolliset satunnaiskenttä - mallit. [BBF + 04] Akustinen mallintaminen pitää sisällään lausunnallisen mallintamisen. Se kuvaa kuinka sarjaa puheen perusyksiköitä (esimerkiksi konsonantit ja vokaalit) käytetään mallintamaan suurempia sarjoja kuten sanoja tai fraaseja. Näitä kätetään lopulta tektstistä riippuvassa mallintamisessa tarkastamaan ja pitetyttämään annettu syöte. Akustinen malli voi pitaa sisällään palautusarvoina todennäköisyyksiä samankaltaisista sanoistar Puhujan tunnistamista varten äänisignaalista määritetään ominaisuuksia, joita käytetään puhujan tunnistamisen datana tilastollisissa malleissa. Ominaisuuksia ei kuitenkaan tule olla liikaa, koska perinteiset mallit eivät toimi hyvin datan korkeissa ulottuvuuksissa. Puhesignaalissa on myös paljon ominaisuuksia, jotka eivät sovellu hyvin puhujan tunnistamiseen. Hyvä ominaisuus on vakaa kohinaa ja vääristymiä vasten, sitä on vaikea matkia 8

esittääkseen toista henkilöä, esiintyy useasti ja luonnollisesti puheessa sekä on helppo määrittää puhesignaalista. [KL10] 3.1.1 Lyhyen aikavälin spektriset ominaisuudet Lyhytaikaisia spektrisiä ominaisuuksia voidaan käyttää ominaisuuksina luokittelussa. Puhesignaali jaetaan noin 20-30ms pituisiin paloihin signaalin jatkuvan vaihtelun takia. Yhden palan ylärekisterin ääniä yleensä vahvistetaan ääniraon luonnollisen laskevan äänispektrin takia. Palan äänisignaalin oletetaan olevan stationäärinen kyseisen 20-30ms aikana, jolloin spektrinen ominaisuusvektori voidaan rakentaa. Esimerkiksi äänitaajuuksien osa-alueiden energia-arvoja on käytetty luokittelun ominaisuuksina. Kuitenkin yleensä signaalin ulottuvuuksia halutaan vähentää erilaisilla muunnoksilla. Suosittu vaihtoehto ominaisuuksiksi on Mel-Frequency Cepstral Coefficients, jotka lasketaan käyttämällä Fouerier - muunnosta, ikkunafunktiota (Hamming), psykoakustisia suodatinpankkeja, logaritmista tiivistämistä ja diskreettiä kosinimuunnosta. Kertoimet voidaan laskea seuraavalla kaavalla, jossa Y (m) on M - kanavaisen suodatinpankin ulostulo indeksillä m c n = M [log(y (m))] cos[ π n M (m 1 )] (3) 2 m=1 Kaavassa n on Cepstral - kertoimen indeksinumero. Lopullinen MFCC - vektori saadaan säilyttämällä noin 15 pienintä diskreetin kosinimuunnoksen kerrointa. Vaikka muita vaihtoehtoja on tutkittu luokittelun ominaisuuksiksi, on havaittu käytännössä, että käytännössä MFCC:n tuloksia on vaikea parantaa. [KL10] Kuva 3: Modulaarinen esitys filterbankkiin pohjautuvasta signaalin cepstral parametrisoinnista 9

3.1.2 Äänilähteen ominaisuudet Äänilähteen ominaisuuksia voidaan myös käyttää luokittelussa ominaisuuksina. Yleinen lähtökohta on ihmisen äänirakoon liittyvät ominaisuudet. Ominaispiirre voi olla esimerkiksi ääniraolla luodun äänisignaalin pulssimuoto ja perustaajuus, joiden voidaan olettaa sisältävän puhujalle ominaista tietoa. Myös esimerkiksi äänihuulteen avoimuusastetta voidaan käyttää luokitteluominaisuutena. Äänilähteen ääniraosta ja ääntöväylän voidaan olettaa olevan toisistaan riippumattomia. Ääntöväylä on osa ääniväylää, jossa artikulaatio tapahtuu. Ääntöväylän parametrit voidaan arvioida esimerkiksi lineaarisella ennustusmallilla, jonka jälkeen alkuperäinen signaali voidaan käänteissuodattaa saadakseen lähdesignaalin. Äänilähteen ominaisuudet eivät ole yhtä erottelevia kuin ääntöväylän ominaisuudet, mutta molemmat ominaisuudet voidaan yhdistää tarkempien tuloksien saavuttamiseksi. Kokeilut ovat osoittaneet, että äänilähteen ominaisuuksien opetukseen tarvitaan vähemmän dataa kuin ääntöväylän ominaisuuksien. Tämä johtuu mahdollisesti siitä, että ääntöväylän ominaisuuksien kouluttaminen pohjaa foneettiseen dataan, joka asettaa vaatimuksia datan kattavuuteen. [KL10] 3.1.3 Spektroväliaikaiset ominaisuudet Voidaan olettaa, että äänisignaalin spektrin hetkelliset tiedot kuten formanttien siirtymät ja energian modulaatiot sisältävät puhujakohtaista tietoa. Formantit esiintyvät huippuina puhesignaalin spektrissä. Hetkellistä tietoa voidaan laskea ensimmäisen ja toisen asteen derivaattojen estimaateista ajan suhteen. Toinen mahdollisesti vakaampi vaihtoehto on sovittaa regressiomalli hetkellisiin tietoihin. Derivointi näyttää kuitenkin antavan vähintään yhtä hyviä tuloksia. Modulointitaajuutta voidaan myös käyttää puhujan tunnistamiseen. [KL10] 3.1.4 Prosodiset ominaisuudet Prosodiset ominaisuudet tarkoittavat esimerkiksi puheen intonaatiota ja puherytmiä. Lyhytaikaisten ominaisuuksien sijaan prosodiset ominaisuudet toimivat pitkällä aikavälillä 10

kuten esimerkiksi tavuissa ja sanoissa. Tärkein prosodinen parametri on perustaajuus F 0. Perustaajuudeen luotettava määritys on kuitenkin haastasva toimenpide. Muita prosodisia parametreja ovat esimerkiksi puhenopeus ja puheen tilastolliset taukotiedot. Mielenkiintoisena seikkana perustaajuuksien F 0 keskiarvo korreloi ihmisen kurkunpään koon kanssa. Lisäksi myös varianssia ja kurtoosia voidaan käyttää puhujan mallina. [KL10] 3.1.5 Korkeamman tason ominaisuudet Korkean tason ominaisuuksia voidaan myös tunnistaa, kuten esimerkiksi äänensävy, aksentti ja henkilön puheessa yleisesti käyttämät sanat. Ideana on muuntaa jokainen äännähdys sarjaksi merkkejä joissa samanaikaisesti esiintyvät merkkikuviot erottelevat puhujia toisistaan. Merkit voivat esittää esimerkiksi sanoja tai prosodisia merkityksiä. Luokittelun pohjalla toimii N-grammi, jossa estimoidaan yhteistodennäköisyys N-määrälle peräkkäisiä merkkejä. [KL10] 3.2 Tilastolliset mallit Puhujan tunnistamisen tehtävänä on testata puhepalan Y ja hypoteettisen puhujan Ŝ yhtenevyyttä. Yleensä tunnistuksessa käytetään implisiittistä oletusta siitä että puhe on peräisin vain yhdeltä puhujalta. Paremmin muotoiltuna tehtävä on yhden puhujan tunnistaminen. Yleistäen tehtävä voidaan kuvata käyttämällä hypoteesitestiä seuraavasti: H0: Y on hypoteettiselta puhujalta Ŝ H1: Y ei ole puhujalta Ŝ Puhujan tunnistuksessa yleisin tunnistukseen käytetty menetelmä on GMM. GMM mallista saatuja todennäköisyyksiä verrataan rajatodennäköisyyteen. Yleistävyyden vuoksi mallia jatketaan yleensä sopeutuvalla universaalin kohina mallilla (UBM). Tekstistä riippuvaan puhujantunnistukseen on mahdollista lisätä todennäköisyysfunktioon hetkellistä 11

tietoa käyttäen Hidden Markov Modeleilla (HMM). GMM mallien on osoitettu [RR95] tarjoavan tasaisen arvion (kuva 4) pitkäaikaisesta puhehavaintojen muodostamasta jakaumasta. GMM on myös laskennallisesti tehokas, eikä ota huomioon puheen ajalliseen komponenttiin liittyviä piirteitä. Mallin yksittäinen Gaussisen komponentti (D - ulotteinen ominaisuusvektori) on puhujasta riippuvainen akustinen luokka. Kuva 4: Arkkitehtuurimalli puhujantunnistusjärjestelmän testivaiheesta 3.2.1 Muunnellut Gaussian Mixture mallit Gaussian Mixture malleja käytetään arvioimaan D-ulotteista ominaisuusvektoria x puhujantunnistuksessa. Olettaen K diagonaalisen Gaussisen mixture komponentin, GMM:n tiheysfunktio on: p( x λ) = D w c D c=1 m=1 N(x m, µ c,m, σ 2 c,m) (4), jossa w c on komponentin paino ja N(x m, µ c,m, σ 2 c,m) on univariaalinen Gaussinen jakau- 12

ma keskiarvolla µ c,m ja varianssilla σ 2 c,m. N(x m, µ c,m σ 2 c,m) = 1 σ c,m 2π exp ( (x ) m µ c,m ) 2 2σ 2 c,m Malli jokaista puhujaa varten voidaan ilmaista seuraavilla parametreilla: (5) λ = (w c, µ c, σ c 2 ) c = 1,..., K (6) Puuttuvan tiedon tunnistamisessa ominaisuusvektori x jaetaan kahteen alivektoriin riippuen luotettavuudesta. Luotettavia R ja epäluotettavia U komponentteja käsitellään eri tavoilla luokittelussa. Todisteita luotettavasta ominaisuudesta käytetään suoraan arvioimaan puhujan λ todennaköisyyttä. Huolimatta siitä että epäluotettavat komponentit ovat kohinan peittämiä, ne sisältävät tietoa kohdekomponentin maksimienergiasta. Oletusta epäluotettavien ominaisuuksien sitoutumisesta nollan ja spektraalienergian välissä käytetään hyväksi rajatussa marginalisoinnissa. Näin keskiarvoenergia lasketaan kaikkien mahdollisten tilojen yli joita epäluotettavalla komponentilla saattanut olla (vastatodisteet). p( x λ) = K c=1 w c D xhigh,u N(x r, µ c,r, σc,r) 2 1 N(x u, µ c,u, σ x high,u x c,u)dx 2 u low,u r R u U x low,u } {{ } vastatodisteet (7) Integraalikaavassa 7 voidaan arvioida vektorierona virhefunktioissa voidaan kirjoittaa muotoon: p( x λ) = K D w c N(x r, µ c,r, σc,r) 2 1 1 x high,u x low,u 2 r R u U [ ( ) ( )] (8) x high,u µ c,u x erf low,u µ erf c,u 2σ 2 c,u 2σ 2 c,u c=1 Jossa rajat ovat [x low,u, x high,u ] = [0, x u ]. 13

3.2.2 Universaali kohina malli Tunnistusvaiheessa MAP sopeutettu malli ja UBM ovat yhdessä ja tunnistajaa kutsutaan yleisesti Gaussian Mixtuuri malliksi (GMM), Universaaliksi tausta malliksi (UBM) tai GMM-UBM malliksi. Puhujantunnistuksessa on mahdollista sopeuttaa kaikki tai vain osa parametreista käyttäen UBM:aa. Puhujaan sidotut GMM parametrit (kaava 6) λ alustetaan yleensä [RR95] käyttäen k-means klusterointia ja sitä voidaan myöhemmin tarkentaa käyttämällä odotusarvomaksimointi (EM) algoritmia. Gaussisen mallin komponenttien K tavoitteena on mahdollisimman yksinkertainen malli, jota voidaan käyttää kaikkien puhujien mallintamiseen. Puhujasta riippuva malli johdetaan sopeuttamalla koulutetun UBM:n parametrit puhujaa vastaavaksi puhemateriaaliksi käyttäen maksimi jälkeis arviota (MAP). Sopeuttamisprosessissa vain ne Gaussiset komponentit sopeutetaan, jotka näyttävät riittävää todennäköisyyksien yhdenmukaisuutta puhujan materiaalin kanssa. Niitä Gaussisia komponentteja, joiden parametrit ovat mahdollisesti aliedustettuina, ei päivitetä. Siksi mallin sopeutuminen on ketterää pienille määrille koulutusdataa. MAP sopeuttamisen tarkoituksena on johtaa puhujalle tyypillinen GMM UBM:sta. MAP sopeuttamisen on osoitettu olevan tehokkaampaa kuin korkeimman todennäköisyyden (ML) mallin käyttäminen. [RR95]. Merkittävä parametri on r ja siksi α k ohjaa koulutusdatan vaikutusta lopulliseen malliin UBM:n suhteessa. Sisääntulleen ominaisuusvektorin X = [x 1,..., x T ] ja UBM:n λ UBM = [P k, µ k, ξ k ] sopeutettu keskiarvovektori µ k maksimi jälkeistodennäköisyys (MAP) menetelmällä [RR95] saadaan painotettuina summien puhujien koulutusdatasta ja UBM:n keskiarvosta: jossa, µ k = α k x k + (1 α k )µ k (9) α k = n k n k + r (10) 14

x k = 1 T P (k x t )x t (11) n k t=1 n k = t=1 T P (k x t ) (12) P (k x t ) = P k N(x t µ k, k K m=1 P mn(x t µ k, m ) (13) 3.2.3 Hidden-Markov mallit Puhujan tunnistuksessa äänitapahtuman tilastolliset ominaisuudet esitetään akustisella mallilla. Eristetyssä N sanaisen sanaston sana-puhe tunnistusjärjestelmässä p(x W i ) = p(x λ i ). Oletuksena kuitenkin akustisen mallin komponentti vastaa i:een sanaan W i. HMM:ta käyttävässä puhujantunnistuksessa oletetaan, että havaittujen vektoreiden sarja luodaan käyttäen Markovin ketjua. Kuten kuvassa 5 esitetään, HMM on päättyvä tilakone, joka muuttaa tilaa jokaisen aikajakson yhteydessä. Jokaisella aikajaksolla t kun tilaan j siirrytään, havaintovektori x t luodaan saadusta todennäköisyysjakaumasta b j (X t ). Siirtymäominaisuus tilasta i tilaan j kuvataan siirtymätodennäköisyydellä a i j. Lisäksi HMM mallissa käytetään yleensä kahta tilaa, jotka ovat tule-tila jonne päästään kun vektorin luomisprosessi alkaa ja poistumatila, jonne savutaan kun prosessi on lopussa. Kumpaankin näista tiloista saavutaan vain kerran. HMM siirtymätodennäköisyys a i j on todennäköisyys siirtyä tilaan j huomioiden edellisen tilan i. Mallissa a ij = P r(s(t) = j s(t 1) = i), jossa s(t) on tila indeksi ajalla t. Näin N tilaisella HMM:lle: N a ij = 1 (14) j=1 Saatava todennäköisyysjakauma b j (x) kuvaa jakaumaa havaituista vektoreista tilassa j. Jatkuvatiheyksisessä HMM (CDHMM) mallissa saatava todennäköisyysjakauma yleensä 15

Kuva 5: HMM tilakoneen käyttö äänteiden luokittelussa kuvataan Gaussisella mixture tiheydellä: jossa, M b j (x) = c j,m N(x; µ jm, ξ jm ) (15) m=1 N(x; µ jm, ξ jm ) = 1 (2π) D 2 ξ jm 1 2 e 1 2 (x µ jm) T ξ 1 jm (x µ jm) (16) on usean muuttujan Gaussian tiheys. D on piirrevektorin ulottuvuus ja c jm, mu jm ja xi jm ovat m:n gaussisen komponentin paino, keskiarvo ja kovarianssit usean muuttujan jakaumatilassa j. 3.3 Normalisointi ja pisteytys Viimeinen vaihe puhujan tunnistuksessa on päätöksen teko. Prosessi koostuu todennäköisyyksien vertailusta väitetyn puhujan ja saapuvan puhesignaalin välillä käyttäen valintakynnystä. Jos todennäköisyys ylittää valintakynnyksen puhuja on tunnistettu. Puhujan 16

tunnistuksessa kynnyksen säätäminen on vaikeaa ja yleensä valitaan empiirisesti. Tämä johtuu tulosten välisistä eroista kokeiden välillä. Jokaista puhujaa kuvaa tietyt GMM:t λ 1,..., λ T. Ihmisen puhesignaali parametrisoidaan ja muutetaan ominaisuusvektoreiksi X. Ominaisuus luokitellaan puhujalle Ŝ, jonka mallin todennäköisyys on korkein: Ŝ = argmaxp(x λ k ) (17) Oletetaan riippumattomuus havaintovektoreiden valille, jolloin yhtälö voidaan kirjoittaa logaritmiseen muotoon: Ŝ = argmax, jossa p( x λ k ) saadaan yhtälöstä 4. T logp( x λ k ) (18) t=1 17

4 TEKNISET HAASTEET JA POHDINTA Vaikka puhujantunnistus on paljon tutkittu ala, se ei ole levinnyt laajasti kuluttajatuotteisiin. Vaikeimpina ongelmia puhujantunnistusjärjestelmien yleistymiseen pidetään hälyisessä ympäristössä toimivien järjestelmien ja pienellä määrällä dataa yleistävien mallien luomista. Erilaiset kysymykset puhujan tunnistamisen turvallisuudesta ovat osaltaan vaikuttaneet negatiivisesti yleistymiseen. 4.1 Erilaiset akustiset ympäristöt ja muut muuttuvat tekijät Puheentunnistus perustuu puhetta kuvaaviin tilastollisiin todennäköisyysmalleihin. Todennäköisyysmalleilla pyritään kuvaamaan puheen sisältämää tietoa. Yksi ongelmista on erityinen kompleksisuus, joka johtuu signaalin välittymisen (ääniaaltojen) ja tuottamisen luonteesta ja reagoinnista ympäristön kanssa. Ongelmaksi tulee kuinka datasta pystytään erottelemaan useat muuttujat, jotka eivät liity signaaliin itseensä? Yksi toimiva menetelmä on UBM, mutta sekään ongelmaton. 4.2 Itseoppivuus ja muuntautuvuus Osa akustisten ympäristöjen ongelmista voidaan ratkaista käyttämällä useita mikrofoneja ja suhteellisen monimutkaista ympäristön akustisten ominaisuuksien automaattista diagnostiikkaa. Tällaiset järjestelmät pystyvät luomaan ihmisistä paremmin universaaleita ympäristöstä riippumattomia malleja. 4.3 Usean ihmisen tunnistus Usean ihmisen samanaikainen tunnistus puheesta on monimutkaisempi ongelma kuin yksittäisen äänilähteen tunnistaminen. Kyseessä on avoimen osajoukon tehtävä, koska äänilähde voi tulla malleille ennestään tuntemattomasta lähteestä. Puolestaan perinteisessä suljetun osajoukon tehtävässä malli opetetaan tunnistamaan sille ennestään opetetut äänimallit joita halutut tunnistettavat henkilöt omaavat. Tavallisen yhden kohteen tunnistavan mallin sijaan monen henkilön äänen tunnistamisesa voidaan käyttää useaa mallia. Mallit saavat syötteeksi äänisignaalin, josta saadaan mallien antamat pistearvot, joista voi- 18

daan rajata todennäköiset puhujat jollain ennestään määritetyllä kynnysarvolla. [SR04] 4.4 Usean ihmisen tunnistus samanaikaisesta puheesta Toistaiseksi esitetyt mallit perustuvat ideaan, jossa tunnistettava äänilähde on signaalin ainoa hetkellinen äänilähde. Ongelmia kuitenkin syntyy jos esimerkiksi puheessa on usea samanaikainen äänilähde ja tavoitteena on eritellä samanaikaisen puheen kaikki äänilähteet. Esimerkiksi yli 10% kaikesta puheesta tapaamisen yhteydessä sisältää päällekkäisiä sanoja. Samanaikaisessa puheentunnistuksessa tavoitteena on tunnistaa ketkä puhuivat ja milloin annetussa puhesignaalissa. Eräs ratkaisu on esimerkiksi käyttää MFCC ja Gaussian sekoitusmalleja Expectation Maximization - algoritmin kanssa, jolloin voidaan yrittää erotella yhtäaikainen puhesignaali yhden äänilähteen sisältävästä äänisignaalista. [TL10] 4.5 Äänen jäljittely Äänen puhtaan nauhottamisen ja toistamisen sijaan tunkeutuja voi yrittää matkia käyttäjän ääntä hyökkäyksessä puhujan varmistamiseen. Puhujan varmistamisessa puhuja täytyy kyetä varmistamaan olevan oikea identiteetti. Vuonna 2004 tutkittiin puhujan varmistamista YOHO - äänitietokantaa vasten kahden amatöörimatkijan hyökkäämänä. Tutkimuksessa havaittiin hyökkääjän kykenevän murtamaan puhujan varmistamisen, jos hyökkääjä esimerkiksi valitsee hyökkääjän ääntä lähinnä olevan äänen omaavan identiteetin. Varmistamisen päätköksessä käytetty kynnysarvo vaikutti myös suuresti väärien hyväksymiskertojen määrään. Huonoimmillaan hyökkääjä sai huomattavan 35% todennäköisyyden väärälle varmistukselle. [LWT04] 4.6 Äänen nauhoitus Äänen nauhoittaminen on erittäin intuitiivinen idea yrittää varastaa identiteetti puhujan varmistamisessa. Hyökkääjä voi nauhoittaa uhrin ääntä vaikkapa puhelimella. Puheen sisällöstä riippumattomat tunnistusjärjestelmät ovat erityisessä vaarassa, koska tunnis- 19

tusääni voidaan toistaa joka kerta uudelleen. Vuonna 2010 tutkittiin miten puhujan varmistus kärsii väärennyshyökkäyksiä vastaan, kuten esimerkiksi äänen nauhoittamista analogisena ja digitaalisena. Tutkimuksessa päädyttiin havaintoon, että huijaukset voivat tuottaa tarpeeksi isoja pisteitä saadakseen korkeita hyväksymistodennäköisyyksiä. [VL10] 4.7 Tulevaisuus Täysin selviä suuntaviivauksia tulevaisuuden kannalta ei ole, mutta joitain isoja ideoita voidaan nähdä. Korkeampien abstraktitasojen tietoa voidaan käyttää paremmin, kuten esimerkiksi puheen prosodisia ominaisuuksia. Järjestelmien ja tunnistamisen vakautta puolestaan parannetaan keräämällä paljon eri akustisissa ympäristöistä nauhoitettua äänidataa. [BBF + 04] Vuonna 2011 Ke Chen ja Ahmad Salman tutkivat Deep Learning käyttämistä oppimaan puhujakohtaisia piirteitä puhujan varmistamiseen. Tutkijoiden tekemissä testeissä heidän Deep Neural Architecture onnistui sisällyttämään puhujan karakterisia ominaisuuksia ja esitystapa toimi paremmin kuin Mel-Frequency Cepstral - kertoimet. Järjestelmä käytti yksinkertaista puhujanvertausta, jossa määritettiin kahden puhujan etäisyys kahden puhesignaalin välillä. [CS11] Toinen uusi suuntaus on ensemble luokittimien, kuten Adaboost käyttäminen puheen slice piirteisiin. Slice - piirteet on saatu lyhyiden aikaviipaleiden spektreistä, yksinkertaisella kynnysarvopohjaisella slice menetelmällä. [RMDM12] 20

5 YHTEENVETO Puhujan tunnistaminen on monimutkainen toimenpide. Se perustuu puhesignaalin analysointiin ja erilaisten tunnusarvojen määrittämiseen. Puhujan tunnistaminen jaetaan usein kahteen kategoriaan, tekstiriippuvaiseen ja tekstiriippumattomaan tunnistamiseen. Tässä seminaarityössä keskityttiin selvittämään taustateoriaa ja ajatuksia tekstiriippumattomaan puhujan tunnistamiseen. Puhujan tunnistaminen jaetaan myös kahteen toimintoon, eli puhujan tunnistamiseen ja puhujan varmistamiseen. Tunnistamisessa ajatuksena ja tavoitteena on tunnistaa puhuja opetettujen puhujien joukosta tai havaita puhuja tuntemattomaksi. Puhujan varmistamisessa halutaan varmistua että tunnistettu puhuja on varmasti kyseinen taho, ettei puhujan identiteettia ole varastettu esimerkiksi nauhoittamalla puhujan ääntä. Teknologia on kehittynyt alkuaikojen signaalin läheisyyden mittaamisesta tilastollisiin malleihin. Puhujan tunnistamisessa on vielä kehittevää, jotta sitä voidaan käyttää halutulla toimintavarmuudella toimintakriittisissä tarkoituksissa. 21

LÄHTEET [BBF + 04] [CS11] [Fur05] [KL10] [LWT04] Bimbot, F., Bonastre, J.-F., Fredouille, C., Gravier, G., Magrin-Chagnolleau, I., Meignier, S., Merlin, T., Ortega-García, J., Petrovska-Delacrétaz, D. ja Reynolds, D. A., A tutorial on text-independent speaker verification. EURASIP J. Appl. Signal Process., 2004, sivut 430 451. URL http: //dx.doi.org/10.1155/s1110865704310024. Chen, K. ja Salman, A., Learning speaker-specific characteristics with a deep neural architecture. Neural Networks, IEEE Transactions on, 22,11(2011), sivut 1744 1756. Furui, S., 50 years of progress in speech and speaker recognition research. ECTI Transactions on Computer and Information Technology, 1,2(2005), sivut 64 74. Kinnunen, T. ja Li, H., An overview of text-independent speaker recognition: From features to supervectors. Speech Commun., 52,1(2010), sivut 12 40. URL http://dx.doi.org/10.1016/j.specom. 2009.08.009. Lau, Y. W., Wagner, M. ja Tran, D., Vulnerability of speaker verification to voice mimicking. Intelligent Multimedia, Video and Speech Processing, 2004. Proceedings of 2004 International Symposium on, 2004, sivut 145 148. [RMDM12] Roy, A., Magimai-Doss, M. ja Marcel, S., A fast parts-based approach to speaker verification using boosted slice classifiers. Information Forensics and Security, IEEE Transactions on, 7,1(2012), sivut 241 254. [RR95] Reynolds, D. A. ja Rose, R. C., Robust text-independent speaker identification using gaussian mixture speaker models. IEEE Transactions on Speech and Audio Processing, 3,1(1995), sivut 72 83. 22

[SR04] [TL10] [TP11] [VL10] Singer, E. ja Reynolds, D. A., Analysis of multitarget detection for speaker and language recognition. In Proc. Odyssey: The Speaker and Language Recognition Workshop in Toledo, Spain, sivut 301 308. Tsai, W.-H. ja Liao, S.-J., Speaker identification in overlapping speech. Journal of information science and engineering, 26,5(2010), sivut 1891 1903. Togneri, R. ja Pullella, D., An overview of speaker identification: Accuracy and robustness issues. Circuits and Systems Magazine, IEEE, 11,2(2011), sivut 23 61. Villalba, J. ja Lleida, E., Speaker verification performance degradation against spoofing and tamperin attacks. 2010, sivut 131 134. 23