MATTI SIRONEN PUHEEN PERUSTAAJUUDEN ESTIMOINTI

Samankaltaiset tiedostot
SGN-4200 Digitaalinen Audio Harjoitustyö-info

Spektri- ja signaalianalysaattorit

Organization of (Simultaneous) Spectral Components

Kompleksiluvut signaalin taajuusjakauman arvioinnissa

5 Akustiikan peruskäsitteitä

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

T DSP: GSM codec

Tietoliikennesignaalit & spektri

3 Ikkunointi. Kuvio 1: Signaalin ikkunointi.

Signaalit ja järjestelmät aika- ja taajuusalueissa

Digitaalinen audio

Puhesynteesin perusteet Luento 4: difonikonkatenaatio

T SKJ - TERMEJÄ

MARKKU NIEMI PUHEEN AIKASKAALAUS. Kandidaatintyö

Luento: Puhe. Mitä puhe on? Anatomiaa ja fysiologiaa. Puhetapahtuma. Brocan ja Wernicken alueet. Anatomiaa ja fysiologiaa. Puheen tuottaminen:

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

EMC Säteilevä häiriö

SGN-4010, Puheenkäsittelyn menetelmät Harjoitus 6, 18. ja

SGN-4200 Digitaalinen audio

THE audio feature: MFCC. Mel Frequency Cepstral Coefficients

IIR-suodattimissa ongelmat korostuvat, koska takaisinkytkennästä seuraa virheiden kertautuminen ja joissakin tapauksissa myös vahvistuminen.

ÄÄNEKKÄÄMMÄN KANTELEEN MALLINTAMINEN ELEMENTTIME- NETELMÄLLÄ

S Havaitseminen ja toiminta

Kepstri - sisältö. Kepstrimuunnos ja puhesignaalien analyysi. Kepstri - Intro. Kepstri - Intro. Luento perustuu kepstri-lukuun teoksissa:

LOPPURAPORTTI Lämpötilahälytin Hans Baumgartner xxxxxxx nimi nimi

Kohina. Havaittujen fotonien statistinen virhe on kääntäen verrannollinen havaittujen fotonien lukumäärän N neliö juureen ( T 1/ N)

Dynamiikan hallinta Lähde: Zölzer. Digital audio signal processing. Wiley & Sons, Zölzer (ed.) DAFX Digital Audio Effects. Wiley & Sons, 2002.

Puheenkäsittelyn menetelmät

Numeeriset menetelmät

ILKKA HULKKO TAAJUUDEN MITTAUS PAINESIGNAALISTA. Kandidaatintyö

5 Lineaarinen ennustus

4.2 Akustista fonetiikkaa

DSP:n kertausta. 1 Spektri, DFT, DTFT ja aika-taajuusresoluutio

Signaalien generointi

Digitaalinen signaalinkäsittely Johdanto, näytteistys

Ohjeita fysiikan ylioppilaskirjoituksiin

Mittalaitetekniikka. NYMTES13 Vaihtosähköpiirit Jussi Hurri syksy 2014

JOHDATUS TEKOÄLYYN TEEMU ROOS

ELEC-C5210 Satunnaisprosessit tietoliikenteessä

Digitaalinen signaalinkäsittely Desibeliasteikko, suotimen suunnittelu

Puheen akustiikan perusteita

Tuntematon järjestelmä. Adaptiivinen suodatin

Matematiikan tukikurssi

Puheenkoodaus. Olivatpa kerran iloiset serkukset. PCM, DPCM ja ADPCM

Matlab-tietokoneharjoitus

Mediaanisuodattimet. Tähän asti käsitellyt suodattimet ovat olleet lineaarisia. Niille on tyypillistä, että. niiden ominaisuudet tunnetaan hyvin

Käytännön radiotekniikkaa: Epälineaarinen komponentti ja signaalien siirtely taajuusalueessa (+ laboratoriotyön 2 esittely)

SIGNAALITEORIAN KERTAUSTA 1

z muunnos ja sen soveltaminen LTI järjestelmien analysointiin

PL 9/Siltavuorenpenger 5 A, Helsingin yliopisto etunimi.sukunimi@helsinki.fi

3 Raja-arvo ja jatkuvuus

Kapeakaistainen signaali

JOHDATUS TEKOÄLYYN TEEMU ROOS

LIITE 1 VIRHEEN ARVIOINNISTA

JOHDATUS TEKOÄLYYN TEEMU ROOS

LIITE 1 VIRHEEN ARVIOINNISTA

Digitaalinen signaalinkäsittely Kuvankäsittely

LIITE 1 VIRHEEN ARVIOINNISTA

IMPULSSIVASTEEN ANALYSOINTI AALLOKEMENETELMIN TIIVISTELMÄ 1 AALLOKEANALYYSI. Juha Urhonen, Aki Mäkivirta

» Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN

FYS206/5 Vaihtovirtakomponentit

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

HUUDETUN PUHEEN ANALYYSI JA SYNTEESI

Department of Mathematics, Hypermedia Laboratory Tampere University of Technology. Roolit Verkostoissa: HITS. Idea.

SIGNAALITEORIAN KERTAUSTA OSA 2

pitkittäisaineistoissa

Oikeanlaisten virtapihtien valinta Aloita vastaamalla seuraaviin kysymyksiin löytääksesi oikeantyyppiset virtapihdit haluamaasi käyttökohteeseen.

1 Olkoon suodattimen vaatimusmäärittely seuraava:

KERTALUKUANALYYSI KAIVOSKONEEN MELUKARTOITUKSESSA 1 JOHDANTO 2 MITTAUKSET. Velipekka Mellin

FYSP105 / K3 RC-SUODATTIMET

Puheen akustiikan perusteita

Nimi: Muiden ryhmäläisten nimet:

Identifiointiprosessi

TUULIVOIMALAMELU MITTAUS JA MALLINNUS VELI-MATTI YLI-KÄTKÄ

Erityinen suhteellisuusteoria (Harris luku 2)

1 Vastaa seuraaviin. b) Taajuusvasteen

SWEPT SINE MITTAUSTEKNIIKKA (NOR121 ANALYSAATTORILLA)

Pinces AC-virtapihti ampèremetriques pour courant AC

Infraäänimittaukset. DI Antti Aunio, Aunio Group Oy

Spektrin sonifikaatio

Pianon äänten parametrinen synteesi

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

Dynaamisten systeemien identifiointi 1/2

Algoritmi I kuvioiden ja niille johtavien ajourien erottelu. Metsätehon tuloskalvosarja 7a/2018 LIITE 1 Timo Melkas Kirsi Riekki Metsäteho Oy

Kuulohavainnon perusteet

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

PANK PANK-4122 ASFALTTIPÄÄLLYSTEEN TYHJÄTILA, PÄÄLLYSTETUTKAMENETELMÄ 1. MENETELMÄN TARKOITUS

SEBASTIAN RINTALA SIGNAALIN DOMINOIVAN TAAJUUDEN ARVIOINTI

puheen laatu kärsii koodauksesta mahdollisimman vähän. puhe pakkautuu mahdollisimman pieneen määrään bittejä.

LUKU 7 TÄRKEIMPIEN ASIOIDEN KERTAUS A Tietoliikennetekniikka I Osa 30 Kari Kärkkäinen Kevät 2015

Radioamatöörikurssi 2014

Historiaa musiikillisten äänten fysikaalisesta mallintamisesta

Tiistai klo Jari Eerola

Foneettiset symbolit

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

JOHDATUS TEKOÄLYYN TEEMU ROOS

6 Lineaarisen ennustuksen sovelluksia

Radioamatöörikurssi 2015

Transkriptio:

I MATTI SIRONEN PUHEEN PERUSTAAJUUDEN ESTIMOINTI Kandidaatintyö Tarkastaja: Konsta Koppinen <>

II TIIVISTELMÄ TAMPEREEN TEKNILLINEN YLIOPISTO Tietotekniikan koulutusohjelma SIRONEN, MATTI: Puheen perustaajuuden estimointi Kandidaatintyö, 23 sivua Toukokuu 2007 Pääaine: Ohjelmistotuotanto Tarkastaja: Konsta Koppinen Avainsanat: Puheenkäsittely, perustaajuus, perustaajuuden estimointi Puheen perustaajuuden estimointi on yksi puhesignaalien käsittelyn perusongelmista. Varhaisimmat ratkaisut esitettiin jo 1960-luvun lopulla mutta uusien menetelmien kehittäminen sekä olemassaolevien ratkaisujen parantaminen jatkuu edelleen. Puheenkäsittely on usein hyvin sovellusriippuvainen signaalinkäsittelyn ala ja tämä pitää hyvin paikkansa myös perustaajuuden estimoinnin suhteen. Menetelmiä arvioidaan usein muidenkin kriteerien perusteella kuin suoranaisen taajuuden estimoinnin tarkkuuden suhteen ja algoritmien kehittämisessä keskitytäänkin usein jonkun tietyn ominaisuuden parantamiseen. Tämän johdosta sovellusalueet ja suunnittelutavoitteet ovat erittäin oleellisia perustaajuuden estimoinnin menetelmistä puhuttaessa. Tämä opinnäytetyö on luonteeltaan kirjallisuusselvityksen muotoinen. Tavoitteena on koota yhteen alan kirjallisuudessa sekä lehdissä julkaistua tutkimustietoa ja tarjota lukijalle ytimekäs katsaus perustaajuuden estimointiin ongelman teoreettisista lähtökohdista käytännön ratkaisuihin.

III ABSTRACT TAMPERE UNIVERSITY OF TECHNOLOGY Master s Degree Programme in Information Technology SIRONEN, MATTI: Speech pitch estimation methods Bachelor of Science Thesis, 23 pages May 2007 Major: Software engineering Examiner: Konsta Koppinen Keywords: Speech processing, fundamental frequency, pitch estimation Pitch estimation is one of the major research topics in speech processing. The earliest solutions date as far back as the late 1960s but new methods and improvements to older solutions are still being developed. Speech processing is often very application dependant and pitch estimation is a good example of this. Algorithms are often evaluated using criteria other than simple accuracy in pitch contour estimation and development is often focused on a certain property of the algorithm rather than improvement in all aspects. Application and design goals are thus very relevant when discussing pitch estimation methods. The format of this thesis is a literature report. The aim is to gather information from relevant literature and journals and offer the reader a concise view to the theory and practical solutions of pitch estimation.

IV SISÄLLYS 1.Johdanto...5 1.1.Ihmisen puheentuotto... 5 1.2.Puhesignaalin mallinnus...7 2.Perustaajuuden estimointi...8 2.1.Estimoinnin haasteet...8 2.2.Arviointimenetelmät ja kriteerit... 9 2.2.1.Jakson estimointitarkkuuden arviointi...10 2.2.2.Soinnittomien segmenttien tunnistustarkkuuden arviointi... 11 3.Estimoinnin menetelmiä... 12 3.1.Aikatason menetelmät... 12 3.1.1.Autokorrelaatiomenetelmä rajaamisella... 14 3.2.Taajuustason menetelmät... 17 3.2.1. Kepstri-analyysiin perustuva menetelmä...17 3.3.Aika/taajuustason menetelmät...18 3.3.1.SIFT-estimointimenetelmä... 19 4.Yhteenveto...20 Lähteet... 22

5 1.JOHDANTO Puheenkäsittelylle tyypillinen tutkimuksen kohde on puheen esittäminen matemaattisena signaalina, jota tämän jälkeen voidaan käsitellä signaalinkäsittelystä yleisesti tutuilla menetelmillä kuten erilaisilla muunnoksilla sekä konvoluutiolla. Puheen akustisia ominaisuuksia tutkimalla on päästy malliin jossa puheen eri äänet ovat tulosta sekä ääniraon toiminnasta, joka aiheuttaa puheeseen sen perustaajuuden (joka yleensä on rinnastettavissa puheen havaittuun korkeuteen ), että ääntöväylästä joka puhallinsoittimen tapaan luo ääneen perustaajuuden suhteen resonoivia ääneksiä. Signaalinkäsittelyn termein tämä voidaan esittää ääniraon synnyttämänä herätteenä, joka kulkee ääntöväylän kuvaaman suodattimen läpi. Puhesignaalille saadaan näin parametrinen malli, joka voidaan koostaa estimoimalla sekä perustaajuutta että ääntöväylää esittävää suodatinta. Perustaajuuden estimointi on kuitenkin usein etualalla, joka on seurasta muun muassa siitä että ihmiskuulon on todettu olevan suuruusluokkaa herkempi perustaajuuden vaihtelulle verrattuna muihin puhesignaalin parametreihin [1]. Ihmisen puhe-elinten toimintaa puheen tuottamisessa sekä puhesignaalin analyyttistä mallia kuvataan tarkemmin myöhemmin tässä luvussa. Johtuen perustaajuuden roolista puhesignaalin mallinnuksessa sen estimointi on oleellista monissa eri puheenkäsittelysovelluksissa. Perustaajuutta tutkimalla voidaan muun muassa erottaa eri ikäiset ja eri sukupuolta edustavat puhujat toisistaan, joka on ilmeisen hyödyllistä puhujantunnistussovelluksissa. Akustisiin malleihin perustuvissa puhesynteesimenetelmissä perustaajuus on yksi tärkeimmistä parametreista joita varioimalla ulostulosignaali tuotetaan. Keskeinen osa perustaajuudella on myös puheenkoodauksessa, jossa tietyt perusmenetelmät hieman yksinkertaistaen perustuvat nimenomaan perustaajuuden tunnistamiseen ja siirtämiseen koodattuna. 1.1.Ihmisen puheentuotto Puheen tuottaminen tapahtuu muokkaamalla keuhkoista ulos kulkevan ilmavirran muotoa. Tähän tarkoitukseen käytetyt elimet voidaan karkeasti jakaa kurkunpäässä sijaitseviin elimiin äänirakoon asti sekä ääntöväylään, joka tarkoittaa kurkunpään jälkeisiä puhe-elimiä huuliin asti. Kuvaan 1.1 on merkitty tämän tarkastelun kannalta keskeisimpiä äänielimiä.

6 Kuva 1.1: Ääntöväylä ja äänirako (alkuperäinen kuva [2, s. 43]) Purkautuessaan keuhkoista uloshengitysilma muokkaantuu ensin kurkunpäässä sijaitsevassa ääniraossa (engl. glottis). Ääniraon toiminnnan perusteella erotetaan soinnilliset äänteet (suomen kielessä kaikki vokaalit ja jotkut konsonantit kuten m ja l) soinnittomista (tietyt konsonantit kuten p, t ja k); soinnillisten äänteiden tapauksessa äänirako aukeaa ja sulkeutuu jaksollisesti ja tästä värähdysnopeudesta johdetaan puheen senhetkinen perustaajuus. Ääniraon fyysiset ominaisuudet rajoittavat perustaajuuden välille 50-300 Hz (miehillä taajuus on yleisesti välin alemmissa arvoissa, naisilla ja lapsilla ylempänä). Soinnittomissa äänteissä äänirako on auki muttei värähtele jolloin äänteellä ei myöskään ole perustaajuutta. Tämän jälkeen ilmavirta muokkautuu edelleen ääntöväylässä, jossa sitä ohjaa muun muassa kieli, kitapurje sekä huulet. Jokaista äännettä vastaa karkeasti ottaen tietty ääntöväylän muoto, jotka eri elimet yhdessä muodostavat. Ääntöväylän akustisista ominaisuuksista seuraa myös eri äänteille tyypilliset formanteiksi kutsutut resonanssitaajuudet, joiden erottaminen perustaajuudesta on yksi perustaajuuden estimoinnin tunnusomaisista ongelmista.

7 1.2.Puhesignaalin mallinnus Soinnilliset äänteet muodostuvat siis jaksollisesti värähtelevässä ääniraossa syntyvästä perustaajuudesta sekä ääntöväylässä muodostuvista resonanssitaajuuksista eli formanteista. Luontainen tapa mallintaa tämä signaalimuodossa on käsitellä äänteitä summautuneina sinitaajuuksina (kuva 1.2), jolloin siihen on suoraviivaista käyttää yleisiä signaalinkäsittelyn menetelmiä kuten Fourier-muunnosta. Kuva 1.2: 30 millisekunnin näyte a-äänteestä Puhe ei kuitenkaan koostu toisistaan täysin erillään lausutuista äänteistä vaan ne puhuessa muuntuvat edellisestä seuraavaan hyvin sulavasti, joten signaalia käsitellään paljon äänteitä lyhyemmissä osissa. Tämä tapahtuu jakamalla signaali 10-30 millisekunnin pituisiin segmentteihin, jotka voivat olla osittain päällekkäisiä. Kuva 1.3: 30 millisekunnin Hanning-ikkunoitu näyte a-äänteestä Sovelluksesta riippuen nämä segmentit voidaan vielä kertoa jollain ikkunafunktiolla (segmentistä käytetään tällöin usein nimitystä ikkuna) joka vaimentaa signaalin näennäistä katkeamista segmentin reunalla (kuva 1.3). Tämä on tarpeellista lähinnä signaalin analysointia varten; signaalin kokoaminen takaisin yhtenäiseksi signaaliksi tehdään yleensä ikkunoimattomilla segmenteillä.

8 2.PERUSTAAJUUDEN ESTIMOINTI Puheenkäsittelyn merkityksen noustua viime vuosikymmeninä perustaajuuden estimointiin on esitetty kymmeniä eri lähestymistapoja, joista on sittemmin kehitetty satoja variantteja. Ensimmäiset ratkaisut ovat peräisin 60-luvun lopulta, mutta alan tieteellisissä lehdissä esitetään edelleen uusia algoritmeja ja parannuksia jo asemansa vakiinnuttaneisiin menetelmiin. Tässä luvussa käsitellään estimointimenetelmien yleisiä ominaisuuksia sekä estimoinnin haasteita ja menetelmiä jota taajuuden estimointialgoritmien arvioimiseen on kehitetty. Estimointimenetelmät voidaan jakaa lähestymistavan mukaan kolmeen eri päätyyppiin: Aikataso: Perustaajuuden jakso määritetään signaalin aikatason aaltomuodosta, joko suoraan mittaamalla näytteiden etäisyyksiä tai tutkimalla signaalia jonkin aikatasolle luontevan funktion arvona. Taajuustaso: Perustaajuus määritetään jonkin muunnoksen avulla tuotetusta taajuusspektristä (tai sen edelleen käsitellystä muodosta), jossa jaksollisen puhesignaalin taajuuskomponentit esiintyvät harmonisina piikkeinä. Aika-taajuustaso: Menetelmiä joissa tyypillisesti yhdistetään sekä aika- ja taajuustason operaatioilla saatavaa tietoa signaalista. Hetkelliseen taajuuteen perustuvat menetelmät ovat tärkeä alatyyppi; ne pyrkivät mallintamaan signaalin taajuussisältöä jatkuvana ajan funktiona. Perustaajuuden estimointimenetelmien päätehtävä on siis määrittää perustaajuus, yleensä segmenteittäin, sikäli kun segmentti sisältää sellaisen kohdan signaalista jolle perustaajuus on määritettävissä. Koska puhesignaalin sisältää yleensä huomattavissa määrin myös soinnittomia äänteitä sekä taukoja esimerkiksi lausahdusten välissä, nämä kohdat pyritään yleensä erottamaan soinnillisista kohdista. Vaikka useissa menetelmissä soinnillinen-soinniton erottelu voidaan tehdä itse estimointituloksen perusteella, tauot puheessa erotetaan yleensä ennen taajuusestimointia koska hiljaisuuden määrittäminen on useimpiin taajuudenmääritysalgoritmeihin verrattuna hyvin yksinkertainen operaatio. 2.1.Estimoinnin haasteet Perustaajuuden estimointiin liittyy lukuisia ongelmia, jotka liittyvät sekä aiheen teoreettisiin että käytännöllisiin seikkoihin. Suureksi osaksi tästä syystä ongelma on edelleen niinkin laajasti tutkittu kuin se vielä tänäkin päivänä on. Aloittaen ihmisen fysiologiaan liittyvistä seikoista, yksi perinnäinen ongelma seuraa ääniraon epätäsmällisyydestä jaksollisen signaalin tuottajana. Ihmispuheen perustaajuus

9 ei siis yleensä pysy tarkalleen vakiona edes hyvin lyhyitä aikajaksoja tarkasteltaessa, vaikkakin puhesignaalin mallinnuksessa näin oletetaan. Tämä ei tosin yleensä ole suuri ongelma vaan menetelmät voidaan suunnitella melko sietokykyisiksi kyseistä taajuushuojuntaa kohtaan. Huomattavasti suuremman ongelman muodostavat ihmisen ääntöväylän puheeseen muodostamat resonanssitaajuudet, joita kutsutaan formanttitaajuuksiksi. Nämä lisäävät perustaajuuden estimoinnin kannalta ylimääräisiä taajuuskomponentteja puhesignaaliin ja voivat usein olla hyvin hankalia erottaa perustaajuudesta koska ne ääntöväylän muodosta riippuen voivat esimerkiksi signaalin energian suhteen olla jopa selvemmin erottuvia kuin perustaajuus. Puhesignaalin formanttirakenteen määrittäminen ja vaimentaminen onkin yksi perustaajuuden estimoinnin tunnusomaisia ongelmia. Puhe on myös varsinkin ajan suhteen melko monimutkainen signaali, jota karakterisoi soinnillisten, soinnittomien ja hiljaisten kohtien vaihtelu. Rabiner et al [3, s. 400] mainitsee ongelmalliseksi esimerkiksi siirtymät soinnittomasta kohdasta matalatasoiseen soinnilliseen kohtaan, joissa muutos signaalissa on hyvin hienovarainen. Kohina on myös merkittävä tekijä sillä puhesignaali tuotetaan usein kohinaisessa sekä muita äänisignaaleja sisältävässä ympäristössä. Puhesignaalisen mittaamiseen ja tallentamiseen liittyy myös lähes välttämättä vaihteleva määrä kohinaa ellei sitä tehdä erikseen suunnitelluissa olosuhteissa. Tyypillisenä kohinalähteenä voidaan mainita puhelinjärjestelmät, joiden läpi puheenkoodauksen yhteydessä käsiteltävät signaalit ominaisesti kulkevat. Puhelinjärjestelmällä on myös muita ei-lineaarisia vaikutuksia puhesignaaliin, joita ovat esimerkiksi samanaikasesta puhumisesta johtuva puhesignaalien päällekkäisyys (crosstalk) sekä kovien äänien leikkaantuminen (clipping). 2.2.Arviointimenetelmät ja kriteerit Esitettyjen ratkaisujen kirjavuus loivat lähes välittömästi kysynnän vertailu- ja arviointimenetelmille joilla eri algoritmeja voitaisiin mielekkäästi verrata toisiinsa. Tarkasteltavien ominaisuuksien tärkeys riippuu kuitenkin suuresti sovelluksesta: kohinan sieto saattaa tietyissä olosuhteissa olla erittäin oleellinen, toteutuksen monimutkaisuus taas tärkeämpi toisaalla. Jotkut ominaisuudet ovat selkeästi mitattavissa, toiset taas ovat subjektiivisempia. Rabiner et al [3, s. 400-401] esittää seuraavat, luonteeltaan objektiiviset kriteerit: Perustaajuuden estimointitarkkuus Soinnillisten ja soinnittomien kohtien erottamistarkkuus Robustisuus erilaisia signaalin tallennus- ja toisto-olosuhteita kohtaan Toiminnan nopeus Käytettyjen algoritmien kompleksisuus Soveltuvuus toteutukseen sulautetuissa järjestelmissä ja Piiritason toteutuksen hinta.

10 Estimointimenetelmän nopeus, kompleksisuus ja piiritoteusnäkökulmat liittyvät melko kiinteästi toisiinsa. Monimutkaiset algoritmit ovat yleensä sekä verrattain hitaita toiminnaltaan sekä kalliita toteuttaa piiritasolla. Näille tekijöille ei ole esitetty laajasti levinnyttä mittaus- tai vertailukäytäntöä, mutta esimerkkinä voidaan mainita Rabiner et al:n [3, s. 417] esitystapa menetelmän tietyllä alustalla käyttämästä ajasta syötteenä käytetyn puhenäytteen pituuteen verrattuna sekä riippuvuus, esimerkiksi lineaarinen tai neliöllinen, käytetystä näytteenottotaajuudesta. Toteutuskustannuksia arvioitaessa voidaan myös tarkastella muun muassa algoritmin käyttämän muistin määrää sekä sitä, tarvitaanko toteutuksessa liukulukuaritmetiikkaa vai riittääkö kokonaislukulaskenta. Usein hyvin tärkeä ellei jopa tärkein tekijä on kuitenkin estimoinnin havaittu (eikä esimerkiksi referenssiä vastaan mitattu) tarkkuus, joka on luonteeltaan subjektiivinen kriteeri. Tätä määrittää pääasiallisesti se, miten luonnolliseksi ja/tai miellyttäväksi estimoinnin perusteella syntetisoitu tai uudelleenkoostettu puhe havaitaan. Mittaaminen suoritetaan yleensä kuuntelukokeilla. Usein paikkansa pitäväksi on todettu yhteys estimoidun taajuusjonon jatkuvuuden ja havaitun luonnollisuuden välillä; jotkut menetelmät pyrkivätkin pakottamaan tiettyjä jatkuvuusehtoja taajuusestimaattien välille. Tämä voidaan myös saada aikaiseksi jälkikäsittelyllä varsinaisesta estimointimenetelmästä riippumatta, johon on esitetty splini-mallinnukseen perustuva ratkaisu [4]. Tärkeä työkalu perustaajuuden estimointitarkkuuden arvioimisessa ovat referenssitietokannat, joihin arvioitavan algoritmin tuloksia voidaan verrata. Nämä tietokannat sisältävät yleensä sekä puhenäytteitä erilaisilta puhujilta että referenssitaajuuskäyrän, joka esittää perustaajuuden ajan funktiona. Julkisesti saatavilla olevia referenssitietokantoja ovat muuan muassa Keele Pitch Database [5] sekä The Centre for Speech Technology Researchin Fundamental Frequency Determination Algorithm (FDA) Database [6]. 2.2.1.Jakson estimointitarkkuuden arviointi Varsinaiseen perustaajuuden jakson estimointivirheen arvioimiseen Rabiner et al [3, s. 407] esittää seuraavat määritelmät: E(m) = P1 P2, jossa virhemuuttuja E kuvaa referenssitaajuuskäyrän arvon P1 ja mitatun menetelmän antaman arvon P2 erotusta segmentille m, yksikköinä jakson pituus näytteissä. Tästä määritelmästä johdetaan edelleen kaksi virhemäärettä, Gross Pitch Error (GPE) ja Fine Pitch Error (FPE): karkea estimointivirhe sekä hienoestimointivirhe. Karkea estimointivirheeksi (GPE) lasketaan erotuskäyrän arvot E(m) 10, jolloin mitattu jakso segmentille m poikkeaa referenssiarvosta yli 1 millisekunnin verran (joka Rabiner et al:n käytämmällä 10 khz näytteenottotaajuudella siis vastaa 10 näytettä). Tällöin estimoinnin katsotaan epäonnistuneen pahasti, yleensä johtuen joko jakson monistumis- tai puoliintumisvirheestä tai estimointia sotkeneesta formanttitaajuudesta. Poikkeuksena ovat tapaukset joissa ero johtuu siitä että mitattu

11 menetelmä virheellisesti luokittaa segmentin soinnittomaksi luokitetaan erilliseen kategoriaan eikä niitä lasketa GPE-virheeksi. Vertailulukuna karkean estimointivirheen yhteydessä käytetään suoraviivaisesti GPE-virheiden lukumäärää. Hienoestimointivirheeksi estimoinnissa (FPE) määritellään arvo E(m) 10, jolloin jakso on arvioitu oleellisesti oikein (lukuarvona jälleen 1 millisekuntia vastaava määrä näytteitä); ero katsotaan johtuvan lähinnä mittaustekniikasta. Vertailulukuina käytetään sekä hienoestimointivirheen keskiarvoa, joka kuvaa menetelmän taipumusta estimoida jakso joko liian pitkäksi tai lyhyeksi, sekä keskihajontaa joka kuvaa estimoinnin tarkkuutta yleisemmin. 2.2.2.Soinnittomien segmenttien tunnistustarkkuuden arviointi Virhemuuttujakäyrän E(m) avulla on määritetty Rabiner et al:n vertailussa [3, s. 417] myös virhemetriikka signaalin soinnittomien kohtien erottamiselle soinnillisista kohdista. Soinnittomat kohdat merkitään taajuuskäyrissä arvoilla 0, josta saadaan seuraavat virhemääreet: P1 0, P2 = 0, jolloin arvioitava menetelmä on luokittanut segmentin soinnittomaksi mutta referenssiestimaatin mukaan kohta on soinnillinen (voiced-to-unvoiced error). Vastaavasti määritellään tilanne P1 = 0, P2 0, jossa arvioitava menetelmä on tulkinnut segmentin soinnilliseksi ja edelleen määrittänyt sille nollasta poikkeavan jaksoarvon, kun taas referenssin mukaan segmentti on soinniton (unvoiced-to-voiced error). Koska luokitus soinnillisiin ja soinnittomiin segmentteihin tehdään usein yksittäistä arvoa tiettyyn raja-arvoon vertaamalla, on edellämainittujen virheiden välinen lukumääräsuhde usein helposti manipuloitavissa raja-arvoa muuttamalla. Näin voidaan menetellä jos esimerkiksi sovelluksen kannalta jompikumpi virhe on selkeästi toista haitallisempi.

12 3.ESTIMOINNIN MENETELMIÄ 3.1.Aikatason menetelmät Aikatason menetelmiksi lasketaan ne perustaajuuden estimointimenetelmät joissa perustaajuus määritetään pääasiassa signaalin aikatason esityksen (tyypillisesti signaalin aaltomuodon) avulla. Suoraviivaisin keino on määrittää eri näytteiden etäisyyksiä toisistaan, valiten näytteet siten että niiden välien voidaan katsoa edustavan perustaajuuden jaksonpituutta. Kuvassa 3.1 on esitetty yleisesti käytettyjä menetelmiä jakson alku- ja loppukohdan määrittämiseen: signaalin maksimikohdat (peak measurement) ja maksimia edeltävät nollan ylitykset (zero crossing measurement). Kuva 3.1: Jakson määrittämiseen käytetyt maksimi- ja nollaylityskriteerit [3, s.400] On huomioitava että eri mittaustavat voivat antaa eri tuloksia, mutta olennaista on lähinnä saman kriteerin käyttö koko signaalin kohdalla [3, s. 400]. Suoraan mittaamiseen aaltomuodosta perustuvat menetelmät ovat kuitenkin hyvin herkkiä puheen formanttirakennetta ja nollaylityskriteerin tapauksessa myös kohinaa kohtaan, ja uudemmat aikatason menetelmät perustuvatkin usein autokorrelaatiofunktion arvojen tarkasteluun. Autokorrelaatio mittaa signaalin korrelaatiota itsensä kanssa eri viiveen arvoilla. Autokorrelaatiofunktio r(k) puhesignaalin s(n) N:n näytteen pituiselle segmentille s(m) määritellään N-1-k r(k) = s(m) s(m+k), m=0 missä k on viiveen arvo. Funktion maksimiarvo on kohdassa k=0; muut paikalliset maksimit löytyvät arvoilla joiden suhteen signaali on erityisen toistuva. Erityisesti

13 puhesignaalien tapauksessa suurin nollasta poikkeava paikallinen maksimi on perustaajuuden jakson kohdalla, sikäli kun esimerkiksi formanttitaajuudet eivät ole tilannetta sotkemassa. Autokorrelaatiofunktion arvot vaimenevat k:n kasvaessa koska summattavat termit vähenevät, ja tämä saattaa vaikeuttaa perustaajuuden erottamista formanttitaajuuksista erityisesti matalien perustaajuuksien yhteydessä jolloin maksimit ovat lähellä autokorrelaation vaimentunutta loppuosaa [7, s. 6]. Esimerkki tästä on esitetty kuvassa 3.2, joka esittää autokorrelaatiofunktion puhesignaalille jonka perustaajuuden aiheuttama maksimi on noin viivearvon 80 kohdalla, mutta jonka arvo viivellä 160 on jo huomattavasti vaimentunut. Kuva 3.2: Autokorrelaatiofunktio puhesignaalille jonka perustaajuuden jakso on noin 80 näytettä [7, s. 4] Ratkaisuksi autokorrelaation vaimentumisesta johtuviin ongelmiin on esitetty ristikorrelaation käyttämistä autokorrelaation sijaan. Ristikorrelaatio c(k) puhesignaalin s(n) segmentille s(m) määritellään N-1 c(k) = s(m) s(m+k), m=0 joka k on viivemuuttuja ja N segmentin pituus kuten edellä. Vaikka ero autokorrelaatioon on vain summauksen ylärajan muuttuminen, funktion tulkinta muuttuu hieman monimutkaisemmaksi koska sen laskemissa arvoilla k>n joudutaan käyttämään segmentin m ulkopuolisia arvoja [7, s. 6]. Kuvasta 3.3 selviää kuitenkin ristikorrelaation selvä etu maksimien määrittämisessä korkeilla viivearvoilla (kuvaan on pisteviivalla merkitty myös saman segmentin autokorrelaatio):

14 Kuva 3.3: Ristikorrelaatiofunktion käyrä puhesignaalille jonka perustaajuuden jakso on noin 80 näytettä [7, s. 8] Ongelmaksi ristikorrelaation tapauksessa saattaa muodostua amplitudivaihtelut segmentin sisällä, jotka muuttavat korrelaatioarvoja signaalin muuttuvan energian mukaisesti. Ratkaisuksi tähän on esitetty ristikorrelaatiofunktion normalisointia signaalin energian mukaan [7, s. 9]. Koska edellä mainitut operaatiot eivät sellaisinaan sisällä mitään varmaa keinoa erottaa perustaajuutta muista taajuuskomponenteista, yhdistetään ne varsinaisissa estimointimenetelmissä usein jonkinlaiseen signaalin esikäsittelyyn. Tarkasteltava taajuusalue rajataan usein alipäästösuodatuksella sekä itse aaltomuotoa voidaan muokata esimerkiksi rajoittamalla näytearvot tietylle välille (clipping), johon perustuva autokorrelaatiomenetelmä esitellään ensi luvussa. 3.1.1.Autokorrelaatiomenetelmä rajaamisella Sondhi [8] on esitellyt autokorrelaatioon perustuvan menetelmän, joka yhdistää autokorrelaatiomittaukseen center clipping (keskirajaus)- tekniikka. Center clipping puhesignaalille s(n) määritellään y(n) = C[s(n)], jossa y(n) on keskirajattu puhesignaali ja C[] on rajausfunktio joka on esitetty kuvassa 3.4:

15 Kuva 3.4: Keskirajausfunktio C[]:n kuvaaja [7, s. 5] Rajausarvot -CL ja CL valitaan yleensä tiettyyn prosenttimäärään (esimerkiksi 30%) segmentin maksiminäytearvosta. Center clipping siis nollaa CL-arvojen alle jäävät näytteet sekä ylittävistä arvoista vähennetään CL (tai -CL): Kuva 3.5: Keskirajattu puhesignaali, rajausarvo 30% maksiminäytteestä [7, s. 7] Signaalin rajaaminen näin korostaa sen jaksollisuutta, jonka vaikutus autokorrelatiofunktion arvoihin on esitetty kuvassa 3.6:

16 Kuva 3.6: Keskirajatun puhesignaalin autokorrelaatio [7, s. 7] Rabiner et al:in esittämässä toteutuksessa [3, s. 401] Sondhin menetelmästä puhesignaali alipäästösuodatetaan 900 hertziin, jonka jälkeen se jaetaan 30 millisekunnin pituisiksi segmenteiksi. Taajuus estimoidaan jokaiselle 10 millisekunnin segmentille jolloin ne ovat 10 millisekunnin verran päällekkäisiä kumpaankin suuntaan. Segmenteille joita ei ole havaittu tauoksi signaalissa määritetään tämän jälkeen keskirajausarvo CL joka lasketaan mittaamalla segmentin ensimmäisen ja viimeisen 10 millisekunnin osan maksimiarvot ja asettamalla rajausarvo 64 prosenttiin pienemmästä maksimista. Tämän jälkeen segmentille suoritetaan vielä infinite peak clipping, joka pelkistää signaalin positiiviset arvot 1:een ja negatiiviset -1:een. Seuraavaksi segmentille suoritetaan autokorrelaatiolaskenta viivearvoilla 20-200 näytettä ja lisäksi arvolla 0 tulosten normalisointia varten. Jos lasketun autokorrelaatiokäyrän normalisoitu maksimi ylittää arvon 0.3, segmentti katsotaan soinnilliseksi ja perustaajuus on maksimiarvon kohta näytteissä. Muussa tapauksessa segmentti luokitetaan soinnittomaksi ja perustaajuus asetetaan nollaksi. Testituloksissa menetelmä havaittiin tarkaksi sekä karkeiden (GPE) että hienoestimointivirheiden (FPE) osalta korkeaäänisten puhujien tapauksessa; matalaäänisen miespuhujan tapauksessa tulokset olivat suuruusluokkaa huonompia. Segmenttien luokittamisessa soinnilliseksi tai soinnittomaksi virheet noudattivat samaa taipumusta puhujan perustaajuutta kohtaan. Tämä tulos pääteltiin pääasiassa johtuvan valitusta 30 millisekunnin pituudesta segmenteille, joka ei testatun menetelmän tapauksessa ollut riittävän pitkä matalien perustaajuuksien tarkkaan määrittämiseen [3, s. 413].

17 3.2.Taajuustason menetelmät Taajuustason menetelmät perustuvat tunnusomaisesti perustaajuuden määrittämiseen taajuusspektrin avulla kun puhesignaalia käsitellään luvussa kaksi esitetyn mallin mukaisesti summautuneina sinitaajuuksina. Suoraviivainen keino olisikin mitata korkein taajuuspiikki signaalin Fourier-muunnoksesta mutta tämä ei anna kovin tarkkaa estimaattia taajuudesta koska taajuuden energia on tyypillisesti jakautunut useammalle taajuuspiikille; Babu [9] on esittänyt menetelmän Fourier-estimaatin tarkentamiseen taajuuspiikkien tehoarvojen avulla. Vakiintuneempi taajuustason menetelmä perustaajuuden estimointiin perustuu kepstri-analyysiin, jonka esitti vuonna 1963 Bogert et al [10]. Kepstrin cep(d) määritelmä puhesignaalille s(n) on cep(d) = FFT(log10[ FFT(s(n)) ]) jossa FFT on Fourier-muunnos sekä d on kepstrin indeksimuuttuja (quefrency), joka vastaa alkuperäisessä signaalissa jaksollista komponenttia jaksonpituudella d. Kepstri kuvaa tässä yhteydessä signaalin taajuussisällön muutosnopeutta ja se on havaittu erittäin hyödylliseksi sekä perustaajuuden määrittämisessä että ääntöväylän impulssivasteen esityksenä [7, s. 11]. Kuva 3.7: Esimerkki puhesignaalin segmentin kepstristä [7, s. 12] Kuvassa 3.7 on esitetty kepstri, jossa perustaajuus ilmenee selvänä piikkinä noin quefrency-arvolla 80.

18 3.2.1. Kepstri-analyysiin perustuva menetelmä Esimerkkinä taajuustason estimointimenetelmistä toteutuksessa käsittelemme Schafer & Rabinerin [11] esittelemän kepstriä hyödyntävän ratkaisun. Signaali jaetaan tässä menetelmässä 512 näytteen segmentteihin, jotka kerrotaan 512 arvon pituisella Hamming-ikkunafunktiolla, jonka jälkeen taukoa esittävät segmentit poistetaan myöhemmästä käsittelystä. Jokaiselle segmentille lasketaan tämän jälkeen kepstri, josta määritetään huippuarvo ja sen sijainti. Jos huippu ylittää valitun raja-arvon (tässä toteutuksessa 1/15 puhenäytteen absoluuttisesta huippuarvosta), segmentti luokitetaan soinnilliseksi ja perustaajuus saadaan suoraviivaisesti huipun sijainnista. Huippuarvon jäädessä rajaarvon alle ei segmenttiä kuitenkaan suoraan luokiteta soinnittomaksi vaan sille suoritetaan zero crossing (nollaylitys)-laskelma. Vasta nollaylityksien saavuttaessa määrätyn arvon segmentti määrätään soinnittomaksi, muussa tapauksessa se katsotaan soinnilliseksi ja taajuudeksi valitaan kepstrin huippuarvon antama estimaatti. Huomionarvoista useimpiin muihin menetelmiin on se ettei menetelmä sisällä minkäänlaista taajuussuodatusta vaan laskennassa on mukana kaikki alkuperäinen taajuusinformaatio. Rabiner et al:n GPE- ja FPE-mittaukset osoittavat kepstri-menetelmän suoriutuvan verrattain hyvin matalataajuuksisten puhujien osalta kun taas korkeaääniset puhujat aiheuttavat ongelmia. Selitykseksi tälle esitetään harmonisten taajuuksien vähyyden korkeaäänisillä puhujilla joka on epäedullista kepstri-analyysille, vaikeuttaen oikean taajuuden valintaa [3, s. 413]. Menetelmällä oli myös taipumus luokittaa soinnillisia segmenttejä soinnittomiksi; toisaalta luokitusvirhe toiseen suuntaan oli vastaavasti pieni luvussa 2.2.2 esitetyn periaatteen mukaisesti. 3.3.Aika/taajuustason menetelmät Aika/taajuustason menetelmät tyypillisesti yhdistelevät aika- ja taajuustason operaatioita (josta seuraa myös nimitys hybridimenetelmä) kuten myöhemmin esiteltävä SIFT-menetelmä; jotkin menetelmät kuitenkin pyrkivät toimimaan nimenomaisesti taajuus/aikatasossa. Hetkelliseen taajuuteen (instantaneous frequency) perustuva estimointi kuitenkin mallintaa puhesignaalin perustaajuutta ajan funktiona; tällöin ei tarvita oletusta signaalin taajuussisällön paikallisesta muuttumattomuudesta. Tällaisten menetelmien GPE on tyypillisesti alhainen; jatkuvasta käyrästä on helppo tunnistaa ja eliminoida ympäröiviin arvoihin sopimattomat arvot jotka johtuvat esimerkiksi puolittuneesta tai monistuneesta jaksonpituudesta. Hetkellisen taajuuden määrittäminen puhesignaalille on kuitenkin verrattain haasteellista sillä se on mielekkäästi määriteltävissä vain signaaleille joilla on yksi taajuuskomponentti eli ensin täytyy eristää taajuus jonka hetkellistä arvoa halutaan esittää. Qui et al [12] on esittänyt kaistanpäästösuodatukseen perustuvan ratkaisun jolla

19 puhesignaalin taajuussisältö muokataan hetkellisen taajuuden määrittämiselle sopivaksi; suodatuksen monimutkainen toteutus nousee menetelmän pääosaan. Abe et al:n [13] menetelmässä hetkellinen taajuus lasketaan Fourier-muunnosvariantin avulla (Short Time Fourier Transform, STFT). 3.3.1.SIFT-estimointimenetelmä Hybridimenetelmien toteutuksesta käsittelemme Simplified Inverse Filtering Technique (SIFT)-menetelmän jonka on esittänyt Markel [13] ja joka on Rabiner et al [3] suorittamassa vertailussa mukana. Menetelmä hyödyntää laajalti puheenkäsittelyssä käytettyä lineaarisen ennustamisen (linear predictive coding, LPC) tekniikkaa, jonka avulla voidaan estimoida ääntöväylää mallintavan suodattimen parametreja. Perustaajuuden estimoinnissa tämä suodatin on erittäin hyödyllinen sillä signaalin formanttitaajuudet voidaan vaimentaa tehokkaasti sen käänteissuodattimella. Estimointi aloitetaan kuitenkin alipäästösuodattamalla 40 millisekunnin pituiset segmentit 900 hertziin jonka jälkeen suodatettu signaali desimoidaan vielä 5:1 suhteella; tämän jälkeen segmenteille ratkaistaan edellä kuvattu käänteissuodin. Perustaajuus määritetään näin suodatetusta signaalista interpoloimalla autokorrelaatiofunktiota sen paikallisen maksimin läheisyydessä; segmentti luokitetaan soinnittomaksi jos näin saatu huippuarvo jää alle 0.4:n. Taukoa puheessa esittävät segmentit on karsittu samoin kuin aiemmin esitellyissä menetelmissä. Tämän SIFT-toteutuksen estimointitarkkuus osoittautui Rabiner et al:in [3] tekemissä mittauksissa hyväksi lukuunottamatta korkeaääniset lapsipuhujan tuottamaa testiaineistoa, jolloin tulokset olivat mitatuista estimointimenetelmistä selvästi huonoimmat. Tämä paljastaa ongelman taajuussisällön vaimentamisessa tilanteissa joissa spektri on jo luonnollisesti verrattain pelkistetty; tällöin myös vaimentuminen voi kohdistua myös perustaajuuteen [3, s. 413].

20 4.YHTEENVETO Tässä opinnäytetyössä on pyritty selvittämään lukijalle perustaajuuden estimoinnin taustaa, ongelman luonnetta sekä esitetty eri tyyppisiä käytännön ratkaisuja että niiden teoreettisia lähtökohtia. Apuna on käytetty sekä alan kirjallisuutta ja tuloksia alalla tehdyistä julkaisuista, joista huomattavin sekä eniten käytetty on Rabiner, Cheng, Rosenberg & McGonegalin suorittama kattava vertailu eri estimointimenetelmistä [3]. Perustaajuuden osa puheen mallintamisessa signaalina on merkittävä: se toimii herätteenä ääntöväylää kuvaavalle suodattimelle ja sillä on tällöin määräävä vaikutus ulostulosignaaliin; tämä vaikutus on vahvistettu myös kokeellisesti. Täten jos puhetta halutaan mallintaa mahdollisimman karsitulla tietosisällöllä kuten kapeakaistaisessa tiedonsiirrossa, kannattaa etusija antaa perustaajuuden tarkalle esittämiselle. Perustaajuutta tutkimalla voidaan myös saada tietoa puheen sisällöstä sekä puhujasta; kumpaakin voidaan tietyin rajoituksin hyödyntää puheen- että puhujantunnistusjärjestelmissä kehittyneempien kuvauksien kuten spektrogrammien tukena. Perustaajuuden sovelluksia tarkasteltaessa huomataankin sen olevan läsnä useimmissa puheenkäsittelyn aloista. Kaksi estimointimenetelmiltä lähes poikkeuksetta vaadittua perustoiminnallisuutta ovat perustaajuuskäyrän tuottaminen tietyllä (joko sovelluksen tai estimointimenetelmän määräämällä) intervallilla sekä soinnittomien kohtien erottaminen signaalista. Haasteita ratkaisujen kehittämiseen aiheutuu monesta lähteestä; puhesignaali on tyypillisesti muokkaantunut esimerkiksi puhelinjärjestelmässä tapahtuneen siirron yhteydessä eivätkä ihmisen puhe-elimet tuota erityisen täsmällisen jaksollista signaalia. Perustaajuuden estimointimenetelmiä suunniteltaessa niille voidaan asettaa tavoitteita monien kriteerien suhteen, jolloin tyypillisesti valitaan joku aikaisemmin esitetty lähestymistapa tai sellaisen pohjalta esitetty ratkaisu jota lähdetään kehittämään esimerkiksi estimointivirheiden keskihajonnan pienentämiseksi. Myös uusia lähestymistapoja kehitetään edelleen, usein valiten joku yleinen signaalinkäsittelyn menetelmä (joka tunnetaan esimerkiksi piiripohjaiseen toteutukseen sopivaksi) ja muokkaamalla sitä perustaajuuden estimointia palvelemaan. Ongelman parissa tehty tutkimus on tuottanut sekä toiminnaltaan että lähtökohdiltaan hyvin erilaisia ratkaisuja mutta ne pyritään kirjallisuuden usein luokittelemaan joko aikatason, taajuustason tai näiden yhdistelmämenetelmiksi sen mukaan millä keinoin ne määrittävät perustaajuuden. Eri tyyppisillä menetelmillä voidaan katsoa olevan tiettyjä etuja muiden tyyppisiä menetelmiä kohtaan: käytännössä näin ei juurikaan ole havaittu

21 olevan vaan jokainen menetelmä täytyy arvioida erikseen, erityisesti pitäen mielessä kulloisenkin sovelluksen vaatimukset.

22 LÄHTEET [1] Hess, W. Pitch Determination of Speech Signals: Algorithms and Devices. Berlin 1983, Springer. 698 s. [2] Clark J., Yallop C. An introduction to Phonetics and Phonology, 2nd edition. Oxford 1995, Blackwell. 490 s. [3] L.R. Rabiner, M.J. Cheng, A.H. Rosenberg and C.A. McGonegal, A comparative performance study of several pitch detection algorithms. IEEE Trans. Acoust., Speech, Signal Process. ASSP-24 (1976) (5), pp. 399 417. [4] A. Jefremov, W. B. Kleijn. 2002. Spline-based continuous-time pitch estimation. IEEE International Conference on Acoustics Speech and Signal Processing, ICASSP 2002 Vol 1, pp. I-337-340. [5] Keele Pitch Database [WWW]. University of Liverpool. [Viitattu 28.5.2007]. Saatavissa: http://www.liv.ac.uk/psychology/hmp/projects/pitch.html. [6] Fundamental Frequency Determination Algorithm (fda) Database [WWW]. The Centre for Speech Technology Research, University of Edinburgh. [Viitattu 28.5.2007]. Saatavissa: http://www.cstr.ed.ac.uk/research/projects/fda/. [7] R. Goldberg, L. Riek. A Practical Handbook of Speech Coders, Chapter 5: Pitch Extraction. Boca Raton 2000, CRC Press. 231 s. [8] M. M. Sondhi. New methods of pitch extraction. IEEE Trans. Audio Electroacoust. (Special Issue on Speech Communication and Processing-Part II) vol. AU-16, pp. 262-266, 1968. [9] M.M. Babu. Efficient and accurate pitch estimation using FFT. Proceedings of IEEE International Joint Symposium Intelligence and Systems, 1998, pp. 354 358. [10] B. P. Bogert, M. J. R. Healy, and J. W. Tukey. The quefrency alanysis of time series for echoes: cepstrum, pseudo-autocovariance, cross-cepstrum, and saphe cracking. Proceedings of the Symposium on Time Series Analysis (M. Rosenblatt, Ed) Chapter 15, 209-243. New York: Wiley, 1963.

23 [11] R. W. Schafer, L. R. Rabiner. System for automatic formant analysis of voiced speech. J. Acoust. Soc. Amer., vol. 47, pp. 634-648, 1970. [12] L. Qiu, H. Yang, S-N. Koh. Fundamental frequency determination based on instantaneous frequency estimation. Signal Processing, Volume 44, Issue 2, June 1995, pp. 233-241. [13] T. Abe, T. Kobayashi, S. Imai, Robust pitch estimation with harmonics enhancement in noisy environments based on instantaneous frequency, Proceedings of ICSLP 96, vol. 2, 1996, pp. 1277 1280. [14] J.D. Markel. The SIFT algorithm for fundamental frequency estimation. IEEE Trans. Audio Electroacoust. AU-20 (1972), pp. 367 377