6 Lineaarisen ennustusen sovellusia Lineaarisella ennustusella on hyvin täreä asema monessa puheenäsittelyn sovellusessa. Seuraavassa on esitetty esimerejä siitä miten lineaarista ennustusta voidaan hyödyntää. 6. Formanttien estimointi Formanttien estimointi on seleä lineaarisen ennustusen sovellus johtuen siitä, että lineaarisen ennustusen antaman mallin amplitudivaste pyrii mallintamaan nimenomaan signaalin spetrin verhoäyrän piiit eli tässä tapausessa ääniväylän formantit. Formanttien estimointi LP-mallista perustuu siihen, että napaparilla! #" $&% '(' on amplitudivasteen huippu ulmataajuudella " "!,-./ eli taajuudella )+*, missä )/* on näytteenottotaajuus. Formantin aistanleveys uvaa sitä, uina leveä formantti on. Miäli formantti on hyvin jyrä, sen aistanleveys on pieni, ja päinvastoin. LP-suodattimen napaparin aistanleveys on 2 )+*.4 Tämä on sen aistan leveyden puolias hertseinä, jossa navan amplitudivaste on enintään 5 db masimiarvoaan alempana, uten uva osoittaa. Seuraavasi esitetään menetelmiä, joilla LP-suodattimen formanttien taajuusia voidaan estimoida. 6.. Teijöihin jao Suoraviivainen tapa estimoida formanttitaajuudet on jaaa LP-polynomi /%76 8$ % 9:9;9%<6 >=? teijöihin, jolloin formanttitaajuudet saataisiin em. tavalla teijöiden nollaohtien ulmista. Ongelmana on reaaliaiaisten sovellusten annalta lähinnä juurten etsimisen vaatima lasentateho. Käytännössä teijöiden etsimiseen äytetään jotain iteratiivista algoritmia, esim. Newton-Raphson menetelmää, joa toimii hyvin jos juurten aluarvauset ovat hyviä. Tämän taia annattaa uuden lohon LP-polynomin nollien aluarvoina äyttää edellisen lohon nollia, sillä ääntöväylä ja sen myötä LP-polynomin nollat muuttuvat suhteellisen hitaasti. Kuviossa 2 on nollien jaauma seunnin pituiselle puheelle, un LP-mallin aste on ja näytteenottotaajuus on 8 Hz. Huomaa neljä formanttiesittymää lähellä ysiöympyrää. Kuviossa on esitetty vastaavat formanttitaajuudet. Vertailun vuosi uviossa 4 on vastaavan puheen spetrogrammi. 6..2 Amplitudivasteen masimien etsintä A Toinen tapa selvittää formantit LP-polynomin @ perusteella on lasea siirtofuntion BDCFEHG amplitudivaste; formanttitaajuusien pitäisi olla tämän vasteen masimien ohdalla. Tämä taas saadaan nopeammin lasettua etsimällä suodattimen @ :n amplitudivasteen minimiarvot. Tämän A menetelmän 8
M @ @? W? W L Napaparin amplitudivaste 8 6 4 Amplitudivaste db 2 2 4 6 8 5 5 2 25 5 4 taajuus Hz Kuvio : Napaparin db:n aistanleveys. heious on lähellä toisiaan olevien formanttien sulautuminen, eli matalamman formantin ohdalla ei ole suoranaista piiiä. Kuvio 5 selventää asiaa. Kätevä eino sulautumien erottamiseen on McCandlessin menetelmä, jossa lasetaan järjestelmän amplitudivaste ympyrän muotoisella ehällä ysiöympyrän sisällä, eli evaluoidaan JI K missä LNMOM. Tämän johdosta napojen aiheuttamat amplitudivasteen piiit tulevat terävämmisi ja helpommin eroteltavisi. Lasennallisesti tämä on helpointa evaluoida seuraavasti Ḧ'QPSRTVU 6 \[ Ḧ']PSRTVU X X8Y-Z 6 V[ Q X $ Ḧ'QP X RTVU X8Y-Z Tämä taas on sama uin nollilla jatetun jonon 6 K$ 6 8K$ ' 6 ^K K$? 6 >= ;; DFT. Tuloset on esitetty uvassa 6. Ongelmana on vielä se, että ei ole helppoa menetelmää arvioida oieita :n arvoja joilla formantit voitaisiin erottaa. Kang ja Coulter ehittivät samantyypisen menetelmän, jossa on se etu, että aii nollat siirretään ysiöympyrälle, jolloin ne on helppo erottaa. Huonona puolena on se, että nollat eivät siirry säteittäisesti, jolloin formanttien estimaatteihin tulee pieni vääristymä. Menetelmä toimii siten, että viimeinen heijastuserroin asetetaan yösesi. Voidaan osoittaa, että viimeinen heijastuserroin = LP-polynomin viimeisen termin erroin = LP-polynomin nollaohtien tulo. 9
a L W b b a LP polynomien nollien jaauma.8.6.4.2.2.4.6.8.8.6.4.2.2.4.6.8 Kuvio 2: Lohojen LP-polynomien nollien jaauma seunnin puheesta. Nämä nollat vastaavat ääniväyläsuodattimen napoja. Pisteatoviiva uvaa ysiöympyrää. Christensen on esittänyt menetelmää, jossa amplitudivasteen minimien etsimisen sijasta etsitään sen toisen derivaatan masimi. Kosa toinen derivaatta mittaa funtion uperuutta tai overuutta, sen masimiohta osoittaa jyrän äännösen funtion uvaajassa. Tämän menetelmän avulla voidaan arvioida myös formantin aistanleveyttä. LP-perustaisten menetelmien äyttö perustuu luonnollisesti vielä LP-parametrien yyyn mallintaa formantteja. Yleensä LP-malli toimiiin hyvin, tosin oreataajuisen puheen LP-mallissa navat saattavat siirtyä ohti lähintä perustaajuuden harmonista. Tämä johtuu siitä, että LP-spetri pyrii mallintamaan mahdollisimman hyvin aluperäisen puheen spetrin piiit. Jos uitenin puheen perustaajuus on orea (n. 5 Hz), saattaa LP-spetri yetä mallintamaan myös perustaajuudesta johtuvia spetripiiejä. Matalataajuisen puheen tapausessa perustaajuuden harmonisia on yleensä sen verran monta, ettei LP-suodatin pysty niitä mallintamaan. 6.2 LP-ertoimien äyttö perustaajuuden estimoinnissa Puheen perustaajuutta voi ysinertaisimmillaan pyriä lasemaan autoorrelaatiofuntion avulla. Oletetaan, että meillä on iunoitu puheehys _ K _ 8K K ;; _ #` K jolloin sen autoorrelaatio viiveellä a on X8Y _ V[ _ V[ 4 K
4 LP ertoimista estimoidut formantit 5 25 taajuus, Hz 2 5 5..2..4.5.6.7.8.9 aia, s Kuvio : Formantit lohoittain. 4 5 25 Frequency 2 5 5..2..4.5.6.7.8.9 Time Kuvio 4: Spetrogrammi. missä _ \[ L, jos [ McL tai [edf`. Tämä autoorrelaation lasentatapa antaa esimäärin liian pieniä arvoja suurille viiveille, sillä nollasta eroavia tappeja tulee vähemmän summaan muaan. Tätä 4
Magnitude Response (db) 4 2 2..2..4.5.6.7.8.9 Normalized frequency (Nyquist == ) Imaginary part.5.5 2 2 Real part Kuvio 5: Formanttien sulautuminen. 8 Siirtofuntio ysiöympyrän sisällä 7 6 5 amplitudivaste db 4 2 2..2..4.5.6.7.8.9 taajuus Kuvio 6: Formanttien erottaminen McCandlessin menetelmällä. 42
` @ a K g @ K L a voi ompensoida ertomalla a termillä eg jolloin tulos esiarvotetaan aiien termien yli. Tässä tapausessa vastaavasti estimaatti on epätarempi suurilla viiveillä, ja lisäsi ei välttämättä ole voimassa ihf, uten on ensimmäisellä menetelmällä. Matlabissa nämä saalauset saadaan autoorrelaation xcorr eri optioilla. Autoorrelaatiota voidaan soveltaa perustaajuuden määrittämisessä sen perusteella, että jos autoorrelaatio jollain viiveellä on suuri, signaali tällä viiveellä muistuttaa viivästämätöntä signaalia. Toisin sanoen jos puheehysestä lasetaan autoorrelaatio ja etsitään tämän masimi jollain järevällä viivealueella, tätä masimia vastaava viive on hyvä ehdoas ehysen perustaajuudesi. Kuvassa 7 on esitetty puheehys, jona perustaajuus on 25 Hz, seä ehysen autoorrelaatiofuntio.. Äänne, Fs=8 Hz, perustaajuus 64 näytettä = 25 Hz.5.5. 5 5 2 25 5. Kehysen autoorrelaatio, saalattu ja saalaamaton.2...2 2 4 6 8 2 4 6 8 2 Viive, näytettä Kuvio 7: Puheehys ja sen autoorrelaatio. Ysi suurimmista ongelmista suoraviivaisessa perustaajuuden määrittämisessä autoorrelaatiomenetelmällä on formanttien aiheuttamat valehuiput. Kosa LP-äänteissuodatus on hyvä menetelmä spetrin tasaamiseen, sen avulla voidaan vähentää formanttien vaiutusta ja näin parantaa perustaajuusestimaattia. Perusajatusena on ysinertaisesti esisuodattaa puhe LP-parametreista saadulla äänteissuodattimella ennen autoorrelaation lasentaa. Toisin sanoen, un puhemallimme on A j A l A A ja olemme saaneet estimoitua suodattimen @ (formantit) lineaarisen ennustusen avulla, voimme estimoida A A :n suodattamalla puheen FIR-suodattimella @ : A j A A 4
g Nyt signaalista A V[ pitäisi olla helpompaa arvioida perustaajuus uin puhesignaalista m, osa spetrin verhoäyrä on melo tasainen. Tämä menetelmä tunnetaan nimellä SIFT (simple inverse filter tracing). Menetelmän toimintaa voi atsella uvista 8 ja 9..5 x 4 puhesignaali.5.5 5 5 2 25 4 x 9 autoorrelaatio 2 2 5 5 2 25 viive Kuvio 8: Normaali puhesignaalin autoorrelaatio. 6. Perustaajuuden estimointi epstrin avulla Esitämme vielä epstriin perustuvan perustaajuuden estimointimenetelmän, joa toimii hyvin silloin un signaali-ohinasuhde on orea. Signaalin _ \[ epstri määritellään aavalla n \[ po q rog o q _ \[ (stgfsak missä o on DTFT-operaattori. Näyttää pelottavalta, mutta perusidea on seuraava: Oletetaan, että meillä on signaali _ \[ V[ /uwv V[ ja haluaisimme selvittää \[ :n (tai v V[ :n) vaiutusen signaaliin _ \[ V[. Tätä voi hyvin verrata tilanteeseen, jossa m yx V[ z% { \[, missä x V[ on alipäästö- ja { \[ ylipäästösignaali, jossa tapausessa saamme signaalin x \[ V[ suurin piirtein selville un suodatamme m :n sopivalla alipäästösuodattimella. Toisin sanoen signaalin m V[ spetristä voidaan erottaa toisistaan signaalit x V[ ja { V[ jos ne ovat eri taajuusaistoilla. Kepstrin avulla voidaan vastaavasti areasti erottaa signaalien \[ ja v \[ vaiutus signaaliin _ \[. Oloon o q V[ s ~} ja o q v V[ s \}. Nyt g o q \[ &uwv V[ stg g ~} \} :g ~} :g2g \} :g 44
o 6 Käänteissuodatettu puhesignaali 4 2 2 4 5 5 2 25 2 x autoorrelaatio 7 5 5 5 5 5 2 25 viive Kuvio 9: SIFT-esisuodatetun signaalin autoorrelaatio. Logaritmin avulla tämä saadaan lineaarisesi:!r g ~} :g2g \} :g r g \} :g &%!r g \} ;g Tässä on siis ahden signaalin summa josta haluaisimme selvittää sen osien vaiutusen. Tämän taas osaamme jo rataista ottamalla signaalista spetrin: q!r g \} ;g2g \} ;g s Kosa signaali josta lasemme spetrin on reaalinen ja symmetrinen, tämä on sama uin o q!r g \} ;g2g \} ;g s Herää vielä ysymys siitä, sijaitsevato r g \} :g ja!r g \} ;g eri taajuusaistoilla. Puheenäsittelyssä signaali V[ on urunpää-ääni, joa voidaan tässä olettaa jasollisesi (osa olemme haemassa perustaajuutta joa on mieleäs äsite vain soinnillisille äänteille), un taas v \[ on ääniväylän impulssivaste. Miä on jasollisen urunpää-äänen amplitudispetrin logaritmin spetri? Vastaus: oreataajuinen impulssijono. Vastaavasti ääniväylän spetri on suhteellisen hitaasti muuttuva, joten sen spetri sisältää lähinnä matalia taajuusia. Kuviossa on esitetty ehysen verran voaalia ja sen epstri. Havaitaan, että ääniväylän ja herätteen vasteet ovat seleästi erillään ja puheen perustaajuus saadaan suoraan epstrin ensimmäisen sopivan piiin indesistä. Tämän menetelmän huono puoli on sen suhteellisen huono ohinasietoisuus additiiviselle ohinalle. Kuvassa on sama puhe johon on lisätty valoista ohinaa siten että signaali-ohina suhde on db. 45
.5 x puheloho 4.5.5 5 5 2 25 5 4 45 5.6 epstri.4.2.2.4 5 5 2 Kuvio : Puhe+epstri. 2 x 4 ohinainen puheloho 2 5 5 2 25 5 4 45 5. epstri.2...2 5 5 2 Kuvio : puhe+ohina+epstri. 46