7 Puheen ehostus Puheen ehostamisea taroitetaan seaisia menetemiä, joia puheen aatua pyritään parantamaan. Kuuostaa ysinertaiseta, mutta mitä sitten taroitetaan aadua? Siä voidaan taroittaa ainain seeyttä ja ymmärrettävyyttä mieyttävyyttä tai yhteensopivuutta jonun muun puheenäsitteyn menetemän anssa. Ymmärrettävyys ja mieyttävyys ovat vaieasti mitattavissa miään matemaattisea menetemää. Niitä onin tavattu mitata uunteuoeia. Kosa uunteuoeiden järjestäminen on varsin aista, pajon tutittu menetemiä, jota ennustavat uunteuoeiden tuosia. Mitään yhtä ysittäistä riteeriä minimoitavasi ei oe öytynyt ja tusin myösään öytyy. Keseisimpiä puheen ehostamisen menetemiä ovat taustameun vaimentaminen, aiunnan vaimentaminen ja taajuusien tuottaminen einoteoisesti puhesignaaiin. Kesitymme tässä ähinnä äymään äpi taustameun vaimentamisen perusmenetemiä, mutta ausi äymme äpi yhyesti, mistä näissä muissa on ysymys. Ensinäin, aiessa uonnoisessa ympäristössä mitatussa puheessa on joninverran aiua. Kaiuton, aiuttomassa huoneessa uutu puhe uuostaa ihmiseen orvaan uivata ja tysätä. Kaiunnan vaimennusta tarvitaan isoissa aiuvissa tioissa taennettujen puhesignaaien ehostamiseen, varsinin, jos etäisyys mirofonin ja puhujan väiä on suuri. 1 Nyyisissä puheinveroissa puhe on aistarajoitettu väie 300 3400 Hz. Ennemmin tai myöhemmin marinoie tuee omannen suupoven puheimia, joissa on aajaaistaista puhetta, ei jossa puhe on aistarajoitettu esimerisi väie 50 7500 Hz. Mahdoisuudesta aajaaistaiseen puheeseen ei uitenaan oe juuriaan ioa, jos puheu ei väity oonaan aajaaistaisessa verossa. Keinoteoisea aistanaajennusea ehostetaan puhetta paauttamaa matae jääneet taajuudet. Täaisie menetemie on äyttöä myös paausessa. Kun puheesta vaimennetaan taustameua, oeeista on huoehtia siitä, ettei varsinainen puhe vääristy. Tai että se ei vääristy ainaaan pahasti. Ja toinen täreä huomioon otettava asia on se, että uonnoinen taustameu on muavamman uuoista uin vaimeampi vääristynyt tai muuten uonnottoman uuoinen taustameu. Jos puhetta ei oe taroitettu uunnetavasi, vaan vaiapa puheentunnistimee, taustameun aadua ei samaan tapaan oe niin väiä. Täreintä on, että taustameu on vaimeaa. Taustameun vaimennusee on monia soveusaueita. Ensimmäisenä tuee mieeen puheimen äyttö meuisassa ympäristössä, esimerisi adua tai autossa. Vanhastaan on out tarpeen vaimentaa taustameua puheesta, jota väitetään entooneen ohjaamosta maahan tai matustamoon ja vastaavanaisia esimerejä on heppo esiä isää. Varsinin iääntyvässä Euroopassa asvaa tarve saada toimivia puheenehostusmenetemiä uuoaitteisiin. Iääntyessä uuoaue pienenee. Se, ettei uue heinäsiraa, on pieni riesa siihen nähden, 1 Kaiunnan vaimennus on eri asia uin aiunumous, jossa tavoitteena on estää puhetta paaamasta järjestemän autta taaisin puhujaeen pieneä viipeeä. Kaiunumousta voidaan pitää puheen ehostamisena, mutta osa se on täreä adaptiivisen signaainäsitteyn soveusaue, sitä ei äsiteä tää urssia, vaan adaptiivisen suodatusen urssia. 47
että uuoaue apenee ei että voimaaat äänet äyvät epämieyttävisi ja hijaisia ääniä ei uue. Täaisessa soveusessa mahdoisimman pieni viive on vättämätön. Esoottisemmasta soveusaueesta äy vaia historiaisten äänitteiden ehostus tai uunteu riostutinnassa. Puhetta on hyvä ehostaa myösin oodausta ja tunnistusta varten. Puheoodeit on optimoitu puheee ja ne usein saavat taustameun uuostamaan ummaiseta. Lisäsi ehostettu puhe paautuu ehostamatonta paremmin. Tunnistimet taas haevat puheen parametreja ja häiriintyvät yimääräisistä äänistä. Atiivisen meunvaimennusen nimeä uee menetemä, jossa tuotetaan vastameua suoraan uunteijan orvaan. Siinä ei saa juuri tua viivettä, osa jos menee pieeen, niin sitten tuotetaanin meua eiä vastameua. Tästä syystä monet atiivisen meunvaimennusen menetemät toimivat suoraan anaogisina: A/D ja D/A muunnoset nimittäin aiheuttavat väistämättä jonin verran viivettä. Ne puheen ehostusmenetemät, joita seuraavassa äydään äpi, hoidetaan ehysissä asetun signaain spetrin avua. Käytännössä peataan osittain pääeäisiä muutaman ymmenen miiseunnin ehysiä ja iunoitu signaai pidennetään tarpeeisea määrää noia ähimpään aosen potenssiin. 7.1 Taustameun estimoinnista Kaii puheenehostusmenetemät, jota vaimentavat taustameua, perustuvat uonnoisesti tavaa tai toisea taustameun estimointiin. Jos taustameu muuttuu puhetta hitaammin ei on puhetta stationaarisempi signaai, hepointa on estimoida taustameua tauojen aiana. Tauojen öytäminen puhesignaaista perustuu ysinertaisimmiaan siihen, että tarastetaan uina äheä taustameuestimaatti on ussain ehysessä oevaa signaaia. Soinniiset äänteet voi öytää perustaajuuden perusteea. Kummaain tavaa varsinin soinnittomat painottomat tai yhyet foneemit tuevat herästi uoiteuisi taustameusi. Toisaata se ei oe erityisen vaaraista, osa vaimeina niiden meritys taustameuestimaatin päivitysessä ei oe niin riittinen. Jos äytössä on toimiva VAD (voice activity detection), joa antaa ehysittäin noaa ja yöstä, on ysinertaisinta päivittää taustameun spetriä VADin antaessa noaa aavaa! "#! $ (1) missä "#! on ohinaisen puheen spetri, on unohdusteijä, joa tasoittaa spetriä, ja indesi viittaa uoiseenin ehyseen. Hienostuneempiain menetemiä taustameun estimointiin on. Nimeä "minimum statistics" uee eräs seainen menetemä, jossa ei tarvita VADia. Perusideana on ensisi asea tasoitettu spetri aavaa ( 1) ja sitten antaa joaisee spetrin tapie useasta perääisestä arvosta pienin arvo. Täaisesta estimaatista tuee jonin verran harhainen, mutta se toimii edeistä menetemää paremmin, jos taustameu on epästationaarista. 7.2 Spetrinvähennys ja Wiener-suodin Vanhin ja ysinertaisin menetemä puheenehostusessa tunnetaan spetrinvähennysenä. Siinä peataan magnitudispetreiä ja ehostetun puheen DTFT:si saadaan % & ' ()* + "# (!, ' ( -/.+021436587:9<;>=? 48
C C?? Signaain vaiheee ei siis tehdä puhetta ehostettaessa mitään. Ihan täaisena spetrinvähennys ei toimi, osa erotus voi mennä negatiivisesi. Käytännössä ehostetun puheen spetrie annetaan join positiivinen minimiarvo. Toinen yhtä vanha menetemä on peata (tehotiheys)spetriä, jooin ehostetun puheen DTFT:si saadaanin % & ' ()A@ " ' ( ' (. 081436527B9<;>= ja tämä voidaan yeistää vaihteemaa potenssia ja juurrettavaa. Näiden spetrinvähennysmenetemien taana ei oe mitään erityistä teoriaa, mutta menetemiä on yä myöhemmin pyritty perusteemaan teoreettisesti. Pieneä aavanväännöä päästään siihen, että tässä itse asiassa tapahtuu ineaarinen suodatus taajuustasossa. Ensimmäisessä tapausessa suodattimen taajuusvaste on ysinertaisesti ' ()EDF ' ( "# (! HG ja jäimmäisessä C ' (I L JK K (! " ' ( Itse asiassa ei tämä ihan näin näppärästi mene, osa vähennysasun ei anneta mennä negatiivisesi, mutta ei huoehdita nyt siitä. Kiinnostavampaa on miettiä, joso täainen suodatin oisi jossain mieessä optimaainen ja jos ei oe niin miä oisi. Optimaaisuusia pohtimaa voidaan päätyä Wiener-suotimeen. Wiener-suodatusessa perusajatusena on minimoida odotusarvoa MONPQ N QSR TU W V XZY [ V]\ X_^ T`baS4cd Toiveena oisi vieä, että suodatin oisi myös toteutettavissa tää ertaa taajuustasossa. Tässä vaiheessa on tarpeen oettaa, että puhe ja ohina ovat normaaisti jaaantuneita 2 eivätä orreoi, muuten mistään ei tue mitään. Oetetaan siis, että M f "# ' ( hgi Mf ' B! hgj M f & ' ( hg? Erinäisen aavanpyöritteyn jäeen (ja mataa odotusarvotin putoavat pois) päädytään suotimeen ' () & (! ' ( O & (! Tässä vaiheessa hyvä ysymys on, jotta mistä se ehostetun puheen spetri & (! putahti? Eihän tuota voi toteuttaa! Eiä tässä muutenaan tunnu oevan järeä, osa jos spetri tiedetään, puhetta ei tarvitse enää ehostaa. 2 Sivumennen sanottuna tätä oetaan vain sisi että saadaan nättejä aavoja; itse asiassa moni muu jaauma sopii puheen anssa yhteen paremmin. Nyt johdettava menetemä toimii uitenin ihan evoisesti ja muiden jaaumien anssa tuee meoista säätöä. 49 ce d?
Aivan totta, mutta tässä on uitenin ihan järevä ajatus taana. Kun Wiener suodinta aetaan toteuttaa, suodin annetaan muodossa C ' () B ( ' B ja oo jutun ideana onin arvioida signaai-ohina -suhdetta (a priori SNR) ' (I & (! ' B! joaisee taajuudee eriseen ja asea suodatin taajuustasossa signaai-ohina -suhteiden avua. Käytännössä toimivimmasi rataisusi on osoittautunut äyttää painotettua summaa ahdesta eri estimaatista. Käytetään merintää ' () "# (! ' ( viittaamaan ohinaisen signaain ja ohinan suhteeseen (a posteriori SNR). Täöin () (Um on ihan epo estimaatti. Toinen estimaatti saadaan suodattamaa ohinaista puhetta () C (4" ' ( ' B! Nyt un vieä muistetaan, mitä oieastaan on jo asettu ja mitä asetaan saadaan signaai-ohina -suhteee arvio ' öp)q C r n C (! ' öpps oqutwv,xy ' B ' pm> Zz{? Käytännössä asetetaan vieä masimivaimennus, n. 10 db, ja huoehditaan tavaa tai toisea siitä, että ovin suuria muutosia ei perääisiin iunoihin tai viereäisiin tappeihin tue. Muuten syntyy ns. musiaaista ohinaa, joa ei nimestään huoimatta oe mitenään aunista uutavaa. Periaatteessahan meidän Wiener-suotimemme voi aiatasossa oa äärettömän mittainen, mutta äytännössä suodatetaan puhetta hyvinin yhyissä ehysissä. Niinpä seaista taajuusvastetta ei voi toteuttaa, jota vastaa ovin pitä impussivaste. Käytännössä tämä estää teemästä ovin äinäisiä muutosia taajuusvasteeseen. 7.3 Muita menetemiä Spetrinvähennysmenetemät, joihin Wiener-suotimenin voi asea, ovat varsin ysinertaisia ja toimivia, mutta niiden anssa ei taustameun estimoinnin jäeen oteta mitenään huomioon sitä että ehostetaan nimenomaan puhetta. Niitä äytettäessä ei myösään tehdä signaain vaiheee yhtään mitään. Tämä ei itse asiassa miään mahdoton ongema oe, osa uuo ei oe vaiheee erityisen sensitiivinen. Komas rajoitus spetrinvähennysmenetemien äytössä on se, että puhetta äsiteään ehysissä ja siirtyminen ehysestä toiseen pitää hoitaa siististi. Muuten puhe aaa pätiä. Näistä syistä muitain menetemiä puheen ehostuseen on ehitety. Menetemät perustuvat joo 50
puhetta vastaavan AR-main parametrien estimoimiseen tai siihen, että puhe paautuu ohinaa paremmin. Näissä puheen ehostusmenetemissä hyödynnetäänin samoja periaatteita uin puheen tunnistusessa ja oodausessa seä yeensä paausessa. Useamman mirofonisignaain avua puhetta voidaan myös ehostaa. Ihan tavainen adaptiivinen suodin, joa saa ohinaisen puheen ja referenssiohinan, ei yeisesti ottaen oe toimiva rataisu. Sen sijaan useamman mirofonin avua voidaan vahvistaa yhdestä suunnasta tuevaa ääntä ja vaimentaa toisista suunnista tuevia. Käytännössä täaisten menetemien perään annattaa pistää vieä "tavainen" spetrinvähennys. Siinä oieassain suunnassa voi nimittäin oa taustameua. 51