Paavo Alku Aalto-yliopisto, Signaalinkäsittelyn ja akustiikan laitos 1. PUHESIGNAALIN OMINAISUUDET 1.1 Johdanto Puhe on aina ollut kaikissa kulttuureissa ihmisen tärkein kommunikaatiomuoto. Se on niin itsestään selvä osa ihmisen arkipäivää, että harvoin pysähdymme miettimään puheen ainutlaatuisuutta. Vasta silloin kun joudumme luopumaan puheesta, tapahtui tämä sitten yksilön tasolla puhekyvyn menettämisenä tai yhteiskunnan tasolla matkapuhelinverkon mykistymisenä, tajuamme konkreettisesti, kuinka merkittävä rooli puheella on. Teknisiä tieteitä ja niitä lähellä olevia luonnontieteitä, joissa puhesignaalia käsitellään esimerkiksi puhekommunikaation tai ihminen-kone-rajapinnan toteuttamiseksi, nimitetään puheteknologiaksi. Puheteknologian alueita on yleinen puheanalyysi (speech analysis), johon kuuluu menetelmät, joilla puhesignaalista saadaan selville sen ominaisuuksia ja piirteitä. Puhesynteesissä (speech synthesis) kehitetään tekniikoita tuottaa tekstistä mahdollisimman aidon kuuloista puhetta koneen avulla. Puheentunnistuksen (automatic speech recognition) haaste on käänteinen: tavoitteena on saada tietokone muuntamaan luonnollisen puhujan tuottama puhesignaali tekstiksi tai erimerkiksi reagoimaan komentosanoihin. Puhujantunnistuksen (speaker recognition) tavoitteena on tunnistaa tai verifioida puhetta tuottanut puhuja. Puheenkoodaus (speech coding) on tietoliikennetekniikkaan perinteisesti läheisimmin kuuluva puheteknologian alue, jolla tarkoitetaan menetelmiä, jotka kompressoivat digitaalisen puhesignaalin esimerkiksi matkapuhelinverkossa tai VoIP:lla (Voice over Internet Protocol) tapahtuvaa siirtoa varten. Puheenkoodaus liittyy usein käytännön teknologiassa läheisesti puheensiistaukseen (speech enhancement). Puheensiistauksella tarkoitetaan niitä menetelmiä, joilla muokataan puhesignaalia erimerkiksi poistamalla siihen summautunutta taustakohinaa tai piilottamalla (error concealment) pakettiverkkosiirrossa hävinneiden datapakettien heikentävää vaikutusta äänenlaatuun. Kaikilla edellä mainituilla puheteknologian alueilla on yhteisenä piirteenä se, että niissä käsitellään digitaalisessa muodossa olevaa informaatiosignaalia, joka on tuotettu ihmisen puheentuottomekanismilla. Tämä mekanismi synnyttää puheelle tunnusomaisia akustisia piirteitä, joiden perusteiden ymmärtäminen on tärkeä osa kaikilla puheteknologian alueilla. Esimerkiksi luvussa 2 kuvattavassa teknologiassa, puheenkoodauksessa, saavutetaan tehokas äänisignaalin kompressio kohdentamalla bittiresurssi ensisijaisesti niiden parametrien kuvaamiseen, jotka on keskeisiä puheentuottomekanismissa. 1.2 Ihmisen puheentuottomekanismi 1.2.1 Puheentuottomekanismin pääosat ja -toiminta Puhesignaali on paineaalto, jonka synnyttää ihmisen äänentuottoelimistö (kuva 1.1). Vaikka tätä fysiologista mekanismia tarkastellaan tässä yhteydessä puheentuoton perspektiivistä, on syytä muistaa, että samalla koneistolla ihminen toteuttaa kaksi muuta välttämätöntä tehtävää, hengittämisen ja syömisen. Äänentuottoelimistö voidaan karkeasti jakaa kahteen pääosaan: (1) herätteen tuottaviin äänihuuliin (vocal folds) ja (2) tätä suodattavaan ääniväylään (vocal tract). Äänihuulet ovat kimmoisasta limakalvosta ja lihaskudoksesta koostuvat poimut henkitorven yläpäässä (kuvat 1.2 ja 1.3). Tuotettaessa soinnillista ääntä, kuten kappaleessa 1.2.2 tarkemmin kuvataan, alkavat äänihuulet värähdellä keuhkoissa synnytetyn paineen seurauksena. Äänihuulten 1
välissä oleva rako on nimeltään glottis (äänirako). Syntyvä fysiologinen, lähes jaksollinen värähtely on nopein liike, mitä ihmiskehossa ilmenee. Äänihuulten fysiologiaa ja toimintaa voidaan karkeasti suuruusluokaltaan kuvata seuraavalla ykkösjonolla, joka vastaa keskimääräisen aikuisen naispuhujan arvoja: (a) äänihuulen värähtelevän osan pituus: 1 cm (miespuhujalla 1.6 cm), (b) värähtelevän osan amplitudi: 1 mm, (c) äänihuulen paino: 1 gramma, (d) maksimaalinen ns. peakto-peak virtaus: 1 litra/s (Titze, 1994). Ääniväylä on fysiologinen suodatin, jonka profiilia muuttamalla ihminen kykenee saamaan aikaan erityyppisiä akustisia suodatusefektejä äänihuulilta lähtevään herätesignaaliin. Ääniväylän pituus on naisilla keskimäärin 13,5 cm ja miehillä 17 cm. Ääniväylän poikkipinta-ala vaihtelee -2 cm 2 :n välillä riippuen siitä, mitä äännettä ihminen tuottaa (Rabiner ja Schafer, 1978). Ääniväylän yläosa haarautuu kahdeksi eri osaksi: suuväyläksi (oral cavity) sekä nenäväyläksi (nasal cavity). Kuva 1.1 Puheentuottoelimistön pääosat (Rowden, 1992). 2
Kuva 1.2 Kurkunpää, äänihuulet merkitty kahdella nuolella, näiden välissä näkyvä aukko on äänirako (glottis) (Flanagan, 1972). Kuva 1.3 Mikrofonin antama puhesignaali (ylin kuva), käänteissuodatuksella estimoitu glottisvirtaus (keskimmäinen kuva) sekä digitaalisella suurnopeuskuvauksella suuaukon kautta kuvatut äänihuulet kolmena aikahetkenä (Pulakka, 25). 3
Puheentuottamisketjun viimeiseksi vaiheeksi luetaan kuuluvaksi ns. huulisäteily (lip radiation) (Fant, 197; Flanagan, 1972). Tällä tarkoitetaan suuaukolta erkaantuvan tilavuusnopeuspulssimuodon muuttumista paineaalloksi tietyn etäisyyden päässä puhujasta. Edettyään vapaassa ilmatilassa kohtaa tuotettu ääni mikrofonin, joka muuttaa paineaallon sähköiseen muotoon. Täten saatu analoginen signaali muutetaan digitaaliseksi AD-muuntimessa. Näin saadaan lopulta puhesignaali, jota puheteknologian eri sovellutusalueet hyödyntävät lähtöinformaationa. Ihminen käyttää edellä karkeasti kuvattua puheentuottomekanismia eri tavalla riippuen siitä, mikä äänne halutaan synnyttää. Jos äänteet jaotellaan tuottomekanismin toiminnan mukaan, voidaan syntyviä äänteitä tarkastella seuraavan kolmijaon mukaan (Flanagan, 1972): (1) Soinnilliset äänteet (voiced sounds). Näiden äänteiden tuottamisessa äänihuulet värähtelevät. Soinnilliset äänteet ovat tärkein äänneryhmä ja siihen kuuluvat esimerkiksi kaikki vokaalit sekä ns. nasaalit ([n], [m]). (2) Soinnittomat äänteet (unvoiced sounds). Tämän ryhmän äänteiden tuottamisessa äänihuulet ovat auki ja niiden välistä purkautuvan ilmavirtauksen eteen synnytetään jossakin ääniväylän kohdassa ahtauma (esimerkiksi kielen etuosan ja hammasvallin välissä), jolloin syntyy pyörrevirtaus. Tämän ryhmän äänteitä nimitetään frikatiiveiksi (hälyäänne), esimerkkeinä [s], [h] ja [f]. (3) Edellisen kahden pääryhmän rinnalla on äänneryhmä, klusiilit (plosives), jotka usein erotellaan omaksi ryhmäkseen johtuen niiden erilaisesta puheentuoton toimintaperiaatteesta. Klusiilien tuottamisessa ihminen sulkee hetkeksi ilman virtauksen ääniväylän läpi. Paineen kasvun nopea vapauttaminen synnyttää tähän ryhmään kuuluvan, tyypillisesti hyvin lyhytkestoisen äänteen. Klusiileja on sekä soinnillisia ([b], [d] ja [g]) että soinnittomia ([k], [t] ja [p]). Kuten kohdassa 1.1 todettiin, hyödynnetään kaikissa puheteknologian alueissa jollain tavalla puheelle luonteenomaisten akustisten piirteiden ominaisuuksia. Erityisesti äänihuulten muodostaman soinnillisen äänteen herätesignaalin, glottis-pulssijonon, sekä ääniväylän merkitys on oleellinen puhesignaalin ominaisuuksiin vaikuttava tekijä. Tästä syystä seuraavaksi tarkastellaan näitä kahta puheentuottamisen prosessia hieman tarkemmin. 1.2.2 Glottis-heräte Glottis-heräte on värähtelevien äänihuulten välistä lähtevä virtauspulssijono, joka toimii soinnillisten äänteiden herätteenä. Soinnilliset äänteet ovat merkittävin äänneluokka lähes kaikissa maailman kielissä. Esimerkiksi englannin kielessä on laskettu (tekstimuotoisesta datasta) soinnillisten äänteiden osuuden olevan lähes 8 % (Catford, 1977). Keuhkoista lähtevä ilmavirta aiheuttaa sulkeutuneiden äänihuulten alapuolelle paineen kasvamisen. Tämän seurauksena äänihuulet alkavat avautua, jolloin niiden välissä oleva äänirako, glottis, alkaa kasvaa. Glottiksen läpi kulkeva virtaus lisääntyy, joka puolestaan aiheuttaa alipaineen syntymisen äänihuulten väliin. Tämä alipaine alkaa vetää fysiikasta tutun Bernoullin efektin mukaisesti äänihuulikudosta yhteen, eli glottis supistuu ja lopulta menee kokonaan umpeen. Tämän jälkeen paine äänihuulten alapuolella alkaa taas kasvaa eli sama toiminta jatkuu (lähes) jaksollisena. Tuloksena saadaan jaksollinen virtauspulssi, glottis-heräte. Kuvan 1.4 ylemmässä osassa on esitetty puhesignaali, jonka alapuolella on tästä laskettu glottis-herätteen aika-alueen pulssimuoto. Glottis-herätteen tehon jakaantuminen eri taajuuksille, tehospektri, on esitetty kuvassa 1.5. 4
1-1 1.1.2.3 Aika (s) Kuva 1.4 Puhesignaali (ylempi kuva) ja siitä laskettu glottis-virtaus (alempi kuva). Puhesignaali on miespuhujan [a]-vokaali, glottis-virtaus on estimoitu ns. käänteissuodatusmenetelmällä (Alku, 1992). Huomaa, kuinka glottiksen sulkuhetket alemmassa kuvassa vastaavat suunnilleen niitä ajanhetkiä, joissa ylemmän kuvan puhesignaali vahvistuu nopeasti jokaisen jakson aikana. 4 2 Tehospektri (db) -2-4 -6 1 2 3 4 Taajuus (Hz) Kuva 1.5 Glottis-herätteen tehospektri, laskettu kuvassa 1.4 esitetystä glottisvirtauspulssijonosta 248 näytteen FFT:llä (Hamming-ikkuna). Kuvista 1.4 ja 1.5 voidaan tehdä seuraavia yleisiä havaintoja: Äänihuulten generoima glottis-heräte, äänen alkuperä, on muodoltaan varsin pyöreä. Tämä johtuu siitä, että pulssin on muodostunut kahden runsaasti vettä sisältävän kudoksen eli äänihuulten värähtelyn tuloksena. Tämän fysiologisen lähtökohdan tärkeä seuraus on se, että syntyvien soinnillisten äänteiden, erityisesti vokaalien, spektrin yleisrakenne (kuvan 1.5 verhokäyrä) on laskeva (ts. spektri on alipäästötyyppinen). 5
Glottis-herätteen jakson aikakesto on eräs tärkeimmistä parametreista, jonka arvon muuttuminen saa ihmisten tuottamat puhesignaalit kuulostamaan erilaisilta. Tämä glottis-herätteen suure on nimeltään äänen perusjakson aika eli pitch-jakso 1. Arvon käänteisluku on nimeltään perustaajuus, jota yleisesti merkitään lyhenteellä F ( F-nolla ). Naisilla ja lapsilla äänihuulten koko on pieni ja niiden liike on nopeaa, jolloin näiden puheessa jaksonaika on yleensä lyhyt (naisilla tyypillisesti 5 ms). Syntyvää ääntä luonnehditaan tällöin korkeaksi. Miespuhujilla sen sijaan äänihuulet ovat kooltaan isommat, jolloin niiden liike on hitaampaa ja syntyvän glottis-herätteen jaksonaika on suurempi (suomalaisilla miehillä puheäänessä tyypillisesti 1 ms). Tällöin tuotettua ääntä luonnehditaan matalaksi. Äänen korkeus ja mataluus aiheutuu siis puheentuotossa glottisherätteen perusjakson kestosta. Edellisten esimerkkien lukuarvot kuvattuna perustaajuuden avulla merkitsevät sitä, että naisäänillä on keskimäärin puheessa F:n arvo 2 Hz kun taas miespuhujilla se on 1 Hz. Nämä F-arvot ovat (eurooppalaiselle) puheäänelle tyypillisesti ilmoitettavat keskimääräiset perustaajuuslukemat 2. On selvää, että F vaihtelee suuresti näiden keskiarvojen ympärillä riippuen esimerkiksi puhujasta ja intonaatiosta. Ihmisen puheentuottomekanismi kykenee nostamaan F:n huomattavasti eo. puheäänelle annettuja arvoja suuremmaksi: esimerkkinä tästä on lauluääni, jossa F voi nousta sopraanoilla liki 15 Hz:iin (Klingholz, 199). Vaikka kuvan 1.4 glottis-heräte näyttää säännöllisen jaksolliselta, on syytä muistaa, että puhesignaalit tuotetaan inhimillisellä laitteistolla eli ihmisen puheentuotto-elimillä. Näiden toiminta ei koskaan ole konemaisen täsmällistä. Täten puhesignaalin herätesignaalin jaksollisuus soinnillisten äänteiden tapauksessa ei tarkkaan ottaen pidä paikkaansa, vaan kuvan 1.4 mukaisen virtauspulssijonon peräkkäisten pulssien jaksonajat muuttuvat. Tämä inhimillisyys glottisherätteessä on asia, joka esimerkiksi puheensiirtojärjestelmän toisessa ääripäässä eli puhetta vastaanottavan ihmisen korvassa tulkitaan äänen luonnollisuutena. Jos siis puhesignaali tuotetaan esimerkiksi äänisyntetisaattorilla käyttäen täsmälleen jaksollista glottis-herätettä, tulkitsisi näin tuotettua puhetta kuunteleva vastaanottaja äänen konemaiseksi. Myös glottis-herätteen yleinen muoto vaihtelee eri puhesignaaleissa. Muuttamalla glottis-herätteen muotoa esimerkiksi tuottamalla pyöreämpää tai särmikkäämpää virtauspulssimuotoa ihminen kykenee kuvan 1.6 mukaan vaihtamaan puheensa ns. ääntöä eli tuottamaan vuotoisalta, normaalilta tai puristeiselta kuulostavaa ääntä. Kaikki äänen variaatiot, siis muutokset esimerkiksi jaksonajassa tai äännössä, täytyisi kyetä ainakin kohtuullisesti siirtämään puheensiirtojärjestelmässä. 1 Perustaajuus (F) ja käsite "pitch" ovat periaatteessa eri asia: F on (minkä tahansa) jaksollisen signaalin jaksonajan käänteisarvo, kun taas "pitch" on perkeptuaalinen suure eli se kuvaa sitä, miten ihminen havaitsee äänen korkeuden. Varsinkin puheenkoodauksessa on "pitch"-käsitettä jo pitkään käytetty periaatteessa väärin viittaamalla "pitch-jaksolla" puhesignaalista mitattuun jaksonaikaan (yksikkönä siis millisekunti tai diskreetti aikaindeksi). Käsite on kuitenkin niin yleistynyt, että sitä käytetään esimerkiksi ITU-T:n puheenkoodausstandardeissa. 2 Puheensiirto on perinteisesti toteutettu käyttäen signaalikaistaa 3-34 Hz (ks. taulukko 2.2). Tällöin puheen keskimääräinen perustaajuus (naisilla 2 Hz, miehillä 1 Hz) on suodattunut pois vastaanottimelle lähetetystä signaalista. Äänen korkeuden pystyy ihmisen kuulojärjestelmä kuitenkin havaitsemaan perustaajuuden monikerroista, vaikka itse F-taajuus puuttuisi (ns. missing fundamental -ilmiö; Rossing, Moore ja Wheeler, 22). 6
1 1 1 (a) (b) (c).1.2.3 Aika (s) Kuva 1.6 Glottis-heräte eri ääntötavoissa: vuotoisa ääntö (a), normaali ääntö (b) ja puristeinen ääntö (c). Kaikki esimerkit laskettu miespuhujan [a]-äänteestä käyttämällä käänteissuodatusmenetelmää (Alku, 1992). 1.2.3 Ääniväylä Glottis-heräte joutuu äänihuulilta erkaannuttuaan ääniväylään. Ääniväylä on puheentuoton oleellisimpia osia. Se on fysiologinen suodatin, jonka suodatusominaisuuksia muuttamalla ihminen voi tuottaa erilaisia äänteitä. Siis esimerkiksi vokaalit [a] ja [i] kuulostavat erilaisilta siksi, että ne on tuotettu suodattamalla glottis-heräte erilaisen ääniväylän läpi. Fysiologisesti tulkittuna ääniväylän suodatusominaisuuksien muuttaminen tarkoittaa sitä, että ihminen muuttaa esimerkiksi kielen ja huulten asentoa. Näillä muutoksilla ihminen kykenee vaihtelemaan ääniväylän profiilia, jolloin kyseisen fysiologisen suodattimen akustiset ominaisuudet muuttuvat, ja tuloksena saadaan esimerkiksi suomen kielessä kahdeksan vokaalia, jotka kuulostavat erilaisilta. Ääniväylän suodatusominaisuuksien muuttaminen merkitsee teknisesti tulkittuna sitä, että ääniväylän resonanssitaajuuksia eli formantteja muutetaan. Kuvassa 1.7 on esitetty kahden vokaalin ([a] ja [i]) tapauksessa ääniväylän siirtofunktiot, joista formantit erottuvat selvästi paikallisina maksimeina. Formantteja on vokaaleissa keskimäärin yksi kappale 1 Hz:ä kohti. Äänteitä verrattaessa on puheenkäsittelyssä tapana numeroida nämä resonanssitaajuudet siten, että pienintä taajuusarvoa nimitetään 1. formantiksi (F1), toiseksi pienintä 2. formantiksi (F2) jne. Suomen kielen kahdeksan vokaalia kyetään erottamaan toisistaan, mikäli äänestä siirretään kaksi alinta formanttia, siis F1 ja F2. Kuvassa 1.8 on esitetty amerikanenglannin vokaalien sijoittuminen kahden alimman formantin virittämässä F1-F2-tasossa, kun vokaaleja tuottaa usea puhuja. Vaikka esimerkiksi suomen kielen kahdeksan vokaalia erottuvat toisistaan, kun näistä siirretään kahden alimman formantin levyinen taajuuskaista, on siirrettävän puheen laadun kannalta parempi, jos resonanssitaajuuksia on siirrettävässä signaalissa enemmän kuin kaksi alinta. Puheensiirrossa (vrt. luku 2) voidaan nykyään käyttää neljää eri kaistaleveyttä, joista kapein on ns. perinteinen puhelinkaista (3-34 Hz). Tällöin voidaan todeta, kuten kuvassa 1.9 on havainnollistettu, että vokaalien formanteista siirtyy puhelinkaistalla juuri ja juuri neljä alinta. 7
Kuva 1.7 Ääniväylän siirtofunktio (Rabiner ja Schafer, 1978): Ylempi kuva: vokaali [a], alempi kuva: vokaali [i]. Kummassakin kuvassa erottuu selvästi siirtofunktion paikalliset maksimit, formantit. 8
Kuva 1.8 F1-F2-kartta amerikanenglannin vokaaleista useiden puhujien lausumina (Peterson ja Barney, 1952). Kuva 1.9 Intensiteetti-taajuus-kartta puheäänten tyypillisille parametreille (Richards, 1973). 9
1.3 Esimerkkejä äänteistä aika- ja taajuusalueessa Edellisissä luvuissa on yleisluonteisesti kuvattu kolmen erilaisen äännetyypin (soinnilliset, soinnittomat ja klusiilit) tapauksessa puheentuottomekanismin toimintaa. Katsotaan seuraavaksi joitain tyyppiesimerkkejä puhesignaalin aaltomuodosta ja spektristä käymällä läpi ko. kolme ryhmää. On huomattavaa, että kaikki seuraavat esimerkit kuvaavat nimenomaan puhesignaalia, siis sitä tuotosta, joka saadaan muuttamalla ihmisen äänentuottomekanismin tuottama paineaalto sähköiseen muotoon mikrofonilla. 1.3.1 Soinnilliset äänteet Seuraavissa kuvissa on esitetty kahden vokaalin ([a] ja [u]) aika-alueen aaltomuodot (kuva 1.1) ja näistä Fourier-muunnoksella lasketut tehospektrit (kuva 1.11). Esimerkkipariksi valitut [a] ja [u] ovat suomen kielen vokaalien joukossa toisistaan selvästi poikkeavia, kuten seuraavista sekä aikaettä taajuusalueen esitysmuodoista havaitaan. 1-1 1 (a) (b) -1.1.2.3.4 Aika (s) Kuva 1.1 Soinnillinen äänne aika-alueessa, miespuhuja. (a): vokaali [a], (b): vokaali [u]. Tehospektri (db) 4-4 4 (a) (b) -4 1 2 3 4 Taajuus (Hz) Kuva 1.11 Soinnillinen äänne taajuusalueessa, miespuhuja. (a): vokaali [a], (b): vokaali [u]. 1
Edellisistä kuvista voidaan tehdä seuraavat havainnot: Aika-alue (kuva 1.1): Vokaaliäänteelle on tyypillistä suuret vaihtelut signaalin amplitudiarvoissa. Suurin osa signaalinäytteistä on pienehköjä, mutta glottiksen sulkeutumisesta aiheutuu voimakas akustinen heräte, joka näkyy syntyneessä puhesignaalin aaltomuodossa suurina hetkellisinä amplitudiarvoina. Puhesignaalissa näkyy (lähes) jaksollisen glottis-herätteen vaikutus selvästi. Aika-alueen signaalissa havaitaan sama perusjakso (pitch-jakso), kuin kyseisen tuotoksen alkuperässä eli glottis-herätteessä. Esimerkiksi koodattaessa puhetta sen siirtämiseksi tietoverkossa on tärkeää, että tämä soinnillisen äänteen jaksollinen rakenne kyetään kuvaamaan mahdollisimman aitona. Pienikin vääristymä (lähes) jaksollisen signaalin periodisessa rakenteessa on asia, jonka ihmisen korva havaitsee häiritsevänä tekijänä. Synteettisillä vokaaleilla tehdyissä kokeissa on todettu, että ihmisen kuulojärjestelmä on erittäin herkkä F:n muutokselle: jo.5 % muutos perustaajuudessa on havaittavissa (Flanagan, 1972). Taajuusalue (kuva 1.11): Kummassakin vokaalissa havaitaan ääniväylän aiheuttamat formantit. Näiden formanttien keskitaajuuksiksi voidaan kuvista arvioida seuraavat arvot: vokaali [a]: F1 = 6 Hz, F2 = 1 Hz, F3 = 2 Hz, F4 = 35 Hz, kun taas vokaalille [u] saadaan suunnilleen seuraavat arvot: F1 = 4 Hz, F2 = 6 Hz, ylempien formanttien ollessa vaimentuneet. Se, että vokaalin [u] kaksi ensimmäistä formanttia ovat taajuudeltaan pienempiä kuin vokaalilla [a], voidaan epäsuorasti havaita myös vertaamalla aika-alueen aaltomuotoja, siis kuvia 1.1(a) ja 1.1(b). Näistä todetaan, että [u]:n yleismuoto on pehmeämpi, ts. enemmän pieniä taajuuskomponentteja sisältävä, kuin [a]:n. Jaksollinen glottis-heräte aiheuttaa spektreihin kampamaisen rakenteen. Tämän spektrikamman ensimmäinen huippu vastaa perustaajuutta (F). F:ssa olevan ensimmäisen piikin monikerrat, siis 2 F, 3 F jne., luovat vokaaliäänteen spektrille tyypillisen harmonisen rakenteen. Glottisherätteen alipäästöluonteesta aiheutuva vokaalispektrin vaimeneminen siirryttäessä kohti suurempia taajuuksia on selvästi havaittavissa. 1.3.2 Soinnittomat äänteet Soinnittomista äänteistä esimerkiksi on otettu frikatiivi [s], jonka aika-alueen aaltomuoto on esitetty kuvassa 1.12 ja spektri kuvassa 1.13. 1-1.1.2.3.4 Aika (s) Kuva 1.12 Soinniton äänne (frikatiivi [s]) aika-alueessa. 11
Frikatiivin [s] tapauksessa voidaan esimerkkinä olevasta aaltomuodosta ja sen spektristä tehdä seuraavat päähavainnot: Aika-alue (kuva 1.12): Signaali on kohinamainen, eikä siinä ole havaittavissa jaksollista rakennetta kuten edellisten esimerkkien vokaaleissa. Kohinamainen aaltomuoto frikatiiveissä on lisäksi pitkäkestoisempi kuin esimerkiksi klusiilien kohinapurske (Kent ja Read, 1992). Frikatiivien kesto vaihtelee suuresti riippuen esimerkiksi siitä, missä kohtaa lausetta tämä kohinamainen äänne sijaitsee: kosonanttitavuissa on mitattu noin 5 ms kestoisia frikatiivejä kun taas lauseen lopussa olevien frikatiivien kestoksi on raportoitu noin 2 ms (Klatt, 1976). Signaalinäytteiden amplitudiarvot ovat tasaisemmin jakautuneet kuin soinnillisilla äänteillä. Suurimmat amplitudiarvot ovat yleensä, varsinkin mikäli signaalia käsitellään alle 4 khz:n kaistalla, pienempiä kuin vokaaliäänteiden suurimmat signaalinäytteet. Taajuusalue (kuva 1.13): Spektrissä ei esiinny niin selviä, tietyssä paikassa olevia resonanssitaajuuksia kuin vokaaleilla. Spektrin yleisrakenne on tasaisempi kuin vokaaleilla, [s]-äänteen tapauksessa spektrillä on ylipäästöluonne noin 7 khz:iin asti. 4 Tehospektri (db) -4 1 2 3 4 Taajuus (Hz) Kuva 1.13 Soinniton äänne (frikatiivi [s]) taajuusalueessa. 1.3.3 Klusiilit Klusiilien, erityisesti soinnittomien, tapauksessa signaalin aika-alueen aaltomuodon tarkastelu on hankalaa, sillä ne sisältävät lyhytkestoisen purskeen. Yleisesti ottaen (soinnittomien) klusiilien aikaalueen aaltomuotoon liittyy kaksi komponenttia: ilmavirtauksen hetkellisestä tukkimisesta aiheutuva hyvin pienenerginen osuus sekä virtauksen nopeasta vapautumisesta syntyvä kohinapurske. Ensin mainitun komponentin kesto on tyypillisesti 5-1 ms, kun taas jälkimmäinen on selvästi lyhempi kestäen vain noin 5-4 ms (Kent ja Read, 1992). Soinnittomien klusiilien kohinapurske onkin kestoltaan kaikkein lyhimpiä puhesignaalin akustisia yksikköjä. Alla olevassa kuvassa (kuva 1.14) on esitetty sanan kaksi (miespuhujan lausumana) aaltomuoto. Kuvasta todetaan, kuinka kahden [k]-klusiilin kohinapurskeet ovat kestoltaan vokaaleihin [a] ja [i] sekä frikatiiviin [s] verrattuna selvästi lyhempiä. Lisäksi jälkimmäisen klusiilin edessä oleva pienenerginen aaltomuoto erottuu selvästi esimerkiksi vokaalista [a] ja frikatiivista [s]. 12
1 /k/ /a/ /k/ /s/ /i/ -1.1.2.3.4.5.6 Kuva 1.14 Sanan kaksi aaltomuoto. Viitteet: Alku, P., 1992. Glottal wave analysis with Pitch Synchronous Iterative Adaptive Inverse Filtering, Speech Communication, Vol. 11, No. 2-3, ss. 19-118. Catford, J.C., 1977. Fundamental Problems in Phonetics, Edinburgh University Press, Edinburgh. Fant, G., 197. Acoustic Theory of Speech Production, Mouton, The Hague. Flanagan, J.L., 1972. Speech Analysis, Synthesis and Perception, Springer Verlag, New York. Kent, R.D. ja Read, C., 1992. The Acoustic Analysis of Speech, Singular Publishing Group, San Diego. Klatt, D.H., 1976. Linguistic uses of segmental duration in English: Acoustic and perceptual evidence, J. Acoust. Soc. Am., Vol. 59, ss. 128-1221. Klingholz, F., 199. Acoustic recognition of voice disorders: A comparative study of running speech versus sustained vowels, J. Acoust. Soc. Am., Vol. 87, No. 5, ss. 2218-2224. Peterson, G.E. ja Barney, H.L., 1952. Control methods used in a study of the vowels, J. Acoust. Soc. Am., Vol. 24, No. 2, ss. 175-184. Pulakka, H., 25. Analysis of human voice production using inverse filtering, high speed imaging, and electroglottography, Diplomityö, TKK, Akustiikan ja äänenkäsittelytekniikan laboratorio. Rabiner, L.R. ja Schafer, R.W., 1978. Digital Processing of Speech Signals, Prentice-Hall, New Jersey. Richards, D.L., 1973. Telecommunication by Speech, Butterworths, London. Rossing, T., Moore, F.R. ja Wheeler, P.A., 22. The Science of Sound, Addison-Wesley, San Francisco. Rowden, C. (Ed), 1992. Speech Processing, McGraw-Hill, New York. Titze, I., (1994). Principles of Voice Production. Prentice-Hall, New Jersey. 13
2. PUHEENKOODAUS 2.1 Johdanto Sähköisen tietoliikennetekniikan kehittyminen alkoi nimenomaan tarpeesta siirtää puhesignaali tilaajalta toiselle. Huolimatta siitä, että nykyisissä tietoliikenneverkoissa siirretään paljon muutakin informaatiota kuin puhetta, tulee puhe aina säilymään keskeisenä siirrettävänä informaatiosignaalina tietoliikennetekniikassa. Puheenkoodaus on puheteknologian alue, jossa tavoitteena on kompressoida tietoverkoissa siirrettävä digitaalinen puhesignaali pienellä bittimäärällä ilman että puheen laatu heikkenee. Vaikka puheensiirto on nykyään tietoliikenneverkoissa digitaalista, on siirrettävä informaatio lähtökohtaisesti analoginen, ihmisen puheentuottojärjestelmän synnyttämä paineaalto, jonka tuottomekanismia kuvattiin edellisessä luvussa. Tämä analoginen aaltomuoto muunnetaan digitaaliseksi siirtojärjestelmän lähettimessä käyttäen esimerkiksi G.711 standardin mukaista PCMtekniikkaa (Pulse Code Modulation), jossa puhelinkaistalla (3-34 Hz) oleva analoginen signaali näytteistetään 8 khz:n näytetaajuudella. Jokainen näyte kvantisoidaan PCM-koodauksessa 8:lla bitillä. Tällöin tuloksena saadaan analogisesta puhesignaalista digitaalinen bittivirta, jonka nopeus on 8 khz. 8 bittiä = 64 kbit/s. Jo kapeakaistaisen perinteisen puhelinkaistan koodaamisessa vaaditaan siis varsin suuri bittinopeusvaatimus jokaista puhekanavaa kohti. Mitä suurempi on yksittäisen puhekanavan siirtämiseen käytettävä bittinopeus, sitä laajempi on myös siirtokanavan kaistanleveysvaatimus. Erityisesti radiosiirrossa kaistaleveyden kasvattaminen on ongelmallista johtuen käytettävissä olevan resurssin, radiotaajuuksien, rajallisuudesta. Varsinkin digitaalisen matkapuhelimen kehityksen myötä nousi puheensiirrossa tärkeäksi kysymykseksi se, olisiko mahdollista siirtää puhesignaali pienemmällä bittinopeudella ilman, että signaalin laatu ratkaisevasti heikkenee. Niitä tekniikoita, joilla tähän pyritään, nimitetään puheenkoodaus- eli kompressiomenetelmiksi. 2.2 Puheenkoodauksen perusteet 2.2.1 Aaltomuodon kooderit ja vokooderit Puheenkoodausmenetelmät on perinteisesti jaettu kahteen ryhmään: aaltomuodon koodereihin (waveform coders) ja lähteen koodausmenetelmiin eli vokoodereihin (source coders, vocoders) (Kleijn ja Paliwal, 1995). Ensin mainittuun ryhmään kuuluville puheenkoodausmenetelmille on ominaista pyrkimys siirtää puhesignaalin aaltomuoto vastaanottimelle mahdollisimman samankaltaisessa muodossa, kuin mitä se oli lähettimessä. Tätä luonnolliselta tuntuvaa koodauksen periaatetta käytetään esimerkiksi edellä mainitussa PCM-koodauksessa: näytteistämällä saatu digitaalinen PCM-signaali muistuttaa mahdollisimman paljon alkuperäistä analogista puheen aaltomuotoa. Aaltomuodon koodausmenetelmillä on yleensä etuna se, että niitä voidaan soveltaa erityyppisten signaalien, siis ei pelkästään puhesignaalin, koodaamiseen. Puhesignaalin tapauksessa aaltomuodon koodausmenetelmillä on lisäksi se etu, että niillä saavutettava puheen laatu ei juurikaan riipu puhujasta. Toisin sanoen korkean perustaajuuden omaavat naisäänet kyetään siirtämään samanlaatuisena kuin matalat miesäänet. Aaltomuodon koodereiden suorituskyky ei myöskään ole kovin herkkä signaaliin häiriönä summautuvan kohinan vaikutukselle. Aaltomuodon koodausmenetelmät eivät kuitenkaan pysty kompressoimaan puhesignaalia kovin tehokkaasti ilman että signaalin laatu heikkenee. Siksi esimerkiksi matkapuhelinverkoissa vaadittavaa tehokasta puheenkoodausta ei voida toteuttaa PCM-tekniikan tyyppisillä aaltomuodon koodereilla. 14
Aaltomuodon koodauksen rinnalle kehitetty toinen puheenkoodauksen pääperiaate, lähteen koodaus eli vokooderi-menetelmä, pyrkii tehokkaampaan puheenkoodaukseen. Tämä on mahdollista pyrkimällä parametroimaan sitä mekanismia, jolla puheen aaltomuoto on synnytetty, ei siis jäljittämällä synnytettyä aaltomuotoa. Kuvassa 2.1 on esitetty eräs kaavamainen toteutus vokooderille. Menetelmässä jäljitetään ihmisen puheentuotto-mekanismin toimintaa jakamalla puheentuotto herätteeseen ja ääniväyläsuodattimeen. Heräteosa on lisäksi yksinkertaistettu kuvittelemalla tämän muodostuvan joko kohinasta (soinnittomat äänteet) tai impulssijonosta (soinnilliset äänteet). Ääniväylää voidaan mallintaa digitaalisella suodattimella, joka ratkaistaan luvussa 2.2.2 kuvattavalla puheenkoodauksen tärkeimmällä työvälineellä, lineaarisella ennustuksella (linear predictive coding, LPC). Vokooderi-menetelmän lähetinosa analysoi siirrettävää puhesignaalia lyhyissä aikakehyksissä ratkaisemalla kunkin Kuvan 2.1 osaprosessin parametrien arvot. Näiden parametrien määrä on niin pieni, että niiden kuvaamiseen vaadittava bittimäärä on huomattavasti vähäisempi kuin alkuperäisen aaltomuodon kuvaamiseen vaadittava bittimäärä. Lähteen koodausmenetelmillä pyritään siis kuvaamaan oleellisin informaatio puhesignaalista, minkä seurauksena syntyvä bittinopeus pienenee voimakkaasti. Kuva 2.1 Yksinkertainen vokooderin toimintamalli (Rabiner ja Schafer, 1978). Lähteen koodausmenetelmillä on yleensä puutteena se, että ne eivät toteuta kaikkia edellä aaltomuodon koodereille lueteltuja piirteitä. Koska vokoodereiden ideana on puheen tuottamisen tärkeimpien parametrien (perustaajuus, soinnillinen/soinniton päätös, formantit jne.) hyödyntäminen, on ymmärrettävää, että jos koodattavaksi tuleekin jokin puheesta täysin eroava signaali, esimerkiksi soittimen tuottama ääni, niin vokooderi ei luultavasti suoriudu tehtävästään yhtä hyvin kuin puhesignaalin tapauksessa. Koska lähteen koodauksessa äänen tuottaminen kuvataan käyttämällä pientä määrää parametreja, on myöskin ymmärrettävää, että näiden menetelmien antama äänen laatu ei yleensä ole niin hyvä kuin aaltomuodon koodereilla. Lähteen koodausmenetelmillä kompressoitu puhe on tyypillisesti täysin ymmärrettävää (intelligible), mutta ääni on laadultaan synteettistä. Varsin usein vokoodereilla saadaan myös parempi puheen laatu, kun signaalin tuottaa miespuhuja. Toisin sanoen vokoodereiden suorituskyky riippuu paitsi siitä, onko koodattavana signaalina puhe vai jokin muu signaali, niin myös puhesignaalin tapauksessa puhujasta (talker dependent). Mikäli kooderille tuleva signaali on kohinaista, on vokoodereilla usein taipumus tehdä virheellisiä päätöksiä puheen tuottamiseen liittyvistä parametreista. Tästä on se 15
seuraus, että lähteen koodausmenetelmien antama puheen laatu heikkenee yleensä voimakkaammin verrattuna aaltomuodon koodereihin, mikäli kompressoitavan signaalin sisältämä taustamelu lisääntyy. Meluisan puheen koodaaminen on keskeinen ongelma esimerkiksi matkapuhelinympäristössä, jossa koodattavaan puhesignaaliin summautuu usein häiritsevää ääntä, jota synnyttävät esimerkiksi auton moottori tai ympäristössä olevat muut puhujat. Vaikka edellä on lueteltu joukko vokoodereiden heikkouksia, on niillä vahvimpana puolena se, että kompressoidun puheen bittinopeus on lähteen koodausmenetelmillä selkeästi pienempi kuin aaltomuodon koodereilla. Tällöin voidaan yleisesti todeta, että mikäli puhelinkaistan koodaamisessa halutaan saavuttaa todella merkittävä kompressio, esimerkiksi PCM:n 64 kbit/s:n pudottaminen alle 8 kbit/s:n, niin ainoa tapa tämän tekemiseksi on käyttää hyväksi vokoodauksen periaatetta. Aaltomuodon koodereiden ja vokoodereiden vertaamisen lopuksi on syytä todeta, että raja näiden kahden ryhmän välillä on häilyvä. Kehitetyistä puheenkoodausmenetelmistä löytyy selviä esimerkkejä puhtaista aaltomuodon kooderista (esim. 64 kbit/s:n PCM) ja selkeistä vokoodereista (2.4 kbit/s:n LPC-vokooderi). Näiden lisäksi on kuitenkin suuri määrä koodausmenetelmiä, joissa on piirteitä kummastakin päätyypistä. 2.2.2 Puheenkoodauksen työväline lineaarinen ennustus Lineaarinen ennustus (LPC-analyysi) on puheenkäsittelyn käytetyimpiä analyysivälineitä. Sen käyttö on yleistä nimenomaan puheenkoodauksessa, missä se muodostaa kooderin ytimen, jonka ympärille on toteutettu erilaisia ja eri bittinopeuden toteuttavia koodausmenetelmiä. LPC-analyysi on ennustava menetelmä, jossa digitaalisessa muodossa oleva puhesignaalin näyte, s(n), ennustetaan signaalia edeltäneistä näytteistä painottamalla näitä optimaalisesti. Valitsemalla ennustukseen p kappaletta s(n):ää edeltäneitä näytteitä ja merkitsemällä painokertoimia a(k):llä voidaan näytteelle s(n) laskettava ennustus formuloida kaavan (1) mukaisena summana: (1) Ennustuksessa syntyvä ennustusvirhe eli jäännössignaali (residuaali) voidaan kirjoittaa muodossa: (2) LPC-analyysin perusajatus on siinä, että kaavan (2) mukaisen ennustusvirheen neliö, siis residuaalin energia, minimoidaan derivoimalla e 2 (n) ennustuskertoimien a(k) suhteen. Ratkaisuna saadaan digitaalinen suodatin, LPC-suodatin. Laskenta tehdään tyypillisesti 1-2 ms kehyksissä. Digitaalinen LPC-suodatin muodostaa käsiteltävässä kehyksessä olevalle puhesignaalille parametrisen spektrimallin: puhesignaalin spektraaliset pääominaisuudet mallintuvat suodatinkertoimien a(k), 1 k p, tuottamaan LPC-suotimeen. LPC-analyysin antama toinen osa, residuaali e(n), on kohinaa muistuttava ennustusvirhe. Tällainen kehyksittäin laskettava puhesignaalin jakaminen pääinformaatioon, siis LPC-suotimeen, ja sivuinformaatioon, siis residuaaliin, on LPC:tä hyödyntävien puhekoodereiden ydinajatus: kompressio saavutetaan käyttämällä bittikapasiteetti etupäässä LPC-suotimen kuvaamiseen kun taas residuaali voidaan kvantisoida pienellä bittimäärällä. LPC-analyysin toimintaa havainnollistaa kuvan 2.2 esimerkki, jossa on esitetty aidosta puheäänestä (vokaali [a]) lasketun LPC-analyysin antamia tuloksia sekä aika- että taajuusalueessa. Analysoitava puhesignaalikehys on kuvattu aika-alueessa kuvassa 2.2(a). Tälle on esimerkissä laskettu asteluvulla p=12 LPC-analyysi, jonka residuaali on esitetty aika-alueessa kuvassa 2.2(b). LPC-analyysin 16
ennustuksen onnistumista kuvaa se, että residuaali on alkuperäiseen puhesignaaliin nähden sekä pienempi energinen että rakenteeltaan enemmän kohinaa muistuttava. Kuvassa 2.2(c) on esitetty alkuperäisen puheen tehospektri sekä tämän päälle piirretty LPC-suotimen spektri. Kuvasta nähdään selvästi se, kuinka LPC-analyysin antama optimaalinen suodatin kuvaa käsiteltävän puhesignaalin tehospektrin päärakenteen muodostamalla tälle verhokäyrän. Alkuperäisen puheen tehospektrin esittämiseen tarvitaan suurehko informaatiomäärä, esimerkin tapauksessa 512 kpl. Fouriermuunnoksen antamia kompleksilukujen pituuden neliöitä. LPC-suodatin sen sijaan vaatii spektrin kuvaamiseen vain kaavan (2) mukaiset p=12 kappaletta suodatinkertoimia a(k), 1 k p. LPCanalyysi on siis laskenut puheen spektrille parametrisen mallin, joka voidaan kuvata alkuperäistä informaatiota huomattavasti pienemmällä informaatiomäärällä. Kuvassa 2.2(d) on lopulta esitetty residuaalin tehospektri. Tämä on yleisrakenteeltaan tasainen, mikä on taajuusalueen vastine sille, että LPC-analyysistä jäljelle jäävä ennustusvirhe lähestyy valkoista kohinaa. 1-1.2 (a) (b) -.2.1.2.3 Aika (s) Tehospektri (db) 1 6 2 1 6 (c) (d) 2 1 2 Taajuus (Hz) 3 4 Kuva 2.2 LPC-analyysin tuloksia (a): Analysoitava puhesignaali (vokaali [a]) aika-alueessa. (b): Residuaali aika-alueessa (huomaa eri amplitudiasteikko kuin kohdassa (a)). (c): Puhesignaalin tehospektri ja tämän päälle piirretty LPC-spektri db- asteikolla, ennustuksen asteluku p=12. (d): Residuaalin tehospektri db-asteikolla. 17
2.3 Esimerkkejä puheenkoodausmenetelmistä: Laatu, bittinopeus Puheenkoodauksen perimmäisenä tarkoituksena on pyrkiä siirtämään puhesignaali mahdollisimman pienellä bittinopeudella, siten että puheen laatu on mahdollisimman hyvä. Näiden kahden näkökohdan lisäksi puheenkoodauksessa taustatekijänä vaikuttavat toteutuksen vaatima laskentamäärä ja koodausmenetelmän aiheuttama viive puheensiirrossa. Jokainen puheenkoodauksen sovellutusympäristö vaatii sopivan kompromissin löytämistä näiden neljän tekijän välillä. Seuraavassa on tarkastelut tietoliikennetekniikassa viime vuosikymmeninä kehitettyjä puheenkoodausmenetelmiä tarkastelemalla näitä hyvin yleisellä tasolla laadun ja bittinopeuden perspektiivistä. Itse koodausalgoritmit ovat monimutkaisia ja syytä jättää tämän yleiskatsauksen ulkopuolelle. Koodatun puheen laadun arviointi on tärkeä osa esimerkiksi sitä prosessia, missä valitaan johonkin puheensiirtojärjestelmään paras puheenkoodausmenetelmä. Eniten käytetty laadun arviointimenetelmä on subjektiivinen MOS-asteikko (Mean Opinion Score) (Kleijn ja Paliwal, 1995). Yksinkertaistettuna tämä tarkoittaa sitä, että arvioitavalla kooderilla siirrettyä puhetta kuuntelutetaan joukolle ihmisiä. Kuuntelijat antavat jokaiselle kuulemalleen äänelle, tyypillisesti kahden lauseen pituiselle signaalille, arvosanan käyttäen Taulukossa 2.1 olevaa asteikkoa. Lopullinen arvio kooderin antamalle äänen laadulle saadaan keskiarvoistamalla laajan kuuntelijajoukon antamat lukemat. MOS-asteikolla eri koodereille mitattuja laatulukuja on esitetty Kuvassa 2.3 bittinopeuden funktiona. Tässä esityksessä tärkeää on havaita se, kuinka tietyn kooderin, esimerkiksi PCM:n, suorituskyky mitattuna MOS-asteikolla laskee voimakkaasti kun käytettävissä oleva bittinopeus vähenee. Bittinopeuden puolittaminen edellyttää siis tehokkaamman ja monimutkaisemman koodausalgoritmin käyttöönottoa, mikäli äänen laadun ei haluta heikkenevän. ITU-T:n aloitteesta julkaistiin vuonna 21 menetelmä, Perceptual Evaluation of Speech Quality (PESQ), jolla tavoitellaan subjektiivisen puheen laadun määrittämistä objektiivisella menetelmällä (ITU-T, 21a). Kyseinen PESQ soveltuu kapeakaistaisen puheen (siis taajuuskaistana 3-34 Hz) laadun arviointiin, ja sitä voidaan käyttää sekä koodausmenetelmien että koko yksisuuntaisen lähetin-vastaanotinketjun laadun evaluointiin. Menetelmään syötetään herätteenä kaksi puhesignaalia, alkuperäinen puhesignaali ja siirron muokkaama, laadultaan heikompi signaali. Näistä saadaan tuloksena arvio siitä subjektiivisesta laadusta, jonka jälkimmäinen olisi saanut kuuntelukokeessa. Tulos on tavallisesti skaalattu MOS-asteikon välille 1.-4.5. Menetelmä perustuu vahvasti ihmisen kuulojärjestelmän psykoakustiseen mallintamiseen sisältäen esimerkiksi signaalin käsittelyn perkeptuaalisella taajuus- (Bark) ja äänekkyysasteikolla (Sone). PESQ:n antamat tulokset ovat ITU-T:n testeissä olleet lupaavia: menetelmän antamien MOS-lukemien on osoitettu korreloivan (peräti korrelaatiokertoimella.94) vastaavien subjektiivisten testien tulosten kanssa. Tästä huolimatta laskentaa ei pidä ymmärtää siten, että sillä voisi täysin syrjäyttää aidot subjektiiviset laatumittaukset. Puheenkoodaukseen on kehitetty viimeisen kolmen vuosikymmenen aikana lukuisia menetelmiä. Taulukossa 2.2 on lueteltu joitain yleisempiä puheenkoodausmenetelmiä jakamalla nämä neljään ryhmään sen mukaan, mikä on koodattavan puhesignaalin kaistanleveys. Vanhimmat kooderit (taulukon kohta 1), joita kuitenkin yhä tänäänkin eniten käytetään, koodaavat puheen perinteisellä puhelinkaistalla. Tämän ryhmän vanhin puheenkoodausmenetelmä, jo vuonna 1972 standardoitu G.711 suosituksen mukainen PCM-kooderi, muodostaa digitaalisen puheensiirron lähtökohdan. Kooderi on yhä nykyään käytössä lähes kaikissa verkoissa, ja se määritellään useimmissa uudemmissa koodereissa herätteeksi, jonka mukainen 64 kbit/s:n bittivirta pyritään kompressoimaan tehokkaammin. Matkapuhelinympäristöön kehitettiin 199-luvulta lähtien useita 18
koodereita, joista taulukossa on mainittu eniten käytössä oleva AMR-kooderi. Tämä on ns. moninopeuskooderi, millä tarkoitetaan sitä, että kooderi voi muuttaa bittinopeutta sen mukaan, kuinka paljon siirtoyhteydellä syntyy bittivirheitä: huonon radiokanavan tapauksessa puheelle annettavaa bittinopeutta lasketaan, ja vapautuva kapasiteetti käytetään virheiltä suojaavan kanavakoodauksen hyväksi. Verkoissa yleisimmin käytetty bittinopeus AMR-kooderilla on 12.2 kbit/s, siis puhe kompressoidaan noin viidesosaan siitä bittimäärästä, jota käytetään G.711:ssä. G.729 on vielä tehokkaampi kooderi, jota käytetään esimerkiksi VoIP-siirrossa (joskin VoIP:ssa on useita muitakin koodereita). G.729 pakkaa puheen tiukasti käyttäen yhden bitin per näyte. Kuvasta 2.3 voidaan nähdä, kuinka G.729:lla toteutettu tehokas kompressio ei juurikaan heikennä puheen laatua verrattuna lähtökohtana olevaan G.711:een: MOS-lukema säilyy suunnilleen samana, vaikka bittimäärä per näyte pienenee kahdeksasta yhteen! Yhä nykyään suurin osa puheensiirrosta perustuu Taulukon 2.2 osan 1 mukaiseen vajaan 4 khz:n taajuuskaistan koodaamiseen. 3G-matkapuhelinjärjestelmän kehitysvaiheessa standardoitiin ensimmäinen matkapuhelinympäristöön tarkoitettu laajakaistakooderi, Taulukossa 2.2 mainittu AMR-WB. Tämä on 7 khz:n kaistan siirtävä moninopeuskooderi. Johtuen laajemmasta kaistaleveydestä ja monimutkaisesta koodausmenetelmästä pystyy AMR-WB välittämään puhesignaalin kirkkaammassa ja (meluympäristössä kuunneltuna) ymmärrettävämmässä muodossa kuin perinteiset puhelinkaistakooderit. Valitettavasti AMR-WB:n käyttöönotto on ollut hidasta: huolimatta siitä, että kooderi standardoitiin vuonna 21 otettiin se ensimmäisen kerran esimerkiksi Suomessa yleiseen käyttöön vasta vuonna 213. Yhä nykyäänkin kaikki matkapuhelinoperaattorit eivät välttämättä tarjoa 7 khz:n puheensiirtoa edes 3G-verkoissa. Puheenkoodauksen uusimmat kooderit on suunniteltu käytettäviksi esimerkiksi videokonferenssiyhteyksissä sekä muissa sellaisissa varsinkin IP-siirron sovellutuksissa, joissa halutaan puheen laadun olevan hyvin lähellä normaalia keskustelua (face-to-face conversation). Nämä kooderit jaetaan Taulukon 2.2 mukaan 14 khz:n (superwideband) ja 2 khz:n (fullband) kaistalla toimiviin koodereihin. Uusimmat kooderit ovat usein lisäksi sulautettuja (embedded coder tai scalable coder), millä tarkoitetaan sitä, että koodereilla useita bittinopeuksia, jotka määritetään tasomaiselle (layered) rakenteella. Koodauksen tekevän lähetin toimii suurimmalla määritetyllä bittinopeudella, mutta verkon siirtokapasiteetin mukaan voidaan siirrettävää bittivirtaa muuttaa verkon eri osissa kuitenkin mahdollistaen puheen siirron hyvälaatuisena vastaanottimelle. Number Scores Quality Scale Impairment Scale 5 Excellent Imperceptible 4 Good (Just) perceptible but not annoying 3 Fair (Perceptible and) slightly annoying 2 Poor Annoying (but not objectionable) 1 Unsatisfactory (bad) Very annoying (objectionable) Taulukko 2.1 MOS (Mean Opinion Score) asteikko (Jayant ja Noll, 1984). 19
Kuva 2.3 MOS-arvot bittinopeuden funktiona joillain puhelinkaistan (3-34 Hz) koodausmenetelmillä (Kleijn ja Paliwal, 1995). Kuvassa on erikseen ympyrällä merkitty kaksi eri aikakaudella kehitettyä menetelmää: G.711 ja G.729. Huomaa, että edellinen käyttää 8 bittiä/näyte ja jälkimmäinen 1 bitti/näyte, mutta niiden antamaa puheen laatua kuvaava MOS-lukema on suunnilleen sama. Kooderi Bittinopeus Standardointivuosi 1) Narrowband, 3-34 Hz, F s =8 Hz G.711 (PCM) 64 kbit/s 1972 G.729 8 kbit/s 1996 Adaptive multirate (AMR) 8 eri nopeutta välillä 4.75-12.2 kbit/s 1998 2) Wideband, 5-7 Hz, F s =16 Hz Adaptive multirate wideband (AMR-WB) 9 eri nopeutta välillä 6.6-23.85 kbit/s 21 3) Superwideband, 5-14 Hz, F s =32 khz Extension for G.718 36, 4 ja 48 kbit/s 21 4) Fullband, 2-2 Hz, F s =48 khz G.719 32-128 kbit/s 28 Taulukko 2.2 Puheenkoodauksen jakaminen neljään ryhmään signaalin kaistaleveyden mukaan. Jokaisessa ryhmässä on mainittu esimerkki yleisimmistä koodausmenetelmistä ilmoittamalla menetelmän bittinopeus sekä kooderin standardointivuosi. Signaalin näytetaajuus F s. 2
Viitteet: Cox, R., de Campos Neto, S.F., Lamblin, C., Sherif, M., 29. ITU-T coders for wideband, siperwideband, and fullband speech communication. IEEE Communications Magazine, Vol. 47, ss. 16-19. ETSI, 1992. Recommendation GSM 6.1. GSM full rate speech transcoding. ETSI, 1998(a). Recommendation ETS 3 581-2. Half rate speech transcoding. ETSI, 1998(b). Recommendation ETSI EN 31 74 V7.2.1. Adaptive multi-rate (AMR) speech transcoding. ETSI, 1999. Recommendation ETSI EN 3 726 V8..1. Enhanced full rate (EFR) speech transcoding. ITU-T, 1972. Recommendation G.711. Pulse code modulation (PCM) of voice frequencies. ITU-T, 21a. Recommendation P.862. Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs. ITU-T, 21b. Recommendation P.862 Amendment 1. Source code for reference implementation and conformance tests. Jayant, N.S., 199. High-quality coding of telephone speech and wideband audio, IEEE Comm. Magazine, Vol. 28, No. 1, ss. 1-2. Jayant, N.S ja Noll, P., 1984. Digital Coding of Waveforms, Prentice Hall, New Jersey. Kleijn, B. ja Paliwal, K. (Eds.), 1995. Speech Coding and Synthesis, Elsevier, Amsterdam. Rabiner, L.R., 1995. The impact of voice processing on modern telecommunications, Speech Comm., Vol. 17, No. 3-4, ss. 217-226. Rabiner, L.R. ja Schafer, R.W., 1978. Digital Processing of Speech Signals, Prentice-Hall, New Jersey. Steele, R. (Ed.), 1992. Mobile Radio Communications, Pentech Press, John Wiley, London. Taleb, A., Karapetkov, S. 29. G.719: The first ITU-T standard for high-quality conversational fullband audio coding. IEEE Communications Magazine, Vol. 47, ss. 124-13. 21