SGN-4051 Puheenkoodaus

Transkriptio

1 SGN-4051 Puheenkoodaus Konsta Koppinen 23. helmikuuta 2009

2 Sisältö 1 Aaltomuotokoodaus Pulssikoodimodulaatio eli PCM Epätasavälinen kvantisointi PCM adaptiivisella kvantisointiaskeleella Differentiaalinen PCM eli DPCM Adaptiivinen DPCM eli ADPCM LP-kertoimien skalaarikvantisointi LP-kertoimien vektorikvantisointi Synteesi-analyysi koodaus Multipulse-koodekki Herätteen generointi multipulse-koodekissa Painotussuodatin Synteesi-analyysi koodekkien rakenne Esiprosessointi ja ikkunointi LPC-analyysi ja kvantisointi LSF-kertoimien kvantisointi Adaptiivinen koodikirja Kiinteä koodikirja Adaptiivisen ja kiinteän koodikirjan haku ii

3 Luku 1 Aaltomuotokoodaus Puheenkoodauksella tarkoitetaan puhesignaalin esittämiseen tarvittavan bittimäärän pienentämistä sillä tavalla, että puhesignaalin laatu ja ymmärrettävyys kärsivät mahdollisimman vähän. Puheenkoodauksella on suuri merkitys mm. digitaalisissa matkapuhelinjärjestelmissä ja tämän vuoksi puheenkoodausmenetelmät ovat kehittyneet voimakkaasti viimeisten 15 vuoden aikana. Kaupallisesti ajateltuna puheenkoodaus on puheenkäsittelyn ylivoimaisesti tärkein sovellus. Koodausta tarvitaan kun välitetään digitaalinen puhesignaali jonkin kanavan yli, erityisesti matkapuhelinjärjestelmissä tai puheen tallennuksessa. Hyvältä puhekoodekilta (engl. codec = coder-decoder) vaaditaan seuraavia ominaisuuksia: puheen laatu kärsii koodauksesta mahdollisimman vähän. puhe pakkautuu mahdollisimman pieneen määrään bittejä. koodaaminen/dekoodaaminen aiheuttaa vain pienen viiveen. koodekki ei ole herkkä lähetyksessä tapahtuville virheille. koodaaminen/dekoodaaminen on laskennallisesti nopeaa. koodekki toimii hyvin myös kohinaiselle puheelle (ja mielellään vielä musiikille). useampi peräkkäinen koodaaminen ei heikennä laatua suhteettoman paljon. Tällaista täydellistä koodekkia ei ole olemassa, koska osa vaatimuksista on toisensa poissulkevia, esimerkiksi bittimäärän pienentäminen heikentää puheen laatua. Koodekkeja on kuitenkin kehitetty ja standardoitu suuri määrä erilaisia sovelluksia varten. Esimerkiksi matkapuhelimen puhekoodekissa kaikki edellä olleet vaatimukset ovat oleellisia, kun taas vaikkapa puheen tallennussovelluksessa 1

4 2 LUKU 1. AALTOMUOTOKOODAUS laskennalliset vaatimukset, viive ja virhesietoisuus ovat epäoleellisia ja puheen laatu ja bittimäärä ovat tärkeitä. Koodausmenetelmiä on useita erilaisia, mutta ne voidaan jakaa karkeasti aaltomuotokoodaukseen ja lähdekoodaukseen. Aaltomuotokoodauksessa pyritään säilyttämään (puhe)signaalin alkuperäinen aaltomuoto ja koodaus perustuu kvantisointiin ja aaltomuodossa olevan redundanssin poistamiseen. Lähdekoodauksessa taas keskitytään aaltomuodon sijasta puheen parametrien koodaamiseen (herätteen tyyppi, ääniväylämalli, formanttitaajuudet,...), joiden avulla puhe voidaan rekonstruoida dekooderissa. Lähdekoodauksella koodatun puheen aaltomuoto voi siis erota hyvinkin paljon alkuperäisestä. Raja näiden koodausmenetelmien välillä ei ole täysin terävä, etenkin uudemmissa synteesi-analyysi koodekeissa, joissa puheen aaltomuoto pyritään syntetisoimaan sopivien parametrien avulla. Seuraavassa oletetaan yleisesti että puhesignaali on kapeakaistaista, eli puheen näytteenottotaajuus on 8 khz ja kaista on sama kuin lankapuhelinverkossa eli Hz. Sovelluksissa joissa puheen ei täydy kulkea kiinteän lankapuhelinverkon kautta voidaan käyttää korkeampaa puheenlaatua, esim. videokonferensseissa tai internetin yli välitettävässä puheessa. Näissä sovelluksissa käytetään usein Hz kaistanleveyttä ja 16 khz näytteenottotaajuutta, jota kutsutaan laajakaistaiseksi puheeksi. Aaltomuotokoodaus pohjautuu siihen että signaalissa olevaa redundanssia poistetaan siten että aaltomuoto koodauksen ja dekoodauksen jälkeen pysyy mahdollisimman lähellä alkuperäistä. Lähdemme liikkeelle yksinkertaisesta kvantisoinnista ja katsomme tämän jälkeen useita menetelmiä miten sitä voidaan tehostaa. 1.1 Pulssikoodimodulaatio eli PCM Pulssikoodimodulaatio (engl. pulse-code modulation eli PCM) koodaa jatkuvaaikaisen puhesignaalin s a (t) ajan suhteen tasavälisiksi näytteiksi s(n), missä kvantisointi on myös tasavälinen, kuten kuva 1.1 osoittaa. Jos käytössä on R bittiä näytettä kohden, voidaan koodata 2 R eri amplituditasoa. Näiden amplituditasojen voidaan ajatella olevan koodikirjassa, ja jokainen kvantisoitu näyte esitetään binaarilukuindeksinä tähän koodikirjaan, jota vastaavaa arvoa alkuperäinen näyte vastaa parhaiten. PCM:n tapauksessa 2-bittinen koodikirja voisi olla vaikkapa indeksi arvo

5 1.1. PULSSIKOODIMODULAATIO ELI PCM 3 Alkuperäinen kvantisoimaton signaali s a (n) voidaan aina esittää muodossa s a (n) = s(n) q(n), missä s(n) on kvantisoitu signaali ja q(n) on kvantisointivirhe. Oletetaan, että signaalin dynamiikka on rajoitettu välille [ 1, 1]. Tällöin PCM:n kvantisointivirheen jakaumaa voidaan menestyksekkäästi mallintaa tasajakaumalla f q (ξ) = 1, /2 ξ /2, missä = 2 1 R on kvantisointiaskel. Kohtuullisen hyvä indikaatio aaltomuotokoodauksen laadusta saadaan laskemalla signaali/kohina-suhde (engl. signal-to-noise ratio eli SNR), tai tarkemmin oikeastaan hyötysignaalin ja kohinan tehojen suhde. Vielä tarkemmin ottaen SNR määritellään kaavalla SNR = 10 log 10 S E (db), missä S on hyötysignaalin keskimääräinen teho, E on kohinan keskimääräinen teho ja yksikkö on desibeli (db). Huomaa että SNR on logaritminen, eli jos hyötysignaalin teho kasvaa kymmenkertaiseksi niin SNR kasvaa kymmenellä (eikä siis kymmenkertaistu). Lasketaan seuraavaksi R-bittisen PCM-kvantisoijan signaali/kohinasuhde. Tasavälisen kvantisoijan kvantisointivirheen keskimääräinen teho on /2 E{q(n) 2 1 } = /2 x2 dx = 1 1 ( ( /2) 3 ( /2) 3) 3 = 2 12 = 2 2R 3, missä E{} on odotusarvo-operaattori (joka on lukijalle toivottavasti tuttu todennäköisyyslaskennasta). Entä mikä on hyötysignaalin teho? Riippuu signaalista, mutta parhaassakin (ja täysin epärealistisessa) tapauksessa signaalin kaikki näytteet ovat amplitudiltaan ±1, jolloin keskimääräinen teho on 1. Siis PCM-kvantisoijan signaali/kohina-suhde on enintään SNR = 10 log R 3

6 4 LUKU 1. AALTOMUOTOKOODAUS Kvantisointitasot, 4 bittinen PCM Kvantisoitu arvo Kvantisoimaton arvo Kuvio 1.1: Tasavälinen PCM-kvantisointi saturoinnilla, eli dynamiisen alueen ulkopuoliset arvot asetetaan mahdollisimman lähelle kvantisoimatonta arvoa. Tasoja on 16 eli kvantisointi on 4-bittinen. = 10 log 10 ( 3 4 R ) = 10R log 10 (4) 10 log 10 (3) = 6.02R Toisin sanoen, yhden bitin lisääminen kvantisointitarkkuuteen nostaa signaali/kohinasuhdetta n. 6 db Epätasavälinen kvantisointi Puhesignaalien kvantisoinnissa kannattaa käyttää epätasavälistä kvantisointia, osittain siksi, että puheessa on pääosin matalia amplitudeja, osittain siksi, että ihmisen kuulo on vähemmän herkkä virheille kun signaali on voimakas (lisää infoa kuulon ominaisuuksista löytyy kurssilla SGN-4200 Digitaalinen Audio). Kuvassa 1.2 on esimerkki puheen amplitudijakaumasta josta huomataan että matalia amplitudeja on huomattavasti enemmän kuin korkeita. Yleisesti jos tunnetaan signaalin amplitudien jakauma (joka voidaan aina estimoida testiaineistosta), voidaan määrittää

7 1.1. PULSSIKOODIMODULAATIO ELI PCM 5 tälle jakaumalle ja valitulle virhefunktiolle optimaalinen ns. Lloyd-Max kvantisoija Puheen amplitudijakauma 10 4 Esiintymien lukumäärä Näytearvo Kuvio 1.2: Amplitudien jakauma 20 s näytteelle puhetta. Epätasavälinen kvantisointi toteutetaan käytännössä epälineaarisella muunnoksella ennen tasavälistä kvantisointia ja vastaavalla käänteismuunnoksella kvantisoinnin jälkeen. Tätä sanotaan kompandoinniksi (engl. compression, expanding). Puheen tapauksessa Euroopassa käytetään lankapuhelinverkoissa A-law-kompandointia, joka muuntaa näytearvon x seuraavasti: (ei kannata opetella ulkoa) y = Ax, 0 x 1 1log 10 A A sgn(x) 1log 10 (A x ), 1 x 1, 1log 10 (A) A missä A = ja sgn(x) on x:n merkki (siis -1 tai 1). Pohjois-Amerikan puhelinliikenteessä käytetään µ-law-kompandointia, joka perustuu samantyyliseen logaritmiseen kompressointiin: y = sgn(x) log(1 µ x ) log(1 µ),

8 6 LUKU 1. AALTOMUOTOKOODAUS missä µ = 255 ja käytetään luonnollista logaritmia. Vastaavat ekspandoinnit saadaan ratkaisemalla y:n avulla x edellisistä yhtälöistä (jätetään lukijalle harjoitustehtäväksi). Epätasavälisellä kvantisoinnilla saavutetaan suuri etu puhesignaalien kvantisoinnissa; 12 bpn (bittiä/näyte) tasavälisellä kvantisoinnilla vastaa subjektiivisesti suunnilleen 8 bpn em. kvantisoinneilla. Karvalakki-PCM-kvantisointiin löytyy iso nippu ehostuksia, joita katsotaan seuraavaksi. Periaatteessa voidaan lisäksi käyttää mitä tahansa yleisiä häviöttömiä kompressiomenetelmiä (joita löytyy mm. kurssilta SGN-2306 Signal Compression), mutta jatkossa keskitytään menetelmiin jotka sopivat nimenomaan puheelle PCM adaptiivisella kvantisointiaskeleella Kvantisointiaskelta voidaan säätää signaalin mukaan; tätä menetelmää sanotaan adaptiiviseksi kvantisoinniksi. Perusajatuksena on pienentää kvantisointiaskelta silloin kun signaalin taso on pieni, jolloin kvantisointivirhe pienenee myös. Vastaavasti suurien arvojen myötä kvantisointiaskelta suurennetaan. Adaptiivisesta kvantisoinnista on erityisesti hyötyä epästationaaristen signaalien matalan bittimäärän (<8) kvantisoinnissa. Yleinen menetelmä kvantisointiaskeleen (n) säätämiseksi on (n 1) = (n)m( x(n)), missä M() on kiinteä funktio, x on hetkellä n olevan puhenäytteen kvantisoitu arvo ja (n1) on kvantisointiaskel hetkellä n1. Funktio M() voidaan määrittää kokeellisesti testiaineiston avulla, ideana kuitenkin se että kvantisointiaskelta kasvatetaan (eli M() > 1) kun edellisen näytteen kvantisointitaso on suuri ja pienennetään (eli M() < 1) kun edellisen näytteen kvantisointitaso on pieni. Tällä menetelemällä on se hyvä puoli, että kvantisointitasot saadaan vastaanotettaessa rekonstruoitua ilman että täytyy lähettää lisätietoa kvantisointiaskeleen muutoksista. Miksi? Oletetaan, että hetkellä n kooderissa käytetään kvantisointiaskelta (n) ja saadaan kvantisoitu näyte x(n), joka lähetetään vastaanottimeen. Mutta koska seuraava kvantisointiaskel (n 1) riippuu ainoastaan edellisestä kvantisointiaskelesta (n) (joka tiedetään dekooderissa), näytteestä x(n) (joka lähetettiin dekooderiin joten sekin on tiedossa) ja kiinteästä funktiosta M() (joka on kiinteästi koodattu kooderiin ja dekooderiin), voidaan se laskea myös vastaanottimessa. Tämä on tärkeä synkronointipiirre kooderin ja dekooderin välillä paljon monimutkaisemmissakin koodekeissa: kooderin ja dekooderin tulisi olla samassa tilassa. Mielellään vielä niin, että jos ne joutuvat eri tilaan esim. lähetyksessä tapahtuvan virheen vuoksi, ne pystyisivät synkronoitumaan uudestaan suhteellisen nopeasti.

9 1.2. DIFFERENTIAALINEN PCM ELI DPCM Differentiaalinen PCM eli DPCM Perusidea: lähetetään kvantisoitujen näytteiden sijasta niiden väliset erotukset. Tämän pitäisi toimia jos erotukset ovat keskimäärin pienempiä kuin näytteet, jolloin niiden vaatima dynaaminen alue on pienempi, eli samalla bittimäärällä voidaan käyttää pienempää kvantisointiaskelta, joka luonnollisesti pienentää kvantisointivirhettä. Itse asiassa erosignaalin s(n) s(n 1) teho on E { (s(n) s(n 1)) 2} = E{s(n) 2 } 2E{s(n)s(n 1)} E{s(n 1) 2 } = r(0) 2r(1) r(0) = 2 (r(0) r(1)), missä r(k) on puheen autokorrelaatio viiveellä k. Puheen teho taas on r(0), joten erosignaalin teho on pienempi kuin puheen jos r(1) > 0.5. Puheelle on yleisesti r(1) r(0) > Tarkastellaan kuvion 1.3 mukaista DPCM-kvantisointia, jossa lasketaan sisäänmenon peräkkäisten näytteiden erotus d(n) joka kvantisoidaan ja lähetetään. Kvantisointi on mallinnettu kvantisointikohinan q(n) lisäämisellä. Vastaanottimessa erotukset vastaavasti summataan. q(n) r(0) x(n) - d(n) u(n) y(n) -1-1 z Kuvio 1.3: Avoin DPCM-kvantisoija, jossa ennustus on ŝ(n) = s(n 1). Kvantisointikohina on mallinnettu lisättynä kohinalähteenä q(n). Tällä menetelmällä on kuitenkin vakava puute: kvantisointikohina summautuu vastaanottimessa. Katsotaanpa miten. Kuviosta saadaan (ottamalla signaalien z- muunnokset) D(z) = X(z)(1 z 1 ), z

10 8 LUKU 1. AALTOMUOTOKOODAUS U(z) = D(z) Q(z), eli Edelleen sijoittamalla Y (z) = U(z) z 1 Y (z) Y (z) = Y (z) = U(z) 1 z 1. = U(z) 1 z 1 D(z) Q(z) 1 z 1 = X(z)(1 z 1 ) Q(z) 1 z 1 = X(z) Q(z) 1 z 1. Suodattimen 1 1 z 1 impulssivaste on yksikköaskel eli kvantisointikohina summautuu, joten periaatteessa kohinan vaikutus voi kasvaa vastaanottimessa mielivaltaisen suureksi (saturointi luonnollisesti estää tämän käytännössä). Edellisen tapaista järjestelmää, jossa kvantisointi tehdään alkuperäisen signaalin pohjalta, sanotaan avoimeksi (open-loop). Vaihtoehto on suljettu järjestelmä (closed-loop), jossa kvantisointi tehdään dekoodatun signaalin perusteella. Suljetuilla järjestelmillä on se tärkeä ominaisuus, että kvantisointikohina ei summaudu vastaanottimessa, koska kooderissa valitaan kvantisoitu näyte siten että dekoodattu signaali on mahdollisimman hyvä. Tämä on oleellinen piirre myöhemmin esitettävissä synteesi-analyysi koodekeissa. Esimerkki sovellettuna DPCMkvantisointiin on kuvassa 1.4. Lasketaan seuraavaksi suljetun DPCM-kvantisoijan siirtofunktio. Kuviosta Ẽ(z) = X(z) ˆX(z) Q(z), eli X(z) = z 1 X(z) Ẽ(z) X(z) = Ẽ(z) 1 z 1, ˆX(z) = z 1 X(z),

11 1.2. DIFFERENTIAALINEN PCM ELI DPCM 9 q(n) x(n) ^ x(n) - ~ e(n) y(n) ~ x(n) z -1 z -1 Kuvio 1.4: Suljettu DPCM-kvantisoija, jossa ennustaja on z 1. Kvantisointikohina ei summaudu vastaanottimessa. Y (z) = Signaalien tulkinnat ovat seuraavat: Ẽ(z): kvantisoitu residuaalivirhe X(z): rekonstruoitu signaali Ẽ(z) 1 z 1. ˆX(z): ennustus rekonstruktion perusteella Edellisistä kaavoista (tai suoraan kuviosta) havaitaan, että Y (z) = X(z), eli siis kooderiin sisältyy dekooderi. Lasketaan vielä X(z): josta seuraa X(z) = Ẽ(z) 1 z 1 = X(z) ˆX(z) Q(z) 1 z 1 = X(z) z 1 X(z) Q(z) 1 z 1 X(z) = 1 X(z) Q(z) 1 z 1 1 z 1 1 z 1 = (1 z 1 ) = X(z) Q(z), X(z) Q(z) 1 z 1 kuten pitääkin.

12 10 LUKU 1. AALTOMUOTOKOODAUS Seuraava parannus DPCM-koodekkiin on käyttää yksinkertaisen erotuksen sijasta monimutkaisempaa ennustusta. Suodatin z 1 voidaan ajatella ennustajaksi ˆx(n) = x(n 1), jossa siis ennustetaan seuraavaa näytettä edellisellä. Suljetun järjestelmän tapauksessa oikeastaan ˆx(n) = x(n 1), jossa ennustus tehdään siis dekoodatun arvon perusteella. Korvattaessa ennustaja z 1 suodattimella P(z) = p(1)z 1... p(n)z n koodekin vuokaavio löytyy kuviosta 1.5. q(n) x(n) x(n) ^ e(n) ~ y(n) P(z) x(n) ~ P(z) kooderi dekooderi Kuvio 1.5: Suljettu DPCM-kvantisoija ennustajalla P(z) = p(1)z 1... p(n)z n. Huomaa että ennustajalla ei ole vakiotermiä. Käyttämällä parempaa ennustavaa suodatinta saadaan ennustusvirheen tehoa pienennettyä, jolloin kvantisointi voidaan tehdä vähemmillä biteillä. Tarkoitukseen sopivan ennustaja voidaan määrittää lineaarisen ennustuksen avulla ja se riippuu ainoastaan puheen (keskimääräisestä) autokorrelaatiofunktiosta. Tämä taas voidaan estimoida kohtuullisesta määrästä puhedataa. Jo toisen asteen ennustaja pienentää kohinan tehoa n. 6 db, jolloin sama signaali/kohina-suhde saavutetaan lähettämällä 1 bpn (eli 8000 bps) vähemmän kuin ilman ennustajaa. 1.3 Adaptiivinen DPCM eli ADPCM Seuraava parannus DPCM-koodekkiin saadaan käyttämällä adaptiivista ennustajaa. Tämä toimii koska ennustaja riippuu lähinnä ääntöväylästä joka luonnollisesti muuttuu eri äänteissä.

13 1.3. ADAPTIIVINEN DPCM ELI ADPCM 11 Vastaanottimen täytyy myös tietää koodauksessa käytetty ennustaja, joten ennustajan kertoimet pitää joko lähettää erikseen sivuinformaationa jos ne lasketaan alkuperäisestä puheesta (eteenpäin-adaptointi, kuvio 1.6) tai laskea jo syntetisoidusta puheesta (taaksepäin-adaptointi, kuvio 1.7). ADPCM-koodekin ennustavia suodattimia voidaan adaptoida kehyksittäin tai näytteittäin. Esimerkiksi virallisessa International Telecommunications Union Telecommunications Sector (ITU-T) standardissa G.721 (jota käytetään mm. puhelinkeskusten välisten puhelujen koodaamiseen) on käytössä taaksepäin-adaptointi näytteittäin 4 bitin kvantisointitarkkuudella residuaalille, joten bittinopeus on 32 kbps. q(n) x(n) ^ x(n) - ~ e(n) y(n) P(z) ~ x(n) P(z) Kuvio 1.6: ADPCM eteenpäin-adaptoinnilla. Ennustajan kertoimet lasketaan alkuperäisestä puheesta, kvantisoidaan ja lähetetään sivuinformaationa dekooderille. Kvantisoitua ennustajaa käytetään myös kooderissa. q(n) x(n) ^ x(n) - ~ e(n) y(n) P(z) ~ x(n) P(z) Kuvio 1.7: ADPCM taaksepäin-adaptoinnilla. Ennustajan kertoimia ei täydy lähettää erikseen. Jos käytetään eteenpäin-adaptointia, ennustava suodatin lasketaan LP-analyysin avulla nk. LP-analyysikehyksestä, katso kuvio 1.8. Huomaa että koodattava kehys

14 12 LUKU 1. AALTOMUOTOKOODAUS otetaan alkuperäisestä puheesta suorakaideikkunalla (koska aaltomuoto halutaan säilyttää mahdollisimman tarkasti) mutta LP-kertoimet lasketaan pehmeästä ikkunasta koska suorakaideikkunointi aiheuttaa virhettä LP-analyysiin jyrkkien reunojen takia. LP analyysi ja synteesi ikkunat 1 synteesi ikkuna LP analyysi ikkuna Näyte Kuvio 1.8: Esimerkki synteesi-ikkunasta jota koodataan sekä LP-analyysi ikkunasta, josta lasketaan LP-kertoimet. Mietitään mikä on tämän koodekin (siis ADPCM eteenpäin-adaptoinnilla) algoritminen viive, eli puheeseen aiheutuva maksimiviive kooderista dekooderiin jos laskenta ja koodatun informaation siirto oletetaan viiveettömiksi. Oletetaan että näytteenottotaajuus on 8 khz, koodattavan suorakaideikkunan pituus on 30ms (eli 240 näytettä) ja LP-analyysikehys on symmetrinen ja yhteensä 40ms pituinen (eli 320 näytettä). Oletetaan että olemme kooderissa juuri lähettäneet edellisen kehyksen koodatun informaation ja merkitään nyt koodattavan kehyksen näytteitä s(0), s(1),..., s(239) (eli nyt ollaan ajanhetkessä 0). Ennen kuin kooderi voi koodata yhtään näytettä kehyksestä sen pitää laskea LP-ennustaja, johon vaaditaan näytteet s( 40), s( 39),..., s(280), eli tämän koodekin algoritminen viive on 280 näytettä tai 35 ms. Kerrataan vielä (tarkemmin kurssilla SGN-4010 Puheenkäsittelyn Menetel-

15 1.3. ADAPTIIVINEN DPCM ELI ADPCM 13 mät) miten p-asteisen ennustavan suodattimen kertoimet lasketaan LP-analyysikehykselle s( 40), s( 39),..., s(280). Ensin määritetään kehyksen autokorrelaatio r(k) = n= s(n)s(n k), missä kehyksen ulkopuoliset näytteet ovat nollia ja autokorrelaatio vaaditaan ainoastaan viiveille k = 0, 1,...,p. Tämän jälkeen lasketaan Levinson-Durbin rekursion avulla kertoimet a(1), a(2),..., a(p) jotka toteuttavat yhtälöryhmän r(0) r(1) r(2) r(p 1) r(1) r(0) r(1) r(p 2) r(2) r(1) r(0) r(p 3) r(p 1) r(p 2) r(p 3) r(0) Tämä takaa sen että ennustusvirheen energia a(1) a(2) a(3). a(p) ( ) p 2 E = s(n) a(k)s(n k) n= k=1 minimoituu ja optimaalinen ennustaja P(z) tälle kehykselle on P(z) = a(1)z 1 a(2)z 2... a(p)z p. = r(1) r(2) r(3). r(p) Jatkossa puhutaan kuitenkin lähinnä LP-suodattimesta koska ennustaja ja LPsuodatin A(z) sisältävät saman informaation. Eteenpäin-adaptoinnin tapauksessa ennustajan kertoimet pitää kvantisoida ennen lähettämistä (kuten yleisesti kaikki muukin lähetettävä informaatio). Tämän takia myös lähettimessä pitää käyttää kvantisoituja ennustuskertoimia virhesignaalin laskemiseen, koska muutoin kooderin ja dekooderin ennustajien erosta johtuva virhe kumuloituisi vastaanottimessa. Taaksepäin-adaptoinnin tapauksessa ennustava suodatin P(z) lasketaan jo kvantisoidusta puheesta, joten ennustajan kertoimia ei täydy lähettää dekooderille erikseen. Huomattavaa on että tässä tapauksessa myös algoritminen viive on 0, koska lähetettävä arvo voidaan koodata ja lähettää heti kun kooderi on mitannut puhenäyteen s(0). Taaksepäin-adaptointi toimii hyvin mikäli rekonstruoitu puhe muistuttaa riittävästi alkuperäistä, jolloin ennustajan kertoimet saadaan estimoitua melko tarkasti. Käytännössä tämä vaatii n. 4 bittiä näytettä kohden. Matalammilla bittinopeuksilla rekonstruktion ja vastaavasti myös ennustajan taso heikkenee. Tämän takia nopeuksilla jotka ovat alle 2 bittiä/näyte käytetään yleensä eteenpäin-adaptointia..

16 14 LUKU 1. AALTOMUOTOKOODAUS a p,i = a(i), i = 1,...,p for i = p,p 1,...,2 k(i) = a i,i E = 1 k(i) 2 a i 1,m = a i,m k(i)a i,i m, m = 1,...,p 1 E end k(1) = a 1,1 Taulukko 1.1: Muunnos LP-kertoimista a(i) heijastuskertoimiksi k(i) LP-kertoimien skalaarikvantisointi Miten voidaan mahdollisimman vähillä biteillä lähettää mm. ADPCM-koodekissa tarvittavat LP-suodattimen kertoimet? Tämä on yksi tärkeä perusongelma puheen koodauksessa. Tällä hetkellä paras ratkaisu on ns. LSF-kertoimien (engl. line spectral frequencies) prediktiivinen vektorikvantisointi, josta enemmän myöhemmin. Katsotaan ensin yksinkertaisempaa skalaarikvantisointia, jossa kvantisoidaan jokainen LP-kerroin yksitellen. LP-suodattimen suoramuotototeutuksen kertoimia a 1,a 2,...,a p ei kannata kvantisoida suoraan, koska kvantisoitu suodatin ei välttämättä ole stabiili. Tämän takia LP-suodattimen kertoimet muunnetaan ensin sopivampaan esitysmuotoon ennen kvantisointia. Heijastuskertoimet k(1), k(2),..., k(p) ovat hyvä esitysmuoto koska stabiilisuus on helppo tarkistaa (suodatin on stabiili jos kaikki k(i) < 1) ja lisäksi kerrointen dynaaminen alue on rajattu välille ( 1, 1).Heijastuskertoimet k(1),k(2),...,k(p) saadaan LP-polynomista 1 a(1)z 1... a(p)z p rekursiokaavoilla jotka ovat taulukoissa 1.1 ja 1.2 (ei kantsi opetella ulkoa). Matlabissa heijastuskerrointen laskenta LP-parametreista ja takaisin onnistuu komennoilla poly2rc ja rc2poly. Suoraviivainen heijastuskertoimien tasavälinen kvantisointi ei kuitenkaan toimi kovin hyvin sillä itseisarvoltaan ykkösen lähellä olevat heijastuskertoimet ovat dekoodatun puheen laadun kannalta tärkeämpiä kuin pienet heijastuskertoimet. Ykkösen lähistöllä olevat kertoimet saadaan kvantisoitua tarkemmin käyttämällä epätasavälistä kvantisoijaa joka voidaan tuttuun tyyliin toteuttaa sopivalla epälineaarisella muunnoksella ennen tasavälistä kvantisointia. Kaksi tähän tarkoitukseen sopivaa muunnosta ovat

17 1.3. ADAPTIIVINEN DPCM ELI ADPCM 15 a 0,0 = 1 for i = 1, 2,...,p a i,0 = 1 a i,i = k i a i,m = a i 1,m k i a i 1,i m, m = 1,...,i 1 end a(i) = a p,i, i = 0,...,p Taulukko 1.2: Muunnos heijastuskertoimista k(i) LP-kertoimiksi a(i). Log-ala suhteet (engl. log-area ratios, LAR). Nämä määritellään kaavalla g = 1 2 log 1 k 1 k. Käänteissini-parametrit (engl. inverse sine parameters). Nämä ovat σ = 2 π sin 1 (k). Kummatkin näistä muunnoksista laajentavat heijastuskertoimien dynamiikkaa kun k 1, jotka ovat LP-suodattimen laadun kannalta kriittisimmät arvot (katso kuvio 1.9). Näiden muunnosten avulla LP-suodattimen kvantisointi tapahtuu siis seuraavasti: 1. Lasketaan ikkunoidun kehyksen LP-polynomi A(z) = 1 a(1)z 1... a(p)z p Levinson-Durbin rekursion avulla. LP-analyysi kehys voi olla ja yleensä onkin eri kehys kuin se jota koodataan. 2. Muunnetaan A(z) heijastuskertoimiksi k(1), k(2),..., k(p) taulukon 1.1 algoritmin avulla. 3. Muunnetaan heijastuskertoimet toisella em. muunnoksista. Esim. LAR-muunnoksen tapauksessa lasketaan g(1),g(2),...,g(p), missä g(i) = Kvantisoidaan tulokset tasavälisesti. log 1 k(i) 1 k(i).

18 16 LUKU 1. AALTOMUOTOKOODAUS 3 LAR käänteissini LAR ja käänteissini muunnokset k Kuvio 1.9: Heijastuskertoimien LAR- ja käänteissini-muunnokset. 5. Lähetetään saatujen kvantisointitasojen indeksit vastaanottimeen. 6. Tehdään näistä kvantisointitasoista vastaava käänteismuunnos takaisin heijastuskertoimiksi (käänteismuunnos jätetään taas lukijan harteille). 7. Muunnetaan nämä kvantisoidut heijastuskertoimet kvantisoiduksi A(z) polynomiksi taulukon 1.2 algoritmin avulla. Kvantisoitua LP-polynomia käytetään sekä lähettimessä että vastaanottimessa. LAR- ja käänteissini-parametreilla saadaan hyvä spektrin mallinnus jos niiden esittämiseen käytetään n. 4 bittiä/kerroin, eli esim. 10:nnen asteen LP-polynomille tämä tarkoittaa n bittiä/kehys. Jos kehyksen pituus on 20 ms tämä vastaa n b/s pelkästään LP-parametreja varten. Lisäksi sellaisenaan näillä muunnoksilla on vaikea ottaa huomioon parametrien korrelaatiota kehyksestä toiseen. ADPCM:ssa suurin osa lähetetystä bittivirrasta muodostuu residuaalivirheestä, jota voidaan vielä yrittää koodata erikseen. Erityisesti on havaittu että oleellisinta residuaalissa ovat korkeat amplitudit jotka täytyy kvantisoida tarkasti. Matalat amplitudit taas voidaan korvata nollilla ilman että puheenlaatu huononee koh-

19 1.3. ADAPTIIVINEN DPCM ELI ADPCM 17 tuuttomasti, ja paljon nollia sisältävä residuaalisignaali voidaan koodata tehokkaammin LP-kertoimien vektorikvantisointi Vektorikvantisoinnilla (engl. vector quantization, VQ) tarkoitetaan useamman näytteen kvantisoimista yhdessä (eli vektorina) yksittäisten näytteiden sijasta. Puheenkoodauksessa vektorikvantisointia käytetään erityisesti LP-parametrien kvantisointiin. Shannon todisti jo 40-luvulla, että kvantisoimalla useampia peräkkäisiä näytteitä päästään aina parempaan koodaustulokseen kuin kvantisoimalla ne erikseen, vaikka näytteet olisivat toisistaan riippumattomia. Tämän seikan syvällinen käsittely löytyy informaatioteorian kursseilta, mutta intuitiivisen käsityksen tuloksesta saa analysoimalla kahden toisistaan riippumattoman, tasajakautuneen näytteen (joko analogisen tai digitaalisen) kvantisointia. Mikä tahansa kvantisoija koodaa kvantisoitavat näytteet joiksikin arvoksi äärellisestä joukosta eli ns. kvantisointipisteistä. Yleisesti ottaen koodaus toimii niin, että valitaan kvantisoitavia näytteitä lähinnä (tässä tapauksessa euklidisen etäisyyden mukaan) oleva kvantisointipiste ja esitetään näytteet tämän pisteen avulla. Tässä tapahtuu jonkin verran virhettä jonka suuruus riippuu siitä kuinka kaukana alkuperäiset näytteet ovat kvantisointipisteestä. Jos kvantisoidaan kaksi toisistaan riippumatonta näytettä kahdella tasavälisellä PCM-kvantisoijalla, kvantisointipisteet ovat kuvion 1.10 mukaiset. Voimme kuitenkin jakaa kvantisointipisteet järkevämminkin näytteiden joukkoon, eli siten, että keskimäärin joku kvantisointipiste on näytteitä lähempänä kuin em. peräkkäisten PCM-kvantisoijien tapauksessa. Miten? Esimerkiksi niin, että kvantisointipisteet ovat tasasivuisten kolmioiden kärjissä, joka on esitetty myös kuviossa Vektorikvantisointi on tehokas kvantisointimenetelmä mutta sen ongelmana on hyvin suuri muistin ja laskennan tarve isommille koodikirjoille. Jos esimerkiksi kvantisoidaan 10:n näytteen pituinen vektori keskimäärin 3:lla bitillä/näyte (tyypillistä esim. LPC-kertoimien kvantisoinnissa) niin koodikirjan koko on 2 30 jonka tallentaminen ja haku on työlästä. Tämän johdosta on kehitetty useita erilaisia vektorikvantisointimenetelmiä joilla saavutetaan kompromisseja kvantisointitarkkuuden ja niiden vaatiman muistitilan ja laskennan välillä. Kaksi käyttökelpoista menetelmää ovat gain-shape vektorikvantisointi ja ositettu vektorikvantisointi. Gain-shape vektorikvantisointi Gain-shape koodikirjassa koodisanat muodostuvat skalaarikoodikirjan ja vektorikoodikirjan tulosta. Tätä menetelmää käytetään tyypillisesti kiinteän ja adaptiivi-

20 18 LUKU 1. AALTOMUOTOKOODAUS 0.8 Neliö ja heksagonaaliset kvantisoijat ja Voronoi alueet Näyte Näyte 1 Kuvio 1.10: Neliökvantisoija ja heksagonaalinen kvantisoija. Heksagonaalinen kvantisoija täyttää tilan hieman tehokkaammin ja siten sen kvantisointivirhe on pienempi. sen koodikirjan yhteydessä. Nimi tulee siitä että shape -koodikirja (iso, koostuu vektoreista) tallettaa koodisanan muodon, jonka gain -koodikirja (pieni, koostuu skalaareista) skaalaa sopivan tehoiseksi kertolaskun avulla. Otetaan esimerkiksi shape-koodikirja S joka koostuu vektoreista ( ), ( ), ( ), ( ), joka on 2-bittinen (koska siinä on 4 vektoria), ja gain-koodikirja G joka on 1-

21 1.3. ADAPTIIVINEN DPCM ELI ADPCM 19 bittinen ( 1 ) ( 2 ) niin gain-shape koodikirjan vektorit saadaan kertomalla S:n vektorit G:n arvoilla. Eli koko 3-bittinen koodikirja on tässä tapauksessa ( ), ( ), ( ), ( ), ( ), ( ), ( ), ( ). Etuna täydelliseen 3-bittiseen koodikirjaan on se että tallennustilaa tarvitaan vähemmän, ja lisäksi haku voidaan tehdä tehokkaammin hakemalla ensin shapekoodikirjasta paras vektori ja kvantisoimalla tämän jälkeen gain-koodikirjan amplitudi (kuten teimme multipulse-koodekin herätteen tapauksessa). Haittana on se että koodikirjan vektoreita ei voida vapaasti valita joten kvantisointiominaisuudet heikkenevät täydelliseen 3-bittiseen koodikirjaan nähden. Ositettu vektorikvantisointi Ositetussa vektorikvantisoinnissa (engl. split VQ) koodattava vektori jaetaan yksinkertaisesti pienempiin osiin jotka vektorikvantisoidaan pienemmillä koodikirjoilla. Tätä menetelmää käytetään mm. LPC-polynomin LSF-muunnoksen kvantisointiin. Otetaan esimerkiksi yksi 2-bittinen koodikirja A 1 = ( ), ( ), ( ), ( ), ja yksi 1-bittinen (huomaa että osakoodikirjat voivat olla eri kokoisia) A 2 = ( 1 0 ), ( 1 1 ),. Ositetun VQ:n kaikki koodivektorit ovat nyt muotoa A 2 = ( a 1 a 2 ),

22 20 LUKU 1. AALTOMUOTOKOODAUS missä a 1 on otettu A 1 :sta ja a 2 vastaavasti A 2 :sta, eli ( ), ( ), ( ), ( ), ( ), ( ), ( ), ( ). Edut ja haitat ovat samat kuin gain-shape vektorikvantisoinnissa: laskenta ja tallennus tehostuvat mutta kvantisointiominaisuudet heikkenevät. Esimerkki: tasajakautuneen kohinan vektorikvantisointi Optimaalinen 1-ulotteinen kvantisoija tasajakautuneelle kohinalle on tasavälinen PCM-kvantisoija. Jos signaalin dynamiikka on välillä [ 1, 1] ja kvantisointiin käytetään R bittiä, keskimääräinen virheen teho yhdelle näytteelle on (kuten aiemmin laskimme) 2 2R 3, ja kahdelle näytteelle virhettä on kaksinkertaisesti eli 2 2 2R 3 = R. Yhteen kvantisointipisteeseen kvantisoituvat arvot, eli kvantisointipisteen ns. Voronoi-alue, muodostavat tässä tapauksessa säännöllisen kuusikulmion (josta kvantisoijan nimi). Jotta koodipisteitä olisi yhtä monta kuin edellisessä PCM-kvantisoijassa, eli 2 2R kahta näytettä kohti, on suurinpiirtein (jos ei huomioida reunalla olevaa epäsäännöllisyyttä) 4 A = 22R, missä A on yhden Voronoi-alueen pinta-ala, joten Toisaalta kuviosta laskemalla saadaan A = 4 2 2R. A = s2,

23 1.3. ADAPTIIVINEN DPCM ELI ADPCM 21 missä s on Voronoi-alueen sivun pituus. Sijoittamalla saadaan s = R. Lasketaan sitten neliövirhe σ 2 (Ω) = 1 x 2 dx, A(Ω) Ω missä Ω on Voronoi-alue ja A(Ω) sen pinta-ala. Maple antaa ystävällisesti tiedon että > int(int(x^2y^2, y=0..s*sqrt(3)/2-(x-s/2)*sqrt(3)),x=s/2..s)\ int(int(x^2y^2, y=0..x*sqrt(3)),x=0..s/2); 4 1/2 5/48 s 3 eli 3 σ 2 (Ω) = s s2 = s = R 12 = R = R.

24 Luku 2 Synteesi-analyysi koodaus Tärkein koodausmenetelmä nykyisissä puheenkoodausstandardeissa on synteesianalyysi koodaus (analysis-by-synthesis, AbS). Usein menetelmästä käytetään myös nimeä CELP, code-excited linear prediction. Nimi synteesi-analyysi tulee siitä, että menetelmässä analysoidaan optimaaliset parametrit syntetisoimalla niillä tuotettu puhe, jolloin kooderin sisällä on myös dekooderi. Tämä vastaa jossakin määrin esim. suljettua ADPCM-menetelmää, jossa heräte valittiin siten että synteesi on mahdollisimman hyvä, tosin nyt heräte koodataan kehyksittäin eikä näytteittäin. Katsotaan ensin läpi historiallisesti ensimmäinen synteesi-analyysi koodekki, joka historiallisen mielenkiinnon ohella havainnollistaa hyvin synteesianalyysi koodauksen perusideaa. 2.1 Multipulse-koodekki Vuonna 1982 Atal ja Remde kehittivät multipulse-menetelmän puheenkoodaukseen, jossa yritetään syntetisoida residuaali joka tuottaa mahdollisimman hyvän tuloksen sen sijaan, että yritetään kompressoida alkuperäistä residuaalia. Lohkokaavio menetelmästä löytyy kuviosta 2.1. Homma toimii seuraavasti: 1 Lasketaan LPC-analyysikehyksestä LP-suodatin A(z) ja kvantisoidaan se esim. kuten edellä ADPCM-koodekin yhteydessä. Kertoimet lähetetään vastaanottimelle. 2 Generoidaan herätekandidaatti kehykselle, joka suodatetaan kvantisoidulla 1 synteesisuodattimella. Tuloksena on rekonstruktio puhesignaalista. A(z) 3 Lasketaan erotus tämän rekonstruoidun puheen ja alkuperäisen synteesikehyksen välillä. 22

25 2.1. MULTIPULSE-KOODEKKI 23 4 Painotetaan virhettä taajuustasossa siten että taajuusalueilla joissa puheen teho on suuri sallitaan enemmän virhettä. Tämä perustuu ihmisen kuuloaistin taajuusmaskausominaisuuksiin, joista tarkemmin kurssilla Digitaalinen Audio. Painotussuodatin lasketaan kvantisoimattoman tai kvantisoidun LP-suodattimen avulla. 5 Lasketaan painotetun virheen energia ja pidetään muistissa pienimmän virheen aiheuttava heräte. 6 Toistetaan sama operaatio kohdasta 2 eri herätteille. 7 Lähetetään vastaanottimelle paras löydetty heräte. Huomaa että painotussuodatin W(z) tarvitaan ainoastaan lähettimessä valittaessa parasta herätettä, periaatteessa ihmisen korva hoitaa saman tehtävän vastaanottimessa Herätteen generointi multipulse-koodekissa Miten herätteet generoidaan? Tähän on useita tapoja, joita tarkastellaan myöhemmin. Herätesignaalin rakenne eli ns. herätekoodikirja tai kiinteä koodikirja on yksi tärkeimpiä synteesi-analyysi koodekkien parametreja. Alkuperäisessä multipulse-menetelmässä heräte generoitiin lisäämällä siihen pulssi kerrallaan tiettyyn määrään asti. Eli: 1 Aloitetaan nollaherätteestä, jossa ei ole yhtään pulssia. 2 Lisätään yksi pulssi nykyiseen herätteeseen sellaiseen kohtaan ja sellaisella amplitudilla, että rekonstruoidun puheen painotettu virhe minimoituu. 3 Jatketaan kohdasta 2, kunnes herätteessä on haluttu määrä pulsseja. Konkreettisesti tämä toteutetaan seuraavasti. Käytetään puhesignaalikehyksen (alkuperäisestä puheesta otettu esim. 5 ms pituinen ikkuna) näytteistä koostuvalle vektorille merkintää s, kvantisoidusta LPC-suodattimen siirtofunktiosta (synteesisuodatin) merkintää 1 ja painotussuodattimen siirtofunktiosta merkintää W(z). A(z) Oletetaan, että nykyinen heräte (eli samanpituinen vektori kuin s) on vektori e, ja haluamme lisätä siihen yhden pulssin siten, että minimoimme painotetun virheen energian eli summan N 1 n=0 [w(n) [s(n) h(n) [e(n) αδ i (n)]]] 2, missä N on synteesikehyksen pituus (esim. jos näytteenottotaajuus on 8 khz jaikkunan pituus on 5 ms niin N = 40), w(n) on painotussuodattimen impulssivaste,

26 24 LUKU 2. SYNTEESI-ANALYYSI KOODAUS kanava SYNTEESIKEHYS s(n) LPC-ANALYYSIKEHYS DEKOODERI LPC-analyysi generoi pulssi herätekehykseen e(n) 1/A(z) - kvantisointi W(z) S() 2 valitse paras heräte Kuvio 2.1: Multipulse-menetelmän lohkokaavio. tarkoittaa konvoluutiota, h(n) on synteesisuodattimen 1 impulssivaste, α on A(z) uuden pulssin amplitudi ja δ i (n) on diskreetti impulssi hetkellä n = i (eli uuden pulssin sijainti on i). Approksimoidaan IIR-suodattimen W(z) impulssivastetta w(n) äärellisellä N:n pituisella vasteella (käytännössä laskemalla siitä ensimmäiset N näytettä) ja vastetta h(n) myös N:n pituisella vasteella. Yllä olevat konvoluutiot voidaan

27 2.1. MULTIPULSE-KOODEKKI 25 nyt esittää matriisikertolaskuna seuraavasti: w(0) [s(0) h(0) [e(0) αδ i (0)]] w(1) [s(1) h(1) [e(1) αδ i (1)]] w(2) [s(2) h(2) [e(2) αδ i (2)]]. w(n 2) [s(n 2) h(n 2) [e(n 2) αδ i (N 2)]] w(n 1) [s(n 1) h(n 1) [e(n 1) αδ i (N 1)]] missä W ja H ovat impulssivasteita w(n) ja h(n) vastaavat konvoluutiomatriisit: W = H = w(0) w(1) w(0) w(2) w(1) w(0) w(n 2) w(n 3) w(n 4) w(0) 0 w(n 1) w(n 2) w(n 3) w(1) w(0) h(0) h(1) h(0) h(2) h(1) h(0) h(n 2) h(n 3) h(n 4) h(0) 0 h(n 1) h(n 2) h(n 3) h(1) h(0) = W(s H(e αd i )), ja d on vektori jossa i1:s (eli hetkeä i vastaava) komponentti on 1 ja muut nollia. Virheen energia E saadaan nyt tämän erotusvektorin pituutena eli E = (W(s H(e αd i ))) T W(s H(e αd i )) = α 2 (d T i (WH) T (WH)d i ) 2α(e T (WH) T WHd i s T W T WHd i ), s T (WH) T (WH)s 2s T W T WHe e T (WH) T WHe. Tämä saattaa vaikuttaa ensin pelottavalta, mutta itse asiassa kun siihen sijoitetaan tietty i:n arvo eli impulssin sijainti, se on yksinkertainen toisen asteen paraabeli muuttujan α suhteen, joka saavuttaa minimiarvonsa kun α min = et (WH) T WHd i s T W T WHd i d T i (WH) T (WH)d i = (W(s He))T WHd i d T i (WH) T (WH)d i

28 26 LUKU 2. SYNTEESI-ANALYYSI KOODAUS eli vanha tuttu x = b 2a. Minimaalinen virheen energia saadaan sijoittamalla tämä virheen kaavaan ja jättämällä siitä signaalista d i riippumaton vakiotermi pois, joka aiheuttaisi vain turhaa laskentaa: E min = ((W(s He))T WHd i ) 2 d T i (WH) T (WH)d i. Tämä termi lasketaan ja talletetaan kaikille arvoille i = 0, 1,..., N 1, kuten myös vastaava α min. Tämän jälkeen etsitään i:n arvo i min joka antoi pienimmän virheen ja sitä vastaava skaalaus α min, joka kvantisoidaan, esimerkiksi epätasavälisellä skalaarikvantisoijalla. Merkitään kvantisoitua amplitudia ˆα min. Seuraavaksi lisätään herätteeseen tämä optimaalinen pulssi: e e ˆα min d imin. Tätä jatketaan kunnes pulsseja on haluttu määrä, esimerkiksi 5 pulssia 40:n näytteen ikkunassa. Kooderin pitää lähettää dekooderille kvantisoitujen amplitudien lisäksi myös tieto impulssien sijainneista. Jos kehyksessä on 40 näytettä ja impulsseja on 5, mahdollisia kombinaatioita on kaikkiaan ( ) 40 = 40! 5 35!5! = joiden esittämiseen menee 20 bittiä. Ongelmana tosin on miten saadaan tehokkaasti koodattua pulssien sijainti näihin 20 bittiin. Periaatteessa jokaiselle kombinaatiolle voidaan antaa oma 20-bittinen koodinsa mutta tämä vaatii 20-bittisen koodikirjan jonka tallennus ja haku on käytännössä liian työlästä. Suoraviivainen tapa toteuttaa pulssien sijaintien koodaus olisi lähettää 40-bittinen vektori jossa bitti on 1 jos sillä kohdalla on impulssi. Laskennallisesti tämä on hyvin yksinkertaista mutta yksinkertaisuuteen hukataan 20 bittiä. Hieman tehokkaampi tapa on koodata jokaisen impulssin sijainti erikseen. Koska jokainen sijainti voidaan esittää 7:llä bitillä, 5 sijainnin koodaamiseen menee tällä tavalla vieläkin 35 bittiä. Tätä tehokkaampaa on koodata erikseen kahden ensimmäisen impulssin sijainti koodikirjan avulla jonka koko on ( ) 40 2 = 780 eli 10 bittiä, joka on käytännössä realistinen. Seuraavat 2 sijaintia voidaan koodata samalla koodikirjalla ja viimeinen sijainti 7:llä bitillä, joten tällä tavalla kuluu kaikkiaan 27 bittiä impulssien sijaintien koodaukseen ilman että laskentaa vaaditaan kohtuuttomasti. Yleisesti tässä on kompromissi laskennallisen tehokkuuden ja vaadittavan bittimäärän välillä. Myöhemmin esitettävät rakenteiset koodikirjat rajoittavat impulssien sijaintia joka pienentää niiden sijaintitietoon vaadittavaa bittimäärää huomattavasti.

29 2.2. SYNTEESI-ANALYYSI KOODEKKIEN RAKENNE 27 Dekooderille lähetetään siis: kvantisoidut LPC-kertoimet sekä pulssien sijainnit ja kvantisoidut amplitudit. Dekooderi sisältyy kooderiin, se toimii yksinkertaisesti rekonstruoimalla lähetetyn herätteen ja suodattamalla sen rekonstruoidun LPC-suodattimen läpi. Multipulse-koodekissa, kuten synteesi-analyysi koodekeissa yleensäkin, kooderi on huomattavasti monimutkaisempi kuin dekooderi Painotussuodatin Painotussuodattimen tarkoituksena on muovata virheen spektri siten, että se maskautuisi formanttien alle. Tämä voidaan toteuttaa painottamalla virhettä eri taajuuksilla puheen spektristä riippuen. Painotuksen pitää siis olla pieni formanttien 1 kohdalla ja suuri muualla. Synteesisuodattimen spektri on hyvä approksimaatio kehyksen spektrille, joten sitä käytetään painotukseen. Yleisesti käytetty A(z) painotussuodatin on A(z/γ 1 ) A(z/γ 2 ), missä 0 < γ 2 < γ 1 1, esim. γ 1 = 0.94, γ 2 = 0.6 on toimiva valinta. Kuviossa 2.2 on esitetty LPC-suodattimen 1/A(z) spektri ja suodattimen A(z/0.94) spektri. A(z/0.6) Havaitaan että painotussuodatin painottaa enemmän taajuuksia joissa puheella on vähän energiaa, aivan kuten pitääkin. Miksi tämä suodatin toimii? Perusajatuksena on se että suodatin A(z/0.94) on melko lailla käänteinen suodatin 1/A(z):lle joten sen amplitudivaste on suuri kun 1/A(z):n amplitudivaste on pieni ja kääntäen. Tämä antaa kuitenkin hiukan turhan jyrkän painotuksen joten sitä pehmennetään suodattimella 1/A(z/0.6). Tämä vastaa suodatinta jossa navat ovat muuten samat kuin 1/A(z):lla mutta niiden etäisyydet origosta on kerrottu 0.6:lla, joten vaste on pehmeämpi kuin 1/A(z):lla. Painotus tehdään ainoastaan kooderissa eikä painotussuodatinta lähetetä dekooderille, joten siinä voidaan käyttää joko kvantisoitua tai kvantisoimatonta A(z)- polynomia. 2.2 Synteesi-analyysi koodekkien rakenne Synteesi-analyysi koodekit ovat varsin samanlaisia kuin multipulse-koodekki. Koodikirjan rakenne vain eroaa multipulse-koodekista, ja lisäksi koodekissa on soinnillisia äänteitä varten pitkäaikainen ennustaja (engl. long-term predictor, LTP) joka voidaan toteuttaa ns. adaptiivisen koodikirjan avulla. Lohkokaavio synteesi-analyysi koodekista löytyy kuviosta 2.3. Tärkeimmät toiminnalliset lohkot ovat:

30 28 LUKU 2. SYNTEESI-ANALYYSI KOODAUS Painotussuodattimen vaste 1/A(z) W(z) 20 amplitudivaste, db taajuus, Hz Kuvio 2.2: LPC-suodattimen ja vastaavan painotussuodattimen amplitudivasteet. Esiprosessointi, jossa signaalista poistetaan DC-taso (DC=direct current, viittaa nollataajuuteen) suodattamalla ylipäästösuodattimella. LPC-analyysi, LPC-kertoimien kvantisointi ja interpolointi. Kvantisoidut LPC-kertoimet lähetetään dekooderille. Adaptiivisen koodikirjaherätteen eli pitkäaikaisen ennustajan ja sitä vastaavan vahvistuskertoimen etsiminen. Herätteen ja vahvistuksen indeksit lähetetään dekooderille. Residuaalin ja vahvistuksen haku kiinteälle koodikirjalle (fixed codebook=fc), nämä lähetetään dekooderille. Psykoakustista taajuusmaskausta hyödyntävä painotussuodatus. Kaikki prosessointi tehdään taas kehyksittäin. Menetelmän perusideana on etsiä suljetulla haulla kullekin puhelohkolle parametrit (LPC-kertoimet, pitkäaikainen ennustaja ja heräte) joiden perusteella rekonstruoitu puhe vastaa mahdollisimman hyvin alkuperäistä psykoakustiikka huomioiden. Kiinteän koodikirjan rakenne on ehkä tärkein tekijä synteesi-analyysi koodekissa: kiinteän koodikirjan indeksi muodostaa suurimman osan bittivirrasta, ja kiinteän

31 2.2. SYNTEESI-ANALYYSI KOODEKKIEN RAKENNE 29 Esiprosessointi W(z) LPC-analyysi AC LPC kvantisointi α 1 ^ A(z) W(z) - LPC interpolointi min FC β 1 ^ A(z) W(z) - min Kuvio 2.3: Lohkokaavio synteesi-analyysi kooderista. Dekooderin ulostulo saadaan summaamalla koodikirjojen painotetut herätteet ja suodattamalla se synteesisuodattimella. Dekooderille lähetetään: kvantisoidut LPC-kertoimet, koodikirjojen indeksit sekä vahvistuskertoimet (kuviossa AC: adaptive codebook, FC: fixed codebook). koodikirjan rakenne määrittelee pitkälti koodekin kvantisointiominaisuudet. Lisäksi kiinteän koodikirjan haku on laskennallisesti vaativin operaatio koodauksessa ja määrää siten pitkälti koodekin laskennallisen kompleksisuuden. Vuosien saatossa on kehitelty iso nippu erilaisia kiinteän koodikirjan rakenteita, joista muutamaan tutustutaan jäljempänä Esiprosessointi ja ikkunointi Esiprosessoinnin tarkoituksena on mm. huolehtia siitä että koodattavan puheen taajuuskaista on sama jolle kooderi on optimoitu. Tyypillisesti tämä käsittää matalien taajuuksien poistamisen ylipäästösuodatuksella ja mahdollisesti signaalin skaalauksen ylivuotojen välttämiseksi myöhemmässä prosessoinnissa, joka usein toteutetaan kiinteän pilkun prosessorilla. Esiprosessoinnilla voidaan myös tasata puheen spektriä jolloin esim. käytetyn mikrofonin vaikutusta saadaan pienennettyä. Lisäksi esiprosessoinnin yhteydessä puheesta voidaan poistaa kohinaa.

32 30 LUKU 2. SYNTEESI-ANALYYSI KOODAUS Tyypillisesti käytetty ylipäästösuodatin kapeakaistaiselle puheelle on ensimmäisen asteen FIR z 1, jonka amplitudivaste on kuvassa 2.4. Mikäli signaalin spektriä halutaan tasata, voidaan käyttää adaptiivista ensimmäisen asteen FIR-suodatinta 1 r(1) r(0) z 1, missä r(k) on puheen autokorrelaatio, laskettuna esimerkiksi käsiteltävästä kehyksestä (tämä on itse asiassa optimaalinen ensimmäisen asteen LP-suodatin). 10 Ylipäästösuodattimet 1 ρ z 1, ρ= Amplitudivaste, db Taajuus, Hz Kuvio 2.4: Esiprosessointiin sopivia ensimmäisen asteen ylipäästösuodattimia. Esiprosessointi siis tuottaa muokatun puhesignaalin s(n) jota käsitellään jatkossa, alkuperäistä puhetta ei enää myöhemmin käytetä LPC-analyysi ja kvantisointi Esiprosessoinnista saadusta puheesta s(n) lasketaan kullekin kehykselle LPCpolynomi A(z), jota käytetään synteesisuodattimen ja painotussuodattimen las-

33 2.2. SYNTEESI-ANALYYSI KOODEKKIEN RAKENNE 31 kemisessa. Rekonstruoitu puhe saadaan tuttuun tyyliin suodattamalla residuaalisignaali suodattimella. Ideaalisesti tämä residuaali olisi 1 A(z) S(z)A(z), joka tuottaisi alkuperäisen puheen synteesisuodatuksen jälkeen. Tässä tosin pitää vielä huomioida synteesisuodattimen muisti kehysten välillä, josta lisää myöhemmin. LPC-analyysi tehdään kehyksittäin kuten kaikki muukin prosessointi, mutta taaskaan LPC-analyysi-ikkunoiden ei täydy vastata synteesi-ikkunoita jotta voidaan käyttää pehmeämpää ikkunaa LPC-analyysiin. Toinen syy käyttää eri ikkunaa on se, että LPC-kertoimia ei yleensä täydy päivittää yhtä usein kuin muita parametreja, koska ne muuttuvat suhteellisen hitaasti joten ne voidaan laskea ja lähettää harvemmin. Tämä johtaa ns. alikehysten (subframe) käyttöön: LPkertoimet lasketaan esim. 20 ms pituisille kehyksille ja muut parametrit lyhyemmille alikehyksille (esim. 5 ms). Kussakin alikehyksessä tarvitaan LPC-kertoimet joita käytetään alikehyksen synteesi- ja painotussuodattimissa. Lopputulosta parantaa vielä alikehyksien LPsuodattimien interpolointi vierekkäisistä kehyksistä sen sijaan että käytettäisiin joka kehykselle omaa LP-suodatinta, joka vaihtuisi jyrkästi kehysten välillä. LPC-analyysin aiheuttamaa algoritmista viivettä voidaan pienentää käyttämällä epäsymmetristä ikkunaa, jonka pääpaino on esim. kunkin kehyksen viimeisellä alikehyksellä. Kuvassa 2.5 on esitetty esimerkki, jossa 20 ms kehys on jaettu neljään 5 ms alikehykseen ja kuvassa 2.6 on tilanteeseen sopiva epäsymmetrinen LP-analyysi ikkuna. LPC-analyysi-ikkunat Alikehykset Kuvio 2.5: Vastaavat LPC-analyysi ja synteesi-ikkunat. Analyysi-ikkunan perusteella voidaan tehdä suoraviivainen LPC-analyysi mutta koodaustuloksen subjektiivista laatua voidaan vielä parantaa hieman säätämällä

34 32 LUKU 2. SYNTEESI-ANALYYSI KOODAUS 1 Epäsymmetrinen LPC ikkuna Kuvio 2.6: Epäsymmetrinen LPC-analyysi-ikkuna. menetelmää. Erityisesti ongelmana on se, että LP-polynomin amplitudivaste saattaa olla liian jyrkkä formanttien kohdalla eli suodattimen 1 navat ovat liian lähellä yksikköympyrää. Tämä aiheuttaa metallisuutta dekoodattuun puheeseen. A(z) Tilannetta voidaan korjata mm. seuraavilla tavoilla: LP-polynomin A(z) kertoimien ikkunointi eksponentiaalisella ikkunalla, joka vastaa napojen siirtämistä kauemmas yksikköympyrästä. Autokorrelaatioiden r(k) ikkunointi ennen LP-analyysiä ikkunalla w(k) = exp 1 2 ( 2πf0 k F s ) 2, k = 0, 1,...,p, missä f 0 on haluttu kaistanleveyden lisäys. Tämä toimii siksi että autokorrelaation Fourier-muunnos on alkuperäisen signaalin spektri (eli Fouriermuunnoksen amplitudin neliö), joten autokorrelaation ikkunoiminen vastaa spektrin konvoloimista ikkunafunktion Fourier-muunnoksella. Esimerkki kaistanleveyden laajentamisesta on kuvassa 2.7.

35 2.2. SYNTEESI-ANALYYSI KOODEKKIEN RAKENNE Alkuperäinen LPC spektri 30 Amplitudivaste, db Taajuus, Hz 30 Autokorrelaatio ikkunoitu LPC spektri 20 Amplitudivaste, db Taajuus, Hz Kuvio 2.7: Alkuperäinen LPC-spektri ja LPC-spektri autokorrelaatioiden ikkunoinnin jälkeen (60 Hz kaistanleveyden lisäys). Koska LP-suodatinta käytetään dekooderissa, pitää kertoimet luonnollisesti kvantisoida ennen niiden lähettämistä, mutta myös kooderissa pitää käyttää kvantisoituja kertoimia. Seuraavaksi katsotaan LPC-kertoimien line spectral frequenciesmuunnoksen (LSF) vektorikvantisointia, jolla saavutetaan huomattavasti parempia tuloksia kuin kerrointen skalaarikvantisoinnilla LSF-kertoimien kvantisointi Ongelmana on LPC-suodattimen A(z) kvantisointi. Kuten aikaisemmin on mainittu, kertoimien a 1,a 2,...,a p skalaarikvantisointi ei ole hyvä idea mm. kvantisoidun suodattimen mahdollisen epästabiilisuuden takia. Toinen piirre on se, että kertoimet halutaan kvantisoida siten, että kvantisoitu suodatin olisi subjektiivisesti kuulon kannalta mahdollisimman hyvä. Tämä tarkoittaa karkeasti ottaen sitä, että kvantisoidun suodattimen amplitudivasteen tulisi olla lähellä alkuperäistä, erityisesti formanttien taajuuksien ja kaistanleveyksien. A(z):n kertoimien pieni muutos ei välttämättä aiheuta pientä muutosta taajuusvasteeseen. Kerroinvektorin [a 1 a 2... a p ] vektorikvantisointi olisi parempi vaihtoehto,

36 34 LUKU 2. SYNTEESI-ANALYYSI KOODAUS koska tällöin voidaan taata kvantisoidun suodattimen stabiilisuus, yksinkertaisesti valitsemalla koodikirjaan vain stabiileja suodattimia vastaavat kerroinvektorit. Tämä ei tosin suoraan tule kysymykseen, sillä riittävän hyvän laadun saavuttamiseksi vaaditaan n. 26-bittinen koodikirja (jossa olisi siis vektoria) jonka tallennus ja haku ei ole mielekästä. Käytännössä toimiva ratkaisu saadaan käyttämällä ositettua vektorikvantisointia LSF-kertoimille. LSF-kertoimille? LSF-muunnos muuttaa LPC-polynomin A(z) informaation muotoon, jota on helpompi kvantisoida ja interpoloida, samaan tyyliin kuin muuttamalla A(z) heijastuskertoimiksi. Oletetaan yksinkertaisuuden vuoksi, että kvantisoitava LPC-polynomi A(z) = 1 a 1 z 1 a 2 z 2... a p z p on parillista astetta, eli p on parillinen (parittomille arvoille homma hoituu vastaavasti). Määritellään uudet polynomit P 1 (z) = A(z) z p 1 A(z 1 ), Q 1 (z) = A(z) z p 1 A(z 1 ), jotka vastaavat polynomeja jotka saadaan A(z):sta lisäämällä A(z):n heijastuskertoimiin 1 (josta tulee P 1 (z)) ja 1 (josta Q 1 (z)). Koska z p A(z 1 ) = z p (1 a 1 (z 1 ) 1 ) a 2 (z 1 ) 2... a p (z 1 ) p ) = z p (1 a 1 z 1 a 2 z 2... a p z p ) = a p a p 1 z 1... a 1 z p1 z p, niin P 1 (z):n kertoimet saadaan A(z):n kertoimista lisäämällä niihin käännetty ja yhdellä tapilla viivästetty A(z). Vähentämällä käännetty ja viivästetty vektori saadaan Q 1 (z). Mikäli A(z):n nollat ovat yksikköympyrän sisällä, polynomien P 1 (z) ja Q 1 (z) nollat ovat yksikköympyrällä ja vieläpä niin että ne vuorottelevat (kuva 2.8). Lisäksi P 1 (z):lla on aina nolla z = 1:ssä ja Q 1 (z):lla z = 1:ssä, joten jakamalla ne pois saadaan uudet polynomit: P(z) = P 1(z) 1 z 1, Q(z) = Q 1(z) 1 z 1.

Näytä lisää