T-61.246 DSP: GSM codec
Agenda Johdanto Puheenmuodostus Erilaiset codecit GSM codec Kristo Lehtonen GSM codec 1
Johdanto Analogisen puheen muuttaminen digitaaliseksi Tiedon tiivistäminen pienemmäksi Vähentää siirrettävien bittien määrää (bit rate) Säilyttää riittävän äänen laadun Nykyhetken puhesovellukset vs. tulevaisuuden multimediasovellukset GSM standardi: 18 kbps Residual Pulse Excitation codec Kristo Lehtonen GSM codec 2
Äänentuotanto Nasal cavity GSM phone Pharyngeal cavity Mouth cavity Glottis Lungs Äänikanava äänihuulista suuhun Äänihuulet värähtelevät Perustaajuus (pitch) Kristo Lehtonen GSM codec 3
Äänentuotanto Quasi-periodinen Ennustettavuus tärkeää koodauksen kannalta Kristo Lehtonen GSM codec 4
Äänentuotanto Suurimmat komponentit formantteja Äänikanavan mallinnus suodattimena Muuttuu hitaasti Korrelaatioita Kristo Lehtonen GSM codec 5
Äänentuotanto Ihmiskorvan erottelukyky rajallinen taajuuksista 16 20 000 Hz puhelinverkoissa 300 3 400 Hz Resoluutiokyky myös rajallinen Herkempi matalilla taajuuksilla Kristo Lehtonen GSM codec 6
Epälineaarinen kvantisointi A-laki Voltage amplitude 128 96 64-4096 -3072-2048 -1024 32 1024 2048 3072 4096 Quantisising value -32-64 -96-128 Kristo Lehtonen GSM codec 7
Miten hyödyntää puheen ominaisuuksia koodauksessa? Effect of predictive coding and transform coding Relevant Description of channel signal after efficient coding Redundant Effect of amplitude quantisation Non-Redundant Irrelevant Lyhyen ja pitkän ajanjakson korrelaatiot Ennustus (signaalin sijaan koodataan ennustusvirhe) Osa informaatiosta hahmottamisen kannalta irrelevanttia Tehokas kvantisointi Mallinnus suodattimena Kristo Lehtonen GSM codec 8
Codecit voidaan luokitella 3 eri ryhmään Aaltomuotokoodaus Pyritään säilyttämään signaalin aaltomuoto Vokoodaus (source coding) Mallinnetaan lähdettä Hybridinen koodaus Aaltomuoto- ja vokoodauksen yhdistelmä Kristo Lehtonen GSM codec 9
Aaltomuotokoodaus PCM yksinkertaisin esimerkki Näytteenotto Lineaarinen kvantisointi (12 bit/näyte) vs. A-laki (8 bit/näyte) Ennustus - DPCM r(n) = s(n) s (n) Kvantisointi vaatii vähemmän bittejä σ SNR = 10log σ 2 s 2 r Kristo Lehtonen GSM codec 10
Vokoodaus Pitch Generation of impulses Voiced The parameters in the vocal tract Switch Vocal tract as a filter Filtered speech Generation of noise Unvoiced Äänikanavaa mallinnetaan filtterinä Hyvin pieni bit rate, mutta huono äänen laatu Käytössä puhtaassa muodossaan lähinnä armeijasovelluksissa Kristo Lehtonen GSM codec 11
Hybridinen koodaus Quality of service Hybrid codecs Excellent Waveform codecs Good Fair Source codecs Poor 16 22 44 84 16 32 64 Bit Rate kbits/s Aaltomuotokoodaus hyvä noin 16 kbit/s asti Vokoodaus hyvin pienillä bit rate:llä AbS, MPS, RPE Kristo Lehtonen GSM codec 12
Lyhyen aikavälin ennustus (LPC) Suodattimen herätteenä ei vain soinnillen-soinniton ääni Heräte ennustetaan edeltävien näytteiden lineaarikombinaationa Korrelaatioita alle 16 näytteen etäisyydeltä Minimoidaan virhesignaali kertoimien valinnalla 1 H ( z) = A( z) A( z) = 1+ p k= 1 a k z k Kristo Lehtonen GSM codec 13
Pitkän aikavälin ennustus (LTP) Korrelaatioita alle noin 20-120 näytteen etäisyydeltä Maksimoidaan x[n] ja x[n+n] korrelaatio P( z) =1+ bz N Kristo Lehtonen GSM codec 14
GSM-codec -Linear Predictive Coding with Regular Pulse Excitation (LPC-RPE) Error - + Linear prediction 36 bits Synthesis filter 20 ms speech bloc Long-term prediction 36 bits Excitation analysis 188 bits Bit rate 13 kbit/s Jaettu 20 ms lohkoihin ja edelleen 5 ms ala-lohkoihin Jokaisella 20 ms lohkolla oma synteesifiltteri Kristo Lehtonen GSM codec 15
GSM-codec -Linear Predictive Coding with Regular Pulse Excitation (LPC-RPE) Bits per 5 ms block Bits per 20 ms block LPC filter 8 parameters 36 LTP filter Delay parameter 7 28 Gain parameter 2 8 Excitation signal Subsampling phase 2 8 Maximum amplitude 6 24 13 samples 39 156 Total 260 bits Myös Half-rate codec olemassa GSM:lle bit rate 5.6 kbit/s Kristo Lehtonen GSM codec 16