1 Todellisia koodausjärjestelmiä: MPEG Audio 1 ja 2. 1.1 MPEG ensimmäinen sukupolvi. MPEG Audio 1 ja 2. Sisältö:



Samankaltaiset tiedostot
Kuulon malleihin perustuva audiokoodaus, osa II

1 Johdanto. Tiedonsiirron kaistanleveys kasvaa jatkuvasti, mutta kaistan tarve kasvaa vielä enemmän tarve kompressiotekniikoille

AV-muotojen migraatiotyöpaja - ääni. KDK-pitkäaikaissäilytys seminaari / Juha Lehtonen

Puheenkoodaus. Olivatpa kerran iloiset serkukset. PCM, DPCM ja ADPCM

T DSP: GSM codec

1 Johdanto. Johdanto Vaatimuksia audiokoodekille. Johdanto 1.1 Vaatimuksia audiokoodekille

SGN-4200 Digitaalinen audio

Digitaalinen audio

Digitaalinen audio & video I

1. Perusteita Äänen fysiikkaa. Ääniaalto. Aallonpituus ja amplitudi. Taajuus (frequency) Äänen nopeus

Digitaalinen audio & video, osa I. Johdanto. Digitaalisen audion sovellusalueet. Johdanto. Taajuusalue. Psykoakustiikka. Johdanto Digitaalinen audio

Juha Henriksson. Digitaalinen äänentallennus Dr. Juha Henriksson Finnish Jazz & Pop Archive

Dynamiikan hallinta Lähde: Zölzer. Digital audio signal processing. Wiley & Sons, Zölzer (ed.) DAFX Digital Audio Effects. Wiley & Sons, 2002.

Digitaalinen audio & video, osa I

puheen laatu kärsii koodauksesta mahdollisimman vähän. puhe pakkautuu mahdollisimman pieneen määrään bittejä.

ELEC-C5070 Elektroniikkapaja (5 op)

Digitaalinen Audio & Video I

Monikanavaäänen perusteet. Tero Koski

AV-muotojen migraatiotyöpaja - video. KDK-pitkäaikaissäilytys seminaari / Juha Lehtonen

LARI KUMPU ADPCM:N KÄYTTÖ ÄÄNEN HÄVIÖTTÖMÄSSÄ PAKKAUKSESSA

Johdanto tieto- viestintäteknologian käyttöön: Äänitystekniikka. Vfo135 ja Vfp124 Martti Vainio

SGN-4200 Digitaalinen Audio Harjoitustyö-info

Puheenkäsittelyn menetelmät

Synteesi-analyysi koodaus

Muistio. Att:Videokerho Monitori ry:n jäsenet SUB: ÄÄNI-KUVA- JA VIDEOTIEDOSTOFORMAATIT. 1 Tiedostojärjestelmistä

Surround. Äänitys ja miksaus LFE-kanava 5.1. Mitä tarvitaan? 5 pääkaiutinta aktiivikaiuttimet passiivikaiuttimet + surround-vahvistin

Vaatimusmäärittely Ohjelma-ajanvälitys komponentti

1 Diskreettiaikainen näytteistys. 1.1 Laskostuminen. Laskostuminen

THE audio feature: MFCC. Mel Frequency Cepstral Coefficients

PSYKOAKUSTINEN ADAPTIIVINEN EKVALISAATTORI KUULOKEKUUNTELUUN MELUSSA

Kuvan pakkaus JPEG (Joint Photographic Experts Group)

ELEC-C Sovellettu digitaalinen signaalinkäsittely. Äänisignaalien näytteenotto ja kvantisointi Dither Oskillaattorit Digitaalinen suodatus

Muuntavat analogisen signaalin digitaaliseksi Vertaa sisääntulevaa signaalia referenssijännitteeseen Sarja- tai rinnakkaismuotoinen Tyypilliset

Kuluttajan audiotekniikkaa Lähteet:

Kuvan- ja videontiivistys. Mikko Nuutinen

Puhetie, PCM järjestelmä, johtokoodi

Spektri- ja signaalianalysaattorit

Pianon äänten parametrinen synteesi

FIR suodinpankit * 1 Johdanto

Cubase perusteet pähkinänkuoressa. Mikä Cubase on? Projektin aloitus

1. PUHEEN KOODAUS... 2

Historiaa musiikillisten äänten fysikaalisesta mallintamisesta

Suodinpankit ja muunnokset*

Puheenkoodaus. koodekki toimii hyvin myös kohinaiselle puheelle (ja mielellään vielä musiikille ja muille yleisille signaaleille)

SINULLA ON SISÄLTÖ, ME TARJOAMME KANAVAN

Puhesynteesin perusteet Luento 4: difonikonkatenaatio

1 Johdanto. 2 Kriittinen näytteistys 2:lla alikaistalla. 1.1 Suodatinpankit audiokoodauksessa. Johdanto

Jukka Pätynen. Jukka, Jussi, Niklas, aiheassistenat 5: Tilaääni Prof. Ville Pulkki, Juhani Paasonen

Mitä on multimedia? Multimedia. Jatkuva-aikainen media. Yleisimmät mediatyypit. Jatkuvan median käsittelyvaiheet. Interaktiivuus

nykyään käytetään esim. kaapelitelevisioverkoissa radio- ja TVohjelmien

Ryhmätyö. Kalle Palomäki Signaalinkäsi5elyn ja akus8ikan laitos

Lähetys- ja jakelutekniikat

ZAP SR300 Touch 8GB

Tuotetiedot C: Asennus

Laskuharjoitus 4 ( ): Tehtävien vastauksia

Kotiteatteriformaatit ja 5.1 Äänentoisto

Virheen kasautumislaki

Alla olevassa kuvassa on millisekunnin verran äänitaajuisen signaalin aaltomuotoa. Pystyakselilla on jännite voltteina.

MICHAEL SITTIG ÄÄNEN HÄVIÖTÖN PAKKAAMINEN. Kandidaatintyö

Monikanavaääni. Antti Silvennoinen Freelance ääni- ja valosuunnittelija. copyright Antti Silvennoinen 2009

PALVELUKUVAUS, T2 PALVELU

5.1 äänentoisto ja kotiteatteriformaatit

Kohti uuden sukupolven digitaalipianoja

Kompleksiluvut signaalin taajuusjakauman arvioinnissa

9 Multimedian elementtejä: ääni Webissä

Kanavointi ja PCM järjestelmä

Organization of (Simultaneous) Spectral Components

Helsinki University of Technology Laboratory of Telecommunications Technology

Signaalien datamuunnokset. Digitaalitekniikan edut

Signaalien datamuunnokset

Syntysähköisten. Markus Merenmies / Kansallisarkisto

Puhesynteesi. Martti Vainio. 11. huhtikuuta 2003

Stereoskooppisen kuvan koodaus

Suodattimet. Suodatintyypit: Bessel Chebyshev Elliptinen Butterworth. Suodattimet samalla asteluvulla (amplitudivaste)

YLEISIMMÄT MIKROFONITYYPIT

1 Määrittele seuraavat langattoman tiedonsiirron käsitteet.

Ongelma 1: Onko datassa tai informaatiossa päällekkäisyyttä?

5 Akustiikan peruskäsitteitä

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

Dynamiikan hallinta Lähde: Zölzer. (1997). Digital audio signal processing. Wiley & Sons.

Pörisevä tietokone. morsetusta äänikortilla ja mikrofonilla

PL 9/Siltavuorenpenger 5 A, Helsingin yliopisto etunimi.sukunimi@helsinki.fi

Signaalien datamuunnokset. Näytteenotto ja pito -piirit

Multimedia. Mitä on multimedia? Mediatyypit. Siirtoformaatit. + Teksti + Grafiikka + Audio + Kuva + Video. Petri Vuorimaa 1

TTS. Puhesynteesi (tekstistä puheeksi, engl. text-tospeech,

1 PID-taajuusvastesuunnittelun esimerkki

Tiistai klo Jari Eerola

ELOKUVATYÖKALUN KÄYTTÖ ANIMAATION LEIKKAAMISESSA. Kun aloitetaan uusi projekti, on se ensimmäisenä syytä tallentaa.

Successive approximation AD-muunnin

U-REMIX USB RF 2 RF 1 POWER

Samurai helppokäyttöinen ohjelma melun ja värähtelyjen mittauksiin

S Teletekniikan perusteet

Käytä tätä opasta, jos kohtaat ongelmia tai sinulla on kysymyksiä Sony Headphones Connect -sovelluksen käytöstä.

Videon tallentaminen Virtual Mapista

YLEISRADION OHJELMAMATERIAALI (Tämä ohje koskee valmiita master-, lähetys- ja arkistonauhoja, ei työnauhoja)

Digi-tv vastaanottimella toteutetut interaktiiviset sovellukset

Ohjeita nauhaformaattien digitointiin D I G I W I K I - S E M I N A A R I

Digitaalinen signaalinkäsittely Johdanto, näytteistys

LABORATORIOTYÖ 2 A/D-MUUNNOS

ASM-kaavio: reset. b c d e f g. 00 abcdef. naytto1. clk. 01 bc. reset. 10 a2. abdeg. 11 a3. abcdg

Transkriptio:

Kuulon malleihin perustuva audiokoodaus, osa II Lähteet: Kahrs, Brandenburg, (Editors). (1998). Applications of digital signal processing to audio and acoustics Kluwer Academic. Bernd Edler. (1997). Low bit rate audio tools. MPEG meeting. Spanias et al. (2007). Audio signal processing and coding, Wiley & Sons Yand et al (2006). High-fidelity multichannel audio coding, Hindawi. Sisältö:! Todellisia koodausjärjestelmiä! MPEG-1, MPEG-2 BC! MPEG-2 AAC! Vertailua! MPEG-4! MPEG:in ulkopuoliset koodausjärjestelmät 1 Todellisia koodausjärjestelmiä: MPEG Audio 1 ja 2! MPEG (Moving Picture Experts Group) standardisoi videon ja audion kompressiotekniikoita Audiokoodaus 2! Kolme matalan bittinopeuden audiokoodausstandardia on valmistunut! MPEG-1 Audio suunniteltu soveltumaan useisiin tarpeisiin: tallentamiseen, digitaalisiin radiolähetyksiin, ja lähetyksiin tietoverkossa järjestelmä koostuu kolmesta eri tasosta (engl. layers 1, 2, 3) bittinopeustavoitteet: 192 kbit/s (layer 1), 128 kbit/s (layer 2), 64 kbit/s (layer 3:.mp3) tukee näytteistystaajuuksia 32 khz, 44.1 khz, ja 48 khz ja operoi 16-bit PCM sisääntulodatalla. moodeja: mono, stereo (bittiallokoinnissa molemmat kanavat huomioidaan, mutta koodataan toisistaan riippumatta), dual (täysin riippumattomat kanavat), joint stereo (stereokoodaus) MPEG Audio 1 ja 2 Audiokoodaus 3 1.1 MPEG ensimmäinen sukupolvi Audiokoodaus 4! MPEG-2 Backwards Compatible coding (BC) MPEG-1:n kanssa taaksepäin yhteensopiva monikanavainen koodaus (5.1 kanavaformaatti) koodaus myös matalammilla näytteistystaajuuksilla (16 khz asti) ei uusia koodausalgoritmeja! MPEG-2 Advanced Audio Coding (AAC:.aac,.m4a) toisen sukupolven audiokoodekki geneeriseen stereo- ja monikanavasignaalien koodaukseen, mukaanlukien 5.1 ja 7.1 konfiguraatiot (max. 48 kanavaa) ei taaksepäin yhtensopiva MPEG-1:n kanssa " MPEG-2 toi kaksi erilaista ja isoa lisäystä MPEG-1 koodekkien rinnalle MPEG-1 tasot 1 ja 2:! Pseudo-QMF-suodatinpankki 32 tasavalistä alikaistaa, kiinteä aika-/taajuusresoluutio (taso 1: koko ajan 8 ms aikakehys) 512 kertoiminen prototyyppisuodin (96dB vaimennus estokaistalla) Prototyyppisuodinta moduloidaan kosinifunktiolla kaistanpäästösuotimiksi! Psykoakustinen malli määrää bittiallokoinnin! Kvantisointi käyttäen blokki kompandointia kvantisoidaan 12:n näytteen lohkoissa, maksimiarvo skaalataan 1:een skaalaustekijät kvantisoidaan eksponentiaalisesti, 2 db välein 6:lla bitillä " 64 eri arvoa " 2 db x 64 " 120 db dynaaminen alue skaalatut arvot kvantisoidaan epätasavälisesti! Tason 2 parannuksia verrattuna tasoon 1 yksittäisiä pieniä lisäkeinoja bittiallokoinnin yms. pakkaamiseen erilainen aikakehyksiin jako (24 ms Layer 2:ssa, 8 ms Layer 1:ssä) bittiallokointi optimoidaan iteratiiviseen tapaan

MPEG ensimmäinen sukupolvi Audiokoodaus 5 MPEG ensimmäinen sukupolvi Audiokoodaus 6 MPEG-1 taso 3 (.mp3)! Kuva: lohkokaavio MPEG-1 tason 3 enkooderista MPEG-1 taso 3 (.mp3)! Piirteitä tasoista 1 ja 2! Lisää koodaustehokkuutta saavutettu paremman taajuuserottelun avulla koodattujen arvojen häviöttömän Huffman-koodauksen avulla! Hybridi-suodinpankki, vaihteleva aika-/taajuusresoluutio kytkeytyy kolmen vaihtoehdon välillä: 576, 216, tai 192 taajuusviivaa, selostettiin adaptiivisten suodinpankkien yhteydessä! Muita koodaustyökaluja erilainen kvantisointi, edelleen epätasavälinen skaalaustekijöiden kvantisointi blokki kompandoinnissa kvantisointikohinan kontrolli analysis by synthesis -periaatteella stereokoodaustekniikoita tukee M/S- ja intensiteetti-stereokoodauksen yhdistelmää Audiokoodaus 7 MPEG-2 BC (Backwards Compatible) MPEG-2 taaksepäin yhteensopiva monikanavakoodekki! 5.1 kanavaa: L(eft), R(ight), C(enter), Left/Right Surround + kuudes LFE = low frequency effect on 0.1 kanavaa.! Ominaisuuksia kehysformaatti on identtinen MPEG-1 bittivirran kanssa Enkooderi downmiksaa 5.1 kanavaisen sisääntulosignaalin kanavat stereoksi (saadaan MPEG-1 stereo yhteensopivuus) MPEG-2 dekooderissa 5.1 kanavaa saadaan yhdistämällä downmiksattu stereo ja lisäkanavat (Center, Left/Right surround) lisäkanavat siirretään MPEG-1:n ancillary data -kentässä kolme versiota, tasot 1, 2 ja 3, jotka vastaavat MPEG-1:stä MPEG-2 BC Audiokoodaus 8! Kuva: MPEG-2 monikanavainformaation siirto MPEG-1 bittivirrassa! Toinen lisäys MPEG-2:ssa monikavaisuuden lisäksi MPEG-1:seen on matalan näytteistystaajuuden koodaus Alle 32 khz näytteistystaajuudet Puheen ja matalalaatuisen audion koodaukseen Nopeudet luokkaa 64 16 kbit/s

Audiokoodaus 9 1.2 MPEG-2 NBC/AAC (.aac,.m4a)! Taustaa AAC: Advanced Audio Coding, NBC: non-backwards compatible MPEG-2 BC:n avulla 5 kanavaista ääntä ei voida lähettää alle 640 kbit/s Suunnittelutavoite: erottamaton äänenlaatu nopeudella 384kbit/s MPEG-2 toteutti 5 kanavaisen audiokoodauksen 320kbit/s! Kompleksisuusprofiilit määrittävät mitä algoritmeja käytetään Pääprofiili: kaikki työkalut käytössä matalan kompleksisuuden profiili (esim. ennustus ei ole käytössä, koska ei ole käytettävissä paljon muistia) skaalautuvan näytteistystaajuuden profiili! Algoritmillisia parannuksia Suodinpankin ikkunan muodon adaptointi Spektrikertoimien ennustus Ajallinen kohinan muokkaus (Temporal noise shaping, TNS) Kaistaleveyden ja bittinopeuden skaalausoperaatiot 2-osainen bittiallokointijärjestelmä Skaalautuvuus ja kompleksisuuden hallintatyökaluja MPEG-2 AAC Lohkokaavio:! Tason säätö optionaalinen ominaisuus (käytössä skaalautuvan näytteistyksen profiilissa) aikatason signaalin tasoa voidaan säätää esikaikuefektien vähentämiseksi! Suodinpankki MDCT: Quasi-stationääriset 2048 näytteen ikkunoissa, transientit 256 näytteen ikkunoissa. Adaptiivinen: kaksi erilaista ikkunamuotoa Resoluutio: 23 Hz @ 48kHz ja aikaresoluutio 2.6 ms Audiokoodaus 10 MPEG-2 AAC Audiokoodaus 11 1.3 Vertailua Audiokoodaus 12... Lohkokaavio (ks. selostus tekniikoista materiaalin osassa Koodaus 1)! Temporal noise shaping Säätää kvantisointikohinan ajallista muotoa ikkunan sisällä suodattamalla spektriä! Intensiteettikoodaus useille kanaville! M/S-stereokoodaus! Ennustus toisen asteen taaksepäin adaptiivinen ennustaja pidemmälle ikkunalle kullekin spektrikomponentille 16 khz taajuuksiin asti! Skaalaustekijät spektri jaetaan useisiin spektrikomponenttien ryhmiin, jotka jakavat yhden skaalaustekijän! Kvantisointi epätasavälinen kvantisointi, askeleen koko 1.5 db! Huffman-koodausta käytetään koodaamaan kvantisoitu spektridata häviötön koodaus! Lähde: [MPEG-4 dokumentti]! Tulokset ovat keskenään vertailukelpoisia vain kunkin paksuilla vaakaviivoilla erotetun ryhmän sisällä (kanavamäärä vaihtuu)! AAC tuottaa broadcast-laatua viisikanavaisesti 320 kbit/s

2 Audiokoodaus 13 Audiokoodaus 14» Luettavuuden helpottamiseksi MPEG-4 käsitellään omassa kappaleessaan, vaikka se loogisesti kuuluisikin edellisen alle! Standardi saatiin valmiiksi 2000! Koostuu perheestä koodausalgoritmeja, jotka tähtäävät eri bittinopeuksiin ja eri sovelluksiin! Poistaa kuilun puheenkoodauksen, kuulon malleihin perustuva koodauksen, ja signaalien synteesin väliltä bittinopeudet vaihtelevat välillä 200 bit/s 60 kbit/s per kanava! Ominaisuuksia skaalautuvuus erilaisille päätelaitteille objektipohjaisuus: päätelaite voi valita äänivirrasta vain osia dekoodattavaksi, ja voi uudelleen miksata tai manipuloida synkronisoituja ääniobjekteja hyvä koodaustehokkuus (bittinopeus vs. laatu) saavutetaan valitsemalla kullekin signaalille sopiva koodausalgoritmi! Taustamotivointia koodauksen dilemma:! Yleiskäyttöiset kuulon malleihin perustuva audiokoodekit saavutetaan hyvä laatu kaikentyyppisille audiosignaaleille bittinopeudella 64 kbit/s (MPEG-2 AAC) perustuu kuulon kannalta irrelevantin informaation poistamiseen puhetta tai yksittäisen soittimen ääntä ei voida koodata muita signaaleja ratkaisevasti pienemmällä bittinopeudella (AAC: puhekin vaatii 24 kbit/s)! Puhekoodekit, esim. ITU-T saavutetaan hyvä laatu puhesignaaleille yli 4 kbit/s nopeuksilla perustuu pääasiassa signaalin lähteen, puheentuottoelimistön, mallintamiseen ei oikein sovellu musiikkisignaalien koodaamiseen! Mahdollisia ratkaisuja 1. rajoitutaan tukemaan vain tietyntyyppistä audiomateriaalia 2. määritellään mielekäs yhdistelmä erilaisia koodekkityyppejä " joku valinta täytyy tehdä työkalut Audiokoodaus 15! Luonnollisen äänen koodaustyökalut Puhetyökaluja käytetään koodaan, lähettämään ja dekoodaamaan puhetta. Audiotyökaluja musiikkitallenteisiin, ympäristöääniin, ääniraitoihin. Parametrisiä työkaluja matalan bittinopeuden audio- ja puhekoodaukseen. Skaalaustyökaluja, joilla voidaan koodata ja lähettää audiota usealla eri bittinopeudella ilman tallentamista. Virherobusteja työkaluja, joilla lähetysvirheestä aiheutuva äänivirhe on havaintokyvyn kannalta vähemmän merkittävä.! Synteettisen äänen koodaustyökalut Tekstistä-puheeksi synteesityökalut. Erittäin matalan bittinopeuden sovellukset. Strukturoitu audio työkaluilla voidaan luoda yleiskuvaus synteettisestä äänestä ja luoda se dekooderilla. Audiokompositio työkalut ovat objektipohjaiseen koodaukseen, interaktiiviseen toimintaan ja audiovisuaaliseen synkronointiin.! Tarkastellaan näitä seuraavaksi tarkemmin työkalut! Kuva [Yang et al] MPEG-4 audiotyökalut! Luonnolliset puhe ja audiokoodaustyökalut:! Puhetyökalut Puhe 2-24 kbits/s bittinopeudella, sekä vaihtelevalla bittinopeudella. Sovellukset: mobiili, satelliittipuhelut, internet- puhelut, puhetietokannat. HVXC on erittäin matalan 2-4 kbit/s bittinopeuden koodaukseen, vaihtelevalla jopa 1.2 kbit/s CELP joko 8 tai 16 khz (ks. Seuraavan sivun kuvaus)! Yleiset audiotyökalut 1/2 Vaihtelee 6 kbit/s satoja kbit/s, mono, stereo, monikanava. Pohjana MPEG-2 AAC johon lisätty ominaisuuksia " MPEG-4 AAC - Koodekki käyttää psykoakustista mallia Audiokoodaus 16

CELP/HVXC puhekoodekit 1/3 Audiokoodaus 17 CELP/HVXC puhekoodekit 2/3 Audiokoodaus 18! Puheinformaatio on moduloituneena spektrin karkeaan muotoon Foneemit (äännetyypit) erottuvat toisistaan spektrimuotonsa perusteella korostuneita taajuusalueita nimitetään formanteiksi spektrin hienorakenne ei muuta puheen foneemisisältöä tieto äänteen soinnillisuudesta ja äänenkorkeus välitetään erikseen! Lähdemalli perustuu malliin ihmisen puheentuottoelimistöstä. Tietyn tyyppiset signaalit ovat mahdollisia, ei esim. äärettömän nopeat laajat muutokset soinnillinen / soinniton heräte + ääniväylä, jota mallinnetaan suodattimella muuttaen ääniväylän muotoa (esim. kielen ja leuan asentoa) foneemi vaihtuu! Kuulomalli kvantisointikohinan spektrin muodon pitäisi olla samanlainen sisääntulevan signaalin kanssa implementoitu spektriä painottavalla suodattimella! Bittinopeudet CELP: 8/16 khz, 4 kbit/s (kelvollinen laatu) 24 kbit/s (erittäin hyvä laatu) HVXC, 8 khz, 1.4 4 kbit/s! Matala-asteinen suodatin sopii hyvin spektrin karkean muodon mallintamiseen, siis koodaamaan foneemitiedon käytetään ns. ennustavia suotimia (LPC: linear predictive coding) käytännössä käytetään lähes aina IIR-suodattimia, joissa on vain napoja (ei lainkaan nollia, osoittaja = 1) suodatin on muotoa H(z) = 1 / A(z), missä A(z) on z:n polynomi tämä johtuu siitä, että korostuneiden taajuusalueiden, formattien, ajatellaan välittävän olennaisen foneemi-informaation estimoitavan suodattimen parametrimäärää saadaan pienemmäksi! Kuva: signaalinpätkän magnitudispektri, sekä siitä LPC-analyysillä estimoitu spektrin karkea muoto. Piikit formanttitaajuuksilla CELP/HVXC puhekoodekki 3/3! CELP Enkooderin lohkokaavio [Edler97]! CELP Dekooderi herätesignaalin generointi perustuu koodikirjaan Audiokoodaus 19 työkalut Audiokoodaus 20! Yleiset audiotyökalut 2/2 (jatkuu sivulta 16) Matalan latenssin koodaus on myös spesifioitu. Korkealaatuinen koodaustyökalu reaaliaikaiseen kommunikaatioon, joka tukee audiosignaaleja. Skaalautuvuustyökalu (BSAC), joka mahdollistaa bittivirran enkoodauksen kerroksittain, jossa jokainen lisäkerros tuo aina 1kbit/s lisää koodauslaatua peruskerrokseen + aiempiin kerroksiin.! Parametriset audiotyökalut Enkooderi voi pakata audiota erittäin matalalla bittinopeudella. Esim. HILN koodekki hajottaa sisääntulosignaalin audio-objekteihin, joita kuvaillaan parametrisesti (ks seuraava sivu) Dekooderi voi muokata äänenkorkeutta ja toiston nopeutta ilman lisäprosessontijärjestelmiä.! Skaalaustyökalut Skaalausta tapahtuu eri paikoissa MPEG-4 standardia. Bittivirta voidaan koostaa perusbittivirrasta, sekä lisävirroista, jotka sisältävät lisäinformaatiota, jonka avulla perusbittivirran signaalin laatua voidaan tarkentaa. Esim. CELP -koodekissa on 2 bittivirtaa (matalat taajuudet < 4kHz, sekä 4-8 khz) Myös kompleksisuus skaalautuu esim. dekooderin laskentatehon mukaan.

Parametrinen HILN koodekki 1/3 Audiokoodaus 21 Parametrinen HILN koodekki 2/3 Audiokoodaus 22! Lähdemallit (HILN: harmonic, individual lines, noise) harmonisia ääniä yksittäisiä sinikomponentteja kohinaa yhdistelmä yllä olevista! Kuva: dekooderi [Edler97]! Kuva: enkooderi [Edler97] Parametrinen HILN koodekki 3/3 Audiokoodaus 23 työkalut Audiokoodaus 24! Kaksi toimintamoodia harmonisia ja kohinakomponentteja soveltuu puheenkoodaukseen 2 4 kbit/s bittinopeuksilla yksittäisiä sinikomponentteja vähemmän kompleksisten musiikkisignaalien koodaukseen, (esim. yksittäinen instrumentti) nopeuksilla 4 16 kbit/s yhdistelmä molemmista moodeista syntaksi tukee, määritellään transitiokohta automaattinen moodin valitsin! Parametrisen koodekin mahdollistamia lisätoiminnallisuuksia toistonopeuden muuntelu vaihtamalla synteesin ajastusta äänenkorkeuden muuntelu skaalaamalla taajuusparametreja puheelle spektrin karkea muoto pidetään paikallaan, jolloin pään (ääniväylän) dimensioiden aistimuksellinen kutistuminen voidaan välttää! Bittinopeudet: puheelle 2 4 kbit/s, ei-kompleksinen musiikki 4 16 kb/s! Yleensä enkooderin ei kannata toteuttaa kaikkia työkaluja, siksi on määritelty erilaisia profiileja Matalan bittinopeuden synteesiprofiili (TTS, sekä wavetable synteesi) Puheprofiili (puhekoodekit, kuten CELP, HVXC) Skaalautuva audioprofiili (supersetti edellisistä profiileista) Pääprofiili Luonnollisen audion sekä synteesiaudion työkalut

Audiokoodaus 25! Objektipohjaisuus ääniä voidaan miksata ja tuottaa päätelaitteessa, audio-objekti voidaan sijoittaa avaruudellisesti haluttuun paikkaan binääriformaatti äänimaisemien määrittelemiseen (engl. binary format for scene description): käytetään selostamaan miten ääniobjektit miksataan, kunkin efektit, yms. post-produktio sisältöön perustuva interaktiivisuus (MPEG-4:n perusfilosofioita) esim. virtuaalitodellisuudessa äänilähteestä voi kävellä kauemmaksi valikoiva dekoodaus: äänisignaalin eri osat voidaan koodata erikseen, ja silti synkronisoida yhteen. Tämä mahdollistaa signaalin eri osien koodaamisen eri algorimeilla, ja valikoivan dekoodaamisen 2.3 Koodaustekniikoiden yhdistely! Kohdesignaalina esim. puhe + taustamusiikki! Signaalin osien erillinen koodaus voi parantaa suorituskykyä Audiokoodaus 26! Eri osat oltava erillisinä signaaleina äänilähteiden automaattinen separointi polyfonisesta signaalista onnistuu nykytekniikalla ainoastaan hyvin yksinkertaisissa tapauksissa " signaalin eri osat on pidettävä erillään tuotantovaiheessa koodekin valinta kullekin signaalille voi tapahtua käsin tai automaattisesti työkalut (sivun 16 kuva kokonaiskuva toistettuna) Audiokoodaus 27 2.5 Tekstistä puheeksi synteesi Audiokoodaus 28! Standardi sisältää määrittelyn prosodisista parametreista, joilla puheeseen saadaan ääntämyksellistä elävyyttä yms. puheen nopeus ja äänenkorkeus puhujan ikä ja sukupuoli voidaan määritellä eri kielille ja aksenteille on omat koodinsa kansainvälisesti kattava joukko foneemeja, joille on kullekin omat koodinsa huulisynkronisointi kuvan kanssa on mahdollista kasvojen animaatioparametrit voidaan välittää

2.6 Strukturoitu audio (SA)! Audion koodaus korkealla semanttisella tasolla! SA-dekooderi: muusiikin ja ääniefektien synteesi Ääntä ei määritetä näytteistettynä datana, vaan ohjelmana, joka tuottaa ääntä ajattaessa (nk. Kolmogorov enkoodaus). Audiokoodaus 29! Äänidata structured audio orchestra language instrumenttiäänten synteesimenetelmien kuvauskieli (vrt. Csound,NetSound) mitään yhtä synteesimenetelmää ei ole valittu, vain niiden kuvauskieli käytettävissä peruselementtejä, kuten oskillaattoreita ja suotimia structured audio sample bank format ääniä voidaan esittää myös aaltomuotodatan avulla perustana ns. wavetable sampling synteesi (syntetisaattoreissa käytetty) suunnattu halvoille ja yksinkertaisille päätelaitteille! Nuotti- ja kontrollidata: structured audio score language formaatti, jolla nuottidata ja äänten kontrolliparametrit esitetään käytetään ohjaamaan ääniä, jotka on määritelty yllä mainituilla tavoilla vrt. MIDI, joka on myös otettu mukaan vaihtoehtoiseksi ja yksinkertaisemmaksi kuvausformaatiksi Dekooderi Audiokoodaus 30! MPEG-4 tukee synteettisen ja luonnollisen koodauksen hybridiä dekooderissa voidaan yhdistää korkean tason semanttisesta tiedosta syntetisoitua ja koodattua ääntä! Ääniä voidaan miksata, tuottaa ja avaruudellisesti lokalisoida terminaalissa binääriformaatti äänimaisemien määrittelyyn mahdollistaa selostuksen miksauksesta, efekteistä, yms. post-produktiosta omia efektejä voi määritellä SAFX:n orkestrointikielelllä 2.7 Avoimia kysymyksiä Audiokoodaus 31! Enkooderien optimointi jatkuu valittujen koodekkityyppien puitteissa edelleen mahdollista, koska vain dekooderi on speksattu! Optimaalisen koodaustekniikan valinta automaattisesti kulloisellekin signaalille! Automaattinen signaalien separointi, jotta voidaan käyttää sopivaa koodekkia kullekin ääniobjektille Audiokoodaus 32 Kokonaiskuva MPEG:stä! MPEG-1 VHS-laatu video-cd mp3 audio! MPEG-2 DVD-laatu DVD, digi-tv boxit AAC audio BC taaksepäin yhteensopiva (MPEG-1) monikanadatalle! MPEG-4 Koodaustyökalut puhesynteesistä monikanava-audioon skaalautuva laatu ja kompleksisuus skaalautuva jakelu: matkapuhelin vs. satelliitti-tv! MPEG-7: sisällön kuvaus, MPEG-21 jakelu: oikeuksien hallinta ei koodausstandardeja

3 Onko MPEG:n ulkopuolella elämää? Audiokoodaus 33! Kehittyneimmät kuulomalleihin perustuvat audiokoodekit on rakennettu MPEG Audion viitekehyksessä! Eri yhtiöiden tuotteissa on omia koodekkivariaatioitaan:! SONY ATRAC, ATRAC3, ATRAC3plus, ATRAC Advanced Lossless ATRAC: (MiniDisc) Tavoite: CD-laatu 146 kb/s bittinopeudella Hybridi: 3-kaistainen QMF + MDCT (32 / 128 / 256 taajuusviivaa) Adaptiivinen suodatinpankki 1.45 / 2.9 / 11.6ms Blokki kompandointi ATRAC3 Hybridi, 4-kaistainen QMF + MDCT (256 taajuusviivaa) Tonaaliset/Ei-tonaaliset komponentit koodataan erikseen ATRAC3plus Hybridi, 16-kaistainen QMF + MDCT (128 kaistaa) 64 kbit/s koodauksella vastaava laatu kuin 128kbit/s MP3 ATRAC Advanced Lossless Skaalautuva kompressio: Sisältää ATRAC3plus enkoodatun datan lisäksi erotuksen alkuperäiseen dataan. Pakkaussuhde 30%-80%. Onko MPEG:n ulkopuolella elämää?! AT&T: perceptual audio coder (PAC) MDCT-suodatinpankki, 128/1024 taajuusviivaa Audiokoodaus 34! Dolby: AC-3 koodaus ( Dolby Digital / Dolby SR D ) Laajasti käytössä 5.1 kanavakoodauksessa Näytteistystaajuus 32, 44, 48 khz, bittinopeus 32-640 kbits/s Taajuusselektiivinen MS / intensiteetti-monikanavakoodaus MDCT-suodatinpankki, Kaiser-Bellel Derived (KDV) prototyyppisuodin Kertomet kvantisoidaan eksponentti/mantissa tyyppisesti.! Dolby Digital Plus (Enhanded AC-3) 13.1 kanavaa, 6,144Mbits/s.! MP3Pro: perustuu MPEG 1 layer 3:een lisäksi korkeat taajuudet koodataan karkeasti ja rekonstruoidaan käyttäen myös matalampia taajuuksia Onko MPEG:n ulkopuolella elämää? Audiokoodaus 35! Ogg Vorbis: kehitetty eteenpäin MPEG 1 layer 2:sta avoimen lähdekoodin koodekki 255 kanavaa maksimi aika/taajuus-esitys: MDCT vektorikvantisointi taustakohinamalli välttää useille koodekeille tyypilliset liverrys - artefaktat matalilla bittinopeuksilla! Windows Media Audio aika/taajuus-esitys: MDCT, 5 eri ikkunan pituutta! Noudattelevat suurin piirtein samoja peruslinjoja kuin MPEG-koodekit