Digitaalinen audio & video I Johdanto Digitaalinen audio + Psykoakustiikka + Äänen digitaalinen esitys Digitaalinen kuva + JPEG 1
Johdanto Multimediassa hyödynnetään todellista ääntä, kuvaa ja videota Lähteet on ensin muutettava signaaleiksi mikrofoni, kamera, videokamera Analogiset signaalit on muunnettava digitaalisiksi näytteistys, A/D-muunnos Usein informaatio halutaan vielä pakata 2
Johdanto (jatk.) Pakkausmenetelmä voi olla hukkaamaton (lossless) tai hukkaava (lossy) Pakattua tietoa voidaan tallentaa ja siirtää Pakattu tieto pitää purkaa ennen käyttöä Digitaalinen informaatio pitää myös muuttaa analogiseksi Tämän jälkeen signaali voidaan soittaa tai näyttää käyttäjälle 3
Digitaalisen audion sovellusalueet Tietokoneella tuotettu ääni Äänen tallennus ja käsittely Digitaalinen viestintä Vastaajapalvelu Puhesyntetisaattori Puheentunnistus Tietokoneistettu puhelinpalvelu Tiedon esittäminen äänenä (Sonification) 4
Psykoakustiikka Taajuusalue Dynaaminen alue Taajuusominaisuudet Ajan vaikutus Maskaus Vaihe Binauraalinen kuulo ja lokalisaatio 5
Taajuusalue Ihmisen kuuloalue on noin 20 Hz - 20 khz Kuulo heikkenee iän mukana Äänen korkeus ei ole suoraan verrannollinen äänen taajuuden kanssa 6
Dynaaminen alue Kipurajalla äänen amplitudi voi olla 1,000,000 kertaa kuulorajalla olevan äänen amplitudi Mittana käytetään desibeliä db = 20 log10 (A/B) Kuuloraja on 0 db ja kipuraja on n. 100-120 db Kuulo on aistihavainto, jota ei voi suoraan mitata kuultu äänenkorkeus muuttuu amplitudia muutettaessa voimakkuus riippuu äänen taajuudesta 7
8
Taajuusominaisuudet Luonnollinen ääni sisältää useiden taajuuksien siniaaltoja Taajuudet voidaan laskea Fourier-analyysin avulla Luonnollisten äänten taajuudet ovat tyypillisesti perustaajuuden monikertoja Korva on herkkä spektrin laaksoille ja kukkuloille Selkeästi erottuvia kohtia kutsutaan formanteiksi Esim. vokaalit erotetaan formanttien avulla 9
Klarinetin ääni 10
Taajuusmuoto 11
Ajan vaikutus Soittimien äänillä on kolme osaa: Attack, Steady-State ja Decay Yksinkertaisessa synteesissä generoidaan ääni taajuuskomponenttien avulla ja muutetaan voimakkuutta eri vaiheissa Oikeasti spektrin taajuuskomponenttien väliset suhteet muuttuvat ajan Kuulo on erityisen herkkä isku-vaiheessa 12
Maskaus Äänet voivat peittää toisensa osittain tai kokonaan Myös keskinäiset muutokset ovat mahdollisia Tietyllä taajuudella esiintyvä ääni nostaa kuulorajaa laajemmalla taajuusalueella Taajuuksien pitää olla yli kriittisen rajan päässä toisistaan, jotta äänet kuultaisiin erillisinä Kriittinen raja kasvaa taajuuden kasvaessa 13
Maskaus (jatk.) Amplitudi Taajuus 14
Vaihe Saman taajuuksisten äänten välillä voi olla vaihe-ero 180 asteen vaihe-ero kumoaa äänet keskenään On olemassa todisteita, että ihminen pystyy erottamaan äänten vaihe-eron 15
Binauraalinen kuulo ja lokalisaatio Ihminen pystyy määrittämään äänilähteen sijainnin voimakkuus, aika-ero, taajuus Kallo, korvalehdet ja kuuloelimet suodattavat ääntä Lisäksi äänten heijastumien vaikuttaa merkittävästi Äänilähteet on sijoitettava samaan paikkaan kuvallisen informaation kanssa 16
Äänen digitaalinen esitys Koodaus aikaulottuvuudessa Muunnokset Lineaarinen ennustus Parametrinen koodaus Digitaalisen audion siirto 17
Koodaus aikaulottuvuudessa Äänestä otetaan näytteitä näytetaajuudella Näytetaajuuden pitää olla vähintään kaksi kertaa maksimitaajuus (Nyquistin taajuus) Yleisiä näytetaajuuksia: 8, 44.1 ja 48 khz Signaalin amplitudi näytteenottohetkellä muutetaan numeroarvoksi 18
Laskostuminen (a) Sinisignaali (b) 1 x näytteenottotaajuus (c) 1,5 x näytteenottotaajuus (d) 2 x näytteenottotaajuus 19
Pulse Code Modulation (PCM) 20
Koodaus aikaulottuvuudessa (jatk.) Näytteiden otto aiheuttaa kvantisointivirheen Jokainen bitti parantaa signaalikohina-suhdetta: 20 log 10 2 = 6 db Yleisesti käytetään 16 bittiä 16 * 6 db = 96 db Ihmisen dynaaminen alue on kuitenkin enemmän (n. 120 db) 21
Koodaus aikaulottuvuudessa (jatk.) Muunnokset analogisten ja digitaalisten signaalien välillä tehdään A/D ja D/A-muuntimilla Lisäksi tarvitaan suodatusta Anti-alias ja Reconstruction -suodattimet Korkeatasoisissa järjestelmissä ne ovat virhelähde Ongelma voidaan ratkaista ylinäytteistyksellä (oversampling) Myös tietokone aiheuttaa helposti ylikuulumista 22
Muut koodausmenetelmät Deltamodulaatiossa (DPCM) koodataan vain peräkkäisten näytteiden välinen ero Adaptiivisessa deltamodulaatiossa (ADPCM) askelkoko voi muuttua 23
Muut koodausmenetelmät (jatk.) Puheessa käytetään yleisesti A-lakia (A = 87,6) y= Ax 1 lna, 0 x 1 A 1 ln Ax 1 lna, 1 A x 1 ja µ-lakia (µ = 255) y= ln 1 x ln 1, 0 x 1 24
Muunnokset Muunnosten avulla signaalit voidaan esittää toisessa esitysmuodossa Tavoitteena on saada signaalien siirto tehokkaammaksi ja robustisemmaksi 25
Fourier-muunnos Fourier-muunnoksen kertoimet esittävät signaalia taajuus-ulottuvuudessa Stationaariset signaalit voidaan esittää tarkasti Fourier-kertoimien avulla Muuttuvien signaalien tapauksessa käytetään diskreettiä Fourier-muunnosta Muunnos tehdään käyttäen Fast Fourier Transformation (FFT) -algoritmia 26
Taajuuskanavat Myös maskaus-efektiä voidaan hyödyntää koodauksessa Signaali jaetaan taajuusalueisiin, jotka koodataan erikseen (Subband Coding) Esim. Mini Disc -levyt (Sony), DCC-kasetit (Philips) ja MP3 Menetelmää on hyödynnetty myös puheen koodauksessa ja tunnistuksessa 27
MPEG-audio MPEG-audio hyödyntää Subband-koodausta Signaali jaetaan 32 kanavaan (Layer 1) Jako tehdään 384:n näytteen ryhmälle kerrallaan FFT-muunnoksen avulla erotellaan puhdasta sinivärähtelyä ja kohinaa sisältävät kanavat Vain kiinnostavat kanavat koodataan Kanavaa kohden käytettävä bittimäärä vaihtelee Layer I yli 128 kbps / kanava 28
Begin Subband analysis FFT analysis Quantization of samples Scale factor calculation Coding of scale factors Calculation of masking and required bit allocation Determination of nontransmitted subbands Adjustment to fixed bit-rate Coding of samples Coding of bit allocation Formatting and transmission End 29
MPEG-audio (jatk.) Layer 2 noin 128 kbps / kanava 1152 näytteen ryhmä 3 skaalauskerrointa 36 taajuuskanavaa Layer 3 (MP3) noin 64 kbps / kanava suodatinpankki Huffmann-koodaus koodaukseen käytettävien bittien lukumäärää voi vaihdella 30
Code-Excited Linear Prediction (CELP) Puhetta voidaan myös koodata synteesin avulla Dekoodeerin vastaanottaa ohjausdatan ja syöttää sen synteesisuodattimeen Synteesisuodatin matkii puhetta käyttäen lineaarista ennustusta yksinkertainen ohjaussignaali tuottaa puhetta Enkooderi kokeilee erilaisia syötesignaaleja ja valitsee lähinnä koodattavaa puhenäytettä olevan syötesignaalin 31
JPEG Tavoitteet Arkkitehtuurit DCT-koodaus ja kvantisointi Staattinen koodaus Hukkaamaton koodaus Tehokkuus 32
Tavoitteet Kompressiosuhde / kuvanlaatu voidaan valita Sopii mihin tahansa kuviin Sekä ohjelmisto että laitteisto Neljä eri moodia: sekventiaalinen koodaus (alkuperäinen järjestys) progressiivinen koodaus (monivaiheinen koodaus) hukkaamaton koodaus (täydellinen toisto) hierarkinen koodaus (monta eri resoluutiota) 33
Arkkitehtuurit Hukkaavissa moodeissa käytetään DCTkoodausta 8 x 8 pikselin lohkoille Sekventiaalisessa moodissa lohkojen DCTkertoimet lähetään lohko kerrallaan Progressiivisessa moodissa kertoimet talletetaan muistiin ja lähetetään ryhmissä Hierarkisessa moodissa valitaan erilaisia resoluutiota koodattavaksi 34
Sekventiaalinen JPEG 35
Progressiivinen JPEG 36
Hierarkinen JPEG 37
Hukkaamaton JPEG 38
DCT-koodaus ja kvantisointi Kertoimet voidaan esittää matriisina Kvantisointi tehdään kvantisointitaulukon määräämän taulukon mukaisesti Kertoimet järjestetään Zig-Zag muotoon Näin nolla-kertoimet saadaan koodin loppuun Run-Length -koodaus eliminoi nollat 39
DCT-koodaus 40
DCT-kertoimet 41
Staattinen koodaus Käytössä joko Huffman tai aritmeettinen koodaus Huffman koodaus edellyttää erillistä taulukkoa Aritmeettinen koodaus ei tarvitse taulukkoa, mutta vaatii enemmän laskentaa Lisäksi aritmeettisen koodauksen kompressioaste 5-10 % parempi 42
Hukkaamaton koodaus Hukkaamaton koodaus käyttää ennustusta Käytössä on seitsemän eri vaihtoehtoa kuinka monta ja mitä pikseliä käytetään Ennustava koodaus pääsee kompressiosuhteeseen 2:1 43
Tehokkuus 0,25-0,5 bpp: kohtalainen - hyvä laatu 0,5-0,75 bpp: hyvä - erittäin hyvä laatu 0,75-1,5 bpp: erittäin hyvä laatu 1,5-2,00 bpp: ei erotu alkuperäisestä 44