Digitaalinen Audio & Video I



Samankaltaiset tiedostot
Digitaalinen audio & video I

Digitaalinen audio & video, osa I. Johdanto. Digitaalisen audion sovellusalueet. Johdanto. Taajuusalue. Psykoakustiikka. Johdanto Digitaalinen audio

Digitaalinen audio & video, osa I

Mitä on multimedia? Multimedia. Jatkuva-aikainen media. Yleisimmät mediatyypit. Jatkuvan median käsittelyvaiheet. Interaktiivuus

Multimedia. Mitä on multimedia? Mediatyypit. Siirtoformaatit. + Teksti + Grafiikka + Audio + Kuva + Video. Petri Vuorimaa 1

Multimedia. Mitä on multimedia? Mediatyypit. Siirtoformaatit. Teksti Grafiikka Audio Kuva Video

Digitaalinen media. Petri Vuorimaa

Mul$media. Jyry Suvilehto Alkuperäiset kalvot Petri Vuorimaa

Multimedia. Petri Vuorimaa

Kuvan pakkaus JPEG (Joint Photographic Experts Group)

AV-muotojen migraatiotyöpaja - ääni. KDK-pitkäaikaissäilytys seminaari / Juha Lehtonen

T DSP: GSM codec

Johdanto tieto- viestintäteknologian käyttöön: Äänitystekniikka. Vfo135 ja Vfp124 Martti Vainio

ELEC-C5070 Elektroniikkapaja (5 op)

Multimedia. Mitä on multimedia? Mediatyypit. Teksti Grafiikka Audio Kuva Video

Signaalien datamuunnokset. Digitaalitekniikan edut

Signaalien datamuunnokset

1. Perusteita Äänen fysiikkaa. Ääniaalto. Aallonpituus ja amplitudi. Taajuus (frequency) Äänen nopeus

Puheenkoodaus. Olivatpa kerran iloiset serkukset. PCM, DPCM ja ADPCM

AV-muotojen migraatiotyöpaja - video. KDK-pitkäaikaissäilytys seminaari / Juha Lehtonen

Ongelma 1: Onko datassa tai informaatiossa päällekkäisyyttä?

Mono- ja stereoääni Stereoääni

Alla olevassa kuvassa on millisekunnin verran äänitaajuisen signaalin aaltomuotoa. Pystyakselilla on jännite voltteina.

Monikanavaäänen perusteet. Tero Koski

LABORATORIOTYÖ 2 A/D-MUUNNOS

puheen laatu kärsii koodauksesta mahdollisimman vähän. puhe pakkautuu mahdollisimman pieneen määrään bittejä.

LABORATORIOTYÖ 2 A/D-MUUNNOS

Juha Henriksson. Digitaalinen äänentallennus Dr. Juha Henriksson Finnish Jazz & Pop Archive

Successive approximation AD-muunnin

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

Puhetie, PCM järjestelmä, johtokoodi

1 Diskreettiaikainen näytteistys. 1.1 Laskostuminen. Laskostuminen

Dynamiikan hallinta Lähde: Zölzer. Digital audio signal processing. Wiley & Sons, Zölzer (ed.) DAFX Digital Audio Effects. Wiley & Sons, 2002.

THE audio feature: MFCC. Mel Frequency Cepstral Coefficients

Muuntavat analogisen signaalin digitaaliseksi Vertaa sisääntulevaa signaalia referenssijännitteeseen Sarja- tai rinnakkaismuotoinen Tyypilliset

YLEISIMMÄT MIKROFONITYYPIT

Kompleksiluvut signaalin taajuusjakauman arvioinnissa

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

Digitaalitekniikan matematiikka Luku 1 Sivu 1 (19) Johdatus digitaalitekniikkaan

Virheen kasautumislaki

JOHDATUS TEKOÄLYYN TEEMU ROOS

6. Analogisen signaalin liittäminen mikroprosessoriin Näytteenotto analogisesta signaalista DA-muuntimet 4

Laskuharjoitus 4 ( ): Tehtävien vastauksia

Digitaalinen audio

JOHDATUS TEKOÄLYYN TEEMU ROOS

ELEC-C Sovellettu digitaalinen signaalinkäsittely. Äänisignaalien näytteenotto ja kvantisointi Dither Oskillaattorit Digitaalinen suodatus

Surround. Äänitys ja miksaus LFE-kanava 5.1. Mitä tarvitaan? 5 pääkaiutinta aktiivikaiuttimet passiivikaiuttimet + surround-vahvistin

5.1 äänentoisto ja kotiteatteriformaatit

SGN-4200 Digitaalinen audio

11. kierros. 1. Lähipäivä

Tiedonkeruu ja analysointi

JOHDATUS TEKOÄLYYN TEEMU ROOS

Tuotetiedot C: Asennus

Spektri- ja signaalianalysaattorit

Digitaalinen signaalinkäsittely Johdanto, näytteistys

IIR-suodattimissa ongelmat korostuvat, koska takaisinkytkennästä seuraa virheiden kertautuminen ja joissakin tapauksissa myös vahvistuminen.

SGN-1200 Signaalinkäsittelyn menetelmät Välikoe

JOHDATUS TEKOÄLYYN TEEMU ROOS

Videotekniikka. Videosignaali Kamerasensorit Värioppi Väritelevisio Laitteisto. Petri Vuorimaa 1

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

JOHDATUS TEKOÄLYYN TEEMU ROOS

Yleistä. Digitaalisen äänenkäsittelyn perusteet. Tentit. Kurssin hyväksytty suoritus = Harjoitustyö 2(2) Harjoitustyö 1(2)

Mitä on signaalien digitaalinen käsittely

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

Tietoliikennesignaalit & spektri

5 Akustiikan peruskäsitteitä

Kuulohavainnon perusteet

Matlab-tietokoneharjoitus

Kojemeteorologia. Sami Haapanala syksy Fysiikan laitos, Ilmakehätieteiden osasto

KOHINA LÄMPÖKOHINA VIRTAKOHINA. N = Noise ( Kohina )

Numeeriset menetelmät

Kuvan- ja videontiivistys. Mikko Nuutinen

Synteesi-analyysi koodaus

Onnittelut PRO-JECT-DA-muuntimen hankkimisesta. Lue huolellisesti tämä ohje, jotta kytket laitteen oikein ja saat siten parhaan äänenlaadun.

Flash AD-muunnin. Ominaisuudet. +nopea -> voidaan käyttää korkeataajuuksisen signaalin muuntamiseen (GHz) +yksinkertainen

Monikanavaääni. Antti Silvennoinen Freelance ääni- ja valosuunnittelija. copyright Antti Silvennoinen 2009

9 Multimedian elementtejä: ääni Webissä

1. Määritä pienin näytelauseen ehdon mukainen näytetaajuus taajuus seuraaville signaaleille:

Algoritmit 2. Luento 9 Ti Timo Männikkö

A/D-muuntimia. Flash ADC

Radioamatöörikurssi 2016

Kanavointi ja PCM järjestelmä

Tiedonkeruu ja analysointi

Kotiteatteriformaatit ja 5.1 Äänentoisto

Kapeakaistainen signaali

1 Määrittele seuraavat langattoman tiedonsiirron käsitteet.

Äänen eteneminen ja heijastuminen

Spektrianalysaattori. Spektrianalysaattori

JOHDATUS TEKOÄLYYN TEEMU ROOS

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

SGN Signaalinkäsittelyn perusteet Välikoe Heikki Huttunen

Tekniikka ja liikenne (5) Tietoliikennetekniikan laboratorio

S Tietoliikennetekniikan perusteet. Jukka Manner Teknillinen korkeakoulu

KON-C3004 Kone- ja rakennustekniikan laboratoriotyöt Tiedonkeruu ja analysointi Panu Kiviluoma

SGN-1200 Signaalinkäsittelyn menetelmät Välikoe

Numeeriset menetelmät TIEA381. Luento 14. Kirsi Valjus. Jyväskylän yliopisto. Luento 14 () Numeeriset menetelmät / 55

Tuntematon järjestelmä. Adaptiivinen suodatin

Qosmio: Kuule ero. entistä parempi kuuntelukokemus

ELEC-C5070 Elektroniikkapaja. Laboratoriotyö 3 A/D- ja D/A-muuntimet

Tiedonsiirron perusteet ja fyysinen kerros. Tietoliikenne kohtaa todellisuuden OSI-mallin alimmainen kerros Kirja sivut 43-93

Transkriptio:

Digitaalinen Audio & Video I Johdanto Digitaalinen audio Psykoakustiikka Äänen digitaalinen esitys Monikanavaääni ja äänen digitaalinen siirto Digitaalinen kuva Diskreetti kosiinimuunnos JPEG 1

Johdanto Multimediassa hyödynnetään todellista ääntä, kuvaa ja videota Lähteet on ensin muutettava signaaleiksi mikrofoni, kamera, videokamera Analogiset signaalit on muunnettava digitaalisiksi näytteistys, A/D-muunnos Usein informaatio halutaan vielä pakata 2

Johdanto (jatk.) Pakkausmenetelmä voi olla hukkaamaton (lossless) tai hukkaava (lossy) Pakattua tietoa voidaan tallentaa ja siirtää Pakattu tieto pitää purkaa ennen käyttöä Digitaalinen informaatio pitää myös muuttaa analogiseksi Tämän jälkeen signaali voidaan soittaa tai näyttää käyttäjälle 3

Digitaalisen audion sovellusalueet Tietokoneella tuotettu ääni Äänen tallennus ja käsittely Digitaalinen viestintä Vastaajapalvelu Puhesyntetisaattori Puheentunnistus Tietokoneistettu puhelinpalvelu Tiedon esittäminen äänenä (Sonification) 4

Psykoakustiikka Taajuusalue Dynaaminen alue Taajuusominaisuudet Ajan vaikutus Maskaus Vaihe Binauraalinen kuulo ja lokalisaatio 5

Taajuusalue Ihmisen kuuloalue on noin 20 Hz - 20 khz Kuulo heikkenee iän mukana Äänen korkeus ei ole suoraan verrannollinen äänen taajuuden kanssa 6

Dynaaminen alue Kipurajalla äänen amplitudi voi olla 1,000,000 kertaa kuulorajalla olevan äänen amplitudi Mittana käytetään desibeliä db = 20 log10 (A/B) Kuuloraja on 0 db ja kipuraja on n. 100-120 db Kuulo on aistihavainto, jota ei voi suoraan mitata kuultu äänenkorkeus muuttuu amplitudia muutettaessa voimakkuus riippuu äänen taajuudesta 7

8

Taajuusominaisuudet Luonnollinen ääni sisältää useiden taajuuksien siniaaltoja Taajuudet voidaan laskea Fourier-analyysin avulla Luonnollisten äänten taajuudet ovat tyypillisesti perustaajuuden monikertoja Korva on herkkä spektrin laaksoille ja kukkuloille Selkeästi erottuvia kohtia kutsutaan formanteiksi Esim. vokaalit erotetaan formanttien avulla 9

Klarinetin ääni 10

Taajuusmuoto 11

Ajan vaikutus Soittimien äänillä on kolme osaa: Attack, Steady-State ja Decay Yksinkertaisessa synteesissä generoidaan ääni taajuuskomponenttien avulla ja muutetaan voimakkuutta eri vaiheissa Oikeasti spektrin taajuuskomponenttien väliset suhteet muuttuvat ajan Kuulo on erityisen herkkä isku-vaiheessa 12

Maskaus Äänet voivat peittää toisensa osittain tai kokonaan Myös keskinäiset muutokset ovat mahdollisia Tietyllä taajuudella esiintyvä ääni nostaa kuulorajaa laajemmalla taajuusalueella Taajuuksien pitää olla yli kriittisen rajan päässä toisistaan, jotta äänet kuultaisiin erillisinä Kriittinen raja kasvaa taajuuden kasvaessa 13

Maskaus (jatk.) Amplitudi Taajuus 14

Vaihe Saman taajuuksisten äänten välillä voi olla vaihe-ero 180 asteen vaihe-ero kumoaa äänet keskenään On olemassa todisteita, että ihminen pystyy erottamaan äänten vaihe-eron 15

Binauraalinen kuulo ja lokalisaatio Ihminen pystyy määrittämään äänilähteen sijainnin voimakkuus, aika-ero, taajuus Kallo, korvalehdet ja kuuloelimet suodattavat ääntä Lisäksi äänten heijastumien vaikuttaa merkittävästi Äänilähteet on sijoitettava samaan paikkaan kuvallisen informaation kanssa 16

Äänen digitaalinen esitys Koodaus aikaulottuvuudessa Muunnokset Lineaarinen ennustus Parametrinen koodaus Digitaalisen audion siirto 17

Koodaus aikaulottuvuudessa Äänestä otetaan näytteitä näytetaajuudella Näytetaajuuden pitää olla vähintään kaksi kertaa maksimitaajuus (Nyquistin taajuus) Yleisiä näytetaajuuksia: 8, 44.1 ja 48 khz Signaalin amplitudi näytteenottohetkellä muutetaan numeroarvoksi 18

Laskostuminen (a) Sinisignaali (b) 1 x näytteenottotaajuus (c) 1,5 x näytteenottotaajuus (d) 2 x näytteenottotaajuus 19

Pulse Code Modulation (PCM) 20

Koodaus aikaulottuvuudessa (jatk.) Näytteiden otto aiheuttaa kvantisointivirheen Jokainen bitti parantaa signaalikohina-suhdetta: 20 log 10 2 = 6 db Yleisesti käytetään 16 bittiä 16 * 6 db = 96 db Ihmisen dynaaminen alue on kuitenkin enemmän (n. 120 db) 21

Koodaus aikaulottuvuudessa (jatk.) Muunnokset analogisten ja digitaalisten signaalien välillä tehdään A/D ja D/A-muuntimilla Lisäksi tarvitaan suodatusta Anti-alias ja Reconstruction -suodattimet Korkeatasoisissa järjestelmissä ne ovat virhelähde Ongelma voidaan ratkaista ylinäytteistyksellä (oversampling) Myös tietokone aiheuttaa helposti ylikuulumista 22

Muut koodausmenetelmät Deltamodulaatiossa (DPCM) koodataan vain peräkkäisten näytteiden välinen ero Adaptiivisessa deltamodulaatiossa (ADPCM) askelkoko voi muuttua 23

Muunnokset Muunnosten avulla signaalit voidaan esittää toisessa esitysmuodossa Tavoitteena on saada signaalien siirto tehokkaammaksi ja robustisemmaksi 24

Fourier-muunnos Fourier-muunnoksen kertoimet esittävät signaalia taajuus-ulottuvuudessa Stationaariset signaalit voidaan esittää tarkasti Fourier-kertoimien avulla Muuttuvien signaalien tapauksessa käytetään diskreettiä Fourier-muunnosta Muunnos tehdään käyttäen Fast Fourier Transformation (FFT) -algoritmia 25

Taajuuskanavat Myös maskaus-efektiä voidaan hyödyntää koodauksessa Signaali jaetaan taajuusalueisiin, jotka koodataan erikseen (Subband Coding) Esim. Mini Disc -levyt (Sony), DCC-kasetit (Philips) ja MP3 Menetelmää on hyödynnetty myös puheen koodauksessa ja tunnistuksessa 26

MPEG-audio MPEG-audio hyödyntää Subband-koodausta Signaali jaetaan 32 kanavaan (Layer 1) Jako tehdään 384:n näytteen ryhmälle kerrallaan FFT-muunnoksen avulla erotellaan puhdasta sinivärähtelyä ja kohinaa sisältävät kanavat Vain kiinnostavat kanavat koodataan Kanavaa kohden käytettävä bittimäärä vaihtelee Layer I yli 128 kbps / kanava 27

Begin Subband analysis FFT analysis Quantization of samples Scale factor calculation Coding of scale factors Calculation of masking and required bit allocation Determination of nontransmitted subbands Adjustment to fixed bit-rate Coding of samples Coding of bit allocation Formatting and transmission End 28

MPEG-audio (jatk.) Layer 2 noin 128 kbps / kanava 1152 näytteen ryhmä 3 skaalauskerrointa 36 taajuuskanavaa Layer 3 (MP3) noin 64 kbps / kanava suodatinpankki Huffmann-koodaus koodaukseen käytettävien bittien lukumäärää voi vaihdella 29

Code-Excited Linear Prediction (CELP) Puhetta voidaan myös koodata synteesin avulla Dekoodeerin vastaanottaa ohjausdatan ja syöttää sen synteesisuodattimeen Synteesisuodatin matkii puhetta käyttäen lineaarista ennustusta yksinkertainen ohjaussignaali tuottaa puhetta Enkooderi kokeilee erilaisia syötesignaaleja ja valitsee lähinnä koodattavaa puhenäytettä olevan syötesignaalin 30

Monikanavaääni Elokuvaa katseltaessa halutaan usein käyttää monikanavaääntä luonnolisemman tilavaikutelman aikaansaamiseksi Vasemman ja oikean äänikanavan lisäksi voidaan käyttää keskikanavaa ja sivu/takakanavia Lisäksi matalat taajuudet voidaan toistaa erillisen subwooferin kautta Käytössä on vaihtoehdot 5.1, 6.1 ja 7.1 31

Matriisi-dekooderi Tarvittavien lisäkanavien informaatio voidaan koodata varsinaisten stereokanavien joukkoon käyttäen +90º ja -90º vaihe-eroa Esim. Dolby Surround matriisi Encoding Matrix Left Right Center Surround Left Total 1 0 0.71 j0.707 Right Total 0 1 0.71 k0.707 j = + 90º phase-shift, k = - 90º phase-shift 32

Monikanavaäänen järjestelmät Dolby Surround: vasen, oikea, keski ja takakanava (mono) Dolby Pro Logic: digitaalinen versio edellisestä, jossa kaksi takakanavaa (mono) Dolby Pro Logic II: erillinen bassokanava ja erilliset takakanavat (stereo) Dolby Digital, DTS, SDDS: vasen, oikea, keski, basso, vasen-taka ja oikea-taka koodataan jokainen erikseen (digitaalisesti) 33

Monikanavaäänen järjestelmät Dolby Digital Ex: kahteen takakanavaan on koodattu kaksi sivukanavaa ja yksi takakanava (6.1) DTS-ES: vasen, oikea, keski, vasen-sivu, oikea-sivua, taka ja bassokanava on kukin koodattu erikseen (6.1) Dolby Digital Plus, DTS-HD, Dolby TrueHD: sekä sivuilla että takana on vasen ja oikea kanava erikseen (7.1) 34

Digitaalinen äänen siirto Äänen siirtämiseksi digitaalisessa muodossa on useita standardeja Kulutuselektroniikassa tunnetuin on Sony/Philips Digital Interconnect Format (S/PDIF) esim. liitäntä DVD-soittiminen ja av-vahvistimen välillä kotiteatterissa Siirtotienä voi olla koaksiaalikaapeli tai optinen kuitu (TOSLINK) 35

Diskreetti kosinimuunnos Lohkot DCT-kertoimet Kvantisointi Zig-zag -järjesteys Juoksupituuskoodaus Vaihtuvapituinen koodaus 36

Käyttötarkoitus Diskreetti kosinimuunnos on yleisin kuvan ja videon pakkauksessa käytetty menetelmä Discrete Cosine Transform (DCT) Sitä käyttävät mm. JPEG MPEG-1, MPEG-2 ja MPEG-4 H.261 ja H.263 DCT-muunnos perustuu siihen, että kaikki luonnollisesta lähteestä otetut kuvat sisältävät tekstuureja eli pintakuviointia 37

Lohkot Kuva jaetaan ensin pienempiin lohkoihin Yleensä käytetään 8 x 8 pikselin lohkoja Värikuvissa eri värikomponentit käsitellään erikseen DCT-muunnos selvittää mitä taajuuksia kukin lohko sisältää 38

DCT-kertoimet Kertoimet esitetään kerroinmatriisin muodossa Matriisin koko on sama kuin alkuperäisen lohkon Horisontaalit taajuudet ovat riveillä ja vertikaaliset taajuudet sarakkeissa Taajuudet kasvavat oikealle ja alaspäin Ensimmäin kerroin on ns. DC-kerroin ja se kertoo lohkon valoisuuden 39

DCT-kertoimet 40

Kvantisointi DCT-muunnokselle on tyypillistä, että matalat taajuudet korostuvat ja korkeita taajuuksia on vähän Korkeille taajuuksille voidaan käyttää vähemmän bittejä Erillinen kvantisointitaulu kertoo kuinka paljon bittejä kullekin kertoimelle varataan Kvantisointitaulu määrää kuvan pakkausasteen 41

Zig-zag -järjestys Kertoimet voidaan järjestää ns. Zig-zag -järjestykseen, jossa matalat taajuudet ovat ensin ja korkeat taajuudet jonon lopussa Jonon alussa on suuria yleensä suuria lukuja, mutta jonon lopussa on yleensä hyvin pieniä lukuja ja paljon nollia 42

DCT-koodaus 43

Juoksupituuskoodaus Zig-zag -sekvenssin lopussa olevista nollista päästään kätevästi eroon ns. Juoksupituuskoodauksella Run Length Encoding (RLE) RLE-koodauksessa ilmoitetaan ensin kuinka monta kertaa tiettty luku esiintyy peräkkäin lukujonossa ja sen jälkeen varsinainen luku Esim. 127, 65, 19, 5, 5, 0, 0, 0, 6, 0, 0, 0,0, 0 => 1, 127, 1, 65, 1, 19, 2, 5, 3, 0, 1, 6, 5, 0 44

Vaihtuvanmittainen koodaus Usein toistuvat symbolit korvataan uusilla symboleilla, joissa on vähän bittejä Huffman tai aritmeettinen koodaus Huffman koodaus edellyttää erillistä taulukkoa Aritmeettinen koodaus ei tarvitse taulukkoa, mutta vaatii enemmän laskentaa Lisäksi aritmeettisen koodauksen kompressioaste 5-10 % parempi 45

JPEG Tavoitteet Arkkitehtuurit Hukkaamaton koodaus Tehokkuus 46

Tavoitteet Kompressiosuhde / kuvanlaatu voidaan valita Sopii mihin tahansa kuviin Sekä ohjelmisto että laitteisto Neljä eri moodia: sekventiaalinen koodaus (alkuperäinen järjestys) progressiivinen koodaus (monivaiheinen koodaus) hukkaamaton koodaus (täydellinen toisto) hierarkinen koodaus (monta eri resoluutiota) 47

Arkkitehtuurit Hukkaavissa moodeissa käytetään DCTkoodausta 8 x 8 pikselin lohkoille Sekventiaalisessa moodissa lohkojen DCTkertoimet lähetään lohko kerrallaan Progressiivisessa moodissa kertoimet talletetaan muistiin ja lähetetään ryhmissä Hierarkisessa moodissa valitaan erilaisia resoluutiota koodattavaksi 48

Sekventiaalinen JPEG 49

Progressiivinen JPEG 50

Hierarkinen JPEG 51

Hukkaamaton JPEG 52

Hukkaamaton koodaus Hukkaamaton koodaus käyttää ennustusta Käytössä on seitsemän eri vaihtoehtoa kuinka monta ja mitä pikseliä käytetään Ennustava koodaus pääsee kompressiosuhteeseen 2:1 53

Tehokkuus 0,25-0,5 bpp: kohtalainen - hyvä laatu 0,5-0,75 bpp: hyvä - erittäin hyvä laatu 0,75-1,5 bpp: erittäin hyvä laatu 1,5-2,00 bpp: ei erotu alkuperäisestä 54