SGN-4200 Digitaalinen audio Luennot, kevät 2013, periodi 4 Anssi Klapuri Tampereen teknillinen yliopisto Kurssin tavoite Johdanto 2! Tarjota tiedot audiosignaalinkäsittelyn perusteista perusoperaatiot, sekä niissä käytössä olevat ideat ja periaatteet tarkoitus antaa perustaidot, vaikkei viimeisiä virityksiä kurssin puitteissa voidakaan hioa! Pitää audiosignaalinkäsittelyssä korvat päässä teknisten sovellusten perustana on akustiikka ja ihmiskuulo! Luoda lyhyt katsaus nykytekniikkaan missä mennään, mihin seuraavaksi mennään Sisältö Johdanto 3 Mitä kurssilla ei käsitellä Johdanto 4! Ääni, äänisignaalit, akustiikka! Kuulo mitkä äänisignaalien ominaisuudet ovat merkittäviä kuulon kannalta?! Audiosignaalinkäsittelyn perusoperaatioita AD/DA-muunnos suotimet ja suodinpankit audiosignaalinkäsittelyssä dynamiikan hallinta! Äänisynteesi ja efektit! Audiokoodaus! Kuluttajan audiotekniikkaa tallennus- ja siirtomuodot! Analoginen audio sähköakustiikka, akustiset mittaukset, äänentoisto, sekä kaiuttimien, vahvistimien ja mikrofonien suunnittelu " osittain kurssin Akustiikan mittaukset asiaa! Puheenkäsittely puheenkäsittely, puheentunnistus " kurssit Puheenkäsittelyn menetelmät, Puheen koodaus ja Speech Recognition! Laitteistototeutuksia AD/DA laitteistotasolla, signaaliprosessorit nykyisen audiotekniikan elektroniikkaa ja mekaanisia ratkaisuja " kurssi Signal processors! Akustinen hahmontunnistus
Käytännön järjestelyt Johdanto 5 Harjoitukset Johdanto 6! Kurssin kotisivu: http://www.cs.tut.fi/~digaudio! Luennot maanantaisin klo 12-14 salissa TB223 torstaisin klo 14-16 salissa TB222 Anssi Klapuri, anssi.klapuri @ tut.fi (käytä kyselyihin sähköpostia)! Luentomateriaali tulee webbiin Kurssi ei pohjaudu tarkasti yksittäiseen oppikirjaan, luennoilla, prujulla & harjoituksilla pärjää hyvin itsenäistä opiskelua varten: Zölzer. Digital audio signal processing, Wiley&Sons, 2nd ed. 2008. Gold, Morgan, Ellis, Speech and audio signal processing, Wiley 2011.! Suoritusvaatimuksena on tentti ja harjoitustyö! Harjoitukset alkavat viikolla 12 (torstaina 21.3.2013)! Assitentti: Raija Lehto! Sisältö: luentoaiheita sivuavia lasku- ja ohjelmointitehtäviä! Kaksi vaihtoehtoista ryhmää torstaisin 8:30-10 (TC303), ja 12-14 (TC303) Ilmoittaudu harjoituksiin POP:ssa 15.3. klo 14:05 alkaen! Laskutehtävät tehtävä etukäteen, Matlab-tehtävät tehdään harjoituksen aikana.! Harjoituksista saa tenttiin maksimissaan kolme lisäpistettä (vastaa n. yhden arvosanan korotusta) edellyttää viikkoharjoitusten tekemistä ja aktiivista läsnäoloa tietokoneharjoituksissa! Harjoituksissa käsitellään harjoitustyöhön liittyviä tehtäviä osallistuminen helpottaa harjoitustyön tekemistä Harjoitustyö Johdanto 7 Lähdemateriaalia (ks. myös luentokalvot) Johdanto 8! Jonkin audiosignaalinkäsittelyalgoritmin toteutus Matlabilla 2 hengen ryhmät.! Aiheet esitellään luennolla.! Vaatimukset: Aiheen valitseminen (viikko 13) Algoritmin toteutus Loppuraportti 12.5 mennessä.! Tarkemmat ohjeet ja aikataulu löytyvät harjoitustyön webbisivulta http://www.cs.tut.fi/~digaudio/htyo/! Mikäli harjoitustyötä varten tarvitsee käyttäjätunnusta Lintulaan (tietotekniikan osaston Unix/Linux-ympäristö), kannattaa hakea käyttäjätunnus ajoissa! Zölzer. Digital audio signal processing, Wiley&Sons, 2nd ed. 2008. mm. AD/DA-muunnos, dynamiikan hallinta, vastekorjaus! Gold, Morgan, Ellis, Speech and audio signal processing, Wiley, 2011.! Rossing. The science of sound, Addison-Wesley, 1990. akustiikka, ihmiskuulo! Brandenburg, Kahrs. (1998). Applications of digital signal processing to audio and acoustics, Kluwer Academic Publishers Audiokoodaus! Zölzer (ed.) (2002) DAFX Digital Audio Effects. John Wiley & Sons.! Karjalainen. (1999). Kommunikaatioakustiikka. akustiikka, ihmiskuulo, signaalinkäsittelyä! Moore. (1997). An introduction to the psychology of hearing.! Tolonen, Välimäki, Karjalainen. (1998). Evaluation of modern sound synthesis methods. Helsinki University of Technology. http://www.acoustics.hut.fi/publications/reports/sound_synth_report.pdf
Lyhyt johdanto audiosignaaleihin Johdanto 9 Audiosignaalinkäsittelystä Johdanto 10! Audio = ääneen tai kuulemiseen liittyvä! Sanalla ääni voidaan tarkoittaa joko 1. Kuuloaistimusta ihmisen kuulojärjestelmässä, tai 2. Väliaineessa tapahtuvaa värähdystä, joka voi tuottaa aistimuksen kuulijalle Ihmiskuulon takia rajoitutaan useimmiten taajuusalueelle 20 Hz 20 khz, ja väliaineena on ilma (kuulo tosin toimii myös esim. veden alla)! Äänisignaali - audiosignaali Numeerinen esitys äänestä Esim. mikrofonilla mitattu ilmanpaine ajan funktiona Tällä kurssilla yleensä digitaaliset signaalit! Missä audiosignaalinkäsittelyä tarvitaan?! Perinteinen digitaalisen signaalinkäsittelyn ketju: 1. Digitoidaan signaali 2. Käsitellään digitaalisesti (tallennetaan, muokataan, yms.) -digitaalinen signaalinkäsittely mahdollistaa monipuolisia algoritmeja 3. Muutetaan takaisin analogiseksi! Esimerkkejä: Muutetaan musiikkikappale mp3:ksi ja tallennetaan kovalevylle, toistetaan myöhemmin (audiokoodaus) Lisätään ääneen kaikua, korjataan laulajan äänenkorkeutta (studiotekniikka) Korjataan kaiuttimen epäideaalisuuksista johtuvia virheitä digitaalisella vastekorjauksella Äänisignaalien esitysmuotoja Johdanto 11 Aikatason signaali Johdanto 12! Eri sovelluksissa käytetään eri esitysmuotoja Aikatason esitys Taajuustason esitys Aika-taajuustason esitys! Kurssilla käytetään esimerkkeinä enimmäkseen musiikkisignaaleja sisältävät monipuolisesti erilaisia ääniä laajasti ajateltuna mitä tahansa ääntä voidaan pitää musiikkina! Ilmanpaine ajan funktiona (nollataso = normaali ilmanpaine) on luonnollinen esitys äänisignaalileille analoginen signaali helppo äänittää mikrofonilla ja toistaa kaiuttimella! Digitaalisilla audiosignaaleilla tyypillinen näytteenottotaajuus 44.1 tai 48 khz Mahdollistaa taajuuskomponenttien 0 22.05 khz esittämisen Ihmiskuulo pystyy kuulemaan noin 20 Hz-20 khz taajuudet! Matalampia näytteenottotaajuuksia myös laajasti käytössä, esim. 32 khz, 16 khz, 8 khz Suurin osa luonnolisten äänten energiasta (ja informaatiosta) on matalilla taajuuksilla
Aikatason signaali (1) Johdanto 13 Aikatason signaali (2) Johdanto 14! Kaistarajoitettu analoginen signaali (yhtenäinen viiva) voidaan esittää häviöttömästi näytejonon (pisteet) avulla Käsitelty signaalinkäsittelyn johdantokursseilla, audionäkökulma myös luentokerralla AD/DA-muunnos! Laaja aikaskaala havainnollistaa äänen verhokäyrän! Esimerkkisignaali: oboen yksi nuotti Ennen äänen alkua amplitudi on nolla Oboen heräte on jatkuva joten sen verhokäyrä pysyy suurinpiirtein vakiona äänen keston ajan Aikatason signaali (3) Johdanto 15 Taajuustason esitys - spektri Johdanto 16! Suurennos äskeisestä signaalista hetkeltä t = 1.43 s! 40 ms kehys havainnollistaa jaksollisen aaltomuoton Monet äänet ovat jaksollisia, esim. useat soittimet ja vokaalit puheessa! Saadaan esim. laskemalla diskreetti Fourier-muunnos aikatason signaalista (yleensä lyhyestä kehyksestä)! Monet kuulon kannalta tärkeät ominaisuudet ovat selkeämmin esillä taajuustason esityksessä! Amplitudi desibeleissä: lähempänä ihmiskuuloa & luonnollisten äänten dynamiikkaa! Vaiheet vähemmän merkittäviä esitetään vain harvoin
Aika-taajuusesitys: spektrogrammi Johdanto 17 Esimerkkejä äänisignaaleista: kitara Johdanto 18! Kuvaa äänen intensiteetin ajan ja taajuuden funktiona! Saadaan jakamalla signaali lyhyihin kehyksiin ja laskemalla niiden spektri! Audiossa tyypillisesti 10-100 ms kehys: ääni stationäärinen kehyksen sisällä! Ääni vaimenee tasaisesti alun jälkeen! Hetkellisherätteinen ääni: kieltä näpätään kerran alussa! Jaksollinen ääni (värähtelevä kieli, käsitellään akustiikkaluennolla) Esimerkkejä äänisignaaleista: virvelirumpu Johdanto 19! Hetkellisherätteinen ääni, vaimenee eksponentiaalisesti Esimerkkejä äänisignaaleista: virvelirumpu (2)! Suurennos äskeisestä! Signaali sisältää myös ei-jaksollisia komponentteja Johdanto 20
Esimerkkejä äänisignaaleista: virvelirumpu (3) Johdanto 21! Spektri on myös kohinamainen, ei yhtä selvää rakennetta kuin oboen spektrissä Esimerkkejä äänisignaaleista: virvelirumpu (4)! Spektrogrammi Johdanto 22 Polyfoninen musiikki (1) Johdanto 23 Polyfoninen musiikki (2) Johdanto 24! Polyfonisessa musiikissa on useita äänilähteitä summautuneena (lineaarinen superpositio)! Spektrogrammista näkyy mm. musiikin rytminen rakenne