1 SGN-4200 Digitaalinen Audio Harjoitustyö-info 04.04.2012 Joonas Nikunen
Harjoitystyö - 2 Suorittaminen ja Käytännöt Kurssin pakollinen harjoitustyö: Harjoitellaan audiosignaalinkäsittelyyn tarkoitetun algoritmin toteuttamista tieteellisen julkaisun perusteella Kaksi vaihtoehtoista aihetta/julkaisua Tehdään kahden hengen ryhmissä Arvostellaan: Hyväksytty/Hylätty Ryhmän jäsenten ja työaiheen ilmoittaminen 12.04.2013 mennessä osoitteeseen digaudio@cs.tut.fi Palautus 12.05.2013 mennessä osoitteeseen digaudio@cs.tut.fi
3 Harjoitustöiden sisältö 1. Tutustuminen tieteelliseen julkaisuun ja ratkaistavaan ongelmaan 2. Julkaisussa esitetyn algoritmin toteutus käyttäen Matlab:ia 3. Tulosten evaluointi ja tulkitseminen (+ testidatan hankinta) 4. Raportin kirjoittaminen tuloksista ja havainnoista
Aihe 1: Rumpujen separointi 4 musiikista Harmonisten ja perkussiivisien komponenttien erottelu musiikin spektrogrammista (aika-taajuus esitys) Anisotropia: suunnasta riippuvuus Harmonisten äänten ajallinen jatkuvuus Perkussiivisten äänten ajallinen paikallistuminen (taajuudellinen jatkuvuus) Etsitään iteratiivisesti sellaiset spektrogrammit jotka maksimoivat anisotropian (jatkuvuuden ajallisesti ja taajuudessa) [1] Lähde [1]: N. Ono, K. Miyamoto, J. L. Roux, H. Kameoka and S. Sagayama, Separation of a monaural audio signal into harmonic/percussive components by complementary diffusion on spectrogram, in Proc. EUSIPCO, 2008
Aihe 1: Rumpujen separointi 5 musiikista Vinkkejä toteutukseen Lähteen [1] kaavat 24-30 sivulla kolme kuvaavat algoritmin toteutuksen, iteratiivisen algoritmin johtamisesta ei tarvitse suuremmin välittää Kehyksittäistä prosessointia (short-time Fourier transform) käydään harjoituksissa läpi Testimateriaali: rummut sekä harmoniset instrumentit (+laulu) erikseen josta lasketaan summasignaali (rummut + muut) Huomatkaa että algoritmi toimii vain monosignaaleille, halutessanne voitte prosessoida stereon molemmat kanavat erillisinä Voitte käyttää haluamaanne materiaalia, tai kurssin harjoitustyösivulta löytyy linkki josta valmista materiaalia on saatavilla Evaluointi: Signaali-kohinasuhde s(t) = alkuperäinen e(t) = alkuperäinen-separoitu Pohdittavaksi raporttia varten Minkälaiselle materiaalille algoritmin toiminta rajoittuu ja miksi? Miten separoinnin laatua kannattaa mitata ja arvioida?
Aihe 2: Äänen korkeuden 6 estimointi Äänen perustaajuuden estimointi (fundamental frequency) modifioitua autokorrelaatio-menetelmää käyttäen, lähde [2] Lähdemateriaalin kappaleessa 2 esitetty algoritmi Aloitetaan standardin autokorrelaation maksimista ja parannetaan äänenkorkeuden estimaattia askel askeleelta erilaisin muokkauksin, Esimerkiksi: Autokorrelaation resoluutio näytteenottotaajuudesta johtuen -> Interpolaatio Signaali: Autokorrelaatio: Lähde [2] A. de Cheveigné and H. Kawahara, YIN, A fundamental frequency estimator for speech and music, J. Acoust. Soc. Amer., vol. 111, no. 4, pp.1917 1930, 2002.
Aihe 2: Äänen korkeuden 7 estimointi Vinkkejä toteutukseen Edetkää lähdemateriaalin kappaleen kaksi osien 1-6 mukaisesti Testimateriaali on annettu harjoitustöiden webbisivuilla, signaalien arvot ovat 16 bittisiä kokonaislukuja, jotka on kirjoitettu big endian järjestykseen Näytteiden lukemiseen tullaan antamaan valmis toteutus viimeistään viikolla 15 (tulee harkkatyön webbisivulle) Evaluointi: estimoitu äänenkorkeus vs. mitattu testidata (puhe) Evaluoikaa käyttäen lähdemateriaalin virherajoja (10%) Pohdittavaksi raporttia varten Havaittu äänen korkeus ja äänen perustaajuus, ovatko aina sama, miten vaikuttaa algoritmin toimintaan? Perustaajuuden estimoinnin käyttökohteet?
8 Raportti ja palautus Raportti ja algoritmin toteuttavat Matlab koodit palautetaan 12.05.2013 mennessä osoitteeseen digaudio@cs.tut.fi Palauta vain osa testimateriaalista algoritmin toimivuuden testaamista varten, yksikin signaali riittää, mutta tulosten laskenta isommalla otannalla Raportti, pituus 4-5 sivua, kuitenkin kuvaajien koosta ja määrästä riippuen Minkä ongelman työ ratkaisee? Miten ongelma on ratkaistu, mitä oletuksia on tehty? Lyhyt selostus toteutuksesta, mitä vaiheita algoritmi sisältää? Tulokset: miten ja mitä evaluoidaan?
9 Yleistä Kysymykset harjoitustöistä osoitteeseen digaudio@cs.tut.fi Pyritään lukemaan ja vastaamaan päivittäin Kysymysten koskiessa koodin tulkkausta täytyy koodin olla erittäin hyvin kommentoitua!!! Pyritään järjestämään 2 päivystysaikaa töiden ohjaamista varten, tarkemmat ajat ilmoitetaan harjoitustyön sivuilla ja harjoituksissa Ensimmäinen muutaman viikon kuluttua: alkuvaikeudet, lähtökohdat yms. Toinen lähempää palautuspäivämäärää: Toteutuksen ongelmat yms.