THE audio feature: MFCC. Mel Frequency Cepstral Coefficients

Samankaltaiset tiedostot
Organization of (Simultaneous) Spectral Components

Digitaalinen audio

SGN-4200 Digitaalinen audio

1 Johdanto. 1.2 Psykofysiikka, psykoakustiikka. 1.1 Kuulon toiminta. Sisältö:

f k = 440 x 2 (k 69)/12 (demoaa yllä Äänen väri Johdanto

Tietoliikennesignaalit & spektri

T DSP: GSM codec

Kuuloaistin ominaisuuksia

Yleistä. Digitaalisen äänenkäsittelyn perusteet. Tentit. Kurssin hyväksytty suoritus = Harjoitustyö 2(2) Harjoitustyö 1(2)

AV-muotojen migraatiotyöpaja - ääni. KDK-pitkäaikaissäilytys seminaari / Juha Lehtonen

5 Akustiikan peruskäsitteitä

2.1 Ääni aaltoliikkeenä

3 Ääni ja kuulo. Ihmiskorva aistii paineen vaihteluita, joten yleensä äänestä puhuttaessa määritellään ääniaalto paineen vaihteluiden kautta.

Akustiikka ja toiminta

Mitä tulisi huomioida ääntä vaimentavia kalusteita valittaessa?

Spektri- ja signaalianalysaattorit

Äänen eteneminen ja heijastuminen

Suodinpankit ja muunnokset*

Kuuloaisti. Korva ja ääni. Melu

Kohti uuden sukupolven digitaalipianoja

Yleistä äänestä. Ääni aaltoliikkeenä. (lähde

Kompleksiluvut signaalin taajuusjakauman arvioinnissa

3. AUDIOTEKNIIKAN PERUSTEITA

Digitaalinen signaalinkäsittely Desibeliasteikko, suotimen suunnittelu

LUT CS20A0650 Meluntorjunta 1. Tsunamin synty LUT CS20A0650 Meluntorjunta

Tiistai klo Jari Eerola

ERITTÄIN JOUSTAVAA MUKAVUUTTA AKUSTOINTIIN

1. Perusteita Äänen fysiikkaa. Ääniaalto. Aallonpituus ja amplitudi. Taajuus (frequency) Äänen nopeus

Tuulivoimaloiden (infra)ääni

1 Johdanto. 2 Kriittinen näytteistys 2:lla alikaistalla. 1.1 Suodatinpankit audiokoodauksessa. Johdanto

SGN-4200 Digitaalinen Audio Harjoitustyö-info

Dynatel 2210E kaapelinhakulaite

Luento 8. Suodattimien käyttötarkoitus

Puhesynteesin perusteet Luento 4: difonikonkatenaatio

Akustointiratkaisujen vaikutus taajuusvasteeseen

Digitaalinen signaalinkäsittely Kuvankäsittely

LABORATORIOTYÖ 2 SPEKTRIANALYSAATTORI

805324A (805679S) Aikasarja-analyysi Harjoitus 5 (2016)

Kuulohavainto ympäristössä

nykyään käytetään esim. kaapelitelevisioverkoissa radio- ja TVohjelmien

Pianon äänten parametrinen synteesi

16 Ääni ja kuuleminen

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

PUTKIJÄRJESTELMÄSSÄ ETENEVÄN PAINEVAIHTELUN MALLINNUS HYBRIDIMENETELMÄLLÄ 1 JOHDANTO 2 HYBRIDIMENETELMÄN MATEMAATTINEN ESITYS

Aaltoliike ajan suhteen:

Alipäästösuotimen muuntaminen muiksi perussuotimiksi

Perusmittalaitteet 2. Spektrianalyysi. Mittaustekniikan perusteet / luento 4. Spektrianalyysi. Logaritmiasteikko ja db (desibel) Spektrianalysaattori

Johdanto tieto- viestintäteknologian käyttöön: Äänitystekniikka. Vfo135 ja Vfp124 Martti Vainio

Radioamatöörikurssi 2015

6. Äänitasomittauksia Fysiikka IIZF2020

Signaalien tilastollinen mallinnus T (5 op) Syksy 2006 Harjoitustyö

Digitaalinen audio & video, osa I

Radioamatöörikurssi 2012

Toimivat, esteettömät työtilat Esken verkostoseminaari IIRIS

1 Diskreettiaikainen näytteistys. 1.1 Laskostuminen. Laskostuminen

TIETOTEKNIIKAN OSASTO. Olli Korhonen, Lari-Matias Orjala, Eero Paavola ÄÄNEN PIIRTEIDEN VERTAILU IHMISÄÄNEN LUOKITTELUSSA

1 Äänisignaalin tallentaminen ja analysointi... 2 Q Q Q Q Häiriönpoisto... 5 Q Q Q2.3...

2. kierros. 2. Lähipäivä

1 Kohina. 2 Kohinalähteet. 2.1 Raekohina. 2.2 Terminen kohina

Ympäristömelun määrä ja laatu

800 Hz Hz Hz

RAKENTAMISEN TEKNIIKAT AKUSTIIKKA AKUSTIIKKA

Numeeriset menetelmät

Matlab-tietokoneharjoitus

ELOKUVATEATTEREIDEN MELUTASOT 2018 PROJEKTIYHTEENVETO

Radioamatöörikurssi 2014

20 Kollektorivirta kun V 1 = 15V Transistorin virtavahvistus Transistorin ominaiskayrasto Toimintasuora ja -piste 10

TL5503 DSK, laboraatiot (1.5 op) Suodatus 1 (ver 1.0) Jyrki Laitinen

SMG-1100: PIIRIANALYYSI I. Verkkojen taajuusriippuvuus: suo(dat)timet

Kuulohavainnon perusteet

SGN-1251 Signaalinkäsittelyn sovellukset Välikoe Heikki Huttunen

1. Määritä pienin näytelauseen ehdon mukainen näytetaajuus taajuus seuraaville signaaleille:

Lineaarialgebran laskumoniste Osa1 : vektorit

Infraäänimittaukset. DI Antti Aunio, Aunio Group Oy

Harjoitustyö 1. Signaaliprosessorit Sivu 1 / 11 Vähämartti Pasi & Pihlainen Tommi. Kaistanestosuodin, estä 2 khz. Amplitudi. 2 khz.

Spektrianalysaattori. Spektrianalysaattori

IIR-suodattimissa ongelmat korostuvat, koska takaisinkytkennästä seuraa virheiden kertautuminen ja joissakin tapauksissa myös vahvistuminen.

Vastekorjaus (ekvalisointi) Lähteet: Zölzer. Digital audio signal processing. Wiley & Sons. Zölzer (ed.) DAFX Digital Audio Effects. Wiley & Sons.

Tutkielma tasavireisestä, pythagoralaisesta ja diatonisesta sävelasteikosta Teuvo Laurinolli ( )

SGN-4010, Puheenkäsittelyn menetelmät Harjoitus 6, 18. ja

Radioamatöörikurssi 2016

Historiaa musiikillisten äänten fysikaalisesta mallintamisesta

FRANCISCO VASQUEZ. NUOTTIEN OPISKELUOHJELMA MATLABIN AVULLA Kandidaattityö. Tarkastaja: Hanna Silén

4) Kaiutin: 8Ω/10W 5) Otsonaattori: 12V/5W 6) Höyrygeneraattori: 220V/3000W

ö ø Ilmaääneneristävyys [db] 60 6 mm Taajuus [Hz]

TL5231, Signaaliteoria (S2004) Matlab-harjoituksia

Luku 4 - Kuvien taajuusanalyysi

MATKAPUHELINKAIUTTIMIEN TAAJUUSVASTEISTA JA SÄRÖKÄYT- TÄYTYMISESTÄ 1 JOHDANTO 2 ANALYYSIMENETELMÄT

Digitaalinen Audio & Video I

JOHDATUS TEKOÄLYYN TEEMU ROOS

Luento 15: Ääniaallot, osa 2

Mono- ja stereoääni Stereoääni

Elektroniikka, kierros 3

Monikanavaäänen perusteet. Tero Koski

Luento 9. tietoverkkotekniikan laitos

Melun huomioon ottaminen tuulivoimahankkeiden kaavoituksessa ja lupakäytännöissä. Ilkka Niskanen

KIELEN PITKITTÄISTEN VÄRÄHTELYJEN HAVAITSEMINEN PIANON ÄÄNESSÄ 1 JOHDANTO 2 KUUNTELUKOKEET

OPERAATIOVAHVISTIN. Oulun seudun ammattikorkeakoulu Tekniikan yksikkö. Elektroniikan laboratoriotyö. Työryhmä Selostuksen kirjoitti

1 Olkoon suodattimen vaatimusmäärittely seuraava:

Signaalinkäsittely Musiikin sisältöanalyysi Rumpujen nuotinnos Muotoanalyysi Yhteenveto. Lectio praecursoria

Transkriptio:

THE audio feature: MFCC Mel Frequency Cepstral Coefficients

Ihmiskuulo MFCC- kertoimien tarkoituksena on mallintaa ihmiskorvan toimintaa yleisellä tasolla. Näin on todettu myös tapahtuvan, sillä MFCC:t ovat yleisimmin käytetty audio-piirre, niin puhujan, puheen kuin ympäristöääntenkin automaattisessa tunnistuksessa. MFCC-piirteet ottavat (ainakin jollakin tavalla) huomioon ihmiskorvan epälineaarisen korkeusaistimuksen taipumuksen yhdistää taajuustasossa lähellä toisiaan olevat äänikomponentit epälineaarisen äänenvoimakkuusaistimuksen

Ihmiskuulon ominaisuuksia -epälineaarinen äänenkorkeusaistimus Ihminen mieltää (suurinpiirtein) saman suuruisiksi taajuuden muutokset: f0 2*f0 4*f0 eli kuulon taajuusaistimus toimii jokseenkin logaritmisesti: log(f0) + log(f0) = log(2*f0) log(2*f0) + log(2*f0) = log(4*f0)

Spektrogrammi pianon äänistä C1 c5 f0 f0 f0 Huomaa miten aina matalin taajuus eli perustaajuus kaksinkertaistuu, ja sen harmoniset äänekset siirtyvät vastaavasti kaksi kertaa korkeammille taajuuksille.

Ihmiskuulon ominaisuuksia - kriittinen kaista (taajuusintegrointi) Ihmiskorva yhdistää aistimukset lähellä toisiaan olevista taajuuksista. Voimakkaampi ääni peittää toisen äänen kuulumattomiin, jos taajuudet ovat lähellä toisiaan. Samalla äänten teho yhdistyy yhdeksi havainnoksi.

Äänenkorkeusaistimuksen mallinnus Puheenkäsittelyssä käytetään yleisesti kahta ihmiskuuloa mukailevaa taajuusmuunnosta, joilla mallinnetaan sekä epälineaarista taajuusaistimusta että kriittisen kaistan taajuuksien yhteensulautumista: 1) Mel-taajuusasteikko, joka on muodostettu puhtaiden siniäänten äänenkorkeusaistimuskokeiden perusteella mallintamaan korvan simpukan epälineaarista taajuuden havainnointia. 2) Bark-taajuusasteikko, joka on määritelty lähellä toisiaan olevien taajuuskomponenttien peitto-ominaisuuden mukaan mallintamaan korvan taajuusintegrointiominaisuutta. Bark asteikko on muodostettu täyttämällä kuuloalue vierekkäisillä kriittisillä kaistoilla, ja numeroimalla ne 1:stä 26:een.

Mel - taajuusasteikko f Mel 2595log10(1 f Hz ) 700 1 Mel yksikkö on määritelty yhdeksi tuhannesosaksi 1000 Hz:n taajuisen äänen subjektiivisesta äänenkorkeudesta. eli 1000 Hz = 1000 Mel

Bark-taajuusasteikko f Bark 13arctan(0.00076 f Hz 3.5arctan 7500 2 f Hz ) Bark-skaalan kriittiset kaistat on määritelty viereisen kuvan mukaisesti, vaikka todellisuudessa korvan taajuusintegrointi toimii millä tahansa keskitaajuudella.

Pianon äänistä C1 c5 Mel-taajuuksinen spektrogrammi Ja Bark-taajuuksinen spektrogrammi

Ihmiskuulon ominaisuuksia - äänekkyys eri äänenkorkeuksilla Ihmisen kuulo on herkimmillään taajuuksilla 500 6000Hz. Äänipainetaso ei kerro täsmällisesti sitä, miltä ääni ihmisen korvaan kuulostaa.

Kuulon herkkyyden mallinnus eri taajuuksilla Tätä ihmiskorvan ominaisuutta mallinnetaan äänisignaalinkäsittelyssä yleensä suotimella, joka laskee matalien taajuuksien energian ihmisen kuulon mukaiselle tasolle. Esimerkiksi: * jo aiemmin mainitulla esikorostus-suotimella: H ( z) 1 bz 1 * tai esimerkiksi äänitasomittauksissa käytetään useimmiten IEC-standardin määrittelemää A-suodinta ennen energian laskemista äänisignaalista:

Ihmiskuulon ominaisuuksia äänenvoimakkuuden muutoksen havaitseminen Weberin sääntö sanoo, että fysikaalisen suureen muutos havaitaan sen suuruisena kuin se muuttuu suhteellisesti: Tämän perusteella on päädytty ilmaisemaan ääneen liittyviä suureita desibeleinä: L I = 10log 10 (I).

Joko päästään asiaan? Mikä se asia taas olikaan? - THE audiopiirre, joka useimmissa äänen tunnistussysteemeissä lasketaan kustakin puhe/äänikehyksestä, eli: MFCC Mel Frequency Cepstral coefficients

MFCC:iden laskeminen määritetään Mel-asteikolla haluttu määrä (yleensä reilu 20 välillä 0 8000Hz) tasalevyisiä kaistanpäästösuotimia.

MFCC:iden laskeminen määritetään Mel-asteikolla haluttu määrä (yleensä reilu 20 välillä 0 8000Hz) tasalevyisiä kaistanpäästösuotimia. Kunkin suotimen kohdalle osuvien fft-binien energiat lasketaan yhteen: max bin E( k) bminbin S( z) 2

MFCC:iden laskeminen määritetään Mel-asteikolla haluttu määrä (yleensä reilu 20 välillä 0 8000Hz) tasalevyisiä kaistanpäästösuotimia. Kunkin suotimen kohdalle osuvien fft-binien energiat lasketaan yhteen: max bin E( k) Otetaan logaritmi jokaisesta E(k):sta k=1 K bminbin S( z) 2

MFCC:iden laskeminen määritetään Mel-asteikolla haluttu määrä (yleensä reilu 20 välillä 0 8000Hz) tasalevyisiä kaistanpäästösuotimia. Kunkin suotimen kohdalle osuvien fft-binien energiat lasketaan yhteen: max bin E( k) Otetaan logaritmi jokaisesta E(k):sta k=1 K Lasketaan diskreetti kosinimuunnos (II) vektorista log(e) bminbin S( z) 2

MFCC:iden laskeminen määritetään Mel-asteikolla haluttu määrä (yleensä reilu 20 välillä 0 8000Hz) tasalevyisiä kaistanpäästösuotimia. Kunkin suotimen kohdalle osuvien fft-binien energiat lasketaan yhteen: max bin E( k) Otetaan logaritmi jokaisesta E(k):sta k=1 K Lasketaan diskreetti kosinimuunnos (II) vektorista log(e) bminbin S( z) Eli MFCC:t ovat yhtä kuin DCT-kertoimet vektorista log(e) 2