THE audio feature: MFCC Mel Frequency Cepstral Coefficients
Ihmiskuulo MFCC- kertoimien tarkoituksena on mallintaa ihmiskorvan toimintaa yleisellä tasolla. Näin on todettu myös tapahtuvan, sillä MFCC:t ovat yleisimmin käytetty audio-piirre, niin puhujan, puheen kuin ympäristöääntenkin automaattisessa tunnistuksessa. MFCC-piirteet ottavat (ainakin jollakin tavalla) huomioon ihmiskorvan epälineaarisen korkeusaistimuksen taipumuksen yhdistää taajuustasossa lähellä toisiaan olevat äänikomponentit epälineaarisen äänenvoimakkuusaistimuksen
Ihmiskuulon ominaisuuksia -epälineaarinen äänenkorkeusaistimus Ihminen mieltää (suurinpiirtein) saman suuruisiksi taajuuden muutokset: f0 2*f0 4*f0 eli kuulon taajuusaistimus toimii jokseenkin logaritmisesti: log(f0) + log(f0) = log(2*f0) log(2*f0) + log(2*f0) = log(4*f0)
Spektrogrammi pianon äänistä C1 c5 f0 f0 f0 Huomaa miten aina matalin taajuus eli perustaajuus kaksinkertaistuu, ja sen harmoniset äänekset siirtyvät vastaavasti kaksi kertaa korkeammille taajuuksille.
Ihmiskuulon ominaisuuksia - kriittinen kaista (taajuusintegrointi) Ihmiskorva yhdistää aistimukset lähellä toisiaan olevista taajuuksista. Voimakkaampi ääni peittää toisen äänen kuulumattomiin, jos taajuudet ovat lähellä toisiaan. Samalla äänten teho yhdistyy yhdeksi havainnoksi.
Äänenkorkeusaistimuksen mallinnus Puheenkäsittelyssä käytetään yleisesti kahta ihmiskuuloa mukailevaa taajuusmuunnosta, joilla mallinnetaan sekä epälineaarista taajuusaistimusta että kriittisen kaistan taajuuksien yhteensulautumista: 1) Mel-taajuusasteikko, joka on muodostettu puhtaiden siniäänten äänenkorkeusaistimuskokeiden perusteella mallintamaan korvan simpukan epälineaarista taajuuden havainnointia. 2) Bark-taajuusasteikko, joka on määritelty lähellä toisiaan olevien taajuuskomponenttien peitto-ominaisuuden mukaan mallintamaan korvan taajuusintegrointiominaisuutta. Bark asteikko on muodostettu täyttämällä kuuloalue vierekkäisillä kriittisillä kaistoilla, ja numeroimalla ne 1:stä 26:een.
Mel - taajuusasteikko f Mel 2595log10(1 f Hz ) 700 1 Mel yksikkö on määritelty yhdeksi tuhannesosaksi 1000 Hz:n taajuisen äänen subjektiivisesta äänenkorkeudesta. eli 1000 Hz = 1000 Mel
Bark-taajuusasteikko f Bark 13arctan(0.00076 f Hz 3.5arctan 7500 2 f Hz ) Bark-skaalan kriittiset kaistat on määritelty viereisen kuvan mukaisesti, vaikka todellisuudessa korvan taajuusintegrointi toimii millä tahansa keskitaajuudella.
Pianon äänistä C1 c5 Mel-taajuuksinen spektrogrammi Ja Bark-taajuuksinen spektrogrammi
Ihmiskuulon ominaisuuksia - äänekkyys eri äänenkorkeuksilla Ihmisen kuulo on herkimmillään taajuuksilla 500 6000Hz. Äänipainetaso ei kerro täsmällisesti sitä, miltä ääni ihmisen korvaan kuulostaa.
Kuulon herkkyyden mallinnus eri taajuuksilla Tätä ihmiskorvan ominaisuutta mallinnetaan äänisignaalinkäsittelyssä yleensä suotimella, joka laskee matalien taajuuksien energian ihmisen kuulon mukaiselle tasolle. Esimerkiksi: * jo aiemmin mainitulla esikorostus-suotimella: H ( z) 1 bz 1 * tai esimerkiksi äänitasomittauksissa käytetään useimmiten IEC-standardin määrittelemää A-suodinta ennen energian laskemista äänisignaalista:
Ihmiskuulon ominaisuuksia äänenvoimakkuuden muutoksen havaitseminen Weberin sääntö sanoo, että fysikaalisen suureen muutos havaitaan sen suuruisena kuin se muuttuu suhteellisesti: Tämän perusteella on päädytty ilmaisemaan ääneen liittyviä suureita desibeleinä: L I = 10log 10 (I).
Joko päästään asiaan? Mikä se asia taas olikaan? - THE audiopiirre, joka useimmissa äänen tunnistussysteemeissä lasketaan kustakin puhe/äänikehyksestä, eli: MFCC Mel Frequency Cepstral coefficients
MFCC:iden laskeminen määritetään Mel-asteikolla haluttu määrä (yleensä reilu 20 välillä 0 8000Hz) tasalevyisiä kaistanpäästösuotimia.
MFCC:iden laskeminen määritetään Mel-asteikolla haluttu määrä (yleensä reilu 20 välillä 0 8000Hz) tasalevyisiä kaistanpäästösuotimia. Kunkin suotimen kohdalle osuvien fft-binien energiat lasketaan yhteen: max bin E( k) bminbin S( z) 2
MFCC:iden laskeminen määritetään Mel-asteikolla haluttu määrä (yleensä reilu 20 välillä 0 8000Hz) tasalevyisiä kaistanpäästösuotimia. Kunkin suotimen kohdalle osuvien fft-binien energiat lasketaan yhteen: max bin E( k) Otetaan logaritmi jokaisesta E(k):sta k=1 K bminbin S( z) 2
MFCC:iden laskeminen määritetään Mel-asteikolla haluttu määrä (yleensä reilu 20 välillä 0 8000Hz) tasalevyisiä kaistanpäästösuotimia. Kunkin suotimen kohdalle osuvien fft-binien energiat lasketaan yhteen: max bin E( k) Otetaan logaritmi jokaisesta E(k):sta k=1 K Lasketaan diskreetti kosinimuunnos (II) vektorista log(e) bminbin S( z) 2
MFCC:iden laskeminen määritetään Mel-asteikolla haluttu määrä (yleensä reilu 20 välillä 0 8000Hz) tasalevyisiä kaistanpäästösuotimia. Kunkin suotimen kohdalle osuvien fft-binien energiat lasketaan yhteen: max bin E( k) Otetaan logaritmi jokaisesta E(k):sta k=1 K Lasketaan diskreetti kosinimuunnos (II) vektorista log(e) bminbin S( z) Eli MFCC:t ovat yhtä kuin DCT-kertoimet vektorista log(e) 2