Paavo Alku Aalto-yliopisto, Signaalinkäsittelyn ja akustiikan laitos 1. PUHESIGNAALIN OMINAISUUDET. 1.1 Johdanto

Koko: px
Aloita esitys sivulta:

Download "Paavo Alku Aalto-yliopisto, Signaalinkäsittelyn ja akustiikan laitos 1. PUHESIGNAALIN OMINAISUUDET. 1.1 Johdanto"

Transkriptio

1 Paavo Alku Aalto-yliopisto, Signaalinkäsittelyn ja akustiikan laitos 1. PUHESIGNAALIN OMINAISUUDET 1.1 Johdanto Puhe on aina ollut kaikissa kulttuureissa ihmisen tärkein kommunikaatiomuoto. Se on niin itsestään selvä osa ihmisen arkipäivää, että harvoin pysähdymme miettimään puheen ainutlaatuisuutta. Vasta silloin kun joudumme luopumaan puheesta, tapahtui tämä sitten yksilön tasolla puhekyvyn menettämisenä tai yhteiskunnan tasolla matkapuhelinverkon mykistymisenä, tajuamme konkreettisesti, kuinka merkittävä rooli puheella on. Teknisiä tieteitä ja niitä lähellä olevia luonnontieteitä, joissa puhesignaalia käsitellään esimerkiksi puhekommunikaation tai ihminen-kone-rajapinnan toteuttamiseksi, nimitetään puheteknologiaksi. Puheteknologian alueita on yleinen puheanalyysi (speech analysis), johon kuuluu menetelmät, joilla puhesignaalista saadaan selville sen ominaisuuksia ja piirteitä. Puhesynteesissä (speech synthesis) kehitetään tekniikoita tuottaa tekstistä mahdollisimman aidon kuuloista puhetta koneen avulla. Puheentunnistuksen (automatic speech recognition) haaste on käänteinen: tavoitteena on saada tietokone muuntamaan luonnollisen puhujan tuottama puhesignaali tekstiksi tai erimerkiksi reagoimaan komentosanoihin. Puhujantunnistuksen (speaker recognition) tavoitteena on tunnistaa tai verifioida puhetta tuottanut puhuja. Puheenkoodaus (speech coding) on tietoliikennetekniikkaan perinteisesti läheisimmin kuuluva puheteknologian alue, jolla tarkoitetaan menetelmiä, jotka kompressoivat digitaalisen puhesignaalin esimerkiksi matkapuhelinverkossa tai VoIP:lla (Voice over Internet Protocol) tapahtuvaa siirtoa varten. Puheenkoodaus liittyy usein käytännön teknologiassa läheisesti puheensiistaukseen (speech enhancement). Puheensiistauksella tarkoitetaan niitä menetelmiä, joilla muokataan puhesignaalia erimerkiksi poistamalla siihen summautunutta taustakohinaa tai piilottamalla (error concealment) pakettiverkkosiirrossa hävinneiden datapakettien heikentävää vaikutusta äänenlaatuun. Kaikilla edellä mainituilla puheteknologian alueilla on yhteisenä piirteenä se, että niissä käsitellään digitaalisessa muodossa olevaa informaatiosignaalia, joka on tuotettu ihmisen puheentuottomekanismilla. Tämä mekanismi synnyttää puheelle tunnusomaisia akustisia piirteitä, joiden perusteiden ymmärtäminen on tärkeä osa kaikilla puheteknologian alueilla. Esimerkiksi luvussa 2 kuvattavassa teknologiassa, puheenkoodauksessa, saavutetaan tehokas äänisignaalin kompressio kohdentamalla bittiresurssi ensisijaisesti niiden parametrien kuvaamiseen, jotka on keskeisiä puheentuottomekanismissa. 1.2 Ihmisen puheentuottomekanismi Puheentuottomekanismin pääosat ja -toiminta Puhesignaali on paineaalto, jonka synnyttää ihmisen äänentuottoelimistö (kuva 1.1). Vaikka tätä fysiologista mekanismia tarkastellaan tässä yhteydessä puheentuoton perspektiivistä, on syytä muistaa, että samalla koneistolla ihminen toteuttaa kaksi muuta välttämätöntä tehtävää, hengittämisen ja syömisen. Äänentuottoelimistö voidaan karkeasti jakaa kahteen pääosaan: (1) herätteen tuottaviin äänihuuliin (vocal folds) ja (2) tätä suodattavaan ääniväylään (vocal tract). Äänihuulet ovat kimmoisasta limakalvosta ja lihaskudoksesta koostuvat poimut henkitorven yläpäässä (kuvat 1.2 ja 1.3). Tuotettaessa soinnillista ääntä, kuten kappaleessa tarkemmin kuvataan, alkavat äänihuulet värähdellä keuhkoissa synnytetyn paineen seurauksena. Äänihuulten 1

2 välissä oleva rako on nimeltään glottis (äänirako). Syntyvä fysiologinen, lähes jaksollinen värähtely on nopein liike, mitä ihmiskehossa ilmenee. Äänihuulten fysiologiaa ja toimintaa voidaan karkeasti suuruusluokaltaan kuvata seuraavalla ykkösjonolla, joka vastaa keskimääräisen aikuisen naispuhujan arvoja: (a) äänihuulen värähtelevän osan pituus: 1 cm (miespuhujalla 1.6 cm), (b) värähtelevän osan amplitudi: 1 mm, (c) äänihuulen paino: 1 gramma, (d) maksimaalinen ns. peakto-peak virtaus: 1 litra/s (Titze, 1994). Ääniväylä on fysiologinen suodatin, jonka profiilia muuttamalla ihminen kykenee saamaan aikaan erityyppisiä akustisia suodatusefektejä äänihuulilta lähtevään herätesignaaliin. Ääniväylän pituus on naisilla keskimäärin 13,5 cm ja miehillä 17 cm. Ääniväylän poikkipinta-ala vaihtelee -2 cm 2 :n välillä riippuen siitä, mitä äännettä ihminen tuottaa (Rabiner ja Schafer, 1978). Ääniväylän yläosa haarautuu kahdeksi eri osaksi: suuväyläksi (oral cavity) sekä nenäväyläksi (nasal cavity). Kuva 1.1 Puheentuottoelimistön pääosat (Rowden, 1992). 2

3 Kuva 1.2 Kurkunpää, äänihuulet merkitty kahdella nuolella, näiden välissä näkyvä aukko on äänirako (glottis) (Flanagan, 1972). Kuva 1.3 Mikrofonin antama puhesignaali (ylin kuva), käänteissuodatuksella estimoitu glottisvirtaus (keskimmäinen kuva) sekä digitaalisella suurnopeuskuvauksella suuaukon kautta kuvatut äänihuulet kolmena aikahetkenä (Pulakka, 25). 3

4 Puheentuottamisketjun viimeiseksi vaiheeksi luetaan kuuluvaksi ns. huulisäteily (lip radiation) (Fant, 197; Flanagan, 1972). Tällä tarkoitetaan suuaukolta erkaantuvan tilavuusnopeuspulssimuodon muuttumista paineaalloksi tietyn etäisyyden päässä puhujasta. Edettyään vapaassa ilmatilassa kohtaa tuotettu ääni mikrofonin, joka muuttaa paineaallon sähköiseen muotoon. Täten saatu analoginen signaali muutetaan digitaaliseksi AD-muuntimessa. Näin saadaan lopulta puhesignaali, jota puheteknologian eri sovellutusalueet hyödyntävät lähtöinformaationa. Ihminen käyttää edellä karkeasti kuvattua puheentuottomekanismia eri tavalla riippuen siitä, mikä äänne halutaan synnyttää. Jos äänteet jaotellaan tuottomekanismin toiminnan mukaan, voidaan syntyviä äänteitä tarkastella seuraavan kolmijaon mukaan (Flanagan, 1972): (1) Soinnilliset äänteet (voiced sounds). Näiden äänteiden tuottamisessa äänihuulet värähtelevät. Soinnilliset äänteet ovat tärkein äänneryhmä ja siihen kuuluvat esimerkiksi kaikki vokaalit sekä ns. nasaalit ([n], [m]). (2) Soinnittomat äänteet (unvoiced sounds). Tämän ryhmän äänteiden tuottamisessa äänihuulet ovat auki ja niiden välistä purkautuvan ilmavirtauksen eteen synnytetään jossakin ääniväylän kohdassa ahtauma (esimerkiksi kielen etuosan ja hammasvallin välissä), jolloin syntyy pyörrevirtaus. Tämän ryhmän äänteitä nimitetään frikatiiveiksi (hälyäänne), esimerkkeinä [s], [h] ja [f]. (3) Edellisen kahden pääryhmän rinnalla on äänneryhmä, klusiilit (plosives), jotka usein erotellaan omaksi ryhmäkseen johtuen niiden erilaisesta puheentuoton toimintaperiaatteesta. Klusiilien tuottamisessa ihminen sulkee hetkeksi ilman virtauksen ääniväylän läpi. Paineen kasvun nopea vapauttaminen synnyttää tähän ryhmään kuuluvan, tyypillisesti hyvin lyhytkestoisen äänteen. Klusiileja on sekä soinnillisia ([b], [d] ja [g]) että soinnittomia ([k], [t] ja [p]). Kuten kohdassa 1.1 todettiin, hyödynnetään kaikissa puheteknologian alueissa jollain tavalla puheelle luonteenomaisten akustisten piirteiden ominaisuuksia. Erityisesti äänihuulten muodostaman soinnillisen äänteen herätesignaalin, glottis-pulssijonon, sekä ääniväylän merkitys on oleellinen puhesignaalin ominaisuuksiin vaikuttava tekijä. Tästä syystä seuraavaksi tarkastellaan näitä kahta puheentuottamisen prosessia hieman tarkemmin Glottis-heräte Glottis-heräte on värähtelevien äänihuulten välistä lähtevä virtauspulssijono, joka toimii soinnillisten äänteiden herätteenä. Soinnilliset äänteet ovat merkittävin äänneluokka lähes kaikissa maailman kielissä. Esimerkiksi englannin kielessä on laskettu (tekstimuotoisesta datasta) soinnillisten äänteiden osuuden olevan lähes 8 % (Catford, 1977). Keuhkoista lähtevä ilmavirta aiheuttaa sulkeutuneiden äänihuulten alapuolelle paineen kasvamisen. Tämän seurauksena äänihuulet alkavat avautua, jolloin niiden välissä oleva äänirako, glottis, alkaa kasvaa. Glottiksen läpi kulkeva virtaus lisääntyy, joka puolestaan aiheuttaa alipaineen syntymisen äänihuulten väliin. Tämä alipaine alkaa vetää fysiikasta tutun Bernoullin efektin mukaisesti äänihuulikudosta yhteen, eli glottis supistuu ja lopulta menee kokonaan umpeen. Tämän jälkeen paine äänihuulten alapuolella alkaa taas kasvaa eli sama toiminta jatkuu (lähes) jaksollisena. Tuloksena saadaan jaksollinen virtauspulssi, glottis-heräte. Kuvan 1.4 ylemmässä osassa on esitetty puhesignaali, jonka alapuolella on tästä laskettu glottis-herätteen aika-alueen pulssimuoto. Glottis-herätteen tehon jakaantuminen eri taajuuksille, tehospektri, on esitetty kuvassa

5 Aika (s) Kuva 1.4 Puhesignaali (ylempi kuva) ja siitä laskettu glottis-virtaus (alempi kuva). Puhesignaali on miespuhujan [a]-vokaali, glottis-virtaus on estimoitu ns. käänteissuodatusmenetelmällä (Alku, 1992). Huomaa, kuinka glottiksen sulkuhetket alemmassa kuvassa vastaavat suunnilleen niitä ajanhetkiä, joissa ylemmän kuvan puhesignaali vahvistuu nopeasti jokaisen jakson aikana. 4 2 Tehospektri (db) Taajuus (Hz) Kuva 1.5 Glottis-herätteen tehospektri, laskettu kuvassa 1.4 esitetystä glottisvirtauspulssijonosta 248 näytteen FFT:llä (Hamming-ikkuna). Kuvista 1.4 ja 1.5 voidaan tehdä seuraavia yleisiä havaintoja: Äänihuulten generoima glottis-heräte, äänen alkuperä, on muodoltaan varsin pyöreä. Tämä johtuu siitä, että pulssin on muodostunut kahden runsaasti vettä sisältävän kudoksen eli äänihuulten värähtelyn tuloksena. Tämän fysiologisen lähtökohdan tärkeä seuraus on se, että syntyvien soinnillisten äänteiden, erityisesti vokaalien, spektrin yleisrakenne (kuvan 1.5 verhokäyrä) on laskeva (ts. spektri on alipäästötyyppinen). 5

6 Glottis-herätteen jakson aikakesto on eräs tärkeimmistä parametreista, jonka arvon muuttuminen saa ihmisten tuottamat puhesignaalit kuulostamaan erilaisilta. Tämä glottis-herätteen suure on nimeltään äänen perusjakson aika eli pitch-jakso 1. Arvon käänteisluku on nimeltään perustaajuus, jota yleisesti merkitään lyhenteellä F ( F-nolla ). Naisilla ja lapsilla äänihuulten koko on pieni ja niiden liike on nopeaa, jolloin näiden puheessa jaksonaika on yleensä lyhyt (naisilla tyypillisesti 5 ms). Syntyvää ääntä luonnehditaan tällöin korkeaksi. Miespuhujilla sen sijaan äänihuulet ovat kooltaan isommat, jolloin niiden liike on hitaampaa ja syntyvän glottis-herätteen jaksonaika on suurempi (suomalaisilla miehillä puheäänessä tyypillisesti 1 ms). Tällöin tuotettua ääntä luonnehditaan matalaksi. Äänen korkeus ja mataluus aiheutuu siis puheentuotossa glottisherätteen perusjakson kestosta. Edellisten esimerkkien lukuarvot kuvattuna perustaajuuden avulla merkitsevät sitä, että naisäänillä on keskimäärin puheessa F:n arvo 2 Hz kun taas miespuhujilla se on 1 Hz. Nämä F-arvot ovat (eurooppalaiselle) puheäänelle tyypillisesti ilmoitettavat keskimääräiset perustaajuuslukemat 2. On selvää, että F vaihtelee suuresti näiden keskiarvojen ympärillä riippuen esimerkiksi puhujasta ja intonaatiosta. Ihmisen puheentuottomekanismi kykenee nostamaan F:n huomattavasti eo. puheäänelle annettuja arvoja suuremmaksi: esimerkkinä tästä on lauluääni, jossa F voi nousta sopraanoilla liki 15 Hz:iin (Klingholz, 199). Vaikka kuvan 1.4 glottis-heräte näyttää säännöllisen jaksolliselta, on syytä muistaa, että puhesignaalit tuotetaan inhimillisellä laitteistolla eli ihmisen puheentuotto-elimillä. Näiden toiminta ei koskaan ole konemaisen täsmällistä. Täten puhesignaalin herätesignaalin jaksollisuus soinnillisten äänteiden tapauksessa ei tarkkaan ottaen pidä paikkaansa, vaan kuvan 1.4 mukaisen virtauspulssijonon peräkkäisten pulssien jaksonajat muuttuvat. Tämä inhimillisyys glottisherätteessä on asia, joka esimerkiksi puheensiirtojärjestelmän toisessa ääripäässä eli puhetta vastaanottavan ihmisen korvassa tulkitaan äänen luonnollisuutena. Jos siis puhesignaali tuotetaan esimerkiksi äänisyntetisaattorilla käyttäen täsmälleen jaksollista glottis-herätettä, tulkitsisi näin tuotettua puhetta kuunteleva vastaanottaja äänen konemaiseksi. Myös glottis-herätteen yleinen muoto vaihtelee eri puhesignaaleissa. Muuttamalla glottis-herätteen muotoa esimerkiksi tuottamalla pyöreämpää tai särmikkäämpää virtauspulssimuotoa ihminen kykenee kuvan 1.6 mukaan vaihtamaan puheensa ns. ääntöä eli tuottamaan vuotoisalta, normaalilta tai puristeiselta kuulostavaa ääntä. Kaikki äänen variaatiot, siis muutokset esimerkiksi jaksonajassa tai äännössä, täytyisi kyetä ainakin kohtuullisesti siirtämään puheensiirtojärjestelmässä. 1 Perustaajuus (F) ja käsite "pitch" ovat periaatteessa eri asia: F on (minkä tahansa) jaksollisen signaalin jaksonajan käänteisarvo, kun taas "pitch" on perkeptuaalinen suure eli se kuvaa sitä, miten ihminen havaitsee äänen korkeuden. Varsinkin puheenkoodauksessa on "pitch"-käsitettä jo pitkään käytetty periaatteessa väärin viittaamalla "pitch-jaksolla" puhesignaalista mitattuun jaksonaikaan (yksikkönä siis millisekunti tai diskreetti aikaindeksi). Käsite on kuitenkin niin yleistynyt, että sitä käytetään esimerkiksi ITU-T:n puheenkoodausstandardeissa. 2 Puheensiirto on perinteisesti toteutettu käyttäen signaalikaistaa 3-34 Hz (ks. taulukko 2.2). Tällöin puheen keskimääräinen perustaajuus (naisilla 2 Hz, miehillä 1 Hz) on suodattunut pois vastaanottimelle lähetetystä signaalista. Äänen korkeuden pystyy ihmisen kuulojärjestelmä kuitenkin havaitsemaan perustaajuuden monikerroista, vaikka itse F-taajuus puuttuisi (ns. missing fundamental -ilmiö; Rossing, Moore ja Wheeler, 22). 6

7 1 1 1 (a) (b) (c) Aika (s) Kuva 1.6 Glottis-heräte eri ääntötavoissa: vuotoisa ääntö (a), normaali ääntö (b) ja puristeinen ääntö (c). Kaikki esimerkit laskettu miespuhujan [a]-äänteestä käyttämällä käänteissuodatusmenetelmää (Alku, 1992) Ääniväylä Glottis-heräte joutuu äänihuulilta erkaannuttuaan ääniväylään. Ääniväylä on puheentuoton oleellisimpia osia. Se on fysiologinen suodatin, jonka suodatusominaisuuksia muuttamalla ihminen voi tuottaa erilaisia äänteitä. Siis esimerkiksi vokaalit [a] ja [i] kuulostavat erilaisilta siksi, että ne on tuotettu suodattamalla glottis-heräte erilaisen ääniväylän läpi. Fysiologisesti tulkittuna ääniväylän suodatusominaisuuksien muuttaminen tarkoittaa sitä, että ihminen muuttaa esimerkiksi kielen ja huulten asentoa. Näillä muutoksilla ihminen kykenee vaihtelemaan ääniväylän profiilia, jolloin kyseisen fysiologisen suodattimen akustiset ominaisuudet muuttuvat, ja tuloksena saadaan esimerkiksi suomen kielessä kahdeksan vokaalia, jotka kuulostavat erilaisilta. Ääniväylän suodatusominaisuuksien muuttaminen merkitsee teknisesti tulkittuna sitä, että ääniväylän resonanssitaajuuksia eli formantteja muutetaan. Kuvassa 1.7 on esitetty kahden vokaalin ([a] ja [i]) tapauksessa ääniväylän siirtofunktiot, joista formantit erottuvat selvästi paikallisina maksimeina. Formantteja on vokaaleissa keskimäärin yksi kappale 1 Hz:ä kohti. Äänteitä verrattaessa on puheenkäsittelyssä tapana numeroida nämä resonanssitaajuudet siten, että pienintä taajuusarvoa nimitetään 1. formantiksi (F1), toiseksi pienintä 2. formantiksi (F2) jne. Suomen kielen kahdeksan vokaalia kyetään erottamaan toisistaan, mikäli äänestä siirretään kaksi alinta formanttia, siis F1 ja F2. Kuvassa 1.8 on esitetty amerikanenglannin vokaalien sijoittuminen kahden alimman formantin virittämässä F1-F2-tasossa, kun vokaaleja tuottaa usea puhuja. Vaikka esimerkiksi suomen kielen kahdeksan vokaalia erottuvat toisistaan, kun näistä siirretään kahden alimman formantin levyinen taajuuskaista, on siirrettävän puheen laadun kannalta parempi, jos resonanssitaajuuksia on siirrettävässä signaalissa enemmän kuin kaksi alinta. Puheensiirrossa (vrt. luku 2) voidaan nykyään käyttää neljää eri kaistaleveyttä, joista kapein on ns. perinteinen puhelinkaista (3-34 Hz). Tällöin voidaan todeta, kuten kuvassa 1.9 on havainnollistettu, että vokaalien formanteista siirtyy puhelinkaistalla juuri ja juuri neljä alinta. 7

8 Kuva 1.7 Ääniväylän siirtofunktio (Rabiner ja Schafer, 1978): Ylempi kuva: vokaali [a], alempi kuva: vokaali [i]. Kummassakin kuvassa erottuu selvästi siirtofunktion paikalliset maksimit, formantit. 8

9 Kuva 1.8 F1-F2-kartta amerikanenglannin vokaaleista useiden puhujien lausumina (Peterson ja Barney, 1952). Kuva 1.9 Intensiteetti-taajuus-kartta puheäänten tyypillisille parametreille (Richards, 1973). 9

10 1.3 Esimerkkejä äänteistä aika- ja taajuusalueessa Edellisissä luvuissa on yleisluonteisesti kuvattu kolmen erilaisen äännetyypin (soinnilliset, soinnittomat ja klusiilit) tapauksessa puheentuottomekanismin toimintaa. Katsotaan seuraavaksi joitain tyyppiesimerkkejä puhesignaalin aaltomuodosta ja spektristä käymällä läpi ko. kolme ryhmää. On huomattavaa, että kaikki seuraavat esimerkit kuvaavat nimenomaan puhesignaalia, siis sitä tuotosta, joka saadaan muuttamalla ihmisen äänentuottomekanismin tuottama paineaalto sähköiseen muotoon mikrofonilla Soinnilliset äänteet Seuraavissa kuvissa on esitetty kahden vokaalin ([a] ja [u]) aika-alueen aaltomuodot (kuva 1.1) ja näistä Fourier-muunnoksella lasketut tehospektrit (kuva 1.11). Esimerkkipariksi valitut [a] ja [u] ovat suomen kielen vokaalien joukossa toisistaan selvästi poikkeavia, kuten seuraavista sekä aikaettä taajuusalueen esitysmuodoista havaitaan (a) (b) Aika (s) Kuva 1.1 Soinnillinen äänne aika-alueessa, miespuhuja. (a): vokaali [a], (b): vokaali [u]. Tehospektri (db) (a) (b) Taajuus (Hz) Kuva 1.11 Soinnillinen äänne taajuusalueessa, miespuhuja. (a): vokaali [a], (b): vokaali [u]. 1

11 Edellisistä kuvista voidaan tehdä seuraavat havainnot: Aika-alue (kuva 1.1): Vokaaliäänteelle on tyypillistä suuret vaihtelut signaalin amplitudiarvoissa. Suurin osa signaalinäytteistä on pienehköjä, mutta glottiksen sulkeutumisesta aiheutuu voimakas akustinen heräte, joka näkyy syntyneessä puhesignaalin aaltomuodossa suurina hetkellisinä amplitudiarvoina. Puhesignaalissa näkyy (lähes) jaksollisen glottis-herätteen vaikutus selvästi. Aika-alueen signaalissa havaitaan sama perusjakso (pitch-jakso), kuin kyseisen tuotoksen alkuperässä eli glottis-herätteessä. Esimerkiksi koodattaessa puhetta sen siirtämiseksi tietoverkossa on tärkeää, että tämä soinnillisen äänteen jaksollinen rakenne kyetään kuvaamaan mahdollisimman aitona. Pienikin vääristymä (lähes) jaksollisen signaalin periodisessa rakenteessa on asia, jonka ihmisen korva havaitsee häiritsevänä tekijänä. Synteettisillä vokaaleilla tehdyissä kokeissa on todettu, että ihmisen kuulojärjestelmä on erittäin herkkä F:n muutokselle: jo.5 % muutos perustaajuudessa on havaittavissa (Flanagan, 1972). Taajuusalue (kuva 1.11): Kummassakin vokaalissa havaitaan ääniväylän aiheuttamat formantit. Näiden formanttien keskitaajuuksiksi voidaan kuvista arvioida seuraavat arvot: vokaali [a]: F1 = 6 Hz, F2 = 1 Hz, F3 = 2 Hz, F4 = 35 Hz, kun taas vokaalille [u] saadaan suunnilleen seuraavat arvot: F1 = 4 Hz, F2 = 6 Hz, ylempien formanttien ollessa vaimentuneet. Se, että vokaalin [u] kaksi ensimmäistä formanttia ovat taajuudeltaan pienempiä kuin vokaalilla [a], voidaan epäsuorasti havaita myös vertaamalla aika-alueen aaltomuotoja, siis kuvia 1.1(a) ja 1.1(b). Näistä todetaan, että [u]:n yleismuoto on pehmeämpi, ts. enemmän pieniä taajuuskomponentteja sisältävä, kuin [a]:n. Jaksollinen glottis-heräte aiheuttaa spektreihin kampamaisen rakenteen. Tämän spektrikamman ensimmäinen huippu vastaa perustaajuutta (F). F:ssa olevan ensimmäisen piikin monikerrat, siis 2 F, 3 F jne., luovat vokaaliäänteen spektrille tyypillisen harmonisen rakenteen. Glottisherätteen alipäästöluonteesta aiheutuva vokaalispektrin vaimeneminen siirryttäessä kohti suurempia taajuuksia on selvästi havaittavissa Soinnittomat äänteet Soinnittomista äänteistä esimerkiksi on otettu frikatiivi [s], jonka aika-alueen aaltomuoto on esitetty kuvassa 1.12 ja spektri kuvassa Aika (s) Kuva 1.12 Soinniton äänne (frikatiivi [s]) aika-alueessa. 11

12 Frikatiivin [s] tapauksessa voidaan esimerkkinä olevasta aaltomuodosta ja sen spektristä tehdä seuraavat päähavainnot: Aika-alue (kuva 1.12): Signaali on kohinamainen, eikä siinä ole havaittavissa jaksollista rakennetta kuten edellisten esimerkkien vokaaleissa. Kohinamainen aaltomuoto frikatiiveissä on lisäksi pitkäkestoisempi kuin esimerkiksi klusiilien kohinapurske (Kent ja Read, 1992). Frikatiivien kesto vaihtelee suuresti riippuen esimerkiksi siitä, missä kohtaa lausetta tämä kohinamainen äänne sijaitsee: kosonanttitavuissa on mitattu noin 5 ms kestoisia frikatiivejä kun taas lauseen lopussa olevien frikatiivien kestoksi on raportoitu noin 2 ms (Klatt, 1976). Signaalinäytteiden amplitudiarvot ovat tasaisemmin jakautuneet kuin soinnillisilla äänteillä. Suurimmat amplitudiarvot ovat yleensä, varsinkin mikäli signaalia käsitellään alle 4 khz:n kaistalla, pienempiä kuin vokaaliäänteiden suurimmat signaalinäytteet. Taajuusalue (kuva 1.13): Spektrissä ei esiinny niin selviä, tietyssä paikassa olevia resonanssitaajuuksia kuin vokaaleilla. Spektrin yleisrakenne on tasaisempi kuin vokaaleilla, [s]-äänteen tapauksessa spektrillä on ylipäästöluonne noin 7 khz:iin asti. 4 Tehospektri (db) Taajuus (Hz) Kuva 1.13 Soinniton äänne (frikatiivi [s]) taajuusalueessa Klusiilit Klusiilien, erityisesti soinnittomien, tapauksessa signaalin aika-alueen aaltomuodon tarkastelu on hankalaa, sillä ne sisältävät lyhytkestoisen purskeen. Yleisesti ottaen (soinnittomien) klusiilien aikaalueen aaltomuotoon liittyy kaksi komponenttia: ilmavirtauksen hetkellisestä tukkimisesta aiheutuva hyvin pienenerginen osuus sekä virtauksen nopeasta vapautumisesta syntyvä kohinapurske. Ensin mainitun komponentin kesto on tyypillisesti 5-1 ms, kun taas jälkimmäinen on selvästi lyhempi kestäen vain noin 5-4 ms (Kent ja Read, 1992). Soinnittomien klusiilien kohinapurske onkin kestoltaan kaikkein lyhimpiä puhesignaalin akustisia yksikköjä. Alla olevassa kuvassa (kuva 1.14) on esitetty sanan kaksi (miespuhujan lausumana) aaltomuoto. Kuvasta todetaan, kuinka kahden [k]-klusiilin kohinapurskeet ovat kestoltaan vokaaleihin [a] ja [i] sekä frikatiiviin [s] verrattuna selvästi lyhempiä. Lisäksi jälkimmäisen klusiilin edessä oleva pienenerginen aaltomuoto erottuu selvästi esimerkiksi vokaalista [a] ja frikatiivista [s]. 12

13 1 /k/ /a/ /k/ /s/ /i/ Kuva 1.14 Sanan kaksi aaltomuoto. Viitteet: Alku, P., Glottal wave analysis with Pitch Synchronous Iterative Adaptive Inverse Filtering, Speech Communication, Vol. 11, No. 2-3, ss Catford, J.C., Fundamental Problems in Phonetics, Edinburgh University Press, Edinburgh. Fant, G., 197. Acoustic Theory of Speech Production, Mouton, The Hague. Flanagan, J.L., Speech Analysis, Synthesis and Perception, Springer Verlag, New York. Kent, R.D. ja Read, C., The Acoustic Analysis of Speech, Singular Publishing Group, San Diego. Klatt, D.H., Linguistic uses of segmental duration in English: Acoustic and perceptual evidence, J. Acoust. Soc. Am., Vol. 59, ss Klingholz, F., 199. Acoustic recognition of voice disorders: A comparative study of running speech versus sustained vowels, J. Acoust. Soc. Am., Vol. 87, No. 5, ss Peterson, G.E. ja Barney, H.L., Control methods used in a study of the vowels, J. Acoust. Soc. Am., Vol. 24, No. 2, ss Pulakka, H., 25. Analysis of human voice production using inverse filtering, high speed imaging, and electroglottography, Diplomityö, TKK, Akustiikan ja äänenkäsittelytekniikan laboratorio. Rabiner, L.R. ja Schafer, R.W., Digital Processing of Speech Signals, Prentice-Hall, New Jersey. Richards, D.L., Telecommunication by Speech, Butterworths, London. Rossing, T., Moore, F.R. ja Wheeler, P.A., 22. The Science of Sound, Addison-Wesley, San Francisco. Rowden, C. (Ed), Speech Processing, McGraw-Hill, New York. Titze, I., (1994). Principles of Voice Production. Prentice-Hall, New Jersey. 13

14 2. PUHEENKOODAUS 2.1 Johdanto Sähköisen tietoliikennetekniikan kehittyminen alkoi nimenomaan tarpeesta siirtää puhesignaali tilaajalta toiselle. Huolimatta siitä, että nykyisissä tietoliikenneverkoissa siirretään paljon muutakin informaatiota kuin puhetta, tulee puhe aina säilymään keskeisenä siirrettävänä informaatiosignaalina tietoliikennetekniikassa. Puheenkoodaus on puheteknologian alue, jossa tavoitteena on kompressoida tietoverkoissa siirrettävä digitaalinen puhesignaali pienellä bittimäärällä ilman että puheen laatu heikkenee. Vaikka puheensiirto on nykyään tietoliikenneverkoissa digitaalista, on siirrettävä informaatio lähtökohtaisesti analoginen, ihmisen puheentuottojärjestelmän synnyttämä paineaalto, jonka tuottomekanismia kuvattiin edellisessä luvussa. Tämä analoginen aaltomuoto muunnetaan digitaaliseksi siirtojärjestelmän lähettimessä käyttäen esimerkiksi G.711 standardin mukaista PCMtekniikkaa (Pulse Code Modulation), jossa puhelinkaistalla (3-34 Hz) oleva analoginen signaali näytteistetään 8 khz:n näytetaajuudella. Jokainen näyte kvantisoidaan PCM-koodauksessa 8:lla bitillä. Tällöin tuloksena saadaan analogisesta puhesignaalista digitaalinen bittivirta, jonka nopeus on 8 khz. 8 bittiä = 64 kbit/s. Jo kapeakaistaisen perinteisen puhelinkaistan koodaamisessa vaaditaan siis varsin suuri bittinopeusvaatimus jokaista puhekanavaa kohti. Mitä suurempi on yksittäisen puhekanavan siirtämiseen käytettävä bittinopeus, sitä laajempi on myös siirtokanavan kaistanleveysvaatimus. Erityisesti radiosiirrossa kaistaleveyden kasvattaminen on ongelmallista johtuen käytettävissä olevan resurssin, radiotaajuuksien, rajallisuudesta. Varsinkin digitaalisen matkapuhelimen kehityksen myötä nousi puheensiirrossa tärkeäksi kysymykseksi se, olisiko mahdollista siirtää puhesignaali pienemmällä bittinopeudella ilman, että signaalin laatu ratkaisevasti heikkenee. Niitä tekniikoita, joilla tähän pyritään, nimitetään puheenkoodaus- eli kompressiomenetelmiksi. 2.2 Puheenkoodauksen perusteet Aaltomuodon kooderit ja vokooderit Puheenkoodausmenetelmät on perinteisesti jaettu kahteen ryhmään: aaltomuodon koodereihin (waveform coders) ja lähteen koodausmenetelmiin eli vokoodereihin (source coders, vocoders) (Kleijn ja Paliwal, 1995). Ensin mainittuun ryhmään kuuluville puheenkoodausmenetelmille on ominaista pyrkimys siirtää puhesignaalin aaltomuoto vastaanottimelle mahdollisimman samankaltaisessa muodossa, kuin mitä se oli lähettimessä. Tätä luonnolliselta tuntuvaa koodauksen periaatetta käytetään esimerkiksi edellä mainitussa PCM-koodauksessa: näytteistämällä saatu digitaalinen PCM-signaali muistuttaa mahdollisimman paljon alkuperäistä analogista puheen aaltomuotoa. Aaltomuodon koodausmenetelmillä on yleensä etuna se, että niitä voidaan soveltaa erityyppisten signaalien, siis ei pelkästään puhesignaalin, koodaamiseen. Puhesignaalin tapauksessa aaltomuodon koodausmenetelmillä on lisäksi se etu, että niillä saavutettava puheen laatu ei juurikaan riipu puhujasta. Toisin sanoen korkean perustaajuuden omaavat naisäänet kyetään siirtämään samanlaatuisena kuin matalat miesäänet. Aaltomuodon koodereiden suorituskyky ei myöskään ole kovin herkkä signaaliin häiriönä summautuvan kohinan vaikutukselle. Aaltomuodon koodausmenetelmät eivät kuitenkaan pysty kompressoimaan puhesignaalia kovin tehokkaasti ilman että signaalin laatu heikkenee. Siksi esimerkiksi matkapuhelinverkoissa vaadittavaa tehokasta puheenkoodausta ei voida toteuttaa PCM-tekniikan tyyppisillä aaltomuodon koodereilla. 14

15 Aaltomuodon koodauksen rinnalle kehitetty toinen puheenkoodauksen pääperiaate, lähteen koodaus eli vokooderi-menetelmä, pyrkii tehokkaampaan puheenkoodaukseen. Tämä on mahdollista pyrkimällä parametroimaan sitä mekanismia, jolla puheen aaltomuoto on synnytetty, ei siis jäljittämällä synnytettyä aaltomuotoa. Kuvassa 2.1 on esitetty eräs kaavamainen toteutus vokooderille. Menetelmässä jäljitetään ihmisen puheentuotto-mekanismin toimintaa jakamalla puheentuotto herätteeseen ja ääniväyläsuodattimeen. Heräteosa on lisäksi yksinkertaistettu kuvittelemalla tämän muodostuvan joko kohinasta (soinnittomat äänteet) tai impulssijonosta (soinnilliset äänteet). Ääniväylää voidaan mallintaa digitaalisella suodattimella, joka ratkaistaan luvussa kuvattavalla puheenkoodauksen tärkeimmällä työvälineellä, lineaarisella ennustuksella (linear predictive coding, LPC). Vokooderi-menetelmän lähetinosa analysoi siirrettävää puhesignaalia lyhyissä aikakehyksissä ratkaisemalla kunkin Kuvan 2.1 osaprosessin parametrien arvot. Näiden parametrien määrä on niin pieni, että niiden kuvaamiseen vaadittava bittimäärä on huomattavasti vähäisempi kuin alkuperäisen aaltomuodon kuvaamiseen vaadittava bittimäärä. Lähteen koodausmenetelmillä pyritään siis kuvaamaan oleellisin informaatio puhesignaalista, minkä seurauksena syntyvä bittinopeus pienenee voimakkaasti. Kuva 2.1 Yksinkertainen vokooderin toimintamalli (Rabiner ja Schafer, 1978). Lähteen koodausmenetelmillä on yleensä puutteena se, että ne eivät toteuta kaikkia edellä aaltomuodon koodereille lueteltuja piirteitä. Koska vokoodereiden ideana on puheen tuottamisen tärkeimpien parametrien (perustaajuus, soinnillinen/soinniton päätös, formantit jne.) hyödyntäminen, on ymmärrettävää, että jos koodattavaksi tuleekin jokin puheesta täysin eroava signaali, esimerkiksi soittimen tuottama ääni, niin vokooderi ei luultavasti suoriudu tehtävästään yhtä hyvin kuin puhesignaalin tapauksessa. Koska lähteen koodauksessa äänen tuottaminen kuvataan käyttämällä pientä määrää parametreja, on myöskin ymmärrettävää, että näiden menetelmien antama äänen laatu ei yleensä ole niin hyvä kuin aaltomuodon koodereilla. Lähteen koodausmenetelmillä kompressoitu puhe on tyypillisesti täysin ymmärrettävää (intelligible), mutta ääni on laadultaan synteettistä. Varsin usein vokoodereilla saadaan myös parempi puheen laatu, kun signaalin tuottaa miespuhuja. Toisin sanoen vokoodereiden suorituskyky riippuu paitsi siitä, onko koodattavana signaalina puhe vai jokin muu signaali, niin myös puhesignaalin tapauksessa puhujasta (talker dependent). Mikäli kooderille tuleva signaali on kohinaista, on vokoodereilla usein taipumus tehdä virheellisiä päätöksiä puheen tuottamiseen liittyvistä parametreista. Tästä on se 15

16 seuraus, että lähteen koodausmenetelmien antama puheen laatu heikkenee yleensä voimakkaammin verrattuna aaltomuodon koodereihin, mikäli kompressoitavan signaalin sisältämä taustamelu lisääntyy. Meluisan puheen koodaaminen on keskeinen ongelma esimerkiksi matkapuhelinympäristössä, jossa koodattavaan puhesignaaliin summautuu usein häiritsevää ääntä, jota synnyttävät esimerkiksi auton moottori tai ympäristössä olevat muut puhujat. Vaikka edellä on lueteltu joukko vokoodereiden heikkouksia, on niillä vahvimpana puolena se, että kompressoidun puheen bittinopeus on lähteen koodausmenetelmillä selkeästi pienempi kuin aaltomuodon koodereilla. Tällöin voidaan yleisesti todeta, että mikäli puhelinkaistan koodaamisessa halutaan saavuttaa todella merkittävä kompressio, esimerkiksi PCM:n 64 kbit/s:n pudottaminen alle 8 kbit/s:n, niin ainoa tapa tämän tekemiseksi on käyttää hyväksi vokoodauksen periaatetta. Aaltomuodon koodereiden ja vokoodereiden vertaamisen lopuksi on syytä todeta, että raja näiden kahden ryhmän välillä on häilyvä. Kehitetyistä puheenkoodausmenetelmistä löytyy selviä esimerkkejä puhtaista aaltomuodon kooderista (esim. 64 kbit/s:n PCM) ja selkeistä vokoodereista (2.4 kbit/s:n LPC-vokooderi). Näiden lisäksi on kuitenkin suuri määrä koodausmenetelmiä, joissa on piirteitä kummastakin päätyypistä Puheenkoodauksen työväline lineaarinen ennustus Lineaarinen ennustus (LPC-analyysi) on puheenkäsittelyn käytetyimpiä analyysivälineitä. Sen käyttö on yleistä nimenomaan puheenkoodauksessa, missä se muodostaa kooderin ytimen, jonka ympärille on toteutettu erilaisia ja eri bittinopeuden toteuttavia koodausmenetelmiä. LPC-analyysi on ennustava menetelmä, jossa digitaalisessa muodossa oleva puhesignaalin näyte, s(n), ennustetaan signaalia edeltäneistä näytteistä painottamalla näitä optimaalisesti. Valitsemalla ennustukseen p kappaletta s(n):ää edeltäneitä näytteitä ja merkitsemällä painokertoimia a(k):llä voidaan näytteelle s(n) laskettava ennustus formuloida kaavan (1) mukaisena summana: (1) Ennustuksessa syntyvä ennustusvirhe eli jäännössignaali (residuaali) voidaan kirjoittaa muodossa: (2) LPC-analyysin perusajatus on siinä, että kaavan (2) mukaisen ennustusvirheen neliö, siis residuaalin energia, minimoidaan derivoimalla e 2 (n) ennustuskertoimien a(k) suhteen. Ratkaisuna saadaan digitaalinen suodatin, LPC-suodatin. Laskenta tehdään tyypillisesti 1-2 ms kehyksissä. Digitaalinen LPC-suodatin muodostaa käsiteltävässä kehyksessä olevalle puhesignaalille parametrisen spektrimallin: puhesignaalin spektraaliset pääominaisuudet mallintuvat suodatinkertoimien a(k), 1 k p, tuottamaan LPC-suotimeen. LPC-analyysin antama toinen osa, residuaali e(n), on kohinaa muistuttava ennustusvirhe. Tällainen kehyksittäin laskettava puhesignaalin jakaminen pääinformaatioon, siis LPC-suotimeen, ja sivuinformaatioon, siis residuaaliin, on LPC:tä hyödyntävien puhekoodereiden ydinajatus: kompressio saavutetaan käyttämällä bittikapasiteetti etupäässä LPC-suotimen kuvaamiseen kun taas residuaali voidaan kvantisoida pienellä bittimäärällä. LPC-analyysin toimintaa havainnollistaa kuvan 2.2 esimerkki, jossa on esitetty aidosta puheäänestä (vokaali [a]) lasketun LPC-analyysin antamia tuloksia sekä aika- että taajuusalueessa. Analysoitava puhesignaalikehys on kuvattu aika-alueessa kuvassa 2.2(a). Tälle on esimerkissä laskettu asteluvulla p=12 LPC-analyysi, jonka residuaali on esitetty aika-alueessa kuvassa 2.2(b). LPC-analyysin 16

17 ennustuksen onnistumista kuvaa se, että residuaali on alkuperäiseen puhesignaaliin nähden sekä pienempi energinen että rakenteeltaan enemmän kohinaa muistuttava. Kuvassa 2.2(c) on esitetty alkuperäisen puheen tehospektri sekä tämän päälle piirretty LPC-suotimen spektri. Kuvasta nähdään selvästi se, kuinka LPC-analyysin antama optimaalinen suodatin kuvaa käsiteltävän puhesignaalin tehospektrin päärakenteen muodostamalla tälle verhokäyrän. Alkuperäisen puheen tehospektrin esittämiseen tarvitaan suurehko informaatiomäärä, esimerkin tapauksessa 512 kpl. Fouriermuunnoksen antamia kompleksilukujen pituuden neliöitä. LPC-suodatin sen sijaan vaatii spektrin kuvaamiseen vain kaavan (2) mukaiset p=12 kappaletta suodatinkertoimia a(k), 1 k p. LPCanalyysi on siis laskenut puheen spektrille parametrisen mallin, joka voidaan kuvata alkuperäistä informaatiota huomattavasti pienemmällä informaatiomäärällä. Kuvassa 2.2(d) on lopulta esitetty residuaalin tehospektri. Tämä on yleisrakenteeltaan tasainen, mikä on taajuusalueen vastine sille, että LPC-analyysistä jäljelle jäävä ennustusvirhe lähestyy valkoista kohinaa (a) (b) Aika (s) Tehospektri (db) (c) (d) Taajuus (Hz) 3 4 Kuva 2.2 LPC-analyysin tuloksia (a): Analysoitava puhesignaali (vokaali [a]) aika-alueessa. (b): Residuaali aika-alueessa (huomaa eri amplitudiasteikko kuin kohdassa (a)). (c): Puhesignaalin tehospektri ja tämän päälle piirretty LPC-spektri db- asteikolla, ennustuksen asteluku p=12. (d): Residuaalin tehospektri db-asteikolla. 17

18 2.3 Esimerkkejä puheenkoodausmenetelmistä: Laatu, bittinopeus Puheenkoodauksen perimmäisenä tarkoituksena on pyrkiä siirtämään puhesignaali mahdollisimman pienellä bittinopeudella, siten että puheen laatu on mahdollisimman hyvä. Näiden kahden näkökohdan lisäksi puheenkoodauksessa taustatekijänä vaikuttavat toteutuksen vaatima laskentamäärä ja koodausmenetelmän aiheuttama viive puheensiirrossa. Jokainen puheenkoodauksen sovellutusympäristö vaatii sopivan kompromissin löytämistä näiden neljän tekijän välillä. Seuraavassa on tarkastelut tietoliikennetekniikassa viime vuosikymmeninä kehitettyjä puheenkoodausmenetelmiä tarkastelemalla näitä hyvin yleisellä tasolla laadun ja bittinopeuden perspektiivistä. Itse koodausalgoritmit ovat monimutkaisia ja syytä jättää tämän yleiskatsauksen ulkopuolelle. Koodatun puheen laadun arviointi on tärkeä osa esimerkiksi sitä prosessia, missä valitaan johonkin puheensiirtojärjestelmään paras puheenkoodausmenetelmä. Eniten käytetty laadun arviointimenetelmä on subjektiivinen MOS-asteikko (Mean Opinion Score) (Kleijn ja Paliwal, 1995). Yksinkertaistettuna tämä tarkoittaa sitä, että arvioitavalla kooderilla siirrettyä puhetta kuuntelutetaan joukolle ihmisiä. Kuuntelijat antavat jokaiselle kuulemalleen äänelle, tyypillisesti kahden lauseen pituiselle signaalille, arvosanan käyttäen Taulukossa 2.1 olevaa asteikkoa. Lopullinen arvio kooderin antamalle äänen laadulle saadaan keskiarvoistamalla laajan kuuntelijajoukon antamat lukemat. MOS-asteikolla eri koodereille mitattuja laatulukuja on esitetty Kuvassa 2.3 bittinopeuden funktiona. Tässä esityksessä tärkeää on havaita se, kuinka tietyn kooderin, esimerkiksi PCM:n, suorituskyky mitattuna MOS-asteikolla laskee voimakkaasti kun käytettävissä oleva bittinopeus vähenee. Bittinopeuden puolittaminen edellyttää siis tehokkaamman ja monimutkaisemman koodausalgoritmin käyttöönottoa, mikäli äänen laadun ei haluta heikkenevän. ITU-T:n aloitteesta julkaistiin vuonna 21 menetelmä, Perceptual Evaluation of Speech Quality (PESQ), jolla tavoitellaan subjektiivisen puheen laadun määrittämistä objektiivisella menetelmällä (ITU-T, 21a). Kyseinen PESQ soveltuu kapeakaistaisen puheen (siis taajuuskaistana 3-34 Hz) laadun arviointiin, ja sitä voidaan käyttää sekä koodausmenetelmien että koko yksisuuntaisen lähetin-vastaanotinketjun laadun evaluointiin. Menetelmään syötetään herätteenä kaksi puhesignaalia, alkuperäinen puhesignaali ja siirron muokkaama, laadultaan heikompi signaali. Näistä saadaan tuloksena arvio siitä subjektiivisesta laadusta, jonka jälkimmäinen olisi saanut kuuntelukokeessa. Tulos on tavallisesti skaalattu MOS-asteikon välille Menetelmä perustuu vahvasti ihmisen kuulojärjestelmän psykoakustiseen mallintamiseen sisältäen esimerkiksi signaalin käsittelyn perkeptuaalisella taajuus- (Bark) ja äänekkyysasteikolla (Sone). PESQ:n antamat tulokset ovat ITU-T:n testeissä olleet lupaavia: menetelmän antamien MOS-lukemien on osoitettu korreloivan (peräti korrelaatiokertoimella.94) vastaavien subjektiivisten testien tulosten kanssa. Tästä huolimatta laskentaa ei pidä ymmärtää siten, että sillä voisi täysin syrjäyttää aidot subjektiiviset laatumittaukset. Puheenkoodaukseen on kehitetty viimeisen kolmen vuosikymmenen aikana lukuisia menetelmiä. Taulukossa 2.2 on lueteltu joitain yleisempiä puheenkoodausmenetelmiä jakamalla nämä neljään ryhmään sen mukaan, mikä on koodattavan puhesignaalin kaistanleveys. Vanhimmat kooderit (taulukon kohta 1), joita kuitenkin yhä tänäänkin eniten käytetään, koodaavat puheen perinteisellä puhelinkaistalla. Tämän ryhmän vanhin puheenkoodausmenetelmä, jo vuonna 1972 standardoitu G.711 suosituksen mukainen PCM-kooderi, muodostaa digitaalisen puheensiirron lähtökohdan. Kooderi on yhä nykyään käytössä lähes kaikissa verkoissa, ja se määritellään useimmissa uudemmissa koodereissa herätteeksi, jonka mukainen 64 kbit/s:n bittivirta pyritään kompressoimaan tehokkaammin. Matkapuhelinympäristöön kehitettiin 199-luvulta lähtien useita 18

19 koodereita, joista taulukossa on mainittu eniten käytössä oleva AMR-kooderi. Tämä on ns. moninopeuskooderi, millä tarkoitetaan sitä, että kooderi voi muuttaa bittinopeutta sen mukaan, kuinka paljon siirtoyhteydellä syntyy bittivirheitä: huonon radiokanavan tapauksessa puheelle annettavaa bittinopeutta lasketaan, ja vapautuva kapasiteetti käytetään virheiltä suojaavan kanavakoodauksen hyväksi. Verkoissa yleisimmin käytetty bittinopeus AMR-kooderilla on 12.2 kbit/s, siis puhe kompressoidaan noin viidesosaan siitä bittimäärästä, jota käytetään G.711:ssä. G.729 on vielä tehokkaampi kooderi, jota käytetään esimerkiksi VoIP-siirrossa (joskin VoIP:ssa on useita muitakin koodereita). G.729 pakkaa puheen tiukasti käyttäen yhden bitin per näyte. Kuvasta 2.3 voidaan nähdä, kuinka G.729:lla toteutettu tehokas kompressio ei juurikaan heikennä puheen laatua verrattuna lähtökohtana olevaan G.711:een: MOS-lukema säilyy suunnilleen samana, vaikka bittimäärä per näyte pienenee kahdeksasta yhteen! Yhä nykyään suurin osa puheensiirrosta perustuu Taulukon 2.2 osan 1 mukaiseen vajaan 4 khz:n taajuuskaistan koodaamiseen. 3G-matkapuhelinjärjestelmän kehitysvaiheessa standardoitiin ensimmäinen matkapuhelinympäristöön tarkoitettu laajakaistakooderi, Taulukossa 2.2 mainittu AMR-WB. Tämä on 7 khz:n kaistan siirtävä moninopeuskooderi. Johtuen laajemmasta kaistaleveydestä ja monimutkaisesta koodausmenetelmästä pystyy AMR-WB välittämään puhesignaalin kirkkaammassa ja (meluympäristössä kuunneltuna) ymmärrettävämmässä muodossa kuin perinteiset puhelinkaistakooderit. Valitettavasti AMR-WB:n käyttöönotto on ollut hidasta: huolimatta siitä, että kooderi standardoitiin vuonna 21 otettiin se ensimmäisen kerran esimerkiksi Suomessa yleiseen käyttöön vasta vuonna 213. Yhä nykyäänkin kaikki matkapuhelinoperaattorit eivät välttämättä tarjoa 7 khz:n puheensiirtoa edes 3G-verkoissa. Puheenkoodauksen uusimmat kooderit on suunniteltu käytettäviksi esimerkiksi videokonferenssiyhteyksissä sekä muissa sellaisissa varsinkin IP-siirron sovellutuksissa, joissa halutaan puheen laadun olevan hyvin lähellä normaalia keskustelua (face-to-face conversation). Nämä kooderit jaetaan Taulukon 2.2 mukaan 14 khz:n (superwideband) ja 2 khz:n (fullband) kaistalla toimiviin koodereihin. Uusimmat kooderit ovat usein lisäksi sulautettuja (embedded coder tai scalable coder), millä tarkoitetaan sitä, että koodereilla useita bittinopeuksia, jotka määritetään tasomaiselle (layered) rakenteella. Koodauksen tekevän lähetin toimii suurimmalla määritetyllä bittinopeudella, mutta verkon siirtokapasiteetin mukaan voidaan siirrettävää bittivirtaa muuttaa verkon eri osissa kuitenkin mahdollistaen puheen siirron hyvälaatuisena vastaanottimelle. Number Scores Quality Scale Impairment Scale 5 Excellent Imperceptible 4 Good (Just) perceptible but not annoying 3 Fair (Perceptible and) slightly annoying 2 Poor Annoying (but not objectionable) 1 Unsatisfactory (bad) Very annoying (objectionable) Taulukko 2.1 MOS (Mean Opinion Score) asteikko (Jayant ja Noll, 1984). 19

20 Kuva 2.3 MOS-arvot bittinopeuden funktiona joillain puhelinkaistan (3-34 Hz) koodausmenetelmillä (Kleijn ja Paliwal, 1995). Kuvassa on erikseen ympyrällä merkitty kaksi eri aikakaudella kehitettyä menetelmää: G.711 ja G.729. Huomaa, että edellinen käyttää 8 bittiä/näyte ja jälkimmäinen 1 bitti/näyte, mutta niiden antamaa puheen laatua kuvaava MOS-lukema on suunnilleen sama. Kooderi Bittinopeus Standardointivuosi 1) Narrowband, 3-34 Hz, F s =8 Hz G.711 (PCM) 64 kbit/s 1972 G kbit/s 1996 Adaptive multirate (AMR) 8 eri nopeutta välillä kbit/s ) Wideband, 5-7 Hz, F s =16 Hz Adaptive multirate wideband (AMR-WB) 9 eri nopeutta välillä kbit/s 21 3) Superwideband, 5-14 Hz, F s =32 khz Extension for G , 4 ja 48 kbit/s 21 4) Fullband, 2-2 Hz, F s =48 khz G kbit/s 28 Taulukko 2.2 Puheenkoodauksen jakaminen neljään ryhmään signaalin kaistaleveyden mukaan. Jokaisessa ryhmässä on mainittu esimerkki yleisimmistä koodausmenetelmistä ilmoittamalla menetelmän bittinopeus sekä kooderin standardointivuosi. Signaalin näytetaajuus F s. 2

21 Viitteet: Cox, R., de Campos Neto, S.F., Lamblin, C., Sherif, M., 29. ITU-T coders for wideband, siperwideband, and fullband speech communication. IEEE Communications Magazine, Vol. 47, ss ETSI, Recommendation GSM 6.1. GSM full rate speech transcoding. ETSI, 1998(a). Recommendation ETS Half rate speech transcoding. ETSI, 1998(b). Recommendation ETSI EN V Adaptive multi-rate (AMR) speech transcoding. ETSI, Recommendation ETSI EN V8..1. Enhanced full rate (EFR) speech transcoding. ITU-T, Recommendation G.711. Pulse code modulation (PCM) of voice frequencies. ITU-T, 21a. Recommendation P.862. Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs. ITU-T, 21b. Recommendation P.862 Amendment 1. Source code for reference implementation and conformance tests. Jayant, N.S., 199. High-quality coding of telephone speech and wideband audio, IEEE Comm. Magazine, Vol. 28, No. 1, ss Jayant, N.S ja Noll, P., Digital Coding of Waveforms, Prentice Hall, New Jersey. Kleijn, B. ja Paliwal, K. (Eds.), Speech Coding and Synthesis, Elsevier, Amsterdam. Rabiner, L.R., The impact of voice processing on modern telecommunications, Speech Comm., Vol. 17, No. 3-4, ss Rabiner, L.R. ja Schafer, R.W., Digital Processing of Speech Signals, Prentice-Hall, New Jersey. Steele, R. (Ed.), Mobile Radio Communications, Pentech Press, John Wiley, London. Taleb, A., Karapetkov, S. 29. G.719: The first ITU-T standard for high-quality conversational fullband audio coding. IEEE Communications Magazine, Vol. 47, ss

T-61.246 DSP: GSM codec

T-61.246 DSP: GSM codec T-61.246 DSP: GSM codec Agenda Johdanto Puheenmuodostus Erilaiset codecit GSM codec Kristo Lehtonen GSM codec 1 Johdanto Analogisen puheen muuttaminen digitaaliseksi Tiedon tiivistäminen pienemmäksi Vähentää

Lisätiedot

Luento: Puhe. Mitä puhe on? Anatomiaa ja fysiologiaa. Puhetapahtuma. Brocan ja Wernicken alueet. Anatomiaa ja fysiologiaa. Puheen tuottaminen:

Luento: Puhe. Mitä puhe on? Anatomiaa ja fysiologiaa. Puhetapahtuma. Brocan ja Wernicken alueet. Anatomiaa ja fysiologiaa. Puheen tuottaminen: Puheen anatomiaa ja fysiologiaa Puhesignaalin analyysi Puheen havaitseminen luku 11 Luento: Puhe Mitä puhe on? Ihmisen kehittämä symbolinen kommunikaatiojärjestelmä. Perustuu sovittuihin kielellisiin koodeihin

Lisätiedot

5 Akustiikan peruskäsitteitä

5 Akustiikan peruskäsitteitä Puheen tuottaminen, havaitseminen ja akustiikka / Reijo Aulanko / 2016 2017 14 5 Akustiikan peruskäsitteitä ääni = ilmapartikkelien edestakaista liikettä, "tihentymien ja harventumien" vuorottelua, ilmanpaineen

Lisätiedot

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä Puheen akustiikan perusteita Mitä puhe on? 2.luento Martti Vainio Äänet, resonanssi ja spektrit Fonetiikan laitos, Helsingin yliopisto Puheen akustiikan perusteita p.1/37 S-114.770 Kieli kommunikaatiossa...

Lisätiedot

Organization of (Simultaneous) Spectral Components

Organization of (Simultaneous) Spectral Components Organization of (Simultaneous) Spectral Components ihmiskuulo yrittää ryhmitellä ja yhdistää samasta fyysisestä lähteestä tulevat akustiset komponentit yhdistelyä tapahtuu sekä eri- että samanaikaisille

Lisätiedot

Åbo Akademi 3.5.2011 klo 12-16. Mietta Lennes mietta.lennes@helsinki.fi. Nykykielten laitos Helsingin yliopisto

Åbo Akademi 3.5.2011 klo 12-16. Mietta Lennes mietta.lennes@helsinki.fi. Nykykielten laitos Helsingin yliopisto Åbo Akademi 3.5.2011 klo 12-16 Mietta Lennes mietta.lennes@helsinki.fi Nykykielten laitos Helsingin yliopisto Praat-puheanalyysiohjelma Mikä on Praat? Mikä on Praat? Praat [Boersma and Weenink, 2010] on

Lisätiedot

SGN-4200 Digitaalinen audio

SGN-4200 Digitaalinen audio SGN-4200 Digitaalinen audio Luennot, kevät 2013, periodi 4 Anssi Klapuri Tampereen teknillinen yliopisto Kurssin tavoite Johdanto 2! Tarjota tiedot audiosignaalinkäsittelyn perusteista perusoperaatiot,

Lisätiedot

Puheenkoodaus. Olivatpa kerran iloiset serkukset. PCM, DPCM ja ADPCM

Puheenkoodaus. Olivatpa kerran iloiset serkukset. PCM, DPCM ja ADPCM Puheenkoodaus Olivatpa kerran iloiset serkukset PCM, DPCM ja ADPCM PCM eli pulssikoodimodulaatio Koodaa jokaisen signaalinäytteen binääriseksi (eli vain ykkösiä ja nollia sisältäväksi) luvuksi kvantisointitasolle,

Lisätiedot

PL 9/Siltavuorenpenger 5 A, 00014 Helsingin yliopisto etunimi.sukunimi@helsinki.fi

PL 9/Siltavuorenpenger 5 A, 00014 Helsingin yliopisto etunimi.sukunimi@helsinki.fi HMM-POHJAISEN PUHESYNTEESIN LAADUN PARANTAMINEN GLOTTISPULSSIKIRJASTON AVULLA Tuomo Raitio 1,AnttiSuni 2,HannuPulakka 1, Martti Vainio 2,PaavoAlku 1 1 Aalto-yliopisto, Signaalinkäsittelyn ja akustiikan

Lisätiedot

Digitaalinen audio

Digitaalinen audio 8003203 Digitaalinen audio Luennot, kevät 2005 Tuomas Virtanen Tampereen teknillinen yliopisto Kurssin tavoite Johdanto 2 Tarjota tiedot audiosignaalinkäsittelyn perusteista perusoperaatiot, sekä niissä

Lisätiedot

Puheen akustiikan perusteita

Puheen akustiikan perusteita Puheen akustiikan perusteita Mitä puhe on? 2.luento Martti Vainio Fonetiikan laitos, Helsingin yliopisto Puheen akustiikan perusteita p.1/37 Äänet, resonanssi ja spektrit S-114.770 Kieli kommunikaatiossa...

Lisätiedot

AV-muotojen migraatiotyöpaja - ääni. KDK-pitkäaikaissäilytys 2013 -seminaari 6.5.2013 / Juha Lehtonen

AV-muotojen migraatiotyöpaja - ääni. KDK-pitkäaikaissäilytys 2013 -seminaari 6.5.2013 / Juha Lehtonen AV-muotojen migraatiotyöpaja - ääni KDK-pitkäaikaissäilytys 2013 -seminaari 6.5.2013 / Juha Lehtonen Äänimuodot Ääneen vaikuttavia asioita Taajuudet Äänen voimakkuus Kanavien määrä Näytteistys Bittisyvyys

Lisätiedot

Puheen akustiikan perusteita

Puheen akustiikan perusteita Puheen akustiikan perusteita Mitä puhe on? 2.luento Martti Vainio Fonetiikan laitos, Helsingin yliopisto Puheen akustiikan perusteita p.1/39 Äänet, resonanssi ja spektrit ctl103 Fonetiikan perusteet kieliteknologeille

Lisätiedot

Tietoliikennesignaalit & spektri

Tietoliikennesignaalit & spektri Tietoliikennesignaalit & spektri 1 Tietoliikenne = informaation siirtoa sähköisiä signaaleja käyttäen. Signaali = vaihteleva jännite (tms.), jonka vaihteluun on sisällytetty informaatiota. Signaalin ominaisuuksia

Lisätiedot

FP1/Clt 120: Fonetiikan perusteet: artikulaatiotavat

FP1/Clt 120: Fonetiikan perusteet: artikulaatiotavat FP1/Clt 120: Fonetiikan perusteet: artikulaatiotavat Martti Vainio -- syksy 2006 Artikulaatiotavat Konsonantit voivat siis vaihdella artikulaatipaikan mukaan ja sen mukaan ovatko ne soinnillisia vai eivät

Lisätiedot

Kompleksiluvut signaalin taajuusjakauman arvioinnissa

Kompleksiluvut signaalin taajuusjakauman arvioinnissa Kompleksiluvut signaalin taajuusjakauman arvioinnissa Vierailuluento IMA-kurssilla Heikki Huttunen Lehtori, TkT Signaalinkäsittely, TTY heikki.huttunen@tut.fi Department of Signal Processing Fourier-muunnos

Lisätiedot

Puhesynteesin perusteet Luento 4: difonikonkatenaatio

Puhesynteesin perusteet Luento 4: difonikonkatenaatio Puhesynteesin perusteet Luento 4: difonikonkatenaatio Nicholas Volk 7.2.2008 Käyttäytymistieteellinen tiedekunta Idea Äänteet ovat stabiileimmillaan keskellä äännettä, joten mallinnetaan siirtymät äänteestä

Lisätiedot

SIGNAALITEORIAN KERTAUSTA 1

SIGNAALITEORIAN KERTAUSTA 1 SIGNAALITEORIAN KERTAUSTA 1 1 (26) Fourier-muunnos ja jatkuva spektri Spektri taajuuden funktiona on kompleksiarvoinen funktio, jonka esittäminen graafisesti edellyttää 3D-kuvaajan piirtämisen. Yleensä

Lisätiedot

Alla olevassa kuvassa on millisekunnin verran äänitaajuisen signaalin aaltomuotoa. Pystyakselilla on jännite voltteina.

Alla olevassa kuvassa on millisekunnin verran äänitaajuisen signaalin aaltomuotoa. Pystyakselilla on jännite voltteina. TT12S1E Tietoliikenteen perusteet Metropolia/A. Koivumäki 1 Kirjan lukuun 3 liittyvää lisäselitystä ja esimerkkejä Kirjan luvussa 3 (Signals Carried over the Network) luodaan katsaus siihen, minkälaisia

Lisätiedot

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä Puheen akustiikan perusteita Mitä puhe on? 2.luento Martti Vainio Äänet, resonanssi ja spektrit Fonetiikan laitos, Helsingin yliopisto Puheen akustiikan perusteita p.1/39 ctl103 Fonetiikan perusteet kieliteknologeille

Lisätiedot

Laskuharjoitus 2 ( ): Tehtävien vastauksia

Laskuharjoitus 2 ( ): Tehtävien vastauksia TT12S1E Tietoliikenteen perusteet Metropolia/A. Koivumäki Laskuharjoitus 2 (11.9.2013): Tehtävien vastauksia 1. Eräässä kuvitteellisessa radioverkossa yhdessä radiokanavassa voi olla menossa samanaikaisesti

Lisätiedot

1. Perusteita. 1.1. Äänen fysiikkaa. Ääniaalto. Aallonpituus ja amplitudi. Taajuus (frequency) Äänen nopeus

1. Perusteita. 1.1. Äänen fysiikkaa. Ääniaalto. Aallonpituus ja amplitudi. Taajuus (frequency) Äänen nopeus 1. Perusteita 1. Äänen fysiikkaa 2. Psykoakustiikka 3. Äänen syntetisointi 4. Samplaus ja kvantisointi 5. Tiedostoformaatit 1.1. Äänen fysiikkaa ääni = väliaineessa etenevä mekaaninen värähtely (aaltoliike),

Lisätiedot

Äänen laadun parantaminen puheensiirrossa keinotekoisella taajuuskaistan laajennuksella

Äänen laadun parantaminen puheensiirrossa keinotekoisella taajuuskaistan laajennuksella Teknillinen Korkeakoulu Sähkö- ja tietoliikennetekniikan osasto Jutta Katariina Mahkonen Äänen laadun parantaminen puheensiirrossa keinotekoisella taajuuskaistan laajennuksella Diplomityö, joka on jätetty

Lisätiedot

puheen laatu kärsii koodauksesta mahdollisimman vähän. puhe pakkautuu mahdollisimman pieneen määrään bittejä.

puheen laatu kärsii koodauksesta mahdollisimman vähän. puhe pakkautuu mahdollisimman pieneen määrään bittejä. Luku 1 Puheen koodaus Puheen koodauksella tarkoitetaan puhesignaalin esittämiseen tarvittavan bittimäärän pienentämistä sillä tavalla, että puhesignaalin laatu ja ymmärrettävyys kärsivät mahdollisimman

Lisätiedot

1 Määrittele seuraavat langattoman tiedonsiirron käsitteet.

1 Määrittele seuraavat langattoman tiedonsiirron käsitteet. 1 1 Määrittele seuraavat langattoman tiedonsiirron käsitteet. Radiosignaalin häipyminen. Adaptiivinen antenni. Piilossa oleva pääte. Radiosignaali voi edetä lähettäjältä vastanottajalle (jotka molemmat

Lisätiedot

SGN-4010, Puheenkäsittelyn menetelmät Harjoitus 6, 18. ja

SGN-4010, Puheenkäsittelyn menetelmät Harjoitus 6, 18. ja SGN-4010, Puheenkäsittelyn menetelmät Harjoitus 6, 18. ja 21.2.2010 1. (Matlab, 2 pistettä) Vokaalit ja soinnilliset konsonantit ovat lähes jaksollisia ja niillä on äänihuulten värähtelystä johtuva perustaajuus.

Lisätiedot

Kuulohavainnon perusteet

Kuulohavainnon perusteet Kuulohavainnon ärsyke on ääni - mitä ääni on? Kuulohavainnon perusteet - Ääni on ilmanpaineen nopeaa vaihtelua: Tai veden tms. Markku Kilpeläinen Käyttäytymistieteiden laitos, Helsingin yliopisto Värähtelevä

Lisätiedot

Kapeakaistainen signaali

Kapeakaistainen signaali Tiedonsiirrossa sellaiset signaalit ovat tyypillisiä, joilla informaatio jakautuu kapealle taajuusalueelle jonkun keskitaajuuden ympäristöön. Tällaisia signaaleja kutustaan kapeakaistaisiksi signaaleiksi

Lisätiedot

» Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN

» Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN » Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN 1 Puhe-elimistä Helsingin Yliopiston sivuilla» Puhe-elimet voidaan jakaa

Lisätiedot

TL5503 DSK, laboraatiot (1.5 op) Suodatus 2 (ver 1.0) Jyrki Laitinen

TL5503 DSK, laboraatiot (1.5 op) Suodatus 2 (ver 1.0) Jyrki Laitinen TL5503 DSK, laboraatiot (1.5 op) Suodatus 2 (ver 1.0) Jyrki Laitinen TL5503 DSK, laboraatiot (1.5 op), K2005 1 Suorita oheisten ohjeiden mukaiset tehtävät Matlab-ohjelmistoa käyttäen. Kokoa erilliseen

Lisätiedot

Puhetie, PCM järjestelmä, johtokoodi

Puhetie, PCM järjestelmä, johtokoodi Puhetie, PCM järjestelmä, johtokoodi PCM~PulseCodeModulation Näytteenotto Kvantisointi ÿ Lineaarinen ÿ Epälineaarinen Kvantisointisärö TDM-kanavointi PCM-kehysrakenne, CRC -ylikehys PCM, PCM, PCM 8, PCM

Lisätiedot

HUUDETUN PUHEEN ANALYYSI JA SYNTEESI

HUUDETUN PUHEEN ANALYYSI JA SYNTEESI Tuomo Raitio 1, Antti Suni 2, Jouni Pohjalainen 1, Manu Airaksinen 1, Martti Vainio 2 ja Paavo Alku 1 1 Signaalinkäsittelyn ja akustiikan laitos, Aalto-yliopisto, Espoo Otakaari 5 A, PL 13000, 00076 AALTO

Lisätiedot

Spektri- ja signaalianalysaattorit

Spektri- ja signaalianalysaattorit Spektri- ja signaalianalysaattorit Pyyhkäisevät spektrianalysaattorit Suora pyyhkäisevä Superheterodyne Reaaliaika-analysaattorit Suora analoginen analysaattori FFT-spektrianalysaattori DFT FFT Analysaattoreiden

Lisätiedot

SGN-4200 Digitaalinen Audio Harjoitustyö-info

SGN-4200 Digitaalinen Audio Harjoitustyö-info 1 SGN-4200 Digitaalinen Audio Harjoitustyö-info 04.04.2012 Joonas Nikunen Harjoitystyö - 2 Suorittaminen ja Käytännöt Kurssin pakollinen harjoitustyö: Harjoitellaan audiosignaalinkäsittelyyn tarkoitetun

Lisätiedot

Signaalien generointi

Signaalien generointi Signaalinkäsittelyssä joudutaan usein generoimaan erilaisia signaaleja keinotekoisesti. Tyypillisimpiä generoitavia aaltomuotoja ovat eritaajuiset sinimuotoiset signaalit (modulointi) sekä normaalijakautunut

Lisätiedot

Pianon äänten parametrinen synteesi

Pianon äänten parametrinen synteesi Pianon äänten parametrinen synteesi Jukka Rauhala Pianon akustiikkaa Kuinka ääni syntyy Sisält ltö Pianon ääneen liittyviä ilmiöitä Pianon äänen synteesi Ääniesimerkkejä Akustiikan ja äänenkäsittelytekniikan

Lisätiedot

Radioamatöörikurssi 2016

Radioamatöörikurssi 2016 Radioamatöörikurssi 2016 Modulaatiot Radioiden toiminta 8.11.2016 Tatu Peltola, OH2EAT 1 / 18 Modulaatiot Erilaisia tapoja lähettää tietoa radioaalloilla Esim. puhetta ei yleensä laiteta antenniin sellaisenaan

Lisätiedot

Kohti uuden sukupolven digitaalipianoja

Kohti uuden sukupolven digitaalipianoja Kohti uuden sukupolven digitaalipianoja Heidi-Maria Lehtonen, DI Aalto-yliopiston teknillinen korkeakoulu Signaalinkäsittelyn ja akustiikan laitos Esitys RISS:n kokouksessa 17.11.2010 Esityksen sisältö

Lisätiedot

ELEC-C5340 - Sovellettu digitaalinen signaalinkäsittely. Äänisignaalien näytteenotto ja kvantisointi Dither Oskillaattorit Digitaalinen suodatus

ELEC-C5340 - Sovellettu digitaalinen signaalinkäsittely. Äänisignaalien näytteenotto ja kvantisointi Dither Oskillaattorit Digitaalinen suodatus L1: Audio Prof. Vesa Välimäki ELEC-C5340 - Sovellettu digitaalinen signaalinkäsittely Luennon sisältö Äänisignaalien näytteenotto ja kvantisointi Dither Oskillaattorit Digitaalinen suodatus Lyhyt FIR-suodin

Lisätiedot

nykyään käytetään esim. kaapelitelevisioverkoissa radio- ja TVohjelmien

nykyään käytetään esim. kaapelitelevisioverkoissa radio- ja TVohjelmien 2.1.8. TAAJUUSJAKOKANAVOINTI (FDM) kanavointi eli multipleksointi tarkoittaa usean signaalin siirtoa samalla siirtoyhteydellä käyttäjien kannalta samanaikaisesti analogisten verkkojen siirtojärjestelmät

Lisätiedot

IIR-suodattimissa ongelmat korostuvat, koska takaisinkytkennästä seuraa virheiden kertautuminen ja joissakin tapauksissa myös vahvistuminen.

IIR-suodattimissa ongelmat korostuvat, koska takaisinkytkennästä seuraa virheiden kertautuminen ja joissakin tapauksissa myös vahvistuminen. TL536DSK-algoritmit (J. Laitinen)..5 Välikoe, ratkaisut Millaisia ongelmia kvantisointi aiheuttaa signaalinkäsittelyssä? Miksi ongelmat korostuvat IIR-suodatinten tapauksessa? Tarkastellaan Hz taajuista

Lisätiedot

Foneettiset symbolit

Foneettiset symbolit Clt 120: Fonetiikan perusteet: intro, äänentuotto, artikulaatiopaikat Martti Vainio -- syksy 2006 Foneettiset symbolit 5000-8000 eri kieltä n. 300 foneettista symbolia riittää niiden kuvaamiseen puheentuotto-

Lisätiedot

4.2 Akustista fonetiikkaa

4.2 Akustista fonetiikkaa 4.2 Akustista fonetiikkaa Akustisessa fonetiikassa tutkitaan puheen akustisia ominaisuuksia ja sitä miten ne seuraavat puheentuottomekanismin toiminnasta. Aiheen tarkka käsitteleminen vaatisi oman kurssinsa,

Lisätiedot

Laskuharjoitus 4 ( ): Tehtävien vastauksia

Laskuharjoitus 4 ( ): Tehtävien vastauksia TT12S1E Tietoliikenteen perusteet Metropolia/A. Koivumäki Laskuharjoitus 4 (2.10.2013): Tehtävien vastauksia 1. Tutkitaan signaalista näytteenotolla muodostettua PAM (Pulse Amplitude Modulation) -signaalia.

Lisätiedot

ÄÄNEKKÄÄMMÄN KANTELEEN MALLINTAMINEN ELEMENTTIME- NETELMÄLLÄ

ÄÄNEKKÄÄMMÄN KANTELEEN MALLINTAMINEN ELEMENTTIME- NETELMÄLLÄ ÄÄNEKKÄÄMMÄN KANTELEEN MALLINTAMINEN ELEMENTTIME- NETELMÄLLÄ Henna Tahvanainen 1, Jyrki Pölkki 2, Henri Penttinen 1, Vesa Välimäki 1 1 Signaalinkäsittelyn ja akustiikan laitos Aalto-yliopiston sähkötekniikan

Lisätiedot

1. Määritä pienin näytelauseen ehdon mukainen näytetaajuus taajuus seuraaville signaaleille:

1. Määritä pienin näytelauseen ehdon mukainen näytetaajuus taajuus seuraaville signaaleille: TL61, Näytejonosysteemit (K00) Harjoitus 1. Määritä pienin näytelauseen ehdon mukainen näytetaajuus taajuus seuraaville signaaleille: a) 1 (t) = cos(000πt) + sin(6000πt) + cos(00πt) ja ) (t) = cos(00πt)cos(000πt).

Lisätiedot

Dynamiikan hallinta Lähde: Zölzer. Digital audio signal processing. Wiley & Sons, 2008. Zölzer (ed.) DAFX Digital Audio Effects. Wiley & Sons, 2002.

Dynamiikan hallinta Lähde: Zölzer. Digital audio signal processing. Wiley & Sons, 2008. Zölzer (ed.) DAFX Digital Audio Effects. Wiley & Sons, 2002. Dynamiikan hallinta Lähde: Zölzer. Digital audio signal processing. Wiley & Sons, 2008. Zölzer (ed. DAFX Digital Audio Effects. Wiley & Sons, 2002. Sisältö:! Johdanto!! Ajallinen käyttäytyminen! oteutus!

Lisätiedot

Kanavointi ja PCM järjestelmä

Kanavointi ja PCM järjestelmä Kanavointi ja PCM järjestelmä Kanavointi PCM ~ Pulse Code Modulation ƒ Näytteenotto ƒ Kvantisointi y Lineaarinen y Epälineaarinen ƒ Kvantisointisärö TDM-kanavointi ƒ PCM 0, PCM 0, PCM 80, PCM 90 Rka/ML

Lisätiedot

4 Fonetiikkaa. Puhe-elimet

4 Fonetiikkaa. Puhe-elimet 4 Fonetiikkaa Puhe on kaiken kaikkiaan hyvin monitasoinen ja monimutkainen inhimillinen ja fysikaalinen ilmiö, sisältäen kysymyksiä liittyen mm. kognitioon, kieleen, fysiologiaan, kuuloon ja akustiikkaan.

Lisätiedot

Synteesi-analyysi koodaus

Synteesi-analyysi koodaus Luku 2 Synteesi-analyysi koodaus Tärkein koodausmenetelmä puheenkoodausstandardeissa 9-luvulta alkaen on ollut synteesi-analyysi koodaus (engl. analysis-by-synthesis). Tässä lähestymistavassa optimaaliset

Lisätiedot

ELEC-C5070 Elektroniikkapaja (5 op)

ELEC-C5070 Elektroniikkapaja (5 op) (5 op) Luento 5 A/D- ja D/A-muunnokset ja niiden vaikutus signaaleihin Signaalin A/D-muunnos Analogia-digitaalimuunnin (A/D-muunnin) muuttaa analogisen signaalin digitaaliseen muotoon, joka voidaan lukea

Lisätiedot

6. Analogisen signaalin liittäminen mikroprosessoriin 2 6.1 Näytteenotto analogisesta signaalista 2 6.2. DA-muuntimet 4

6. Analogisen signaalin liittäminen mikroprosessoriin 2 6.1 Näytteenotto analogisesta signaalista 2 6.2. DA-muuntimet 4 Datamuuntimet 1 Pekka antala 19.11.2012 Datamuuntimet 6. Analogisen signaalin liittäminen mikroprosessoriin 2 6.1 Näytteenotto analogisesta signaalista 2 6.2. DA-muuntimet 4 7. AD-muuntimet 5 7.1 Analoginen

Lisätiedot

Yleistä. Digitaalisen äänenkäsittelyn perusteet. Tentit. Kurssin hyväksytty suoritus = Harjoitustyö 2(2) Harjoitustyö 1(2)

Yleistä. Digitaalisen äänenkäsittelyn perusteet. Tentit. Kurssin hyväksytty suoritus = Harjoitustyö 2(2) Harjoitustyö 1(2) Yleistä Digitaalisen äänenkäsittelyn perusteet Jouni Smed jouni.smed@utu.fi syksy 2006 laajuus: 5 op. (3 ov.) esitiedot: Java-ohjelmoinnin perusteet luennot: keskiviikkoisin 10 12 12 salissa β perjantaisin

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

S-114.2720 Havaitseminen ja toiminta

S-114.2720 Havaitseminen ja toiminta S-114.2720 Havaitseminen ja toiminta Heikki Hyyti 60451P Harjoitustyö 3 puheen havaitseminen Mikä on akustinen vihje (acoustic cue)? Selitä seuraavat käsitteet ohjelman ja kirjan tietoja käyttäen: Spektrogrammi

Lisätiedot

Successive approximation AD-muunnin

Successive approximation AD-muunnin AD-muunnin Koostuu neljästä osasta: näytteenotto- ja pitopiiristä, (sample and hold S/H) komparaattorista, digitaali-analogiamuuntimesta (DAC) ja siirtorekisteristä. (successive approximation register

Lisätiedot

Johdanto tieto- viestintäteknologian käyttöön: Äänitystekniikka. Vfo135 ja Vfp124 Martti Vainio

Johdanto tieto- viestintäteknologian käyttöön: Äänitystekniikka. Vfo135 ja Vfp124 Martti Vainio Johdanto tieto- viestintäteknologian käyttöön: Äänitystekniikka Vfo135 ja Vfp124 Martti Vainio Akustiikka Äänityksen tarkoitus on taltioida paras mahdo!inen signaali! Tärkeimpinä kolme akustista muuttujaa:

Lisätiedot

Digitaalinen audio & video I

Digitaalinen audio & video I Digitaalinen audio & video I Johdanto Digitaalinen audio + Psykoakustiikka + Äänen digitaalinen esitys Digitaalinen kuva + JPEG 1 Johdanto Multimediassa hyödynnetään todellista ääntä, kuvaa ja videota

Lisätiedot

KOHINA LÄMPÖKOHINA VIRTAKOHINA. N = Noise ( Kohina )

KOHINA LÄMPÖKOHINA VIRTAKOHINA. N = Noise ( Kohina ) KOHINA H. Honkanen N = Noise ( Kohina ) LÄMÖKOHINA Johtimessa tai vastuksessa olevien vapaiden elektronien määrä ei ole vakio, vaan se vaihtelee satunnaisesti. Nämä vaihtelut aikaansaavat jännitteen johtimeen

Lisätiedot

Puheen tuotto ja havaitseminen I Vokaalit. Puheentuoton lähde-suodin -malli. Glottaalinen äänilähde. Fonaatio

Puheen tuotto ja havaitseminen I Vokaalit. Puheentuoton lähde-suodin -malli. Glottaalinen äänilähde. Fonaatio Puheen tuotto ja havaitseminen I Vokaalit Martti Vainio Puheentuoton lähde-suodin -malli Fonetiikan laitos, Helsingin yliopisto Puheen tuotto ja havaitseminen I p.1/49 S-114.770 Kieli kommunikaatiossa...

Lisätiedot

Puheen tuotto ja havaitseminen I

Puheen tuotto ja havaitseminen I Puheen tuotto ja havaitseminen I Vokaalit Martti Vainio Fonetiikan laitos, Helsingin yliopisto Puheen tuotto ja havaitseminen I p.1/49 Puheentuoton lähde-suodin -malli S-114.770 Kieli kommunikaatiossa...

Lisätiedot

Ongelma 1: Onko datassa tai informaatiossa päällekkäisyyttä?

Ongelma 1: Onko datassa tai informaatiossa päällekkäisyyttä? Ongelma 1: Onko datassa tai informaatiossa päällekkäisyyttä? 2012-2013 Lasse Lensu 2 Ongelma 2: Voidaanko dataa tai informaatiota tallettaa tiiviimpään tilaan koodaamalla se uudelleen? 2012-2013 Lasse

Lisätiedot

TIETOLIIKENNETEKNIIKKA I A

TIETOLIIKENNETEKNIIKKA I A TIETOLIIKENNETEKNIIKKA I 521359A KURSSI ANALOGISEN TIEDONSIIRRON PERUSTEISTA Dos. Kari Kärkkäinen Tietoliikennelaboratorio, huone TS439, 4. krs. kk@ee.oulu.fi, http://www.telecomlab.oulu.fi/~kk/ puh: 08

Lisätiedot

havainnollistaa Dopplerin ilmiötä ja interferenssin aiheuttamaa huojuntailmiötä

havainnollistaa Dopplerin ilmiötä ja interferenssin aiheuttamaa huojuntailmiötä FYSP0 / K3 DOPPLERIN ILMIÖ Työn tavoitteita havainnollistaa Dopplerin ilmiötä ja interferenssin aiheuttamaa huojuntailmiötä harjoitella mittausarvojen poimimista Capstonen kuvaajalta sekä kerrata maksimiminimi

Lisätiedot

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti SG-1200 Signaalinkäsittelyn menetelmät, Tentti 21.3.2006 Kirjoita nimesi ja opiskelijanumerosi jokaiseen paperiin. Vastauspaperit tullaan irrottamaan toisistaan. Jos tila ei riitä, jatka kääntöpuolelle

Lisätiedot

Modulaatio. f C. amplitudimodulaatio (AM) taajuusmodulaatio (FM)

Modulaatio. f C. amplitudimodulaatio (AM) taajuusmodulaatio (FM) Lähetelajit Modulaatio Modulaatio: siirrettävän informaation liittämistä kantoaaltoon Kantoaalto: se radiotaajuinen signaali, jota pientaajuinen signaali moduloi Kaksi pääluokkaa moduloinnille: P amplitudimodulaatio

Lisätiedot

Digitaalinen signaalinkäsittely Kuvankäsittely

Digitaalinen signaalinkäsittely Kuvankäsittely Digitaalinen signaalinkäsittely Kuvankäsittely Teemu Saarelainen, teemu.saarelainen@kyamk.fi Lähteet: Ifeachor, Jervis, Digital Signal Processing: A Practical Approach H.Huttunen, Signaalinkäsittelyn menetelmät,

Lisätiedot

1 Olkoon suodattimen vaatimusmäärittely seuraava:

1 Olkoon suodattimen vaatimusmäärittely seuraava: Olkoon suodattimen vaatimusmäärittely seuraava: Päästökaistan maksimipoikkeama δ p =.5. Estokaistan maksimipoikkeama δ s =.. Päästökaistan rajataajuus pb = 5 Hz. Estokaistan rajataajuudet sb = 95 Hz Näytetaajuus

Lisätiedot

2.1 Ääni aaltoliikkeenä

2.1 Ääni aaltoliikkeenä 2. Ääni Äänen tutkimusta kutsutaan akustiikaksi. Akustiikassa tutkitaan äänen tuottamista, äänen ominaisuuksia, soittimia, musiikkia, puhetta, äänen etenemistä ja kuulemisen fysiologiaa. Ääni kuljettaa

Lisätiedot

5 Lineaarinen ennustus

5 Lineaarinen ennustus 5 Lineaarinen ennustus Lineaarinen ennustus (linear prediction, LP) on yksi tärkeimmistä puheenkäsittelyn työkaluista Sitä voidaan eri tilanteessa käyttää eri tavoilla, mutta puheenkäsittelyn kannalta

Lisätiedot

1. PUHEEN KOODAUS... 2

1. PUHEEN KOODAUS... 2 SISÄLLYSLUETTELO 1. PUHEEN KOODAUS... 2 1.1 Puheen koodauksen lähtökohta... 2 1.1.1 Puhesignaalin ominaisuudet... 2 1.1.2 Muita puheen koodauksessa huomioon otettavia tekijöitä... 3 1.2 Koodaustekniikoita...

Lisätiedot

THE audio feature: MFCC. Mel Frequency Cepstral Coefficients

THE audio feature: MFCC. Mel Frequency Cepstral Coefficients THE audio feature: MFCC Mel Frequency Cepstral Coefficients Ihmiskuulo MFCC- kertoimien tarkoituksena on mallintaa ihmiskorvan toimintaa yleisellä tasolla. Näin on todettu myös tapahtuvan, sillä MFCC:t

Lisätiedot

Pörisevä tietokone. morsetusta äänikortilla ja mikrofonilla

Pörisevä tietokone. morsetusta äänikortilla ja mikrofonilla Pörisevä tietokone morsetusta äänikortilla ja mikrofonilla 1 Tiivistelmä Idea toteuttaa seuraavat vaatimukset: 1. kommunikointi toisen opiskelijan kanssa (morsetus) 2. toisen opiskelijan häirintä (keskittymistä

Lisätiedot

Tuntematon järjestelmä. Adaptiivinen suodatin

Tuntematon järjestelmä. Adaptiivinen suodatin 1 1 Vastaa lyhyesti seuraaviin a) Miksi signaaleja ylinäytteistetään AD- ja DA-muunnosten yhteydessä? b) Esittele lohkokaaviona adaptiiviseen suodatukseen perustuva tuntemattoman järjestelmän mallinnus.

Lisätiedot

Uuden sukupolven HF-kommunikaatiotekniikka

Uuden sukupolven HF-kommunikaatiotekniikka MATINE tutkimusseminaari 16.11.2017 Uuden sukupolven HF-kommunikaatiotekniikka Lauri Anttila 1, Mika Korhonen 1, Juha Yli-Kaakinen 1, Markku Renfors 1, Hannu Tuomivaara 2 1 Elektroniikan ja tietoliikennetekniikan

Lisätiedot

DSP:n kertausta. 1 Spektri, DFT, DTFT ja aika-taajuusresoluutio

DSP:n kertausta. 1 Spektri, DFT, DTFT ja aika-taajuusresoluutio DSP:n kertausta Kerrataan/käydään läpi: ffl Spektri, DFT, DTFT ja FFT ffl signaalin jaksollisuuden ja spektrin harmonisuuden yhteys ffl aika-taajuusresoluutio Spektri, DFT, DTFT ja aika-taajuusresoluutio

Lisätiedot

Virheen kasautumislaki

Virheen kasautumislaki Virheen kasautumislaki Yleensä tutkittava suure f saadaan välillisesti mitattavista parametreistä. Tällöin kokonaisvirhe f määräytyy mitattujen parametrien virheiden perusteella virheen kasautumislain

Lisätiedot

A/D-muuntimia. Flash ADC

A/D-muuntimia. Flash ADC A/D-muuntimia A/D-muuntimen valintakriteerit: - bittien lukumäärä instrumentointi 6 16 audio/video/kommunikointi/ym. 16 18 erikoissovellukset 20 22 - Tarvittava nopeus hidas > 100 μs (

Lisätiedot

Suodattimet. Suodatintyypit: Bessel Chebyshev Elliptinen Butterworth. Suodattimet samalla asteluvulla (amplitudivaste)

Suodattimet. Suodatintyypit: Bessel Chebyshev Elliptinen Butterworth. Suodattimet samalla asteluvulla (amplitudivaste) Suodattimet Suodatintyypit: Bessel Chebyshev Elliptinen Butterworth Suodattimet samalla asteluvulla (amplitudivaste) Kuvasta nähdään että elliptinen suodatin on terävin kaikista suodattimista, mutta sisältää

Lisätiedot

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti SG-1200 Signaalinkäsittelyn menetelmät, Tentti 24.4.2006 Kirjoita nimesi ja opiskelijanumerosi jokaiseen paperiin. Vastauspaperit tullaan irrottamaan toisistaan. Jos tila ei riitä, jatka kääntöpuolelle

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

Tiistai klo 10-12 Jari Eerola 20.1.2015

Tiistai klo 10-12 Jari Eerola 20.1.2015 Tiistai klo 10-12 Jari Eerola 20.1.2015 } 20.1. Kuvaajatyypit ja ohjelmat Analyysiohjelmista Praat ja Sonic Visualiser Audacity } 27.1. Nuotinnusohjelmista Nuotinnusohjelmista Musescore } Tietokoneavusteinen

Lisätiedot

ja λ 2 = 2x 1r 0 x 2 + 2x 1r 0 x 2

ja λ 2 = 2x 1r 0 x 2 + 2x 1r 0 x 2 Johdatus diskreettiin matematiikkaan Harjoitus 4, 7.10.2015 1. Olkoot c 0, c 1 R siten, että polynomilla r 2 c 1 r c 0 on kaksinkertainen juuri. Määritä rekursioyhtälön x n+2 = c 1 x n+1 + c 0 x n, n N,

Lisätiedot

http://www.opiskelijakirjasto.lib.helsinki.fi/fonterm/006.htm

http://www.opiskelijakirjasto.lib.helsinki.fi/fonterm/006.htm Luku 2 Fonetiikkaa Puhe on kaiken kaikkiaan hyvin monitasoinen ja monimutkainen inhimillinen ja fysikaalinen ilmiö, sisältäen kysymyksiä liittyen mm. kognitioon, kieleen, fysiologiaan, kuuloon ja akustiikkaan.

Lisätiedot

Äänen eteneminen ja heijastuminen

Äänen eteneminen ja heijastuminen Äänen ominaisuuksia Ääni on ilmamolekyylien tihentymiä ja harventumia. Aaltoliikettä ja värähtelyä. Värähtelevä kappale synnyttää ääntä. Pistemäinen äänilähde säteilee pallomaisesti ilman esteitä. Käytännössä

Lisätiedot

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti SG-1200 Signaalinkäsittelyn menetelmät, Tentti 30.1.2006 Kirjoita nimesi ja opiskelijanumerosi jokaiseen paperiin. Vastauspaperit tullaan irrottamaan toisistaan. Jos tila ei riitä, jatka kääntöpuolelle

Lisätiedot

SIGNAALITEORIAN KERTAUSTA OSA 2

SIGNAALITEORIAN KERTAUSTA OSA 2 1 SIGNAALITEORIAN KERTAUSTA OSA 2 Miten spektri lasketaan moduloiduille ja näytteistetyille tietoliikennesignaaleille? KONVOLUUTIO JA KERTOLASKU 2 Kantataajuussignaali (baseband) = sanomasignaali ilman

Lisätiedot

Älypuhelinverkkojen 5G. Otto Reinikainen & Hermanni Rautiainen

Älypuhelinverkkojen 5G. Otto Reinikainen & Hermanni Rautiainen Älypuhelinverkkojen 5G Otto Reinikainen & Hermanni Rautiainen Johdanto [1][2] Viimeisen 30 vuoden aikana mobiiliverkkojen markkinaosuus on kasvanut merkittävästi Langattomia laitteita on joillain alueilla

Lisätiedot

Digitaalinen audio & video, osa I

Digitaalinen audio & video, osa I Digitaalinen audio & video, osa I Johdanto Digitaalinen audio + Psykoakustiikka + Äänen digitaalinen esitys Digitaalinen kuva +JPEG Petri Vuorimaa 1 Johdanto Multimediassa hyödynnetään todellista ääntä,

Lisätiedot

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti SG-00 Signaalinkäsittelyn menetelmät, Tentti..005 Kirjoita nimesi ja opiskelijanumerosi jokaiseen paperiin. Vastauspaperit tullaan irrottamaan toisistaan. Jos tila ei riitä, jatka kääntöpuolelle ja sen

Lisätiedot

IP-pohjaisen puheratkaisun käyttöönotto vaihdeverkossa

IP-pohjaisen puheratkaisun käyttöönotto vaihdeverkossa S-38.310 Tietoverkkotekniikan diplomityöseminaari IP-pohjaisen puheratkaisun käyttöönotto vaihdeverkossa Diplomityön tekijä: Valvoja: Professori Raimo Kantola Ohjaaja: DI Sari Lehtonen Suorituspaikka:

Lisätiedot

1 Vastaa seuraaviin. b) Taajuusvasteen

1 Vastaa seuraaviin. b) Taajuusvasteen Vastaa seuraaviin a) Miten määritetään digitaalisen suodattimen taajuusvaste sekä amplitudi- ja vaihespektri? Tässä riittää sanallinen kuvaus. b) Miten viivästys vaikuttaa signaalin amplitudi- ja vaihespektriin?

Lisätiedot

1 Diskreettiaikainen näytteistys. 1.1 Laskostuminen. Laskostuminen

1 Diskreettiaikainen näytteistys. 1.1 Laskostuminen. Laskostuminen AD/DA muunnos Lähteet: Pohlman. (1995). Principles of digital audio (3rd ed). Zölzer. (008). Digital audio signal processing (nd ed). Reiss. (008), Understanding sigma-delta modulation: The solved and

Lisätiedot

Muuntavat analogisen signaalin digitaaliseksi Vertaa sisääntulevaa signaalia referenssijännitteeseen Sarja- tai rinnakkaismuotoinen Tyypilliset

Muuntavat analogisen signaalin digitaaliseksi Vertaa sisääntulevaa signaalia referenssijännitteeseen Sarja- tai rinnakkaismuotoinen Tyypilliset Muuntavat analogisen signaalin digitaaliseksi Vertaa sisääntulevaa signaalia referenssijännitteeseen Sarja- tai rinnakkaismuotoinen Tyypilliset valintakriteerit resoluutio ja nopeus Yleisimmät A/D-muunnintyypit:

Lisätiedot

Digitaalinen audio & video, osa I. Johdanto. Digitaalisen audion sovellusalueet. Johdanto. Taajuusalue. Psykoakustiikka. Johdanto Digitaalinen audio

Digitaalinen audio & video, osa I. Johdanto. Digitaalisen audion sovellusalueet. Johdanto. Taajuusalue. Psykoakustiikka. Johdanto Digitaalinen audio Digitaalinen audio & video, osa I Johdanto Digitaalinen audio + Psykoakustiikka + Äänen digitaalinen esitys Digitaalinen kuva +JPEG Petri Vuorimaa 1 Johdanto Multimediassa hyödynnetään todellista ääntä,

Lisätiedot

Kanavat 61-69 eivät ole enää pelkästään broadcasting käytössä Uudet palvelut kuten teräväpiirtolähetykset vaativat enemmän kapasiteettia

Kanavat 61-69 eivät ole enää pelkästään broadcasting käytössä Uudet palvelut kuten teräväpiirtolähetykset vaativat enemmän kapasiteettia DVB-T2 standardi valmis Mitä vaikutuksia alan toimintaan? Antennialan tekniikkapäivä 12.11.2009 Kari Risberg Tekninen Johtaja, Digita NorDig T2 ryhmän puheenjohtaja Kari Risberg Miksi DVB-T2 standardi?

Lisätiedot

Ei välttämättä, se voi olla esimerkiksi Reuleaux n kolmio:

Ei välttämättä, se voi olla esimerkiksi Reuleaux n kolmio: Inversio-ongelmista Craig, Brown: Inverse problems in astronomy, Adam Hilger 1986. Havaitaan oppositiossa olevaa asteroidia. Pyörimisestä huolimatta sen kirkkaus ei muutu. Projisoitu pinta-ala pysyy ilmeisesti

Lisätiedot

Numeeriset menetelmät

Numeeriset menetelmät Numeeriset menetelmät Luento 13 Ti 18.10.2011 Timo Männikkö Numeeriset menetelmät Syksy 2011 Luento 13 Ti 18.10.2011 p. 1/43 p. 1/43 Nopeat Fourier-muunnokset Fourier-sarja: Jaksollisen funktion esitys

Lisätiedot

Puhenäytteiden mittailusta puhekorpuksen perkuuseen: kalastelua mato-ongella ja verkoilla. Mietta Lennes FIN-CLARIN / Helsingin yliopisto

Puhenäytteiden mittailusta puhekorpuksen perkuuseen: kalastelua mato-ongella ja verkoilla. Mietta Lennes FIN-CLARIN / Helsingin yliopisto Puhenäytteiden mittailusta puhekorpuksen perkuuseen: kalastelua mato-ongella ja verkoilla Mietta Lennes FIN-CLARIN / Helsingin yliopisto Johdanto Kun puhetta ja kieltä tutkitaan kvantitatiivisesti, on

Lisätiedot

Kuulon malleihin perustuva audiokoodaus, osa II

Kuulon malleihin perustuva audiokoodaus, osa II Kuulon malleihin perustuva audiokoodaus, osa II Lähteet: Kahrs, Brandenburg, (Editors). (1998). Applications of digital signal processing to audio and acoustics Kluwer Academic. Bernd Edler. (1997). Low

Lisätiedot