ATTE VIRTANEN PUHEKOODEKKIEN ÄÄNENLAADUN MITTAAMINEN. Kandidaatintyö

Samankaltaiset tiedostot
T DSP: GSM codec

Puheenkoodaus. Olivatpa kerran iloiset serkukset. PCM, DPCM ja ADPCM

puheen laatu kärsii koodauksesta mahdollisimman vähän. puhe pakkautuu mahdollisimman pieneen määrään bittejä.

AV-muotojen migraatiotyöpaja - ääni. KDK-pitkäaikaissäilytys seminaari / Juha Lehtonen

Digitaalinen audio

THE audio feature: MFCC. Mel Frequency Cepstral Coefficients

SGN-4200 Digitaalinen audio

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

5 Akustiikan peruskäsitteitä

Videotoisto Nexus 7 tableteilla: Android 4.4 KitKat selvästi edellistä versiota heikompi

SWEPT SINE MITTAUSTEKNIIKKA (NOR121 ANALYSAATTORILLA)

Pianon äänten parametrinen synteesi

Dynamiikan hallinta Lähde: Zölzer. Digital audio signal processing. Wiley & Sons, Zölzer (ed.) DAFX Digital Audio Effects. Wiley & Sons, 2002.

ELEC-C5070 Elektroniikkapaja (5 op)

SGN-4010, Puheenkäsittelyn menetelmät Harjoitus 6, 18. ja

1 Olkoon suodattimen vaatimusmäärittely seuraava:

AKKREDITOITU TESTAUSLABORATORIO ACCREDITED TESTING LABORATORY WE CERTIFICATION OY OPERATOR LABORATORY

Flash AD-muunnin. Ominaisuudet. +nopea -> voidaan käyttää korkeataajuuksisen signaalin muuntamiseen (GHz) +yksinkertainen

Tietoliikennesignaalit & spektri

TL5503 DSK, laboraatiot (1.5 op) Audiosignaalit (ver 1.0) Jyrki Laitinen

Puhesynteesin perusteet Luento 4: difonikonkatenaatio

Signaalien generointi

RAKENNUSAKUSTIIKKA - ILMAÄÄNENERISTÄVYYS

Alla olevassa kuvassa on millisekunnin verran äänitaajuisen signaalin aaltomuotoa. Pystyakselilla on jännite voltteina.

Successive approximation AD-muunnin

Johdanto tieto- viestintäteknologian käyttöön: Äänitystekniikka. Vfo135 ja Vfp124 Martti Vainio

Ongelma 1: Onko datassa tai informaatiossa päällekkäisyyttä?

Mobiilin videonkatselun käyttäjäkokemuksen analyysi. Risto Hanhinen Valvoja: Kalevi Kilkki Diplomityön seminaariesitelmä 20.1.

Ohjelmistoprosessit ja ohjelmistojen laatu Kevät Ohjelmistoprosessit ja ohjelmistojen laatu. Projektinhallinnan laadunvarmistus

Tuntematon järjestelmä. Adaptiivinen suodatin

nykyään käytetään esim. kaapelitelevisioverkoissa radio- ja TVohjelmien

AKKREDITOITU TESTAUSLABORATORIO ACCREDITED TESTING LABORATORY VERKOTAN OY VERKOTAN LTD.

1 Määrittele seuraavat langattoman tiedonsiirron käsitteet.

TL5503 DSK, laboraatiot (1.5 op) Suodatus 2 (ver 1.0) Jyrki Laitinen

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

Luento: Puhe. Mitä puhe on? Anatomiaa ja fysiologiaa. Puhetapahtuma. Brocan ja Wernicken alueet. Anatomiaa ja fysiologiaa. Puheen tuottaminen:

Langattoman verkon spektrianalyysi

IP-pohjaisen puheratkaisun käyttöönotto vaihdeverkossa

Kompleksiluvut signaalin taajuusjakauman arvioinnissa

Vaatimusmäärittely Ohjelma-ajanvälitys komponentti

Laskuharjoitus 4 ( ): Tehtävien vastauksia

Kohti uuden sukupolven digitaalipianoja

ÄÄNEKKÄÄMMÄN KANTELEEN MALLINTAMINEN ELEMENTTIME- NETELMÄLLÄ

Virheen kasautumislaki

ELEC-C7230 Tietoliikenteen siirtomenetelmät

ÄÄNISYNTEESI TYÖKONESIMULAATTOREISSA

Väliraportti: Vesipistekohtainen veden kulutuksen seuranta, syksy Mikko Kyllönen Matti Marttinen Vili Tuomisaari

ELEC-C Sovellettu digitaalinen signaalinkäsittely. Äänisignaalien näytteenotto ja kvantisointi Dither Oskillaattorit Digitaalinen suodatus

1. Määritä pienin näytelauseen ehdon mukainen näytetaajuus taajuus seuraaville signaaleille:

83950 Tietoliikennetekniikan työkurssi Monitorointivastaanottimen perusmittaukset

Laskuharjoitus 2 ( ): Tehtävien vastauksia

Infraäänimittaukset. DI Antti Aunio, Aunio Group Oy

PSYKOAKUSTINEN ADAPTIIVINEN EKVALISAATTORI KUULOKEKUUNTELUUN MELUSSA

Taajuusmittauskilpailu Hertsien herruus Mittausraportti

Muuntavat analogisen signaalin digitaaliseksi Vertaa sisääntulevaa signaalia referenssijännitteeseen Sarja- tai rinnakkaismuotoinen Tyypilliset

MITEN ÄÄNTÄVAIMENTAVAT AKUSTIIKKALEVYT TEKEVÄT PORRASKÄYTÄVÄSTÄ PAREMMAN KUULOISEN.

A/D-muuntimia. Flash ADC

Organization of (Simultaneous) Spectral Components

Äänen laadun parantaminen puheensiirrossa keinotekoisella taajuuskaistan laajennuksella

1. Perusteita Äänen fysiikkaa. Ääniaalto. Aallonpituus ja amplitudi. Taajuus (frequency) Äänen nopeus

Sisältö. Työn lähtökohta ja tavoitteet Lyhyt kertaus prosessista Käytetyt menetelmät Työn kulku Tulokset Ongelmat ja jatkokehitys

Ilmavaihtoäänen taajuusjakauma ja ääniympäristötyytyväisyys

AV-muotojen migraatiotyöpaja - video. KDK-pitkäaikaissäilytys seminaari / Juha Lehtonen

TL5503 DSK, laboraatiot (1.5 op) Suodatus 1 (ver 1.0) Jyrki Laitinen

SIIRTOMATRIISIN JA ÄÄNENERISTÄVYYDEN MITTAUS 1 JOHDANTO. Heikki Isomoisio 1, Jukka Tanttari 1, Esa Nousiainen 2, Ville Veijanen 2

Luennon sisältö. Protokolla eli yhteyskäytäntö (1) Verkon topologia

Huoneakustiikan yhteys koettuun meluun avotoimistoissa

S Tietoliikennetekniikan perusteet. Piirikytkentäinen evoluutio. Annukka Kiiski

S Tietoliikennetekniikan perusteet. Piirikytkentäinen evoluutio

Puheenkäsittelyn menetelmät

TIES592 Monitavoiteoptimointi ja teollisten prosessien hallinta. Yliassistentti Jussi Hakanen syksy 2010

Mittaaminen projektipäällikön ja prosessinkehittäjän työkaluna

811312A Tietorakenteet ja algoritmit I Johdanto

JATKUVAN AWGN-KANAVAN KAPASITEETTI SHANNON-HARTLEY -LAKI

Älypuhelinverkkojen 5G. Otto Reinikainen & Hermanni Rautiainen

3 Ikkunointi. Kuvio 1: Signaalin ikkunointi.

Harjoitus 7: NCSS - Tilastollinen analyysi

Mittausjärjestelmän kalibrointi ja mittausepävarmuus

Ilmastonmuutos ja ilmastomallit

Puheenkoodaus. koodekki toimii hyvin myös kohinaiselle puheelle (ja mielellään vielä musiikille ja muille yleisille signaaleille)

Anturit ja Arduino. ELEC-A4010 Sähköpaja Tomi Pulli Signaalinkäsittelyn ja akustiikan laitos Mittaustekniikka

Akustointiratkaisujen vaikutus taajuusvasteeseen

» Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN

YMPÄRISTÖSEURANNAT Ympäristömelu ja ilmanlaatu. Jani Kankare

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

Digitaalinen audio & video I

4.2 Akustista fonetiikkaa

Mitä viestintäpalvelujen laatu tarkoittaa kuluttajalle? Sebastian Sonntag Tutkija, Aalto-yliopisto

Kuulohavainnon perusteet

Matematiikka ja teknologia, kevät 2011

AKKREDITOITU TESTAUSLABORATORIO ACCREDITED TESTING LABORATORY GRANT4COM OY

Simulation and modeling for quality and reliability (valmiin työn esittely) Aleksi Seppänen

S Havaitseminen ja toiminta

Pv Pvm Aika Kurssin koodi ja nimi Sali Tentti/Vk Viikko

Project group Tete Work-time Attendance Software

f(n) = Ω(g(n)) jos ja vain jos g(n) = O(f(n))

Suodattimet. Suodatintyypit: Bessel Chebyshev Elliptinen Butterworth. Suodattimet samalla asteluvulla (amplitudivaste)

S Teletekniikan perusteet

Arkkitehtuurien tutkimus Outi Räihä. OHJ-3200 Ohjelmistoarkkitehtuurit. Darwin-projekti. Johdanto

FP1/Clt 120: Fonetiikan perusteet: artikulaatiotavat

Transkriptio:

ATTE VIRTANEN PUHEKOODEKKIEN ÄÄNENLAADUN MITTAAMINEN Kandidaatintyö Tarkastaja: Heikki Huttunen Toimitettu tarkastettavaksi 14. joulukuuta 2015

i TIIVISTELMÄ TAMPEREEN TEKNILLINEN YLIOPISTO Sähkötekniikan koulutusohjelma VIRTANEN, ATTE: Puhekoodekkien äänenlaadun mittaaminen Kandidaatintyö, 25 sivua Joulukuu 2015 Pääaine: Signaalinkäsittely Tarkastaja: Heikki Huttunen Avainsanat: puheenkoodaus, puhekoodekit, laatumittaus Tässä työssä tutkitaan uusien objektiivisten puheenlaatumittarien tuottamia tuloksia silloin, kun koodatun puheen seassa on myös taustakohinaa. Puhekoodekkien laatua mitataan yleensä puhtaalla puheella. Useimmiten kuitenkin puheeseen on sekoittunut ympäristön melua, joten on suuri tarve mitata laatua myös niin. Ihmisen kuuloaisti on monimutkainen kokonaisuus ja sitä ei ole helppo matkia. Siksi edelleen tärkeät laatututkimukset tehdään kuuntelupaneeleissa. Tämä on kuitenkin käytännössä hankalaa ja toimiva laatumittausalgoritmi nopeuttaisi ja halventaisi työtä. Kokeilemme, millaisia tuloksia POLQA ja 3QUEST tuottavat, kun AMR-WB ja EVS koodekeilla on koodattu erilaisia laajakaistaisia näytteitä. Tulokset raportoidaan ja analysoidaan.

ii ALKUSANAT Tämä työ on tehty signaalinkäsittelyn osana Tampereen teknillisen yliopiston signaalinkäsittelyn laitoksen kandidaattityöseminaaria. Työn aihe muodostui oman työhistoriani perusteella tämän tyyppisen työn olisin halunnut tehdä, jos aikaa olisi ollut. Haluan kiittää ohjaajaani Heikki Huttusta suuresta ymmärtämyksestä ja tuesta tätä kirjoitettaessa vallinneessa tilanteessa. Lisäksi haluan kiittää esimiestäni Heikki Sassia Microsoft Mobile Oyj.:ssa mahdollisuudesta käyttää yhtiön työkaluja tulosten simulointiin. Erikoiskiitos kuuluu Juha Salmelalle, joka Microsoftilla järjesti simulointilaitteiston toimimaan, vaikka se ei sujunutkaan aivan kuten elokuvissa.

iii SISÄLTÖ 1. Johdanto 1 2. Puheen koodaaminen ja laadun mittaaminen 3 2.1 Puheenkoodaus.............................. 3 2.1.1 Puheen mallinnus......................... 3 2.1.2 Tapoja puheen koodaamiseen.................. 5 2.1.3 Kapeakaistaiset koodekit..................... 6 2.1.4 Laajakaistaiset koodekit..................... 7 2.2 Puheen laadun mittaaminen....................... 7 2.2.1 Subjektiivinen arviointi...................... 7 2.2.2 Objektiiviset mittarit....................... 8 3. Testijärjestelyt ja tulokset 9 3.1 Testisignaalit............................... 9 3.1.1 Puhenäytteet........................... 9 3.1.2 Kohinanäytteet ja niiden lisääminen puheen sekaan...... 10 3.2 Valitut puhekoodekit........................... 11 3.2.1 AMR-WB............................. 11 3.2.2 EVS................................ 12 3.3 Käytetyt mittausmenetelmät....................... 12 3.3.1 POLQA.............................. 13 3.3.2 3QUEST.............................. 13 3.4 Tulokset.................................. 14 3.4.1 POLQA -tulokset......................... 14 3.4.2 3QUEST -tulokset........................ 17 4. Yhteenveto 21

iv TERMIT JA MÄÄRITELMÄT 3GPP 3QUEST ACELP ACR AMR AMR-WB ASL bps db dbfs dbov CELP ETSI EVS fs G-MOS 3rd Generation Partnership Project, usean pienemmän telekommunikaatioalan standardoimisjärjestön yhteistyöelin HEAD acoustics GmbH:n kehittämä mittari kohinaisessa ympäristössä äänitetylle puheelle (3-fold Quality Evaluation of Speech in Telecommunications) Kehittynyt synteesi-analyysiin perustuva puheenkoodausmenetelmä (engl. Algebraic Code-Excited Linear Prediction) Subjektiivinen testi, jonka arvosana kuvaa absoluuttista laatua (engl. Absolute Category Rating) Kapeakaistainen puhekoodekki (Adaptive Multi-Rate) AMR:n laajennos laajakaistaiselle puheelle (Adaptive Multi-Rate WideBand) Aktiivinen puhetaso (engl. Active Speech Level), puhesignaalin teho puhetauot poislukien Datasiirron nopeuden yksikkö tai koodekin aikayksikköä käyttämä bittimäärä (engl. bits per second) Desibeli, signaalitehon yksikkö Signaalitehon yksikkö digitaalisissa järjestelmissä, referenssitasona leikkautumispiste 0dB Signaalitehon yksikkö, suhteutettuna järjestelmän ylikuormituspisteeseen. (engl. db overload) Synteesi-analyysiin perustuva puheenkoodausmenetelmä (engl. Code- Excited Linear Prediction) European Telecommunications Standards Institute, eurooppalainen telekommunikaation standardoimisjärjestö Superlaajakaistainen puhekoodekki (Enhanced Voice Services) Näytteistystaajuus Arvosana näytteen yleislaadulle (Global-MOS)

v GSM GSMA IEEE IIR ITU ITU-T LTE MOS N-MOS QoS S-MOS SNR VAD VoIP VoLTE Maailmanlaajuinen matkapuhelinverkkostandardi (Global System for Mobile Communications, alun perin Groupe Speciale Mobile) GSM Association, GSM-sidosryhmien etujärjestö Institute of Electrical and Electronics Engineers, kansainvälinen tekniikan järjestö Suodintyyppi, jossa on sekä napoja että nollia (engl. Infinite Impulse Response). Kansainvälinen televiestintäliitto (engl.: Internation Telecommunication Union), YK:n alainen televiestintää koordinoiva järjestö. ITU:n standardoimisjaosto (engl. ITU Telecommunications Standardization Sector) Neljännen sukupolven maailmanlaajuinen matkapuhelinverkkostandardi (Long Term Evolution) Subjektiivisessa arvioinnissa saavutettu pistemäärä, yksittäisten arvosanojen keskiarvo (engl. Mean Opinion Score) Arvosana kohinan häiritsevyydelle (Noise-MOS) Eri datatyyppien priorisointi verkossa (Quality of Service) Arvosana puheen laadulle (Speech-MOS) Signaali-kohinasuhde (engl.: Signal to Noise Ratio) Puheen olemassaolon tunnistus (engl. Voice Activity Detection) Internetpuhelu (engl. Voice over IP) Pakettikytkentäinen puhelumoodi LTE -verkoissa (Voice over LTE)

1 1. JOHDANTO Puhe on ihmisten luonnollisin ja tärkein kommunikaatiomuoto. Itse asiassa puhekyky lienee suurimpia ihmiset muista eläimistä erottavia tekijöitä. Ihmiset kykenevät kielen ja puheen avulla viestimään toisilleen mielivaltaisia asioita, eläimillä kyky on paljon rajoittuneempi. Kieli ja puhe onkin merkittävimpiä kehitysaskelia ihmisen historiassa. Merkittävä osa ihmisten välisestä kommunikaatiosta tapahtuu nykyään televerkon kautta, oli kyseessä sitten esimerkiksi puhe, teksti tai kuva. Täten verkon yli siirtyvän informaation tekninen laatu on hyvin tärkeää. Tässä tapauksessa teknisellä laadulla tarkoitetaan sekä siirtotien luotettavuutta että itse datan subjektiivisesti havainnoitua hyvyyttä. Tämän tutkimuksen tavoitteena on keskittyä näistä jälkimmäiseen osaan eli tässä tapauksessa puheen subjektivisen laadun mittaamiseen ja varmistamiseen. Nykyinen digitaalinen tekniikka mahdollistaa digitoidun informaation täydellisen kopion siirtämisen lähes mihin tahansa sijaintiin maapallolla hyvin lyhyessä ajassa. Käytännössä kuitenkaan dataa ei haluta siirtää sellaisenaan, vaan vain riittävän hyvänä käyttötarkoitusta ajatellen. Tähän syynä on rajoitettu verkkokapasiteetti. Siirrettävän datan määrä on niin suuri, ettei paraskaan nykyinen siirtotekniikka käytännössä pystyisi välittämään kaikkea tietoa heti. Tästä tarpeesta ovat syntyneet erilaiset koodekit (codec, encoder-decoder), jotka pakkaavat tilapäisesti datan pienempään tilaan varastointia tai siirtoa varten. Koodekit pystyvät siis tiivistämään dataa. Jonkin verran on mahdollista tiivistää informaatioteoriaa hyväksikäyttäen häviöttömästi eli siten, että alkuperäinen data on täysin palautettavissa koodatusta. Tämä ei kuitenkaan yleensä riitä, vaan jollain tavalla on myös hävitettävä ihmiselle vähemmän merkitsevää dataa. Yksinkertaisin tapa on näytteistää dataa pienemmällä tarkkuudella, jolloin pienemmät yksityiskohdat häviävät mutta isommat säilyvät. Tällä tavallakaan ei päästä suuriin parannuksiin ilman, että datan ymmärrettävyys kärsii merkittävästi. Ratkaisu tiivistysongelmaan tulee tutkimalla ihmisen aistijärjestelmää. Tällöin voidaan jäljittelemällä luoda koodatulle signaalille malli, joka sisältää vain ihmiselle olennaisen tiedon. Data analysoidaan ensin ja siitä syntetisoidaan uusi data, joka ihmiselle kuitenkin vaikuttaa hyvin alkuperäisen kaltaiselta. Tätä kutsutaan häviölliseksi pakkamiseksi ja tällä tavoin päästään esimerkiksi audion tapauksessa "läpi-

1. Johdanto 2 näkyvyyteen" eli huomaamattomaan eroon alkuperäisen ja koodatun datan välillä jopa alle kymmenesosalla alkuperäisestä datasta. Data on pakattu pieneen tilaan ja kaikki ongelmat siten ratkaistu? Edellä kuvatun kaltaisella operaatiolla, jossa datasta hävitetään suurin osa, on suuri riski tuottaa erilaatuisia tuloksia erilaisilla sisääntuloilla. Tämä asettaa suuret vaatimukset koodekin testien kattavuudelle. Lisäksi lopullista arviota ei voi tuottaa kuin oikea ihmiskuuntelija. Automaattiselle laatumittaukselle on suuri tarve. Häviöllisen koodekin tapauksessa mittaaminen on vaikeaa, sillä perinteinen alkuperäisen ja koodatun datan aaltomuodon eroon perustuva mittaus ei tuota luotettavia tuloksia. Itse laatumittarinkin pitäisi osata matkia ihmisen kuuloaistia. Erilaisia menetelmiä onkin kehitetty useita mutta ihmiskuulo on edelleenkin ylivertainen mittalaite. Mittamenetelmien rajoitteet tuntien on kuitenkin mahdollista päästä kohtuullisen luotettavaan tulokseen ja menetelmät ovatkin laajassa käytössä. Seuraavaksi tutustutaan puhekoodekkien laadun mittaamiseen. Luvussa kaksi esitellään puheen akustiikkaa ja siihen perustuvaa puheen mallinnusta. Lisäksi esitellään erilaisia koodausmenetelmiä, joihin kätettävät puhekoodekit perustuvat. Lopuksi vielä kerrotaan puheen laadun mittaamisesta yleisesti, niin subjektiivisesta kuin objektiivisesta arvioinnista. Luvussa kolme esitellään kaksi yleisessä käytössä olevaa mittamenetelmää ja kokeillaan millaisia tuloksia ne tuottavat kahdella eri koodekilla koodatuilla testisignaaleilla, joissa osassa on myös taustakohinaa sekoittuneena puheen sekaan.

3 2. PUHEEN KOODAAMINEN JA LAADUN MITTAAMINEN Puhetta koodataan käytännön syistä pienempään tilaan ja siitä ollaan valmiita hukkaamaan informaatiota tämän tavoitteen saavuttamiseksi. Kysymys onkin, miten tämä vaikuttaa ihmisen aistimukseen puheesta. Mikä osa informaatiosta on tärkeää? Ymmärrettävyys ei ole ainoa osa puheen laatua, joskin oletettavasti tärkein. Pelkkä puheen semantiikka sisältää vain pienen osan puheen informaatioarvosta, kokonaan huomioimatta jää esimerkiksi puhujan henkilöllisyys ja puheen painotuksista riippuva sanaton informaatio. Tämä tekee koodaus- ja mittaustehtävän hyvin monimutkaiseksi. 2.1 Puheenkoodaus Nykyään lähes kaikki puhe siirretään koodattuna. Ensimmäisissä puhelinverkoissa puhelinkeskuksen henkilökunta loi suoran sähköisen yhteyden puhelimien välille ja puhelimissa muunnettiin puhe sähköksi ja takaisin. Vuosikymmenien saatossa puhelinverkot kehittyivät ensin automaattivälitteisiksi, sisältäen edelleen kuitenkin suoran sähköisen yhteyden, ja myöhemmin puhtaaksi bittejä välittäväksi verkoksi. Lankaverkoissa ei tyypillisesti käytetty varsinaista puheenkoodausta mutta digitaalisten matkapuhelinverkkojen ja niiden rajallisen siirtokapasiteetin myötä lähes kaikki puhe siirtyy koodattuna. Tyypillisesti audiosignaalinkäsittely jaetaan kahteen alakategoriaan, puheeseen ja audioon. Näiden erona on, että audiosignaalinkäsittelyssä lähtökohtana voi olla millainen ääni tahansa, mutta puhesignaalinkäsittelyssä keskitytään ihmisten tuottamaan puheeseen. Erikoistuminen pelkkään puheeseen mahdollistaa audiosignaalin oletettujen ominaisuuksien rajoittamisen ja siten pienemmän parametriavaruuden. Tätä hyväksikäyttäen on mahdollista koodata puhe pienempään bittimäärään kuin yleinen audio. Audiossa parhailla koodekeilla päästään jopa alle kymmenesosaan pakkaamattoman datan bittimäärästä ilman kuultavaa eroa. 2.1.1 Puheen mallinnus Puhe on kaikkien muiden äänien tavoin fysikaalisesti mitattuna ilmanpaineen vaihtelua. Siten ihminen puhuessaan liikuttaa ilmaa, johon muodostuu paikallisia pai-

2. Puheen koodaaminen ja laadun mittaaminen 4 neenvaihteluita ja nämä aistitaan äänenä. Kaikkien tarvittavien äänteiden muodostamiseen vaaditaan monipuolinen puheentuottomekanismi. Tämä on kuitenkin mallinnettavissa kohtuullisella määrällä parametreja, kuten myöhemmin huomataan. Ihmisen puheentuottomekanismi voidaan jakaa kahteen osaan. Ensiksi äänen varsinaisena lähteenä toimii ilmavirran tuottava keuhkoista alkava ja kurkunpäähän loppuva osa. Sen jälkeen olevassa osassa, ääntöväylässä, erilaiset äänteet syntyvät, kun ääntöväylä muokkaa kurkunpäästä saapuvaa ilmavirtaa. Lopullinen puhe tulee ulos suun ja nenän kautta. Ääntöväylän tilana on suu ja nenä. Ääntöväylä koostuu useista puhe-elimistä, joilla pystytään luomaan väylään monenlaisia muotoja. Näitä voidaan mallintaa eri pituisilla ja leveyksisillä putkilla. Ääntöväylän muodosta riippuen väylään muodostuu resonansseja eli eri taajuuksia vahvistavia tai vaimentavia kohtia. Ääni syntyy, kun keuhkot puristavat ilmaan henkitorven kautta äänihuulien ohitse. Äänihuulten välissä on äänirako, joka sulkeutuu äänihuulten jännittyessä. Soinnillisissa äänteissä, joita ovat vokaalit ja osa konsonanteista, äänihuulet värähtelevät taajuudella, jota kutsutaan puheen perustaajuudeksi. Tällöin ääriraon koko muuttuu jaksollisesti ja myös läpi kulkevan ilmavirran paine muuttuu jaksolliseksi. Fysikaalisesti syntyvä aaltomuoto on lähellä puoliaaltosuunnattua kolmioaaltoa, jolloin signaalia taajuustasossa tarkastellessa huomataan sen sisältävän runsaasti harmonisia komponentteja. Äänihuulet voivat värähdellä neljällä eri tavalla, joista kolme on olennaisia puheen kannalta [21, s.339]. Soinnillisten äänteiden tapauksessa ääntöväylä on auki ja vain suodattaa äänihuulilta tulevan herätteen. Tällöin eri foneemit, puheen pienimmät osat, erottuvat toisistaan taajuustasapainonsa myötä. Vaikka kaikissa onkin sama perustaajuus, resonanssien paikat eli formantit muokkaavat äänteet erilaisiksi. Mikäli äänihuulet ovat jännittyneitä eli paikoillaan, ilmavirta on tasaista ja akustisesti kohinaa. Tällä tavoin syntyvät soinnittomat äänteet eli lähinnä osa konsonanteista. Klusiivit ovat äänteitä, joissa ääntöväylä hetkellisesti tukitaan esimerkiksi huulilla ja täten syntyy hetken hiljaisuus ja sitä seuraava voimakas pulssi. Esimerkiksi p on klusiili. Frikatiivit, esimerkiksi h ja s, syntyvät ääntöväylän ahtaumissa, joissa keuhkoista tuleva ilmamassa alkaa pyörteilemään. Edellä kuvattua puheentuottomekanismia voidaan mallintaa varsin yksinkertaisella tavalla. Järjestelmän heräte, eli kurkunpäästä ääntöväylään saapuvaa ilmavirta, voidaan esittää soinnillisen äänteen tapauksessa sopivalla tavalla suodatettuna pulssijonona G(z) ja soinnittomien äänteiden ilmavirta valkoisena kohinana. Ääntöväylä esitetään suotimena V (z), joka toteuttaa putkimallin. Lisäksi vielä tarvittaessa voidaan mallintaa suusta lähtevää säteilykuviota R(z). Tämä on esitetty kuvassa 2.1.

2. Puheen koodaaminen ja laadun mittaaminen 5 Kuva 2.1: Yksinkertainen malli ihmisen puheentuottomekanismille [5, s. 334] 2.1.2 Tapoja puheen koodaamiseen Ehkä yksinkertaisin tapa koodata puhetta pienempään tilaan on lankapuhelinverkossa käytetty epälineaarinen näytteistys. Ihmiskuulon logaritmisen äänenpaineaistimuksen vuoksi tuntuu luonnolliselta kokeilla näytteistää puhetta vastaavan logaritmisen painofunktion kera. [9, s.479] Tällöin matalilla äänenpainetasoilla käytetään suhteellisesti enemmän bittejä puheen esittämiseen. Hyötynä tästä on kvantisointikohinan jakautuminen myös epätasavälisesti. Tasavälisessä kvantisoinnissa kohinataso on riippumaton signaalitasosta ja siten signaali-kohinasuhde jää matalalla signaalitasolla myös matalaksi. Epätasavälisellä kvantisoinnilla signaalikohinasuhde saadaan vähemmän signaalitasosta riippuvaksi. Ensimmäinen todella tehokas tapa puheen koodaamiseen on ollut lineaarinen ennustus LP (linear prediction). Ääntöväylä tuottaa vasteen, jossa on vokaalien tapauksessa yleensä kolme selkeää paikallista maksimia eli formanttia. Formantit ovat hyvin tärkeitä puheen kannalta, joten niiden tehokas esittäminen on hyvä lähtökohta puheenkodaukseen. Resonanssit on käytännöllistä esittää IIR-suotimella, jossa on pelkkiä napoja [9, s. 287]. Riittävän korkeasteisella suotimella on mahdollista muodostaa mielivaltainen vaste mutta käytännössä suhteellisen pieni määrä kertoimia riittää. Tyypillinen kertoimien määrä on 2*(kaistanleveys kilohertseinä + 1) [9, s. 288]. Normaalissa puheessa ääntöväylän muoto ei myöskään muutu erityisen nopeasti, vaan parametreja voidaan estimoida esimerkiksi 20 millisekunnin välein. Lineaarinen ennustus on tehokas tapa estimoida tarvittavien suotimien kertoimet. Termiä lineaarinen ennustus käytetään, koska saadut suotimen kertoimet a(m)

2. Puheen koodaaminen ja laadun mittaaminen 6 ovat paras ennustus suotimelle, joka tuottaa P :stä edeltävästä näytteestä nykyisen näytteen ŝ(n) kaavan 2.1 mukaisesti. Suotimen kertoimien ratkaisuun on olemassa tehokkaita algoritmeja, mutta niitä ei käsitellä tässä. P ŝ(n) = a m s(n m) (2.1) m=1 Pelkällä lineaarisella ennustuksella toteutettu koodekki ei tuota kovinkaan hyvälaatuista puhetta [5, s. 336], joten konseptiin on kehitetty monia parannuksia. Olennaista kuitenkin on, että tarvittava datamäärä on hyvin pieni, vain suotimen kertoimet ja herätteen tyyppi jokaista puhekehystä kohden. Käytetyt bittinopeudet ovat olleet jopa alle 4 kbps. Suuri parannus puheenlaatuun saavutettiin synteesi-analyysi-periaatteen käyttöönoton myötä. Terminä synteesi-analyysi tarkoittaa järjestelmää, jossa koodatut parametrit valitaan syntetisoimalla signaali koodekin sisältämillä parametreilla ja pienimmän virheen alkuperäiseen nähden tuottavan syntetisoidun signaalin parametrit ovat koodauksen tulos. Tunnetuin synteesi-analyysi koodekki on vuosina 1984 ja 1985 esitelty CELP. Siitä muodostui nykyajan puhekoodekkien vallitseva koodausperiaate [5, s. 352]. Suurena uudistuksena oli, ettei herätteelle ollut enää varsinaisia parametreja, vaan käyttöön otettiin koodikirja. Tämä mahdollisti hyvin pienen bittimäärän käyttämisen herätesignaalin valinnassa. Koodikirja sisälsi suuren määrän (1024, 10 bitillä esitettävä määrä) erilaisia herätesignaalikandidaatteja. Kuvan 2.1 mallissa koodikirja korvaa herätteenä toimivat impulssijonon ja kohinageneraattorin. Ääntöväylä on CELPissä edelleen mallinnettu lineaarisen ennustuksen avulla. Oikea heräte koodikirjasta saadaan suodattamalla kaikki koodikirjan vektorit LPsuodattimella ja laskemalla virhe alkuperäiseen signaaliin. Ilman optimointeja toimenpide on laskennallisesti hyvin raskas eikä mahdollinen reaaliaikajärjestelmissä [5, s. 364]. Tämän ongelman ratkaisuksi on ehdotettu monia ratkaisuja. Algebraic CELP (ACELP) on yleisimmin käytetty menetelmä uusissa puhekoodekeissa [5, s.359]. Sen hyviä ovat erityisesti pienempi laskentakuorma ja poistunut tarve koodikirjan säilyttämiseen muistissa [5, s. 359, 373]. 2.1.3 Kapeakaistaiset koodekit Perinteisesti lankapuhelinverkon on katsottu välittävän taajuudet 300 3400 hertsiä. Digitaalisena aikana näytteistystaajuudeksi muodostunut kahdeksan kilohertsiä. Tämä oli myös lähtökohta GSM -verkon puhekoodekeissa ja samoin useimmissa muissakin sovelluksissa. GSM on laajimmin käytössä oleva matkapuhelinstandardi. Aluksi käytössä olivat HR (half rate) ja FR (full rate) koodekit, jotka eivät tuottaneet kovin korkeaa

2. Puheen koodaaminen ja laadun mittaaminen 7 puheenlaatua johtuen erityisesti HR-koodekissa käytetystä LP-koodauksesta. FRkoodekki korvattiin pian EFR-koodekilla, joka ACELP-koodausta käyttävänä paransi puheenlaatua merkittävästi bittinopeuden jopa hieman pienentyessä. Nykyisin yleisimmin käytetty AMR on EFR:n jatkokehitelmä, joka osaa muuttaa bittinopeutta verkko-olosuhteiden mukaan. 2.1.4 Laajakaistaiset koodekit Laajakaistaisessa koodekissa näytteistystaajuus on suurempi kuin kahdeksan kilohertsiä. Yleensä laajakaistapuheella tarkoitetaan 16kHz:n taajuudella näytteistettyä signaalia, jonka taajuussisältö on 50 7000 hertsiä. Mikäli näytteistystaajuus on vielä suurempi, puhutaan niin kutsutusta super wideband-laadusta. Termille super wideband ei ole vakiintunutta suomennosta. Puhelinverkoissa laajakaistaiset koodekit eivät ole laajassa käytössä. Matkapuhelinverkoissa AMR-WB on yleistynyt viime vuosina. EVS on tulevaisuuden matkapuhelinkoodekin standardi. VoIP-sovellukset ovat yleensä laajakaistaisia. Näistä käy esimerkiksi Skype ja Opus-koodekki. 2.2 Puheen laadun mittaaminen Puheen laatu, kuten kaikki muutkin aistihavainnot, on hyvin subjektiivinen käsite. Eri ihmisiä häiritsevät eri virheet eri tavalla. Tästä syystä perinteisesti kaikki laatuarvioinnit on tehty kuuntelupaneelien avulla. Ongelmaksi tässä lähestymistavassa tulee riittävän kattavuuden saaminen tulosten tilastollisen merkitsevyyden varmistamiseksi. Tarvitaan hyvin monta kuuntelijaa ja kuunneltavaa näytettä. Lisäksi kuuntelijoiden olisi mielellään oltava maallikoita, sillä liikaa puheenkäsittelyä tunteva kuuntelija pystyy havaitsemaan virheitä, joita normaali ihminen ei havaitse. Tästä seuraa, että asiantuntija arvioi laadun heikommaksi kuin maallikkokuuntelija, ja siten tulos ei vastaa enää ihmisten yleisesti kokemaa. Puheenlaadun mittaaminen on tärkeää monille osapuolille. Puhelinlinjan päässä olevat käyttäjät ovat lopullisinä tuomareina laadun suhteen, mutta välissä on monta porrasta, joissa kaikissa täytyy tehdä omat laatumittauksensa. Mittaustarve on niin suuri, että automatisoiduille menetelmille on erittäin vahva kysyntä. 2.2.1 Subjektiivinen arviointi Kanavan läpi kulkeneen puheen laadun määrittämiseksi ITU-T valmisteli suosituksen P.800 [12], jossa on määritelty mm. kuunteluraati, käytettävät näytemäärät ja kuunteluympäristö. Järjestely on hyvin raskas ja siten käyttökelpoinen lähinnä vasta, kun puhekoodekin kehitystyö on käytännössä valmis. Testin tulosta pidetään hyvin luotettavana. Lopullinen tulossuure on MOS -lukema, joka on välillä 1 5. Tulos

2. Puheen koodaaminen ja laadun mittaaminen 8 5 tarkoittaa, että puhe ei ole heikentynyt ollenkaan siirtokanavassa ja vastaavasti arvosana 1 tarkoittaa erittäin huonosti säilynyttä puhetta. Suositeltu MOS -tyyppi on ACR, jolloin annettu arvosana kuvaa kanavan läpi kulkeneen näytteen absoluuttista laadua eikä esimerkiksi suhteellista hyvyyttä alkuperäiseen äänitteeseen. Suositus P.800 on kuitenkin tehty vain puhdasta puhetta ajatellen. Mikäli puheen seassa on myös kohinaa, eivät tulokset ole täysin luotettavia. Merkittävin ongelma on, ettei puheen yleislaadun heikentymisen syy selviä. Epäselväksi siis jää onko itse puhe huonontunut vaiko vain siihen sekoittunut kohina häirinnyt kuuntelijaa. Tätä varten kehitettiin P.800:n pohjalta laajennos P.835 [15], joka on erityisesti suunnattu kohinanvaimennusta suorittavan järjestelmän arviointiin. Käytännön kohinanvaimentimet eivät yleensä pysty poistamaan vain kohinaa, vaan tyypillisesti myös itse puhe on jotenkin muuttunut. P.835 määritteleekin yhden sijasta kolme eri MOS -pisteytystä. Arvioitavana on itse puheen laatu (S-MOS), melun häiritsevyys (N- MOS) ja näytteen yleislaatu (G-MOS). Näiden tulosten perusteella on mahdollista arvioida varsin luotettavasti lähtösignaalien sisältämän kohinan merkitystä siirtokanavan lopulliselle laadulle. 2.2.2 Objektiiviset mittarit Luotettavien subjektiivisten, käytännössä kuuntelutestien, tulosten saaminen on todettu hyvin työlääksi, kalliiksi ja hitaaksi tavaksi mitata signaalin laatua. Tämän vuoksi riittävän hyvin kuuntelutestien tulosta ennustava objektiivinen, eli algoritmin suorittama, mittaus on käytännön tuotekehityksessä erittäin haluttu. Useita mittareita on ehdottu ja käytetty. Seuraavaksi esitellään tärkeimmät niistä. Ensimmäinen ITU-T:n standardoima menetelmä signaalipolun laadun mittaamiseen oli Perceptual Speech Quality Measurement, PSQM [13]. Käytännön tilanteissa algoritmista paljastui kuitenkin niin suuria heikkouksia, että varsin pian todettiin tarvittavan parempi työkalu tilalle. Korvaavaksi algoritmiksi muodostui Perceptual Evaluation of Speech Quality, PESQ [14]. PESQ osoittautui riittävän hyväksi useimpiin sovelluksiin, joten sitä käytetään edelleen erityisesti kapeakaistaisen puheen laadun arvioimiseen. Sekä PSQM että PESQ olivat tarkoitettu vain kapeakaistaisen puheen mittaamiseen, mutta myöhemmin PESQ sai laajennoksen laajakaistaisille signaaleille standardissa P.862.2 [16]. Tuorein ja luotettavin standardoitu metriikka koodekkien ja muiden puhtaita puhesignaaleja välittävien järjestelmien mittaamiseen on Perceptual Objective Listening Quality Assessment, POLQA. POLQA korjaa PESQ:n heikkouksia tietyissä tilanteissa mutta ei kuitenkaan vieläkään ole yleispätevä laatumittari. POLQA on aina laajakaistainen. Rajoituksiksi on mainittu muun muassa tuloksen luotettavuus kohinaisilla signaaleilla. [19] Siten POLQA ei tähänkään tutkimukseen huomatuksitta sovellu.

9 3. TESTIJÄRJESTELYT JA TULOKSET 3.1 Testisignaalit Tutkimuksen tavoitteena on selvittää, paljonko koodatun puheen laatuun vaikuttaa puheeseen ennen lähetystä sekoittunut kohina. Tätä varten luodaan signaalit, joissa on puhetta ja erilaisia meluja. Nämä koodataan ja dekoodataan valituilla koodekeilla ja ulostulo syötetään valittuihin mittareihin. Tulokset kirjataan ylös ja analysoidaan. Tavoitteena on käyttää standardoituja ääninäytteitä, jotta tulokset voitaisiin toistaa ja ne olisivat mahdollisesti vertailukelpoisia muihin tutkimuksiin nähden. 3.1.1 Puhenäytteet Puheenkäsittelyn tutkimus ja telekommunikaation kehitystyö tehdään tyypillisesti niin kutsuttuja Harvard-lauseita käyttäen. Termi on peräisin toisen maailmansodan ajalta, jolloin Harvardin yliopiston psykoakustiikan laboratoriossa tutkittiin ja testattiin ihmisen reaktioita erilaisiin ääniin. Sodan aikana tutkimus keskittyi erityisesti sotilaallisesti hyödynnettäviin kohteisiin, tyypillisimmillään telekommunikaation laadun parantamiseen. Näiden tutkimusten yhtenä sivutuotteena syntyivät Harvardlauseet, jotka ovat foneettisesti tasapainoisia eli sisältävät foneemeja samassa suhteessa kuin kielessä keskimäärin. [22] Täten saatiin testattua välitetyn puheen ymmärrettävyys mahdollisimman kattavasti mahdollisimman pienellä lausemäärällä. Lopullisesti lauseista muodostui käytännön standardi IEEE:n suosituksen [1] myötä. Alkuperäiset lauseet ovat englanninkielisiä mutta vastaavia lausekokoelmia on tehty myös muille kielille. Tähän työhön valittiin puhenäytteiksi vapaasti saatavilla oleva tietokanta The Pacific Northwest/Northern Cities (PN/NC) corpus [20]. Suurin osa vapaasti käytettävistä tietokannoista on näytteistetty kahdeksalla kilohertsillä, joten ne eivät laajakaistaisen koodekin testaamiseen, mikä on tämän tutkimuksen tarkoitus. Nämä näytteet ovat täyden kaistan nauhoituksia, joten niitä voisi käyttää jopa ns. super laajakaistaisten koodekkien analyysiin. Lauseet ovat englanninkielisiä. Tietokannan lauseista valittiin yhtensä 20. Eri puhujia on neljä, kaksi naista (N1 ja N2) ja kaksi miestä (M1 ja M2). Jokaiselta puhujalta valittiin viisi lausetta siten, että kaikki lauseet olivat erilaisia. Valittu materiaali on esitetty taulukossa 3.1. Lauseista muodostettiin 80 sekunnin mittainen signaali siten, että luotiin 80s hil-

3. Testijärjestelyt ja tulokset 10 jaisuutta ja aina neljän sekunnin välein siihen sijoitettiin puhenäyte. Puhenäyte on tyypillisesti noin kahden sekunnin mittainen, joten lauseiden väliin jäi karkeasti arvioiden lauseen mittainen tauko. Telekommunikaatiosovelluksissa puhenäytteet yleensä normalisoidaan samalle tasolle. Tähän käytetään tyypillisesti standardissa ITU-T P.56 [18] esitettyä metodiikkaa aktiivisen puheen tason ASL määrittämiseen. Valmis tämän toiminnallisuuden toteuttava referenssikoodi on saatavissa standardista ITU-T G.191 [17]. Näistä lähdekoodeista käännetyllä suoritettavalla ohjelmalla prosessoidaan näytteet telekommunikaatiossa yleensä käytettävälle signaalitasolle -26dBov. Tässä tapauksessa, kun käsiteltävät signaalit ovat kaiken aikaa digitaalisia, dbov vastaa dbfs eli referenssipisteenä on 0dB. Huomattiin, että näytteet olivat jo valmiiksi normalisoituja, joten normalisointia ei suoritettu uudelleen. Tiedostonimi Puhuja Lause CHF03_01-07.wav N1 The box was thrown beside the parked truck CHF03_02-01.wav N1 The boy was there when the sun rose CHF03_02-06.wav N1 A pot of tea helps to pass the evening CHF03_03-10.wav N1 Read verse out loud for pleasure CHF03_04-02.wav N1 Take the winding path to reach the lake CHF04_06-10.wav N2 Both lost their lives in the raging storm CHF04_07-08.wav N2 This is a grand season for hikes on the road CHF04_07-09.wav N2 The dune rose from the edge of the water CHF04_07-10.wav N2 Those words were the cue for the actor to leave CHF04_08-02.wav N2 The two men met while playing on the sand CHM01_04-04.wav M1 Wipe the grease off his dirty face CHM01_04-05.wav M1 Mend the coat before you go out CHM01_04-08.wav M1 The young girl gave no clear response CHM01_05-02.wav M1 The ship was torn apart on the sharp reef CHM01_05-05.wav M1 The lazy cow lay in the cool grass CHM02_05-07.wav M2 The rope will bind the seven books at once CHM02_06-01.wav M2 The frosty air passed through the coat CHM02_06-04.wav M2 The show was a flop from the very start CHM02_06-05.wav M2 A saw is a tool used for making boards CHM02_06-09.wav M2 Place a rosebush near the porch steps Taulukko 3.1: Käytetyt puhenäytteet. 3.1.2 Kohinanäytteet ja niiden lisääminen puheen sekaan Kohinanäytteinä käytetään osaa telekommunikaationteollisuudessa yleisesti käytetyistä ja ETSI EG 202 396-1 -standardiin [6] sisältyvistä signaaleista. Tietokantaan sisältyy 38 erilaista binauraalisesti äänitettyä näytettä. Nämä on ensisijaisesti tarkoitettu toistettavaksi neljällä kaiuttimella luomaan meluympäristö mitattavan

3. Testijärjestelyt ja tulokset 11 laitteen ympärille. Tämän kaltainen järjestely ei sovellu tähän tutkimukseen mutta signaaleja voi käyttää myös suoraan puhesignaaliin sekoitettuna. Tähän työhön valittiin näytteistä neljä erilaista. Ne edustavat tyypillisimpiä hankalia meluolosuhteita, joissa nauhoitetun ja koodatun puheen laatu saattaa merkittävästi heiketä puhtaaseen puheeseen verrattuna. Näytteet on esitelty taulukossa 3.2. Kohinanäytteitä ei ole normalisoitu, sillä käytännössä eri tyyppisissä kohinaympäristöissä myös melutaso on erilainen. Pubimelun tapauksessa melutaso oli niin korkea, että sen käyttäminen sellaisenaan ei ollut mielekästä. Signaalitasoa laskettiin 20dB. Varsinaisia signaali-kohinasuhteita ei määritetty, sillä se riippuu mahdollisesti käytetystä painotusfunktiosta. Ensiksi sekä puhe- että melunäytteet uudelleennäytteistettiin taajuudella 16kHz, joka on laajakaistaisen koodekin näytetaajuus. Puhenäytteen ollessa 80 sekuntia pitkä ja melunäytteiden vain 30 sekuntia, melunäytteitä kopioitiin peräkkäin riittävän monta kertaa, jotta saatiin 80 sekuntia pitkä näyte. Nämä pitkät näytteet summattiin, jolloin tuloksena oli yhdistetty puhe- ja melusignaali. Lopuksi vielä signaalit suodatettiin rajataajuudeltaan 100Hz olevalla ylipäästösuodattimella, koska puhekoodekille ei ole mielekästä syöttää puhetaajuuksien ulkopuolisia ääniä. Tiedostonimi Cafeteria_Noise_binaural ( 0.00-30.00 s).wav Fullsize_Car1_130Kmh_binaural ( 0.00-30.00 s) Pub_Noise_Binaural_V2 Outside_Traffic_Road_binaural ( 0.00-30.00 s) Melutyyppi Kahvilan taustamelu Auton sisämelu Pubin taustamelu Liikennemelu Taulukko 3.2: Käytetyt taustamelunäytteet. 3.2 Valitut puhekoodekit Työssä haluttiin keskittyä matkapuhelinverkkojen yleisimpään laajakaistakoodekkiin (AMR-WB) ja uusimpaan ja parhaimpaan (EVS). Tavoitteena on myös tutkia näyttäisikö valittuja mittareita käyttäen puheen laatu paranevan tulevaisuudessa, kun EVS yleistyy AMR-WB:n korvaajana. Koodekkeja on vertailtu jo standardoinnin yhteydessä [2], mutta tulokset ovat kuuntelutesteistä. Testisignaalit eivät ole samoja, joten vertailuja kuuntelutestien ja objektiivisten mittarien välillä ei voida tehdä. 3.2.1 AMR-WB Nykyinen standardi GSM -puhelinverkkojen laajakaistaiselle puheelle on AMR-WB [3; 4]. Se on laajennus kapeakaistaiselle AMR -koodekille ja tuo merkittävän laatuparannuksen hyvin pienellä bittinopeuden lisäyksellä. Lukuunottamatta suurinta

3. Testijärjestelyt ja tulokset 12 ja harvoin käytettyä bittinopeutta, koodattu taajuuskaista on 50 6400HZ. 16kHz:n näytteistystaajuutta ei siten yleensä hyödynnetä optimaalisesti AMR-WB perustuu ACELP -algoritmiin ja tukee bittinopeuksia 6,6-23,85 kbps. Yleisimmin televerkot tukevat vain kolmea alinta bittinopeutta, 6,6; 8,85 ja 12,65 kbps.näistä viimeisin on käytössä normaalisti ja alemmat nopeudet vain huonoissa verkko-olosuhteissa. Tämän vuoksi tarkempaan tutkimukseen valitaan pienin ja yleisimmin käytetty bittinopeus eli 6,6 kbps ja 12,65 kbps. GSMA on määritellyt markkinointitermin "HD Voice", jossa on vaatimuksena laajakaistainen koodekki ja tehokas lähtevän äänen kohinanvaimennus. GSMverkossa koodekkina on silloin AMR-WB. Suomessa HD Voicea on ensimmäisenä matkapuhelinoperaattorina tukenut DNA. 3.2.2 EVS LTE -verkkojen mahdollistaessa pakettikytkentäisen puheensiirron (VoLTE), on mahdollistunut myös käyttää suurempaa bittinopeutta puheen siirtoon. Pakettikytkentäisen siirron hyviä puolia ovat tehokas kaistan käyttö (ei tarvetta varata osaa kapasiteetista piirikytkentäiselle puheelle) ja eri tyyppisten datojen priorisointi QoS periaatteella. Täten puheelle voidaan osoittaa tarpeen mukaan enemmän kaistaa ja tarvittaessa tilapäisesti rajoittaa muuta datasiirtoa. EVS perustuu AMR-WB:n tavoin ACELP -koodaukseen mutta sisältää monia uudistuksia ja parannuksia. Käytettävissä on kuusi eri koodausmoodia eri tyyppisiä puheäänteitä ja myös audiota varten. Täten puheen eri osien koodaus saadaan optimoitua Tarkasteltavat EVS bittinopeudet valittiin siten, että ne olisivat mahdollisimman lähellä AMR-WB:n vastaavua. Siten testitapauksiksi valittiin 7,2 kbps ja 13,2 kbps. Nämä ovat hieman AMR-WB bittinopeuksia korkeammat ja yhdistettynä parempaan koodekkiin, tuloksien olettaisi olevan parempia. 3.3 Käytetyt mittausmenetelmät Tutkimuksen mittausmenetelmiksi valittiin tällä hetkellä tuoreimmat telekommunikaatioteollisuudessa käytettävät menetelmät. Nämä ovat POLQA ja 3QUEST. POLQA on tarkoitettu puhtaan puheen laatumittariksi mutta se tuottaa kuitenkin jollain tavalla järkeviä tuloksia myös kohinaisille näytteille, vaikka itse standardi ei siihen käyttöön suosittelekaan [19]. 3QUEST puolestaan on tarkoitettu nimenomaan kohinaympäristössä äänitetyn puheen laatumittauksiin. Yleisessä käytössä ei ole muita vastaavia mittareita.

3. Testijärjestelyt ja tulokset 13 3.3.1 POLQA Kuten jo luvussa 2.2.2 todettiin, POLQA on tuorein ITU-T:n standardoima telekommunikaatiojärjestelmän laatumittari. POLQA -standardissa yhdistyy OPTICO- Min, SwissQualin ja TNO:n ehdotus. POLQA on lisensoitava teknologia, sopimuskumppanina toimii OPTICOM koko konsortion puolesta. Tarvittava tieto löytyy konsortion www-sivulta http://www.polqa.info/. POLQAa käytettäessä parametreina ovat referenssinä toimiva alkuperäinen laajakaistainen puhesignaali ja mitattava koodattu signaali. Virallisesti POLQAn referenssisignaalin on tarkoitus olla täyden kaistan (fs=48khz) signaali mutta tässä tapauksessa referenssinä toimii koodekille syötetty signaali. Tällöin 16 khz signaali ensin interpoloidaan eli ylinäytteistetään taajuudelle 48 khz. Ulostulona saadaan mielenkiintoisimpana tuloksena tässäkin tutkimuksessa raportoitava MOS-luku mutta myös muita mittaustuloksia on saatavilla, muun muassa viive. 3.3.2 3QUEST 3QUEST on nykyinen teollisuusstandardi kohinaympäristössä nauhoitetun puheen koodatun laadun mittaamiseen. Kyseessä on HEAD acoustics GmbH:n tuottama lisensoitava ratkaisu. Sen ensimmäinen versio [10] toteutti standardissa ETSI EG 202 396-3 [7] esitetyn mallin. Siinä huomattiin kuitenkin olevan tiettyjä ongelmia, joten standardia päivitettiin 3GPP:n toimesta uudeksi ETSI TS 103 106 [8] standardiksi. Tätä varten myös 3QUEST oli päivitettävä ja tätä versiota kutsutaan nimellä 3QUEST-NG [11]. Arvostelualgoritmi muuttui merkittävästi ja siten eri versioiden tuottamat tulokset eivät ole vertailukelpoisia. 3QUESTin ollessa tarkoitettu kohinaisesta ympäristöstä soitetun puhelun ja kohinanvaimennuksen mittaamiseen, ei referenssisignaaliksi enää riitä pelkkä puhdas puhe, vaan lisäksi tarvitaan käsittelemätn nauhoitus itse käyttötilanteesta. Optimaalisessa tilanteessa se olisi puhelimen mikrofonin poimima signaali mutta käytännössä siihen on hyvin vaikea päästä käsiksi. Siten joudutaan käyttämään erillistä referenssimikrofonia, joka tallentaa äänikenttää mahdollisimman läheltä puhelimen mikrofonia. Tässä tutkimuksessa tehdään vain simulointiajoja, joten on mahdollista käyttää referenssisignaalina samaa kuin koodekin sisäänmenona. 3QUEST laskee useita eri tuloksia. Yleensä ja tässäkin työssä raportoidaan vain varsinaiset MOS-luvut eli S-MOS, N-MOS ja G-MOS. Lisäksi saadaan paljon tuotekehityksessä ja ongelmatapauksien analysoinnissa hyödyllistä tietoa. Tässä työssä käytetään uudempaa 3QUEST-NG algoritmia.

3. Testijärjestelyt ja tulokset 14 3.4 Tulokset Simulaatioajot suoritettiin Microsoft Mobile Oyj:n työkaluilla ja tiloissa. Käytetty työkalu oli HEAD acousticsin HEAD Batch Calculator Tool. Työkalulla on mahdollista simuloida mittatulokset ennalta äänitettyjä signaaleja käyttäen. Mittamenetelmät vaativat omat lisenssinsä, sekä 3QUEST että POLQA olivat käytettävissä. Tulokset esitetään koodekeittain ja melutyypeittään lajiteltuna sekä graafisessa että taulukkomuodossa. Tuloksia analysoidaan ja tehdään johtopäätöksiä koodekkien laadusta ja myös mittarien toimivuudesta tässä käyttötarkoituksessa. 3.4.1 POLQA -tulokset Tarkastellaan ensin POLQA -tuloksia. Ennakko-odotuksena on, että EVS tuottaisi parempia tuloksia kuin AMR-WB, sillä aiemmin raportoidut tulokset [2] osoittavat niin olevan. Lisäksi koodekkikohtaisesti kahdesta bittinopeudesta korkeamman tapauksessa laadun pitäisi olla parempi. Tulokset on raportoitu taulukossa 3.3 ja kuvassa 3.1. Puhtaan puheen tapauksessa tulokset ovat ristiriitaisia odotuksiin nähden. Hyvälaatuinen koodattu puhe tuottaa tyypillisesti tuloksena MOS -lukua noin neljä. Nyt AMR-WB korkeammalla 12,65kbps bittinopeudella saavuttaa tuloksen 3,95, mikä on uskottava tulos. Toisaalta EVS:n tapauksessa tulokset ovat hyvin heikkoja, 3,01 korkeammalla bittinopeudella ja 2,74 matalammalla. Tämä johtaa olettamaan, että tuloksissa on jotain vialla EVS:n kohdalla. Taustamelun ollessa läsnä tulokset eivät poikkea aivan yhtä paljon AMR-WB:n vastaavista mutta yleisesti ottaen ovat heikompia. Täten EVS -koodekin suorituskyvystä ei voi tehdä johtopäätöksiä ennen kuin koejärjestelyt on tarkastettu ja testit toistettu. Käyttäjällä oli epävarmuutta, millä taajuudella kunkin signaalin tulisi olla näytteistetty. Testiohjelma ei tuottanut virheilmoitusta mutta voi olla, että vika liittyy näytetaajuuksiin. AMR-WB:n tapauksessa tulokset ovat johdonmukaisesti parempia korkeammalla bittinopeudella. Suurin ero bittinopeuksien välillä saavutetaan puhtaalla puheella ilman taustakohinaa. Tällöin tulee selkeästi esille koodekin kyky koodata puheen olennaiset ominaisuudet. Eri melujen tapauksissa tulokset vaihtelevat. Pubimelussa arvosanat ovat ehkäpä liian korkeita, melusignaalia lienee vaimennettu niin paljon, ettei tilanne enää vastaa todellista ympäristöä. Tämä mahdollisuus oli ennakkoon jo tiedossa mutta vaimentamattomalla melusignaalilla signaali-kohinasuhde olisi jäänyt hyvin matalaksi. Noin meluisassa ympäristössä ihminen muuttaa puheensa ominaisuuksia, tapahtuu niin sanottu Lombard -vaikutus, ja sitä ei ole tässä huomioitu [5, s.88]. Käytännössä puhetaso nousee ympäristömelun mukana. Automelun tapauksessa korkeampi bittinopeus ei näyttäisi merkittävästi lisäävän

3. Testijärjestelyt ja tulokset 15 laatua. Myös katumelussa ero on pienehkö. Tämä voisi johtua koodekkien sisältämästä VADista, jolloin helposti puheesta erotettavissa olevien melujen tapauksessa bittejä ei hukata taustamelun koodaamiseen. Kahvila- ja pubimelut sisältävät puheenomaista taustakohinaa, jolloin VAD ei pysty erottelemaan hyötypuhetta taustasta. Tällöin kaikki audio koodataan ja pienen bittinopeuden tapauksessa bitit kuluvat merkittävältä osin taustamelun kuvaamiseen. 4,5 4 3,5 3 2,5 2 1,5 Ei melua Auto Maantie Kahvila Pubi EVS 13,2 EVS 7,2 AMR-WB 12,65 AMR-WB 6,6 Kuva 3.1: POLQA, koodekkikohtaiset MOS-lukemat.

3. Testijärjestelyt ja tulokset 16 Melutyyppi Koodekki Bittinopeus MOS - AMR-WB 12,65kbps 3,95 - AMR-WB 6,6kbps 3,29 - EVS 13,2kbps 3,01 - EVS 7,2kbps 2,74 Auto AMR-WB 12,65kbps 2,68 Auto AMR-WB 6,6kbps 2,64 Auto EVS 13,2kbps 2,68 Auto EVS 7,2kbps 2,71 Maantie AMR-WB 12,65kbps 2,25 Maantie AMR-WB 6,6kbps 2,07 Maantie EVS 13,2kbps 2,00 Maantie EVS 7,2kbps 1,97 Kahvila AMR-WB 12,65kbps 2,87 Kahvila AMR-WB 6,6kbps 2,36 Kahvila EVS 13,2kbps 2,54 Kahvila EVS 7,2kbps 2,34 Pubi AMR-WB 12,65kbps 3,09 Pubi AMR-WB 6,6kbps 2,63 Pubi EVS 13,2kbps 2,75 Pubi EVS 7,2kbps 2,75 Taulukko 3.3: POLQA tulokset testisignaaleille.

3. Testijärjestelyt ja tulokset 17 3.4.2 3QUEST -tulokset 3QUEST -tulokset on kokonaisuudessaan esitetty taulukossa 3.4. Nyt ennakko-odotus EVS:n paremmuudesta AMR-WB:hen nähden näyttäisi toteutuvan. Korkeamman bittinopeuden tapauksissa EVS on aina parempi ja matalammalla bittinopeudessa neljässä viidestä tapauksesta. Tulokset vaikuttavat uskottavilta. Kuvasta 3.2 nähdään, että puhtaalla puhesignaalilla kaikki S-MOS tulokset ovat yli neljän. Tämä indikoi koodatuksi puheeksi erittäin hyvää puheenlaatua. Absoluuttiset tulokset ovat korkeampia kuin POLQA -mittauksissa saavutetut, joten näyttäisi siltä, ettei POLQA MOS ja 3QUEST S-MOS ole verrannollisia keskenään. Maantiemeluja lukuunottamatta S-MOSit ovat hyviä. Melu on voimakas, joten se vaikuttanee myös itse puhetta mittaavaan S-MOSiin. Melun häiritsevyys on näistä meluista suurin, N-MOSit ovat lähellä kahta eli erittäin häiritsevää. Korkea S-MOS ja matala N-MOS viittaa kohinanvaimennuksen puuttumiseen, mikä onkin pelkän koodekin tapauksessa todellinen tilanne. Kohinanvaimentimet eivät ole standardoitujen koodekkien osia vaan ne ovat yleensä esiprosessointeja ja siten päätelaitteen ominaisuus. Kuvassa 3.3 on esitetty koodekkikohtaiset 3QUEST tulokset siten, että tulos on keskiarvo kaikista neljästä taustamelutapauksesta. Näiden tulosten perusteella EVS 13.2kbps tuottaa parhaan puheenlaadun. EVS 7,2 kbps ja AMR-WB 6,6kbps ovat hyvin lähellä toisiaan ja AMR-WB 12,65kpbs näiden kahden ryhmän välissä. Mielenkiintoinen tulos on, että N-MOS lukemat menevät käänteisessä järjestyksessä verrattuna S-MOSiin ja G-MOSiin. Tämä kertoo sekä vahvasta korrelaatiosta S-MOSin ja G-MOSin välillä että ilmeisesti myös taustamelun välittymisestä voimakkaammin koodekin ja bittinopeuden parantuessa.

3. Testijärjestelyt ja tulokset 18 4,80 4,60 4,40 4,20 4,00 3,80 3,60 S-MOS N-MOS G-MOS EVS 13,2 EVS 7,2 AMR-WB 12,65 AMR-WB 6,6 Kuva 3.2: 3QUEST, koodekkikohtaiset tulokset puhtaalle puheelle.

3. Testijärjestelyt ja tulokset 19 4,00 3,50 3,00 2,50 2,00 S-MOS N-MOS G-MOS EVS 13,2 EVS 7,2 AMR-WB 12,65 AMR-WB 6,6 Kuva 3.3: 3QUEST, koodekkikohtaiset keskiarvot taustamelutapauksista.

3. Testijärjestelyt ja tulokset 20 Melutyyppi Koodekki Bittinopeus SMOS N-MOS G-MOS - AMR-WB 12,65kbps 4,16 4,34 4,00 - AMR-WB 6,6kbps 4,06 4,32 3,91 - EVS 13,2kbps 4,43 4,55 4,32 - EVS 7,2kbps 4,21 4,55 4,13 Auto AMR-WB 12,65kbps 4,07 2,43 3,14 Auto AMR-WB 6,6kbps 3,86 2,43 2,96 Auto EVS 13,2kbps 4,17 2,36 3,20 Auto EVS 7,2kbps 3,77 2,38 2,87 Maantie AMR-WB 12,65kbps 3,29 2.17 2,40 Maantie AMR-WB 6,6kbps 3,19 2,24 2,36 Maantie EVS 13,2kbps 3,30 2,16 2,41 Maantie EVS 7,2kbps 3,31 2,19 2,43 Kahvila AMR-WB 12,65kbps 4,13 2,41 3,18 Kahvila AMR-WB 6,6kbps 3,95 2,48 3,05 Kahvila EVS 13,2kbps 4,29 2,36 3,30 Kahvila EVS 7,2kbps 4.06 2,41 3.15 Pubi AMR-WB 12,65kbps 3,90 2,18 2,89 Pubi AMR-WB 6,6kbps 3,72 2,23 2.76 Pubi EVS 13,2kbps 4,03 2,12 2,97 Pubi EVS 7,2kbps 3,77 2,23 2,81 Taulukko 3.4: 3QUEST tulokset testisignaaleille.

21 4. YHTEENVETO Työssä tutkittiin eri tapoja mitata mitata laajakaistaisen koodatun puheen laatua. Lopullisena laatumittarina toimii edelleen ihminen ja tilastollisesti merkittävää tulosta varten ihmisiä tarvitaan suuri joukko. Tämän vuoksi työ keskittyi uusiin objektiivisiin laatumittausalgoritmeihin, jotka pyrkivät ennustamaan kuuntelustestien tulosta. Erityisenä mielenkiintona oli selvittää, miten puheessa oleva kohina vaikuttaa koodatun puheen mitattuun tulokseen. Tätä tarkoitusta varten luotiin testisignaaleja, jotka koodattiin AMR-WB:llä ja EVS:llä. Laatuanalyysi suoritettiin POLQA ja 3QUEST menetelmillä. EVS:n pitäisi saavuttaa paremman tuloksen kuin AMR-WB, mutta tässä tapauksessa POLQA-tulokset olivat EVS:n osalta huonot. Todennäköisesti testijärjestelyissä oli sattunut siinä kohtaa virhe ja EVS:n POLQA-tulokset kannattaa jättä huomioimatta. AMR-WB:n tulokset olivat puhtaan puheen osalta odotettuja ja taustakohinaa sisältävien signaalien kohdalla merkittävästi huonompia. 3QUEST-tulokset olivat odotetunlaisia siinä mielessä, että EVS korkeammalla bittinopeudella oli järjestelmällisesti paras laadultaan siinä missä AMR-WB matalalla bittinopeudella huonoin. Mielenkiintoisin havainto oli, että N-MOSin kohdalla järjestys kääntyy eli parhaan puheenlaadun koodekki tuottaakin huonoimman tuloksen kohinan häiritsevyydelle S-MOS oli yleisesti ottaen merkittävästi korkeampi kuin POLQA MOS, mikä viittaa siihen, että 3QUEST todellakin estimoi S-MOS pisteytyksellä itse puheen laatua eikä POLQAn tavoin signaalin yleislaatua. G-MOS tulokset korreloivat paremmin POLQAn kanssa. Ennakkoon oli tiedossa, ettei POLQA ole hyvä estimaattori kohinaisen puheen hyvyydelle ja tälle saatiin vahvistusta. Täten myöskään POLQAn ja 3QUESTin suora vertailu ei ole mielekästä ja ne ovatkin suunniteltu eri käyttötarkoituksiin. Työ tuotti lisäinformaatiota mutta suppeudesta johtuen kaikkea haluttua ei saatu tutkittua. Tulokset olisivat olleet merkittävämpiä, jos ei olisi mitattu pelkkää koodekkia, vaan käytössä olisi ollut jokin esiprosessointi kohinaa poistamassa. Tällöin tilanne olisi ollut enemmän todellisia käyttötilanteita vastaava, eikä vastaavia tuloksia ole saatavilla koodekkistandardien yhteydestä. Käytetty testisignaali oli yhdistelmä lauseita, joten tulokset ovat keskiarvoja mo-

4. Yhteenveto 22 nelle lauseelle. Perusteellisemman analyysin olisi voinut tehdä arvostelemalla jokaisen lauseen erikseen ja vertailemalla niitä. Lisäksi tällöin olisi ollut mahdollista laskea lauseiden välistä keskihajontaa, jolloin olisi nähnyt, kuinka paljon mitattu laatu tilastollisesti vaihtelee lauseesta toiseen. Edellä esitetyillä muutoksilla ja useampaa bittinopeutta käyttämällä tutkimuksella olisi todennäköisesti ollut merkittävästi suurempi uutuusarvo.

23 KIRJALLISUUTTA [1] IEEE Recommended Practice for Speech Quality Measurements, IEEE Transactions on Audio and Electroacoustics, vol. 17, no. 3, pp. 225 246, Sep 1969. [2] 3GPP TR 26.952: Codec for Enhanced Voice Services (EVS); Performance characterization (version 12.3.0 Release 12), 3GPP, Tech. Rep., 2015. [Online]. Available: http://www.etsi.org/deliver/etsi_tr/126900_126999/126952/12.03. 00_60/ [3] 3GPP TS 26.171: Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; General description, 3GPP Std., Rev. Release 12, October 2014. [Online]. Available: http://www.etsi.org/deliver/ etsi_ts/126100_126199/126171/12.00.00_60/ts_126171v120000p.pdf [4] 3GPP TS 26.190 : Speech codec speech processing functions; Adaptive Multi- Rate - Wideband (AMR-WB) speech codec; Transcoding functions, 3rd Generation Partnership Project Std., September 2014. [5] J. Benesty, M. Sondhi, and Y. Huang, Eds., Springer Handbook of Speech Processing. Springer-Verlag Berlin Heidelberg, 2008. [6] ETSI EG 202 396-1: Speech Processing, Transmission and Quality Aspects (STQ); Speech quality performance in the presence of background noise; Part 1: Background noise simulation technique and background noise data, ETSI Std. [Online]. Available: https://docbox.etsi.org/stq/open/eg%20202%20396-1% 20Background%20noise%20database/Binaural_Signals/ [7] ETSI EG 202 396-3: Speech Processing, Transmission and Quality Aspects (STQ); Speech quality performance in the presence of background noise; Part 3: Background noise transmission - Objective test method, ETSI Std. [Online]. Available: http://www.etsi.org/deliver/etsi_eg%5c202300_202399% 5C20239603%5C01.05.01_60%5Ceg_20239603v010501p.pdf [8] ETSI TS 103 106: Speech and multimedia Transmission Quality (STQ); Speech quality performance in the presence of background noise: Background noise transmission for mobile terminals-objective test methods, European Telecommunications Standards Institute Std. [9] B. Gold, N. Morgan, and D. Ellis, Speech and Audio Signal Processing: Processing and Perception of Speech and Music, 2nd ed. New York, NY, USA: Wiley-Interscience, 2011.

KIRJALLISUUTTA 24 [10] HEAD acoustics GmbH, 3QUEST: 3-fold Quality Evaluation of Speech in Telecommunications, Tech. Rep., 2008, viitattu 10.12.2015. [Online]. Available: http://www.head-acoustics.de/downloads/eng/application_notes/ telecom/appl_note_3quest_e0.pdf [11], 3QUEST: Comparison of EG 202 396-3 to TS 103 106, Tech. Rep., 2013, viitattu 10.12.2015. [Online]. Available: http://www.head-acoustics.de/ downloads/eng/application_notes/telecom/appl_note_3quest-ng_e.pdf [12] ITU-T P.800 : Methods for subjective determination of transmission quality, ITU-T Std., August 1996. [Online]. Available: https://www.itu.int/rec/ T-REC-P.800-199608-I/en [13] ITU-T P.861 : Objective quality measurement of telephone-band (300-3400 Hz) speech codecs, ITU-T Std., February 1998. [Online]. Available: https://www.itu.int/rec/t-rec-p.861/en [14] ITU-T P.862 : Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs, ITU-T Std., February 2001. [Online]. Available: http://www.itu.int/rec/t-rec-p.862 [15] ITU-T P.835 : Subjective test methodology for evaluating speech communication systems that include noise suppression algorithm, ITU-T Std., November 2003. [Online]. Available: https://www.itu.int/rec/t-rec-p.835/en [16] ITU-T P.862.2 : Wideband extension to Recommendation P.862 for the assessment of wideband telephone networks and speech codecs, ITU-T Std., November 2007. [Online]. Available: http://www.itu.int/rec/t-rec-p.862.2/ en [17] ITU-T G.191 : Software tools for speech and audio coding standardization, ITU- T Std., March 2010. [Online]. Available: https://www.itu.int/rec/t-rec-g. 191/en [18] ITU-T P.56 : Objective measurement of active speech level, ITU-T Std., December 2012. [Online]. Available: http://www.itu.int/rec/t-rec-p. 56-201112-I/en [19] ITU-T P.863 : Perceptual objective listening quality assessment, ITU-T Std., September 2014. [Online]. Available: https://www.itu.int/rec/t-rec-p.863