Koska HAL ymmärtää mitä puhumme? Puheen automaattinen tunnistus ja ymmärtäminen

Transkriptio

1 Koska HAL ymmärtää mitä puhumme? Puheen automaattinen tunnistus ja ymmärtäminen Vuokko Vuori TKK, Informaatiotekniikan laboratorio Tiivistelmä Tässä työssä pyritään tekemään katsaus puheen automaattisen tunnistuksen ja ymmärtämisen historiaan ja nykytilaan sekä esittelemään tärkeimmät ongelmakohdat ja rajoitukset. Työssä esitellään lisäksi äänen muodostumisen periaatteet; tunnistusjärjestelmissä tyypillisesti käytetty puhesignaalin esitystapa; kommunikaatio-teoreettinen, todennäköisyyksiin perustuva malli puheen muodostamiselle sekä sen tunnistamiselle ja ymmärtämiselle; piilomarkovmalleihin perustuvan puheentunnistuksen periaatteet. 1 JOHDANTO Jotta tietokoneet todella auttaisivat ihmisiä suoriutumaan erilaisista tehtävistä paremmin ja tehokkaammin, tulisi ihmiset ja tietokoneen välisen käyttöliittymän olla hyvin suunniteltu laitteen käytön tulisi olla miellyttävää ja ihmiselle luontevaa. Tärkein, tai ainakin yksi tärkeimmistä, ihmisten välisistä kommunikaation muodoista on puhe. Puheen tunnistusta ja ymmärtämistä onkin siksi tutkittu jo 1800-luvun loppupuolelta lähtien (Stork, 1997). Tutkimus lähti liikkeelle halusta kehittää menetelmä, jonka avulla ääni voitaisiin esittää kuvallisessa muodossa siten, että kuurot voisivat ymmärtää puhuttua kieltä (Stork, 1997). Nykyisin puheen tunnistukselle ja ymmärtämiselle on paljon muitakin sovelluskohteita: erilaisten laitteiden ohjaus ja käyttö puhuttujen komentojen avulla, tekstin syöttö ilman näppäimistöä esimerkiksi kämmentietokoneissa ja puhelimissa, tekstidokumenttien luonti tai erilaisten lomakkeiden täyttö sanelemalla, puheluiden automaattinen ohjaus ja käsittely. Puheen tunnistaminen ja ymmärtäminen sujuu ihmisiltä varsin helposti, mutta tietokoneelle se on vielä ongelma, jota ei ole täysin ratkaistu. Yksittäisten sanojen tunnistaminen silloin kun ne on täysin eristetty asiayhteydestä on vaikea ongelma, koska eri sanat saatetaan ääntää täysin samalla tavalla, ja toisaalta, tietty sana voidaan lausua eri tavoin tilanteesta ja asiayhteydestä riippuen. Lisäksi jokaisella ihmisellä on oma erityinen tapansa puhua. Tietokoneen pitäisi pystyä päättelemään mikä on luonnollista ja merkityksetöntä vaihtelua ja mikä taas on oleellista vaihtelua, joka erottaa puhutut sanat toisistaan. Ihmisen suuri etu tietokoneeseen nähden on se, että ihminen tuntee paremmin puhumistilanteen ja puhujan, kielen ominaisuudet, sekä ymmärtää sanojen ja lauseiden merkityksen. Tämä tietämys helpottaa sekä yksittäisten sanojen tunnistamista että 1

2 puheen sisällön ymmärtämistä. Puheen tunnistamista ja ymmärtämistä ei voidakaan täysin ratkaista tyypillisen hahmontunnistusongelman tavoin esittämällä ja luokittelemalla havainnot vain erilaisiin piirteisiin ja niiden välisiin suhteisiin perustuen, vaan on käytettävä ja yhdisteltävä menetelmiä useilta eri tieteenaloilta: perinteisestä hahmontunnistuksesta, kielitieteistä, äänenmuodostuksesta ja akustiikasta, tekoälytutkimuksesta ja monista muista. Tämä työ perustuu kurssikirjana käytettyyn teokseen (Stork, 1997), jossa puheentunnistusta ja ymmärtämistä tarkastellaan hyvin kansantajuisesti ja pohditaan voitaisiinko elokuvan Avaruusseikkailu 2001 HAL-tietokone toteuttaa nykyisellä teknologialla tai lähitulevaisuudessa. Lähdemateriaalina on myös käytetty lehden Proceedings of the IEEE elokuun 2000 erikoisnumeroa, jossa on useita mielenkiintoisia artikkeleita puhutun kielen käsittelystä. Kokoelman ensimmäinen artikkeli (Juan ja Furui, 2000) on erittäin hyvä katsaus sekä puheenkäsittelyn historiaan, nykytilanteeseen että tulevaisuuteen. Artikkelissa on kuvattu hyvin tärkeimmät nykyisin käytetyt menetelmät ja piirteet. Hyödyllistä tietoa luonnolliseen kieleen liittyvästä teknologiasta löytyy erittäin laajasta katsauksesta Survey of the State of the Art in Human Language Tecnology. Tämän työn kannalta oleellinen on katsauksen puheteknologiaa käsittelevä ensimmäinen luku (Zue ja Cole, 1995). Erittäin hyvä suomenkielinen lähdeteos on tekninen raportti kommunikaatioakustiikasta, jossa esimerkiksi äänenmuodostuminen on kuvattu perusteellisesti (Karjalainen, 1999). Viimeisessä lähteessä (Young, 1996) on hyvä, ei liian syvälle yksityiskohtiin menevä katsaus suuren sanaston puheentunnistuksessa ja kuvaus eräästä state of the art järjestelmästä. 2 PUHESIGNAALIN MUODOSTUS JA ESITYSTAPA Puhesignaalit voidaan jakaa niiden syntymistapojen perusteella kolmeen ryhmään: soinnilliset ja soinnittomat äänteet sekä eksplosioäänteet. Sonnilliset äänteet saavat herätteensä värähtelevistä äänihuulista, jotka sijaitsevat kurkun päässä. Äänihuulet värähtelevät, kun keuhkoista tuleva ilmavirta kulkee niiden välistä. Tätä ilmiötä kutsutaan fonaatioksi. Äänihuulten värähtelyä voidaan säädellä lihasten avulla. Eri värähtelytaajuudet vastaavat eri äänenkorkeuksia. Äänihuulten värähtelyn taajuutta kutsutaan myös puheen perustaajuudeksi, joka on naisilla ja lapsilla keskimäärin selvästi korkeampi kuin miehillä. Äänihuulista lähtevät paineimpulssit (glottisheräte) eivät kuitenkaan sellaisinaan tavoita kuulijaa. Ääniväylä (kurkunpää, nielu ja suuontelo) ja nenäväylä (nenäontelo) muokkaavat merkittävästi glottisherätettä ja niiden voidaankin ajatella olevan säätyviä akustisia signaalin suodattimia. Syntyviä ääniä voidaan siis säädellä myös muuttamalla äänikanavan muotoa liikuttelemalla kieltä, hampaita ja huulia. Näiden väylien säätövaikutuksia kutsutaan artikulaatioksi. Soinnillisten äänteiden lisäksi syntyy myös soinnittomia tai heikkosointisia äänteitä, joiden herätteenä toimii ääniväylän kaventumakohdassa turbulentista ilmavirtauksesta syntyvä kohina. Tällaisessa kohinassa on sekoittuneena useita erilaisia taajuuksia. Myös näitä ääniä voidaan säädellä muuttamalla äänikanavan muotoa. Eksplosioäänteet syntyvät, kun täydellisesti sulkeutunut ääniväylä avautuu nopeasti ja ilmavirtauksen paine purkautuu räjähdyksenomaisesti. Kuvassa 1 on esitetty poikkileikkauskuva ihmisen puhe-elimistä ja siitä selviää edellä mainittujen puhe-elinten suhteellinen sijoittuminen toisiinsa nähden. 2

3 Kuva 1. Poikkileikkauskuva ihmisen puhe-elimistä. Kuva kopioitu lähteestä (Karjalainen, 1999). Jo varhain ymmärrettiin, että puhesignaalia kannattaa tarkastella ajan mukana muuttuvan ilman värähtelyn amplitudin sijasta taajuustasossa. Itseasiassa tämä on myös ihmisen käyttämä äänen esitystapa: sisäkorvassa hermon päät reagoivat kukin tiettyyn taajuuteen. Käytännössä muunnos värähtelyn aikatason esityksestä taajuustason esitykseksi voidaan tehdä esimerkiksi Fourier-muunnoksen avulla. Tämän jälkeen taajuustason esitystä usein käsitellä siten, että se vastaa paremmin ihmiskorvan taajuusresoluutiota (voidaan tehdä esimerkiksi muunnos MEL- Bark- tai ERBasteikkoon). Puheentunnistus perustuu yleensä vain äänen taajuuden tehospektriin, koska ihmiskorva ei pysty kovin hyvin havaitsemaan värähtelyn vaiheen muutoksia. Äänihuulten ja äänikanavan konfiguraatio ei yleensä muutu merkittävästi kuin noin kymmenen kertaa sekunnissa. Taajuuden tehospektri estimoidaankin siksi lyhytkestoisissa, noin ms, aikaikkunoissa, joissa sen voidaan olettaa pysyvän lähes vakiona. Vaihtoehtoisesti voidaan käyttää pitkäkestoisempia (noin ms) painotettuja (yleensä Hamming) aikaikkunoita, jotka on sijoitettu limittäin noin ms päähän toisistaan. Kuvassa 2 on esitetty kolmen eri vokaalin aika- ja taajuustason esitysmuodot. Aikatason esitysmuoto kertoo kuinka ilman värähtelyn amplitudi kehittyy ajan suhteen äänettäessä kyseinen vokaali. Taajuustason esityksestä taas selviää mikä on värähtelyn hetkellinen taajuus. Kuvassa 3 on esitetty yhden sanan aika- ja taajustason esitysmuodot. Tässä kuvassa taajuustason esitysmuoto on spektrogrammi, josta selviää puhesignaalin tietyllä ajanhetkellä esiintyvät taajuuskomponentit. Spektogrammin väritys perustuu eri taajuuskomponenttien tehoihin. 3

4 Kuva 2. Kolmen (/a/, /i/ ja /u/) vokaalin aika- ja taajuustaso esitykset. Kuva kopioitu lähteestä (Karjalainen, 1999). Kuva 3. Sanan /kaksi/ synkronisoidut taajustason (spektogrammi) ja aikatason esitykset. Kuva kopioitu lähteestä (Karjalainen, 1999). 4

5 Kieli voidaan ymmärtää perättäisenä sarjana foneemeja, jotka ovat yhtenäisen kielellisen funktion omaavien äänteiden luokkia. Foneemi ei kuitenkaan ole akustisena ilmiönä aina samanlainen vaan se on kontekstista eli esimerkiksi puhujasta, lause-, sana- ja tavuyhteydestä riippuva. Foneemien konkreettisten toteutumien variaatioita kutsutaan allofoneiksi. Foneemit ja allofonit, sekä niiden lukumäärät, voidaan määritellä useilla eri tavoilla, esimerkiksi klusteroimalla puhesignaalin aikaikkunoita. Yleensä foneemeja määritellään muutamia kymmeniä. Eri kielissä esiintyvät foneemit ovat yleensä hyvin, mutteivät täysin, samankaltaisia, mutta niiden jakaumissa on selviä kielikohtaisia eroja. Perättäiset foneemit muodostavat tavuja ja perättäiset tavut edelleen sanoja. Toisin kuin foneemien, erilaisten mahdollisten tavujen lukumäärä on hyvin riippuvainen kielestä. Esimerkiksi englannissa niitä on yli kymmenen tuhatta ja japanissa alle kaksi sataa. Nykyään puheentunnistuksessa käytetään myös piirteitä, jotka kuvaavat taajuuden tehospektrien ajallista käyttäytymistä (esimerkiksi ensimmäisen ja toisen kertaluvun differenssit) ja jotka lasketaan useista perättäisistä aikaikkunoista. Tällaisten piirteiden käyttöä voidaan perustella sillä, että äänihuulten ja äänikanavan perättäiset konfiguraatiot ovat toisistaan riippuvaisia. Kaikki konfiguraatioiden muutokset eivät ole käytännössä mahdollisia. Lisäksi puhuja ennakoi tulevia äänteitä ja foneemien lausuminen riippuu niitä edeltävistä ja seuraavista foneemeista. On myös havaittu, että ajallisia muutoksia kuvaavat piirteet ovat tärkeitä ihmiskuulijoille. Puhesignaali esitetään puheentunnistusjärjestelmissä yleensä aikasarjana, jossa eri ajanjaksoja, aikaikkunoita, kuvataan piirrevektoreiden avulla. Piirteet pyritään valitsemaan siten, että niiden avulla pystytään tunnistamaan hyvin erilaiset foneemit ja huomioimaan niiden ajalliset riippuvuussuhteet. Esitystavan tulisi lisäksi olla invariantti erilaisten puheen variaatioiden suhteen, joilla ei ole oleellista merkitystä tunnistuksen kannalta. Tällaiset variaatiot johtuvat muun muassa puhujan henkilöllisyydestä, sukupuolesta tai tunnetilasta, sekä puheen nopeudesta ja äänen voimakkuudesta. Invarianttisuus voidaan saavuttaa sopivalla piirrevalinnalla tai erilaisten normalisointimenetelmien avulla. 3 PUHEEN TUNNISTUS JA YMMÄRTÄMINEN Puheen muodostus voidaan mallintaa seuraavan kommunikaatioteoreettisen, ketjumaisen mallin avulla: viestilähde, kielellinen kanava, ääntämyksellinen kanava, akustinen kanava, siirtokanava, puhesignaali (Juan ja Furui, 2000). Viestilähde (P(M)) määrittää, mikä on puheen aiottu viesti (M). Kielellinen kanava (P(W M)) määrittää, kuinka tietty viesti voidaan muuttaa sanajonoksi (W). Ääntämyksellinen kanava (P(S W)) määrittää miten sanat lausutaan eli muuttuvat ääniksi (S). Akustinen kanava (P(A S)) mallintaa akustisen ympäristön (esimerkiksi taustamelu, kaiut) vaikutuksia eli kuvaa millainen ääni (S) saapuu mikrofonin. Siirtokanava P(X A) kuvaa kuinka äänisignaali muuttuu havaituksi puhesignaaliksi (X) siirtyessään mikrofonista vastaanottajalle. Jokainen näistä ketjumallin osista voidaan mallintaa ehdollisten todennäköisyysjakaumien avulla. Vastaanottaja ymmärtää puhetta, jos hän pystyy käymään tämän kommunikaatioketjun läpi takaperin, eli pystyy päättelemään eri viestien todennäköisyydet havaittuaan jonkin tiettyn puhesignaalin. Puheen ymmärtäminen voidaan myös jakaa seuraaviin perättäisiin osaongelmiin: foneemien ja sanojen tunnistaminen puhesignaalista, syntaktinen ja kieliopillinen analysointi lauseiden jäsentämiseksi ja tunnistusvirheiden korjaamiseksi, semanttinen tulkinta ja monimerkityksellisten osien selvittäminen, sekä puhutun viestin 5

6 pragmaattinen tulkinta. 3.1 Puheen tunnistus Ensimmäistä puheen ymmärtämisen osaongelmaa voidaan kutsua puheen tunnistukseksi: tarkoituksena ei ole ymmärtää puheen sisältämää perimmäistä viestiä vaan vain tunnistaa puhutut sanat. Edellä esitetyn kommunikaatioteoreettisen mallin mukaan puheentunnistuksessa yritetään siis määrittää erilaisten sanajonojen todennäköisyydet P(W X) havaitun puhesignaalin (X) perusteella. Tunnistusvirheen todennäköisyys minimoituu, kun tunnistustulokseksi valitaan todennäköisin sanajono a posteriori (MAP-periaate). Yleensä ei pyritä suoraan mallintamaan jakaumaa P(W X) vaan sen (Bayesin säännön perusteella) hajotetussa muodossa P(W X)=P(X W)P(W)/P(X) esiintyviä jakaumia. Jakaumaa P(X W) kutsutaan yleensä akustiseksi malliksi, koska se kuvaa sanajonon realisoitumista äänisignaaliksi (havaintojen likelihood). Jakaumaa P(W) kutsutaan vastaavasti kielimalliksi ja se kuvaa mikä on erilaisten sanajonojen a priori esiintymistodennäköisyys. Jakauma P(X) ei vaikuta tunnistustuloksen valintaan ja se voidaan jättää huomioimatta. Tunnistuksessa tarvittavia jakaumia P(X W) ja P(W) ei todellisuudessa tunneta, vaan ne estimoidaan kerätystä puheaineistosta. Yleensä jakaumille valitaan jokin parametrisoitu esitystapa. Nykyiset puheentunnistusjärjestelmät perustuvat pääasiassa piilomarkovmalleihin (HMM, Hidden Markov Models ), jotka soveltuvat erinomaisesti puhesignaalin kaltaisten aikasarjojen mallintamiseen. Yhden piilomarkomallin avulla voidaan mallintaa erilaisia puheen osia, sanajonoja, yksittäisiä sanoja, tavuja tai foneemeja. Pidempi puhekokonaisuus voidaan mallintaa puheen osien piilomarkovmalleja ketjuttamalla. Mallinnettava osan valinta riippuu tehtävästä ja puheelle asetetuista rajoituksista. Useimmiten on järkevämpää mallintaa tavuja tai foneemeja kuin kokonaisia sanoja tai lauseita. Silloin tarvittavien mallien lukumäärä on rajoitettu (ei riipu sanakirjan koosta) ja kattavan opetusaineiston, eli useita havaintoja jokaista mallia kohden, kerääminen on käytännössä mahdollista. Toisaalta, tällaiset mallit eivät pysty huomioimaan kunnolla perättäisten sanojen ajallista riippuvuutta. Muita puheentunnistuksessa paljon käytettyjä menetelmiä piilomarkovmallien rinnalla ovat dynaaminen aikasovitus ( Dynamic Time Warping, DTW) ja neuroverkkomenetelmät, joista erityisesti aikaviiveverkot ( Time Delay Neural Network, TDNN) ja itseorganisoivat kartat ( Self-Organizing Map, SOM). Näistä DTW ja TDNN ovat erittäin sopivia aikariippuvan datan (kuten esimerkiksi puhesignaalin tai reaaliaikasen käsinkirjoitussignaalin) mallintamiseen. Itseorganisoituvia karttoja voidaan käyttää esimerkiksi yhdessä muiden menetelmien kanssa samankaltaisten havaintojen tai tunnistuksessa käytettävien mallien ryhmittelyyn ja järjestämiseen. Näin pystytään vähentämään havaintoaineistosta opittavien erilaisten malliparametrien lukumäärää. Puheentunnistuksessa käytetään myös paljon tietämystekniikan menetelmiä, esimerkiksi sääntöpohjaista tunnistusta. Näiden menetelmien automaattinen oppiminen havaintoaineistosta on kuitenkin hankalaa. Usein näitä menetelmiä käytetäänkin mallintamaan puheen rakennetta sanoja korkeammilla tasoilla. Puheen eri osien segmentointi ja tunnistaminen tapahtuu yleensä rinnakkain. Käytännössä tämä tarkoittaa sitä, että kokeillaan (lähes) kaikkia mahdollisia segmentointeja ja lasketaan niitä vastaavien tunnistustulosten todennäköisyydet. Todennäköisimmän tunnistustuloksen haku voidaan suorittaa tehokkaasti käyttäen dynaamiseen ohjelmointiin perustuvia rekursiivisia menetelmiä. Hakuavaruuden koko ja tunnistustehtävän vaikeus riippuu sanakirjan koosta ja kielelle asetuista rajoituksista 6

7 (vrt. tauot sanojen välissä ja jatkuva puhe). Käytännössä hakuavaruutta joudutaan usein rajoittamaan ja tutkitaan vain lupaavimmat hakupolut (esimerkiksi beam searchalgoritmi). Tällöin tunnistus voidaan suorittaa järkevässä ajassa, mutta tunnistustulos ei välttämättä olekkaan se kaikkein todennäköisin vaihtoehto. 3.2 Puheen ymmärtäminen Puheen varsinaisena ymmärtämisenä voidaan pitää kolmea viimeistä osaongelmaa eli puheen syntaktista ja kieliopillista analysointia lauseiden jäsentämiseksi ja tunnistusvirheiden korjaamiseksi, semanttista tulkintaa ja monimerkityksellisten osien selvittämistä, sekä puhutun viestin pragmaattinen tulkintaa. Toisin sanoen, sanajonolle on määriteltävä järkevä, tilanteeseen ja asiayhteyteen sopiva, kieliopillinen ja semanttinen tulkinta. Lisäksi on pystyttävä päättelemään, mikä on järkevä tapa toimia. Nykyiset puhetta ymmärtävät järjestelmät ei vielä pysty käsittelemään täysin vapaamuotoista puhetta, jossa aihepiiriä, sanastoa ja kielenrakenteita ei olisi millään tavoin rajoitettu. Yksinkertaisimmillaan puheen ymmärtäminen voi perustua vain tiettyjen avainsanojen havaitsemiseen, joiden perusteella valitaan rajoitetusta toimintavaihtoehtojen joukosta sopivin. Puheen ymmärtämissongelmaa voidaan myös helpottaa rajoittamalla keskustelua esimerkiksi siten, että puheessa käytetään vain tietyn keinotekoisen ja yksinkertaistetun kielimallin mukaisia ilmaisuja tai että keskustelu on täysin toisen osapuolen ohjaamaa. 4 NYKYTILANNE Nykyiset järjestelmät eivät pysty ratkaisemaan kaikkia edellisessä kappaleessa mainittuja puheen ymmärtämisen osaongelmia vaan rajoittuvat yleensä muuttamaan puhesignaalin perättäisiksi sanoiksi ja valitsemaan sopivan tulkinnan ja siihen liittyvät toiminnan ennalta määriteltyjen vaihtoehtojen joukosta. Nykyiset järjestelmät pystyvät siis tulkitsemaan puhetta vain tarkkaan rajoitetuissa sovelluksissa eivätkä siis pysty todella keskustelemaan ihmisen kanssa aiheesta kuin aiheesta kuten elokuvan Avaruusseikkailu 2001 HAL-tietokone. Tärkeimmät nykyiset puheentunnistuksen sovellukset voidaan jakaa karkeasti kahteen ryhmään: telekommunikaatioon liittyvät ja liittymättömät sovellukset. Tyypillinen jälkimmäiseen ryhmään kuuluva sovellus on PC:ssä pyörivä ohjelmisto, joka muuttaa sanelun tekstiksi. Vaikka nämä sanelusovellukset eivät toimi kaikissa tilanteissa hyvin, ne ovat saaneet paljon positiivista palautetta käyttäjiltä, silloin kun käytetty puhuttu kieli on rajoittunut ammatillisiin termeihin ja ilmaisuihin (esimerkiksi lääkärit ja lakimiehet). Ensimmäiseen sovellusten ryhmään kuuluu esimerkiksi puheluiden automaattinen ohjaus ja luottokorttitileihin liittyvien palveluiden käyttö. Vaikka nämä sovellukset kuulostavat HAL:iin verrattuina vaatimattomilta, ei niiden merkitystä pidä vähätellä. Esimerkiksi automaattisella puheluiden ohjauksella, joka perustuu viiden avainsanan tunnistamiseen, on laskettu säästettävän vuosittain satoja miljoonia dollareita. Taulukossa 1 on lueteltu erilaisia parametreja vaihteluväleineen, joiden avulla voidaan kuvata puheentunnistustehtävän vaikeutta. Kaksi ensimmäistä parametria, puhumistapa ja puheen kielellinen tyyli, kertovat kuinka lähellä luonnollista puhetta käsiteltävä puhesignaali on. Helpommillaan puheentunnistusongelma on yksittäisten, esimerkiksi hiljaisin tauoin eroteltujen sanojen tunnistamista. Luetun tekstin tunnistaminen on helpompaa kuin vapaamuotoisen spontaanin puheen, koska kirjoitettu 7

8 kieli on yleensä kielioppisääntöjen mukaista, kun taas puhuttu kieli ei yleensä ole. Puhujaryhmän koolla on selvä vaikutus tunnistusongelman vaikeuteen, sillä jokaisella ihmisellä on oma persoonallinen tapansa puhua. Helpommillaan tunnistusongelma on silloin, kun järjestelmä voidaan opettaa yhdelle ainoalle puhujalle tältä kerätyn aineiston avulla, ja vaikeimmillan silloin, kun mahdollisia käyttäjiä on useita ja opetusaineisto on kerätty eri ihmisiltä. Puheentunnistusongelmaan pätee sama sääntö kuin hahmontunnistusongelmiin yleisemminkin eli ongelma on yleensä sitä vaikeampi mitä suurempi on luokkien lukumäärä. Puheen tunnistus on siis sitä helpompaa mitä suppeampi on sallitun sanaston koko. Puheen tunnistuksen vaikeuteen vaikuttaa myös kuinka kuvausvoimaisen kielimallin avulla käytetty kieli voidaan esittää mitä yksinkertaisempi malli sitä yksinkertaisempi kieli ja tunnistusongelma. Kielen monimutkaisuutta voidaan myös mitata suureen perplexity avulla, joka on kielimallin antama keskimääräinen vaihtoehtojen lukumäärä seuraavaa sanaa ennustettaessa. Varsinaisen puhesignaalin ja kohinan suhde SNR ( Signal to Noise Ratio ) kuvaa käytettävän puhesignaalin laatua. Puheen tunnistus onnistuu luonnollisesti sitä helpommin mitä korkeampi tämä suhde on. Myös puhumisympäristö ja käytetty puheensignaalin äänitys- ja siirtotapa ovat tunnistusongelman vaikeuden kannalta oleellisia, koska ne vaikuttavat siihen millaisia häiriöitä käsiteltävässä puhesignaalissa on. Taulukko 1. Puheentunnistuksen vaikeutta kuvaavia parametreja, lähde (Zue ja Cole, 1995). Parametri Vaihteluväli Puhumistapa Yksittäiset tauoin erotellut sanat, jatkuva puhe Puheen kielellinen tyyli Luettu teksti, spontaani puhe Puhujaryhmä Yksi puhuja, useita puhujia Sanasto Pieni (alle 20 sanaa), laaja (yli sanaa) Kielimalli Ääreellinen tila-automaati ( finite-state ), kontekstiriippuva ( context-sensitive ) Perplexity Alhainen (alle 10), korkea (yli 100) SNR Hyvä (yli 30 db), heikko (alle 10 db) Siirtokanava Mikrofoni, puhelin Kuvassa 4 on esitelty kuinka puhesovellukset ovat kehittyneet ajan myötä. Käsiteltävän puhesignaalin vaikeusastetta on kuvattu kahden muuttujan avulla. Pystyakselia vastaava muuttuja kuvastaa mikä on puhetapa ja puheen kielellinen tyyli. Mitä korkeamalla kuvassa liikutaan, sitä vaikeammasta ongelmasta on kyse. Vaakaakselia vastaava muuttuja on sanaston koko. Varjostetut alueet kuvaavat eri ajanjaksojen tilanteita. Tämän kuvan perusteella parhaimmillaan nykyiset tunnistusjärjestelmät selviytyvät kahdensuuntaisesta keskustelusta, missä kumpikaan osapuoli ei ohjaa keskustelua, mutta sanaston koko rajoittuu noin kahteen tuhanteen. Näissä järjestelmissä puhe voi olla jatkuvaa, mutta ei täysin luonnollista, spontaania puhetta. Kuva ei kuitenkaan ota millään tavoin kantaa siihen, mitkä ovat tarvittavan laitteiston muisti ja laskentatehovaatimukset ja voitaisiinko menetelmiä soveltaa esimerkiksi tavallisille kuluttajille suunnatuissa tuotteissa. 8

9 Kuva 4. Puhutun kielen sovellusten kehittymisestä ajan, sanaston laajuuden ja puhetavan funktiona, kuva kopioitu lähteestä (Juan ja Furui, 2000). 5 KESKEISET ONGELMAT JA TULEVAISUUDEN SUUNTAVIIVAT Katsauksen Survey of the State of the Art in Human Language Technology (Zue ja Cole, 1995) mukaan nykyisten puheen tunnistamiseen ja ymmärtämiseen kehitettyjen järjestelmien keskeisimmät ongelmat ovat seuraavat: Robustisuus: järjestelmän suorituskyvyn pitäisi heiketä asteittain, eikä romahduksenomaisesti, kun järjestelmää käytetään olosuhteissa, jotka poikkeavat niistä joihin se on alunperin suunniteltu ja opetettu. Varsinkin vaihteleviin akustisiin ympäristöihin ja puhesignaalin muodostukseen liittyviin kanaviin pitäisi kiinnittää erityistä huomiota. Siirrettävyys: järjestelmän pitäisi olla helposti siirrettävissä uusiin sovellutustehtäviin. Nykyiset järjestelmät pitää opettaa aina tietystä tehtävästä kerätyllä puhedatalla ja siksi saman menetelmän soveltaminen uuteen ongelmaan on hidasta ja kallista. Adaptiivisuus: järjestelmän pitäisi pystyä jatkuvasti sopeutumaan vaihteleviin olosuhteisiin (esimerkiksi uusi puhuja, mikrofoni, tehtävä). Kielimallit: kun sanakirjan kokoa kasvatetaan ja puhetapaan liittyviä rajoituksia lievitetään, tarvitaan entistä tehokkaammin hakuavaruutta rajoittavia kielimalleja. Näiden mallien pitäisi asettaa sekä syntaktisia että semanttisia rajoituksia, joihin nykyisin käytetyt tilastolliset kielimallit eivät pysty. 9

10 Tulkintojen luotettavuus: nykyiset järjestelmät pystyvät järjestämään puheen vaihtoehtoiset tulkinnat vain paremmuusjärjestykseen. Jotta järjestelmä pystyisi järkeviä päätöksiä, pitäisi eri tulkintoihin liittää jokin niiden virheettömyyttä kuvaava luettavuusmitta. Sanakirjaan kuulumattomat sanat: nykyiset järjestelmät suunnitellaan siten, että ne tunnistavat vain tietyt, sanakirjaan kuuluvat sanat, mutta käyttäjät eivät välttämättä tiedä mitkä kaikki sanat kuuluvat tähän sanakirjaan. Siksi järjestelmän pitäisi tunnistaa ja käsitellä järkevästi myös sanat, jotka eivät kuulu sen sanavarastoon. Spontaani puhe: järjestelmän pitäisi pystyä käsittämään puhetta, jossa on erilaisia spontaanin puheen ilmiöitä, joita ei ole kirjoitetussa kielessä, kuten esimerkiksi taukoja, epäröintiä ja täytesanoja. Prosodiikka: prosodiikalla tarkoitetaan puheen akustisia rakenteita, jotka vaikuttavat yksittäisiä sanoja laajemmin, esimerkiksi painotus, intonaatio ja rytmi paljastavat ihmiselle tärkeitä seikkoja puhujasta (esimerkiksi innostus, sarkasmi, viha). Nykyiset järjestelmät eivät käytä tunnistuksessa prosodisia piirteitä. Puheen dynamiikka: nykyiset järjestelmät käsittelevät puhesignaalin aikaikkunoita toisistaan riippumattomina. Todellisuudessa äänenmuodostus on dynaaminen prosessi ja tämä tulisi huomioida paremmin tunnistuksessa. 6 JOHTOPÄÄTELMÄT Puheen tunnistuksessa on päästy jo aika pitkälle, mutta puheen ymmärtäminen onnistuu vain rajoitetuissa ongelmissa. HAL:in tasoista puhutun kielen tunnistajaa ja ymmärtää ei voida toteuttaa ihan lähitulevaisuudessa edes menetelmien puolesta. Toisaalta Mooren lain perusteella tulevaisuudessa voidaan kuitenkin ratkaista entistä vaikeampia (esimerkiksi isompi hakuavaruus) ongelmia reaaliajassa nykyisillä menetelmillä, koska tavallisille kuluttajille suunnatujen laitteistojen muisti ja laskentakapasiteetti kasvaa ja halpenee suhteellisen nopeasti. 10

11 7 LÄHTEET [1] HAL's Legacy: 2001's Computer as Dream and Reality. Ed. D. Stork, MIT Press Luku 7, When will HAL understand what we are saying? Computer speech recognition and understanding, Raymond Kurzweil. [2] Biing-Hwang Juan and Sadaoki Furui. Automatic Recognation and Understanding of Spoken Language A First Step Toward Natural Human- Machine Communication. Proceedings of the IEEE. Special Issue on Spoken Language Processing. Sivut Elokuu [3] Victor Zue and Ron Cole. Spoken Language Input. Survey of the State of the Art in Human Language Tecnology. Luku 1, sivut Marraskuu [4] Matti Karjalainen. Kommunikaatioakustiikka. Teknillinen korkeakoulu, Akustiikan ja äänenkäsittelytekniikan laboratorio, Raportti [5] Steve Young. A Review of Large-vocablary Continuous-speech Recognition. IEEE Signal Processing. Sivut Syyskuu