Koska HAL ymmärtää mitä puhumme? Puheen automaattinen tunnistus ja ymmärtäminen



Samankaltaiset tiedostot
Puheentunnistus Mikko Kurimo

Puheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting

Luento: Puhe. Mitä puhe on? Anatomiaa ja fysiologiaa. Puhetapahtuma. Brocan ja Wernicken alueet. Anatomiaa ja fysiologiaa. Puheen tuottaminen:

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

Puheenkäsittelyn menetelmät

Kieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

Pianon äänten parametrinen synteesi

S Havaitseminen ja toiminta

THE audio feature: MFCC. Mel Frequency Cepstral Coefficients

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

Organization of (Simultaneous) Spectral Components

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

SGN-4200 Digitaalinen audio

805306A Johdatus monimuuttujamenetelmiin, 5 op

FONETIIKKA SUULLISEN KIELITAIDON ARVIOINNISSA

Puheentunnistus ja synteettinen puhe

Puhutun ja kirjoitetun rajalla

TTS. Puhesynteesi (tekstistä puheeksi, engl. text-tospeech,

Luonnollisella kielellä keskustelevat järjestelmät

Digitaalinen audio

» Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN

Nollasummapelit ja bayesilaiset pelit

JOHDATUS TEKOÄLYYN TEEMU ROOS

Dynaamiset regressiomallit

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

Luento 12: XML ja metatieto

Tietoliikennesignaalit & spektri

Puheentunnistus. 1 Johdanto. Mikko Kurimo Teknillinen korkeakoulu Informaatiotekniikan laboratorio

Puhe ja kieli, 28:2, (2008) 73

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Käyttöliittymä. Ihmisen ja tuotteen välinen rajapinta. ei rajoitu pelkästään tietokoneisiin

1. TILASTOLLINEN HAHMONTUNNISTUS

ESIMERKKIPOHJAINEN MELUISAN PUHEEN AUTOMAATTINEN TUNNISTUS 1 JOHDANTO 2 ESIMERKKIPOHJAINEN PUHEENTUNNISTUS

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Harjoitus 6: Simulink - Säätöteoria. Syksy Mat Sovelletun matematiikan tietokonetyöt 1

Signaalinkäsittely Musiikin sisältöanalyysi Rumpujen nuotinnos Muotoanalyysi Yhteenveto. Lectio praecursoria

Dynamiikan hallinta Lähde: Zölzer. Digital audio signal processing. Wiley & Sons, Zölzer (ed.) DAFX Digital Audio Effects. Wiley & Sons, 2002.

Foneettiset symbolit

Harjoitus 7: NCSS - Tilastollinen analyysi

Melun terveysvaikutukset alle 80dB:n äänitasoilla

Kanavamittaus moderneja laajakaistaisia HFjärjestelmiä

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Kompleksiluvut signaalin taajuusjakauman arvioinnissa

Esimerkki: Tietoliikennekytkin

MIKROAALTOUUNI VAASAN YLIOPISTO TEKNILLINEN TIEDEKUNTA SÄHKÖTEKNIIKKA. Tuomas Karri i78953 Jussi Luopajärvi i80712 Juhani Tammi o83312

9. Tila-avaruusmallit

MIKSI TUKIVIITTOMAT?

Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa. Kimmo Kettunen Dimiko (Digra-projekti)

JOHDATUS TEKOÄLYYN TEEMU ROOS

5 Akustiikan peruskäsitteitä

Osa 1 Hengitys ja tuki Ólafur Torfason

JOHDATUS TEKOÄLYYN TEEMU ROOS

T3 ohjata oppilasta havaitsemaan kieliä yhdistäviä ja erottavia ilmiöitä sekä tukea oppilaan kielellisen uteliaisuuden ja päättelykyvyn kehittymistä

1 PID-taajuusvastesuunnittelun esimerkki

Vaikeavammaisen asiakkaan kanssa työskentely

Skenaariot suurpetokantojen verotuksen suunnittelussa

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

4. Lausekielinen ohjelmointi 4.1

AUTOMAATTINEN PUHEENTUNNISTUS

Probabilistiset mallit (osa 2) Matemaattisen mallinnuksen kurssi Kevät 2002, luento 10, osa 2 Jorma Merikoski Tampereen yliopisto

Osallisuuden ja kokemuksen prosessointia tehtävän avulla

PUHU MINULLE KUUNTELE MINUA

KUN LUKEMINEN ON HANKALAA. Helena Sorsa

T Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1

Projektisuunnitelma ja johdanto AS Automaatio- ja systeemitekniikan projektityöt Paula Sirén

Digitaalinen signaalinkäsittely Kuvankäsittely

TILASTOLLINEN OPPIMINEN

Puhesynteesin perusteet Luento 5: unit selection -synteesi

Jorma Joutsenlahti / 2008

Digitaalinen signaalinkäsittely Johdanto, näytteistys

Yhdyssana suomen kielessä ja puheessa

Äänen koodaus automaattisessa puheentunnistuksessa

Koodaamme uutta todellisuutta FM Maarit Savolainen

Ei välttämättä, se voi olla esimerkiksi Reuleaux n kolmio:

MONISTE 2 Kirjoittanut Elina Katainen

T DSP: GSM codec

DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola

Englanti. 3. luokan keskeiset tavoitteet

Signaalien datamuunnokset. Digitaalitekniikan edut

Signaalien datamuunnokset

Berlitzin taitotaso 1 CEF-taso A 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Suorityskyvyn mittaaminen viittomakielisten videoiden sisältöanalyysissä. Ville Viitaniemi Tietojenkäsittelytieteen laitos 16.1.

Puheteknologia Informaa2oteknologian perusteet. Kalle Palomäki Signaalinkäsi8elyn ja akus2ikan laitos

KARTTAPAIKANNUKSEN AVULLA TEHTY KYSELYTUTKIMUS TOIMISTOTILOJEN ÄÄNIYMPÄRISTÖSTÄ. Tiivistelmä

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Järvitesti Ympäristöteknologia T571SA

Mitä aivokuvantaminen kertoo kielen kehityksen ja lukemisen erityisvaikeuksista?

Infraäänimittaukset. DI Antti Aunio, Aunio Group Oy

TIETOJEN TUONTI TIETOKANNASTA + PIVOT-TAULUKON JA OLAP-KUUTION TEKO

Jouni Huotari OLAP-ohjetekstit kopioitu Microsoftin ohjatun OLAP-kuution teko-ohjeesta. Esimerkin kuvaus ja OLAP-määritelmä

T Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ke , 12:15 14:00 Puheentunnistus ja kielimallien evaluointi Versio 1.

Laskuharjoitus 2 ( ): Tehtävien vastauksia

OHJEET SISÄMARKKINOIDEN HARMONISOINTIVIRASTOSSA (TAVARAMERKIT JA MALLIT) SUORITETTAVAAN YHTEISÖN TAVARAMERKKIEN TUTKINTAAN OSA C VÄITEMENETTELY

Kiinan kursseilla 1 2 painotetaan suullista kielitaitoa ja kurssista 3 alkaen lisätään vähitellen myös merkkien lukemista ja kirjoittamista.

Suomen kielen Osaamispyörä -työkalu

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Transkriptio:

Koska HAL ymmärtää mitä puhumme? Puheen automaattinen tunnistus ja ymmärtäminen Vuokko Vuori TKK, Informaatiotekniikan laboratorio Vuokko.Vuori@hut.fi Tiivistelmä Tässä työssä pyritään tekemään katsaus puheen automaattisen tunnistuksen ja ymmärtämisen historiaan ja nykytilaan sekä esittelemään tärkeimmät ongelmakohdat ja rajoitukset. Työssä esitellään lisäksi äänen muodostumisen periaatteet; tunnistusjärjestelmissä tyypillisesti käytetty puhesignaalin esitystapa; kommunikaatio-teoreettinen, todennäköisyyksiin perustuva malli puheen muodostamiselle sekä sen tunnistamiselle ja ymmärtämiselle; piilomarkovmalleihin perustuvan puheentunnistuksen periaatteet. 1 JOHDANTO Jotta tietokoneet todella auttaisivat ihmisiä suoriutumaan erilaisista tehtävistä paremmin ja tehokkaammin, tulisi ihmiset ja tietokoneen välisen käyttöliittymän olla hyvin suunniteltu laitteen käytön tulisi olla miellyttävää ja ihmiselle luontevaa. Tärkein, tai ainakin yksi tärkeimmistä, ihmisten välisistä kommunikaation muodoista on puhe. Puheen tunnistusta ja ymmärtämistä onkin siksi tutkittu jo 1800-luvun loppupuolelta lähtien (Stork, 1997). Tutkimus lähti liikkeelle halusta kehittää menetelmä, jonka avulla ääni voitaisiin esittää kuvallisessa muodossa siten, että kuurot voisivat ymmärtää puhuttua kieltä (Stork, 1997). Nykyisin puheen tunnistukselle ja ymmärtämiselle on paljon muitakin sovelluskohteita: erilaisten laitteiden ohjaus ja käyttö puhuttujen komentojen avulla, tekstin syöttö ilman näppäimistöä esimerkiksi kämmentietokoneissa ja puhelimissa, tekstidokumenttien luonti tai erilaisten lomakkeiden täyttö sanelemalla, puheluiden automaattinen ohjaus ja käsittely. Puheen tunnistaminen ja ymmärtäminen sujuu ihmisiltä varsin helposti, mutta tietokoneelle se on vielä ongelma, jota ei ole täysin ratkaistu. Yksittäisten sanojen tunnistaminen silloin kun ne on täysin eristetty asiayhteydestä on vaikea ongelma, koska eri sanat saatetaan ääntää täysin samalla tavalla, ja toisaalta, tietty sana voidaan lausua eri tavoin tilanteesta ja asiayhteydestä riippuen. Lisäksi jokaisella ihmisellä on oma erityinen tapansa puhua. Tietokoneen pitäisi pystyä päättelemään mikä on luonnollista ja merkityksetöntä vaihtelua ja mikä taas on oleellista vaihtelua, joka erottaa puhutut sanat toisistaan. Ihmisen suuri etu tietokoneeseen nähden on se, että ihminen tuntee paremmin puhumistilanteen ja puhujan, kielen ominaisuudet, sekä ymmärtää sanojen ja lauseiden merkityksen. Tämä tietämys helpottaa sekä yksittäisten sanojen tunnistamista että 1

puheen sisällön ymmärtämistä. Puheen tunnistamista ja ymmärtämistä ei voidakaan täysin ratkaista tyypillisen hahmontunnistusongelman tavoin esittämällä ja luokittelemalla havainnot vain erilaisiin piirteisiin ja niiden välisiin suhteisiin perustuen, vaan on käytettävä ja yhdisteltävä menetelmiä useilta eri tieteenaloilta: perinteisestä hahmontunnistuksesta, kielitieteistä, äänenmuodostuksesta ja akustiikasta, tekoälytutkimuksesta ja monista muista. Tämä työ perustuu kurssikirjana käytettyyn teokseen (Stork, 1997), jossa puheentunnistusta ja ymmärtämistä tarkastellaan hyvin kansantajuisesti ja pohditaan voitaisiinko elokuvan Avaruusseikkailu 2001 HAL-tietokone toteuttaa nykyisellä teknologialla tai lähitulevaisuudessa. Lähdemateriaalina on myös käytetty lehden Proceedings of the IEEE elokuun 2000 erikoisnumeroa, jossa on useita mielenkiintoisia artikkeleita puhutun kielen käsittelystä. Kokoelman ensimmäinen artikkeli (Juan ja Furui, 2000) on erittäin hyvä katsaus sekä puheenkäsittelyn historiaan, nykytilanteeseen että tulevaisuuteen. Artikkelissa on kuvattu hyvin tärkeimmät nykyisin käytetyt menetelmät ja piirteet. Hyödyllistä tietoa luonnolliseen kieleen liittyvästä teknologiasta löytyy erittäin laajasta katsauksesta Survey of the State of the Art in Human Language Tecnology. Tämän työn kannalta oleellinen on katsauksen puheteknologiaa käsittelevä ensimmäinen luku (Zue ja Cole, 1995). Erittäin hyvä suomenkielinen lähdeteos on tekninen raportti kommunikaatioakustiikasta, jossa esimerkiksi äänenmuodostuminen on kuvattu perusteellisesti (Karjalainen, 1999). Viimeisessä lähteessä (Young, 1996) on hyvä, ei liian syvälle yksityiskohtiin menevä katsaus suuren sanaston puheentunnistuksessa ja kuvaus eräästä state of the art järjestelmästä. 2 PUHESIGNAALIN MUODOSTUS JA ESITYSTAPA Puhesignaalit voidaan jakaa niiden syntymistapojen perusteella kolmeen ryhmään: soinnilliset ja soinnittomat äänteet sekä eksplosioäänteet. Sonnilliset äänteet saavat herätteensä värähtelevistä äänihuulista, jotka sijaitsevat kurkun päässä. Äänihuulet värähtelevät, kun keuhkoista tuleva ilmavirta kulkee niiden välistä. Tätä ilmiötä kutsutaan fonaatioksi. Äänihuulten värähtelyä voidaan säädellä lihasten avulla. Eri värähtelytaajuudet vastaavat eri äänenkorkeuksia. Äänihuulten värähtelyn taajuutta kutsutaan myös puheen perustaajuudeksi, joka on naisilla ja lapsilla keskimäärin selvästi korkeampi kuin miehillä. Äänihuulista lähtevät paineimpulssit (glottisheräte) eivät kuitenkaan sellaisinaan tavoita kuulijaa. Ääniväylä (kurkunpää, nielu ja suuontelo) ja nenäväylä (nenäontelo) muokkaavat merkittävästi glottisherätettä ja niiden voidaankin ajatella olevan säätyviä akustisia signaalin suodattimia. Syntyviä ääniä voidaan siis säädellä myös muuttamalla äänikanavan muotoa liikuttelemalla kieltä, hampaita ja huulia. Näiden väylien säätövaikutuksia kutsutaan artikulaatioksi. Soinnillisten äänteiden lisäksi syntyy myös soinnittomia tai heikkosointisia äänteitä, joiden herätteenä toimii ääniväylän kaventumakohdassa turbulentista ilmavirtauksesta syntyvä kohina. Tällaisessa kohinassa on sekoittuneena useita erilaisia taajuuksia. Myös näitä ääniä voidaan säädellä muuttamalla äänikanavan muotoa. Eksplosioäänteet syntyvät, kun täydellisesti sulkeutunut ääniväylä avautuu nopeasti ja ilmavirtauksen paine purkautuu räjähdyksenomaisesti. Kuvassa 1 on esitetty poikkileikkauskuva ihmisen puhe-elimistä ja siitä selviää edellä mainittujen puhe-elinten suhteellinen sijoittuminen toisiinsa nähden. 2

Kuva 1. Poikkileikkauskuva ihmisen puhe-elimistä. Kuva kopioitu lähteestä (Karjalainen, 1999). Jo varhain ymmärrettiin, että puhesignaalia kannattaa tarkastella ajan mukana muuttuvan ilman värähtelyn amplitudin sijasta taajuustasossa. Itseasiassa tämä on myös ihmisen käyttämä äänen esitystapa: sisäkorvassa hermon päät reagoivat kukin tiettyyn taajuuteen. Käytännössä muunnos värähtelyn aikatason esityksestä taajuustason esitykseksi voidaan tehdä esimerkiksi Fourier-muunnoksen avulla. Tämän jälkeen taajuustason esitystä usein käsitellä siten, että se vastaa paremmin ihmiskorvan taajuusresoluutiota (voidaan tehdä esimerkiksi muunnos MEL- Bark- tai ERBasteikkoon). Puheentunnistus perustuu yleensä vain äänen taajuuden tehospektriin, koska ihmiskorva ei pysty kovin hyvin havaitsemaan värähtelyn vaiheen muutoksia. Äänihuulten ja äänikanavan konfiguraatio ei yleensä muutu merkittävästi kuin noin kymmenen kertaa sekunnissa. Taajuuden tehospektri estimoidaankin siksi lyhytkestoisissa, noin 10-20 ms, aikaikkunoissa, joissa sen voidaan olettaa pysyvän lähes vakiona. Vaihtoehtoisesti voidaan käyttää pitkäkestoisempia (noin 20-25 ms) painotettuja (yleensä Hamming) aikaikkunoita, jotka on sijoitettu limittäin noin 10-12 ms päähän toisistaan. Kuvassa 2 on esitetty kolmen eri vokaalin aika- ja taajuustason esitysmuodot. Aikatason esitysmuoto kertoo kuinka ilman värähtelyn amplitudi kehittyy ajan suhteen äänettäessä kyseinen vokaali. Taajuustason esityksestä taas selviää mikä on värähtelyn hetkellinen taajuus. Kuvassa 3 on esitetty yhden sanan aika- ja taajustason esitysmuodot. Tässä kuvassa taajuustason esitysmuoto on spektrogrammi, josta selviää puhesignaalin tietyllä ajanhetkellä esiintyvät taajuuskomponentit. Spektogrammin väritys perustuu eri taajuuskomponenttien tehoihin. 3

Kuva 2. Kolmen (/a/, /i/ ja /u/) vokaalin aika- ja taajuustaso esitykset. Kuva kopioitu lähteestä (Karjalainen, 1999). Kuva 3. Sanan /kaksi/ synkronisoidut taajustason (spektogrammi) ja aikatason esitykset. Kuva kopioitu lähteestä (Karjalainen, 1999). 4

Kieli voidaan ymmärtää perättäisenä sarjana foneemeja, jotka ovat yhtenäisen kielellisen funktion omaavien äänteiden luokkia. Foneemi ei kuitenkaan ole akustisena ilmiönä aina samanlainen vaan se on kontekstista eli esimerkiksi puhujasta, lause-, sana- ja tavuyhteydestä riippuva. Foneemien konkreettisten toteutumien variaatioita kutsutaan allofoneiksi. Foneemit ja allofonit, sekä niiden lukumäärät, voidaan määritellä useilla eri tavoilla, esimerkiksi klusteroimalla puhesignaalin aikaikkunoita. Yleensä foneemeja määritellään muutamia kymmeniä. Eri kielissä esiintyvät foneemit ovat yleensä hyvin, mutteivät täysin, samankaltaisia, mutta niiden jakaumissa on selviä kielikohtaisia eroja. Perättäiset foneemit muodostavat tavuja ja perättäiset tavut edelleen sanoja. Toisin kuin foneemien, erilaisten mahdollisten tavujen lukumäärä on hyvin riippuvainen kielestä. Esimerkiksi englannissa niitä on yli kymmenen tuhatta ja japanissa alle kaksi sataa. Nykyään puheentunnistuksessa käytetään myös piirteitä, jotka kuvaavat taajuuden tehospektrien ajallista käyttäytymistä (esimerkiksi ensimmäisen ja toisen kertaluvun differenssit) ja jotka lasketaan useista perättäisistä aikaikkunoista. Tällaisten piirteiden käyttöä voidaan perustella sillä, että äänihuulten ja äänikanavan perättäiset konfiguraatiot ovat toisistaan riippuvaisia. Kaikki konfiguraatioiden muutokset eivät ole käytännössä mahdollisia. Lisäksi puhuja ennakoi tulevia äänteitä ja foneemien lausuminen riippuu niitä edeltävistä ja seuraavista foneemeista. On myös havaittu, että ajallisia muutoksia kuvaavat piirteet ovat tärkeitä ihmiskuulijoille. Puhesignaali esitetään puheentunnistusjärjestelmissä yleensä aikasarjana, jossa eri ajanjaksoja, aikaikkunoita, kuvataan piirrevektoreiden avulla. Piirteet pyritään valitsemaan siten, että niiden avulla pystytään tunnistamaan hyvin erilaiset foneemit ja huomioimaan niiden ajalliset riippuvuussuhteet. Esitystavan tulisi lisäksi olla invariantti erilaisten puheen variaatioiden suhteen, joilla ei ole oleellista merkitystä tunnistuksen kannalta. Tällaiset variaatiot johtuvat muun muassa puhujan henkilöllisyydestä, sukupuolesta tai tunnetilasta, sekä puheen nopeudesta ja äänen voimakkuudesta. Invarianttisuus voidaan saavuttaa sopivalla piirrevalinnalla tai erilaisten normalisointimenetelmien avulla. 3 PUHEEN TUNNISTUS JA YMMÄRTÄMINEN Puheen muodostus voidaan mallintaa seuraavan kommunikaatioteoreettisen, ketjumaisen mallin avulla: viestilähde, kielellinen kanava, ääntämyksellinen kanava, akustinen kanava, siirtokanava, puhesignaali (Juan ja Furui, 2000). Viestilähde (P(M)) määrittää, mikä on puheen aiottu viesti (M). Kielellinen kanava (P(W M)) määrittää, kuinka tietty viesti voidaan muuttaa sanajonoksi (W). Ääntämyksellinen kanava (P(S W)) määrittää miten sanat lausutaan eli muuttuvat ääniksi (S). Akustinen kanava (P(A S)) mallintaa akustisen ympäristön (esimerkiksi taustamelu, kaiut) vaikutuksia eli kuvaa millainen ääni (S) saapuu mikrofonin. Siirtokanava P(X A) kuvaa kuinka äänisignaali muuttuu havaituksi puhesignaaliksi (X) siirtyessään mikrofonista vastaanottajalle. Jokainen näistä ketjumallin osista voidaan mallintaa ehdollisten todennäköisyysjakaumien avulla. Vastaanottaja ymmärtää puhetta, jos hän pystyy käymään tämän kommunikaatioketjun läpi takaperin, eli pystyy päättelemään eri viestien todennäköisyydet havaittuaan jonkin tiettyn puhesignaalin. Puheen ymmärtäminen voidaan myös jakaa seuraaviin perättäisiin osaongelmiin: foneemien ja sanojen tunnistaminen puhesignaalista, syntaktinen ja kieliopillinen analysointi lauseiden jäsentämiseksi ja tunnistusvirheiden korjaamiseksi, semanttinen tulkinta ja monimerkityksellisten osien selvittäminen, sekä puhutun viestin 5

pragmaattinen tulkinta. 3.1 Puheen tunnistus Ensimmäistä puheen ymmärtämisen osaongelmaa voidaan kutsua puheen tunnistukseksi: tarkoituksena ei ole ymmärtää puheen sisältämää perimmäistä viestiä vaan vain tunnistaa puhutut sanat. Edellä esitetyn kommunikaatioteoreettisen mallin mukaan puheentunnistuksessa yritetään siis määrittää erilaisten sanajonojen todennäköisyydet P(W X) havaitun puhesignaalin (X) perusteella. Tunnistusvirheen todennäköisyys minimoituu, kun tunnistustulokseksi valitaan todennäköisin sanajono a posteriori (MAP-periaate). Yleensä ei pyritä suoraan mallintamaan jakaumaa P(W X) vaan sen (Bayesin säännön perusteella) hajotetussa muodossa P(W X)=P(X W)P(W)/P(X) esiintyviä jakaumia. Jakaumaa P(X W) kutsutaan yleensä akustiseksi malliksi, koska se kuvaa sanajonon realisoitumista äänisignaaliksi (havaintojen likelihood). Jakaumaa P(W) kutsutaan vastaavasti kielimalliksi ja se kuvaa mikä on erilaisten sanajonojen a priori esiintymistodennäköisyys. Jakauma P(X) ei vaikuta tunnistustuloksen valintaan ja se voidaan jättää huomioimatta. Tunnistuksessa tarvittavia jakaumia P(X W) ja P(W) ei todellisuudessa tunneta, vaan ne estimoidaan kerätystä puheaineistosta. Yleensä jakaumille valitaan jokin parametrisoitu esitystapa. Nykyiset puheentunnistusjärjestelmät perustuvat pääasiassa piilomarkovmalleihin (HMM, Hidden Markov Models ), jotka soveltuvat erinomaisesti puhesignaalin kaltaisten aikasarjojen mallintamiseen. Yhden piilomarkomallin avulla voidaan mallintaa erilaisia puheen osia, sanajonoja, yksittäisiä sanoja, tavuja tai foneemeja. Pidempi puhekokonaisuus voidaan mallintaa puheen osien piilomarkovmalleja ketjuttamalla. Mallinnettava osan valinta riippuu tehtävästä ja puheelle asetetuista rajoituksista. Useimmiten on järkevämpää mallintaa tavuja tai foneemeja kuin kokonaisia sanoja tai lauseita. Silloin tarvittavien mallien lukumäärä on rajoitettu (ei riipu sanakirjan koosta) ja kattavan opetusaineiston, eli useita havaintoja jokaista mallia kohden, kerääminen on käytännössä mahdollista. Toisaalta, tällaiset mallit eivät pysty huomioimaan kunnolla perättäisten sanojen ajallista riippuvuutta. Muita puheentunnistuksessa paljon käytettyjä menetelmiä piilomarkovmallien rinnalla ovat dynaaminen aikasovitus ( Dynamic Time Warping, DTW) ja neuroverkkomenetelmät, joista erityisesti aikaviiveverkot ( Time Delay Neural Network, TDNN) ja itseorganisoivat kartat ( Self-Organizing Map, SOM). Näistä DTW ja TDNN ovat erittäin sopivia aikariippuvan datan (kuten esimerkiksi puhesignaalin tai reaaliaikasen käsinkirjoitussignaalin) mallintamiseen. Itseorganisoituvia karttoja voidaan käyttää esimerkiksi yhdessä muiden menetelmien kanssa samankaltaisten havaintojen tai tunnistuksessa käytettävien mallien ryhmittelyyn ja järjestämiseen. Näin pystytään vähentämään havaintoaineistosta opittavien erilaisten malliparametrien lukumäärää. Puheentunnistuksessa käytetään myös paljon tietämystekniikan menetelmiä, esimerkiksi sääntöpohjaista tunnistusta. Näiden menetelmien automaattinen oppiminen havaintoaineistosta on kuitenkin hankalaa. Usein näitä menetelmiä käytetäänkin mallintamaan puheen rakennetta sanoja korkeammilla tasoilla. Puheen eri osien segmentointi ja tunnistaminen tapahtuu yleensä rinnakkain. Käytännössä tämä tarkoittaa sitä, että kokeillaan (lähes) kaikkia mahdollisia segmentointeja ja lasketaan niitä vastaavien tunnistustulosten todennäköisyydet. Todennäköisimmän tunnistustuloksen haku voidaan suorittaa tehokkaasti käyttäen dynaamiseen ohjelmointiin perustuvia rekursiivisia menetelmiä. Hakuavaruuden koko ja tunnistustehtävän vaikeus riippuu sanakirjan koosta ja kielelle asetuista rajoituksista 6

(vrt. tauot sanojen välissä ja jatkuva puhe). Käytännössä hakuavaruutta joudutaan usein rajoittamaan ja tutkitaan vain lupaavimmat hakupolut (esimerkiksi beam searchalgoritmi). Tällöin tunnistus voidaan suorittaa järkevässä ajassa, mutta tunnistustulos ei välttämättä olekkaan se kaikkein todennäköisin vaihtoehto. 3.2 Puheen ymmärtäminen Puheen varsinaisena ymmärtämisenä voidaan pitää kolmea viimeistä osaongelmaa eli puheen syntaktista ja kieliopillista analysointia lauseiden jäsentämiseksi ja tunnistusvirheiden korjaamiseksi, semanttista tulkintaa ja monimerkityksellisten osien selvittämistä, sekä puhutun viestin pragmaattinen tulkintaa. Toisin sanoen, sanajonolle on määriteltävä järkevä, tilanteeseen ja asiayhteyteen sopiva, kieliopillinen ja semanttinen tulkinta. Lisäksi on pystyttävä päättelemään, mikä on järkevä tapa toimia. Nykyiset puhetta ymmärtävät järjestelmät ei vielä pysty käsittelemään täysin vapaamuotoista puhetta, jossa aihepiiriä, sanastoa ja kielenrakenteita ei olisi millään tavoin rajoitettu. Yksinkertaisimmillaan puheen ymmärtäminen voi perustua vain tiettyjen avainsanojen havaitsemiseen, joiden perusteella valitaan rajoitetusta toimintavaihtoehtojen joukosta sopivin. Puheen ymmärtämissongelmaa voidaan myös helpottaa rajoittamalla keskustelua esimerkiksi siten, että puheessa käytetään vain tietyn keinotekoisen ja yksinkertaistetun kielimallin mukaisia ilmaisuja tai että keskustelu on täysin toisen osapuolen ohjaamaa. 4 NYKYTILANNE Nykyiset järjestelmät eivät pysty ratkaisemaan kaikkia edellisessä kappaleessa mainittuja puheen ymmärtämisen osaongelmia vaan rajoittuvat yleensä muuttamaan puhesignaalin perättäisiksi sanoiksi ja valitsemaan sopivan tulkinnan ja siihen liittyvät toiminnan ennalta määriteltyjen vaihtoehtojen joukosta. Nykyiset järjestelmät pystyvät siis tulkitsemaan puhetta vain tarkkaan rajoitetuissa sovelluksissa eivätkä siis pysty todella keskustelemaan ihmisen kanssa aiheesta kuin aiheesta kuten elokuvan Avaruusseikkailu 2001 HAL-tietokone. Tärkeimmät nykyiset puheentunnistuksen sovellukset voidaan jakaa karkeasti kahteen ryhmään: telekommunikaatioon liittyvät ja liittymättömät sovellukset. Tyypillinen jälkimmäiseen ryhmään kuuluva sovellus on PC:ssä pyörivä ohjelmisto, joka muuttaa sanelun tekstiksi. Vaikka nämä sanelusovellukset eivät toimi kaikissa tilanteissa hyvin, ne ovat saaneet paljon positiivista palautetta käyttäjiltä, silloin kun käytetty puhuttu kieli on rajoittunut ammatillisiin termeihin ja ilmaisuihin (esimerkiksi lääkärit ja lakimiehet). Ensimmäiseen sovellusten ryhmään kuuluu esimerkiksi puheluiden automaattinen ohjaus ja luottokorttitileihin liittyvien palveluiden käyttö. Vaikka nämä sovellukset kuulostavat HAL:iin verrattuina vaatimattomilta, ei niiden merkitystä pidä vähätellä. Esimerkiksi automaattisella puheluiden ohjauksella, joka perustuu viiden avainsanan tunnistamiseen, on laskettu säästettävän vuosittain satoja miljoonia dollareita. Taulukossa 1 on lueteltu erilaisia parametreja vaihteluväleineen, joiden avulla voidaan kuvata puheentunnistustehtävän vaikeutta. Kaksi ensimmäistä parametria, puhumistapa ja puheen kielellinen tyyli, kertovat kuinka lähellä luonnollista puhetta käsiteltävä puhesignaali on. Helpommillaan puheentunnistusongelma on yksittäisten, esimerkiksi hiljaisin tauoin eroteltujen sanojen tunnistamista. Luetun tekstin tunnistaminen on helpompaa kuin vapaamuotoisen spontaanin puheen, koska kirjoitettu 7

kieli on yleensä kielioppisääntöjen mukaista, kun taas puhuttu kieli ei yleensä ole. Puhujaryhmän koolla on selvä vaikutus tunnistusongelman vaikeuteen, sillä jokaisella ihmisellä on oma persoonallinen tapansa puhua. Helpommillaan tunnistusongelma on silloin, kun järjestelmä voidaan opettaa yhdelle ainoalle puhujalle tältä kerätyn aineiston avulla, ja vaikeimmillan silloin, kun mahdollisia käyttäjiä on useita ja opetusaineisto on kerätty eri ihmisiltä. Puheentunnistusongelmaan pätee sama sääntö kuin hahmontunnistusongelmiin yleisemminkin eli ongelma on yleensä sitä vaikeampi mitä suurempi on luokkien lukumäärä. Puheen tunnistus on siis sitä helpompaa mitä suppeampi on sallitun sanaston koko. Puheen tunnistuksen vaikeuteen vaikuttaa myös kuinka kuvausvoimaisen kielimallin avulla käytetty kieli voidaan esittää mitä yksinkertaisempi malli sitä yksinkertaisempi kieli ja tunnistusongelma. Kielen monimutkaisuutta voidaan myös mitata suureen perplexity avulla, joka on kielimallin antama keskimääräinen vaihtoehtojen lukumäärä seuraavaa sanaa ennustettaessa. Varsinaisen puhesignaalin ja kohinan suhde SNR ( Signal to Noise Ratio ) kuvaa käytettävän puhesignaalin laatua. Puheen tunnistus onnistuu luonnollisesti sitä helpommin mitä korkeampi tämä suhde on. Myös puhumisympäristö ja käytetty puheensignaalin äänitys- ja siirtotapa ovat tunnistusongelman vaikeuden kannalta oleellisia, koska ne vaikuttavat siihen millaisia häiriöitä käsiteltävässä puhesignaalissa on. Taulukko 1. Puheentunnistuksen vaikeutta kuvaavia parametreja, lähde (Zue ja Cole, 1995). Parametri Vaihteluväli Puhumistapa Yksittäiset tauoin erotellut sanat, jatkuva puhe Puheen kielellinen tyyli Luettu teksti, spontaani puhe Puhujaryhmä Yksi puhuja, useita puhujia Sanasto Pieni (alle 20 sanaa), laaja (yli 20000 sanaa) Kielimalli Ääreellinen tila-automaati ( finite-state ), kontekstiriippuva ( context-sensitive ) Perplexity Alhainen (alle 10), korkea (yli 100) SNR Hyvä (yli 30 db), heikko (alle 10 db) Siirtokanava Mikrofoni, puhelin Kuvassa 4 on esitelty kuinka puhesovellukset ovat kehittyneet ajan myötä. Käsiteltävän puhesignaalin vaikeusastetta on kuvattu kahden muuttujan avulla. Pystyakselia vastaava muuttuja kuvastaa mikä on puhetapa ja puheen kielellinen tyyli. Mitä korkeamalla kuvassa liikutaan, sitä vaikeammasta ongelmasta on kyse. Vaakaakselia vastaava muuttuja on sanaston koko. Varjostetut alueet kuvaavat eri ajanjaksojen tilanteita. Tämän kuvan perusteella parhaimmillaan nykyiset tunnistusjärjestelmät selviytyvät kahdensuuntaisesta keskustelusta, missä kumpikaan osapuoli ei ohjaa keskustelua, mutta sanaston koko rajoittuu noin kahteen tuhanteen. Näissä järjestelmissä puhe voi olla jatkuvaa, mutta ei täysin luonnollista, spontaania puhetta. Kuva ei kuitenkaan ota millään tavoin kantaa siihen, mitkä ovat tarvittavan laitteiston muisti ja laskentatehovaatimukset ja voitaisiinko menetelmiä soveltaa esimerkiksi tavallisille kuluttajille suunnatuissa tuotteissa. 8

Kuva 4. Puhutun kielen sovellusten kehittymisestä ajan, sanaston laajuuden ja puhetavan funktiona, kuva kopioitu lähteestä (Juan ja Furui, 2000). 5 KESKEISET ONGELMAT JA TULEVAISUUDEN SUUNTAVIIVAT Katsauksen Survey of the State of the Art in Human Language Technology (Zue ja Cole, 1995) mukaan nykyisten puheen tunnistamiseen ja ymmärtämiseen kehitettyjen järjestelmien keskeisimmät ongelmat ovat seuraavat: Robustisuus: järjestelmän suorituskyvyn pitäisi heiketä asteittain, eikä romahduksenomaisesti, kun järjestelmää käytetään olosuhteissa, jotka poikkeavat niistä joihin se on alunperin suunniteltu ja opetettu. Varsinkin vaihteleviin akustisiin ympäristöihin ja puhesignaalin muodostukseen liittyviin kanaviin pitäisi kiinnittää erityistä huomiota. Siirrettävyys: järjestelmän pitäisi olla helposti siirrettävissä uusiin sovellutustehtäviin. Nykyiset järjestelmät pitää opettaa aina tietystä tehtävästä kerätyllä puhedatalla ja siksi saman menetelmän soveltaminen uuteen ongelmaan on hidasta ja kallista. Adaptiivisuus: järjestelmän pitäisi pystyä jatkuvasti sopeutumaan vaihteleviin olosuhteisiin (esimerkiksi uusi puhuja, mikrofoni, tehtävä). Kielimallit: kun sanakirjan kokoa kasvatetaan ja puhetapaan liittyviä rajoituksia lievitetään, tarvitaan entistä tehokkaammin hakuavaruutta rajoittavia kielimalleja. Näiden mallien pitäisi asettaa sekä syntaktisia että semanttisia rajoituksia, joihin nykyisin käytetyt tilastolliset kielimallit eivät pysty. 9

Tulkintojen luotettavuus: nykyiset järjestelmät pystyvät järjestämään puheen vaihtoehtoiset tulkinnat vain paremmuusjärjestykseen. Jotta järjestelmä pystyisi järkeviä päätöksiä, pitäisi eri tulkintoihin liittää jokin niiden virheettömyyttä kuvaava luettavuusmitta. Sanakirjaan kuulumattomat sanat: nykyiset järjestelmät suunnitellaan siten, että ne tunnistavat vain tietyt, sanakirjaan kuuluvat sanat, mutta käyttäjät eivät välttämättä tiedä mitkä kaikki sanat kuuluvat tähän sanakirjaan. Siksi järjestelmän pitäisi tunnistaa ja käsitellä järkevästi myös sanat, jotka eivät kuulu sen sanavarastoon. Spontaani puhe: järjestelmän pitäisi pystyä käsittämään puhetta, jossa on erilaisia spontaanin puheen ilmiöitä, joita ei ole kirjoitetussa kielessä, kuten esimerkiksi taukoja, epäröintiä ja täytesanoja. Prosodiikka: prosodiikalla tarkoitetaan puheen akustisia rakenteita, jotka vaikuttavat yksittäisiä sanoja laajemmin, esimerkiksi painotus, intonaatio ja rytmi paljastavat ihmiselle tärkeitä seikkoja puhujasta (esimerkiksi innostus, sarkasmi, viha). Nykyiset järjestelmät eivät käytä tunnistuksessa prosodisia piirteitä. Puheen dynamiikka: nykyiset järjestelmät käsittelevät puhesignaalin aikaikkunoita toisistaan riippumattomina. Todellisuudessa äänenmuodostus on dynaaminen prosessi ja tämä tulisi huomioida paremmin tunnistuksessa. 6 JOHTOPÄÄTELMÄT Puheen tunnistuksessa on päästy jo aika pitkälle, mutta puheen ymmärtäminen onnistuu vain rajoitetuissa ongelmissa. HAL:in tasoista puhutun kielen tunnistajaa ja ymmärtää ei voida toteuttaa ihan lähitulevaisuudessa edes menetelmien puolesta. Toisaalta Mooren lain perusteella tulevaisuudessa voidaan kuitenkin ratkaista entistä vaikeampia (esimerkiksi isompi hakuavaruus) ongelmia reaaliajassa nykyisillä menetelmillä, koska tavallisille kuluttajille suunnatujen laitteistojen muisti ja laskentakapasiteetti kasvaa ja halpenee suhteellisen nopeasti. 10

7 LÄHTEET [1] HAL's Legacy: 2001's Computer as Dream and Reality. Ed. D. Stork, MIT Press. 1997. Luku 7, When will HAL understand what we are saying? Computer speech recognition and understanding, Raymond Kurzweil. [2] Biing-Hwang Juan and Sadaoki Furui. Automatic Recognation and Understanding of Spoken Language A First Step Toward Natural Human- Machine Communication. Proceedings of the IEEE. Special Issue on Spoken Language Processing. Sivut 1142-1165. Elokuu 2000. [3] Victor Zue and Ron Cole. Spoken Language Input. Survey of the State of the Art in Human Language Tecnology. Luku 1, sivut 1-69. Marraskuu 1995. [4] Matti Karjalainen. Kommunikaatioakustiikka. Teknillinen korkeakoulu, Akustiikan ja äänenkäsittelytekniikan laboratorio, Raportti 51. 1999. [5] Steve Young. A Review of Large-vocablary Continuous-speech Recognition. IEEE Signal Processing. Sivut 45-57. Syyskuu 1996. 11