Puheentunnistus ja synteettinen puhe

Samankaltaiset tiedostot
Puheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting

Eväspussi. Onko lähipiirissä esiintynyt hitautta tai vaikeutta lukemaan ja kirjoittamaan oppimisessa? Millaista?

Berlitzin taitotaso 1 CEF-taso A 1

Musiikkipäiväkirjani: Kuunnellaan ääniä ja musiikkia (LM1) Kuunnellaan ja nimetään ääniä, joita eri materiaaleilla voidaan saada aikaan.

Hei kuka puhuu? lapsen kohtaaminen ja tukeminen

4. Lausekielinen ohjelmointi 4.1

Lapsen tyypillinen kehitys. -kommunikaatio -kielellinen kehitys

Kieliohjelma Atalan koulussa

Englanti. 3. luokan keskeiset tavoitteet

Puhesynteesin perusteet Luento 5: unit selection -synteesi

THE audio feature: MFCC. Mel Frequency Cepstral Coefficients

Puheenkäsittelyn menetelmät

Musiikkipäiväkirjani: Maalataan, kirjoitetaan ja luetaan musiikkia (PWR1) Valitaan värejä, kuvia tai symboleja erilaisille äänille.

LUKUVUOSITODISTUKSEN ARVIOINTILAUSEET VUOSILUOKILLE 1 4

Pia Hägglund, Pohjanmaan tulkkikeskus. Monikulttuurisuus ja perehdyttäminen

Projektisuunnitelma ja johdanto AS Automaatio- ja systeemitekniikan projektityöt Paula Sirén

Laskuharjoitus 2 ( ): Tehtävien vastauksia

Aasian kieliä ja kulttuureita tutkimassa. Paja

LAUSEPANKKI luokkien lukuvuosiarviointiin

Tulkkauspalvelut maahanmuuttajille

Vedä ja pudota Maamittauslaitoksen JPEG2000-ortoilmakuva GeoTIFF-muotoon

Kauko-ohjauslaite GSM rele 2011 v

Helpon suomen alkeet. Miten puhua niin, että kielenoppijakin ymmärtää? Salla Kurhila & Taija Udd, Suomen kieli ja kulttuuri, Helsingin yliopisto

Päivi Homanen Satakieliohjelma Tampere

Tilastotiede ottaa aivoon

Suomen kielen variaatio 1. Puhuttu ja kirjoitettu kieli Suomen puhekielen vaihtelu

Maailma visuaalivalmistajan näkökulmasta

Tilastotiede ottaa aivoon

ESIOPETUS-1-2 LUOKKA OMA OPPIMISPOLKU

Osaava henkilöstö kotouttaa kulttuurien välisen osaamisen arviointi. Työpaja Hämeenlinna

Selkokeskus Selkoa selkokielestä Kuka sitä tarvitsee? Mitä se on?

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Algebralliset menetelmät virheenkorjauskoodin tunnistamisessa

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

SISÄLTÖ. Kehitä kuuntelutaitojasi Tarkista, kuulitko oikein Hyvät sanat avaavat korvat Kasvokkain

IT-OSAAJA, TIETOJENKÄSITTELYN ERIKOISTUMISOPINNOT

TEKSTINKÄSITTELYTEHTÄVIÄ, OSA 1

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

S Havaitseminen ja toiminta

Puheentunnistus Mikko Kurimo

ALAN ASIANTUNTI- JATEHTÄVISSÄ TOIMIMINEN, KE- HITTÄMINEN JA ONGELMANRAT- KAISU - perustella asiantuntijatehtävissä. toimiessaan tekemiään

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

Palautuskansio moduuli, ja sen vuorovaikutukset tehtävien annossa!

Alkukartoitus Opiskeluvalmiudet

Luonnollisella kielellä keskustelevat järjestelmät

ARVO - verkkomateriaalien arviointiin

Tavoite Opiskelija osaa käyttää englannin kielen rakenteita, hallitsee kielen perusilmaukset ja ymmärtää opiskelijan arkielämään liittyvää kieltä

Tulkkauspalvelut maahanmuuttajille

Suomen kielen Osaamispyörä -työkalu

CHERMUG-pelien käyttö opiskelijoiden keskuudessa vaihtoehtoisen tutkimustavan oppimiseksi

Organization of (Simultaneous) Spectral Components

Osaamispisteet. Vapaasti valittava

MEDIAVÄYLÄ. Mediaväylältä löytyy: 3-vuotiaille Kuvaaminen 4-vuotiaille Ääni 5-vuotiaille Medialukutaito 6-vuotiaille Viestintä

Valttikortit 100 -ohjelman sanasto on peruskoulun opetussuunnitelman ytimestä.

ISÄKSI KASVAMASSA ISÄN JA VAUVAN VÄLINEN SUHDE

S Havaitseminen ja toiminta

Kielellisen datan käsittely ja analyysi tutkimuksessa

Liite A: Kyselylomake

Äi 8 tunti 6. Tekstin rakenne, sitaattitekniikka

Kuule - luonnollisesti

1 Kannat ja kannanvaihto

Tarina-tehtävän ratkaisu

Esimerkkejä vaativuusluokista

Tavoitteet Sisällöt Arvioinnin kohteet oppiaineissa ja hyvän osaamisen kuvaus

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

Laskut käyvät hermoille

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

3. Ryhdy kirjoittamaan ja anna kaiken tulla paperille. Vääriä vastauksia ei ole.

Kiipulan ammattiopisto. Liiketalous ja tietojenkäsittely. Erja Saarinen

Oppilas pystyy nimeämään englannin kielen lisäksi myös muita vieraita kieliä niitä kohdatessaan.

Suomen virtuaaliammattikorkeakoulu XML_mark_up_language > 80 % % % < 50 % Suhteellinen osuus maksimiarvosta (%)

Puhumaan oppii vain puhumalla.

Ostoskassit pullollaan miten kehittää

Oppimistavoitematriisi

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

PUHU MINULLE KUUNTELE MINUA

TIEA241 Automaatit ja kieliopit, kevät 2011 (IV) Antti-Juhani Kaijanaho. 31. maaliskuuta 2011

Oulun murteessa on käytössä myös nää-pronomini, joka tarkoittaa sinä. Sää on kuitenkin enemmän käytetty.

Humanistiset tieteet

Tekoäly tänään , Vadim Kulikov (Helsingin Yliopisto)

KORKEAKOULUJEN MAHDOLLISUUDET JA HAASTEET MAAHANMUUTTAJIEN VALMENTAVASSA KOULUTUKSESSA

Hahmon etsiminen syotteesta (johdatteleva esimerkki)

EuroTraffic Language Training

KUN LUKEMINEN ON HANKALAA. Helena Sorsa

Luo mediaopas Tarinatallentimella

SELKOESITE. Autismi. Autismi- ja Aspergerliitto ry

Tarvitseeko informaatioteknologia matematiikkaa?

LAITTEISTOKOKOONPANON SELVITTÄMINEN JA AJURIEN ASENTAMINEN

Office ohjelmiston asennusohje

VINKKEJÄ OPISKELUUN. Tampereen teknillinen lukio

PUHUMINEN Harjoit- Osaa KUULLUN YMMÄRTÄMINEN Harjoit-Osaa. pvm pvm pvm pvm TAITOTASO A1 Suppea viestintä kaikkien tutuimmissa tilanteissa

JOHDATUS TEKOÄLYYN TEEMU ROOS

Musiikkipäiväkirjani: Soitetaan rytmissä omaa ääntä käyttämällä (RV1) Juhlitaan kaikkia tunnettuja kielen ääniä.

Projektisuunnitelma. Projektin tavoitteet

Kieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat

Kieli ja viestinnän kokonaisuus

Lapsen kielen kehitys I. Alle vuoden ikäisen vanhemmille.

Tervetuloa selkoryhmään!

Oppimistavoitematriisi

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

Transkriptio:

Puheentunnistus ja synteettinen puhe S-114.1100 Laskennallinen tiede, syksy 2005 (kuva: viite 5) Heikki Hyyti 60451P

1. Sisällysluettelo 1. Sisällysluettelo... 2 2. Tiivistelmä...3 3. Yleistä... 3 4. Kieli ja puhe...4 5. Puheentunnistuksen ja synteettisen puheen ongelmat... 5 6. Ratkaisumallit... 6 6.1. Luokitukset... 6 6.2. Markovin malli... 6 6.3. Modernit puheentunnistusjärjestelmät... 7 6.4. Puhesyntetisaattoriratkaisut... 8 6.4.1. Yksiköiden valinta tietokannasta... 9 6.4.2. Päätaajuus-synteesi... 9 6.4.3. Markovin mallien käyttö synteesissä... 9 7. kysaavutukset ja kehityskohteet... 9 8. Tavoitteet ja sovellukset... 10 9. Lähdeviitteet... 10 2

2. Tiivistelmä Tässä tutkielmassa pohdin yleisesti puheen tuottamista ja tunnistamista tietokoneella. Tutustumme kielen monimutkaisuuteen ja erilaisiin tulkintatapoihin riippuen asiayhteydestä, puhujan äänenpainosta tai eleistä. Perehdyn yleisiin puheen tunnistuksen ja tuoton menetelmiin ja niiden osiin sekä laskennallisiin menetelmiin. Lopuksi keskityn pohtimaan mahdollisia käyttökohteita ja sovelluksia kyseiseltä alalta. 3. Yleistä Emme tiedä miten aivot käsittelevät, tunnistavat ja tuottavat puhetta. Siksi tietokonelingvistiikkan ongelmia pyritään ratkaisemaan kehittämällä uusia matemaattisia malleja, joilla puhetta voitaisiin parhaiten tunnistaa ja tuottaa olemassa olevalla tietoteknisellä arkkitehtuurilla. Nykyiset tietokoneet pystyvät tekemään paljon monimutkaisia laskutoimituksia lähestulkoon virheettömästi, mutta hahmon- tai kielentunnistuksessa ne ovat vielä erittäin huonoja. Jos kuitenkin kone saadaan ymmärtämään ihmisen puhumaa kieltä, helpottuu ihmisen ja koneen välinen vuorovaikutus. Puheentunnistus on maailmalla suosittu tieteenala, jolle on jo nyt olemassa jonkinlaisia käyttökelpoisia sovelluksia, kuten lääkäreille tarkoitettuja saneluohjelmia tai kännyköiden soittoautomaatioita sekä automaattisia puhelinpalveluita. Puheentunnistuksen markkinat ovat suhteellisen suuret, noin 130 miljoonaa dollaria (vuonna 2003). Markkinat ovat pääsääntöisesti olleet Yhdysvalloissa, mutta muu maailma on ottamassa tälläkin saralla kiinni. Lähivuosina tämä tieteenala tullee kasvamaan räjähdysmäisesti, kunhan kunnollisia, normaalia puhetta hyvin ymmärtäviä järjestelmiä pystytään rakentamaan. (lähde 2) Synteettisen puheen luominen, niin sanottu puhesynteesi, on kehittynyt huomattavasti pidemmälle kuin puheentunnistus. Nyt jo on saatavilla palveluita, jotka lukevat mitä tahansa tekstiä ymmärrettävälle kielelle. Tämä puhe, jota television chateista saa kuulla puhuvan pään puhumana, ei todellakaan ole mitään kaunista kuunneltavaa ja on vielä kaukana ihmisten käyttämästä kielestä. Tätä puhetta voi kuitenkin ymmärtää, ja siksi sovelluksia on alkanut nyt jo ilmestyä. Merkittävistä tutkimuksista mainittakoon suomalainen tutkimus Tampereen yliopiston tietojenkäsittelyopin laitokselta. Siellä ihmisen ja tietokoneen vuorovaikutusta tutkivassa TAUCHI-ryhmässä on puhekäyttöliittymiä tutkittu vuoden 1998 kesästä alkaen. Puhekäyttöliittymät -nimisessä projektissa työtä on tehty nimenomaan suomenkielisen järjestelmän parissa. Vaikka sovelluksessa ollaankin keskitytty erityisesti suomenkieleen, on perustutkimustyö sinällään muillekin kielille yleistettäviin tuloksiin suuntautunutta. (viite 3) Tästä tutkimuksesta syntyi valmis Postimies-järjestelmä, jolla käyttäjä pääsee käyttämään sähköpostilaatikkoaan pelkän puheen avulla. Järjestelmä osaa vastaanottaa muutamia komentoja puheella ja lukea käyttäjän haluamat sähköpostit suomeksi. 3

4. Kieli ja puhe Ihmisen puhuma kieli on todella monimutkaista ja erilaista kirjoitettuun kieleen verrattuna. Suomen kielessä kirjoitettu ja puhuttu kieli ovat suhteellisen samankaltaisia, mutta jos vertaamme esimerkiksi englannin puhe- ja kirjakieltä, niin erilaiset ääntämyserot alkavat tulla esiin. Ääritapauksena kielten erilaisuudesta voidaan pitää esimerkiksi kiinan kieltä, jossa jokaiselle sanalle on oma merkkinsä. Tällöin luonnollisestikin puhe- ja kirjakieli ovat täysin eri kielet. Oman erikoisuutensa kieleen tuovat tämän lisäksi erilaiset murteet ja puheviat. Jokainen ihminen puhuu omalla tavallaan, joten puhetta ymmärtävän laitteen kehittäminen on todella haastavaa. Kieli on usein myös tulkittavissa monella eri tavalla. Kielten piirteet vaikuttavat puheteknologialle asetettaviin vaatimuksiin. Suomen kielessä sanavartaloon liittyvät päätteet voivat vaikuttaa sanan merkitykseen, samoin virkkeen sanajärjestys ja asiayhteys. Lisäksi sanoihin ja ilmauksiin liittyy assosiaatioita ja symbolisia merkityksiä. Tulkitessaan sanoja ihminen hahmottaa ne osana lauserakenteita, jotka eivät ole aina yksiselitteisiä. Samojen sanojen merkitys voi muuttua myös riippuen äänenpainosta, sävystä, asiayhteydestä tai puhujan ilmeestä. Kuusi voi tarkoittaa puuta tai numeroa. (viite 1) Lisäksi puhe voi olla ivallista tai sarkastistista, jolloin kaikki ihmisetkään eivät enää ymmärrä viestiä oikein. Kuva 1: Spektrogrammissa puheesta tulee näkyvää. Kuva: Martti Vainio (Helsingin yliopisto). (viite 1) Ihminen käyttää puhuessaan suhteellisen suurta taajuuskaistaa, 100Hz:tä aina 8kHz:iin asti, kuten kuvasta 1 voimme havaita. Tosin ihmiskorva on herkimmillään taajuusalueella 2000-6000 Hz (viite 4). Kuvassa 1 on spektrogrammikuva ilmauksesta menemme laivalla Lemille. Kapeat pystyviivat osoittavat äänihuulten värähtelyä. Niiden välisestä 4

etäisyydestä voi päätellä ilmauksen perustaajuuden eli sen, millä äänenkorkeudella puhuja puhuu. Kuvan puhuja on mies. Puheessa ei juuri ole taukoja sanojen välillä, vaan kaikki lauseen sanat ovat lomittuneet toisiinsa. Puhuessamme emme tuota erillisiä sanoja, vaan yhteensulautuneiden sanojen virtaa. (viite 1) 5. Puheentunnistuksen ja synteettisen puheen ongelmat Puheessa sanat ovat yleensä yhtenäisesti liittyneet toisiinsa, ja vasta lauseiden välillä saattaa olla havaittava tauko. Erillisiä sanoja ei välttämättä pystytä erottamaan toisistaan, vaan on kyettävä tunnistamaan äänteitä ja tavuja, joiden perusteella päätellään mihin sanaan kokonaisuuden eri äänteet kuuluvat. Oletetaan että tarkastellaan pidempää ääninäytettä, jossa on useampia toisiinsa liittyviä lauseita. Selvitetyistä äänteistä saadaan rakennettua nippu vaihtoehtoisia lauseita, jotka ovat tulkittavissa analysoitavan materiaalin perusteella. Äänteistä pitää vielä valita kielellisesti järkevä ja asiayhteyteen liittyvä lause, jonka puhuja on tarkoittanut kuulijoidensa havaitsevan. Ihmisen aivot tekevät tätä tulkintatyötä koko ajan puhetta kuunnellessaan. Tietokoneelle tämä todennäköisimmin oikean lauseen löytäminen on haastavaa. Tehtävä vaatii täydellistä puheen ymmärtämystä, jota ei nykykapasiteetilla pystytä läheskään saavuttamaan. Vaikka puheentunnistin tunnistaa sanat, niiden merkityksen tulkinta voi olla hankalaa, koska kieli on tulkittavissa monella eri tavalla kuten edellä mainitsin. Sana kuusi voi tarkoittaa numeroa tai puulajia, ja sanan oikea taivutus pitää tehdä merkitykseen sopivan sanan mukaan. (viite 1) Lisähaastetta puheentunnistukseen aiheuttavat ihmisten erilaiset murteet, puhetyylit, puhenopeudet sekä puheviat. Eri murrealueilta tulevien ihmisten on aluksi vaikea ymmärtää toisiaan, mutta he oppivat nopeasti toisen erityyppisen puhetyylin, minkä jälkeen kuuntelu helpottuu. Sama pätee muihin puhetyylien eroavaisuuksiin. Tietokoneen pitäisi pystyä jatkuvasti oppimaan kuulemastaan puheesta ja pyrkiä ymmärtämään viestiä, jotta puhe voitaisiin tunnistaa luotettavasti. Synteettisen puheen tuottamisessa on osaltaan samat ongelmat kuin puheentunnistuksessakin. Tietyntasoista puhetta voidaan tuottaa taulukoimalla kaikki mahdolliset äänteet niissä tilanteissa, joissa ne esiintyvät puheessa. Puhe tuotetaan muuntamalla tekstiä suoraan taulukon avulla äänteiksi. Kieliteknologia kehittää koneille sääntöjä ja tekniikoita, joiden pohjalta äänteitä yhdistellään. (viite 1) Nämä yksinkertaiset puhesyntetisaattorit jättävät kuitenkin huomioimatta asiayhteyksien pakottamat intonaatioiden muutokset ja puheäänen viestittämät tunnetilat. Osaltaan siksi ääni kuulostaa kylmältä ja synteettiseltä. Näiden tunteiden mallintaminen vaatisi myös asiasisällön täydellistä ymmärtämistä, jolloin voidaan liittää oikeanlainen ele tai väri ääneen oikealle paikalleen. Näin voitaisiin lisätä myös taukoja ja muita inhimillisiä puhetyylin ominaisuuksia syntetisoituun puheeseen. Kaiken lisäksi puheentunnistuksen ja puhesynteesin pitäisi olla lähes realiaikaista, jotta kommunikointi koneen kanssa onnistuisi. Harva käyttäjä suostuu odottamaan 5

minuuttiakaan tietokoneen laskiessa mitä sille on sanottu. Itse ainakin tyytyisin mielummin näppäimistöön ja hiireen. 6. Ratkaisumallit 6.1. Luokitukset Puheentunnistusjärjestelmät voidaan luokitella ominaisuuksiensa mukaan. Se mitä järjestelmältä toivotaan muttaa täysin sen rakennetta. Esimerkiksi kokonaisia lauseita ymmärtävä ohjelma saattaa olla rakenteeltaan tyystin erilainen kuin joitakin komentoja vastaanottava järjestelmä. Komennot voidaan tallentaa kokonaisuudessaan muistiin ja verrata kaikkea saatavaa äänimateriaalia näihin muutamiin muistissa oleviin ääninäytteisiin. Näin saadaan muutaman komennon tunnistus tehtyä yksinkertaisesti. Se että järjestelmä pystyisi ymmärtämään kaikkia sanoja ja lauseita, vaatii aivan erilaisen näkökulman. Kaikki puhetta tunnistavat järjestelmät voidaan jaotella seuraavalla tavalla: (viite 8) Järjestelmät voivat vaatia käyttäjän opettamaan itselleen oman puheensa äänteet ja rakenteet tai vaihtoehtoisesti järjestelmää ei tarvitse erikseen opettaa. Järjestelmä ymmärtää vain yhtä käyttäjää, joka on mahdollisesti koulutettu järjestelmälle tai se ymmärtää kaikkia puhujia samalla tavalla. Järjestelmä ymmärtää joko kokonaisia lauseita ja virkkeitä tai sille täytyy luetella sana kerrallaan. Järjestelmä on suunniteltu toimimaan vain puhtaalla puhemateriaalilla tai järjestelmä toimii myös vääristyneillä kanavilla kuten puhelimen välityksellä tai se sietää häiriöitä tai jopa useata puhetta päällekäin. Järjestelmän ymmärtämä sanasto on lyhyt eli se kattaa vain muutamia satoja sanoja tai se ymmärtää tuhansia sanoja. Luokittelu sen mukaan, ymmärtääkö laitteisto parhaiten numeroita, nimiä, kokonaisia lauseita vai vain komentoja. 6.2. Markovin malli Suurin osa nykyisistä puheentunnistusjärjestelmistä perustuu piilotettuun Markovin malliin (hidden Markov model, HMM). Se on tilastollinen malli, joka palauttaa luettelon arvoja eri vaihtoehdoille. Malli laskee kirjoitetun datan, jota puhe todennäköisimmin tarkoittaa. Tunnistuksen todennäköisyys on Bayesin sääntöjen mukaan laskettuna: (viite 8) 6

Pr( sana ääni) = Pr( ääni sana) * Pr( sana) Pr( ääni) Tietyllä ääninäytteellä (vaikkapa audiotiedosto) äänen todennäköisyys Pr(ääni) on jatkuva ja se voidaan jättää huomiotta. Pr(sana) on sanan todennäköisyys sopia tunnistuksessa tähän kohtaan. Pr(sana) lasketaan kielen mallinnuksen kautta, joka on itsessäänkin jo oma tieteenalansa. On siis tärkeä erottaa toisistaan se että esimerkiksi autoton on eri asia kuin autot on. Näille saadaan eri todennäköisyydet kieliteorioiden mukaan. Monimutkaisin todennäköisyystermi on Pr(ääni sana) ja se haetaankin juuri piilotetun Markovin mallin mukaan. Piilotettu Markovin malli on suosittu, koska se voidaan helposti harjotuttaa mihin tahansa puhemateriaaliin ja se on laskennallisesti toteutuskelpoinen. (viite 8) Puheentunnistuksessa piilotettu Markovin malli palauttaa luettelon n-ulotteisia realiarvoisia vektoreita. Vektorit taas sisältävät yksinkertaisimmassa tapauksessa lyhyen aikavälin Fourier-muunnoksesta saatavat ääntä kuvaavat kertoimet. Ne saadaan kun ääni pätkitään lyhyiksi jaksoiksi, ja jokainen jakso kosinimuunnetaan ja otetaan ensimmäiset, tärkeimmät Fourier-kertoimet. Piilotetulla Markovin mallilla on jokaisessa tilanteessa tilastollinen jakauma, jota käytetään verrattaessa äänidataa muistissa olevaan dataan. Jokaiseen tavuun tai äänteeseen voidaan soveltaa omaa prosessiaan, jolloin voidaan mahdollisesti tunnistaa puhetta kirjain tai äänne kerrallaan. Malli opetetaan kuitenkin tunnistamaan vain yhden ihmisen puhetta kerrallaan. (viite 8) 6.3. Modernit puheentunnistusjärjestelmät Kehittyneemmät järjestelmät käyttävät monia erilaisia tekniikoita ja niiden yhdistelmiä puheen tulkitsemiseen. Tyypillisessä jatkuvaa puhetta ymmärtävässä suurisanastoisessa järjestelmässä on seuraavat osat: Järjestelmä, joka muuntaa kuultua puhetta puhtaammaksi puhesignaaliksi eli suodattaa pois häiriöitä ja muuttaa kaikkien puhujien äänen samalle taajuusalueelle ja -kaistalle. Jos ääni kuullaan puhelimen läpi, pitää ottaa huomioon eri taajuuksien erilaiset vaihesiirtymät ja puuttuvat taajuuskomponentit, sillä ääni muokkautuu moneen kertaan esimerkiksi puhelimella puhuttaessa. Naisen ja miehen äänten erot pitää myös normalisoida eli muuntaa muotoon josta voidaan helpoiten tulkita niin miehen kuin naisenkin puhetta ilman, että järjestelmää pitää kouluttaa erikseen toiselle sukupuolelle. Lisäksi pitää ottaa huomioon erilaiset puhenopeudet. (viite 8) 7

Kuva 2: Amerikan englantilaisen miespuhujan lausuma phonetician. Sana on pätkitty äänteittäin osiin, joita tulkitaan erikseen. (viite 5) Seuraavaksi laitteessa tarvitaan puhetta osiin jakava osa, joka etsii puheesta esimerkiksi äänteitä. Sana jaetaan äänteisiin esimerkiksi kuten kuvassa 2 on esitetty. Tämän jälkeen pyritään tunnistamaan jokainen äänne oikeaksi merkikseen, jotka on lueteltu kuvan 2 oskillogrammin alapuolella. Tässä vaiheessa voidaan siis käyttää piilotettua Markovin mallia (HMM) tai vastaavaa äänen tunnistusalgoritmia. Kuvassa 3 on Fourier-muunnetut äänteet listattuna peräkkäin. Tästä Markovin mallit laskevat todennäköisimmät äänteet. Kuva 3: Sama phonetician kuin kuvassa 2 kuvattuna spectrogrammina. Jokaisessa ikkunassa on kuvattu kyseisen äänteen spektrianalyysi nopean Fourier-muunnoksen (FFT) avulla. (viite 5) Tämän jälkeen tunnistetuista äänteiden jonosta pitää vielä tunnistaa erilliset sanat ja lauseet. Tähän tarvitaan kehittynyttä sanakirjaa ja oikeinkirjoitustyökalua, joka ymmärtää myös slangi- ja murresanoja sekä taivutuksia. Tämä on jo oma uusi ongelmansa, joka vaatii omat todella massiiviset järjestelmänsä. 6.4. Puhesyntetisaattoriratkaisut Puhesyntetisaattoreita on tehty jo paljon pidempään kuin puheentunnistusjärjestelmiä, joten erilaisia ratkaisuvaihtoehtojakin on paljon enemmän. Tutustutaan tässä niistä muutamaan. 8

6.4.1. Yksiköiden valinta tietokannasta Laskennallisesti yksinkertaisin malli, jossa on taulukoitu todella paljon erilaisia valmiita äänteitä jokaista erilaista tapausta varten. Lauseen alkua varten on omat äänteensä ja lauseen loppua varten omansa. Sama pätee jokaiseen sanaan ja sanojen vaihtokohtaan. Tämä syntetisoitu puhe kuulostaa ehkä aidoimmalta koska se on ihmisen puhumaa kieltä, jota ei ole hirvittävästi muokattu, vain pätkitty ja sovitettu yhteen. Tällainen järjestelmä vaatii mittavat tietokannat ja valtavasti työtä tietokantojen rakentamiseen. (viite 10) Edellä mainitsemiani järjestelmiä on käytössä pienessä mittakaavassa esimerkiksi VR:llä jossa saapumisajat ilmoitetaan sana kerrallaan puhetta syntetisoimalla. Puhe kuulostaa todella huvittavalta koska sanojen välillä on pitkiäkin taukoja ja se saa puheen kuulostamaan vähäjärkisen tuotokselta. Toki tälläkin tavalla voi tehdä toimivan ratkaisun, mutta sen jälkeen sanat pitää onnistua lomittamaan toistensa sekaan niin kuin ihminenkin sekoittaa puheessaan sanat toisiinsa. 6.4.2. Päätaajuus-synteesi Tässä synteesissä ei ole ollenkaan äänitietokantaa, vaan vain puhetta simuloiva matemaattinen malli. Tässä puhetta luodaan syntetisoimalla puheessa esiintyviä äänteitä kuten syntetisoidaan musiikki-instrumenttejakin. Tässäkin siis luodaan muutamat tärkeimmät äänteiden päätaajuudet ja niiden amplitudit. Tätä ääntä soitetaan oikea aika, saadaan jotenkin äännettä muistuttavaa ääntä. Näitä äänteitä yhdistelemällä saadaan syntetisoitua jonkintasoista puhetta. (viite 10) Tällä tavalla, ilman tietokantoja tehdyssä synteesissä äänen aitous riippuu täysin matemaattisen mallin monimutkaisuudesta. Jotta päästäisiin aidolta kuulostaviin ratkaisuihin, vaaditaan todella paljon laskentakapasiteettia. Monet ohjelmistojen mukana tulevat pienet syntetisaattoriohjelmat toimivat tällä periaatteella, jolloin suuria tietokantoja ei tarvitse lisätä mukaan, vaan syntetisaattori mahtuu pieneen tilaan. TV:stä tuttu puhuva pääkin toimii todennäköisimmin näin ja tuloksen kyllä kuulee. 6.4.3. Markovin mallien käyttö synteesissä Myös piilotettua Markovin mallia voidaan hyödyntää puheen synteesissä. Siinä jollakin tavalla tuotettua ääntä pyritään tulkitsemaan kuten puheentunnistuksessakin. Näin voidaan laskea tarvittavat muunnokset joita alkuperäiseen ääneen pitää tehdä, jotta ääni kuulostaisi luonnollisemmalta ja oikeammalta. (viite 10) 7. kysaavutukset ja kehityskohteet Yleensä puheentunnistimet vertaavat havainnoimaansa ääntä puhetietokantaan tallennettuihin puhenäytteisiin. Tunnistaminen on todennäköisempää, jos verrattavat näytteet ovat lyhyitä. Jos ne ovat kokonaisia lauseita, on tunnistaminen lähes mahdotonta. Osa puheentunnistimista kykenee erottamaan puhevirrasta tietyt komentosanat, jotka ne on ohjelmoitu tunnistamaan ja toteuttamaan. (viite 1) 9

Nykyisin puhetta pystytään tunnistamaan niin, että yksittäisiä sanoja ja komentoja voidaan luotettavasti tunnistaa. Tämän lisäksi, jos järjestelmä koulutetaan tietylle henkilölle, voidaan pystyä kohtalaisesti tunistamaan hänen puheensa. Nykyiset järjestelmät pystyvät tunnistamaan 80-90% puhtaasta puheesta, (viite 8) mutta hälyn seasta tai useamman ihmisen puheen tunnistuksesta ei voida vielä puhua. Jos halutaan tunnistaa puhetta realiajassa, huononee tunnistustarkkuus entisestään, koska laskentatehoa ei vielä ole riittävästi. Onneksi tämä alue kehittyy nopeasti. 8. Tavoitteet ja sovellukset Puheentunnistusta ja synteettistä puhetta sovelletaan käytännössä muun muassa matkapuhelinten ja tietokoneiden käyttöliittymissä ja erilaisissa puhelinpalveluissa. Niiden avulla ihmisen ja koneen välistä vuorovaikutusta voidaan muokata luontevammaksi ja helpommaksi. (viite 1) Kaikkiin viidennessä kohdassa luettelemiini ongelmiin pitää löytää kunnolliset ratkaisut. Tietotekniikan ja laskentatehon lisääntyminen auttaa jo paljon, mutta puhe olisi parhaiten tunnistettavissa tehokkaalla rinnakkaislaskennalla kuten aivot puhetta tunnistavat. Voimme tietysti simuloida massiivisia itseorganisoituvia neuroverkkoja, mutta tavoitteellista olisi rakentaa fyysisesti tällaisia massiivisia rinnakkaislaskentaa hyödyntäviä järjestelmiä. Ne olisivat huomattavasti tehokkaampia niin puheen kuin kuvienkin analysoimisessa ja tunnistuksessa. 9. Lähdeviitteet 1) http://www.csc.fi/suomi/info/sovelluksia/puhe.phtml.fi 2) http://www.digitoday.fi/showpage.php?page_id=9&news_id=24815 3) http://www.prosessori.fi/es99/postimies.htm 4) http://www.cult.tpu.fi/sound/akusti_1.htm 5) http://www.ling.lu.se/research/speechtutorial/tutorial.html 6) http://www.mor.itesm.mx/~omayora/tutorial/tutorial.html 7) http://svr-www.eng.cam.ac.uk/~ajr/sa95/ 8) http://en.wikipedia.org/wiki/speech_recognition 9) http://en.wikipedia.org/wiki/hidden_markov_model 10) http://en.wikipedia.org/wiki/speech_synthesis 10