Äänen koodaus automaattisessa puheentunnistuksessa

Transkriptio

1 Äänen koodaus automaattisessa puheentunnistuksessa Roman Kossarev LuK-tutkielma Kuopion yliopisto Tieojenkäsittelytieteen laitos Toukokuu 2003

2 1 Tiivistelmä KUOPION YLIOPISTO, Informaatioteknologian ja kauppatieteiden tiedekunta Tietojenkäsittelytieteen koulutusohjelma Tietojenkäsittelytiede ROMAN KOSSAREV: Äänen koodaus automaattisessa puheentunnistuksessa LuK-tutkielma, 27 s. LuK-tutkielman ohjaaja: assistentti, FM Tarja Lohioja Toukokuu 2003 Avainsanat: puheentunnistus, neuroverkot, SOM Tarkastelun kohteena on puheesta syntyvän ääniaallon koodaus käytetyn kielen foneemeiksi neuroverkkoja, etenkin Kohosen itsejärjestyviä piirrekarttoja (SOM-verkkoja), käyttäen. Foneettinen koodaus on puheentunnistuksen ensimmäisiä vaiheita ja askel kohti puheen automaattista ymmärtämistä. Puheesta on tulossa uusi käyttöliittymä ihmisen ja tietokoneen välille, mutta puheen tunnistus on osoittautunut epätriviaaliksi tehtäväksi, jonka ratkaisu vaatii ei-algoritmisia menetelmiä. Tunnistettava tieto välittyy puheessa jossakin määrin rinnakkain, sen tiedon ominaisuudet eivät ole invariantteja vaan puhuja- ja tilannekohtaisia, ja jokainen puhesegmentti voi saada lukuisat toisistaan hieman poikkeavat ääntämismuodot. SOM-verkot kykenevät ryhmittelemään puhesegmentit luokiksi, jotta puheentunnistusjärjestelmän käyttövaiheessa jokaiselle puhesegmentille löydetään sen äänneluokka eli foneemi. Puheentunnistuksen keskeinen työkalu on spektrogrammi, joka muodostetaan puheen ääniaallosta. Spektrogrammin lyhytkestoiset segmentit eli spektrikehykset toimivat neuroverkon syötteinä, ja tulosteena on spektrikehyksen äänneluokka. Tällä tavalla neuroverkosta tulee äännekartta ja foneettinen kirjoituskone, joka tunnistaa jokaisen lausutun äänteen. SOM-verkot kykenevät tunnistamaan äänteitä hyvällä tarkkuudella ja siksi ovat sopivia täysiveroisen puheentunnistusjärjestelmän rakentamiseen.

3 2 Sisällys 1 JOHDANTO PUHESIGNAALIN OMINAISUUKSIA Akustiikkaa ja signaalikäsittelyä Äänen tuotto Ihmisen puheentunnistusmekanismeista Koartikulaatio, segmentoinnin vaikeus ja invarianttius Äänne ja foneemi Redundanssi Ominaisuuksien tuntemisesta puheen tunnistukseen ITSEJÄRJESTYVÄT PIIRREKARTAT Osa neurolaskentaa Yleinen kuvaus Rakenne ja toimintaperiaate Alustaminen Opettaminen Klusterointi ja vektorikvanttisointi Käytettävyyden arvioiminen ja käyttö FONEETTINEN ÄÄNENKOODAUS Uusi puheentunnistusmenetelmä Äänenkoodausprosessi Foneettinen piirrekartta Segmentointi Foneettinen kirjoituskone Jälkikäsittely ja tunnistustarkkuus POHDINTA...25 LÄHTEET...26

4 3 1 JOHDANTO Sitä mukaa kun tietokoneiden käyttö leviää yhä uusille toiminta-aloille, käyttöliittymän helppokäyttöisyys nousee tärkeäksi tekijäksi tietokonejärjestelmien ja laitteiden arvioimisessa. Puhe on ihmisille luontainen ja helppo viestintätapa. Siksi on pyritty kehittämään menetelmiä, joiden avulla tietokoneet ja muut laitteet tunnistaisivat ja ymmärtäisivät puhetta, eli pystyisivät puheen ohjaamina suorittamaan erilaisia toimintoja. Näitä toimintoja ovat esim. puhelun soittaminen puhelimessa, puhelinlangan toisessa päässä tapahtuva puheen automaattinen ohjaus ja käsittely, lomakkeiden täyttö ja tekstien luonti tietokoneessa sanelemalla. Puhe on ihmisessä kehittynyt viestintäväline ja sen tuotto ja ymmärtäminen on sille luonnollisen helppoa. Ihmisen suuri etu tietokoneeseen nähden on se, että ihminen tuntee paremmin puhumistilanteen, puhujan ja kielen ominaisuudet sekä ymmärtää sanojen ja lauseiden merkityksen. Puheeseen vaikuttavat sellaiset seikat kuin asiayhteys, puhujan tila, henkilökohtaiset puhumistottumukset, puheviat jne. Nämä lisäävät puhesignaaliin tunnistuksen kannalta merkityksetöntä vaihtelua. Tietokoneen pitäisi pystyä päättelemään, mikä on luonnollista ja merkityksetöntä vaihtelua ja mikä taas on oleellista vaihtelua, joka erottaa puhutut sanat toisistaan [Vuo01]. Siksi on tarpeellista tuntea puheen ominaisuudet, joita käsitellään kielitieteissä; myös puhesignaali pitää pystyä tuomaan tietokoneeseen - tämä tutkitaan akustiikan ja signaalikäsittelyn avulla. Vaihteluja on mahdollista tutkia hahmotunnistuksen ja tekoälyn, erityisesti neurolaskennan, keinoin. Tarvitaan siis monen eri tieteenalan tuntemusta. Ensimmäistä puheen ymmärtämisen osaongelmaa kutsutaan puheen tunnistukseksi: tarkoituksena ei ole ymmärtää puheen sisältämää perimmäistä viestiä vaan ainoastaan tunnistaa puhutut sanat [Vuo01]. Automaattiseen puheentunnistukseen (AP) kuuluu viisi vaihetta: puhesignaalin akustinen esikäsittely, puhesignaalin segmentointi äänteiksi, äänteiden tunnistus foneemeiksi, foneemien yhdistelmien tunnistus sanoiksi ja mahdollisesti sanojen yhdistely kieliopillisiksi rakenteiksi kuten lauseiksi. Viimeinen vaihe saatetaan jättää puheen ymmärtämisen tehtäväpiiriin. Puheen ymmärtäminen muodostuu seuraavista tehtävistä: syntaktinen ja kieliopillinen analysointi lauseiden jäsentämiseksi ja tunnistusvirheiden korjaamiseksi, semanttinen tulkinta ja monimerkityksellisten osien selvittäminen, sekä puhutun viestin pragmaattinen tulkinta. Toisin sanoen, sanajonolle on määriteltävä järkevä, tilanteeseen ja asiayhteyteen sopiva, kieliopillinen ja semanttinen tulkinta [Vuo01].

5 4 Äänen koodauksella automaattisessa puheentunnistuksessa tarkoitetaan tässä tutkielmassa äänteiden koodausta foneemeiksi neuroverkkojen, ja tarkemmin Kohosen itsejärjestyvien piirrekarttojen (SOM eli self-organizing map -neuroverkkojen) avulla. Itsejärjestyvä piirrekartta on sellainen neuroverkko, joka pystyy jakamaan syötteet luokkiin ilman ulkopuolista apua (ns. ohjaamattoman opetuksen periaate), siksi nimitys itsejärjestyvä. SOM-verkkoihin johdatetaan luvussa 3. Luvun ymmärtäminen helpottuu, jos neurolaskennan perusteet ovat lukijalle ennestään tutut. Teuvo Kohonen on käyttänyt SOM-verkkoja foneettisessa kirjoituskoneessaan erottamaan suomen kielen foneemeja katkeamattomasta puhevirrasta [Koh88]. Kohosen menetelmä tarkastellaan luvussa 4. Huomio kiinnitetään siihen, miten puhevirrassa esiintyvät äänteet kuvautuvat foneemeiksi. Vaikka sanastolla, esim. homonyymien tunnistuksessa (homonyymit ovat sanoja, joilla on sama kieliasu ja ääntämistapa, mutta eri merkitys), ja myös kieliopilla yleisemmin on tärkeä rooli puheviestissä välitettävän viestin oikein ymmärtämisessä, tässä tutkielmassa tarkastellaan ainoastaan foneemien tunnistusta. Sanojen tunnistus ja muut korkeamman tason tarkastelut jätetään työn ulkopuolelle. Akustiikasta ja signaalikäsittelystä esitetään vain tarvittava peruskäsitteistö.

6 5 2 PUHESIGNAALIN OMINAISUUKSIA 2.1 Akustiikkaa ja signaalikäsittelyä Korva havaitsee äänenä paineenvaihtelut väliaineessa. Äänen korkeutta mittaa värähtelyn taajuus (hertsi Hz = 1/s), äänen voimakkuutta värähtelyn laajuus (amplitudi) tai suhteellinen intensiteetti (desibeli db) ja kestoa aika. Fourier-muunnoksen nojalla mikä tahansa käyrä on ääretön summa sinikäyriä. Äänivärähtelykin on purettavissa summaksi osavärähtelyjä, ääneksiä (ylä-ääniä) [Car01]. Äänesten voimakkuuden eli intensiteetin esitystä ajan funktiona kutsutaan spektrogrammiksi. Sana spektri tarkoittaa värähtelyn taajuusjakaumaa tiettynä ajanhetkenä. taajuudellaan. Näin spektrogrammissa kaikki osavärähtelyt näkyvät selkeästi kukin omalla Kuva 1. Sanan kaksi synkronisoidut taajuustason (spektrogrammi - ylempi kuva) ja aikatason (ääniaalto - alempi kuva) esitykset. [Kar99]

7 6 Kuvassa 1 on kuvattu äänivärähtely, joka syntyy sanaa kaksi lausuttaessa. Äänteet, joista sana kaksi koostuu, ovat pituudeltaan sekuntia. Jokainen äänne koostuu erilaisista osavärähtelyistä, jotka erottuvat paremmin ylemmästä spektrogrammista. Toinen havainto, mikä voidaan tehdä, on se, että osavärähtelyt (äänekset) voimistuvat tietyillä taajuuksilla. Tätä ilmiötä kutsutaan resonanssiksi ja resonanssialuetta formantiksi [Car01]. Formantit näkyvät spektrogrammissa tummina ympäristöstä erotettavina raitoina ja ne numeroidaan alhaalta ylöspäin. Mitä tummempi formantin väri on, sitä voimakkaampi äänisignaali sillä taajuudella on. Puheäänteet erottuvat akustisesti jo muutaman ensimmäisen formantin perusteella. Esim. kuvan 1 spektrogrammin /i/-vokaalia vastaavassa osassa on helposti erotettavissa kolme formanttia. Kuva 2. a) /su/ -tavun ja b) /šu/ -tavun spektrogrammit. [LHM90] Kuvassa 2 englanninkielistä puhujaa pyydettiin ääntämään tavut /su/ ja /šu/, jotka esiintyvät englannin kielen sanoissa soon ja shoe. Kuvasta havaitaan erot äänteiden kestossa ja spektriominaisuuksissa. Esim. /u/- äänteen kolme ylempää formanttia poikkeavat toisistaan kuvissa 2a ja 2b. Äänenkorkeutta kuvaa perustaajuus F0. Karkeasti sanoen ihmisäänen F0 on miehillä 100 Hz, naisilla 200 Hz ja lapsilla 300 Hz. Perustaajuus F0 sijoittaa muut formantit korkeammalle tai matalammalle spektrogrammiin. Perustaajuuden vaihtelevuus puhujasta puhujaan on ihmispuheen perusominaisuuksia. Ihmisen korvan erottelukyky liikkuu hertsiin ja on parhaimmillaan puheäänen alueella ( Hz). Suurin osa

8 7 puheen informaatiosta välittyy jo ensimmäisen 300 hertsin alueella (tätä käytetään hyväksi puhelimessa). [Car01] 2.2 Äänen tuotto Ihmisellä on käytössä monipuolinen puhe-elimistö, joka mahdollistaa kaikkien kielessä käytettyjen äänteiden tuottamisen (kuva 3). Suurin osa puheäänteistä tuotetaan uloshengityksen voimalla. Soinnillisissa äänteissä ilmanpaine saa kurkunpäässä äänihuulet pörisemään. Puheen perustaajuus riippuu äänihuulten koosta ja jännityksestä. [Car01] Ääniväylä (kurkunpää, nielu ja suuontelo) ja nenäväylä (nenäontelo) muokkaavat merkittävästi äänihuulien tuottamaa signaalia ja niiden voidaankin ajatella olevan säätyviä akustisia signaalin suodattimia. Syntyviä ääniä voidaan siis säädellä myös muuttamalla äänikanavan muotoa liikuttelemalla kieltä, hampaita ja huulia (ääntöelimiä). Näiden väylien säätövaikutuksia kutsutaan artikulaatioksi. Kuva 3. Poikkileikkauskuva ihmisen puhe-elimistä. [Kar99]

9 8 Puheentunnistuksen kannalta erotetaan kolme erilaista äänneluokkaa [Koh88]: 1. Soinnilliset (pyörteettömät) äänteet, joihin kuuluvat vokaalit /a/, /o/, /u/, /i/, /e/, /ö/, /ä/, /y/: melko hyvin ihmisen tunnistettavissa spektrogrammeista kahden alimman formantin perusteella [Vuo01]. puolivokaalit /j/, /v/, /w/: tuotettu ääntöelinten lähentymällä [IHH00]. Puolivokaaleissa syntyy resonansseja, mutta ei sanottavasti hälyä [Vuo01]. nasaalit eli nenä-äänteet /m/, /n/, /η/: syntyvät kitapurjeen laskeutuessa alas ja ilmavirran päästessä tällöin ulos nenäväylän kautta suuväylän ollessa samalla suljettuna jostakin kohdasta. Äänteet esiintyvät suomen sanoissa "ramman", "sannan", "rangan" /raηan/ [IHH00]. ja likviidit /l/, /r/: kielen kärki sulkee ääntöväylän keskikohdan hammasvallin kohdalla ilmavirran päästessä ulos laidoilta [IHH00]. 2. Frikatiivit eli hankausäänteet /s/, /š/, /z/ yms. : syntyvät ääntöväylän supistumakohdalla ilmavirran aiheuttamasta hankaushälystä [IHH00]. 3. Eksplosioäänteet /k/, /p/, /t/, /b/, /d/, /g/ yms.: syntyvät, kun täydellisesti sulkeutunut ääniväylä avautuu nopeasti ja ilmavirtauksen paine purkautuu räjähdyksenomaisesti [Vuo01]. Kahden ensimmäisen luokan foneemeilla on melko hyvin spektrogrammeista erottuvat spektrit, sen sijaan eksplosioäänteet ovat tunnistettavissa vain transienttiominaisuuksien perusteella eli ympäröivien äänteiden avulla, joilla on suhteellisen stabiili spektrimuoto. Kuvasta 1 näkyy, että molempien /k/-äänteiden kohdalla spektri on hyvin heikko. 2.3 Ihmisen puheentunnistusmekanismeista Ihmiset eivät kuule foneemeja yms. matalan tason puhe-elementtejä: tämä voidaan todeta kun pyydetään henkilöä kirjoittamaan vieraan kielen äänteet vain puolet äänteistä tunnistetaan oikein [SNP86, s. 24]. Sen sijaan ihminen vertailee aivoihin saapuvaa ärsykettä muistissa oleviin ääntämis- ja muihin tietoihin,

10 9 asiayhteyksiin. Tämä vertailu tapahtuu aivojen monella tasolla rinnakkain, ja ihminen rakentaa ärsykkeen merkityksen käyttäen ärsykkeessä saapuneita tietopalasia. Tätä lähestymistapaa on yritetty soveltaa myös automaattisessa puheentunnistuksessa, esim. sanelukoneissa, jotka tunnistavat tietyn rajoitetun sanaston sanoja, kun niitä lausutaan ääneen mikrofoniin pitäen lyhyet tauot sanojen välissä [Koh88]. Nopeus, jolla foneemit ovat tunnistettavissa jatkuvasta puheesta, on paljon korkeampi kuin korvan kyky tunnistaa kuulijalle erikseen lausuttuja äänipätkiä, jotka ovat yksi yhteen suhteessa foneemeihin (äänipätkät eivät välttämättä muodosta kielen sanoja, vaan ovat mielivaltaisia äänneyhdistelmiä) [SNP86]. Ihminen käyttää tuntemaansa kielen semantiikkaa ja syntaksia, eli foneemeja korkeamman abstraktitason asioita hyväksi tunnistuksessa, ja myös visuaalisella tiedolla on merkitystä, jopa vauvoille [LHM90]. Kuitenkin nykyään tietokoneilta puuttuu maailmankäsitys ja sen tarjoama korkeiden abstraktioiden täydellinen hyväksikäyttö puheentunnistuksessa, vaikka jonkinasteiset semanttisen käsittelyn mahdollisuudet ovat jo olemassa (näissä menetelmissä käytetään myös SOM-verkkoja), ks. [Hon97]. 2.4 Koartikulaatio, segmentoinnin vaikeus ja invarianttius Koartikulaatio on puhetta helpottava ilmiö, jossa samankaltaistumista tapahtuu etenkin peräkkäin esiintyvien äänteiden kesken [IHH00]. Tämä tarkoittaa sitä, että sanassa susi ensimmäisen /s/-äänteen spektrogrammi eroaa toisesta /s/-spektrogrammista sen vuoksi, että ääntöelimet valmistautuvat ääntämään seuraavaa äännettä jo edellistä (/s/-äänettä) ääntäessään. Koartikulaatio on erittäin näkyvä konsonanteissa /b/, /d/, /g/, /p/, /t/ ja /k/ [LHM90, s.7], mikä vastaa Kohosen käsitystä eksplosioäänteiden invarianttien spektriominaisuuksien puuttumisesta [Koh88]. Tietoa foneemista välittyy puheessa siis jossain määrin rinnakkain. Mikä tahansa ääniaallon pätkä sisältää tietoa useasta foneemista, mikä tekee sen segmentoinnin vaikeaksi. Koska akustiset segmentit eivät ole yksi - yhteen lineaarisessa kuvaussuhteessa, tapahtuu ihmisessä monimutkainen uudelleenjärjestämisprosessi puheen tuottovaiheessa ja samoin monimutkainen koodin purkamisprosessi puheen tunnistusvaiheessa [SNP86]. Ääniaallon ominaisuudet, foneemit ja tavut ovat olleet ehdokkaina tunnistusyksiköiksi, mutta yksikön valinta ei poista segmentointi- ja invarianssiongelmaa. Ongelmana ei ole yksikön valinta, vaan sen valinnan vaikutus tunnistusprosessiin [SNP86].

11 10 Koartikulaation olemassaolo ja muut puheen muuttuvat ominaisuudet johtavat tähän johtopäätökseen: ei ole olemassa erillistä invarianttia (muuttumatonta) puhesignaalin ominaispiirrettä, joka vastaisi yksikäsitteisesti annettua kielen foneemia [LHM90, s.73]. Formanteilla ei esim. ole vakioisia taajuuksia, vaan ne riippuvat puheen perustaajuudesta F0 ja ympäröivistä äänteistä. Äänteiden kesto ei ole vakio vaan riippuu puhujan puhumisnopeudesta. Variaatioita syntyy myös painotus- ja murre-eroista, puhujan äänen voimakkuudesta, henkilöllisyydestä, sukupuolesta ja tunnetilasta riippuen. Invarianssit ovat luonteeltaan suhteellisia ja invarianttius on havaittavissa puheessa vain suhteellisina arvoina eli keskinäisten riippuvuuksien vakioarvoina [LHM90, s.10]. 2.5 Äänne ja foneemi Äänne (fooni, engl. phone) on pienin mahdollinen laadullinen puhesegmentti, joka kuulon avulla voidaan erottaa muista segmenteistä. Foneemi (engl. phoneme) on äänteen abstraktio, jolla on erotettavat piirteet muiden foneemien nähden [IHH00]. Variaatioista johtuen tietty kielen foneemi saa eri puhujilla eri akustisen ulkoasun eli äänteen. Toisin sanoen, jokainen ihminen ääntää esimerkiksi /k/-foneemin omalla tavallaan. Näin syntyy foneemien variantteja eli allofooneja (engl. allophone). Puhujaerojen lisäksi koartikulaatio aikaansaa allofooneja, esim. suomen /k/-äänteet sanoissa kili, kala, kylä, kolo, kuli, keli, köli, käly [IHH00]. Näin olleen foneemi on allofoonien muodostama joukko [Vai01]. Foneemi-äänne suhde on verrattavissa luokka-olio suhteeseen: samoin kuin olio on luokan esiintymä, äänne on foneemin toteutus. Ihmiskielessä on kaiken kaikkiaan foneemia. Foneemeja käytetään suoraan tarkekirjoituksessa (transkriptiossa). Tarkekirjoitus on ääntämisohje, jonka useimmiten näkee sanakirjoissa. Suomen kieli on ns. foneemipohjainen kieli [Ful95], jossa foneemin ja sanan kirjaimen (aakkosen) suhde on lähes yksikäsitteinen. 2.6 Redundanssi Puheentunnistus on ihmiselle helppoa, koska puheessa on olemassa paljon redundanssia (liiallisuutta), jota ihminen osaa käyttää hyväksi. Äänteiden ja etenkin isompien syntaksiyksiköiden loppumisesta kertoo yleensä joukko vihjeitä (cues), jotka ovat ääniaallossa havaittavia äänteet toisistaan erottavia muutoksia. Vihjeitä esiintyy spektrissä ja ajassa, esim. äänteen kestossa. Painotetun tavun äänteiden kesto on pidempi painottomien tavujen kestoon nähden. Kuulija käyttää hyväksi myös puheen prosodisia ominaisuuksia -

12 11 intonaatiota, rytmiä, taukoja jotka kertovat puhujan tunnetilasta [SNP86]. Intonaation muutoksia voi havaita spektrogrammista perustaajuuden F0 avulla. Perustaajuus laskee jokaisen ison syntaksiyksikön lopussa ja nousee sen alussa. Redundanssi auttaa ymmärtämistä tilanteissa, jossa puheeseen on sotkeutunut paljon melua, tai puhesignaali on rajoitettu ja vääristynyt (kuten puhelimessa). Silloin yhden vihjeen kadotessa toinen ääniaallosta löytyvä vihje muuttuu dominoivaksi. 2.7 Ominaisuuksien tuntemisesta puheen tunnistukseen Puhesignaali esitetään puheentunnistusjärjestelmissä yleensä aikasarjana, jossa eri ajanjaksoja, aikaikkunoita, kuvataan piirrevektoreiden avulla. Piirteet pyritään valitsemaan siten, että niiden avulla pystytään tunnistamaan hyvin erilaiset foneemit ja huomioimaan niiden ajalliset riippuvuussuhteet. Esitystavan tulisi lisäksi olla invariantti erilaisten puheen variaatioiden suhteen, joilla ei ole oleellista merkitystä tunnistuksen kannalta [Vuo01]. Spektrogrammien lukututkimusten tulokset osoittavat, että on mahdollista oppia äänteiden visuaalisista korrelaatioista niin paljon, että spektrogrammeja lukemalla voi tunnistaa tuntemattomia lauselmia hyvällä tarkkuudella. Spektrogrammien lukemisen asiantuntija Victor Zue pystyy tunnistamaan oikein 90 % foneemeja annetuista spektrogrammeista [SNP86, s.26]. Näin olleen puheen spektriominaisuudet ja niiden ajalliset muutokset toimivat hyvänä tietolähteenä piirrevektoreiden muodostamiselle. Toisin sanoen, piirrevektorit voidaan muodostaa spektrogrammeista.

13 12 3 ITSEJÄRJESTYVÄT PIIRREKARTAT 3.1 Osa neurolaskentaa Neurolaskenta on vaihtoehtoinen tapa ratkaista tietojenkäsittelytieteen ongelmat. Neurolaskennassa tehtävänä on algoritmin keksimisen sijasta sellaisen neuroverkkotyypin löytäminen, joka olisi sopiva ongelmaa kuvaavien tietojen analysointiin. Tällainen tietokeskeinen lähestymistapa mahdollistaa sellaisten ongelmien käsittelyn, joihin ei tunneta algoritmeja tai sääntöjä, ja joihin näiden kehittäminen olisi erittäin työlästä. Tällaisia tehtäviä ovat esimerkiksi erilaiset hahmontunnistukseen liittyvät ongelmat (havaintojen luokittelu ja tunnistus), kuten kuvana tallennetun tekstin tai käsialan tunnistus, (käytös)mallien ja reaalimaailman prosessien mallintaminen ja ennakointi (sääennusteet), aivojen toiminnan (muistin) mallintaminen, tiedon pakkaaminen, päätöksenteko (diagnoosien tekeminen, laadunvalvonta). Eri tehtäville on olemassa eri neuroverkkotyypit, ja lähes kaikki ottavat mallia aivojen toiminnasta. Yksinkertaistettuna aivot koostuvat neuroneista, joista jokainen vastaanottaa tietoa sähköisenä signaalina aistinelimeltä tai toisilta neuroneilta. Se lähettää muunnetun signaalin eteenpäin niille neuroneille, jotka ovat yhteydessä tämän neuronin vievään haarakkeeseen. Tietojenkäsittely tapahtuu eri neuroneissa rinnakkain. Yhteydet neuronien välillä voivat vahvistua tai heikentyä, ja juuri näihin yhteyksiin varastoidaan vastaanotettu ja käsitelty tieto. Neuronit yhteyksineen muodostavat neuroverkon ja neurolaskennassa tarkastellaan erilaisia yhdistelmätyyppejä (neuroverkkotyyppejä), niiden käyttöön liittyvää problematiikkaa ja sovellettavia ongelmia. 3.2 Yleinen kuvaus Helsingin teknillisen korkeakoulun professori Teuvo Kohonen 1980-luvun alkupuolella kehitti itsejärjestyvä piirrekartta eli self-organizing map (SOM) -nimellä tunnetun neuroverkkomallin, joka mahdollistaa epälineaaristen kuvausten luomisen syöte- ja tulostedatan välille. SOM-verkkoa voi pitää ihmisaivojen toiminnan keinotekoisena mallina. SOM-verkko seuraa joitakin perusteellisimpia aivojen toimintaperiaatteita, esim. se kykenee luomaan järjestettyjä piirrekarttoja, joita on kokeellisesti löydetty aivokuoresta [Hon97]. SOM-verkkoa voi myös pitää ohjaamattoman koneoppimisen mallina ja adoptoivana tiedonesityskaaviona [Hon97]. Adoptoiva tarkoittaa kykyä muokkautua verkkoon saapuvan uuden syötetiedon mukaan. Tiedonesityskaavio tarkoittaa samankaltaisten syötteiden ryhmittelyä yhteen järjestämällä neuronien painokertoimet itsenäisesti uudestaan kuvaamaan syötteiden lainalaisuudet.

14 13 SOM-verkko koostuu neuroneista (laskenta-alkioista), jotka on topologisesti järjestetty neliöksi tai suorakulmioksi (kuva 4). Verkon neuronit muodostavat siis yhden ja ainoan neuronikerroksen. Verkko vastaanottaa n-ulotteiset syötevektorit yksi kerrallaan. Sen perusteella, onko verkko oppimis- vai käyttövaiheessa, se joko muokkaa omaa tilaansa juuri syötetyn vektorin huomioon ottamiseksi tai luokittelee syötevektorin johonkin luokkaan kuuluvaksi. Kuva 4. SOM-verkon kaavamainen esitys. Syötevektori kuvaa yhtä tutkimusdatan yksikköä, joka on yleensä luokiteltava tosimaailman kohde. Yksikkönä voi esim. olla yhden potilaan tiedot, jolloin tutkimuksen kohteena on joukko potilaita, jotka halutaan ryhmitellä oireiden perustella eri luokkiin ja tällä tavalla edesauttaa diagnoosin tekemistä. Äänteiden tunnistuksessa esim. etuvokaalit muodostavat yhden ryhmän (ks. kuva 15). Jokainen vektorin ulottuvuus on jokin yksikön ominaisuus tai piirre, esim. potilaan kehon lämpötila. Näin syötevektoria voidaan kutsua myös piirrevektoriksi. Vektorin anto opetusvaiheessa on voittajaneuronin koordinaatit (x,y). Verkko kilpailuttaa neuroninsa syötevektoria vastaan ja etsii tälle parhaiten vastaavan neuronin. Vastaavuus tai yhtäläisyys syötevektorin ja neuronin sekä kahden neuronin välillä määritellään euklidisen etäisyyden avulla. Lisää kilpailutilanteesta ja etäisyyden laskemisesta luvuissa 3.3 ja 3.5. SOM-verkkojen etu on niiden kyky analysoida moniulotteista dataa ja ryhmitellä tutkimusdatan yksiköt luokkiin niin, että erot ja yhtäläisyydet ovat visuaalisesti tarkasteltavissa kaksiulotteisessa tasossa. Tällaista analyysia tarvitaan siksi, että moniulotteinen keskinäisten riippuvuuksien suora tarkastelu on ihmiselle hankala ja työläs tehtävä. Jatkaen potilasesimerkkiä, SOM-verkko pystyy löytämään ryhmän sellaisia potilaita, joilla on epäilty tauti, ja sellaisia potilaita, joiden oireet liittyvät muihin kuin kiinnostuksen kohteena olevaan tautiin. Potilastietoa on helpompi tarkastella piirrekartan avulla kuin 15 parametrin potilastietotaulukkona.

15 14 Huomattakoon, että piirrekartta säilyttää verrannolliset ryhmien koot, ts. jos 1/3 osalla potilaita on epäilty tauti, niin piirrekartan keskittymä, joka kuvaa kyseisiä potilaita, koostuu myös 1/3 osasta kaikkia piirrekartan neuroneja. Foneettisen piirrekartan tapauksessa laskemalla vokaaleille reagoivien neuronien määrä voi päätellä vokaalien osuuden syötetyissä sanoissa ja jopa koko kielessä (otannan ollessa tarpeeksi laaja ja jakauman tasainen). 3.3 Rakenne ja toimintaperiaate a) b) Kuva 5. SOM-verkon a) i:s neuroni ja b) ja neuronikerros katsottuna sivulta. [Koh88] SOM-verkon jokainen neuroni on kuvassa 5a esitettyä muotoa. Neuronit vastaanottavat n-ulotteisen syötteen [ ξ.. ] T x = 1 ξ n, jonka ne näkevät kaikki yhtä aikaa. Neuroni muuttaa tilaansa muokkaamalla painokerroinvektoriaan [ ] T m = µ 1.. µ n. Huomattakoon, että syötevektorin ja painokerroinvektorin ulottuvuuksien määrä on sama. Näin syötevektori ja kukin SOM-verkon neuroni voidaan kuvata pisteeksi n- ulotteisessa euklidisessa avaruudessa. Mitä lähempänä pisteet ovat toisiaan, sitä yhtäläisempiä kohteita niitä vastaavat neuronit/syötevektorit kuvaavat. Euklidinen etäisyys i:nnen ja k:nnen neuronin välille lasketaan kaavan n j= 1 T [( m m ) ( m m )] 2 d ( i, k) = ( µ i1 µ kn) = i k i k, (1) mukaisesti [Räs96], jossam on verkon i:s neuroni, joka koostuu painokertoimista µ.. i m = µ.. µ on verkon k:s neuroni. Vastaavasti [ ] T k k1 kn 1, ts. m [ µ.. µ ] T i µ i n i =. i1 in Jokaiselle syötevektorille SOM-verkko etsii neuroneista voittajan, joka on euklidisessa avaruudessa lähinnä syötevektoria oleva neuroni. Voittajan etsimistä kutsutaan kilpailutilanteeksi neuronien välillä. Voittajaneuroni lasketaan kaavasta

16 15 jossa x on syötevektori, joko 1 (voittajaneuronilla), tai 0. d x, m ) = min{ d( x, m )}, (2) ( c i mc on etsitty voittajaneuroni ja m i on SOM-verkon i:s neuroni. Neuronin anto η on Neuronien välillä on yhteyksiä, ns. takaisinsyöttölinjoja, joiden avulla voittaneen neuronin naapureilla on mahdollisuus päivittyä lähemmäs voittajaneuronia. Kuvassa 5b näkyy takaisinsyöttölinja i:nnen ja k:nnen neuronin välillä w ki. Sädettä, jolla on olemassa yhteydet neuronista ympäröiviin neuroneihin, kutsutaan neuronin naapurustoksi. Yleensä naapurusto pienentyy suurimmasta mahdollisesta arvosta nollaan. Kuvassa 6 naapuruston koko on Alustaminen Kuva 6. Neuronin naapurusto. Musta v oittajaneuroni on kuvattu mustalla ja sen naapurusto harmaalla värillä. SOM-verkon neuronien alustamiseen on olemassa kaksi menetelmää. Neuronien painokerroinvektorit alustetaan pienillä satunnaisarvoilla siten, että vektorialkiot ovat lähellä n-ulotteisen avaruuden 0-pistettä. Vaihtoehtoisesti alkuarvoiksi asetetaan syötevektorijoukosta satunnaisesti poimittuja vektoreita [Räs96]. Opetusvaiheessa verkon neuronit alkavat vähitellen kattaa koko syötevektorijoukon käyttämää n-ulotteista avaruutta (kuva 7). a) b) c) d) Kuva 7. Verkon alustus ja opetuksen aloitus. a) Satunnaisvektorit ovat keskittyneet 0-pisteen lähelle; b) Muutaman syöttökerroksen jälkeen neuronit etääntyvät keskustasta (tai alustettu satunnaisotannalla); c) ja d) neuronit muodostavat tasaisen verkon syötevektoriavaruuden yli.

17 Opettaminen Opetusvaiheessa SOM-verkon neuronit ryhmittyvät keskittymiin. Verkko oppii syöteavaruuden lainalaisuudet täysin itsenäisesti, mikä on ohjaamattoman oppimisen pääpiirre. Verkolle ei siis anneta jokaisen syötteen yhteydessä haettua vastausta (syötteen luokkaa), mikä olisi ohjattua oppimista. Päinvastoin, verkko löytää luokat itse, ja käyttäjän tehtäväksi jää luokkien nimeäminen. Opetuksessa jokaiselle syötevektorille etsitään voittajaneuroni (luvut ). Voittajaneuroni sijaitsee lähempänä syötevektoria kuin mikään muu verkon neuroni, ja sellainen neuroni löytyy aina, myös heti alustuksen jälkeen, kun kaikki neuronit ovat isossa kasassa lähellä nollapistettä. Kun voittajaneuroni on laskettu (kaavat (1)-(2)), käynnistyy sen painokerroinvektorin [ ] T x ξ..ξ 1 2 syötevektoria [ ] T m = µ 1.. µ n päivitys lähemmäksi =. Myös naapuruston neuronit päivitetään lähemmäksi syötevektoria. Tätä painokertoimen adaptiivista muokkausta sanotaan neuroverkon oppimiseksi ja kaavaa m ( t + 1) = m ( t) + α( t) i m ( t + 1) = m ( t), i i i [ x( t) m ( t) ], i jos jos i N ( t); i N ( t); c c (3) Kohosen opetussäännöksi [Räs96]. Tässä kaavassa t ja t+1 ovat peräkkäisiä ajanhetkiä (kaikki kaavan suureet ovat riippuvaisia ajasta), mi on verkon i:nnen neuronin painokerroinvektori,x on syötevektori, Nc on voittajaneuronin naapurusto, ja α on opetuskerroinsarja. Sekä naapurusto että opetuskerroin pienenevät opetuksen edistyessä. Opetus voidaan jakaa kahteen vaiheeseen: karkea ja tarkentava. Karkeassa opettamisessa käytetään suhteellisen vähän opetuskertoja, mutta naapurusto ja opetuskerroin asetetaan suuriksi, jotta muutokset neuronien tiloihin ovat myös suuria. Ensimmäisen vaiheen tarkoituksena on saada karkea klusterointi aikaan. Tarkentavassa opettamisessa opetuskertoja lisätään huomattavasti, mutta samalla opetuskerrointa ja naapuruston suuruutta pienennetään. Tämän vaiheen tavoite on saavuttaa ja selvittää selkeät keskittymien keskipisteinä toimivat neuronit. Teuvo Kohosen mukaan opetussyötteitä tulisi tässä vaiheessa käyttää vähintään 500 kertaa verkon neuronien lukumäärää [Räs96]. Syötevektoreiden syöttöjärjestyksellä ei Kohosen menetelmässä ole merkitystä, sillä neuroverkon rakenne tekee syöttöjärjestyksen vahingossa oppimisen mahdottomaksi.

18 Klusterointi ja vektorikvanttisointi Syötedatan saapuessa verkkoon tietyt neuronit alkavat herkistyä tietyntyyppiselle syötölle. Samanlaisiin syöttöihin reagoivat neuronit alkavat siis ryhmittyä keskittymiin. Keskittymien rajoille syntyy ominaisuuskuiluja ja vierekkäisen keskittymän neuronit kuvaavat jo toisia ominaisuuksia omaavan syötedataosioon. Keskittymien rajat löydetään Voronoi-jaotuksen avulla (kuva 8): jokaisella keskittymällä on olemassa viitevektori, joka on läheisin naapuri saman keskittymän jokaiselle vektorille [Koh88, s.14]. Tällä tavalla tehty vektoriavaruuden ositus (vektorikvanttisointi) läheisesti vastaa Bayesin päätöstasojen muodostusta, joita käytetään virhetodennäköisyyden (engl. probability for misclassification) minimointiin. Kuva 8. Vektoriavaruuden Voronoi-jaotus. Vektoriavaruus jaettiin kahteen luokkaan: ensimmäisen luokan vektorit on merkitty umpinaisilla ja toisen luokan vektorit avonaisilla ympyröillä. 3.7 Käytettävyyden arvioiminen ja käyttö Molemmat edellä kuvatut alustusmenetelmät tuottavat ainutlaatuisia verkkoyksilöitä. Opetuksen onnistuessa verkkoon muodostuu useampi selkeä osumakeskittymä, mutta huonossa tapauksessa verkkoon voi muodostua vain yksi iso keskittymä, ja kaikki syötevektorit kuvautuvat muutamiin lähekkäin sijaitseviin neuroneihin. Tällaisen virheellisen käytöksen aiheuttaa verkon ylioppiminen, kun liiasta opetuskierrosmäärästä johtuen verkko menettää yleistämiskykyä. Toisaalta keskittymät saattavat puuttua kokonaan, jolloin syötevektorit kuvautuvat tasaisesti koko verkon alueelle. Tästä johtuen todellisessa käyttötilanteessa on hyvä alustaa useampi verkko, opettaa ne ja testauksen jälkeen valita tehtävään soveliain yksilö. [Räs96] Oppimisvaiheen jälkeen verkosta on muodostunut järjestetty piirrekartta. Neuronien tila eli vektoriarvot kiinnitetään ja keskittymät selvitetään viitesyötevektoreiden avulla, ellei sitä ole tehty opetusvaiheessa: annetaan syöte, jonka tyyppi/luokka jo tunnetaan, esim. /a/-äänne. Antona oleva piirrekartan neuroni tunnistaa viitesyötteen tyyppiä olevat syötteet, tässä tapauksessa /a/-äänteet /a/-foneemeiksi.

19 18 Vektorin hyvyyden arvioimiseksi käytetään tunnuslukua nimeltä keskimääräinen kvanttisointivirhe. Tunnusluku on kunkin syötevektorin ja sen tunnistavan voittajaneuronin välisten etäisyyksien keskiarvo. Mitä pienempi virhe, sitä tarkemmin piirrekartta vastaa sille annettuihin syötteisiin, eli klusteroi saamansa syötevektorin paremmin. [Räs96] Opetettu SOM-verkko on valmis luokittelemaan ei pelkästään syötteenä ollutta dataa vaan mitä tahansa saman ongelman tutkimusdataa. Neuroverkko oppii siis yleistämään asiat. Näin esimerkiksi neuroverkkoa, joka on tietyn sairaalaan potilastietojen avulla opetettu tunnistamaan umpilisäkkeen tulehdusta, voidaan samassa sairaalassa käyttää jatkossa tekemään diagnoosia uusille potilaille, kunhan kerättävien tietojen tyypit ja mittaustekniikat pysyvät samoina. Ääntä koodatessaan foneettinen piirrekartta pystyy tuottamaan tarkekirjoitukset myös niille sanoille, jotka eivät kuuluneet syötedataan. Neuroverkko pystyy siis toimimaan rajoittamattomalla sanastolla.

20 19 4 FONEETTINEN ÄÄNENKOODAUS 4.1 Uusi puheentunnistusmenetelmä Teuvo Kohonen julkaisi vuonna 1988 Computer-lehdessä The Neural Phonetic Typewriter nimisen artikkelin [Koh88], jossa hän kuvasi puhujan puheeseen mukautuvan automaattisen sanelujärjestelmän. Se perustui SOM-verkkoihin ja pystyi toimimaan rajoittamattomalla sanastolla. Kohosen SOM-verkon käyttöön pohjautuva menetelmä osoittautui 1990-luvulla uudeksi tehokkaaksi lähestymistavaksi AP:n ongelmaan, kun siihen ja muihin tekoälyongelmiin alettiin osoittaa yhä enemmän kiinnostusta. Yleisin AP:ssa käytetty neuroverkkotyyppi 1980-luvulta aina tähän päivään saakka ovat olleet piilomarkovmallit, jotka ovat puhesignaalin kaltaisten aikasarjojen mallintamiseen sovellettuja äärellisiä tilakoneita. Piilomarkovmalleissa foneemien luokittelu suoritetaan niiden esiintymistodennäköisyyksien perusteella. Kun Kohosen opetuksessa syöteaineisto klusteroidaan järjestetyksi piirrekartaksi (luku 3), piilomarkovmalleissa opetusvaihe vastaa mm. esiintymis- todennäköisyyksien laskennasta [Kon00]. Hyvän tunnistustarkkuusasteen aikaansaamiseksi tilastolliset luokittelumenetelmät vaativat huomattavasti isomman joukon viitevektoreita (esim. /a/-äänteiden spektriesimerkkejä) kuin SOM-verkot [Koh88, s.14]. Siksi SOM-verkot sopivat tehokkuussyistä paremmin äänteiden luokitteluun (foneemeiksi koodaukseen) kuin piilomarkovmallit.

Näytä lisää