OT2 Puheteknologian opintokokonaisuuden suunnittelu 14.4.2009 Kalle Palomäki 1. Johdanto Puheteknologia on perinteisesti jaettu kolmeen tai neljään osa-alueeseen: puheen siirto, puhesynteesi, puheanalyysi sekä automaattinen puheen tunnistus. Erityisen lähellä puheteknologiaa olevia tieteen ja teknologian alueita ovat kieli- ja audioteknologia sekä akustiikka. Lisäksi aihetta lähellä on signaalinkäsittely ja informaatiotekniikka. Tarvittavia informaatiotekniikan osa-alueita ovat erityisesti hahmontunnistus ja koneoppiminen. Signaalinkäsittely- ja informaatiotekniikka yhdessä muodostavat puheteknologian parissa työskentelevän asiantuntijan metodisen työkalupakin. Puheteknologiaa ja siihen liittyviä laskennallisia menetelmiä opetetaan tällä hetkellä erityisesti kahdessa eri TKK:n yksikössä Signaalinkäsittelytekniikan ja akustiikan laitoksella (SKTAL) sekä Tietojenkäsittelytieteen laitoksella (TKTL). Kolmas alalla toimiva yksikkö on Lääketieteellisen tekniikan ja laskennallisen tieteen laitos, mutta sen toiminta on painottunut perustutkimukseen alueilla, jotka eivät liity tähän harjoitustyöhön. Oppimistehtävä aloitettiin kartoittamalla kahden laitoksen (SKTAL ja TKTL) opetus liittyen aihepiiriin. Varsinaisesti puheteknologian opetus on keskittynyt SKTAL:lle, jossa on alalla kaksi professuuria. Laitoksen opetus on kuitenkin painottunut puheanalyysin ja puhesynteesin suuntaan. Viimeaikoina yhä tärkeämmäksi muodostunutta puheentunnistusta laitoksella opetetaan säännöllisesti vain muutaman luennon verran, joskin viimeaikoina laitos on järjestänyt aiheeseen liittyviä seminaareja. Syynä puheentunnistuksen vähäiseen painotukseen SKTAL:lla on pääasiassa laitoksen perinteisesti puheanalyysiin ja synteesiin painottunut tutkimusperinne. Sen sijaan TKTL:lla on vuosikausia harjoitettu aktiivista ja menestyksekästä puheentunnistuksen tutkimusta, joskin alan opetus on viime vuoteen asti ollut epäsäännöllisten seminaarien varassa. Kuitenkin vuonna 2008 dos. Kurimo aloitti puheen tunnistusta käsittelevän kurssin, jota keväällä jatkettiin melusietoisen puheentunnistuksen seminaarilla. Puheteknologiaan liittyviä läheisesti liittyviä metodisia opintoja eli signaalinkäsittelytekniikkaa ja informaatiotekniikkaa opetetaan myös SKTAL:n ja TKTL:n toimesta. 2. Puheteknologiaan liittyvät opinnot TKK:lla Tässä kappaleessa käsitellään TKK:n olemassa olevia puheteknologian opintoja. Perinteisesti puheteknologian opetus on keskittynyt SKTAL:lle. Viimeaikoina yhä tärkeämmäksi puheteknologian osa-alueeksi on muodostunut puheentunnistus. Koska puheentunnistuksessa on tärkeä osata informaatiotekniikan menetelmiä, onkin viime vuosina Tietojenkäsittelytieteen laitoksella vahvistunut puheentunnistus ja kieliteknologian tutkimus joka on johtanut myös opetus panoksen lisääntymiseen. Alla olevassa listassa käsitellään laitosten opetusta eriteltynä laitoksen ja opintojen tyypin mukaan. Listassa olevat kurssit on poimittu laitosten internetsivuilta ja Noppaportaalista. Huomioitavaa on, että missään ei valmiiksi määritetä että juuri nämä opinnot olisivat tarpeellisia puheteknologian asian tuntijalle, vaan puheteknologia-alalle suuntaava opiskelija joutuu itse koostamaan opintonsa. Varsinaiset puheteknologian opinnot Signaalin käsittelytekniikka ja akustiikka S-89.3610 Puheenkäsittely 5 op S-89.3630 Puheensiirtotekniikka 3 op S-89.3640 Puheenkäsittelytekniikan metodit 3 op S-89.3650 Puheenkäsittelytekniikan matematiikka 5 op
S-89.3680 Puheenkäsittelytekniikan seminaari 3 op S-89.3690 Puheenkäsittelytekniikan erikoistyö 1-10 ov S-89.4830 Puheenkäsittelytekniikan jatko-opintokurssi 8 op Tietojenkäsittelytiede T-61.5150 Speech Recognition 5 op Puheteknologiaan liittyvät muut opinnot Tietojenkäsittelytiede T-61.3010 Digitaalinen signaalinkäsittely ja suodatus 6 op T-61.3020 Hahmontunnistuksen perusteet 4 op T-61.5020 Luonnollisen kielen tilastollinen käsittely 5 op T-61.3050 Machine Learning: Basic Principles 5 op T-61.5140 Machine Learning: Advanced Probabilistic Methods 5 op Signaalinkäsittelytekniikka ja akustiikka S-89.2300 Ääniteknologian perusteet 5 op S-89.3320 Kommunikaatioakustiikka 5 op S-89.3540 Audio Signal Processing 5 op Muualla S-72.1110 Signaalit ja järjestelmät (5 op) S-88.3106 Digitaaliset signaalinkäsittelyjärjestelmät (5 cr) 3. Uusi puheteknologian opintokokonaisuus Tässä luvussa määritellään uusi ehdotus puheteknologian opintokokonaisuudeksi. Periaatteena on tuottaa opintokokonaisuus, jonka perustella saavutetaan puheteknologian parissa työskentelevän työtehtäviin tarvittava asiantuntijuus. Mallia tämän asiantuntijuuden saavuttamiseen otetaan vanhoista kurssisisällöistä, omassa työssä tarvittavasta asiantuntijuudesta ja tätä ennen suoritetusta OT1 määritetystä asiantuntijuudessa. Kuitenkin on huomioitava, että OT1 käsitteli alalla työskentelevän asiantuntijuutta laajemmin, mukaan lukien yleisiä valmiuksia, kuten johtamis- ja esiintymistaito. Tässä työssä sen sijaan keskitytään enemmän yksityiskohtaiseen substanssiosaamisen määrittämiseen. OT1:n perustella erityisesti aloittelevalle diplomi-insinöörille ja tutkimuksen parissa työskentelevälle asiantuntijalle substanssiosaaminen on edelleen kaikkein tärkein osa-alue. Tässä opintokokonaisuuden suunnitelmassa on tehtävä rajattu kattamaan puheteknologia-asiantuntijan substanssiosaaminen siten, että yleisiä insinöörin pohjatiedoksi ajateltavia valmiuksia ja taitoja ei tässä huomioida erikseen. Oletetaan esimerkiksi, että ennen opintokokonaisuutta opiskelijalla on tarvittavat matematiikan perustaidot, opiskelija osaa valmiiksi lukea ja kirjoittaa. Sen sijaan opintokokonaisuudessa määritetään varsinaisen puheteknologian ulkopuolella olevat tärkeimmät puheteknologin työkalupakkiin kuuluvat perusteoria- ja menetelmäopinnot. Teoreettisista opinnoista näitä ovat signaalinkäsittely ja informaatiotekniikan perusteet sekä varsinaisia käytännön työkaluja koskien ohjelmointitaidot. Molemmat näistä korostuivat OT1:n haastattelu ja työpaikkailmoitusten analysoinnissa. Seuraavaksi määritellään opintokokonaisuuden kolme eri osaa, 1) puhe- ja kieliteknologia, 2) puheteknologian tarvittavat metodiopinnot 3) ohjelmointi puheteknologiassa. Todetaan, että periaatteessa ideaalisessa maailmassa tätä kolmijakoa ei välttämättä tarvittaisi, vaan metodi- ja ohjelmointiopinnot voisi sisällyttää suoraan puheteknologian opetukseen. Kuitenkin ottaen huomioon yliopiston rajalliset resurssit on tarpeen eriyttää kohdat 2 ja 3 varsinaisesta puheteknologiasta, koska samat taidot ovat yleisemmin tarpeellisia monen muunkin tyyppisiin asiantuntijuuksiin tähtääville opinnoille.
3.1. Puhe- ja kieliteknologia Sisältää varsinaiset puheteknologian syventävät asiantuntijaopinnot. Pakollinen Johdatus puheteknologiaan (3 op) Oppia perusteet ja tutustua puheteknologian eri osa-alueisiin kuten puhesynteesi, puheentunnistus ja -siirto pintapuolisesti Oppia perustiedot puheen tuotosta ja havaitsemisesta Aktivoivat luennot, ryhmätyöt, pienet harjoitustyöt ja vierailuluennot esim. teollisuudesta Arviointi harjoitus ja ryhmätöiden, perusteella, essee tai essee muotoinen kirjatentti Valinnaiset perus opinnot (valittava yht 10 op) Huomioksi, että kurssit ovat valinnaisia ja rakenteeltaan saman tyyppisiä. Periaatteena on, että käytännön harjoitustyöt niiden tuotokset vastaavat parhaiten työelämää. Puhesynteesi (5 op) Perehtyä syvällisemmin puhesynteesiin, kuten esim. piilo-markov pohjainen-synteesi Oppia ääniväylän ja herätteen mallintaminen Kerrataan puheen tuoton perusasiat Menetelmät / arvostelu: Harjoituksina puhesynteesin tai sen osien ohjelmointia ja testausta Menetelmiä vertaavat ryhmätyöt tai PBL: toimitetaan asakkaalle puhesyntetisaattori Puheensiirtotekniikka (5 op) Oppmistavoitteet: Perehtyä syvällisemmin puheensiirtotekniikkaan Oppia puhe- ja audiokoodauksen perusmenetelmät Oppia puhe ja audiokoodauksen yleisimmät standardit mm. matkapuhelimissa ja digitaalisessa mediassa Harjoituksena puhekoodaus menetelmän ohjelmointi ja testaus Menetelmiä vertaavat ryhmätyöt tai PBL: toimitetaan asiakkaalle puhekoodekki Puheentunnistus (5 op) Perehtyä syvällisemmin puheentunnistukseen Oppia syvällisesti puheentunnistuksen perusmenetelmät kuten piilo-markov-mallit Oppia perusasiat laajan sanaston tunnistuksen menetelmistä ja kielimalleista Oppia perusasiat melusietoisen puheentunnistuksen menetelmistä
Harjoituksena ohjelmoidaan perusmuotoinen suppean sanaston puheentunnistin Perusteoria aktivoivilla luennoilla Menetelmiä vertaavat ryhmätyöt tai PBL: toimitetaan asiakkaalle puheen tunnistin Tuotokset arvostellaan Valinnaiset syventävät opinnot (valittava yht. ~ 10 op) Melusietoinen puheentunnistus (esitietona puheen tunnistus) (5 op) Perehtyä syvällisemmin melusietoisen puheentunnistuksen lähestymistapoihin ja erityisongelmiin Oppia mallin kompensointi ja piirrepohjaiset menetelmät Oppia monimikrofonitekniikat Harjoituksena ohjelmoidaan melusietoisen puheentunnistuksen menetelmiä muuten valmiiseen puheentunnistimeen Menetelmiä vertaavat ryhmätyöt tai PBL: toimitetaan asiakkaalle hyvin melua sietävä puheen tunnistin Laajan sanaston puheen tunnistus ja kielimallit (esitietona puheen tunnistus) (5 op) Oppimistavoitteet Perehtyä syvällisemmin laajan sanaston mukanaan tuomiin erityisongelmiin Oppia puheentunnistuksen kielimallinnus syvällisemmin Harjoituksena ohjelmoidaan laajan sanaston puheentunnistuksen algoritmeja Menetelmiä vertaavat ryhmätyöt tai PBL: asiakkaalle laajan sanaston tunnistin Luonnollisen kielen mallintaminen (5 op) Perehtyä syvällisemmin kielen mallintamiseen ja puheteknologian sovelluksiin kuten puhe ja tekstipohjainen tiedon haku Harjoituksena ohjelmoidaan ja testataan kielen mallinnuksen algoritmeja Ryhmätyöt, PBL: asiakkaalle softaa Dialogijärjestelmät (3 op, esitietona puheen tunnistus) Keskitytään puheteknologia dialogipohjaisiin sovelluksiin kuten esim. automaattiset puhelin dialogiin perustuvat palvelut DBL: Suunnitellaan dialogisysteemi johonkin todelliseen sovellustarpeeseen: esim. lentolipun varaukseen Tuotos arvostellaan Puhekommunikaation psykoakustiikka (5 op)
Tutustutaan ihmisen puheen havaitsemisen ja ymmärtämisen havainto- ja kognitiivisiin prosesseihin, sekä psykoakustiikkaan. Painopiste on kuitenkin hyvin tunnettujen matalamman tason prosessien ymmärtämisessä Tutustutaan ääreiskuulossa tapahtuvaan signaalin käsittelyyn ja verrataan sitä esim. puheteknologian menetelmiin Harjoitustyönä kokeillaan ääreiskuulon malleja toteuttavia ohjelmistoja Teoriapaketti aktivoivalla luennolla PBL: suunnitellaan kuuntelukoe ja teoria kerrataan tentillä tai esseellä Puheen tuotto ja analyysi (3 op) Perehdytään syvällisemmin ihmisen puheen tuottoon ja puheen analysointiin Käsitellään puheentuoton ja puheanalyysiä lääketieteellisestä foniatrin näkökulmasta ja tutustaan käytössä oleviin menetelmiin Toteutetaan ja kokeillaan puhe analyysiin liittyviä algoritmeja ja menetelmiä Teoriapaketti aktivoivien luentojen muodossa Tuotokset arvioidaan ja teoriaosuudesta järjestetään tentti tai siitä kirjoitettu essee arvioidaan Puheteknologian seminaarikurssi: vaihtuva sisältö (5 op) Erityisesti jatko-opiskelijoille suunnattu vaihtuvasisältöinen kurssi, jossa käsitellään ajankohtaisia uusia aiheita esimerkiksi viimeisimmistä konferensseista Opiskelijat pitävät kurssilla esitelmän, ja tekevät ryhmätöitä Tuotokset arvioidaan 3.2. Puheteknologian asiantuntijan metodiopinnot Seuraavat perusteoria- ja ohjelmointikurssit ovat yhteisiä muiden opintosuuntien kanssa resurssien järkevän käytön vuoksi. Suurta osaa näistä opetetaan TKK:lla jo nykyään riittävässä laajuudessa. Koska tämän kappaleen opinnot eivät ole varsinaisia puheteknologian opintoja, niitä käsitellään vähän yleisemmin eikä tässä yhteydessä oteta kantaa esim. menetelmiin. Tässä esitellyt opinnot voisivat TKK:lla sijoittua ajallisesti jaksoon ennen pää- ja sivuaineen valintoja. Perusteoria Digitaalinen signaalin käsittelyyn liittyviä opintoja (10 op) Suodatus, taajuusanalyysi jne. Signaalin käsittely on eräs puheteknologia tärkeimpiä työkaluja. Sen nykyinen opetus on TKK:lla varsin kattavaa, joskin jakautunut eri laboratorioihin. Akustiikka, aäni ja audiotekniikka (5 op) Puhe on ääneen perustuvaa kommunikaatiota, joten aksustiikan perusteet on hallittava Akustiikka, äänen eteneminen väliaineessa, äänen muodostuminen värähtelystä Puheen akustiikka
Hahmontunnistuksen perusteet (5 op) Nykyaikaisen puheentunnistuksen perusteoriassa tärkeässä roolissa on hahmon tunnistus. Digitaalisessa muodossa olevasta puhedatasta etsitään hahmoja jotka kuvaavat esim. tiettyjä äänteitä tai sanoja. Todennäköisyysmallit ja neuroverkot (5 op) Kurssi on jatkoa edelliselle Hahmontunnistuksen perusteet -kurssille. Tässä aiheessa pureudutaan syvällisemmin todennäköisyysmalleihin ja neuroverkkoihin pohjautuviin tekniikoihin, jotka ovat tärkeitä puheen tunnistimissa. Ohjelmointi Pakolliset Ohjelmoinnin peruskurssi (5 op) Ohjelmoinnin peruskurssi esim. C-kielellä. Olio-ohjelmointi (5 op) Nykyaikaiset laajat puheentunnistus ohjelmistot toteutetaan olio-ohjelmointikielillä, joten niiden hallitseminen on tärkeää. Tämä on todennettavissa myös OT1 tehdyssä työpaikkailmoitusten analyysissä. Valinnaiset Hahmontunnistus- ja signaalinkäsittelyalgoritmien ohjelmointi (5 op) Puheentunnistuksessa ja monilla muillakin informaatiotekniikan alueella on tärkeä osata ohjelmoida erityisesti haastavia hahmontunnistus- ja signaalinkäsittelyalgoritmejä. Näitä varten ehdotetaan erityistä kurssia, jota ei tietääkseni TKK:lla ole tarjolla tällä hetkellä. Suurten ohjelmistojen hallinta (5 op) Puheentunnistimet sisältävät suuria ohjelmistokokonaisuuksia, joiden hallintaan tarvitaan erityisosaamista. 4. Pohdinta Tässä työssä esiteltiin uusi puheteknologian opintokokonaisuus TKK:lla toteutettavaksi. TKK:n puheteknologian opetus on järjestetty perinteisesti SKTAL:lla ja viimeaikoina puheentunnistuksen ja kieliteknologian opetusta on enenevässä määrin järjestetty myös TKTL:lla. Viimevuosina puheteknologia on läpikäynyt murrosvaiheen. 90-luvun tietotekniikan ja erityisesti matkapuhelintekniikan kehityksen alkuvaiheissa puheteknologian kehitys painottui erityisesti puheensiirtotekniikkaan. Tähän liittyvät menetelmät ovat kuitenkin jo niin kehittyneitä, että painopiste on siirtynyt enemmän puhesynteesin ja etenkin puheentunnistuksen suuntaan. Kehitystä on edesauttanut digitaalisen mediatallenteen määrän räjähdysmäinen kasvu ja toisaalta tietokonetehojen kasvaminen. Valtavaa puhedatamäärää varten tarvitaan automatisoituja menetelmiä esimerkiksi indeksointiin, arkistointiin, tekstitykseen ja tiedon hakuihin. TKK:lla on puheteknologian eri osa-alueilla pitkät perinteet, mutta on todettava että varsinkin puheentunnistuksen opetuksessa TKK:lla ollaan jälkijunassa. Vaikka TKK:lla on tutkittu puheentunnistusta menestyksekkäästi erityisesti TKTL:lla, ei aiheesta ole ollut säännöllistä opetusta kuin muutaman luennon verran yleisen puheen käsittely -kurssin yhteydessä SKTAL:lla, jossa puheentunnistuksen tutkimus on ollut vähäisempää. Puheentunnistuksen opetuksen vähäisyys juontaa juurensa siihen, että laitoksen tutkimusperinteisiin ja siihen, että laitos on aktiivinen myös akustiikkaan liittyvillä tutkimusaloilla, joita ehkä läheisempiä tutkimusaloja ovat muut
puheteknologian osa-alueet. Merkittävä osa puheentunnistuksen tutkimuksesta on ollut TKTL:lla, jossa puheentunnistus on nähty vain yhdeksi yleisemmän informaatiotekniikan sovellukseksi. Yleisesti TKTL:n opetus onkin keskittynyt enemmän informaatiotekniikan perusteoriaan kuin sovellusalueisiin. Suomen ulkopuolella puheentunnistuksen opetusta järjestävät yleensä puheteknologiaan keskittyvät yksiköt, jotka näkevät asian niin että heille informaatiotekniikan menetelmät ovat työkaluja. Paras opetuksellinen lopputulos TKK:llakin saavutettaisiin yhdistämällä puheteknologian opetus TKTL:n ja SKTAL:n kesken, ja ehkä perustamalla laitosten yhteinen instituutio puheteknologian tutkimukseen. Kuten edellä on todettu puheenteknologian tutkimus ja opetus ovat hajautuneet TKK:lla eri yksiköihin. Tämän lisäksi puheen tunnistukseen liittyviä metodiopintoja tai alalle muuten hyödyllisiä metodiopintoja järjestetään eri yksiköissä. Mm. signaalin käsittelyn opintoja on järjestetty TKK:n vanhan organisaation mukaan kolmen eri laboratorion toimesta kahdella osastolla ja uudenkin organisaation pohjalta kahdessa tiedekunnassa kahdella eri laitoksella. Näin ollen parhaiden pohjatietojen etsiminen TKK:lta puheteknologin asiantuntijuuden tukemiseksi on ollut lähinnä sattuman kauppaa. Akustiikan ja äänen käsittelytekniikan opintoja lukeneen puheteknologiaan lopulta suuntautuneen opiskelijan opinnoista on saattanut puuttua kokonaan esim. tärkeät informaatio tekniikan opinnot. Vastaavasti Informaatiotekniikan puolelta puheteknologian pariin tulleen opiskelijan opinnoista on saattanut puuttua kokonaan puheen havaitsemiseen ja akustiikkaan liittyvät opinnot. Erilaisia opintopolkuja valinneille opiskelijoille saattavat myös ohjelmointitaidot jäädä tarvittavaan asiantuntijuuteen nähden liian heikolle tasolle. Tässä määritetyn uuden opintokokonaisuuden tarkoitus on tuoda apua näihin ongelmiin.