Koska HAL ymmärtää mitä puhumme? Puheen automaattinen tunnistus ja ymmärtäminen
|
|
- Vilho Aaltonen
- 8 vuotta sitten
- Katselukertoja:
Transkriptio
1 Koska HAL ymmärtää mitä puhumme? Puheen automaattinen tunnistus ja ymmärtäminen Vuokko Vuori TKK, Informaatiotekniikan laboratorio Tiivistelmä Tässä työssä pyritään tekemään katsaus puheen automaattisen tunnistuksen ja ymmärtämisen historiaan ja nykytilaan sekä esittelemään tärkeimmät ongelmakohdat ja rajoitukset. Työssä esitellään lisäksi äänen muodostumisen periaatteet; tunnistusjärjestelmissä tyypillisesti käytetty puhesignaalin esitystapa; kommunikaatio-teoreettinen, todennäköisyyksiin perustuva malli puheen muodostamiselle sekä sen tunnistamiselle ja ymmärtämiselle; piilomarkovmalleihin perustuvan puheentunnistuksen periaatteet. 1 JOHDANTO Jotta tietokoneet todella auttaisivat ihmisiä suoriutumaan erilaisista tehtävistä paremmin ja tehokkaammin, tulisi ihmiset ja tietokoneen välisen käyttöliittymän olla hyvin suunniteltu laitteen käytön tulisi olla miellyttävää ja ihmiselle luontevaa. Tärkein, tai ainakin yksi tärkeimmistä, ihmisten välisistä kommunikaation muodoista on puhe. Puheen tunnistusta ja ymmärtämistä onkin siksi tutkittu jo 1800-luvun loppupuolelta lähtien (Stork, 1997). Tutkimus lähti liikkeelle halusta kehittää menetelmä, jonka avulla ääni voitaisiin esittää kuvallisessa muodossa siten, että kuurot voisivat ymmärtää puhuttua kieltä (Stork, 1997). Nykyisin puheen tunnistukselle ja ymmärtämiselle on paljon muitakin sovelluskohteita: erilaisten laitteiden ohjaus ja käyttö puhuttujen komentojen avulla, tekstin syöttö ilman näppäimistöä esimerkiksi kämmentietokoneissa ja puhelimissa, tekstidokumenttien luonti tai erilaisten lomakkeiden täyttö sanelemalla, puheluiden automaattinen ohjaus ja käsittely. Puheen tunnistaminen ja ymmärtäminen sujuu ihmisiltä varsin helposti, mutta tietokoneelle se on vielä ongelma, jota ei ole täysin ratkaistu. Yksittäisten sanojen tunnistaminen silloin kun ne on täysin eristetty asiayhteydestä on vaikea ongelma, koska eri sanat saatetaan ääntää täysin samalla tavalla, ja toisaalta, tietty sana voidaan lausua eri tavoin tilanteesta ja asiayhteydestä riippuen. Lisäksi jokaisella ihmisellä on oma erityinen tapansa puhua. Tietokoneen pitäisi pystyä päättelemään mikä on luonnollista ja merkityksetöntä vaihtelua ja mikä taas on oleellista vaihtelua, joka erottaa puhutut sanat toisistaan. Ihmisen suuri etu tietokoneeseen nähden on se, että ihminen tuntee paremmin puhumistilanteen ja puhujan, kielen ominaisuudet, sekä ymmärtää sanojen ja lauseiden merkityksen. Tämä tietämys helpottaa sekä yksittäisten sanojen tunnistamista että 1
2 puheen sisällön ymmärtämistä. Puheen tunnistamista ja ymmärtämistä ei voidakaan täysin ratkaista tyypillisen hahmontunnistusongelman tavoin esittämällä ja luokittelemalla havainnot vain erilaisiin piirteisiin ja niiden välisiin suhteisiin perustuen, vaan on käytettävä ja yhdisteltävä menetelmiä useilta eri tieteenaloilta: perinteisestä hahmontunnistuksesta, kielitieteistä, äänenmuodostuksesta ja akustiikasta, tekoälytutkimuksesta ja monista muista. Tämä työ perustuu kurssikirjana käytettyyn teokseen (Stork, 1997), jossa puheentunnistusta ja ymmärtämistä tarkastellaan hyvin kansantajuisesti ja pohditaan voitaisiinko elokuvan Avaruusseikkailu 2001 HAL-tietokone toteuttaa nykyisellä teknologialla tai lähitulevaisuudessa. Lähdemateriaalina on myös käytetty lehden Proceedings of the IEEE elokuun 2000 erikoisnumeroa, jossa on useita mielenkiintoisia artikkeleita puhutun kielen käsittelystä. Kokoelman ensimmäinen artikkeli (Juan ja Furui, 2000) on erittäin hyvä katsaus sekä puheenkäsittelyn historiaan, nykytilanteeseen että tulevaisuuteen. Artikkelissa on kuvattu hyvin tärkeimmät nykyisin käytetyt menetelmät ja piirteet. Hyödyllistä tietoa luonnolliseen kieleen liittyvästä teknologiasta löytyy erittäin laajasta katsauksesta Survey of the State of the Art in Human Language Tecnology. Tämän työn kannalta oleellinen on katsauksen puheteknologiaa käsittelevä ensimmäinen luku (Zue ja Cole, 1995). Erittäin hyvä suomenkielinen lähdeteos on tekninen raportti kommunikaatioakustiikasta, jossa esimerkiksi äänenmuodostuminen on kuvattu perusteellisesti (Karjalainen, 1999). Viimeisessä lähteessä (Young, 1996) on hyvä, ei liian syvälle yksityiskohtiin menevä katsaus suuren sanaston puheentunnistuksessa ja kuvaus eräästä state of the art järjestelmästä. 2 PUHESIGNAALIN MUODOSTUS JA ESITYSTAPA Puhesignaalit voidaan jakaa niiden syntymistapojen perusteella kolmeen ryhmään: soinnilliset ja soinnittomat äänteet sekä eksplosioäänteet. Sonnilliset äänteet saavat herätteensä värähtelevistä äänihuulista, jotka sijaitsevat kurkun päässä. Äänihuulet värähtelevät, kun keuhkoista tuleva ilmavirta kulkee niiden välistä. Tätä ilmiötä kutsutaan fonaatioksi. Äänihuulten värähtelyä voidaan säädellä lihasten avulla. Eri värähtelytaajuudet vastaavat eri äänenkorkeuksia. Äänihuulten värähtelyn taajuutta kutsutaan myös puheen perustaajuudeksi, joka on naisilla ja lapsilla keskimäärin selvästi korkeampi kuin miehillä. Äänihuulista lähtevät paineimpulssit (glottisheräte) eivät kuitenkaan sellaisinaan tavoita kuulijaa. Ääniväylä (kurkunpää, nielu ja suuontelo) ja nenäväylä (nenäontelo) muokkaavat merkittävästi glottisherätettä ja niiden voidaankin ajatella olevan säätyviä akustisia signaalin suodattimia. Syntyviä ääniä voidaan siis säädellä myös muuttamalla äänikanavan muotoa liikuttelemalla kieltä, hampaita ja huulia. Näiden väylien säätövaikutuksia kutsutaan artikulaatioksi. Soinnillisten äänteiden lisäksi syntyy myös soinnittomia tai heikkosointisia äänteitä, joiden herätteenä toimii ääniväylän kaventumakohdassa turbulentista ilmavirtauksesta syntyvä kohina. Tällaisessa kohinassa on sekoittuneena useita erilaisia taajuuksia. Myös näitä ääniä voidaan säädellä muuttamalla äänikanavan muotoa. Eksplosioäänteet syntyvät, kun täydellisesti sulkeutunut ääniväylä avautuu nopeasti ja ilmavirtauksen paine purkautuu räjähdyksenomaisesti. Kuvassa 1 on esitetty poikkileikkauskuva ihmisen puhe-elimistä ja siitä selviää edellä mainittujen puhe-elinten suhteellinen sijoittuminen toisiinsa nähden. 2
3 Kuva 1. Poikkileikkauskuva ihmisen puhe-elimistä. Kuva kopioitu lähteestä (Karjalainen, 1999). Jo varhain ymmärrettiin, että puhesignaalia kannattaa tarkastella ajan mukana muuttuvan ilman värähtelyn amplitudin sijasta taajuustasossa. Itseasiassa tämä on myös ihmisen käyttämä äänen esitystapa: sisäkorvassa hermon päät reagoivat kukin tiettyyn taajuuteen. Käytännössä muunnos värähtelyn aikatason esityksestä taajuustason esitykseksi voidaan tehdä esimerkiksi Fourier-muunnoksen avulla. Tämän jälkeen taajuustason esitystä usein käsitellä siten, että se vastaa paremmin ihmiskorvan taajuusresoluutiota (voidaan tehdä esimerkiksi muunnos MEL- Bark- tai ERBasteikkoon). Puheentunnistus perustuu yleensä vain äänen taajuuden tehospektriin, koska ihmiskorva ei pysty kovin hyvin havaitsemaan värähtelyn vaiheen muutoksia. Äänihuulten ja äänikanavan konfiguraatio ei yleensä muutu merkittävästi kuin noin kymmenen kertaa sekunnissa. Taajuuden tehospektri estimoidaankin siksi lyhytkestoisissa, noin ms, aikaikkunoissa, joissa sen voidaan olettaa pysyvän lähes vakiona. Vaihtoehtoisesti voidaan käyttää pitkäkestoisempia (noin ms) painotettuja (yleensä Hamming) aikaikkunoita, jotka on sijoitettu limittäin noin ms päähän toisistaan. Kuvassa 2 on esitetty kolmen eri vokaalin aika- ja taajuustason esitysmuodot. Aikatason esitysmuoto kertoo kuinka ilman värähtelyn amplitudi kehittyy ajan suhteen äänettäessä kyseinen vokaali. Taajuustason esityksestä taas selviää mikä on värähtelyn hetkellinen taajuus. Kuvassa 3 on esitetty yhden sanan aika- ja taajustason esitysmuodot. Tässä kuvassa taajuustason esitysmuoto on spektrogrammi, josta selviää puhesignaalin tietyllä ajanhetkellä esiintyvät taajuuskomponentit. Spektogrammin väritys perustuu eri taajuuskomponenttien tehoihin. 3
4 Kuva 2. Kolmen (/a/, /i/ ja /u/) vokaalin aika- ja taajuustaso esitykset. Kuva kopioitu lähteestä (Karjalainen, 1999). Kuva 3. Sanan /kaksi/ synkronisoidut taajustason (spektogrammi) ja aikatason esitykset. Kuva kopioitu lähteestä (Karjalainen, 1999). 4
5 Kieli voidaan ymmärtää perättäisenä sarjana foneemeja, jotka ovat yhtenäisen kielellisen funktion omaavien äänteiden luokkia. Foneemi ei kuitenkaan ole akustisena ilmiönä aina samanlainen vaan se on kontekstista eli esimerkiksi puhujasta, lause-, sana- ja tavuyhteydestä riippuva. Foneemien konkreettisten toteutumien variaatioita kutsutaan allofoneiksi. Foneemit ja allofonit, sekä niiden lukumäärät, voidaan määritellä useilla eri tavoilla, esimerkiksi klusteroimalla puhesignaalin aikaikkunoita. Yleensä foneemeja määritellään muutamia kymmeniä. Eri kielissä esiintyvät foneemit ovat yleensä hyvin, mutteivät täysin, samankaltaisia, mutta niiden jakaumissa on selviä kielikohtaisia eroja. Perättäiset foneemit muodostavat tavuja ja perättäiset tavut edelleen sanoja. Toisin kuin foneemien, erilaisten mahdollisten tavujen lukumäärä on hyvin riippuvainen kielestä. Esimerkiksi englannissa niitä on yli kymmenen tuhatta ja japanissa alle kaksi sataa. Nykyään puheentunnistuksessa käytetään myös piirteitä, jotka kuvaavat taajuuden tehospektrien ajallista käyttäytymistä (esimerkiksi ensimmäisen ja toisen kertaluvun differenssit) ja jotka lasketaan useista perättäisistä aikaikkunoista. Tällaisten piirteiden käyttöä voidaan perustella sillä, että äänihuulten ja äänikanavan perättäiset konfiguraatiot ovat toisistaan riippuvaisia. Kaikki konfiguraatioiden muutokset eivät ole käytännössä mahdollisia. Lisäksi puhuja ennakoi tulevia äänteitä ja foneemien lausuminen riippuu niitä edeltävistä ja seuraavista foneemeista. On myös havaittu, että ajallisia muutoksia kuvaavat piirteet ovat tärkeitä ihmiskuulijoille. Puhesignaali esitetään puheentunnistusjärjestelmissä yleensä aikasarjana, jossa eri ajanjaksoja, aikaikkunoita, kuvataan piirrevektoreiden avulla. Piirteet pyritään valitsemaan siten, että niiden avulla pystytään tunnistamaan hyvin erilaiset foneemit ja huomioimaan niiden ajalliset riippuvuussuhteet. Esitystavan tulisi lisäksi olla invariantti erilaisten puheen variaatioiden suhteen, joilla ei ole oleellista merkitystä tunnistuksen kannalta. Tällaiset variaatiot johtuvat muun muassa puhujan henkilöllisyydestä, sukupuolesta tai tunnetilasta, sekä puheen nopeudesta ja äänen voimakkuudesta. Invarianttisuus voidaan saavuttaa sopivalla piirrevalinnalla tai erilaisten normalisointimenetelmien avulla. 3 PUHEEN TUNNISTUS JA YMMÄRTÄMINEN Puheen muodostus voidaan mallintaa seuraavan kommunikaatioteoreettisen, ketjumaisen mallin avulla: viestilähde, kielellinen kanava, ääntämyksellinen kanava, akustinen kanava, siirtokanava, puhesignaali (Juan ja Furui, 2000). Viestilähde (P(M)) määrittää, mikä on puheen aiottu viesti (M). Kielellinen kanava (P(W M)) määrittää, kuinka tietty viesti voidaan muuttaa sanajonoksi (W). Ääntämyksellinen kanava (P(S W)) määrittää miten sanat lausutaan eli muuttuvat ääniksi (S). Akustinen kanava (P(A S)) mallintaa akustisen ympäristön (esimerkiksi taustamelu, kaiut) vaikutuksia eli kuvaa millainen ääni (S) saapuu mikrofonin. Siirtokanava P(X A) kuvaa kuinka äänisignaali muuttuu havaituksi puhesignaaliksi (X) siirtyessään mikrofonista vastaanottajalle. Jokainen näistä ketjumallin osista voidaan mallintaa ehdollisten todennäköisyysjakaumien avulla. Vastaanottaja ymmärtää puhetta, jos hän pystyy käymään tämän kommunikaatioketjun läpi takaperin, eli pystyy päättelemään eri viestien todennäköisyydet havaittuaan jonkin tiettyn puhesignaalin. Puheen ymmärtäminen voidaan myös jakaa seuraaviin perättäisiin osaongelmiin: foneemien ja sanojen tunnistaminen puhesignaalista, syntaktinen ja kieliopillinen analysointi lauseiden jäsentämiseksi ja tunnistusvirheiden korjaamiseksi, semanttinen tulkinta ja monimerkityksellisten osien selvittäminen, sekä puhutun viestin 5
6 pragmaattinen tulkinta. 3.1 Puheen tunnistus Ensimmäistä puheen ymmärtämisen osaongelmaa voidaan kutsua puheen tunnistukseksi: tarkoituksena ei ole ymmärtää puheen sisältämää perimmäistä viestiä vaan vain tunnistaa puhutut sanat. Edellä esitetyn kommunikaatioteoreettisen mallin mukaan puheentunnistuksessa yritetään siis määrittää erilaisten sanajonojen todennäköisyydet P(W X) havaitun puhesignaalin (X) perusteella. Tunnistusvirheen todennäköisyys minimoituu, kun tunnistustulokseksi valitaan todennäköisin sanajono a posteriori (MAP-periaate). Yleensä ei pyritä suoraan mallintamaan jakaumaa P(W X) vaan sen (Bayesin säännön perusteella) hajotetussa muodossa P(W X)=P(X W)P(W)/P(X) esiintyviä jakaumia. Jakaumaa P(X W) kutsutaan yleensä akustiseksi malliksi, koska se kuvaa sanajonon realisoitumista äänisignaaliksi (havaintojen likelihood). Jakaumaa P(W) kutsutaan vastaavasti kielimalliksi ja se kuvaa mikä on erilaisten sanajonojen a priori esiintymistodennäköisyys. Jakauma P(X) ei vaikuta tunnistustuloksen valintaan ja se voidaan jättää huomioimatta. Tunnistuksessa tarvittavia jakaumia P(X W) ja P(W) ei todellisuudessa tunneta, vaan ne estimoidaan kerätystä puheaineistosta. Yleensä jakaumille valitaan jokin parametrisoitu esitystapa. Nykyiset puheentunnistusjärjestelmät perustuvat pääasiassa piilomarkovmalleihin (HMM, Hidden Markov Models ), jotka soveltuvat erinomaisesti puhesignaalin kaltaisten aikasarjojen mallintamiseen. Yhden piilomarkomallin avulla voidaan mallintaa erilaisia puheen osia, sanajonoja, yksittäisiä sanoja, tavuja tai foneemeja. Pidempi puhekokonaisuus voidaan mallintaa puheen osien piilomarkovmalleja ketjuttamalla. Mallinnettava osan valinta riippuu tehtävästä ja puheelle asetetuista rajoituksista. Useimmiten on järkevämpää mallintaa tavuja tai foneemeja kuin kokonaisia sanoja tai lauseita. Silloin tarvittavien mallien lukumäärä on rajoitettu (ei riipu sanakirjan koosta) ja kattavan opetusaineiston, eli useita havaintoja jokaista mallia kohden, kerääminen on käytännössä mahdollista. Toisaalta, tällaiset mallit eivät pysty huomioimaan kunnolla perättäisten sanojen ajallista riippuvuutta. Muita puheentunnistuksessa paljon käytettyjä menetelmiä piilomarkovmallien rinnalla ovat dynaaminen aikasovitus ( Dynamic Time Warping, DTW) ja neuroverkkomenetelmät, joista erityisesti aikaviiveverkot ( Time Delay Neural Network, TDNN) ja itseorganisoivat kartat ( Self-Organizing Map, SOM). Näistä DTW ja TDNN ovat erittäin sopivia aikariippuvan datan (kuten esimerkiksi puhesignaalin tai reaaliaikasen käsinkirjoitussignaalin) mallintamiseen. Itseorganisoituvia karttoja voidaan käyttää esimerkiksi yhdessä muiden menetelmien kanssa samankaltaisten havaintojen tai tunnistuksessa käytettävien mallien ryhmittelyyn ja järjestämiseen. Näin pystytään vähentämään havaintoaineistosta opittavien erilaisten malliparametrien lukumäärää. Puheentunnistuksessa käytetään myös paljon tietämystekniikan menetelmiä, esimerkiksi sääntöpohjaista tunnistusta. Näiden menetelmien automaattinen oppiminen havaintoaineistosta on kuitenkin hankalaa. Usein näitä menetelmiä käytetäänkin mallintamaan puheen rakennetta sanoja korkeammilla tasoilla. Puheen eri osien segmentointi ja tunnistaminen tapahtuu yleensä rinnakkain. Käytännössä tämä tarkoittaa sitä, että kokeillaan (lähes) kaikkia mahdollisia segmentointeja ja lasketaan niitä vastaavien tunnistustulosten todennäköisyydet. Todennäköisimmän tunnistustuloksen haku voidaan suorittaa tehokkaasti käyttäen dynaamiseen ohjelmointiin perustuvia rekursiivisia menetelmiä. Hakuavaruuden koko ja tunnistustehtävän vaikeus riippuu sanakirjan koosta ja kielelle asetuista rajoituksista 6
7 (vrt. tauot sanojen välissä ja jatkuva puhe). Käytännössä hakuavaruutta joudutaan usein rajoittamaan ja tutkitaan vain lupaavimmat hakupolut (esimerkiksi beam searchalgoritmi). Tällöin tunnistus voidaan suorittaa järkevässä ajassa, mutta tunnistustulos ei välttämättä olekkaan se kaikkein todennäköisin vaihtoehto. 3.2 Puheen ymmärtäminen Puheen varsinaisena ymmärtämisenä voidaan pitää kolmea viimeistä osaongelmaa eli puheen syntaktista ja kieliopillista analysointia lauseiden jäsentämiseksi ja tunnistusvirheiden korjaamiseksi, semanttista tulkintaa ja monimerkityksellisten osien selvittämistä, sekä puhutun viestin pragmaattinen tulkintaa. Toisin sanoen, sanajonolle on määriteltävä järkevä, tilanteeseen ja asiayhteyteen sopiva, kieliopillinen ja semanttinen tulkinta. Lisäksi on pystyttävä päättelemään, mikä on järkevä tapa toimia. Nykyiset puhetta ymmärtävät järjestelmät ei vielä pysty käsittelemään täysin vapaamuotoista puhetta, jossa aihepiiriä, sanastoa ja kielenrakenteita ei olisi millään tavoin rajoitettu. Yksinkertaisimmillaan puheen ymmärtäminen voi perustua vain tiettyjen avainsanojen havaitsemiseen, joiden perusteella valitaan rajoitetusta toimintavaihtoehtojen joukosta sopivin. Puheen ymmärtämissongelmaa voidaan myös helpottaa rajoittamalla keskustelua esimerkiksi siten, että puheessa käytetään vain tietyn keinotekoisen ja yksinkertaistetun kielimallin mukaisia ilmaisuja tai että keskustelu on täysin toisen osapuolen ohjaamaa. 4 NYKYTILANNE Nykyiset järjestelmät eivät pysty ratkaisemaan kaikkia edellisessä kappaleessa mainittuja puheen ymmärtämisen osaongelmia vaan rajoittuvat yleensä muuttamaan puhesignaalin perättäisiksi sanoiksi ja valitsemaan sopivan tulkinnan ja siihen liittyvät toiminnan ennalta määriteltyjen vaihtoehtojen joukosta. Nykyiset järjestelmät pystyvät siis tulkitsemaan puhetta vain tarkkaan rajoitetuissa sovelluksissa eivätkä siis pysty todella keskustelemaan ihmisen kanssa aiheesta kuin aiheesta kuten elokuvan Avaruusseikkailu 2001 HAL-tietokone. Tärkeimmät nykyiset puheentunnistuksen sovellukset voidaan jakaa karkeasti kahteen ryhmään: telekommunikaatioon liittyvät ja liittymättömät sovellukset. Tyypillinen jälkimmäiseen ryhmään kuuluva sovellus on PC:ssä pyörivä ohjelmisto, joka muuttaa sanelun tekstiksi. Vaikka nämä sanelusovellukset eivät toimi kaikissa tilanteissa hyvin, ne ovat saaneet paljon positiivista palautetta käyttäjiltä, silloin kun käytetty puhuttu kieli on rajoittunut ammatillisiin termeihin ja ilmaisuihin (esimerkiksi lääkärit ja lakimiehet). Ensimmäiseen sovellusten ryhmään kuuluu esimerkiksi puheluiden automaattinen ohjaus ja luottokorttitileihin liittyvien palveluiden käyttö. Vaikka nämä sovellukset kuulostavat HAL:iin verrattuina vaatimattomilta, ei niiden merkitystä pidä vähätellä. Esimerkiksi automaattisella puheluiden ohjauksella, joka perustuu viiden avainsanan tunnistamiseen, on laskettu säästettävän vuosittain satoja miljoonia dollareita. Taulukossa 1 on lueteltu erilaisia parametreja vaihteluväleineen, joiden avulla voidaan kuvata puheentunnistustehtävän vaikeutta. Kaksi ensimmäistä parametria, puhumistapa ja puheen kielellinen tyyli, kertovat kuinka lähellä luonnollista puhetta käsiteltävä puhesignaali on. Helpommillaan puheentunnistusongelma on yksittäisten, esimerkiksi hiljaisin tauoin eroteltujen sanojen tunnistamista. Luetun tekstin tunnistaminen on helpompaa kuin vapaamuotoisen spontaanin puheen, koska kirjoitettu 7
8 kieli on yleensä kielioppisääntöjen mukaista, kun taas puhuttu kieli ei yleensä ole. Puhujaryhmän koolla on selvä vaikutus tunnistusongelman vaikeuteen, sillä jokaisella ihmisellä on oma persoonallinen tapansa puhua. Helpommillaan tunnistusongelma on silloin, kun järjestelmä voidaan opettaa yhdelle ainoalle puhujalle tältä kerätyn aineiston avulla, ja vaikeimmillan silloin, kun mahdollisia käyttäjiä on useita ja opetusaineisto on kerätty eri ihmisiltä. Puheentunnistusongelmaan pätee sama sääntö kuin hahmontunnistusongelmiin yleisemminkin eli ongelma on yleensä sitä vaikeampi mitä suurempi on luokkien lukumäärä. Puheen tunnistus on siis sitä helpompaa mitä suppeampi on sallitun sanaston koko. Puheen tunnistuksen vaikeuteen vaikuttaa myös kuinka kuvausvoimaisen kielimallin avulla käytetty kieli voidaan esittää mitä yksinkertaisempi malli sitä yksinkertaisempi kieli ja tunnistusongelma. Kielen monimutkaisuutta voidaan myös mitata suureen perplexity avulla, joka on kielimallin antama keskimääräinen vaihtoehtojen lukumäärä seuraavaa sanaa ennustettaessa. Varsinaisen puhesignaalin ja kohinan suhde SNR ( Signal to Noise Ratio ) kuvaa käytettävän puhesignaalin laatua. Puheen tunnistus onnistuu luonnollisesti sitä helpommin mitä korkeampi tämä suhde on. Myös puhumisympäristö ja käytetty puheensignaalin äänitys- ja siirtotapa ovat tunnistusongelman vaikeuden kannalta oleellisia, koska ne vaikuttavat siihen millaisia häiriöitä käsiteltävässä puhesignaalissa on. Taulukko 1. Puheentunnistuksen vaikeutta kuvaavia parametreja, lähde (Zue ja Cole, 1995). Parametri Vaihteluväli Puhumistapa Yksittäiset tauoin erotellut sanat, jatkuva puhe Puheen kielellinen tyyli Luettu teksti, spontaani puhe Puhujaryhmä Yksi puhuja, useita puhujia Sanasto Pieni (alle 20 sanaa), laaja (yli sanaa) Kielimalli Ääreellinen tila-automaati ( finite-state ), kontekstiriippuva ( context-sensitive ) Perplexity Alhainen (alle 10), korkea (yli 100) SNR Hyvä (yli 30 db), heikko (alle 10 db) Siirtokanava Mikrofoni, puhelin Kuvassa 4 on esitelty kuinka puhesovellukset ovat kehittyneet ajan myötä. Käsiteltävän puhesignaalin vaikeusastetta on kuvattu kahden muuttujan avulla. Pystyakselia vastaava muuttuja kuvastaa mikä on puhetapa ja puheen kielellinen tyyli. Mitä korkeamalla kuvassa liikutaan, sitä vaikeammasta ongelmasta on kyse. Vaakaakselia vastaava muuttuja on sanaston koko. Varjostetut alueet kuvaavat eri ajanjaksojen tilanteita. Tämän kuvan perusteella parhaimmillaan nykyiset tunnistusjärjestelmät selviytyvät kahdensuuntaisesta keskustelusta, missä kumpikaan osapuoli ei ohjaa keskustelua, mutta sanaston koko rajoittuu noin kahteen tuhanteen. Näissä järjestelmissä puhe voi olla jatkuvaa, mutta ei täysin luonnollista, spontaania puhetta. Kuva ei kuitenkaan ota millään tavoin kantaa siihen, mitkä ovat tarvittavan laitteiston muisti ja laskentatehovaatimukset ja voitaisiinko menetelmiä soveltaa esimerkiksi tavallisille kuluttajille suunnatuissa tuotteissa. 8
9 Kuva 4. Puhutun kielen sovellusten kehittymisestä ajan, sanaston laajuuden ja puhetavan funktiona, kuva kopioitu lähteestä (Juan ja Furui, 2000). 5 KESKEISET ONGELMAT JA TULEVAISUUDEN SUUNTAVIIVAT Katsauksen Survey of the State of the Art in Human Language Technology (Zue ja Cole, 1995) mukaan nykyisten puheen tunnistamiseen ja ymmärtämiseen kehitettyjen järjestelmien keskeisimmät ongelmat ovat seuraavat: Robustisuus: järjestelmän suorituskyvyn pitäisi heiketä asteittain, eikä romahduksenomaisesti, kun järjestelmää käytetään olosuhteissa, jotka poikkeavat niistä joihin se on alunperin suunniteltu ja opetettu. Varsinkin vaihteleviin akustisiin ympäristöihin ja puhesignaalin muodostukseen liittyviin kanaviin pitäisi kiinnittää erityistä huomiota. Siirrettävyys: järjestelmän pitäisi olla helposti siirrettävissä uusiin sovellutustehtäviin. Nykyiset järjestelmät pitää opettaa aina tietystä tehtävästä kerätyllä puhedatalla ja siksi saman menetelmän soveltaminen uuteen ongelmaan on hidasta ja kallista. Adaptiivisuus: järjestelmän pitäisi pystyä jatkuvasti sopeutumaan vaihteleviin olosuhteisiin (esimerkiksi uusi puhuja, mikrofoni, tehtävä). Kielimallit: kun sanakirjan kokoa kasvatetaan ja puhetapaan liittyviä rajoituksia lievitetään, tarvitaan entistä tehokkaammin hakuavaruutta rajoittavia kielimalleja. Näiden mallien pitäisi asettaa sekä syntaktisia että semanttisia rajoituksia, joihin nykyisin käytetyt tilastolliset kielimallit eivät pysty. 9
10 Tulkintojen luotettavuus: nykyiset järjestelmät pystyvät järjestämään puheen vaihtoehtoiset tulkinnat vain paremmuusjärjestykseen. Jotta järjestelmä pystyisi järkeviä päätöksiä, pitäisi eri tulkintoihin liittää jokin niiden virheettömyyttä kuvaava luettavuusmitta. Sanakirjaan kuulumattomat sanat: nykyiset järjestelmät suunnitellaan siten, että ne tunnistavat vain tietyt, sanakirjaan kuuluvat sanat, mutta käyttäjät eivät välttämättä tiedä mitkä kaikki sanat kuuluvat tähän sanakirjaan. Siksi järjestelmän pitäisi tunnistaa ja käsitellä järkevästi myös sanat, jotka eivät kuulu sen sanavarastoon. Spontaani puhe: järjestelmän pitäisi pystyä käsittämään puhetta, jossa on erilaisia spontaanin puheen ilmiöitä, joita ei ole kirjoitetussa kielessä, kuten esimerkiksi taukoja, epäröintiä ja täytesanoja. Prosodiikka: prosodiikalla tarkoitetaan puheen akustisia rakenteita, jotka vaikuttavat yksittäisiä sanoja laajemmin, esimerkiksi painotus, intonaatio ja rytmi paljastavat ihmiselle tärkeitä seikkoja puhujasta (esimerkiksi innostus, sarkasmi, viha). Nykyiset järjestelmät eivät käytä tunnistuksessa prosodisia piirteitä. Puheen dynamiikka: nykyiset järjestelmät käsittelevät puhesignaalin aikaikkunoita toisistaan riippumattomina. Todellisuudessa äänenmuodostus on dynaaminen prosessi ja tämä tulisi huomioida paremmin tunnistuksessa. 6 JOHTOPÄÄTELMÄT Puheen tunnistuksessa on päästy jo aika pitkälle, mutta puheen ymmärtäminen onnistuu vain rajoitetuissa ongelmissa. HAL:in tasoista puhutun kielen tunnistajaa ja ymmärtää ei voida toteuttaa ihan lähitulevaisuudessa edes menetelmien puolesta. Toisaalta Mooren lain perusteella tulevaisuudessa voidaan kuitenkin ratkaista entistä vaikeampia (esimerkiksi isompi hakuavaruus) ongelmia reaaliajassa nykyisillä menetelmillä, koska tavallisille kuluttajille suunnatujen laitteistojen muisti ja laskentakapasiteetti kasvaa ja halpenee suhteellisen nopeasti. 10
11 7 LÄHTEET [1] HAL's Legacy: 2001's Computer as Dream and Reality. Ed. D. Stork, MIT Press Luku 7, When will HAL understand what we are saying? Computer speech recognition and understanding, Raymond Kurzweil. [2] Biing-Hwang Juan and Sadaoki Furui. Automatic Recognation and Understanding of Spoken Language A First Step Toward Natural Human- Machine Communication. Proceedings of the IEEE. Special Issue on Spoken Language Processing. Sivut Elokuu [3] Victor Zue and Ron Cole. Spoken Language Input. Survey of the State of the Art in Human Language Tecnology. Luku 1, sivut Marraskuu [4] Matti Karjalainen. Kommunikaatioakustiikka. Teknillinen korkeakoulu, Akustiikan ja äänenkäsittelytekniikan laboratorio, Raportti [5] Steve Young. A Review of Large-vocablary Continuous-speech Recognition. IEEE Signal Processing. Sivut Syyskuu
Puheentunnistus Mikko Kurimo
Puheentunnistus Mikko Kurimo Mitä automaattinen puheentunnistus on? Automaattinen puheentunnistin on laite, joka määrittää ja tulostaa sanan tai tekstin, joka parhaiten vastaa äänitettyä puhesignaalia.
LisätiedotPuheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting
Puheentunnistus Joel Pyykkö 1 1 DL-AT Consulting 2018 Sisällysluettelo Puheentunnistus Yleisesti Chattibotin Luonti Esimerkkinä - Amazon Lex Puheentunnistus Yleisesti Puheentunnistus Yleisesti Puheentunnistus
LisätiedotLuento: Puhe. Mitä puhe on? Anatomiaa ja fysiologiaa. Puhetapahtuma. Brocan ja Wernicken alueet. Anatomiaa ja fysiologiaa. Puheen tuottaminen:
Puheen anatomiaa ja fysiologiaa Puhesignaalin analyysi Puheen havaitseminen luku 11 Luento: Puhe Mitä puhe on? Ihmisen kehittämä symbolinen kommunikaatiojärjestelmä. Perustuu sovittuihin kielellisiin koodeihin
LisätiedotSay it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa
Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa Sari Ylinen, Kognitiivisen aivotutkimuksen yksikkö, käyttäytymistieteiden laitos, Helsingin yliopisto & Mikko Kurimo, signaalinkäsittelyn
Lisätiedot8003051 Puheenkäsittelyn menetelmät
8003051 Puheenkäsittelyn menetelmät Luento 7.10.2004 Puhesynteesi Sisältö 1. Sovelluskohteita 2. Puheen ja puhesyntetisaattorin laatu 3. Puhesynteesin toteuttaminen TTS-syntetisaattorin komponentit Kolme
LisätiedotKieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat
Luento 2. Kieli merkitys ja logiikka 2: Helpot ja monimutkaiset Helpot ja monimutkaiset ongelmat Tehtävä: etsi säkillinen rahaa talosta, jossa on monta huonetta. Ratkaisu: täydellinen haku käy huoneet
LisätiedotÅbo Akademi 3.5.2011 klo 12-16. Mietta Lennes mietta.lennes@helsinki.fi. Nykykielten laitos Helsingin yliopisto
Åbo Akademi 3.5.2011 klo 12-16 Mietta Lennes mietta.lennes@helsinki.fi Nykykielten laitos Helsingin yliopisto Praat-puheanalyysiohjelma Mikä on Praat? Mikä on Praat? Praat [Boersma and Weenink, 2010] on
LisätiedotPianon äänten parametrinen synteesi
Pianon äänten parametrinen synteesi Jukka Rauhala Pianon akustiikkaa Kuinka ääni syntyy Sisält ltö Pianon ääneen liittyviä ilmiöitä Pianon äänen synteesi Ääniesimerkkejä Akustiikan ja äänenkäsittelytekniikan
LisätiedotS-114.2720 Havaitseminen ja toiminta
S-114.2720 Havaitseminen ja toiminta Heikki Hyyti 60451P Harjoitustyö 3 puheen havaitseminen Mikä on akustinen vihje (acoustic cue)? Selitä seuraavat käsitteet ohjelman ja kirjan tietoja käyttäen: Spektrogrammi
LisätiedotTHE audio feature: MFCC. Mel Frequency Cepstral Coefficients
THE audio feature: MFCC Mel Frequency Cepstral Coefficients Ihmiskuulo MFCC- kertoimien tarkoituksena on mallintaa ihmiskorvan toimintaa yleisellä tasolla. Näin on todettu myös tapahtuvan, sillä MFCC:t
LisätiedotNeuroverkkojen soveltaminen vakuutusdatojen luokitteluun
Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Sami Hokuni 12 Syyskuuta, 2012 1/ 54 Sami Hokuni Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Turun Yliopisto. Gradu tehty 2012 kevään
LisätiedotOrganization of (Simultaneous) Spectral Components
Organization of (Simultaneous) Spectral Components ihmiskuulo yrittää ryhmitellä ja yhdistää samasta fyysisestä lähteestä tulevat akustiset komponentit yhdistelyä tapahtuu sekä eri- että samanaikaisille
LisätiedotE. Oja ja H. Mannila Datasta Tietoon: Luku 2
2. DATASTA TIETOON: MITÄ DATAA; MITÄ TIETOA? 2.1. Data-analyysin ongelma Tulevien vuosien valtava haaste on digitaalisessa muodossa talletetun datan kasvava määrä Arvioita: Yhdysvaltojen kongressin kirjasto
LisätiedotSGN-4200 Digitaalinen audio
SGN-4200 Digitaalinen audio Luennot, kevät 2013, periodi 4 Anssi Klapuri Tampereen teknillinen yliopisto Kurssin tavoite Johdanto 2! Tarjota tiedot audiosignaalinkäsittelyn perusteista perusoperaatiot,
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
LisätiedotFONETIIKKA SUULLISEN KIELITAIDON ARVIOINNISSA
FONETIIKKA SUULLISEN KIELITAIDON ARVIOINNISSA Heini Kallio, tohtorikoulutettava Käyttäytymistieteiden laitos, fonetiikka Helsingin yliopisto heini.h.kallio@helsinki.fi Fonetiikan haasteet kielenopetuksessa
LisätiedotPuheentunnistus ja synteettinen puhe
Puheentunnistus ja synteettinen puhe S-114.1100 Laskennallinen tiede, syksy 2005 (kuva: viite 5) Heikki Hyyti 60451P 1. Sisällysluettelo 1. Sisällysluettelo... 2 2. Tiivistelmä...3 3. Yleistä... 3 4. Kieli
LisätiedotPuhutun ja kirjoitetun rajalla
Puhutun ja kirjoitetun rajalla Tommi Nieminen Jyväskylän yliopisto Laura Karttunen Tampereen yliopisto AFinLAn syyssymposiumi Helsingissä 14. 15.11.2008 Lähtökohtia 1: Anekdotaaliset Daniel Hirst Nordic
LisätiedotTTS. Puhesynteesi (tekstistä puheeksi, engl. text-tospeech,
Tekstiä, plaa plaa, plaa Puhesynteesi (tekstistä puheeksi, engl. text-tospeech, TTS): Generoidaan tietokoneen avulla akustinen puhesignaali annetun tekstin perusteella. TTS HUOM: Vaikka nyt keskitytäänkin
LisätiedotLuonnollisella kielellä keskustelevat järjestelmät
Luonnollisella kielellä keskustelevat järjestelmät Jussi Lepistö (jussi.lepisto@cs.helsinki.fi) Helsingin Yliopisto Tieteellisen kirjoittamisen kurssi Johdanto Esittelen luonnollisella kielellä keskustelevien
LisätiedotDigitaalinen audio
8003203 Digitaalinen audio Luennot, kevät 2005 Tuomas Virtanen Tampereen teknillinen yliopisto Kurssin tavoite Johdanto 2 Tarjota tiedot audiosignaalinkäsittelyn perusteista perusoperaatiot, sekä niissä
Lisätiedot» Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN
» Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN 1 Puhe-elimistä Helsingin Yliopiston sivuilla» Puhe-elimet voidaan jakaa
LisätiedotNollasummapelit ja bayesilaiset pelit
Nollasummapelit ja bayesilaiset pelit Kristian Ovaska HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Seminaari: Peliteoria Helsinki 18. syyskuuta 2006 Sisältö 1 Johdanto 1 2 Nollasummapelit 1 2.1
LisätiedotJOHDATUS TEKOÄLYYN TEEMU ROOS
JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN
LisätiedotDynaamiset regressiomallit
MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4B Bayesläinen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy
LisätiedotLuku 2. Datasta tietoon: mitä dataa? mitä tietoa?
1 / 14 Luku 2. Datasta tietoon: mitä dataa? mitä tietoa? T-61.2010 Datasta tietoon, syksy 2011 professori Erkki Oja Tietojenkäsittelytieteen laitos, Aalto-yliopisto 31.10.2011 2 / 14 Tämän luennon sisältö
LisätiedotLuento 12: XML ja metatieto
Luento 12: XML ja metatieto AS-0.110 XML-kuvauskielten perusteet Janne Kalliola XML ja metatieto Metatieto rakenne sanasto Resource Description Framework graafikuvaus XML Semanttinen Web agentit 2 1 Metatieto
LisätiedotTietoliikennesignaalit & spektri
Tietoliikennesignaalit & spektri 1 Tietoliikenne = informaation siirtoa sähköisiä signaaleja käyttäen. Signaali = vaihteleva jännite (tms.), jonka vaihteluun on sisällytetty informaatiota. Signaalin ominaisuuksia
LisätiedotPuheentunnistus. 1 Johdanto. Mikko Kurimo Teknillinen korkeakoulu Informaatiotekniikan laboratorio
Puheentunnistus Mikko Kurimo Teknillinen korkeakoulu Informaatiotekniikan laboratorio 1 Johdanto 1.1 Puheentunnistuksen merkitys Puhetta ymmärtävää konetta on pidetty tärkeänä askeleena ihmisen arkielämää
LisätiedotPuhe ja kieli, 28:2, 73 83 (2008) 73
Puhe ja kieli, 28:2, 73 83 (2008) 73 PUHEENTUNNISTUS Mikko Kurimo, Teknillinen korkeakoulu, Tietojenkäsittelytieteen laitos, Adaptiivisen Informatiikan tutkimusyksikkö Automaattinen puheentunnistus on
LisätiedotSanaluokkajäsennystä rinnakkaisilla transduktoreilla
Sanaluokkajäsennystä rinnakkaisilla transduktoreilla Nykykielten laitos FIN-CLARIN-seminaarissa 4. marraskuuta 2010 Sanaluokkajäsennys Mr. Gelbert also has fun with language. NNP NNP RB VBZ NN IN NN. Sanaluokkajäsennin
LisätiedotKäyttöliittymä. Ihmisen ja tuotteen välinen rajapinta. ei rajoitu pelkästään tietokoneisiin
Käyttöliittymä Ihmisen ja tuotteen välinen rajapinta ei rajoitu pelkästään tietokoneisiin Tasot: 1. Teknis-fysiologis-ergonimen 2. Käsitteellis-havainnoillinen 3. Toiminnallis-kontekstuaalinen, käyttötilanne
Lisätiedot1. TILASTOLLINEN HAHMONTUNNISTUS
1. TILASTOLLINEN HAHMONTUNNISTUS Tilastollisissa hahmontunnistusmenetelmissä piirteitä tarkastellaan tilastollisina muuttujina Luokittelussa käytetään hyväksi seuraavia tietoja: luokkien a priori tn:iä,
LisätiedotESIMERKKIPOHJAINEN MELUISAN PUHEEN AUTOMAATTINEN TUNNISTUS 1 JOHDANTO 2 ESIMERKKIPOHJAINEN PUHEENTUNNISTUS
ESIMERKKIPOHJAINEN MELUISAN PUHEEN AUTOMAATTINEN TUNNISTUS Antti Hurmalainen, Tuomas Virtanen, Jort Gemmeke, Katariina Mahkonen Signaalinkäsittelyn laitos Tampereen teknillinen yliopisto PL3, 331 Tampere
LisätiedotJohdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:
LisätiedotEstimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman
LisätiedotHarjoitus 6: Simulink - Säätöteoria. Syksy 2006. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1
Harjoitus 6: Simulink - Säätöteoria Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen säätötekniikkaan Takaisinkytkennän
LisätiedotSignaalinkäsittely Musiikin sisältöanalyysi Rumpujen nuotinnos Muotoanalyysi Yhteenveto. Lectio praecursoria
Lectio praecursoria Signal Processing Methods for Drum Transcription and Music Structure Analysis (Signaalinkäsittelymenetelmiä rumpujen nuotintamiseen ja musiikin muotoanalyysiin) Jouni Paulus 8.1.2010
LisätiedotDynamiikan hallinta Lähde: Zölzer. Digital audio signal processing. Wiley & Sons, 2008. Zölzer (ed.) DAFX Digital Audio Effects. Wiley & Sons, 2002.
Dynamiikan hallinta Lähde: Zölzer. Digital audio signal processing. Wiley & Sons, 2008. Zölzer (ed. DAFX Digital Audio Effects. Wiley & Sons, 2002. Sisältö:! Johdanto!! Ajallinen käyttäytyminen! oteutus!
LisätiedotFoneettiset symbolit
Clt 120: Fonetiikan perusteet: intro, äänentuotto, artikulaatiopaikat Martti Vainio -- syksy 2006 Foneettiset symbolit 5000-8000 eri kieltä n. 300 foneettista symbolia riittää niiden kuvaamiseen puheentuotto-
LisätiedotHarjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
LisätiedotMelun terveysvaikutukset alle 80dB:n äänitasoilla
Melun terveysvaikutukset alle 80dB:n äänitasoilla Irja Korhonen Ylilääkäri, Työterveys Aalto Lähteet: Suomen Lääkärilehti 36/2012 v sk 67 sivut 2445 2450b; Carter & Beh 1989; Miedema 2007; 3T Työturvallisuus
LisätiedotKanavamittaus moderneja laajakaistaisia HFjärjestelmiä
Kanavamittaus moderneja laajakaistaisia HFjärjestelmiä varten MATINEn tutkimusseminaari 18.11.2015 Partnerit: Oulun Yliopisto/CWC, Kyynel Oy, Tampereen Teknillinen Yliopisto Rahoitus: 63 512 Esittäjä:
LisätiedotFoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa Luentokuulustelujen esimerkkivastauksia Pertti Palo 30. marraskuuta 2012 Saatteeksi Näiden vastausten ei ole tarkoitus olla malleja vaan esimerkkejä.
LisätiedotKompleksiluvut signaalin taajuusjakauman arvioinnissa
Kompleksiluvut signaalin taajuusjakauman arvioinnissa Vierailuluento IMA-kurssilla Heikki Huttunen Lehtori, TkT Signaalinkäsittely, TTY heikki.huttunen@tut.fi Department of Signal Processing Fourier-muunnos
LisätiedotEsimerkki: Tietoliikennekytkin
Esimerkki: Tietoliikennekytkin Tämä Mathematica - notebook sisältää luennolla 2A (2..26) käsitellyn esimerkin laskut. Esimerkin kuvailu Tarkastellaan yksinkertaista mallia tietoliikennekytkimelle. Kytkimeen
LisätiedotMIKROAALTOUUNI VAASAN YLIOPISTO TEKNILLINEN TIEDEKUNTA SÄHKÖTEKNIIKKA. Tuomas Karri i78953 Jussi Luopajärvi i80712 Juhani Tammi o83312
VAASAN YLIOPISTO TEKNILLINEN TIEDEKUNTA SÄHKÖTEKNIIKKA Tuomas Karri i78953 Jussi Luopajärvi i80712 Juhani Tammi o83312 SATE.2010 Dynaaminen kenttäteoria MIKROAALTOUUNI Sivumäärä: 12 Jätetty tarkastettavaksi:
Lisätiedot9. Tila-avaruusmallit
9. Tila-avaruusmallit Aikasarjan stokastinen malli ja aikasarjasta tehdyt havainnot voidaan esittää joustavassa ja monipuolisessa muodossa ns. tila-avaruusmallina. Useat aikasarjat edustavat dynaamisia
LisätiedotMIKSI TUKIVIITTOMAT?
MITKÄ TUKIVIITTOMAT? Tukiviittomilla tarkoitetaan viittomamerkkien käyttämistä puhutun kielen rinnalla, siten että lauseen avainsanat viitotaan. Tukiviittomien tarkoituksena on tukea ja edistää puhutun
LisätiedotTekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa. Kimmo Kettunen Dimiko (Digra-projekti)
Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa Kimmo Kettunen Dimiko (Digra-projekti) Tekstinlouhinta Tekstinlouhinnassa pyritään saamaan tekstimassoista automaattisesti
LisätiedotJOHDATUS TEKOÄLYYN TEEMU ROOS
JOHDATUS TEKOÄLYYN TEEMU ROOS LUONNOLLISEN KIELEN KÄSITTELY (NATURAL LANGUAGE PROCESSING, NLP) TEKOÄLYSOVELLUKSET, JOTKA LIITTYVÄT IHMISTEN KANSSA (TAI IHMISTEN VÄLISEEN) KOMMUNIKAATIOON, OVAT TEKEMISISSÄ
Lisätiedot5 Akustiikan peruskäsitteitä
Puheen tuottaminen, havaitseminen ja akustiikka / Reijo Aulanko / 2016 2017 14 5 Akustiikan peruskäsitteitä ääni = ilmapartikkelien edestakaista liikettä, "tihentymien ja harventumien" vuorottelua, ilmanpaineen
LisätiedotOsa 1 Hengitys ja tuki Ólafur Torfason
Osa 1 Hengitys ja tuki 25.01.2018 Ólafur Torfason Hengitys Esimerkkivideo pallean liikkeestä (ei ääntä) https://www.youtube.com/watch?v=5jron_sm5gc Sisäänhengityksen aikana: Pallea liikkuu alaspäin Rintakehä
LisätiedotJOHDATUS TEKOÄLYYN TEEMU ROOS
JOHDATUS TEKOÄLYYN TEEMU ROOS TERMINATOR SIGNAALINKÄSITTELY KUVA VOIDAAN TULKITA KOORDINAATTIEN (X,Y) FUNKTIONA. LÄHDE: S. SEITZ VÄRIKUVA KOOSTUU KOLMESTA KOMPONENTISTA (R,G,B). ÄÄNI VASTAAVASTI MUUTTUJAN
LisätiedotT3 ohjata oppilasta havaitsemaan kieliä yhdistäviä ja erottavia ilmiöitä sekä tukea oppilaan kielellisen uteliaisuuden ja päättelykyvyn kehittymistä
A2-VENÄJÄ vl.4-6 4.LUOKKA Opetuksen tavoitteet Kasvu kulttuuriseen moninaisuuteen ja kielitietoisuuteen T1 ohjata oppilasta havaitsemaan lähiympäristön ja maailman kielellinen ja kulttuurinen runsaus sekä
Lisätiedot1 PID-taajuusvastesuunnittelun esimerkki
Enso Ikonen, Oulun yliopisto, systeemitekniikan laboratorio 2/23 Säätöjärjestelmien suunnittelu 23 PID-taajuusvastesuunnittelun esimerkki Tehtävänä on suunnitella säätö prosessille ( ) = = ( +)( 2 + )
LisätiedotVaikeavammaisen asiakkaan kanssa työskentely
Vaikeavammaisen asiakkaan kanssa työskentely Lähtökohtia Tavoitteena asiakkaan osallisuuden lisääminen. Asiakkaan kokemusmaailmaa tulee rikastuttaa tarjoamalla riittävästi elämyksiä ja kokemuksia. Konkreettisten
LisätiedotSkenaariot suurpetokantojen verotuksen suunnittelussa
Skenaariot suurpetokantojen verotuksen suunnittelussa Katja Holmala Riistapäivät 19.1.2016 Esityksen rakenne Tausta Mallit ilveksen populaatiokehityksestä Malli 1: populaatiomalli Malli 2: skenaario- eli
LisätiedotAineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin
Aineistoista 11.2.09 IK Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin Muotoilussa kehittyneet menetelmät, lähinnä luotaimet Havainnointi:
Lisätiedot4. Lausekielinen ohjelmointi 4.1
4. Lausekielinen ohjelmointi 4.1 Sisällys Konekieli, symbolinen konekieli ja lausekieli. Lausekielestä konekieleksi: - Lähdekoodi, tekstitiedosto ja tekstieditorit. - Kääntäminen ja tulkinta. - Kääntäminen,
LisätiedotAUTOMAATTINEN PUHEENTUNNISTUS
AUTOMAATTINEN PUHEENTUNNISTUS Teemu Salminen Opinnäytetyö Syyskuu 2015 Tietotekniikka Sulautetut järjestelmät ja elektroniikka TAMPEREEN AMMATTIKORKEAKOULU Tampere University of Applied Sciences TIIVISTELMÄ
LisätiedotProbabilistiset mallit (osa 2) Matemaattisen mallinnuksen kurssi Kevät 2002, luento 10, osa 2 Jorma Merikoski Tampereen yliopisto
Probabilistiset mallit (osa 2) Matemaattisen mallinnuksen kurssi Kevät 2002, luento 10, osa 2 Jorma Merikoski Tampereen yliopisto Esimerkki Tarkastelemme ilmiötä I, joka on a) tiettyyn kauppaan tulee asiakkaita
LisätiedotOsallisuuden ja kokemuksen prosessointia tehtävän avulla
Osallisuuden ja kokemuksen prosessointia tehtävän avulla POIMU Sosiaalityön käytännönopettajien koulutus Kirsi Nousiainen 13.11.2014 Lahti 13.11.2014 Kirsi Nousiainen 1 Kolme näkökulmaa ohjaukseen 1. Ihminen
LisätiedotPUHU MINULLE KUUNTELE MINUA
Helsingin terveyskeskus poliklinikka Puheterapeutit: K. Laaksonen, E. Nykänen, R. Osara, L. Piirto, K. Pirkola, A. Suvela, T. Tauriainen ja T. Vaara PUHU MINULLE KUUNTELE MINUA Lapsi oppii puheen tavallisissa
LisätiedotKUN LUKEMINEN ON HANKALAA. Helena Sorsa
KUN LUKEMINEN ON HANKALAA Helena Sorsa Lukemisen ja kirjoittamisen vaikeudet Lukivaikeus dysleksia fonologinen häiriö: henkilö ei kykene muuttamaan lukemaansa puheeksi näkee sanat, mutta ei löydä äänneasua
LisätiedotT Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1
T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti 24.2.2004, 8:30-0:00 N-grammikielimallit, Versio.. Alla on erään henkilön ja tilaston estimaatit sille, miten todennäköistä on, että
LisätiedotProjektisuunnitelma ja johdanto AS-0.3200 Automaatio- ja systeemitekniikan projektityöt Paula Sirén
Projektisuunnitelma ja johdanto AS-0.3200 Automaatio- ja systeemitekniikan projektityöt Paula Sirén Sonifikaatio Menetelmä Sovelluksia Mahdollisuuksia Ongelmia Sonifikaatiosovellus: NIR-spektroskopia kariesmittauksissa
LisätiedotDigitaalinen signaalinkäsittely Kuvankäsittely
Digitaalinen signaalinkäsittely Kuvankäsittely Teemu Saarelainen, teemu.saarelainen@kyamk.fi Lähteet: Ifeachor, Jervis, Digital Signal Processing: A Practical Approach H.Huttunen, Signaalinkäsittelyn menetelmät,
LisätiedotTILASTOLLINEN OPPIMINEN
301 TILASTOLLINEN OPPIMINEN Salmiakki- ja hedelmämakeisia on pakattu samanlaisiin käärepapereihin suurissa säkeissä, joissa on seuraavat sekoitussuhteet h 1 : 100% salmiakkia h 2 : 75% salmiakkia + 25%
LisätiedotPuhesynteesin perusteet Luento 5: unit selection -synteesi
Puhesynteesin perusteet Luento 5: unit selection -synteesi Nicholas Volk 14.2.2008 Käyttäytymistieteellinen tiedekunta Idea Aitoa puhetta on tallennettu tietokantaan tuhansien äänteiden verran Jopa yksittäisen
LisätiedotJorma Joutsenlahti / 2008
Jorma Joutsenlahti opettajankoulutuslaitos, Hämeenlinna Latinan communicare tehdä yleiseksi, jakaa Käsitteiden merkitysten rakentaminen ei ole luokassa kunkin oppilaan yksityinen oma prosessi, vaan luokan
LisätiedotDigitaalinen signaalinkäsittely Johdanto, näytteistys
Digitaalinen signaalinkäsittely Johdanto, näytteistys Teemu Saarelainen, teemu.saarelainen@kyamk.fi Lähteet: Ifeachor, Jervis, Digital Signal Processing: A Practical Approach H.Huttunen, Signaalinkäsittelyn
LisätiedotYhdyssana suomen kielessä ja puheessa
Yhdyssana suomen kielessä ja puheessa Tommi Nieminen Jyväskylän yliopisto Anna Lantee Tampereen yliopisto 37. Kielitieteen päivät Helsingissä 20. 22.5.2010 Yhdyssanan ortografian historia yhdyssanan käsite
LisätiedotÄänen koodaus automaattisessa puheentunnistuksessa
Äänen koodaus automaattisessa puheentunnistuksessa Roman Kossarev LuK-tutkielma Kuopion yliopisto Tieojenkäsittelytieteen laitos Toukokuu 2003 1 Tiivistelmä KUOPION YLIOPISTO, Informaatioteknologian ja
LisätiedotKoodaamme uutta todellisuutta FM Maarit Savolainen https://blog.edu.turku.fi/matikkaajakoodausta/
Koodaamme uutta todellisuutta FM Maarit Savolainen 19.1.2017 https://blog.edu.turku.fi/matikkaajakoodausta/ Mitä on koodaaminen? Koodaus on puhetta tietokoneille. Koodaus on käskyjen antamista tietokoneelle.
LisätiedotEi välttämättä, se voi olla esimerkiksi Reuleaux n kolmio:
Inversio-ongelmista Craig, Brown: Inverse problems in astronomy, Adam Hilger 1986. Havaitaan oppositiossa olevaa asteroidia. Pyörimisestä huolimatta sen kirkkaus ei muutu. Projisoitu pinta-ala pysyy ilmeisesti
LisätiedotMONISTE 2 Kirjoittanut Elina Katainen
MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi
LisätiedotT-61.246 DSP: GSM codec
T-61.246 DSP: GSM codec Agenda Johdanto Puheenmuodostus Erilaiset codecit GSM codec Kristo Lehtonen GSM codec 1 Johdanto Analogisen puheen muuttaminen digitaaliseksi Tiedon tiivistäminen pienemmäksi Vähentää
LisätiedotDBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola jtoivola@iki.fi
DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola jtoivola@iki.fi Historiaa Bayesin kaavan hyödyntäminen BN-ohjelmistoja ollut ennenkin Tanskalaisten Hugin
Lisätiedot9.2.3. Englanti. 3. luokan keskeiset tavoitteet
9.2.3. Englanti Koulussamme aloitetaan A1 kielen (englanti) opiskelu kolmannelta luokalta. Jos oppilas on valinnut omassa koulussaan jonkin toisen kielen, opiskelu tapahtuu oman koulun opetussuunnitelman
LisätiedotSignaalien datamuunnokset. Digitaalitekniikan edut
Signaalien datamuunnokset Datamuunnosten teoriaa Muunnosten taustaa Muunnosten teoriaa Muunnosten rajoituksia ja ongelmia Petri Kärhä 09/02/2009 Signaalien datamuunnokset 1 Digitaalitekniikan edut Tarkoituksena
LisätiedotSignaalien datamuunnokset
Signaalien datamuunnokset Datamuunnosten teoriaa Muunnosten taustaa Muunnosten teoriaa Muunnosten rajoituksia ja ongelmia Petri Kärhä 06/02/2004 Luento 4a: Signaalien datamuunnokset 1 Digitaalitekniikan
LisätiedotBerlitzin taitotaso 1 CEF-taso A 1
t Berlitzin taitotaso 1 CEF-taso A 1 Ymmärtää ja osaa käyttää tuttuja, jokapäiväisiä ilmauksia ja yksinkertaisia lauseita. Osaa esitellä itsensä ja kysyä muilta perustietoja kuten asuinpaikkaa, vointia
LisätiedotTilastollinen testaus. Vilkkumaa / Kuusinen 1
Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää
LisätiedotSuorityskyvyn mittaaminen viittomakielisten videoiden sisältöanalyysissä. Ville Viitaniemi Tietojenkäsittelytieteen laitos 16.1.
Suorityskyvyn mittaaminen viittomakielisten videoiden sisältöanalyysissä Ville Viitaniemi Tietojenkäsittelytieteen laitos 16.1.2014 Viittomakieli tapa jolla kuurot viestivät keskenään Suomessa n. 5000
LisätiedotPuheteknologia Informaa2oteknologian perusteet. Kalle Palomäki Signaalinkäsi8elyn ja akus2ikan laitos
Puheteknologia Informaa2oteknologian perusteet Kalle Palomäki Signaalinkäsi8elyn ja akus2ikan laitos Määritelmä: Puhekäy8ölii8ymä Kone8a ohjataan ja käytetään puhumalla Kone voi olla hardwarea, sobaa,
LisätiedotKARTTAPAIKANNUKSEN AVULLA TEHTY KYSELYTUTKIMUS TOIMISTOTILOJEN ÄÄNIYMPÄRISTÖSTÄ. Tiivistelmä
KARTTAPAIKANNUKSEN AVULLA TEHTY KYSELYTUTKIMUS TOIMISTOTILOJEN ÄÄNIYMPÄRISTÖSTÄ Arto Rauta 1, Maarit Kahila 2 1 Ecophon Strömberginkuja 2 00380 Helsinki arto.rauta@saint-gobain.com 2 Mapita Oy Kanavaranta
LisätiedotIlkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
LisätiedotJärvitesti Ympäristöteknologia T571SA 7.5.2013
Hans Laihia Mika Tuukkanen 1 LASKENNALLISET JA TILASTOLLISET MENETELMÄT Järvitesti Ympäristöteknologia T571SA 7.5.2013 Sarkola Eino JÄRVITESTI Johdanto Järvien kuntoa tutkitaan monenlaisilla eri menetelmillä.
LisätiedotMitä aivokuvantaminen kertoo kielen kehityksen ja lukemisen erityisvaikeuksista?
Mitä aivokuvantaminen kertoo kielen kehityksen ja lukemisen erityisvaikeuksista? Päivi Helenius Aivotutkimusyksikkö Kylmälaboratorio Aalto-yliopisto Foniatrian poliklinikka Silmä-korvasairaala HUS Funktionaalinen
LisätiedotInfraäänimittaukset. DI Antti Aunio, Aunio Group Oy
Infraäänimittaukset DI Antti Aunio, Aunio Group Oy antti.aunio@aunio.fi Mitä infraääni on? Matalataajuista ilmanpaineen vaihtelua Taajuusalue < 20 Hz Ihmisen kuuloalue on tyypillisesti 20-20 000 Hz Osa
LisätiedotTIETOJEN TUONTI TIETOKANNASTA + PIVOT-TAULUKON JA OLAP-KUUTION TEKO
TIETOJEN TUONTI TIETOKANNASTA + PIVOT-TAULUKON JA OLAP-KUUTION TEKO JOUNI HUOTARI 2005-2010 OLAP-OHJETEKSTIT KOPIOITU MICROSOFTIN OHJATUN OLAP-KUUTION TEKO-OHJEESTA ESIMERKIN KUVAUS JA OLAP-MÄÄRITELMÄ
LisätiedotJouni Huotari OLAP-ohjetekstit kopioitu Microsoftin ohjatun OLAP-kuution teko-ohjeesta. Esimerkin kuvaus ja OLAP-määritelmä
OLAP-kuution teko Jouni Huotari OLAP-ohjetekstit kopioitu Microsoftin ohjatun OLAP-kuution teko-ohjeesta Esimerkin kuvaus ja OLAP-määritelmä Tavoitteena on luoda OLAP-kuutio Northwind-tietokannan tilaustiedoista
LisätiedotT Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ke , 12:15 14:00 Puheentunnistus ja kielimallien evaluointi Versio 1.
T-61.020 Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ke 18.4.2007, 12:1 14:00 Puheentunnistus ja kielimallien evaluointi Versio 1.0 1. Käytämme siis jälleen viterbi-algoritmia todennäköisimmän
LisätiedotLaskuharjoitus 2 ( ): Tehtävien vastauksia
TT12S1E Tietoliikenteen perusteet Metropolia/A. Koivumäki Laskuharjoitus 2 (11.9.2013): Tehtävien vastauksia 1. Eräässä kuvitteellisessa radioverkossa yhdessä radiokanavassa voi olla menossa samanaikaisesti
LisätiedotOHJEET SISÄMARKKINOIDEN HARMONISOINTIVIRASTOSSA (TAVARAMERKIT JA MALLIT) SUORITETTAVAAN YHTEISÖN TAVARAMERKKIEN TUTKINTAAN OSA C VÄITEMENETTELY
OHJEET SISÄMARKKINOIDEN HARMONISOINTIVIRASTOSSA (TAVARAMERKIT JA MALLIT) SUORITETTAVAAN YHTEISÖN TAVARAMERKKIEN TUTKINTAAN OSA C VÄITEMENETTELY JAKSO 2 IDENTTISYYS JA SEKAANNUSVAARA LUKU 5 HALLITSEVAT
LisätiedotKiinan kursseilla 1 2 painotetaan suullista kielitaitoa ja kurssista 3 alkaen lisätään vähitellen myös merkkien lukemista ja kirjoittamista.
Kiina, B3kielen opetussuunnitelma (lukiossa alkava oppimäärä) Kiinan kursseilla tutustutaan kiinankielisen alueen elämään, arkeen, juhlaan, historiaan ja nykyisyyteen. Opiskelun ohessa saatu kielen ja
LisätiedotSuomen kielen Osaamispyörä -työkalu
Suomen kielen Osaamispyörä -työkalu Tavoitteet Kohderyhmät Käyttö Suomen kielen Osaamispyörän tavoitteena on tehdä näkyväksi maahanmuuttajataustaisten työntekijöiden suomen kielen osaamista. Osaamispyörä
LisätiedotT Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1
T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:
Lisätiedot