Puheteknologia Informaa2oteknologian perusteet Kalle Palomäki Signaalinkäsi8elyn ja akus2ikan laitos
Määritelmä: Puhekäy8ölii8ymä Kone8a ohjataan ja käytetään puhumalla Kone voi olla hardwarea, sobaa, jne.
Juurilta liikkelle: - Varhainen visio puhekäy8ölii8ymästä h8ps://www.youtube.com/watch?v=mdlelw4zjke
Oppimistavoi8eet Oppii tuntemaan puheteknologian osa- alueet ja tutustuu perusteisiin Puheen siirto ja koodaus Puheen tunnistus ja synteesi Tutustua ihmisen puheentuo8oon, joka on puheteknologian perustana Tällä kurssilla kevyt johdanto teemaan Tutustutaan ilmiöihin, mu8a ei mennä syvälle teoriaan
Puhekäy8ölii8ymiä Täysin automa2soitu versio automaarnen puheentunnis2n ymmärtää puhesynteesi vastaa Annetaan komentoja lai8eille puhuen Matkapuhelimet, navigaa8orit Hoitoteknologia esim. hammaslääkärin tuoli Automa2soidut puhelinkeskukset Suomessa mm. Taksipalvelu Puhelinvaihteet (Sonera esimerkkinä) Sanelusovellukset Esim. terveydenhuollon sanelut DokumenRen kirjoi8aminen sanelulla Tiedon haku puheella Käy8ölii8ymä voi olla puhepohjainen Myös puheaudio voi olla muune8u teks2ksi käy8äen automaarsta puheentunnis2nta
Muitä läheisia teknologioita Puhujan tunnistus Emoo2oiden tunnistus Ympäristöäänten tunnistus, musiikin sisältöpohjainen analyysi ja synteesi
Sisältö Ääni Puheentuo8o Puheenkoodaus Puhekäy8ölii8ymiä ja esimerkkejä Puheentunnistus Puhesynteesi Demoja
Orientaa2o Pariporina: Puheentunnistuksen haasteet Miksi automaarnen puheentunnistus on vaikeaa?
Puheentunnistus Ympäristö ja mikrofonit Melu: kahvilat, auto, liikenne Kaiunta: lähimikrofoni, pöytämikrofoni Puhelinpuhe Puhetyyli Puhuja
Puheentunnistus Ympäristö ja mikrofonit Puhetyyli Erotetut sanat vs. jatkuva puhe Rajoite8u vs. laaja sanasto Spontaani puhe Puhujan mallinnus
Puheentunnistus Ympäristö ja mikrofonit Puhetyyli Puhujan mallinnus Puhujariippuvat mallit Puhujariippuma8omat mallit Puhuja- adaptaa2o
Puheentunnis2n Puheentunnis2n muuntaa puhutun äänisignaalin teks2ksi Puhesignaali Piirre- irroitus Akus2nen malli Dekooderi Teksti Kieli- malli
Puhesignaali Piirre- irroitus Akus2nen malli Dekooderi Teksti Kieli- malli A a l t o ylio p i s to
Puhe signaali Piirre- irroitus Akus;nen malli Dekooderi Teksti Kieli- malli Akus2nen malli perustuu foneemeihin puhu8u vas2n kirjaimille Tilastollinen malli kuvaa keskimäärin eri foneemien akus2ikan Opetetaan kymmenistä - tuhansista tunneista puhu8ua kieltä eri puhujilta
Interna2onal Phone2c Alphabet
Puhe signaali Piirre- irroitus Akus;nen malli Dekooderi Teksti Kieli- malli c
A a l t o ylio p i s to
1 2 Tehtävä 1. Mikä vaihtoehdoista Esi8ää sanaparia sähkötekniikan korkeakoulu?? 3
S ä hkötek nii kan k o r kea k o u l u P e r u s 2e teiden kor kea k o u lu I n s i n ö öri 2e tei den kor kea k o u l u
Puheen tunnis2n luoki8elu Akus2nen malli luoki8elee puhedataa foneemeiksi 2lastollisten mallien avulla
Luoki2n
Luoki2n
Luoki2n
0 opetus 0 1 0 0 _ k k k k k ae ae ae ae t t t t t _
0 opetus 0 1 0 0 _ k k k k k ae ae ae ae t t t t t _
0 opetus 0 0 0 1 _ k k k k k ae ae ae ae t t t t t _
0 Tunnistus 0.05 0.4 0.05 0.5 _ k k k k k ae ae ae ae t t t t t _ Sum()=1
1dim. Gaussin sekoitemalli Havainnon todennäköisyys Havainto Picture by B.Pellom
Esimerkki: Puheen 2lastollinen malli 0.05 0.05 Todennäköisyys 0.04 0.03 0.02 0.01 0.04 0.03 0.02 0.01
Tehtävä 2a. Puheen 2lastollinen malli 1 2 0.05 0.05 Todennäköisyys 0.04 0.03 0.02 0.01 0.04 0.03 0.02 0.01
Tehtävä 2b. Puheen 2lastollinen malli 1 2 0.05 0.05 Todennäköisyys 0.04 0.03 0.02 0.01 0.04 0.03 0.02 0.01
Tehtävä 2b. Puheen 2lastollinen malli 1 2 0.05 0.05 Todennäköisyys 0.04 0.03 0.02 0.01 0.04 0.03 0.02 0.01
Tehtävä 2c. Puheen 2lastollinen malli 1 2 0.05 0.05 Todennäköisyys 0.04 0.03 0.02 0.01 0.04 0.03 0.02 0.01
Tehtävä 2c. Puheen 2lastollinen malli 0.05 0.05 Todennäköisyys 0.04 0.03 0.02 0.01 0.04 0.03 0.02 0.01
0 Tunnistus 0.05 0.4 0.05 0.5 _ k k k k k ae ae ae ae t t t t t _ Sum()=1
Puhe signaali Piirre- irroitus Akus;nen malli Dekooderi Teksti Kieli- malli c
Puhe signaali Piirre- irroitus Akus2nen malli Dekooderi Teksti Kieli- malli Tilastollinen malli kielelle miten todennäköises2 2e8y sana esiintyy konteks2ssa suomen presidenr??? Opetetaan teks2aineistosta leh2ä, kirjoja, ym. tavallista teks2ä Laajuus luokkaa 10 miljoonaa sanaa
Tehtävä 3a. Mikä sana ennustaa todennäköisimmmin sanaa eat? A: I (eat) B: lunch (eat) C: to (eat)
Tehtävä 3a. Todennäköisyydet A: I (eat) : 0.0038 B: lunch (eat) : 0 C: to (eat) : 0.26
Tehtävä 3b. Mikä sana ennustaa todennäköisimmin sanaa lunch A: want (lunch) B: food (lunch) C: Chinese (lunch)
Tehtävä 3b. Todennäköisyydet. A: want (lunch) : 0.0049 B: food (lunch) : 0 C: Chinese (lunch) : 0.0047
Data from Berkeley restaurant corpus (Jurafsky & Mar2n, 2000 Speech and language processing ). I want to eat Chinese food lunch I 8 1087 0 13 0 0 0 want 3 0 786 0 6 8 6 to 3 0 10 860 3 0 12 eat 0 0 2 0 19 2 52 Chinese 2 0 0 0 0 120 1 food 19 0 17 0 0 0 0 lunch 4 0 0 0 0 1 0 1087 / 3437=.32 Uni- gram counts I 3437 want 1215 to 3256 eat 938 Chinese 213 food 1506 lunch 459 3 / 3256 =.00092 6 / 1215 =.0049 Calculate missing bi- gram probabili2es I want to eat Chinese food lunch I.0023.32 0.0038 0 0 0 want.0025 0.65 0.0049.0066.0049 to.00092 0.0031.26.00092 0.0037 eat 0 0.0021 0.020.0021.055 Chinese.0094 0 0 0 0.056.0047 food.013 0.011 0 0 0 0 lunch.0087 0 0 0 0.0022 0
Puhesignaali Piirre- irroitus Akus2nen malli Dekooderi Teksti Kieli- malli Dekooderi yhdistää akus2sen ja kielimallin Valitsee eri tunnistushypoteeseista parhaan
Dekoodaushypoteeseja Speech recogni2on Picture by B.Pellom
Sisältö Ääni Puheentuo8o Puheenkoodaus Puhekäy8ölii8ymiä ja esimerkkejä Puheentunnistus Puhesynteesi Demoja
Puhesynteesi Muuntaa teks2n puheeksi Lisäykset lähde- suoda2n malliin Teks2n analyysi Teks2n ja puheen yhteyden 2lastollinen malli
Puhesynteesi Teks2- analyysi Tilastollinen malli Lähteen generoin2 Ääniväylä- suoda2n SynteeRnen puhe
Demo puheryhmän tutkimuksesta Uu2slähetys AutomaaRses2 teks2te8y Kuva indeksoitu automaarses2 h8ps://www.youtube.com/watch? v=wdfa1xadhge
Tiedonhaku Audio materiaali on muune8u teks2ksi puheen tunnis2men avulla Esimerkki Turunen & Kurimo tutkimuksesta
Demo ryhmän tutkimuksesta AutomaRnen tulkki joka kääntää käy8äjän puheen suomesta englanniksi EU- Emime- projek2 h8ps://www.youtube.com/watch? v=wqv7uyayaq0
Puhesynteesinäy8eitä : Glo8- HMM- synteesi (EU- projek2, SIMPLE4ALL, Paavo Alku, Mikko Kurimo, MarR Vainio) Mies (suomeksi): Nainen (suomeksi): Mies (Amerikan englan2):
Demo: äänen personoin2 Äänen personoin2 adaptoimalla, puhesynteesi 2etylle puhujalle
Lisää puheesta ja signaalinkäsi8elystä Sovelle8u digitaalinen signaalinkäsi8ely: h8ps://www.youtube.com/watch?v=thrmglfbrza h8ps://www.youtube.com/watch?v=v08d2q6k2ig Automa2c Speech Recogni2on (5 cr. maisteriopinnot): h8ps://mycourses.aalto.fi/course/view.php?id=5180
Harjoituksesta Vokaalinauhoi8eiden analysoin2 Audacity ohjelmalla (luento 1) Puheentunnis2men kokeilu (luento 2) Esitehtävä Tuotetaan Audacityllä spektrikuvat vokaalista Kokeillaan puheentunnis2nta ja etsitään virheet Laskari analysoidaan spektrit ja puheentunnistusvirheet
Kiitos mielenkiinnosta!