8003051 Puheenkäsittelyn menetelmät



Samankaltaiset tiedostot
TTS. Puhesynteesi (tekstistä puheeksi, engl. text-tospeech,

Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Puhesynteesi. Martti Vainio. 11. huhtikuuta 2003

8 Puhesynteesi. 8.1 Syntetisoidun puhesignaalin laatu

Puheentuoton fonetiikan kertausta Vfo 251, Puhesynteesin perusteet. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen.

Puhesynteesin perusteet Luento 5: unit selection -synteesi

SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento TTY/Signaalinkäsittelyn laitos Konsta Koppinen

Puheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting

Puhesynteesin perusteet Luento 4: difonikonkatenaatio

» Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN

HUUDETUN PUHEEN ANALYYSI JA SYNTEESI

Pianon äänten parametrinen synteesi

Puhutun ja kirjoitetun rajalla

PL 9/Siltavuorenpenger 5 A, Helsingin yliopisto etunimi.sukunimi@helsinki.fi

SGN-4010, Puheenkäsittelyn menetelmät Harjoitus 6, 18. ja

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

Puheentunnistus Mikko Kurimo

Ville Kemppainen Harri Keronen

Suomen prosodian variaation tutkimuksesta

Malliperustainen ohjelmistokehitys - MDE Pasi Lehtimäki

Mat Systeemien identifiointi

Puhekäyttöliittymän opasteiden suunnittelu. Susanna Helin

Puheteknologia Informaa2oteknologian perusteet. Kalle Palomäki Signaalinkäsi8elyn ja akus2ikan laitos

KANDIDAATINTYÖ. Lassi Heikkinen Ilkka Leinonen Antero Tossavainen

Uutisjärjestelmä. Vaatimusmäärittely. Web-palvelujen kehittäminen. Versio 1.3

5 Akustiikan peruskäsitteitä


Tarvitseeko informaatioteknologia matematiikkaa?

Parametristen mallien identifiointiprosessi

Kieli merkitys ja logiikka. Johdanto. Kurssin sisältö. Luento 1: Johdanto. Kirjasta. Kieli, merkitys ja logiikka, HY, kevät Saara Huhmarniemi 1

Mitä suomen intonaatiosta tiedetään

Johdatus kieliteknologiaan Luku 4: Puheteknologia

Teollisuusautomaation standardit Osio 9

Kieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat

Rakenteisen ohjelmoinnin harjoitustyö

FONETIIKKA SUULLISEN KIELITAIDON ARVIOINNISSA

FONETIIKAN (YLEINEN LINJA) KOULUTUS

Sijainnin merkitys Itellassa GIS. Jakelun kehittämisen ajankohtaispäivä

Vfo254: Puhekorpusten käyttö

Parametristen mallien identifiointiprosessi

Maailma visuaalivalmistajan näkökulmasta

Merkkauskielten käyttö puhesynteesissä

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

Luonnolliset vs. muodolliset kielet

Testidatan generointi

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

Jukka Pätynen. Jukka, Jussi, Niklas, aiheassistenat 5: Tilaääni Prof. Ville Pulkki, Juhani Paasonen

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

4 Fonetiikkaa. Puhe-elimet

RATKI 1.0 Käyttäjän ohje

WWW-sivut HTML-kielellä esitettyä hypertekstiaineistoa

Mat Systeemien identifiointi, aihepiirit 1/4

JOHDATUS TEKOÄLYYN TEEMU ROOS

PORTFOLIO LÄÄKÄRIKOULUTUTTAJIEN KESÄKOULU SAHANLAHTI DUODECIM SIRPA SUNI. Lääkärikouluttajien kesäkoulu - Sirpa Suni 2009

POTILASSIMULAATIOMENETELMÄ JA OPPIMISTULOKSET LÄÄKEHOIDON KOULUTUKSESSA

Puhekorpukseet. Puhekorpukset ja puhetietokannat. Puhekorpus. Martti Vainio

12 Prosodiset ominaisuudet

Entistäkin hyödyllisempi Subscription ja Autodesk 360

Puheentunnistus ja synteettinen puhe

TIE Samuel Lahtinen. Lyhyt UML-opas. UML -pikaesittely

Vfo254: Puhekorpusten käyttö

Käyttöliittymä. Ihmisen ja tuotteen välinen rajapinta. ei rajoitu pelkästään tietokoneisiin

NORMALISOINTI TIETOJEN MALLINNUS JOUNI HUOTARI & ARI HOVI

GafChromic EBT3 filmin ominaisuudet & MC

Hei kuka puhuu? lapsen kohtaaminen ja tukeminen

Puheenkäsittelyn menetelmät

Johdatus rakenteisiin dokumentteihin

Puheenkoodaus. Olivatpa kerran iloiset serkukset. PCM, DPCM ja ADPCM

Prosodian havaitsemisesta: suomen lausepaino ja focus

Prolog kielenä Periaatteet Yhteenveto. Prolog. Toni ja Laura Fadjukoff. 9. joulukuuta 2010

P e d a c o d e ohjelmointikoulutus verkossa

Puhe ja kommunikaatio

Metsäkulttuurihanke Haarajoki TTS Tea Elstob

Viikko

Toteutusvaihe T3 Digi-tv: Edistymisraportti

Työkalujen merkitys mittaamisessa

opinnäytteiden palautuksessa, käsittelyssä ja arvostelussa Joonas Kesäniemi

Johdanto. Agenda. Tuotantoprosessi. Historiallinen kehitys. Konsepti. Tuotantoprosessin vaiheet

MITÄ ON KEHITYSVAMMAISUUS? Terveydenhuollon palveluohjaus - Kehitysvammaisen henkilön tukena terveydenhuollossa

Väylät. Prosessorin tie ulkomaailmaan Pienissä järjestelmissä vain yksi väylä. Osoite, data ja ohjaussignaalit Prosessori ainoa herra (master)

Tekoälykokeiluprojekti. Henkilökohtaisen kalenterin optimointi tekoälyllä Skycode Oy (ent. Suomen Mediatoimisto Oy)

Kestävä aivotyö aivotyön tuottavuus

ELEC-C5210 Satunnaisprosessit tietoliikenteessä

Energiajärjestelmän haasteet ja liikenteen uudet ratkaisut

Helsinki Testbedin säätuotteet tänään ja tulevaisuudessa

Ohjelmistojen mallintaminen, mallintaminen ja UML

Englannin kieli ja sen testaus Suomen korkeakouluissa

TIEP114 Tietokoneen rakenne ja arkkitehtuuri, 3 op. FT Ari Viinikainen

Webforum. Version 15.2 uudet ominaisuudet. Päivitetty:

FUNKTIONAALIANALYYSIN PERUSKURSSI Johdanto

Puheteknologian hyödyntäminen rakennusten teknisissä järjestelmissä

Ohjelmiston testaus ja laatu. Ohjelmistotekniikka elinkaarimallit

Copyright by Haikala. Ohjelmistotuotannon osa-alueet

Alkukartoitus Opiskeluvalmiudet

Vinkkejä hyvään graduun. Janne Hukkinen Helsingin yliopisto

Kuva 1. Jokaisen tavallisen kuvan tasotyökalussa näkyy vain yksi taso, tässä nimellä tausta.

Näkövammaisten ihmisten ottaminen huomioon puhekäyttöliittymän suunnittelussa Tapaus Aistiboxi. Liisa Huotari

Transkriptio:

8003051 Puheenkäsittelyn menetelmät Luento 7.10.2004 Puhesynteesi Sisältö 1. Sovelluskohteita 2. Puheen ja puhesyntetisaattorin laatu 3. Puhesynteesin toteuttaminen TTS-syntetisaattorin komponentit Kolme toteutusperiaatetta puheen generoimiseen 1. formanttisynteesi 2. konkatenaatio 3. artikulatorinen synteesi 4. Katsaus historiaan 5. Esimerkkejä 6. Kirjallisuutta

Mikä synteesi? Koodatun puheen dekoodaus Tekstistä puheeksi Joku muu, mikä? TTS-sovelluksia käyttöliittymät tiedustelut viestien kuunteleminen näkövammaisten avustus puhekykynsä menettäneen potilaan avustus viihdesovellukset tutkimus... puhekoodekin erikoisversio automaattinen kielen kääntäminen

Puhesignaalin laatu Ymmärrettävyys yksittäisten äänteiden erotteleminen (konsonantit) sana- ja lausetason ymmärrettävyys Prosodia luonnollisuus: rytmi, painotukset, intonaatio persoonallisuus, tunteet Äänenlaatu taustakohina impulssimaiset häiriöt vääristymät metallisuus, käheys tms. ongelmat mumina Miten laatua arvioidaan? Puhesyntetisaattorin laatu Puhesignaalin laatu Käyttökelpoisuus kohdesovelluksessa Laskennallinen kompleksisuus Muistin tarve Riippuvuus ohjelmistoalustasta Modulaarisuus Kehitysmahdollisuudet

TTS:n toteutus 1. Tekstin analysointi dokumentin rakenne ja kieli tekstin normalisointi tekstin ymmärtäminen prosodian tulkitseminen kirjoitusmerkeistä foneemeiksi 2. Puheen generointi synteesisegmenttien etsintä tai generointi prosodisten piirteiden simulointi pääasiassa 3 toteutustapaa Puheen generointi (1) - formanttisynteesi Lähde-suodin-malliin perustuva parametrinen menetelmä Iso kasa sääntöjä parametrien säätelemiseen Oli pitkään vallitseva menetelmä Etuja: joustava mahdollisuus periaatteessa mihin tahansa äänteisiin Haittoja: keinotekoinen äänenlaatu mallien asettamat rajoitukset

Puheen generointi (2) - konkatenaatio Leikkaa-liimaa -synteesi, jossa valitaan lyhyitä segmenttejä tietokannasta ja liitetään niitä yhteen Yksikköinä foneemit, difonit, trifonit tms. Etuja: luonnollisempi äänenlaatu kuin formanttisynteesissä erinomainen laatu rajoitetuissa sovelluksissa Haittoja: segmenttien yhteensopivuusongelmat prosodian toteuttaminen vaikeaa riippuvuus tietokannan ominaisuuksista suuri muistikapasiteetin tarve tietokannan luominen työlästä Puheen generointi (3) - artikulatorinen synteesi Puheentuoton fysikaaliseen mallinnukseen perustuva menetelmä Suuri määrä mallikomponentteja ja niiden säätöparametreja Ei vielä yleisesti käytössä Etuja: teoriassa parhaat mahdollisuudet luonnolliseen puheeseen ei ongelmia transienttien tuottamisessa Haittoja: laskennallisesti valtavan raskasta

Katsaus historiaan Analoginen Voder 1939 (Homer Dudley) Ensimmäiset formantti- ja artikulatoriset syntetisaattorit 1950-luvulla Ensimmäinen kokonainen TTS 1968 PSOLA 1985 -> konkatenaation yleistyminen difonikonkatenaatiosta siirrytty yleisempiin unit selection -menetelmiin Kokeiluja myös sini-kohina-malleilla, kätketyillä Markovin malleilla, neuroverkoilla jne. Jatkokehityksen tarve Puheen luonnollisuus prosodian mallintaminen puhujan persoonaan ja tunnetilaan liittyvät ominaisuudet Tietokannat muistin tarve vs. monipuolisuus Lingvistinen analyysi semantiikka kieliriippuvuus prosodia Yhteistyötä eri tieteenaloilla tiivistettävä

Esimerkkejä syntetisaattoreista Formanttisynteesi: Klattalk DECTalk (uusi versio yrittää myös yhdistää tähän konkatenaatiota) Konkatenaatio: AT&T Bell Labs Text-to-Speech (difonien, trifonien ja kontekstiriippuvaisten allofonien katenointia) Festival (CMU:n ja CSTR:n yhteistyötä) Laureate MBROLA Artikulatorinen synteesi: Gnuspeech Kirjallisuutta A. W. Black, Perfect Synthesis For All of the People All of the Time, IEEE Workshop on Speech Synthesis, 2002. X. Huang, A. Acero, H.-W. Hon, Spoken Language Processing, Prentice Hall PTR, 2001. S. Lemmetty, Review of Speech Synthesis Technology, Master's Thesis, Helsinki University of Technology, 1999.