8003051 Puheenkäsittelyn menetelmät

8003051 Puheenkäsittelyn menetelmät Luento 7.10.2004 Puhesynteesi Sisältö 1. Sovelluskohteita 2. Puheen ja puhesyntetisaattorin laatu 3. Puhesynteesin toteuttaminen TTS-syntetisaattorin komponentit Kolme toteutusperiaatetta puheen generoimiseen 1. formanttisynteesi 2. konkatenaatio 3. artikulatorinen synteesi 4. Katsaus historiaan 5. Esimerkkejä 6. Kirjallisuutta

Mikä synteesi? Koodatun puheen dekoodaus Tekstistä puheeksi Joku muu, mikä? TTS-sovelluksia käyttöliittymät tiedustelut viestien kuunteleminen näkövammaisten avustus puhekykynsä menettäneen potilaan avustus viihdesovellukset tutkimus... puhekoodekin erikoisversio automaattinen kielen kääntäminen

Puhesignaalin laatu Ymmärrettävyys yksittäisten äänteiden erotteleminen (konsonantit) sana- ja lausetason ymmärrettävyys Prosodia luonnollisuus: rytmi, painotukset, intonaatio persoonallisuus, tunteet Äänenlaatu taustakohina impulssimaiset häiriöt vääristymät metallisuus, käheys tms. ongelmat mumina Miten laatua arvioidaan? Puhesyntetisaattorin laatu Puhesignaalin laatu Käyttökelpoisuus kohdesovelluksessa Laskennallinen kompleksisuus Muistin tarve Riippuvuus ohjelmistoalustasta Modulaarisuus Kehitysmahdollisuudet

TTS:n toteutus 1. Tekstin analysointi dokumentin rakenne ja kieli tekstin normalisointi tekstin ymmärtäminen prosodian tulkitseminen kirjoitusmerkeistä foneemeiksi 2. Puheen generointi synteesisegmenttien etsintä tai generointi prosodisten piirteiden simulointi pääasiassa 3 toteutustapaa Puheen generointi (1) - formanttisynteesi Lähde-suodin-malliin perustuva parametrinen menetelmä Iso kasa sääntöjä parametrien säätelemiseen Oli pitkään vallitseva menetelmä Etuja: joustava mahdollisuus periaatteessa mihin tahansa äänteisiin Haittoja: keinotekoinen äänenlaatu mallien asettamat rajoitukset

Puheen generointi (2) - konkatenaatio Leikkaa-liimaa -synteesi, jossa valitaan lyhyitä segmenttejä tietokannasta ja liitetään niitä yhteen Yksikköinä foneemit, difonit, trifonit tms. Etuja: luonnollisempi äänenlaatu kuin formanttisynteesissä erinomainen laatu rajoitetuissa sovelluksissa Haittoja: segmenttien yhteensopivuusongelmat prosodian toteuttaminen vaikeaa riippuvuus tietokannan ominaisuuksista suuri muistikapasiteetin tarve tietokannan luominen työlästä Puheen generointi (3) - artikulatorinen synteesi Puheentuoton fysikaaliseen mallinnukseen perustuva menetelmä Suuri määrä mallikomponentteja ja niiden säätöparametreja Ei vielä yleisesti käytössä Etuja: teoriassa parhaat mahdollisuudet luonnolliseen puheeseen ei ongelmia transienttien tuottamisessa Haittoja: laskennallisesti valtavan raskasta

Katsaus historiaan Analoginen Voder 1939 (Homer Dudley) Ensimmäiset formantti- ja artikulatoriset syntetisaattorit 1950-luvulla Ensimmäinen kokonainen TTS 1968 PSOLA 1985 -> konkatenaation yleistyminen difonikonkatenaatiosta siirrytty yleisempiin unit selection -menetelmiin Kokeiluja myös sini-kohina-malleilla, kätketyillä Markovin malleilla, neuroverkoilla jne. Jatkokehityksen tarve Puheen luonnollisuus prosodian mallintaminen puhujan persoonaan ja tunnetilaan liittyvät ominaisuudet Tietokannat muistin tarve vs. monipuolisuus Lingvistinen analyysi semantiikka kieliriippuvuus prosodia Yhteistyötä eri tieteenaloilla tiivistettävä

Esimerkkejä syntetisaattoreista Formanttisynteesi: Klattalk DECTalk (uusi versio yrittää myös yhdistää tähän konkatenaatiota) Konkatenaatio: AT&T Bell Labs Text-to-Speech (difonien, trifonien ja kontekstiriippuvaisten allofonien katenointia) Festival (CMU:n ja CSTR:n yhteistyötä) Laureate MBROLA Artikulatorinen synteesi: Gnuspeech Kirjallisuutta A. W. Black, Perfect Synthesis For All of the People All of the Time, IEEE Workshop on Speech Synthesis, 2002. X. Huang, A. Acero, H.-W. Hon, Spoken Language Processing, Prentice Hall PTR, 2001. S. Lemmetty, Review of Speech Synthesis Technology, Master's Thesis, Helsinki University of Technology, 1999.