Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Puhesynteesin historiaa Puhesynteesi Martti Vainio Fonetiikan laitos, Helsingin yliopisto Mekaaniset synteesit: 1700-luvulla asiaa harrastivat Wolfgang von Kempelen ja Christian Kratzenstein. 1900-luvulla tulivat elektromekaaniset sekä elektroniset synteesit ja vuosisadan loppupuolella digitaaliset syntisaattorit. Ks. http://www.acoustics.hut.fi/ slemmett/dippa/chap2.html Puhesynteesi p.1/38 Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.2/38 Historiaa: Kratzenstein Historiaa: Kempelen Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.3/38 Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.4/38

Historiaa: Kempelen Puhesynteesin historiaa: 1930-luku 1936: Englannin puhelinyhtiön puhuva kello käytti optista tallennusta lausekkeet, sanat ja sanojen osat. 1939: Bell Laboratorion VODER (Homer Dudley) mekaaninen urkujen kaltainen laite jolla voitiin soittaa puhetta. (1)* Dudleyn VOCODER, jossa puhesignaali jaettiin lähde-suodin mallin mukaisesti. * = ääniesimerkin numero osoitteessa http://www.festvox.org/history/klatt.html Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.5/38 Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.6/38 Historiaa: VODER Historiaa: pattern playback Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.7/38 Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.8/38

Historiaa: 1940 ja 1950-luvut Terminaalianalogiaan perustuvat mallit formanttisynteesi Gunnar Fantin OVE, 1953. (4) Georg Rosenin artikulatorinen DAVO-syntetisaattori (MIT, 1958). (11) Historiaa: 1960-luku Ensimmäiset digitaaliset mallit ja sääntösynteesi tekstistä puheeksi Brittienglanti; Holmes, Mattingly ja Shearme, 1964. (17) Cokerin sääntöpohjainen artikulatorinen malli, 1968. (19) Mattinglyn ensimmäinen prosodinen synteesi, 1968. (20) Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.9/38 Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.10/38 Historiaa: 1970-luku TTS (Text-To-Speech) tuotteet ja difonisynteesi Ensimmäinen täydellinen TTS-järjestelmä, Noriko Umeda, Japani, 1968. (24) Lausetason fonologiset säännöt, Dennis Klatt, 1976. (21) Lineaariprediktioon perustuvien difonien konkatenaatio, Joseph Olive, 1977. (22) Votraxin Type-n-Talk, Richard Cagnon, 1978. (28) Historiaa: 1980-luku Konkatenaatio valtaa alaa suuremmat järjestelmät: AT&T Bell Laboratories, TTS-järjestelmä, 1985. (34) DECtalk (35) DECtalk, 300 sanaa/minuutti. (36) MIT:n MITalk, Jonathan Allen, Sheri Hunnicut ja Dennis Klatt, 1979. (30) Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.11/38 Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.12/38

Historiaa: 1990-luku Puhesynteesin kolme peruslajia: Tuotteet, monikielisyys, unit selection Yleinen unit selection, CHATR, Japani, 1994. Monikielinen MBROLA, vapaa synteesi, Belgia, 1995. Mikropuhe, TIMEHOUSE, Suomi 2000-luku:... Toisaalta kaupalliset järjestelmät perustuvat usein valmiiksi äänitettyyn materiaaliin ja sanojen liimaamiseen (vertaa 1936!) koska lopputulos on parempi. 1. Analyysi-resynteesi LPC-synteesi GSM koodaus... 2. Tekstistä puheeksi (TTS = Text-to-Speech) Vammaissovellukset Puhelinpalvelut; sähköpostin luku... 3. Konseptista puheeksi (CSS = Concept-to-Speech Synthesis) Tietokantojen luku, listat, aikataulut Dialogijärjestelmät Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.13/38 Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.14/38 Kolme perusparametriä: 1. Sanaston suuruus Rajattu sanasto kuulutukset Rajaton sanasto vapaa teksti 2. Synteesitapa Valmiin puheen leikkaa-liimaa menetelmät Pienten yksiköiden konkatenaatio Formanttisynteesi 3. Syötteen laatu Puhe Kahdenlaista motivaatiota: 1. Sovellukset Vammaissovellukset TTS-järjestelmät Dialogijärjestelmät 2. Tieteellinen tutkimus Puheen havaitseminen kontrolloidut ärsykkeet Puheen tuoton mallit Prosodian tutkimus Teksti Tietokanta Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.15/38 Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.16/38

Kolme lähestymistapaa: 1. Konkatenaatio Sanat, lausekkeet, lauseet Sanaa pienemmät osat; tavut, puolitavut Difonit Mikrofoneemit" 2. Formanttisynteesi Puhe tuotetaan synteettisesti alusta pitäen 3. Artikulatorinen synteesi Fyysiset mallit puhe on fysiikkaa Konkatenaatio Oikeata puhetta leikkaa-ja-liimaa -periaatteella. Mitä leikataan: lausekkeita, sanoja, tavuja, puoli-tavuja, äänteitä, difoneja. Miten: tarkasti leikatut yksiköt voidaan liimata päistään yhteen, tasoitus (smoothing), PSOLA (pitch-syncronous overlap and add)... Etuja: äärellinen määrä puhedataa riittää, prosessointi on yksinkertaista, lopputuloksena korkeatasoinen ääni. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.17/38 Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.18/38 Difonikonkatenaatio: TD-PSOLA Formanttisynteesi Miten: Generoidaan periodista ja aperiodista ääntä ja niitä yhdistelemällä tuotetaan puheenkaltainen ääni. Etuja: erittäin muokkautuvainen, voidää päästä lähes täydelliseen lopputulokseen, suhteellisen helppo implementoida, tieteellisesti kiinnostava. TD-PSOLA: alennettu perustaajuus Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.19/38 Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.20/38

Formanttisynteesi: kaavio impulse train random numbers cascade glottal filter LP filter RN ZN Klatt syntetisaattori R1 parallel R2 R3 R4 A1 A2 A3 A4 A5 A6 R5 R1 R2 R3 R4 R5 R6 + preempasis synthetic speech output Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.21/38 Formanttisynteesi: rinnakkainen vai sarjassa Sarjaan kytkettyjen resonaattorien etu on, että niille täytyy kertoa vain formanttien taajuudet ja kaistanleveydet; amplitudit hakeutuvat automaattisesti oikeiksi. Rinnakkaisesta synteesiä rasittaa lisäksi vaatimus formanttien amplitudeista; rinnakkaismallilla voidaan kuitenkin simuloida helpommin sellaisia konsonantteja (etenkin frikatiiveja), joilla on antiformantteja. (Toisaalta rinnakkaismallin resonanssien summaaminen implikoi sitä, että resonaattorit ovat itsenäisempiä ja ovat siten itsenäisesti kontrolloitavissa.) Sarjamalli perustuu suoremmin puheentuoton akustiseen teoriaan, jonka mukaan ääntöväylän siirtofunktio on esitettävissä suotimien tulona. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.22/38 Formanttisynteesi: glottaalinen eksitaatio Periaatteessa pelkkä impulssijono riittää tuottamaan puheen kaltaisen tuloksen syntetisaattorista. Luonnollisuus vaatii kuitenkin lähteeltä enemmän. Esim. KLATT-synteesissä lähteeseen liittyy useita parametrejä, joiden avulla voidaan mallintaa muutoksia niin eri äänteiden kuin puhujienkin välillä. Glottislähteen parametrejä ovat mm. sulkeuma- ja avaumavaiheiden suhde (open quotient), aspiraatiohälyn määrä, ns. jitter (perustaajuuden perturbaatio) ja lähteen spektraalinen kaltevuus. Myös glottiksen alapuolisen väylän vaikutus pulssin muotoon on otettu huomioon. Formanttisynteesi: resonaattori Formanttiresonaattorin impulssivaste ja sen spektri; formantin kaistanleveys on suoraan verrannollinen impulssivasteen vaimenemiseen. 1 0 0.9898 0.0001 0.01 Time (s) Sound pressure level (db/hz) 60 40 20 0 0 11025 Frequency (Hz) Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.23/38 Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.24/38

Artikulatorinen synteesi Artikulatorinen synteesi: esimerkki Miten: Mallinnetaan ääniväylää pinta-alojen ja ilman virtausten sekä heijastusten suhteen puheentuotto nähdään sovellettuna fysiikkana. Äänenpaineet ja hiukkasnopeudet artikulatorisessa mallissa: Etuja: Parantunut kontrolli, potentiaalisesti luonnollista puhetta, perustutkimusta. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.25/38 Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.26/38 Artikulatorinen synteesi: esimerkki 2 Artikulatorinen synteesi: esimerkki 3 Haskins laboratorion artiulatorinen malli: Haskins laboratorion artiulatorinen malli: Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.27/38 Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.28/38

Tekstistä puheeksi: Merkkijonojen identifiointi ja esiprosessointi = normalisointi Lingvistinen analyysi; sanaluokat ja morfosyntaksi Perustaajuuden estimointi teksti Äänekkyyden estimointi Prosodinen ryhmitys phrasing Sana- ja lausepainon määrittely Äännekestojen estimointi Modulaarisuus Lähes kaikki modernit puhesynteesijärjestelmät ovat modulaarisia: tekstianalyysiä seuraa prosodiset modulit, joita seuraa synteesimodulit. Usein suuremmat modulit on vielä jaettu useimpiin tarpeen mukaan esim. intonaatiota voidaan mallintaa usealla tavalla saman järjestelmän sisällä. signaalin generointi Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.29/38 Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.30/38 Data vs. tieto Tekstin analyysi Historiallisesti sääntösynteesijärjestelmät ovat perustuneet tietoon datapohjaiset järjestelmät ovat uudempi suuntaus. Kielen kombinatorinen kompleksisuus on kuitenkin niin valtava, että suuretkin tietokannat ovat tuomittuja edustamaan vain äärimmäisen pientä osaa koko puhutun kielen avaruudesta. Tekstin analyysiin kuuluu kaikki tekstin esiprosessointi ja normalisointi. Teksti muunnetaan järjestelmän ymmärtämään lingvistiseen muotoon, joka sisältää yleensä sanat ja niiden kieliopilliset kategoriat, morfologiset analyysit, fonologiset transkriptiot, aksentuaaliset ja tonaaliset piirteet sekä prosodisten rajojen paikat. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.31/38 Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.32/38

Tekstin analyysi: esimerkki Festivalista Prosodinen esiprosessointi Prosodinen esiprosessointi pitää sisällään syntaktisen analyysin (joka voi yksinkertaisimmillaan olla funktiosanojen tunnistamista) ja lauseiden sekä lausekkeiden rajojen paikantamisen. Myös lausepainon paikan määritys kuuluu prosodiseen tähän vaiheeseen. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.33/38 Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.34/38 Prosodian estimointi: ajoitus Järjestelmään sisältyvän ajoituskomponentin tehtävänä on laskea puheelle sen temporaalinen rakenne annetusta symbolisesta syötteestä: foneemit, paino- ja lausepainomerkinnät. Yleensä ajoituksella tarkoitetaan äännekestoja, mutta muunlaistakin temporaalista informaatiota tarvitaan; esim. perustaajuuden huippujen paikka vokaaliin nähden. Ajoitus voidaan laskea joko sääntöjen avulla tai dataan perustuen esim. keinotekoisia hermoverkkoja käyttäen. Prosodian estimointi: intonaatio Intonaatiokomponentin tehtävänä on laskea tuotettavalle lauseelle sen perustaajuuskontuuri ajoituskomponentin käyttämästä syötteestä ja sen tuottamista äännekestoista. Teorioiden ja mallien suhteen intonaation tutkimus on äärimmäisen vaihtelevaa ja mallien kirjo heijastuukin synteesijärjeselmiin. Fonologisella puolella ei ole kunnollista konsensusta yksiköiden suhteen ja foneettisella puolella ei ole yksimielisyyttä siitä, miten käyrät tulisi laskea: lauseke ja aksenttikomponenttien superpositio (Fujisaki), tonaaliarvojen interpolaatio (Pierrehumbert), linjasegmenttien konkatenaatio (IPO). Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.35/38 Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.36/38

Intonaatiomallit: Phonology Pierrehumbert H* + L L* British fall-rise fall Isard and Pearson Ladd HL +downstep Dutch 1, 2, 3, (Halliday) Fujisaki Accents, Phrases. Intermediate Level F0 targets x x x x x Fixed gradient slopes registers standardised shapes impulses and steps Redundancy Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.37/38 Signaalin generointi Synteesikomponentti ottaa vastaan äännejonotietoa ja prosodista informaatiota, joista sen tehtävänä on generoida kuultava signaali. Historiallisesti signaalin generointi on perustunut lähde-suodin -malliin; formanttisynteesi. Nykyisin kuitenkin suurin osa syntetisaattoreista käyttää jonkinasteista konkatenaatiomenetelmää (difoni tai ns. unit-selection). Difonikonkatenaatiossa yksikköinä ovat nimen mukaisesti difonit (kahden äänteen keskipisteiden välinen osa). unit selection -tyyppisessä synteesissä yksikön koko vaihtelee jopa kokonaisista lauseista difoniin. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.38/38