Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Samankaltaiset tiedostot
Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Puhesynteesi. Martti Vainio. 11. huhtikuuta 2003

Puheentuoton fonetiikan kertausta Vfo 251, Puhesynteesin perusteet. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen.

Puheenkäsittelyn menetelmät

Puhesynteesin perusteet Luento 4: difonikonkatenaatio

TTS. Puhesynteesi (tekstistä puheeksi, engl. text-tospeech,

Prosodian havaitsemisesta: suomen lausepaino ja focus

Sanajärjestyksen ja intensiteetin vaikutus suomen intonaation havaitsemisessa ja tuotossa

SGN-4010, Puheenkäsittelyn menetelmät Harjoitus 6, 18. ja

Puhesynteesin perusteet Luento 5: unit selection -synteesi

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

Puheen tuotto ja havaitseminen I Vokaalit. Puheentuoton lähde-suodin -malli. Glottaalinen äänilähde. Fonaatio

Puheen tuotto ja havaitseminen I

PL 9/Siltavuorenpenger 5 A, Helsingin yliopisto etunimi.sukunimi@helsinki.fi

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

Puheen akustiikan perusteita

Artikulatoriset piirteet. Puheen tuotto ja havaitseminen II Konsonantit. Piirteiden tyypit. Artikulaatiotavat

Puheen tuotto ja havaitseminen II

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

5 Akustiikan peruskäsitteitä

Kohti uuden sukupolven digitaalipianoja

T DSP: GSM codec

Suomen prosodian variaation tutkimuksesta

Luento: Puhe. Mitä puhe on? Anatomiaa ja fysiologiaa. Puhetapahtuma. Brocan ja Wernicken alueet. Anatomiaa ja fysiologiaa. Puheen tuottaminen:

Puheen akustiikan perusteita

Intonaation analyysi ja annotointi puhekorpuksissa

Vfo254: Puhekorpusten käyttö. Puhekorpusten lingvistinen representaatio. Yleistä. Symbolinen representaatio. Martti Vainio. Transkription tarkkuus

Miksi prosodiasta tulee olla kiinnostunut? Prosodia. Äänteiden yläpuolella. Mitä? ja Miten?

Prosodia. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Prosodia p.1/46

FONETIIKKA SUULLISEN KIELITAIDON ARVIOINNISSA

Artikulatoriset piirteet. Puheen tuotto ja havaitseminen II Konsonantit. Piirteiden tyypit. Artikulaatiotavat

Puheen tuotto ja havaitseminen II

Vfo254: Puhekorpusten käyttö

Vfo254: Puhekorpusten käyttö

Foneettiset symbolit

SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento TTY/Signaalinkäsittelyn laitos Konsta Koppinen

Organization of (Simultaneous) Spectral Components

Puhekorpukseet. Puhekorpukset ja puhetietokannat. Puhekorpus. Martti Vainio

Prosodia. Martti Vainio. Puhetieteiden laitos, Helsingin yliopisto. Prosodia p. 1/53

12 Prosodiset ominaisuudet

» Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN

Miksi prosodiasta tulee olla kiinnostunut? Prosodia. Äänteiden yläpuolella. Mitä? ja Miten?

FP1/Clt 120: Fonetiikan perusteet: artikulaatiotavat

8 Puhesynteesi. 8.1 Syntetisoidun puhesignaalin laatu

Kuulohavainnon perusteet

Tietoliikennesignaalit & spektri

Puheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting

Kissankello vai kissan kello?

Prosodia. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Prosodia p.1/43

HUUDETUN PUHEEN ANALYYSI JA SYNTEESI

Mitä suomen intonaatiosta tiedetään

4 Fonetiikkaa. Puhe-elimet

Puhutun ja kirjoitetun rajalla

S Havaitseminen ja toiminta

Pianon äänten parametrinen synteesi

Mat Systeemien identifiointi, aihepiirit 1/4

Ongelma(t): Miten jollakin korkeamman tason ohjelmointikielellä esitetty algoritmi saadaan suoritettua mikro-ohjelmoitavalla tietokoneella ja siinä

Digitaalinen audio

Puhe ja kommunikaatio

Puheenkoodaus. Olivatpa kerran iloiset serkukset. PCM, DPCM ja ADPCM

Kerta 2. Kerta 2 Kerta 3 Kerta 4 Kerta Toteuta Pythonilla seuraava ohjelma:

Jukka Pätynen. Jukka, Jussi, Niklas, aiheassistenat 5: Tilaääni Prof. Ville Pulkki, Juhani Paasonen

Äänen eteneminen ja heijastuminen

Puheteknologia Informaa2oteknologian perusteet. Kalle Palomäki Signaalinkäsi8elyn ja akus2ikan laitos

Kokemuksia 3D-tulostetuista ääntöväylämalleista

Luento 8. Suodattimien käyttötarkoitus

Puhenäytteiden mittailusta puhekorpuksen perkuuseen: kalastelua mato-ongella ja verkoilla. Mietta Lennes FIN-CLARIN / Helsingin yliopisto

Johdanto tieto- viestintäteknologian käyttöön: Äänitystekniikka. Vfo135 ja Vfp124 Martti Vainio

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

LOPPURAPORTTI Lämpötilahälytin Hans Baumgartner xxxxxxx nimi nimi

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti


4.2 Akustista fonetiikkaa

kl 2014 Tampereen yliopisto Fonetiikan jatkokurssi Johdanto Puheen tuottaminen

Puhesynteesin perusteet: Lingvistinen esikäsittely

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

Eskon ja Allin ihmemaa Sivu 1 / 8

Prominenssin toteutuminen kolmessa yleispuhesuomen varieteetissa

ELEC-C Sovellettu digitaalinen signaalinkäsittely. Äänisignaalien näytteenotto ja kvantisointi Dither Oskillaattorit Digitaalinen suodatus

SGN-4200 Digitaalinen Audio Harjoitustyö-info

Puheentunnistus ja synteettinen puhe

Synteesi-analyysi koodaus

Fonetiikan perusteet (FA1/Clt 120): ääni II, ilmavirtamekanismit ja äänteet

RADAR - RANDOM DATA GENERATOR

Luonnollisella kielellä keskustelevat järjestelmät

Edistyksen päivät, Helsinki. Voiko tutkija muuttaa maailmaa? Humanistista meta-analyysiä merkitysneuvottelevien koneiden avulla.

5 Lineaarinen ennustus

Suullisen kielitaidon arvioinnin foneettiset taustatekijät. Heini Kallio, tohtorikoulutettava HY, Käyttäytymistieteiden laitos, fonetiikka 17.2.

spontaanin puheen PRosoDinen jaksottelu

THE audio feature: MFCC. Mel Frequency Cepstral Coefficients

Tiedonkeruu ja analysointi

Rakenteisen ohjelmoinnin harjoitustyö

Historiaa musiikillisten äänten fysikaalisesta mallintamisesta

Varhainen leikki ja sen arviointi

KANDIDAATINTYÖ. Lassi Heikkinen Ilkka Leinonen Antero Tossavainen

KUN LUKEMINEN ON HANKALAA. Helena Sorsa

SGN-4200 Digitaalinen audio

Yleisen fonetiikan peruskurssi

Transkriptio:

Puhesynteesi Martti Vainio Fonetiikan laitos, Helsingin yliopisto Puhesynteesi p.1/38

Puhesynteesin historiaa Mekaaniset synteesit: 1700-luvulla asiaa harrastivat Wolfgang von Kempelen ja Christian Kratzenstein. 1900-luvulla tulivat elektromekaaniset sekä elektroniset synteesit ja vuosisadan loppupuolella digitaaliset syntisaattorit. Ks. http://www.acoustics.hut.fi/ slemmett/dippa/chap2.html Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.2/38

Historiaa: Kratzenstein Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.3/38

Historiaa: Kempelen Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.4/38

Historiaa: Kempelen Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.5/38

Puhesynteesin historiaa: 1930-luku 1936: Englannin puhelinyhtiön puhuva kello käytti optista tallennusta lausekkeet, sanat ja sanojen osat. 1939: Bell Laboratorion VODER (Homer Dudley) mekaaninen urkujen kaltainen laite jolla voitiin soittaa puhetta. (1)* Dudleyn VOCODER, jossa puhesignaali jaettiin lähde-suodin mallin mukaisesti. * = ääniesimerkin numero osoitteessa http://www.festvox.org/history/klatt.html Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.6/38

Historiaa: VODER Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.7/38

Historiaa: pattern playback Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.8/38

Historiaa: 1940 ja 1950-luvut Terminaalianalogiaan perustuvat mallit formanttisynteesi Gunnar Fantin OVE, 1953. (4) Georg Rosenin artikulatorinen DAVO-syntetisaattori (MIT, 1958). (11) Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.9/38

Historiaa: 1960-luku Ensimmäiset digitaaliset mallit ja sääntösynteesi tekstistä puheeksi Brittienglanti; Holmes, Mattingly ja Shearme, 1964. (17) Cokerin sääntöpohjainen artikulatorinen malli, 1968. (19) Mattinglyn ensimmäinen prosodinen synteesi, 1968. (20) Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.10/38

Historiaa: 1970-luku TTS (Text-To-Speech) tuotteet ja difonisynteesi Ensimmäinen täydellinen TTS-järjestelmä, Noriko Umeda, Japani, 1968. (24) Lausetason fonologiset säännöt, Dennis Klatt, 1976. (21) Lineaariprediktioon perustuvien difonien konkatenaatio, Joseph Olive, 1977. (22) Votraxin Type-n-Talk, Richard Cagnon, 1978. (28) MIT:n MITalk, Jonathan Allen, Sheri Hunnicut ja Dennis Klatt, 1979. (30) Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.11/38

Historiaa: 1980-luku Konkatenaatio valtaa alaa suuremmat järjestelmät: AT&T Bell Laboratories, TTS-järjestelmä, 1985. (34) DECtalk (35) DECtalk, 300 sanaa/minuutti. (36) Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.12/38

Historiaa: 1990-luku Tuotteet, monikielisyys, unit selection Yleinen unit selection, CHATR, Japani, 1994. Monikielinen MBROLA, vapaa synteesi, Belgia, 1995. Mikropuhe, TIMEHOUSE, Suomi 2000-luku:... Toisaalta kaupalliset järjestelmät perustuvat usein valmiiksi äänitettyyn materiaaliin ja sanojen liimaamiseen (vertaa 1936!) koska lopputulos on parempi. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.13/38

Puhesynteesin kolme peruslajia: 1. Analyysi-resynteesi LPC-synteesi GSM koodaus... 2. Tekstistä puheeksi (TTS = Text-to-Speech) Vammaissovellukset Puhelinpalvelut; sähköpostin luku... 3. Konseptista puheeksi (CSS = Concept-to-Speech Synthesis) Tietokantojen luku, listat, aikataulut Dialogijärjestelmät Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.14/38

Kolme perusparametriä: 1. Sanaston suuruus Rajattu sanasto kuulutukset Rajaton sanasto vapaa teksti 2. Synteesitapa Valmiin puheen leikkaa-liimaa menetelmät Pienten yksiköiden konkatenaatio Formanttisynteesi 3. Syötteen laatu Puhe Teksti Tietokanta Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.15/38

Kahdenlaista motivaatiota: 1. Sovellukset Vammaissovellukset TTS-järjestelmät Dialogijärjestelmät 2. Tieteellinen tutkimus Puheen havaitseminen kontrolloidut ärsykkeet Puheen tuoton mallit Prosodian tutkimus Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.16/38

Kolme lähestymistapaa: 1. Konkatenaatio Sanat, lausekkeet, lauseet Sanaa pienemmät osat; tavut, puolitavut Difonit Mikrofoneemit" 2. Formanttisynteesi Puhe tuotetaan synteettisesti alusta pitäen 3. Artikulatorinen synteesi Fyysiset mallit puhe on fysiikkaa Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.17/38

Konkatenaatio Oikeata puhetta leikkaa-ja-liimaa -periaatteella. Mitä leikataan: lausekkeita, sanoja, tavuja, puoli-tavuja, äänteitä, difoneja. Miten: tarkasti leikatut yksiköt voidaan liimata päistään yhteen, tasoitus (smoothing), PSOLA (pitch-syncronous overlap and add)... Etuja: äärellinen määrä puhedataa riittää, prosessointi on yksinkertaista, lopputuloksena korkeatasoinen ääni. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.18/38

Difonikonkatenaatio: TD-PSOLA TD-PSOLA: alennettu perustaajuus Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.19/38

Formanttisynteesi Miten: Generoidaan periodista ja aperiodista ääntä ja niitä yhdistelemällä tuotetaan puheenkaltainen ääni. Etuja: erittäin muokkautuvainen, voidää päästä lähes täydelliseen lopputulokseen, suhteellisen helppo implementoida, tieteellisesti kiinnostava. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.20/38

Formanttisynteesi: kaavio RN ZN R1 R2 R3 R4 R5 cascade A1 R1 impulse train random numbers glottal filter LP filter parallel A2 A3 A4 A5 R2 R3 R4 R5 + preempasis synthetic speech output A6 R6 Klatt syntetisaattori Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.21/38

Formanttisynteesi: rinnakkainen vai sarjassa Sarjaan kytkettyjen resonaattorien etu on, että niille täytyy kertoa vain formanttien taajuudet ja kaistanleveydet; amplitudit hakeutuvat automaattisesti oikeiksi. Rinnakkaisesta synteesiä rasittaa lisäksi vaatimus formanttien amplitudeista; rinnakkaismallilla voidaan kuitenkin simuloida helpommin sellaisia konsonantteja (etenkin frikatiiveja), joilla on antiformantteja. (Toisaalta rinnakkaismallin resonanssien summaaminen implikoi sitä, että resonaattorit ovat itsenäisempiä ja ovat siten itsenäisesti kontrolloitavissa.) Sarjamalli perustuu suoremmin puheentuoton akustiseen teoriaan, jonka mukaan ääntöväylän siirtofunktio on esitettävissä suotimien tulona. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.22/38

Formanttisynteesi: glottaalinen eksitaatio Periaatteessa pelkkä impulssijono riittää tuottamaan puheen kaltaisen tuloksen syntetisaattorista. Luonnollisuus vaatii kuitenkin lähteeltä enemmän. Esim. KLATT-synteesissä lähteeseen liittyy useita parametrejä, joiden avulla voidaan mallintaa muutoksia niin eri äänteiden kuin puhujienkin välillä. Glottislähteen parametrejä ovat mm. sulkeuma- ja avaumavaiheiden suhde (open quotient), aspiraatiohälyn määrä, ns. jitter (perustaajuuden perturbaatio) ja lähteen spektraalinen kaltevuus. Myös glottiksen alapuolisen väylän vaikutus pulssin muotoon on otettu huomioon. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.23/38

Formanttisynteesi: resonaattori Formanttiresonaattorin impulssivaste ja sen spektri; formantin kaistanleveys on suoraan verrannollinen impulssivasteen vaimenemiseen. 1 60 0 Sound pressure level (db/hz) 40 20 0.9898 0.0001 0.01 Time (s) 0 0 11025 Frequency (Hz) Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.24/38

Artikulatorinen synteesi Miten: Mallinnetaan ääniväylää pinta-alojen ja ilman virtausten sekä heijastusten suhteen puheentuotto nähdään sovellettuna fysiikkana. Etuja: Parantunut kontrolli, potentiaalisesti luonnollista puhetta, perustutkimusta. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.25/38

Artikulatorinen synteesi: esimerkki Äänenpaineet ja hiukkasnopeudet artikulatorisessa mallissa: Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.26/38

Artikulatorinen synteesi: esimerkki 2 Haskins laboratorion artiulatorinen malli: Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.27/38

Artikulatorinen synteesi: esimerkki 3 Haskins laboratorion artiulatorinen malli: Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.28/38

Tekstistä puheeksi: teksti Merkkijonojen identifiointi ja esiprosessointi = normalisointi Prosodinen ryhmitys phrasing Lingvistinen analyysi; sanaluokat ja morfosyntaksi Sana- ja lausepainon määrittely Perustaajuuden estimointi Äänekkyyden estimointi Äännekestojen estimointi signaalin generointi Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.29/38

Modulaarisuus Lähes kaikki modernit puhesynteesijärjestelmät ovat modulaarisia: tekstianalyysiä seuraa prosodiset modulit, joita seuraa synteesimodulit. Usein suuremmat modulit on vielä jaettu useimpiin tarpeen mukaan esim. intonaatiota voidaan mallintaa usealla tavalla saman järjestelmän sisällä. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.30/38

Data vs. tieto Historiallisesti sääntösynteesijärjestelmät ovat perustuneet tietoon datapohjaiset järjestelmät ovat uudempi suuntaus. Kielen kombinatorinen kompleksisuus on kuitenkin niin valtava, että suuretkin tietokannat ovat tuomittuja edustamaan vain äärimmäisen pientä osaa koko puhutun kielen avaruudesta. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.31/38

Tekstin analyysi Tekstin analyysiin kuuluu kaikki tekstin esiprosessointi ja normalisointi. Teksti muunnetaan järjestelmän ymmärtämään lingvistiseen muotoon, joka sisältää yleensä sanat ja niiden kieliopilliset kategoriat, morfologiset analyysit, fonologiset transkriptiot, aksentuaaliset ja tonaaliset piirteet sekä prosodisten rajojen paikat. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.32/38

Tekstin analyysi: esimerkki Festivalista Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.33/38

Prosodinen esiprosessointi Prosodinen esiprosessointi pitää sisällään syntaktisen analyysin (joka voi yksinkertaisimmillaan olla funktiosanojen tunnistamista) ja lauseiden sekä lausekkeiden rajojen paikantamisen. Myös lausepainon paikan määritys kuuluu prosodiseen tähän vaiheeseen. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.34/38

Prosodian estimointi: ajoitus Järjestelmään sisältyvän ajoituskomponentin tehtävänä on laskea puheelle sen temporaalinen rakenne annetusta symbolisesta syötteestä: foneemit, paino- ja lausepainomerkinnät. Yleensä ajoituksella tarkoitetaan äännekestoja, mutta muunlaistakin temporaalista informaatiota tarvitaan; esim. perustaajuuden huippujen paikka vokaaliin nähden. Ajoitus voidaan laskea joko sääntöjen avulla tai dataan perustuen esim. keinotekoisia hermoverkkoja käyttäen. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.35/38

Prosodian estimointi: intonaatio Intonaatiokomponentin tehtävänä on laskea tuotettavalle lauseelle sen perustaajuuskontuuri ajoituskomponentin käyttämästä syötteestä ja sen tuottamista äännekestoista. Teorioiden ja mallien suhteen intonaation tutkimus on äärimmäisen vaihtelevaa ja mallien kirjo heijastuukin synteesijärjeselmiin. Fonologisella puolella ei ole kunnollista konsensusta yksiköiden suhteen ja foneettisella puolella ei ole yksimielisyyttä siitä, miten käyrät tulisi laskea: lauseke ja aksenttikomponenttien superpositio (Fujisaki), tonaaliarvojen interpolaatio (Pierrehumbert), linjasegmenttien konkatenaatio (IPO). Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.36/38

Intonaatiomallit: Phonology Intermediate Level F0 Pierrehumbert H* + L L* x targets x x x x British Isard and Pearson fall-rise fall Fixed gradient slopes Ladd HL +downstep registers Dutch 1, 2, 3, (Halliday) standardised shapes Fujisaki Accents, Phrases impulses and steps Redundancy. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.37/38

Signaalin generointi Synteesikomponentti ottaa vastaan äännejonotietoa ja prosodista informaatiota, joista sen tehtävänä on generoida kuultava signaali. Historiallisesti signaalin generointi on perustunut lähde-suodin -malliin; formanttisynteesi. Nykyisin kuitenkin suurin osa syntetisaattoreista käyttää jonkinasteista konkatenaatiomenetelmää (difoni tai ns. unit-selection). Difonikonkatenaatiossa yksikköinä ovat nimen mukaisesti difonit (kahden äänteen keskipisteiden välinen osa). unit selection -tyyppisessä synteesissä yksikön koko vaihtelee jopa kokonaisista lauseista difoniin. Ctl103 Fonetiikan perusteet kieliteknologeille Syksy 2001 p.38/38