Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Samankaltaiset tiedostot
Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Puhesynteesi. Martti Vainio. 11. huhtikuuta 2003

Puheentuoton fonetiikan kertausta Vfo 251, Puhesynteesin perusteet. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen.

Puheenkäsittelyn menetelmät

Puhesynteesin perusteet Luento 4: difonikonkatenaatio

TTS. Puhesynteesi (tekstistä puheeksi, engl. text-tospeech,

Prosodian havaitsemisesta: suomen lausepaino ja focus

Sanajärjestyksen ja intensiteetin vaikutus suomen intonaation havaitsemisessa ja tuotossa

SGN-4010, Puheenkäsittelyn menetelmät Harjoitus 6, 18. ja

Puhesynteesin perusteet Luento 5: unit selection -synteesi

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

Puheen tuotto ja havaitseminen I Vokaalit. Puheentuoton lähde-suodin -malli. Glottaalinen äänilähde. Fonaatio

Puheen tuotto ja havaitseminen I

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

PL 9/Siltavuorenpenger 5 A, Helsingin yliopisto etunimi.sukunimi@helsinki.fi

5 Akustiikan peruskäsitteitä

Kohti uuden sukupolven digitaalipianoja

T DSP: GSM codec

Puheen akustiikan perusteita

Suomen prosodian variaation tutkimuksesta

Luento: Puhe. Mitä puhe on? Anatomiaa ja fysiologiaa. Puhetapahtuma. Brocan ja Wernicken alueet. Anatomiaa ja fysiologiaa. Puheen tuottaminen:

Artikulatoriset piirteet. Puheen tuotto ja havaitseminen II Konsonantit. Piirteiden tyypit. Artikulaatiotavat

Puheen tuotto ja havaitseminen II

Puheen akustiikan perusteita

FONETIIKKA SUULLISEN KIELITAIDON ARVIOINNISSA

Intonaation analyysi ja annotointi puhekorpuksissa

Vfo254: Puhekorpusten käyttö. Puhekorpusten lingvistinen representaatio. Yleistä. Symbolinen representaatio. Martti Vainio. Transkription tarkkuus

Artikulatoriset piirteet. Puheen tuotto ja havaitseminen II Konsonantit. Piirteiden tyypit. Artikulaatiotavat

Puheen tuotto ja havaitseminen II

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

Vfo254: Puhekorpusten käyttö

Vfo254: Puhekorpusten käyttö

Foneettiset symbolit

Puhekorpukseet. Puhekorpukset ja puhetietokannat. Puhekorpus. Martti Vainio

Organization of (Simultaneous) Spectral Components

Miksi prosodiasta tulee olla kiinnostunut? Prosodia. Äänteiden yläpuolella. Mitä? ja Miten?

Miksi prosodiasta tulee olla kiinnostunut? Prosodia. Äänteiden yläpuolella. Mitä? ja Miten?

Prosodia. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Prosodia p.1/46

SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento TTY/Signaalinkäsittelyn laitos Konsta Koppinen

FP1/Clt 120: Fonetiikan perusteet: artikulaatiotavat

Prosodia. Martti Vainio. Puhetieteiden laitos, Helsingin yliopisto. Prosodia p. 1/53

12 Prosodiset ominaisuudet

8 Puhesynteesi. 8.1 Syntetisoidun puhesignaalin laatu

» Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN

Kuulohavainnon perusteet

Prosodia. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Prosodia p.1/43

Tietoliikennesignaalit & spektri

Puhutun ja kirjoitetun rajalla

Puheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting

Pianon äänten parametrinen synteesi

Kissankello vai kissan kello?

HUUDETUN PUHEEN ANALYYSI JA SYNTEESI

Ongelma(t): Miten jollakin korkeamman tason ohjelmointikielellä esitetty algoritmi saadaan suoritettua mikro-ohjelmoitavalla tietokoneella ja siinä

S Havaitseminen ja toiminta

4 Fonetiikkaa. Puhe-elimet

Mitä suomen intonaatiosta tiedetään

Mat Systeemien identifiointi, aihepiirit 1/4

Digitaalinen audio

Puheenkoodaus. Olivatpa kerran iloiset serkukset. PCM, DPCM ja ADPCM

Kerta 2. Kerta 2 Kerta 3 Kerta 4 Kerta Toteuta Pythonilla seuraava ohjelma:

Puheteknologia Informaa2oteknologian perusteet. Kalle Palomäki Signaalinkäsi8elyn ja akus2ikan laitos

Puhe ja kommunikaatio

Jukka Pätynen. Jukka, Jussi, Niklas, aiheassistenat 5: Tilaääni Prof. Ville Pulkki, Juhani Paasonen

Äänen eteneminen ja heijastuminen

Kokemuksia 3D-tulostetuista ääntöväylämalleista

Luento 8. Suodattimien käyttötarkoitus

Johdanto tieto- viestintäteknologian käyttöön: Äänitystekniikka. Vfo135 ja Vfp124 Martti Vainio

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

LOPPURAPORTTI Lämpötilahälytin Hans Baumgartner xxxxxxx nimi nimi

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

Puhesynteesin perusteet: Lingvistinen esikäsittely

Puhenäytteiden mittailusta puhekorpuksen perkuuseen: kalastelua mato-ongella ja verkoilla. Mietta Lennes FIN-CLARIN / Helsingin yliopisto

Eskon ja Allin ihmemaa Sivu 1 / 8


kl 2014 Tampereen yliopisto Fonetiikan jatkokurssi Johdanto Puheen tuottaminen

Prominenssin toteutuminen kolmessa yleispuhesuomen varieteetissa

ELEC-C Sovellettu digitaalinen signaalinkäsittely. Äänisignaalien näytteenotto ja kvantisointi Dither Oskillaattorit Digitaalinen suodatus

4.2 Akustista fonetiikkaa

Automaatit. Muodolliset kielet

Varhainen leikki ja sen arviointi

SGN-4200 Digitaalinen Audio Harjoitustyö-info

Synteesi-analyysi koodaus

RADAR - RANDOM DATA GENERATOR

Hahmon etsiminen syotteesta (johdatteleva esimerkki)

Luonnollisella kielellä keskustelevat järjestelmät

5 Lineaarinen ennustus

Fonetiikan perusteet (FA1/Clt 120): ääni II, ilmavirtamekanismit ja äänteet

THE audio feature: MFCC. Mel Frequency Cepstral Coefficients

Tiedonkeruu ja analysointi

Kieli merkitys ja logiikka

Rakenteisen ohjelmoinnin harjoitustyö

Historiaa musiikillisten äänten fysikaalisesta mallintamisesta

spontaanin puheen PRosoDinen jaksottelu

Suullisen kielitaidon arvioinnin foneettiset taustatekijät. Heini Kallio, tohtorikoulutettava HY, Käyttäytymistieteiden laitos, fonetiikka 17.2.

KUN LUKEMINEN ON HANKALAA. Helena Sorsa

SGN-4200 Digitaalinen audio

FM, laaja-alainen erityisopettaja. Tiina Muukka Oulu

Transkriptio:

Puhesynteesin historiaa Puhesynteesi Martti Vainio Fonetiikan laitos, Helsingin yliopisto Mekaaniset synteesit: 1700-luvulla asiaa harrastivat Wolfgang von Kempelen ja Christian Kratzenstein. 1900-luvulla tulivat elektromekaaniset sekä elektroniset synteesit ja vuosisadan loppupuolella digitaaliset syntisaattorit. Ks. http://www.acoustics.hut.fi/ slemmett/dippa/chap2.html Puhesynteesi p.1/38 S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.2/38 Historiaa: Kratzenstein Historiaa: Kempelen S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.3/38 S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.4/38

Historiaa: Kempelen Puhesynteesin historiaa: 1930-luku 1936: Englannin puhelinyhtiön puhuva kello käytti optista tallennusta lausekkeet, sanat ja sanojen osat. 1939: Bell Laboratorion VODER (Homer Dudley) mekaaninen urkujen kaltainen laite jolla voitiin soittaa puhetta. (1)* Dudleyn VOCODER, jossa puhesignaali jaettiin lähde-suodin mallin mukaisesti. * = ääniesimerkin numero osoitteessa http://www.festvox.org/history/klatt.html S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.5/38 S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.6/38 Historiaa: VODER Historiaa: pattern playback S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.7/38 S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.8/38

Historiaa: 1940 ja 1950-luvut Terminaalianalogiaan perustuvat mallit formanttisynteesi Gunnar Fantin OVE, 1953. (4) Georg Rosenin artikulatorinen DAVO-syntetisaattori (MIT, 1958). (11) Historiaa: 1960-luku Ensimmäiset digitaaliset mallit ja sääntösynteesi tekstistä puheeksi Brittienglanti; Holmes, Mattingly ja Shearme, 1964. (17) Cokerin sääntöpohjainen artikulatorinen malli, 1968. (19) Mattinglyn ensimmäinen prosodinen synteesi, 1968. (20) S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.9/38 S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.10/38 Historiaa: 1970-luku TTS (Text-To-Speech) tuotteet ja difonisynteesi Ensimmäinen täydellinen TTS-järjestelmä, Noriko Umeda, Japani, 1968. (24) Lausetason fonologiset säännöt, Dennis Klatt, 1976. (21) Lineaariprediktioon perustuvien difonien konkatenaatio, Joseph Olive, 1977. (22) Votraxin Type-n-Talk, Richard Cagnon, 1978. (28) Historiaa: 1980-luku Konkatenaatio valtaa alaa suuremmat järjestelmät: AT&T Bell Laboratories, TTS-järjestelmä, 1985. (34) DECtalk (35) DECtalk, 300 sanaa/minuutti. (36) MIT:n MITalk, Jonathan Allen, Sheri Hunnicut ja Dennis Klatt, 1979. (30) S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.11/38 S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.12/38

Historiaa: 1990-luku Puhesynteesin kolme peruslajia: Tuotteet, monikielisyys, unit selection Yleinen unit selection, CHATR, Japani, 1994. Monikielinen MBROLA, vapaa synteesi, Belgia, 1995. Mikropuhe, TIMEHOUSE, Suomi 2000-luku:... Toisaalta kaupalliset järjestelmät perustuvat usein valmiiksi äänitettyyn materiaaliin ja sanojen liimaamiseen (vertaa 1936!) koska lopputulos on parempi. 1. Analyysi-resynteesi LPC-synteesi GSM koodaus... 2. Tekstistä puheeksi (TTS = Text-to-Speech) Vammaissovellukset Puhelinpalvelut; sähköpostin luku... 3. Konseptista puheeksi (CSS = Concept-to-Speech Synthesis) Tietokantojen luku, listat, aikataulut Dialogijärjestelmät S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.13/38 S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.14/38 Kolme perusparametriä: 1. Sanaston suuruus Rajattu sanasto kuulutukset Rajaton sanasto vapaa teksti 2. Synteesitapa Valmiin puheen leikkaa-liimaa menetelmät Pienten yksiköiden konkatenaatio Formanttisynteesi 3. Syötteen laatu Puhe Kahdenlaista motivaatiota: 1. Sovellukset Vammaissovellukset TTS-järjestelmät Dialogijärjestelmät 2. Tieteellinen tutkimus Puheen havaitseminen kontrolloidut ärsykkeet Puheen tuoton mallit Prosodian tutkimus Teksti Tietokanta S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.15/38 S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.16/38

Kolme lähestymistapaa: 1. Konkatenaatio Sanat, lausekkeet, lauseet Sanaa pienemmät osat; tavut, puolitavut Difonit Mikrofoneemit" 2. Formanttisynteesi Puhe tuotetaan synteettisesti alusta pitäen 3. Artikulatorinen synteesi Fyysiset mallit puhe on fysiikkaa Konkatenaatio Oikeata puhetta leikkaa-ja-liimaa -periaatteella. Mitä leikataan: lausekkeita, sanoja, tavuja, puoli-tavuja, äänteitä, difoneja. Miten: tarkasti leikatut yksiköt voidaan liimata päistään yhteen, tasoitus (smoothing), PSOLA (pitch-syncronous overlap and add)... Etuja: äärellinen määrä puhedataa riittää, prosessointi on yksinkertaista, lopputuloksena korkeatasoinen ääni. S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.17/38 S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.18/38 Difonikonkatenaatio: TD-PSOLA Formanttisynteesi Miten: Generoidaan periodista ja aperiodista ääntä ja niitä yhdistelemällä tuotetaan puheenkaltainen ääni. Etuja: erittäin muokkautuvainen, voidää päästä lähes täydelliseen lopputulokseen, suhteellisen helppo implementoida, tieteellisesti kiinnostava. TD-PSOLA: alennettu perustaajuus S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.19/38 S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.20/38

Formanttisynteesi: kaavio Formanttisynteesi: rinnakkainen vai sarjassa RN ZN R1 R2 R3 R4 R5 Sarjaan kytkettyjen resonaattorien etu on, että niille täytyy cascade A1 R1 kertoa vain formanttien taajuudet ja kaistanleveydet; amplitudit hakeutuvat automaattisesti oikeiksi. impulse train random numbers glottal filter LP filter Klatt syntetisaattori parallel A2 A3 A4 A5 A6 R2 R3 R4 R5 R6 + preempasis synthetic speech output S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.21/38 Rinnakkaisesta synteesiä rasittaa lisäksi vaatimus formanttien amplitudeista; rinnakkaismallilla voidaan kuitenkin simuloida helpommin sellaisia konsonantteja (etenkin frikatiiveja), joilla on antiformantteja. (Toisaalta rinnakkaismallin resonanssien summaaminen implikoi sitä, että resonaattorit ovat itsenäisempiä ja ovat siten itsenäisesti kontrolloitavissa.) Sarjamalli perustuu suoremmin puheentuoton akustiseen teoriaan, jonka mukaan ääntöväylän siirtofunktio on esitettävissä suotimien tulona. S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.22/38 Formanttisynteesi: glottaalinen eksitaatio Periaatteessa pelkkä impulssijono riittää tuottamaan puheen kaltaisen tuloksen syntetisaattorista. Luonnollisuus vaatii kuitenkin lähteeltä enemmän. Esim. KLATT-synteesissä lähteeseen liittyy useita parametrejä, joiden avulla voidaan mallintaa muutoksia niin eri äänteiden kuin puhujienkin välillä. Glottislähteen parametrejä ovat mm. sulkeuma- ja avaumavaiheiden suhde (open quotient), aspiraatiohälyn määrä, ns. jitter (perustaajuuden perturbaatio) ja lähteen spektraalinen kaltevuus. Myös glottiksen alapuolisen väylän vaikutus pulssin muotoon on otettu huomioon. Formanttisynteesi: resonaattori Formanttiresonaattorin impulssivaste ja sen spektri; formantin kaistanleveys on suoraan verrannollinen impulssivasteen vaimenemiseen. 1 0 0.9898 0.0001 0.01 Time (s) Sound pressure level (db/hz) 60 40 20 0 0 11025 Frequency (Hz) S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.23/38 S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.24/38

Artikulatorinen synteesi Artikulatorinen synteesi: esimerkki Miten: Mallinnetaan ääniväylää pinta-alojen ja ilman virtausten sekä heijastusten suhteen puheentuotto nähdään sovellettuna fysiikkana. Äänenpaineet ja hiukkasnopeudet artikulatorisessa mallissa: Etuja: Parantunut kontrolli, potentiaalisesti luonnollista puhetta, perustutkimusta. S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.25/38 S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.26/38 Artikulatorinen synteesi: esimerkki 2 Artikulatorinen synteesi: esimerkki 3 Haskins laboratorion artiulatorinen malli: Haskins laboratorion artiulatorinen malli: S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.27/38 S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.28/38

Tekstistä puheeksi: Merkkijonojen identifiointi ja esiprosessointi = normalisointi Lingvistinen analyysi; sanaluokat ja morfosyntaksi teksti Prosodinen ryhmitys phrasing Sana- ja lausepainon määrittely Modulaarisuus Lähes kaikki modernit puhesynteesijärjestelmät ovat modulaarisia: tekstianalyysiä seuraa prosodiset modulit, joita seuraa synteesimodulit. Usein suuremmat modulit on vielä jaettu useimpiin tarpeen Perustaajuuden estimointi Äänekkyyden estimointi Äännekestojen estimointi mukaan esim. intonaatiota voidaan mallintaa usealla tavalla saman järjestelmän sisällä. signaalin generointi S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.29/38 S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.30/38 Data vs. tieto Tekstin analyysi Historiallisesti sääntösynteesijärjestelmät ovat perustuneet tietoon datapohjaiset järjestelmät ovat uudempi suuntaus. Kielen kombinatorinen kompleksisuus on kuitenkin niin valtava, että suuretkin tietokannat ovat tuomittuja edustamaan vain äärimmäisen pientä osaa koko puhutun kielen avaruudesta. Tekstin analyysiin kuuluu kaikki tekstin esiprosessointi ja normalisointi. Teksti muunnetaan järjestelmän ymmärtämään lingvistiseen muotoon, joka sisältää yleensä sanat ja niiden kieliopilliset kategoriat, morfologiset analyysit, fonologiset transkriptiot, aksentuaaliset ja tonaaliset piirteet sekä prosodisten rajojen paikat. S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.31/38 S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.32/38

Tekstin analyysi: esimerkki Festivalista Prosodinen esiprosessointi Prosodinen esiprosessointi pitää sisällään syntaktisen analyysin (joka voi yksinkertaisimmillaan olla funktiosanojen tunnistamista) ja lauseiden sekä lausekkeiden rajojen paikantamisen. Myös lausepainon paikan määritys kuuluu prosodiseen tähän vaiheeseen. S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.33/38 S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.34/38 Prosodian estimointi: ajoitus Järjestelmään sisältyvän ajoituskomponentin tehtävänä on laskea puheelle sen temporaalinen rakenne annetusta symbolisesta syötteestä: foneemit, paino- ja lausepainomerkinnät. Yleensä ajoituksella tarkoitetaan äännekestoja, mutta muunlaistakin temporaalista informaatiota tarvitaan; esim. perustaajuuden huippujen paikka vokaaliin nähden. Ajoitus voidaan laskea joko sääntöjen avulla tai dataan perustuen esim. keinotekoisia hermoverkkoja käyttäen. Prosodian estimointi: intonaatio Intonaatiokomponentin tehtävänä on laskea tuotettavalle lauseelle sen perustaajuuskontuuri ajoituskomponentin käyttämästä syötteestä ja sen tuottamista äännekestoista. Teorioiden ja mallien suhteen intonaation tutkimus on äärimmäisen vaihtelevaa ja mallien kirjo heijastuukin synteesijärjeselmiin. Fonologisella puolella ei ole kunnollista konsensusta yksiköiden suhteen ja foneettisella puolella ei ole yksimielisyyttä siitä, miten käyrät tulisi laskea: lauseke ja aksenttikomponenttien superpositio (Fujisaki), tonaaliarvojen interpolaatio (Pierrehumbert), linjasegmenttien konkatenaatio (IPO). S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.35/38 S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.36/38

Intonaatiomallit: Phonology Pierrehumbert H* + L L* British fall-rise fall Isard and Pearson Ladd HL +downstep Dutch 1, 2, 3, (Halliday) Fujisaki Accents, Phrases. Intermediate Level F0 targets x x x x x Fixed gradient slopes registers standardised shapes impulses and steps Redundancy S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.37/38 Signaalin generointi Synteesikomponentti ottaa vastaan äännejonotietoa ja prosodista informaatiota, joista sen tehtävänä on generoida kuultava signaali. Historiallisesti signaalin generointi on perustunut lähde-suodin -malliin; formanttisynteesi. Nykyisin kuitenkin suurin osa syntetisaattoreista käyttää jonkinasteista konkatenaatiomenetelmää (difoni tai ns. unit-selection). Difonikonkatenaatiossa yksikköinä ovat nimen mukaisesti difonit (kahden äänteen keskipisteiden välinen osa). unit selection -tyyppisessä synteesissä yksikön koko vaihtelee jopa kokonaisista lauseista difoniin. S-114.770 Kieli kommunikaatiossa... Kevät 2001 p.38/38