Puhesynteesi. Martti Vainio. 11. huhtikuuta 2003

Samankaltaiset tiedostot
Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Puheenkäsittelyn menetelmät

Puheentuoton fonetiikan kertausta Vfo 251, Puhesynteesin perusteet. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen.

TTS. Puhesynteesi (tekstistä puheeksi, engl. text-tospeech,

Puhesynteesin perusteet Luento 4: difonikonkatenaatio

Puheen tuotto ja havaitseminen I Vokaalit. Puheentuoton lähde-suodin -malli. Glottaalinen äänilähde. Fonaatio

Puheen tuotto ja havaitseminen I

Puhesynteesin perusteet Luento 5: unit selection -synteesi

Prosodian havaitsemisesta: suomen lausepaino ja focus

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

SGN-4010, Puheenkäsittelyn menetelmät Harjoitus 6, 18. ja

PL 9/Siltavuorenpenger 5 A, Helsingin yliopisto etunimi.sukunimi@helsinki.fi

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

Vfo254: Puhekorpusten käyttö. Puhekorpusten lingvistinen representaatio. Yleistä. Symbolinen representaatio. Martti Vainio. Transkription tarkkuus

Artikulatoriset piirteet. Puheen tuotto ja havaitseminen II Konsonantit. Piirteiden tyypit. Artikulaatiotavat

Puheen tuotto ja havaitseminen II

Puheen akustiikan perusteita

Artikulatoriset piirteet. Puheen tuotto ja havaitseminen II Konsonantit. Piirteiden tyypit. Artikulaatiotavat

Puheen tuotto ja havaitseminen II

Luento: Puhe. Mitä puhe on? Anatomiaa ja fysiologiaa. Puhetapahtuma. Brocan ja Wernicken alueet. Anatomiaa ja fysiologiaa. Puheen tuottaminen:

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

5 Akustiikan peruskäsitteitä

Suomen prosodian variaation tutkimuksesta

Puheen akustiikan perusteita

SGN-4200 Digitaalinen audio

FONETIIKKA SUULLISEN KIELITAIDON ARVIOINNISSA

ELEC-C Sovellettu digitaalinen signaalinkäsittely. Äänisignaalien näytteenotto ja kvantisointi Dither Oskillaattorit Digitaalinen suodatus

Sanajärjestyksen ja intensiteetin vaikutus suomen intonaation havaitsemisessa ja tuotossa

HUUDETUN PUHEEN ANALYYSI JA SYNTEESI

FP1/Clt 120: Fonetiikan perusteet: artikulaatiotavat

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Johdanto tieto- viestintäteknologian käyttöön: Äänitystekniikka. Vfo135 ja Vfp124 Martti Vainio

1 Vastaa seuraaviin. b) Taajuusvasteen

kl 2014 Tampereen yliopisto Fonetiikan jatkokurssi Johdanto Puheen tuottaminen

Vfo254: Puhekorpusten käyttö

Puhekorpukseet. Puhekorpukset ja puhetietokannat. Puhekorpus. Martti Vainio

Digitaalinen audio

4 Fonetiikkaa. Puhe-elimet

Organization of (Simultaneous) Spectral Components

Vfo254: Puhekorpusten käyttö

Tietoliikennesignaalit & spektri

Pianon äänten parametrinen synteesi

S Havaitseminen ja toiminta

Luento 8. Suodattimien käyttötarkoitus

Kuvia puheentutkimusprojektilta vuosina

Digitaalinen signaalinkäsittely Desibeliasteikko, suotimen suunnittelu

Fonetiikan perusteet (FA1/Clt 120): ääni II, ilmavirtamekanismit ja äänteet

Dynaamisten systeemien identifiointi 1/2

8 Puhesynteesi. 8.1 Syntetisoidun puhesignaalin laatu

KAIKUPEDAALIN VAIKUTUKSET PIANON ÄÄNEEN: ANALYYSI JA SYNTEESI 1 JOHDANTO 2 ÄÄNITYKSET JA SIGNAALIANALYYSI

T DSP: GSM codec

Virheen kasautumislaki

Muuntavat analogisen signaalin digitaaliseksi Vertaa sisääntulevaa signaalia referenssijännitteeseen Sarja- tai rinnakkaismuotoinen Tyypilliset

Signaalien generointi


1. Perusteita Äänen fysiikkaa. Ääniaalto. Aallonpituus ja amplitudi. Taajuus (frequency) Äänen nopeus

Foneettiset symbolit

Harjoitustyö 1. Signaaliprosessorit Sivu 1 / 11 Vähämartti Pasi & Pihlainen Tommi. Kaistanestosuodin, estä 2 khz. Amplitudi. 2 khz.

Prosodia. Martti Vainio. Puhetieteiden laitos, Helsingin yliopisto. Prosodia p. 1/53

Historiaa musiikillisten äänten fysikaalisesta mallintamisesta

Miksi prosodiasta tulee olla kiinnostunut? Prosodia. Äänteiden yläpuolella. Mitä? ja Miten?

Prosodia. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Prosodia p.1/46

» Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN

5 Lineaarinen ennustus

Fonetiikan perusteet (FA1/Clt 120): ääni II, ilmavirtamekanismit ja äänteet

Missä mennään. systeemi. identifiointi. mallikandidaatti. validointi. malli. (fysikaalinen) mallintaminen. mallin mallin käyttötarkoitus, reunaehdot

Puhenäytteiden mittailusta puhekorpuksen perkuuseen: kalastelua mato-ongella ja verkoilla. Mietta Lennes FIN-CLARIN / Helsingin yliopisto

Miksi prosodiasta tulee olla kiinnostunut? Prosodia. Äänteiden yläpuolella. Mitä? ja Miten?

Taajuusmittauskilpailu Hertsien herruus Mittausraportti

Prosodia. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Prosodia p.1/43

Synteesi-analyysi koodaus

Kissankello vai kissan kello?

Kohti uuden sukupolven digitaalipianoja

Puhe ja kommunikaatio

Äänen eteneminen ja heijastuminen

Jukka Pätynen. Jukka, Jussi, Niklas, aiheassistenat 5: Tilaääni Prof. Ville Pulkki, Juhani Paasonen

Alipäästösuotimen muuntaminen muiksi perussuotimiksi

Fonetiikan perusteet (Clt 120): ääni II, ilmavirtamekanismit ja äänteet sekä liikkeet. Martti Vainio,

Puheenkoodaus. Olivatpa kerran iloiset serkukset. PCM, DPCM ja ADPCM

TL5503 DSK, laboraatiot (1.5 op) Suodatus 1 (ver 1.0) Jyrki Laitinen

THE audio feature: MFCC. Mel Frequency Cepstral Coefficients

Parametristen mallien identifiointiprosessi

Yleisen fonetiikan peruskurssi

4. FONOLOGIA eli kielen äännerakenne

T SKJ - TERMEJÄ

815338A Ohjelmointikielten periaatteet Harjoitus 2 vastaukset

PUHEEN ARTIKULATORINEN MALLINNUS JA PUHEINVERSIO. Heikki Rasilo, Unto K. Laine

JOHDATUS TEKOÄLYYN TEEMU ROOS

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

Uusia ajatuksia švaasta

Kojemeteorologia. Sami Haapanala syksy Fysiikan laitos, Ilmakehätieteiden osasto

Tiedonkeruu ja analysointi

Digitaalinen audio & video I

SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento TTY/Signaalinkäsittelyn laitos Konsta Koppinen

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

SGN-1200 Signaalinkäsittelyn menetelmät, Tentti

KIELEN PITKITTÄISTEN VÄRÄHTELYJEN HAVAITSEMINEN PIANON ÄÄNESSÄ 1 JOHDANTO 2 KUUNTELUKOKEET

Transkriptio:

Puhesynteesi Signaalin generointi Martti Vainio mailto:martti.vainio@helsinki.fi 11. huhtikuuta 2003

Signaalin generointi puhesynteesissä Kuinka tuottaa foneettisesta symbolisesta tiedosta jatkuvaa signaalia Luo siis sillan symbolisen esityksen ja signaalin välille Silta vie tietokonelingvistiikasta signaalinprosessointiin.

Ennen signaalintuottoa: teksti Merkkijonojen identifiointi ja esiprosessointi = normalisointi Prosodinen ryhmitys phrasing Lingvistinen analyysi; sanaluokat ja morfosyntaksi Sana- ja lausepainon määrittely Perustaajuuden estimointi Äänekkyyden estimointi Äännekestojen estimointi signaalin generointi

Signaalintuoton päästrategiat Oletus on, että lingvistinen analyysi on tehnyt tehtävänsä ja keskitymme signaalin tuottamiseen tarkasta foneettisesta ja prosodisesta informaatiosta. Päästrategioita on kolme: Sääntösynteesi (synthesis by rule) Konkatenaatiosynteesi (concatenation synthesis) Artikulatorinen synteesi (articulatory synthesis)

Puhesynteesi Puhesynteesissä on siis kysymys laskennallisesta analogiasta puheentuoton artikulaation kanssa. Parhaassa tapauksessa järjestelmiin on sisäänrakennettu artikulatorisia rajoitteita, joka on mahdollista kahdella tavalla: Eksplisiittisesti sääntöjen muodossa Implisiittisesti tallentamalla koartikulaatio ja transitiot tietokantaan.

Sääntösynteesi Perustuu foneettiseen tietoon, joka on hankittu: kirjallisuudesta (foneettinen tutkimustieto) tietokannoista Sääntösynteesissä käytetään yleensä ns. terminaalianalogiaa (formanttisynteesiä), jossa puhe koostetaan parametrisesti.

Säännöt /h/:n soinnillisuus vokaalien välissä: h = [+voc] \ [+vok] _ [+vok] h = [t=0.0, AV=26] \ [+vok] _ [+vok] Nasaalien assimilaatio: n = N \ _ [+stop],[+velar] n = m \ _ [+stop],[+labial]

Sääntösynteesin segmentaalinen laatu on riippuvainen: Sääntöjen laadusta: kuinka hyvin ne edustavat puheentuottoprosessia ja/tai kuinka hyvin ne edustavat käytettyä korpusta. Korpuksen laadusta: kuinka hyvin korpus on laadittu (foneettinen edustavuus) ja äänitetty. Trimmauksen laadusta: kuinka hyvin sääntöjen lopullinen, yrityksen ja erehdyksen kautta tehty viilaus on onnistunut pystytäänkö dataan perustuvien sääntöjen virheitä korjaamaan.

Klatt formanttisyntetisaattori RN ZN R1 R2 R3 R4 R5 cascade A1 R1 impulse train random numbers glottal filter LP filter parallel A2 A3 A4 A5 R2 R3 R4 R5 + preempasis synthetic speech output A6 R6

Formanttisynteesi: rinnakkainen vai sarjassa Sarjaan kytkettyjen resonaattorien etu on, että niille täytyy kertoa vain formanttien taajuudet ja kaistanleveydet; amplitudit hakeutuvat automaattisesti oikeiksi. Rinnakkaisesta synteesiä rasittaa lisäksi vaatimus formanttien amplitudeista; rinnakkaismallilla voidaan kuitenkin simuloida helpommin sellaisia konsonantteja (etenkin frikatiiveja), joilla on antiformantteja. (Toisaalta rinnakkaismallin resonanssien summaaminen implikoi sitä, että resonaattorit ovat itsenäisempiä ja ovat siten itsenäisesti kontrolloitavissa.)

Formanttisynteesi: rinnakkainen vai sarjassa Sarjamalli perustuu suoremmin puheentuoton akustiseen teoriaan, jonka mukaan ääntöväylän siirtofunktio on esitettävissä suotimien tulona.

Formanttisynteesin glottaalinen eksitaatio Periaatteessa pelkkä impulssijono riittää tuottamaan puheen kaltaisen tuloksen syntetisaattorista. Luonnollisuus vaatii kuitenkin lähteeltä enemmän. Yleensä lähteeseen liittyy useita parametrejä, joiden avulla voidaan mallintaa muutoksia niin eri äänteiden kuin puhujienkin välillä. Glottislähteen parametrejä ovat mm. sulkeuma- ja avaumavaiheiden suhde (open quotient), aspiraatiohälyn määrä, ns. jitter (perustaajuuden perturbaatio) ja lähteen spektraalinen kaltevuus. Myös glottiksen alapuolisen väylän vaikutus pulssin muotoon on otettu huomioon.

Formanttiresonaattorin impulssivaste ja sen spektri; formantin kaistanleveys on suoraan verrannollinen impulssivasteen vaimenemiseen. 1 60 0 Sound pressure level (db/hz) 40 20 0.9898 0.0001 0.01 Time (s) 0 0 11025 Frequency (Hz)

Formanttisynteesin ongelmia Parametrien suuri määrä komplisoi analyysivaihetta ja johtaa synteesistä riippumattomiin virheisiin formanttisynteesi ei sellaisenaan sisällä artikulatorisia rajoitteita. Formanttien taajuuksien ja kaistanleveyksien estimointi datasta on vaikeaa, tarvitaan siis... Aikaa vievä kokeileva vaihe sääntöjen manuaalinen viritys yrityksen ja erehdyksen kautta.

Konkatenaatiosynteesi Konkatenaatiosynteesi perustuu tallennettujen puheenosien yhteenliimaamiseen ja niiden mahdolliseen prosessoimiseen haluttuun muotoon. Prosessi koostuu seuraavista osista: Valitaan sopiva yksikkö Pakotetaan yksiköt halutun prosodian mukaisiksi Rekonstruoidaan signaali modifioiduista osista

Difonikonkatenaatio Perustuu muutamaan yksinkertaiseen tosiasiaan: Äänteen keskikohta on sen reunoja stabiilimpi Tarvitaan vain äänne 2 yksikköä (suomessa 26 2 = 676 1 = 675) Kaiken lisäksi kaikkia kombinaatioite ei ole Toisaalta saattaa olla hyvä lisätä eri difonit painollisille konteksteille Difonitietokanta suhteellisen pieni (suomessa n. 5 megaa (16 khz, 16 bittiä).

Difonitietokannan luominen Tuotetaan lista sanoja, joista difonit leikataan Helpointa käyttää logatomeja (nonsense words): # t a p a a p a # # t a t a a t a # Etuja ovat difonien tuottamisen helppous ja niiden tuotosten konsistentti laatu.

Difonien rakentaminen Difonit sisältävät sanat/lauseet äänitetään mahdollisimman hyvin. Difonit segmentoidaa sanoista ja tieto tallennetaan. Saadut segmentit parametrisoidaan tarpeen mukaan.

Difonien parametrisointi Difonien parametrisointia käytetään lähinnä kahdesta syystä. Tämä muistuttaa paljolti äänneyhtymien tallentamista sääntöinä sääntösynteesissä, mutta on täysin objektiivinen prosessi. Segmenttien parametrisointi pienentää tietokannan kokoa. Käytetyt mallit erottavat usein lähteen vaikutuksen ääniväylän suodinfunktiosta, jolloin prosodian mappaaminen segmentteihin ja niiden kokoaminen helpottuu.

Puheen generointi difoneista Haetaan tietokannasta haluttu jono difoneita: esim. sana joo koostuu difoneista: #_j j_o: o:_# Näiden alisegmenttien (esim. j segmentissä j_o:) muokataan siten, että ne vastaavat prosodiakomponentin laskemia äännekestoja. Muun prosodian mappaus tapahtuu tämän jälkeen Lopuksi difonit konkatenoidaan ja niiden yhtymäkohdat tasoitetaan (smoothing) riippuen käytetystä algoritmista ja koodaustavasta (parametrisoinnista).

Difonisynteesin rajoitteita Difonisynteesi rajoittaa kuitenkin puheen laatua, johtuen mm. siitä, että: (Segmentaali)foneettiset ilmiöt ulottuvat usein yli kahden äänteen. Järjestelmät eivät yleensä ota huomioon prosodiaa, painollisuutta, äänteen paikkaa sanassa ja tavussa jne. Mahdollisuuksia edetä ovat suurempi tietokanta tai luonnollisempi tietokanta.

Luonnollisempi tietokanta Luonnollisempi tietokanta tarkoittaa parempaa synteesiä koska tällöin kattavuus on myös luonnollista: Paljon esimerkkejä yleisistä kombinaatioista Harvoja esimerkkejä harvinaisista kombinaatioista Parantaa puheen laatua jos: Kattavuus on hyvä. Sopivien yksiköiden löytäminen on mahdollista.

Lausekeleikkaussynteesi (unit selection) Perustuu huolellisesti suunniteltuun tietokantaan: Nimikoidaan se, mitä puhuja tuottaa; foneettinen variabiliteetti ja koartikulaatio säilyy sellaisenaan. Tietokannassa säilyy puhujan identiteetti, murre jne.

Eri lähestymistapojen suhde puheen laatuun:

Tehtävän vaikeus/monimutkaisuus Difonikonkatenaatio text to speech Täydellinen rajoittamaton synteesi rajattu sanasto Lausekeleikkaus templaatti Puheen laatu

Tarkempaa tietoa saa seuraavista lähteistä, joihin nämä kalvot perustuvat: Alan Blackin kurssi CMU:ssa; http://festvox.org/festtut/slides/lecture10.ps. Thierry Dutoit: An Introduction to Text-to-Speech Synthesis, Kluwer Academic Publishers, 1997.