Puhesynteesin perusteet Luento 4: difonikonkatenaatio

Samankaltaiset tiedostot
Puhesynteesin perusteet Luento 5: unit selection -synteesi

Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

T DSP: GSM codec

FP1/Clt 120: Fonetiikan perusteet: artikulaatiotavat

SGN-4010, Puheenkäsittelyn menetelmät Harjoitus 6, 18. ja

Luento: Puhe. Mitä puhe on? Anatomiaa ja fysiologiaa. Puhetapahtuma. Brocan ja Wernicken alueet. Anatomiaa ja fysiologiaa. Puheen tuottaminen:

5 Akustiikan peruskäsitteitä

Puheenkäsittelyn menetelmät

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

Puhesynteesi. Martti Vainio. 11. huhtikuuta 2003

Mittalaitetekniikka. NYMTES13 Vaihtosähköpiirit Jussi Hurri syksy 2014

Puhesynteesin perusteet: Lingvistinen esikäsittely

Clt)-. 0:)Fonetiikan)perusteet:) artikulaatiotavat. Ilmavirta. Artikulaatiotavat. Ilmavirta,)paine)ja)turbulenssi. Martti)Vainio)--)syksy).

THE audio feature: MFCC. Mel Frequency Cepstral Coefficients

Kuulohavainnon perusteet

Luento 15: Ääniaallot, osa 2

Tietoliikennesignaalit & spektri

Puheen akustiikan perusteita

Kohti uuden sukupolven digitaalipianoja

S Havaitseminen ja toiminta

Puheen akustiikan perusteita

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

Digitaalinen audio

Foneettiset symbolit

JOHDATUS TEKOÄLYYN TEEMU ROOS

DC-moottorin pyörimisnopeuden mittaaminen back-emf-menetelmällä

Puheentuoton fonetiikan kertausta Vfo 251, Puhesynteesin perusteet. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen.

PL 9/Siltavuorenpenger 5 A, Helsingin yliopisto etunimi.sukunimi@helsinki.fi

Tiistai klo Jari Eerola

Signaalinkäsittely Musiikin sisältöanalyysi Rumpujen nuotinnos Muotoanalyysi Yhteenveto. Lectio praecursoria

Kuuloaisti. Korva ja ääni. Melu

C-ohjelmoinnin peruskurssi. Pasi Sarolahti

Äänen eteneminen ja heijastuminen

TTS. Puhesynteesi (tekstistä puheeksi, engl. text-tospeech,

MARKKU NIEMI PUHEEN AIKASKAALAUS. Kandidaatintyö

Musiikkipäiväkirjani: Soitetaan rytmissä omaa ääntä käyttämällä (RV1) Juhlitaan kaikkia tunnettuja kielen ääniä.

Artikulatoriset piirteet. Puheen tuotto ja havaitseminen II Konsonantit. Piirteiden tyypit. Artikulaatiotavat

Puheen tuotto ja havaitseminen II

Artikulatoriset piirteet. Puheen tuotto ja havaitseminen II Konsonantit. Piirteiden tyypit. Artikulaatiotavat

Puheen tuotto ja havaitseminen II

Aaltoliike ajan suhteen:

Taajuusmittauskilpailu Hertsien herruus Mittausraportti

YLEINEN AALTOLIIKEOPPI

» Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN

Puhetilojen akustiikka. Henrik Möller Johtava akustiikkakonsultti DI, FISE AA

Korpusten käsittely clt131, P Luento 3

1. Perusteita Äänen fysiikkaa. Ääniaalto. Aallonpituus ja amplitudi. Taajuus (frequency) Äänen nopeus

Tekijä MAA2 Polynomifunktiot ja -yhtälöt = Vastaus a)

Prominenssin toteutuminen kolmessa yleispuhesuomen varieteetissa

JOHDATUS TEKOÄLYYN TEEMU ROOS

A. Huutokaupat ovat tärkeitä ainakin kolmesta syystä. 1. Valtava määrä taloudellisia transaktioita tapahtuu huutokauppojen välityksellä.

5 Lineaarinen ennustus

LUT, Sähkötekniikan osasto. 1. Ilmassa etenevällä tasoaallolla on sähkökentän voimakkuus z. d) vaihekerroin

Laskuharjoitus 2 ( ): Tehtävien vastauksia

Luento 11: Periodinen liike

Onko kuvaukset injektioita? Ovatko ne surjektioita? Bijektioita?

Perusmittalaitteet 2. Yleismittari Taajuuslaskuri

SGN-4200 Digitaalinen audio

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

Kaupunkimalli Heinolassa

Algoritmi I kuvioiden ja niille johtavien ajourien erottelu. Metsätehon tuloskalvosarja 7a/2018 LIITE 1 Timo Melkas Kirsi Riekki Metsäteho Oy

Intonaation analyysi ja annotointi puhekorpuksissa

Organization of (Simultaneous) Spectral Components

Modulaatio-ohjauksen toimimoottori AME 85QM

T Luonnollisen kielen tilastollinen käsittely Vastaukset 8, ti , 8:30-10:00 Tilastolliset yhteydettömät kieliopit, Versio 1.

Luentorunko 12: Lyhyen ja pitkän aikavälin makrotasapaino, AS

Termostaattinen vesiventtiili AVTB

Ctl160 Tekstikorpusten tietojenkäsittely Viides luento

Äänestys ja enemmistön käsitteet. Timo Reko

4 Fonetiikkaa. Puhe-elimet

Tv-äänisuunnittelu. Antti Silvennoinen Tel

Nyt ensimmäisenä periodina (ei makseta kuponkia) odotettu arvo on: 1 (qv (1, 1) + (1 q)v (0, 1)) V (s, T ) = C + F

6. Analogisen signaalin liittäminen mikroprosessoriin Näytteenotto analogisesta signaalista DA-muuntimet 4

Miten tietokone näkee suomen murteet?

10 yleistä hakukoneoptimointivirhettä

Yleisen fonetiikan peruskurssi

R-äänteen harjoitteluohjeet

Ohjelmistotekniikan menetelmät, kesä 2008

Miksi prosodiasta tulee olla kiinnostunut? Prosodia. Äänteiden yläpuolella. Mitä? ja Miten?

Prosodia. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Prosodia p.1/46

Prosodia. Martti Vainio. Puhetieteiden laitos, Helsingin yliopisto. Prosodia p. 1/53

Eskon ja Allin ihmemaa Sivu 1 / 8

Luento 13: Periodinen liike. Johdanto Harmoninen värähtely Esimerkkejä F t F r

Päätöksenteon mallit

10 yleistä hakukoneoptimointivirhettä

MIKROAALTOUUNI VAASAN YLIOPISTO TEKNILLINEN TIEDEKUNTA SÄHKÖTEKNIIKKA. Tuomas Karri i78953 Jussi Luopajärvi i80712 Juhani Tammi o83312

INSPIRE-yhteensopivuuden mahdollisuudet paikkatietotuotteissa - Case KMTK ja ELF. Teemu Saloriutta Tietotuotteet-kärkiteeman työpaja 27.3.

Mallilukujärjestys 1. vuosi 2013

Luento 1 Tietokonejärjestelmän rakenne

Luento 1 Tietokonejärjestelmän rakenne

Luento 1 Tietokonejärjestelmän rakenne. Järjestelmän eri tasot Laitteiston nopeus

Pyramidi 9 Trigonometriset funktiot ja lukujonot HK1-1. Dsin3 x. 3cos3x. Dsinx. u( x) sinx ja u ( x) cosx. Dsin. Dsin

S Elektroniikan häiriökysymykset. Laboratoriotyö, kevät 2010

Ohjevihkossa on käytetty papunetin kuvia Jyväskylän yhteistoiminta-alueen terveyskeskus 1(15)

on hidastuvaa. Hidastuvuus eli negatiivinen kiihtyvyys saadaan laskevan suoran kulmakertoimesta, joka on siis

Energianhallinta. Energiamittari. Malli EM10 DIN. Tuotekuvaus. Tilausohje EM10 DIN AV8 1 X O1 PF. Mallit

Transkriptio:

Puhesynteesin perusteet Luento 4: difonikonkatenaatio Nicholas Volk 7.2.2008 Käyttäytymistieteellinen tiedekunta

Idea Äänteet ovat stabiileimmillaan keskellä äännettä, joten mallinnetaan siirtymät äänteestä toiseen (difoni) Formantit lähestyvät oletusarvojaan Klusiilit ovat sulkeutuneet Poikkeuksia: affrikaatat ja r:n täryt Kukin difoni tarvitsee mallintaa vain kerran Kertoa, korkeutta ja amplitudia voi yleensä manipuloida Toisaalta allofoniset variantit tulkitaan eri äänteiksi - Nasaalistuneet vokaalit - Soinnillinen ja soinniton h - Painoton vs painollinen - Ovatko lyhyt ja pitkä äänne identtiset?

Difonitietokanta Täydellisen difonitietokannan koko äänteiden määrä potenssiin kaksi 25 äännettä: 625 difonia 40 äännettä 1600 difonia Hiljaisuus rinnastuu äänteisiin Kaikkea ei kuitenkaan tarvitse mallintaa Osa voidaan koostaa muiden difonien osista (semifooni) Harvinaiset äänneparit Siirtymät soinnittomasta klusiilista soinnittomaan klusiiliin

Laatiminen Määritetään kielen äänteen ja difonit Laaditaan lauselista ja marssitaan puhujan kanssa studioon Carrier sentence vs yksittäiset sanat vs... Oikeat sanat vs puppusanat Segmentoidaan nauhoitteiden äännerajat Automaattisesti vs käsin...tämä oikeastaan jo riittääkin uuden äänen tekemiseksi Festivalin valmiiksi tukeman kielelle

Difonin koodaus signaalitasolla Raakadata LPC Overlap-and-Add (OLA TD-PSOLA MBROLA...

Case: Festivalin LPC Difoni jaettu pienempiin äänihuuliperiodin kokoisiin paloihin Myös soinnittomiin äänteisiin lisätään suunnilleen samankestoiset rajat Rajoja kutsutaan pitchmarkeiksi Rajat tulevat yleensä aaltomuodon positiivisen puolen suurimman energiakeskittymän huipulle Laitetaan ensin automaattisesti ja sitten korjaillaan käsin jos on tarvis

Pitchmark-kuva

F0:n manipulointi Ainakin LPC ja OLA-pohjaiset menetelmät tukevat tätä Aaltomuoto säilyy vaikka yksittäisten näytteiden määrä muuttuu Voidaan pakottaa sävelkulku intonaatiomallin vaatimaan muotoon Lisää näytteitä -> matalampi perustaajuus Vähemmän näytteitä -> korkeampi perustaajuus Näytteenottotaajuudella kikkailuunkin törmään joskus

Periodien määrän vaihtelu Sävelkulun ja F0:n arvot vaikuttavat tarvittavan puhedatan määrään: Kesto 80 ms, taajuus 100Hz: 8 periodia Kesto 80ms, taajuus 125Hz: 10 periodia Tietokantaan tallennettu difoni voi sisältää enemmän tai vähemmän periodeja kuin halutaan Kannassa liian vähän periodeja: toistetaan jotkut kahteen kertaan Kannassa liikaa periodeja: poistetaan niistä osa Mitkä perioidit valitaan ja mitkä ei?

Yleinen ratkaisu: suhteellinen sijainti Alla käyttämäni suhteellisen sijainnin laskeva kaava, jossa Pn on synteesissä tarvittavien periodien määrä Pi tarkastelun kohteena olevan periodin indeksi (monesko) Dn on tietokantaan tallennettujen relevanttien periodien määrä Di on tietokannasta haettavan periodin indeksi

Ongelma: klusiilit Äskeinen kaava saattaa monistaa klusiilin laukeamat:

Ratkaisu klusiiliongelmaan Sulkeumassa (esim. t-a -difonin alussa) itsessään on hyvin vähän mitään paitsi kohinaa ja kaikua Haetaan difonin keskikohdasta (laukeama) periodeja aina vain kerran ja monistetaan/poistetaan periodeja difonin alusta (sulkeuma) Toimii, jos difoni on tarpeeksi pitkä...

Paremmin syntetisoitu tatti

R-ongelma Täryjen mallinnus on suomen difonisynteesin vaikein ongelma Itse laitan difonin alkamaan/loppumaan täryn keskelle Pitää pitää huolta, että puhuja tuottaa difonit yksitäryisinä Täryperiodeja ei saa lisätä tai poistaa tai tulee hassun kuuloista synteesiä

Traber (1995): SVOX Traberin väitöskirjassa esitetään sofistikoituneempi ratkaisuu ongelmaan Kukin periodi sisältää tiedon sen monistettavuudesta Pitääkö tulla tasan kerran Saako poistaa Saako monistaa Nykyinen SVOX lienee jo mennyt tästä eteenpäin, ei enää difonisyntetisaattori...