Puhesynteesin perusteet Luento 5: unit selection -synteesi

Samankaltaiset tiedostot
Puhesynteesin perusteet Luento 4: difonikonkatenaatio

Puheenkäsittelyn menetelmät

Puhesynteesi. Martti Vainio. 11. huhtikuuta 2003

Puhesynteesin perusteet: Lingvistinen esikäsittely

58131 Tietorakenteet ja algoritmit (kevät 2016) Ensimmäinen välikoe, malliratkaisut

Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Televerkon synkronointi

suurtuotannon etujen takia yritys pystyy tuottamaan niin halvalla, että muut eivät pääse markkinoille

TTS. Puhesynteesi (tekstistä puheeksi, engl. text-tospeech,

Luentorunko keskiviikolle Hierarkkinen ryvästäminen

ja λ 2 = 2x 1r 0 x 2 + 2x 1r 0 x 2

Signaalien generointi

Mitä CRM olisi ilman ajantasaisia kontaktitietoja?

Ongelma 1: Ovatko kaikki tehtävät/ongelmat deterministisiä?

TIE Ohjelmistojen suunnittelu. Luento 2: protot sun muut

HELIA 1 (14) Outi Virkki Tiedonhallinta

Suomen prosodian variaation tutkimuksesta

Johdatus lukuteoriaan Harjoitus 2 syksy 2008 Eemeli Blåsten. Ratkaisuehdotelma

Avainsanojen poimiminen Eeva Ahonen

20 Kollektorivirta kun V 1 = 15V Transistorin virtavahvistus Transistorin ominaiskayrasto Toimintasuora ja -piste 10

Algoritmit 2. Luento 6 To Timo Männikkö

SGN-4010, Puheenkäsittelyn menetelmät Harjoitus 6, 18. ja

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy päätöspuiden avulla tarkastellaan vasta seuraavissa harjoituksissa.

Omien laskukaavojen käyttö

Algoritmit 1. Luento 10 Ke Timo Männikkö

Data Envelopment Analysis (DEA) - menetelmät + CCR-DEA-menetelmä

Organization of (Simultaneous) Spectral Components

JOHDATUS TEKOÄLYYN TEEMU ROOS

MITÄ ULKOMAINONTA MAKSAA? Ja mitä sillä rahalla oikeasti saa?

Hierarkkinen ryvästäminen

Tähän kohtaan veistoksessani olen erityisen tyytyväinen ja syystä: Viisi parasta vinkkiä ensi vuoden kuvanveistokurssille osallistuvalle:

Ongelma 1: Onko datassa tai informaatiossa päällekkäisyyttä?

Johdatus tekoälyn taustalla olevaan matematiikkaan

S Laskennallinen systeemibiologia

Sanajärjestyksen ja intensiteetin vaikutus suomen intonaation havaitsemisessa ja tuotossa

Konsensusongelma hajautetuissa järjestelmissä. Niko Välimäki Hajautetut algoritmit -seminaari

1. (a) Seuraava algoritmi tutkii, onko jokin luku taulukossa monta kertaa:

Algoritmit 1. Luento 12 Ke Timo Männikkö

(a) L on listan tunnussolmu, joten se ei voi olla null. Algoritmi lisäämiselle loppuun:

Ongelma 1: Ovatko kaikki tehtävät/ongelmat deterministisiä?

Algoritmit 2. Luento 6 Ke Timo Männikkö

Hiukkavaaran monitoimitalo, IPT toteutuksena - arvoa rahalle ajatellen! Markkinainfo

C-ohjelmoinnin peruskurssi. Pasi Sarolahti

Monitavoitteiseen optimointiin soveltuvan evoluutioalgoritmin tarkastelu

Kaikkiin kysymyksiin vastataan kysymys paperille pyri pitämään vastaukset lyhyinä, voit jatkaa paperien kääntöpuolille tarvittaessa.

4 VUOTIAAN TIEDOT JA TAIDOT YHTEISTYÖLOMAKE LASTENNEUVOLAN, PERHEEN JA PÄIVÄHOIDON KÄYTTÖÖN

Algoritmit 2. Luento 12 To Timo Männikkö

Vastaus 1. Lasketaan joukkojen alkiot, ja todetaan, että niitä on 3 molemmissa.

Paikkatiedon käsittely 6. Kyselyn käsittely

Algoritmit 2. Luento 4 To Timo Männikkö

Tietorakenteet ja algoritmit - syksy

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

JOHDATUS TEKOÄLYYN TEEMU ROOS

Algoritmit 1. Luento 7 Ti Timo Männikkö

Kognitiivinen mallintaminen 1

Algoritmit 1. Luento 12 Ti Timo Männikkö

Graafit ja verkot. Joukko solmuja ja joukko järjestämättömiä solmupareja. eli haaroja. Joukko solmuja ja joukko järjestettyjä solmupareja eli kaaria

Tietorakenteet ja algoritmit Johdanto Lauri Malmi / Ari Korhonen

Luento 15: Ääniaallot, osa 2

Miten perustella, että joukossa A = {a, b, c} on yhtä monta alkiota kuin joukossa B = {d, e, f }?

Boost-hakkuri. Hakkurin tilaesitykset

JOHDATUS TEKOÄLYYN TEEMU ROOS

Harjoitus 1 ( )

Johdanto tieto- viestintäteknologian käyttöön: Äänitystekniikka. Vfo135 ja Vfp124 Martti Vainio

TIEA241 Automaatit ja kieliopit, kevät 2011 (IV) Antti-Juhani Kaijanaho. 31. maaliskuuta 2011

Algoritmit 2. Luento 2 To Timo Männikkö

Helsingin yliopisto/tktl Kyselykielet, s 2006 Optimointi Harri Laine 1. Kyselyn optimointi. Kyselyn optimointi

Oppijan saama palaute määrää oppimisen tyypin

JOHDATUS TEKOÄLYYN TEEMU ROOS

Rubikin kuutio ja ryhmät. Johanna Rämö Helsingin yliopisto, Matematiikan ja tilastotieteen laitos

Liite 2: Verkot ja todennäköisyyslaskenta. Todennäköisyyslaskenta ja puudiagrammit

opinnäytteiden palautuksessa, käsittelyssä ja arvostelussa Joonas Kesäniemi

Ohjelmoinnin peruskurssien laaja oppimäärä

JOHDATUS TEKOÄLYYN TEEMU ROOS

Tietorakenteet, laskuharjoitus 7, ratkaisuja

Matematiikka ja teknologia, kevät 2011

Jonosta toiseen siirtymiset

Algoritmit 2. Luento 13 Ti Timo Männikkö

Kuva 1: Funktion f tasa-arvokäyriä. Ratkaisu. Suurin kasvunopeus on gradientin suuntaan. 6x 0,2

Katkonnanohjaus evoluutiolaskennan keinoin

Taulun avoimista haaroista saadaan kelvolliset lausejoukot

T Luonnollisten kielten tilastollinen käsittely Vastaukset 11, ke , 12:15 14:00 Puheentunnistus ja kielimallien evaluointi Versio 1.

Datatähti 2019 loppu

TKT20001 Tietorakenteet ja algoritmit Erilliskoe , malliratkaisut (Jyrki Kivinen)

Englannin lausekerakenteita ja taulukkojäsentäminen

Prosodian havaitsemisesta: suomen lausepaino ja focus

17/20: Keittokirja IV

WEBINAARIN ISÄNNÄT. Jarno Wuorisalo Cuutio.fi. Petri Mertanen Superanalytics.fi. Tomi Grönfors Brandfors.com

Johdatus todennäköisyyslaskentaan Verkot ja todennäköisyyslaskenta. TKK (c) Ilkka Mellin (2004) 1

Königsbergin sillat. Königsberg 1700-luvulla. Leonhard Euler ( )

JOHDATUS TEKOÄLYYN TEEMU ROOS

Inversio-ongelmien laskennallinen peruskurssi Luento 4

Algoritmit 2. Luento 4 Ke Timo Männikkö

TOIMINNALLINEN PALOTURVALLISUUSSUUNNITTELU

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 19. syyskuuta 2016

3. laskuharjoituskierros, vko 6, ratkaisut

verkkojen G ja H välinen isomorfismi. Nyt kuvaus f on bijektio, joka säilyttää kyseisissä verkoissa esiintyvät särmät, joten pari

Transkriptio:

Puhesynteesin perusteet Luento 5: unit selection -synteesi Nicholas Volk 14.2.2008 Käyttäytymistieteellinen tiedekunta

Idea Aitoa puhetta on tallennettu tietokantaan tuhansien äänteiden verran Jopa yksittäisen syntetisoitavan äänteen paikan ottajaksi voi olla tuhansiakin ehdokkaita Synteettinen puhe kootaan tietokannan parhaiten kriteerit täyttävistä paloista Mitä on yhteensopivuus? Miten määritetään parhaus?

Äänne-ehdokkaan hyvyys: target cost Äänne-ehdokkaan sopivuuden määrittämiseksi on kaksi arvoa Paikallinen target cost kertoo äänteen itsensä hyvyydestä Äänteen kesto vs. äännekestomallin antama laskennallinen kesto Äänteen korkeus vs. intonaatiomallin antama laskennallinen sävelkorkeus Muita muuttujia kuten tavun painollisuus, sijainti sanarajalla...

Äänne-ehdokkaan hyvyys: join cost Äänne-ehdokkaan yhteensopivuus edellisen äänteen kunkin äänne-ehdokkaan kanssa eli join cost Eli liitoskohdan yhteensopivuus Amplitudi F0 Signaali (esim. Mel kepstri)... Tietokannassa peräkkäin esiintyvien äänteiden join cost on 0 Ne ovat samasta puhunnoksesta, joten niiden yhteensopivuus on täydellinen

Äänne-ehdokkaiden määrän rajaaminen kontrolloidusti Tietokannassa voi olla esim. 4000 a-äännettä (ehdokasta) Join cost -laskemiset per äännepari: Äänne 1 -ehdokkaat * äänne 2 -ehdokkaat Laskennallisesti tehotonta ja hidasta Pyritään poistamaan vähiten sopivat esim. Kontekstitiedon avulla Voidaan pyrkiä käyttämään isompia sopivia äännejonoja Ehdokkaiden äännekonteksti vastaa synteesissä haluttua Difoneja, trifoneja, jne... Mitä vähemmän leikkauskohtia, sen parempi synteesi (yleensä)

R-ongelma Täryjen mallinnushan oli suomen difonisynteesin vaikein ongelma Ongelma relevantti myös unit selectionissa Jos r löytyy tietokannasta sopivan trifonin keskeltä, voidaan valita vain tällaiset trifonit Äänne saadaan kokonaisena täryineen Leikkauskohdat tulevat edelliseen ja seuraavaan äänteeseen

Äänne-ehdokkaiden määrän rajaaminen automaattisesti (Festival) Vertaillaan kunkin äänteen ehdokkaita toisiinsa ja rakennetaan automaattisesti päätöspuu Puun lehdissä voi olla esim. 40 ehdokasta Lehtiin päätyvät keskenään samanlaiset ehdokkaat. Kaikkein erilaisimmat ehdokkaat voidaan tiputtaa pois (prune) - Erilaisuus tarkoittaa todennäköisesti huonoa yhteensopivuutta Päätökset tehdään automaattisesti jo synteesiä rakennettaessa Nopea ajonaikainen synteesi

Vertailua difonisynteesiin Periodien määrää ja kestoa voidaan manipuloida (ei yleensä käytetä) Toisaalta hyvin määritetty target cost suosii muutenkin kestoltaan ja taajudeltaan sopivia ehdokkaitta

Leikkauskohdan valinta Jos ehdokas on sopiva difoni voidaan leikkauskohdaksi valita mikä tahansa piste edellisen ehdokkaasta Paras paikka lienee edellisen ehdokaan keskellä (vrt. difonisynteesin perustelut) Voidaan laskea monesta eri pisteestä ja valita näistä paras Ei-difoni: leikkauskohta pakko olla äännerajalla Huono (vrt. difonisynteesi)

Vertailua difonisynteesiin: kestot ja f0 Periodien määrää ja kestoa voidaan manipuloida (ei yleensä käytetä) Toisaalta hyvin määritetty target cost suosii muutenkin kestoltaan ja taajudeltaan sopivia ehdokkaitta

Case: Festivalin mukana tuleva unit selection -synteesi Oletusarvoisesti target cost on sangen minimaalinen Kestoa tai perustaajuutta ei käytetä hyödyksi Samaten join cost on oletusarvoisesti kiinnostunut vain mel kepstreistä Äännekestot ja taajuus ovat sitä mitä tietokannasta sattuu tulemaan Luettu sangen monotonisesti, joten f0 ja amplitudi menevät yleensä ihan hyvin ja englannissa äännekesto ei ole niin kriittinen kuin suomessa

Viterbi-algoritmi Viterbi-algoritmin mukaelma, jolla lasketaan todennäköisyyksien sijaista paras reitti Nopea tapa määrittää paras jono puheen palasia Noodit ovat ehdokkaita, joihin pätee target cost Siirtymillä noodien välillä on join cost Tätä on tuskaista yrittää selittää kalvolla, ehkä taululla onnistuu paremmin...

Viterbi-algoritmin simulointia Ensimmäistä äännettä vastaaville noodeille lasketaan target cost ja talletetaan se noodin kokonaishinnaksi Lopuille kutakin äännettä vastaaville noodeille lasketaan Kunkin edellisen äänteen noodin kokonaishinta ja em. noodin ja tämän noodin välinen join cost Noodin oma target cost Tämä talletaan tämän noodin kokonaishinnaksi Myös tieto sopivimmasta edeltäjänoodista otetaan talteen Toistetaan reiteratiivisesti viimeiseen äänteeseen asti Viimeisen äänteen noodeista valitaan halvin ja käytettään reittiä, jolla siihen päästiin