Puhesynteesin perusteet: Lingvistinen esikäsittely

Samankaltaiset tiedostot
Yhdyssana suomen kielessä ja puheessa

Puhesynteesin perusteet Luento 5: unit selection -synteesi

Puhesynteesin perusteet Luento 4: difonikonkatenaatio

Korpusten käsittely clt131, P Luento 5

Ctl160 Tekstikorpusten tietojenkäsittely p.1/15

3.4 Juttukentän tiedot

Korpusten käsittely clt131, P Luento 3

LUKUSANOJEN TAIVUTUS. Heljä Uusitalo

FONETIIKKA SUULLISEN KIELITAIDON ARVIOINNISSA

KV-järjestelmät suomelle

RATA-SM -sarjan graafinen ohjeistus Alkusanat Kuvapankki

Sana rakenteen kategoriana (A. Radford: Transformational Grammar. A First Course)

Sukupolvien välistä vuorovaikutusta

Suomen kielioppi: Harjoitukset - Harjoituslista. Aakkoset ja äänteet

Oppilas keskustelee ryhmässä ja tuo esille mielipiteitään. Oppilas osallistuu luokan ja koulun ilmaisuesityksiin. Oppilas harjoittelee

Lataa Eläinten kielellä - Ilkka Koivisto. Lataa

Oulun murteessa on käytössä myös nää-pronomini, joka tarkoittaa sinä. Sää on kuitenkin enemmän käytetty.

A-venäjän ylioppilaskokeen kehittämishanke

ISO SUOMEN KIELIOPPI S2- OPETUKSESSA. Muutama havainto

Ongelma(t): Miten jollakin korkeamman tason ohjelmointikielellä esitetty algoritmi saadaan suoritettua mikro-ohjelmoitavalla tietokoneella ja siinä

TOISEN ASTEEN KOULUTUS, LUKIO JA AMMATILLINEN KOULUTUS

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Korpusten käsittely clt131, P Luento 6

Ohje tutkielman tekemiseen

Vastaa kysymyksiin: Kuka teki / kenelle tapahtui? Mitä tapahtui? Missä tapahtui? Milloin tapahtui? Mahdollisesti myös: Miten? Miksi?

RANSKA Perusopetuksen vuosiluokilla 7-9 alkanut oppimäärä (B2) Valtakunnalliset syventävät kurssit, B2

Kanta graafinen ohje. Versio

Johdatus L A TEXiin. 10. Matemaattisen tekstin kirjoittamisesta. Matemaattisten tieteiden laitos

OTT-S99 TESTAUSLOMAKE 1(22) Käyttäjää (tunnusta) ei saa olla kannassa

Mikään ei ole niin vanha kuin eilinen uutinen Copyright Thorleif Johansson 2

Pääluvun tekstin jälkeen tuleva alaotsikko erotetaan kahdella (2) enterin painalluksella,väliin jää siis yksi tyhjä rivi.

Yläkoulun valinnaiset opinnot

4. Lausekielinen ohjelmointi 4.1

Ohjelmoinnin perusteet Y Python

Quizlet.

Miten tietokone näkee suomen murteet?

Lausuminen kertoo sanojen määrän

Kirjaimet. Jakso "Kirjaimiin ja äänteisiin tutustuminen" Jakso "Vokaalit ja konsonantit" Mäkiset harjoituslista

Kanta-palvelut graafinen ohje , versio 6.0

Kulttuuritaidot Oppilas oppii tuntemaan Ranskaa ja ranskankielisiä alueita ranskankielisille kulttuureille ominaisia tapoja ja kohteliaisuussääntöjä

Korpusten käsittely clt131, P Luento 1

Ohjelmoinnin perusteet Y Python

CLT131 Korpusten käsittely

HAJANAISIA AJATUKSIA DIPLOMITYÖSTÄ

Vieraan kielen B1-oppimäärän opetuksen tavoitteisiin liittyvät keskeiset sisältöalueet vuosiluokalla 6

KIELIKarhu harjoituskirja

Ohjelmoinnin perusteet Y Python

Juniori-kansio on laaja, lausetasoinen kommunikointikansio, joka on suunniteltu lapsikäyttäjille.

Ohjelmoinnin perusteet Y Python

1 LOGO JA SEN KÄYTTÖ 1.1 LOGO JA TURVA-ALUE VÄRILLINEN LOGO LOGO VÄRILLISELLÄ POHJALLA MUSTA LOGO 7 1.

Kieli merkitys ja logiikka

Ohjelmoinnin perusteet Y Python

SUOMEN KOULUJÄRJESTELMÄ

Lataa. Luvut 0-20 havainnollistetaan selkeissä A4-kokoisissa numerotauluissa. Numerotauluissa näkyy myös, miten numero kirjoitetaan kirjaimin.

Muodostelmaluistelun Bonusarvioinnin tuloslaskenta versio 4.0

Ohjelmoinnin perusteet Y Python

Englanti. 3. luokan keskeiset tavoitteet

Tehtävä 2: Säännölliset lausekkeet

Kielellisen datan käsittely ja analyysi tutkimuksessa

Jahtipaikat.fi Käyttöohje

ASTERI KIRJANPITO KIELIVERSION OHJE

Lupa opetuskäyttöön pyydettävä. Näppäimistö. Kohdistimen ohjausnäppäimistö. Funktionäppäimistö. Kirjoitusnäppäimistö

11.4. Context-free kielet 1 / 17

Uusikaarlepyy Opetussuunnitelma Suomi toisena kielenä ja kirjallisuus (S2)

Humanistiset tieteet

KUN LUKEMINEN ON HANKALAA. Helena Sorsa

SUBSTANTIIVIT 1/6. juttu. joukkue. vaali. kaupunki. syy. alku. kokous. asukas. tapaus. kysymys. lapsi. kauppa. pankki. miljoona. keskiviikko.

Harjoituskerta Yritysviestinnän perusteet A71A00100 Visa Penttilä

metsän kieli Luonnon aakkoset Adjektiivijahti Vastakohtien etsintä Sanakäärme Sana-arvoitus Narujuoksu Tiedän ja näen

Datatähti 2019 alku. task type time limit memory limit. A Kolikot standard 1.00 s 512 MB. B Leimasin standard 1.00 s 512 MB

Lausekielinen ohjelmointi II Ensimmäinen harjoitustyö

Teini-kansio Avainsanat ja irtokuvakalenteri

VÄYLÄVIRASTO GRAAFINEN OHJEISTO 12/2018

Korpusten käsittely clt131, P Luento 4

Eskon ja Allin ihmemaa Sivu 1 / 8

Lukumummit ja -vaarit Sanavaraston kartuttamista kaunokirjallisuuden avulla

Aasian kieliä ja kulttuureita tutkimassa. Paja

Verkkokirjoittaminen. Anna Perttilä Tarja Chydenius

Ohjelmoinnin peruskurssi Y1

Opiskelijat valtaan! TOPIC MASTER menetelmä lukion englannin opetuksessa. Tuija Kae, englannin kielen lehtori Sotungin lukio ja etälukio

OHJE KILPIEN LISÄÄMISESTÄ ATJN KILPIVARASTOON

Ohjelmointi 1 / 2009 syksy Tentti / 18.12

Tehtäviin 1, 2, 3 ja 4 vastataan erilliselle optisesti tarkastettavalle vastauslomakkeelle.

OPISKELE KIELIÄ AIKUISLUKIOSSA

Mitä suomen intonaatiosta tiedetään

VÄYLÄVIRASTO GRAAFINEN OHJEISTO 4/2019

VÄYLÄVIRASTO GRAAFINEN OHJEISTO 10/2018

Laskelmia uudenvuodenpuheista

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Tehtävään 1 vastataan erilliselle optisesti tarkastettavalle vastauslomakkeelle.

Evantia 360 Junior Hybrid

Johdatus matematiikkaan

Irman käyttöohje Tunturisuunnistajille

PUHUTAAN NUMEROILLA Murtoluvut Desimaaliluvut tai

Vastaus Lukumäärä Prosentti 20% 40% 60% 80% 100% Vastaus Lukumäärä Prosentti 20% 40% 60% 80% 100% Vastaus Lukumäärä Prosentti 20% 40% 60% 80% 100%

TAVALLISIMMAT VÄLIMERKIT. Marja A.

Ohjelmoinnin peruskurssi Y1

CLT131 Korpusten käsittely (3op)

JYVÄSKYLÄN SEUDUN. 1. Sisältö * * Tähdellä merkityt kohdat ovat pakollisia. Sivun oikeassa yläkulmasta löytyy Lisää oma tapahtumasi.

Lausekielinen ohjelmointi II Ensimmäinen harjoitustyö

Transkriptio:

Puhesynteesin perusteet: Lingvistinen esikäsittely Nicholas Volk 24.1.2008 Käyttäytymistieteellinen tiedekunta

Tekstin esikäsittely Jaetaan syöteen luettaviin saneisiin ja äännevastineettomiin välimerkkeihin (saneistus) Välimerkkejä voidaan käyttää tauotukseen Helpottaa myöhempiä vaiheita, esimerkiksi morfologista analyysia Ei-aakkoselliset kielet: Ei välttämättä välimerkkejä

Virkerajan tunnistuksen ongelmia Yleensä puhesynteesit lukevat virkkeen kokoisia puhunnoksia Normaalisti helppo erotella esim. merkkien '!', '?' ja '.' avulla Ongelmia: [..] taitavan naisohjaajan [..] I. Douksjan käsialaa [..] Hessenin prinssi Karl Friedrich oli nyt oleva Väinö I. Samana päivänä [..] keisari Wilhelm II erosi [..] Ilomantsi osallistuu 16. Karelia-soutuun kuntaveneessä [..] friisiläisten lehmien määrä on 8. Sarjan voittokarja tuli Nilsiästä

Saneistuksen ongelmia Asiat voivat kuulua yhteen: In spite of 1 000 000... Tai enemmän tai vähemmän erikseen: R2D2 Risto-Matti Subtv...

Epästandardi sana Tavallisen sanan kirjoitetun ja puhutun muodon välillä vallitseen säännönmukaisen, yleensä sangen suoraviivainen korrelaatio Poikkeuksia: lyhenteet, numeroja ja vaikkapa hymiöt Epästandardit saneet pitää normalisoida eli kirjoittaa auki ennen kuin ne voidaan muuttaa äänteiksi...

Lyhenteet Luetaan yleensä kirjain kerrallaan Osa kirjoitetaan auki: n. 5 metriä Tunnistus voi olla vaikeaa: HOK vs SAK Jotkut taipuvat pääsanansa luvussa ja sijassa: ns., em., ko.,... Lisää haasteita: Tillström olikin 1996 mm. Australian avointen puolivälierissä Sen kaliiperi on 20 mm. Se on sileäpiippuinen [...]

Numerot Voivat taipua suomessa pääsäanan kanssa luvussa ja sijassa: 5 euroa 5 euron 5 Australian dollarilla Perusluku virkerajalla vs. Järjestysluku Siellä hän oli suurpujottelussa 14. ja pujottelussa 24 Vastaavasti päiväyksen tauotus: Näin kävi itselleni 14.2. Tuupovaarassa Hakuaika [..] päättyy 7.4. Yhteishaussa on mukana [..]

Miten luetaan... The man (and he certainly was one!) just said, Maybe. I'll see. I can't promise. Menimme laivalle LEMILLE Menimme LAIVALLA lemille. ;-)

Lineaarisuus puheessa Yleensä asiat luetaan siinä järjestyksessä miten ne on kirjoitettu... Poikkeuksia US$100 Saksan 21 vs einundzwandzig Suomen 12 Muinaisegyptin kuninkaalliset (synteesin kannalta todella relevanttia)

Morfologia Tuottaa kaikki syötesaneen mahdolliset morfologiset tulkinnat Tunnistaaa yhdyssanat, joka parantaa tavutusta ja painotusta: veronalainen Yleensä substantiiveja ja adjektiiveja painotetaan enemmän kuin verbejä, pronomineista nyt puhumattakaan (sisältösanat vs merkityssanat) Morfofonologiset ilmiöt kuten suomen alkukahdennus: Anna palaa kotiin vs Anna palaa! hernekeitto

Morfologia Auttaa äänteiksi muuttamista Flathead vs other Perushoitaja vs hashis Bullet pointtina tunnuksesta tuttu neliö Enintään kaksi tasoa alakohtia, tekstikoko pysyy samana. Alakohtien väliin ei tyhjiä - Kolmas bullet Asioiden väliin tyhjä rivi.

Syntaktinen jäsennys Yksikäsitteistää monitulkintaiset saneet Auttaa painotukseen - Häntä, teille Auttaa tunnistamaan homografit - Englannin lead - Suomen virkkeenalkuinen Anna - Ruotsin banan... Sävelkulun ja tauotuksen mallinnuksen apu

Kirjaimet äänteeksi Ääntämyssanasto (kattaa vähintäänkin poikkeukset) Voi sisältää äänteiden lisäksi tietoa mm. sanaluokasta, painotuksesta Esim. Englannin sword Amerikanenglannin CMUDICT: yli 100000 sanaa Unisyn-projekti: abstrahoitu leksikko, josta voidaan generoida englannin eri murteita Säännöt (pakollinen vapaan sanaston synteesissä) Käsin kirjoitetut (suomessa suoraviivaista) Koneopetetut

Perussivun otsikko Arial boldattu 24/30 pistettä Perussivun teksti Arial 20/30 pistettä. Jos väliotsikko, se boldataan. Bullet pointtina tunnuksesta tuttu neliö Enintään kaksi tasoa alakohtia, tekstikoko pysyy samana. Alakohtien väliin ei tyhjiä - Kolmas bullet Asioiden väliin tyhjä rivi.

Kuva synteesissä käytettävästä tietorakenteesta TODO: add pictue

Tekstikorpus lingvistisen esikäsittelyn apuna Todellisia esimerkkejäkäytöstä... Tilastollinen lähestymistapa vs. mutu Tästä 3-sivuinen PDF kurssin materiaali-sivulla