SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 13.1.2010. TTY/Signaalinkäsittelyn laitos Konsta Koppinen

Samankaltaiset tiedostot
Puheenkäsittelyn menetelmät

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

Digitaalinen audio

SGN-4200 Digitaalinen audio

TTS. Puhesynteesi (tekstistä puheeksi, engl. text-tospeech,

» Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN

SGN-4010, Puheenkäsittelyn menetelmät Harjoitus 6, 18. ja

ELEC-C5210 Satunnaisprosessit tietoliikenteessä

Puhenäytteiden mittailusta puhekorpuksen perkuuseen: kalastelua mato-ongella ja verkoilla. Mietta Lennes FIN-CLARIN / Helsingin yliopisto

3 Ikkunointi. Kuvio 1: Signaalin ikkunointi.

Digitaalinen signaalinkäsittely Johdanto, näytteistys

Tietoliikennesignaalit & spektri

Kompleksiluvut signaalin taajuusjakauman arvioinnissa

Yleistä. Digitaalisen äänenkäsittelyn perusteet. Tentit. Kurssin hyväksytty suoritus = Harjoitustyö 2(2) Harjoitustyö 1(2)

Luento: Puhe. Mitä puhe on? Anatomiaa ja fysiologiaa. Puhetapahtuma. Brocan ja Wernicken alueet. Anatomiaa ja fysiologiaa. Puheen tuottaminen:

Organization of (Simultaneous) Spectral Components

SGN-4200 Digitaalinen Audio Harjoitustyö-info

Puheteknologia Informaa2oteknologian perusteet. Kalle Palomäki Signaalinkäsi8elyn ja akus2ikan laitos

Digitaalinen signaalinkäsittely Kuvankäsittely

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä


TieVie-hanke Saksan kieli. Ritva Huurtomaa

Puhesynteesin perusteet Luento 4: difonikonkatenaatio

DSP:n kertausta. 1 Spektri, DFT, DTFT ja aika-taajuusresoluutio

Digitaalinen audio & video I

5 Akustiikan peruskäsitteitä

Johdanto tieto- viestintäteknologian käyttöön: Äänitystekniikka. Vfo135 ja Vfp124 Martti Vainio

ELEC-C7230 Tietoliikenteen siirtomenetelmät. Yleistä

Mat Systeemien identifiointi

Digitaalinen audio & video, osa I. Johdanto. Digitaalisen audion sovellusalueet. Johdanto. Taajuusalue. Psykoakustiikka. Johdanto Digitaalinen audio

MARKKU NIEMI PUHEEN AIKASKAALAUS. Kandidaatintyö

Dynamiikan hallinta Lähde: Zölzer. Digital audio signal processing. Wiley & Sons, Zölzer (ed.) DAFX Digital Audio Effects. Wiley & Sons, 2002.

Puhesynteesi. Martti Vainio. 11. huhtikuuta 2003

Kuulohavainnon perusteet

T DSP: GSM codec

Tiistai klo Jari Eerola

Internet ja tietoverkot

Puhesynteesin perusteet Luento 5: unit selection -synteesi

T SKJ - TERMEJÄ

Puheenkäsittelyn menetelmät

ELEC-C Sovellettu digitaalinen signaalinkäsittely. Äänisignaalien näytteenotto ja kvantisointi Dither Oskillaattorit Digitaalinen suodatus


1 Vastaa seuraaviin. b) Taajuusvasteen

PL 9/Siltavuorenpenger 5 A, Helsingin yliopisto etunimi.sukunimi@helsinki.fi

Foneettiset symbolit. Clt 120: Fonetiikan perusteet: intro, äänentuotto, artikulaatiopaikat. IPA jatkoa IPA. Martti Vainio -- syksy 2005

Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Matematiikan tukikurssi

1. Perusteita Äänen fysiikkaa. Ääniaalto. Aallonpituus ja amplitudi. Taajuus (frequency) Äänen nopeus

Puhesynteesin historiaa. Puhesynteesi. Historiaa: Kempelen. Historiaa: Kratzenstein

Puhesynteesi. Martti Vainio. Fonetiikan laitos, Helsingin yliopisto. Puhesynteesi p.1/38

Helsinki University of Technology

Spektri- ja signaalianalysaattorit

ELEC-C7230 Tietoliikenteen siirtomenetelmät

Puheentunnistus Mikko Kurimo

Numeeriset menetelmät

Tietoturva. 0. Tietoa kurssista P 5 op. Oulun yliopisto Tietojenkäsittelytieteiden laitos Periodi / 2015

Radiotekniikan perusteet BL50A0301

SGN-4010 Puheenkäsittelyn menetelmät

8 Puhesynteesi. 8.1 Syntetisoidun puhesignaalin laatu

Suomi toisena kielenä -ylioppilaskoe. FT Leena Nissilä Opetusneuvos, yksikön päällikkö OPETUSHALLITUS

Matlab-tietokoneharjoitus

Tietokoneverkot. T Tietokoneverkot (4 op) viimeistä kertaa CSE-C2400 Tietokoneverkot (5 op) ensimmäistä kertaa

Puheenkoodaus. Olivatpa kerran iloiset serkukset. PCM, DPCM ja ADPCM

Ohjelmistoarkkitehtuurit. Syksy 2007

Signaalit ja järjestelmät aika- ja taajuusalueissa

Signaalien datamuunnokset

Puheentuoton fonetiikan kertausta Vfo 251, Puhesynteesin perusteet. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen.

Digitaalisen kuvankäsittelyn perusteet

Signaalinkäsittely Musiikin sisältöanalyysi Rumpujen nuotinnos Muotoanalyysi Yhteenveto. Lectio praecursoria

Tuloslaskenta (22C00400, 6 op)

KVANTITATIIVISET TUTKIMUSMENETELMÄT MAANTIETEESSÄ

S Havaitseminen ja toiminta

Digitaalinen Audio & Video I

Käytännön radiotekniikkaa: Epälineaarinen komponentti ja signaalien siirtely taajuusalueessa (+ laboratoriotyön 2 esittely)

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

LUONNOLLINEN MITTASIGNAALI

OHJ-7400 Graafisen käyttöliittymän ohjelmointi 4/6op

Tietokoneen rakenne (2 ov / 4 op) Syksy 2006

Kojemeteorologia. Sami Haapanala syksy Fysiikan laitos, Ilmakehätieteiden osasto

Luento 8. Suodattimien käyttötarkoitus

Kurssiesite Lausekielinen ohjelmointi II Syksy Jorma Laurikkala Tietojenkäsittelytieteet Informaatiotieteiden yksikkö Tampereen yliopisto

Signaalien datamuunnokset. Digitaalitekniikan edut

ELEC-C5070 Elektroniikkapaja (5 op)

z muunnos ja sen soveltaminen LTI järjestelmien analysointiin

Tietokoneen rakenne (2 ov / 4 op) Syksy 2007 Liisa Marttinen. Helsingin yliopisto Tietojenkäsittelytieteen laitos

SIGNAALITEORIAN KERTAUSTA OSA 2

Epäyhtälön molemmille puolille voidaan lisätä sama luku: kaikilla reaaliluvuilla a, b ja c on voimassa a < b a + c < b + c ja a b a + c b + c.

Signaalien tilastollinen mallinnus T (5 op) Syksy 2006 Harjoitustyö

Tuloslaskenta (22C00400, 6 op)

Kurssin käytännön järjestelyt. Tuotantotalous 1 Joel Kauppi

Puheentutkimuksen tilastoanalyysin perusteet

Kenguru 2016 Mini-Ecolier (2. ja 3. luokka) Ratkaisut

Sanajärjestyksen ja intensiteetin vaikutus suomen intonaation havaitsemisessa ja tuotossa

TL5503 DSK, laboraatiot (1.5 op) Suodatus 2 (ver 1.0) Jyrki Laitinen

Puheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting

Digitaalinen audio & video, osa I

Analyyttinen mekaniikka I periodi 2012

AV-muotojen migraatiotyöpaja - ääni. KDK-pitkäaikaissäilytys seminaari / Juha Lehtonen

TIETOLIIKENNETEKNIIKKA I A

Transkriptio:

SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento 1 13.1.2010 TTY/Signaalinkäsittelyn laitos Konsta Koppinen

2 Kurssijärjestelyt Luennot (10h): Konsta Koppinen (huone TF317, etunimi.sukunimi@tut.fi) Harjoitukset (10h): Katariina Mahkonen (etunimi.sukunimi@tut.fi)

3 Kurssijärjestelyt (2) Materiaali: Pääasiallisena materiaalina luentomoniste Lisälukemista kaipaaville: kurssikirja T.F. Quatieri, Discrete-Time Speech Signal Processing: Principles and Practice, Prentice Hall PTR, 2002 Harjoitustehtävät (5 tehtävää / harjoituskerta) Tentissä pärjää osaamalla luentojen, harjoitusten, prujun ja kalvojen asiat Tentti 29.1.2009 Tenttioikeus ja bonukset voimassa kurssin kolmessa seuraavassa tentissä Tenttioikeuden saamiseksi muista ilmoittautua myös kurssille!

4 Harjoituskäytäntö Harjoituksia 5 x 2h = 10h (alkavat viikolla 50) Pisteitä jaossa kullakin kerralla 5p (eli yhteensä 25 p) Tenttioikeus: 20% pisteistä (eli 5p) Hyväksyttyyn tenttiin saa lisäpisteitä seuraavasti: 10 harjoituspistettä tai enemmän (40 %) => 1 piste 15 harjoituspistettä tai enemmän (60 %) => 2 pistettä 20 harjoituspistettä tai enemmän (80 %) => 3 pistettä l. arvosanan korotus Tehtävät ratkaistaan etukäteen (myös MATLAB), tehtävien läpikäymisen jälkeen voi jäädä ratkaisemaan seuraavan kerran tehtäviä Poikkeuksena viikon 2/2009 Praat-harjoitukset (vuoden 2009 ensimmäiset harkat), joihin ei tarvitse valmistautua

5 Harjoitusryhmät Ryhmät: To 10-12, TC303 Pe 10-12, TC303 Pe 12-14, TC303 Harjoitusryhmiin ei tarvitse ilmoittautua Tenttioikeuden (20% tehtävistä) saa melko helposti, mutta bonuspisteiden saamiseksi joutuu näkemään enemmän vaivaa.

6 Esitiedot Osaatko vastata seuraaviin kysymyksiin? Mikä on suodattimen impulssivaste/taajuusvaste? Miten signaaleiden konvoluutio lasketaan? Mitä eroa on FIR- ja IIR-suodattimilla? Miten FFT lasketaan? Entä z-muunnos? Mitä ovat suodattimen nollat ja navat? Asiat voi kerrata kurssin SGN-1200 prujusta

7 Mitä puheenkäsittely on? Tarkoittaa (loogisesti) puhesignaalin käsittelyä Sovelluksia: Koodaus (esim. matkapuhelimet) Tunnistus (puheesta tekstiksi) Synteesi (tekstistä puheeksi) Ehostus (laadun parannus) Muokkaus (muokataan äänestä toisenlainen) Puhujantunnistus (kuka puhuu) Käytetään signaalinkäsittelyn menetelmiä Fourier-muunnos, ikkunointi, autokorrelaatio,... Myös erityisesti puheelle soveltuvia menetelmiä LPC-analyysi, Markovin piilomallit, pitch-synchronous overlap-add,...

8 Puhe on monitasoinen signaali Joitain operaatioita voidaan tehdä ilman tarkempaa tietoa puheesta Kohinan poisto, yksinkertainen koodaus Lisätiedolla voidaan tehdä lisäoperaatioita Puheen muokkaus, parempi koodaus, puhujantunnistus Vielä enemmän tietoa Puhesynteesi, puheentunnistus Hurja määrä tietoa Puheen ymmärrys

9 Miltä puhe näyttää? Puhe on akustisesti ilmanpaineen vaihtelua Näytteistetään mikrofonin ja A/D-muuntimen avulla Näytteenottoteoreema pätee

10 Taajuusesitys Usein hyödyllisempi kuin aikatason signaali Korva erottelee taajuuksia Puheessa esiintyvät formantit...eli ääntöväylän resonanssitaajuudet Ilmenevät puheen spektrissä Puhe muuttuu nopeasti lyhytaikainen Fourier-muunnos...eli FFT ikkunoidusta signaalista

11 Puheen tuottaminen ja sen mallintaminen Quatieri: Discrete Time Speech Signal Processing Principles and Practice

12 Puheen tuottaminen ja sen mallintaminen Quatieri: Discrete Time Speech Signal Processing Principles and Practice

Ikkunointi Puhetta käsitellään kehyksittäin (frame) eli ikkunoittain Toimii seuraavasti:

taajuus FFT:n amplitudi Spektrogrammi Kehyksittäin lasketun FFT:n amplitudi 8kHz aika

15 Tarkempi katsaus puhesignaaliin Puhe koostuu äänteistä: Vokaalit ja konsonantit Suomen kielessä on n. 30 äännettä Ei selkeitä rajoja

Maailman kielten äänteet

17 Perustaajuus (f 0 ) Joissakin äänteissä äänihuulet värähtelevät (soinnillinen äänne) (a) Suurin piirtein jaksollinen aaltomuoto (b) Suurin piirtein harmoninen spektri (a) (b)

Sama kuvio Hanning-ikkunalla (a) (b)

Sovellus: puheen perustaajuuden muuttaminen Idea: muutetaan puhujan perustaajuutta Nk. PSOLA-algoritmi (pitch-synchronous overlap-add): Etsitään puheen perustaajuus soinnillisista kohdista (ei helppoa) Otetaan jaksoja hitaammin tai tiheämmin Summataan jaksot

PSOLA

21 Puheenkoodaus Digitaalisen puheen pakkaaminen siirtoa tai tallennusta varten (esim. matkapuhelimissa), kaupallisesti tärkein puheenkäsittelyn sovellus Tavoitteet: Hyvä laatu Pieni määrä bittejä Pieni viive Nopea laskenta Virhesietoinen Kestää useamman peräkkäisen koodauksen GSM-verkossa käytössä AMR (adaptive multirate)-puhekoodekki Bittinopeudet 4.75...12.2 kbps Käsitellään kurssilla SGN-4050 Puheenkoodaus

22 Puheentunnistus Puheesta tekstiksi Pitkät perinteet mutta vieläkin osin ratkaisematon ongelma Perustuu todennäköisyyslaskentaan Millä todennäköisyydella Myös kieli mallinnetaan tilastollisesti P( melko todennäköinen lause )? Nämä todennäköisyydet yhdistetään = a? Käsitellään kursseilla SGN-4106 Speech Recognition ja SGN-4507 Speech Recognition Laboratory

23 Puhesynteesi Tekstistä puheeksi Tarvitaan tietoa puheesta ja kielestä Useita eri lohkoja Tekstianalyysi: syntaktinen analyysi (subjekti, predikaatti yms.), numeroiden ja lyhenteiden laajennus Foneettinen analyysi: tekstistä foneemeiksi (ääntämyksen mukaiseen muotoon) Prosodia: painot, äänteiden kesto, f 0 :n generointi Synteesi: puhesignaalin generointi edellä olevan avulla Eri synteesimenetelmiä: Sääntöpohjainen synteesi (formanttisynteesi) Konkatenatiivinen synteesi (difonisynteesi, unit selection synteesi) Tilastollinen parametrinen synteesi (HMM-pohjainen) Artikulatorinen synteesi

24 Muita puhekursseja TTY:llä SGN-4050 Puheen koodaus (4. periodilla) SGN-4106 Speech Recognition (5. periodilla) SGN-4507 Speech Recognition Laboratory (5. periodilla) Lisäksi: SGN-4200 Digitaalinen audio (3. periodilla)

25 Praat: doing phonetics by computer Praat: Boersma, Paul & Weenink, David (2008). Praat: doing phonetics by computer (Version 5.0.42) [Computer program]. Retrieved November 26, 2008, from http://www.praat.org/ Käytetään 3. harkoissa Suomenkielinen Praat-opas: Mietta Lennes, Praat-opas 2004 http://www.helsinki.fi/puhetieteet/atk/praat/

26 Linkkejä MATLAB-oppaita: http://www.helsinki.fi/~mjlaine/matlab/ (suomenkielinen) http://www.helsinki.fi/~mjlaine/matlab/matlab-primer.html Praat: http://www.praat.org/ (ohjelma) http://www.helsinki.fi/puhetieteet/atk/praat/ (suomenkielinen opas) Fonetiikka: Suomenkilinen fonetiikkasanasto: http://www.opiskelijakirjasto.lib.helsinki.fi/fonterm/ IPA: http://www2.arts.gla.ac.uk/ipa/fullchart.html