Puhenäytteiden mittailusta puhekorpuksen perkuuseen: kalastelua mato-ongella ja verkoilla. Mietta Lennes FIN-CLARIN / Helsingin yliopisto

Samankaltaiset tiedostot
Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

FONETIIKKA SUULLISEN KIELITAIDON ARVIOINNISSA

Kielipankki ja FIN-CLARIN

Vfo254: Puhekorpusten käyttö. Puhekorpusten lingvistinen representaatio. Yleistä. Symbolinen representaatio. Martti Vainio. Transkription tarkkuus

Mylly: Uusi tapa ka sitella teksti- ja puheaineistoa helposti ja tehokkaasti. Mietta Lennes ja Jussi Piitulainen FIN-CLARIN, Helsingin yliopisto

FP1/Clt 120: Fonetiikan perusteet: artikulaatiotavat

Kielipankki ja AV-aineistot

Luento: Puhe. Mitä puhe on? Anatomiaa ja fysiologiaa. Puhetapahtuma. Brocan ja Wernicken alueet. Anatomiaa ja fysiologiaa. Puheen tuottaminen:

5 Akustiikan peruskäsitteitä

» Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN

Foneettiset symbolit

Kielellisen datan käsittely ja analyysi tutkimuksessa

Puheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting

Suomen prosodian variaation tutkimuksesta

Puhekorpukseet. Puhekorpukset ja puhetietokannat. Puhekorpus. Martti Vainio

Intonaation analyysi ja annotointi puhekorpuksissa

TIETOINEN HAVAINTO, TIETOINEN HAVAINNOINTI JA TULKINTA SEKÄ HAVAINNOLLISTAMINEN

3 9-VUOTIAIDEN LASTEN SUORIUTUMINEN BOSTONIN NIMENTÄTESTISTÄ

Puhutun ja kirjoitetun rajalla

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

Kieliaineistojen käyttöoikeuksien hallinnan tietojärjestelmä

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

Tekstien ääniä. Tommi Nieminen Itä-Suomen yliopisto

Varhainen leikki ja sen arviointi

Sisällönanalyysi. Sisältö

Puhe ja kommunikaatio

SGN-4010 PUHEENKÄSITTELYN MENETELMÄT Luento TTY/Signaalinkäsittelyn laitos Konsta Koppinen

Ctl160 Tekstikorpusten tietojenkäsittely Viides luento

Kohti uuden sukupolven digitaalipianoja

Helsingin kaupunginhallitus Pöytäkirja 1 (9) 5/

Mitä voin lainata Kielipankista?

Kuvia puheentutkimusprojektilta vuosina

MITEN ÄÄNTÄVAIMENTAVAT AKUSTIIKKALEVYT TEKEVÄT PORRASKÄYTÄVÄSTÄ PAREMMAN KUULOISEN.

A-venäjän ylioppilaskokeen kehittämishanke

4. FONOLOGIA eli kielen äännerakenne

SGN-4010, Puheenkäsittelyn menetelmät Harjoitus 6, 18. ja

Puhetilojen akustiikka. Henrik Möller Johtava akustiikkakonsultti DI, FISE AA

Kokemuksia 3D-tulostetuista ääntöväylämalleista

Mitä suomen intonaatiosta tiedetään

Eturauhassyövän seulonta. Patrik Finne

XXXI Fonetiikan päivät

Laulajan ilmaisu ja kuuntelijan kokemus

Kansainväliset opiskelijat Tampereen yliopistossa. Kaisa Kurki Kansainväliset asiat

Kielten kandiohjelman opettajien digiloikka. Mietta Lennes, FIN-CLARIN / Nykykielten laitos

Sovelletun fysiikan laitoksen tutkimus- ja yritysyhteistyö osana yhteiskäyttölaboratoriota

Matemaattinen malli puheentutkimuksessa

Asiakaspalautteen merkitys laboratoriovirheiden paljastamisessa. Taustaa

Prosodian havaitsemisesta: suomen lausepaino ja focus

Mitä puhe on? Fonetiikan perusteet kieliteknologeille

2010 Yliopistonlehtori, oikeustaloustiede ja lainsäädäntötutkimus, määräaikainen työsuhde 8/ /2011, Itä-Suomen yliopisto,

Mitä on tutkimus ja tutkijan työ? Luonnonvarakeskus

4 Fonetiikkaa. Puhe-elimet

Vaihto-opiskelusta potkua ääntämisen oppimiseen

Marantz PMD661. Äänittäminen

FONETIIKAN PÄIVÄT 2006 THE PHONETICS SYMPOSIUM 2006

Yhdyssana suomen kielessä ja puheessa

LAADULLISESTA SISÄLLÖNANALYYSISTÄ

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

Annotaatioon liittyvä ydinkäsitteistö

Kandiaikataulu ja -ohjeita

Voisiko asiakirja olla kuva?

Vfo254: Puhekorpusten käyttö

Integration of Finnish web services in WebLicht Presentation in Freudenstadt by Jussi Piitulainen

PUHEEN EROTETTAVUUDEN ENNUSTE- JA MITTAUSMENETELMÄT

FONETIIKAN (YLEINEN LINJA) KOULUTUS

Ruma merkitys. Tommi Nieminen. XLII Kielitieteen päivät. Kielitieteen epäilyttävin välttämätön käsite. Itä-Suomen yliopisto ...

Puheaineiston annotaatio eli nimikointi. Mietta Lennes Sanna Ahjoniemi

Puheen akustiikan perusteita

Automaattinen semanttinen annotointi

Mitä puhe on? Fonetiikan perusteet kieliteknologeille. Puheen analyysin viitekehys. Puhe ja Kommunikaatio. Puhe ja kommunikaatio (jatkoa)

Mitä puhe on? Fonetiikan perusteet kieliteknologeille

Synkronoitu luenta suomen rytmin tutkimuksessa

KAKSIVUOTIAIDEN SUOMALAISLASTEN KONSONANTTI-INVENTAARIT

HUUDETUN PUHEEN ANALYYSI JA SYNTEESI

Business Opening. Arvoisa Herra Presidentti Very formal, recipient has a special title that must be used in place of their name

Puhesynteesin perusteet Luento 5: unit selection -synteesi

Bachelor level exams by date in Otaniemi

Bachelor level exams by subject in Otaniemi

FONETIIKAN YLEISEN LINJAN TUTKINTOVAATIMUKSET TUTKINTOJEN RAKENNE

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

HAVAINTO LÄhde: Vilkka 2006, Tutki ja havainnoi. Helsinki: Tammi.

Musiikkipäiväkirjani: Soitetaan rytmissä omaa ääntä käyttämällä (RV1) Juhlitaan kaikkia tunnettuja kielen ääniä.

Sanajärjestyksen ja intensiteetin vaikutus suomen intonaation havaitsemisessa ja tuotossa

Mobiilin videonkatselun käyttäjäkokemuksen analyysi. Risto Hanhinen Valvoja: Kalevi Kilkki Diplomityön seminaariesitelmä 20.1.

Kontrastiivisen fonetiikan lähteitä

AGORA OLARIN KOULU ÄIDINKIELI. Euroopan Unionin Kotouttamisrahasto osallistuu hankkeen rahoittamiseen.

Yksityisyydestä käytävä verkkokeskustelu

Puheen akustiikan perusteita

Mitä sähköisissä ylioppilaskokeissa tullaan tekemään? Mikä muuttuu paperikokeeseen verrattuna?


- reggiolaisen pedagogiikan äärellä Taivalkosken vuororyhmis Vekkulissa

Fonetiikan asema semioottisesti ja fonologian peruskäsitteistöä

Fonetiikan asema semioottisesti ja fonologian peruskäsitteistöä

Aino Kääriäinen Aino Kääriäinen yliopistonlehtori Helsingin yliopisto

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

AHOT-menettely. OPISKELIJAN PORTFOLIO-OHJE päivitetty , , OSAAMISPORTFOLIO

Statistical design. Tuomas Selander

Vfo254: Puhekorpusten käyttö

Suomen puherytmi typologisessa katsannossa

Kielipankki ja FIN-CLARIN. Mietta Lennes Nykykielten laitos, Helsingin yliopisto

Transkriptio:

Puhenäytteiden mittailusta puhekorpuksen perkuuseen: kalastelua mato-ongella ja verkoilla Mietta Lennes FIN-CLARIN / Helsingin yliopisto

Johdanto Kun puhetta ja kieltä tutkitaan kvantitatiivisesti, on tunnistettava kohde, jota tutkitaan, ne kohdetta koskevat muuttujat (piirteet, ominaisuudet, mittarit, suureet), joista ollaan kiinnostuneita. Yksinkertaistettuna: Millainen taulukko tarvitaan tutkimuskysymyksen selvittämiseksi? 2 / 24

Puheen annotaatio Puhuminen on jatkuvaa fyysistä toimintaa. Myös puheääni on pohjimmiltaan jatkuvaa. Puheäänestä ei ole suoraan erotettavissa yhtään ainutta tarkkarajaista yksikköä! 3 / 24

Puheen annotaatio Jotta äänite saadaan tutkimuskelpoiseksi, tarvitaan yleensä annotaatiota. Pelkkä ääninäytteen litteraatti (tekstinnös) ei yksinään kelpaa aineistoksi, koska se on näytteestä tehty tulkinta tai käännös. 4 / 24

Aineistot Spontaaneja dialogeja Äänitykset akustiikan laboratorion kaiuttomassa huoneessa tai ammattistudiossa 2 headset-mikrofonia puhujat muutaman metrin päässä toisistaan joko selin tai kasvokkain 5 / 24

Esimerkki annotaatiokerroksista Kielitieteen päivät Jyväskylässä 18.-20.5.2017 6 / 24

7 / 24

Avataan matopurkki Aineistoa annotoidessaan tutkija joutuu kuuntelemaan näytettä tarkasti ja miettimään sen sisältöä. Esimerkiksi Praat-ohjelmassa voi samalla hyödyntää akustisia kuvauksia. Katkelmia voi poimia ja mittauksia tehdä tapauskohtaisesti käsin. Näin syntyy usein hyviä työhypoteeseja! Kielitieteen päivät Jyväskylässä 18.-20.5.2017 8 / 24

Miten annotoidusta puheaineistosta saadaan dataa? Mitä dataa voidaan kerätä automaattisesti? Välineinä Praat-puheanalyysiohjelma ja eri tutkimuksia varten räätälöityjä Praat-skriptejä (ks. esim. SpeCT) 9 / 24

Pelkästä litteraatista voidaan esimerkiksi laskea sanamäärä tai kerätä sananmuotojen konteksteja <raja> se o se o houkutus o houkutus niinku houkutus niinku et niinku et <raja> jne. Kielitieteen päivät Jyväskylässä 18.-20.5.2017 10 / 24

Äänen aikajanaan kohdistetusta puhunnoksesta voi mitata myös esim. keston tai tehdä koko puhunnosta koskevia akustisia mittauksia Kielitieteen päivät Jyväskylässä 18.-20.5.2017 11 / 24

Kun saneetkin on rajattu erikseen, analyysi voidaan kohdistaa niihin: Kielitieteen päivät Jyväskylässä 18.-20.5.2017 12 / 24

Mukana äännetason segmentointi: Kielitieteen päivät Jyväskylässä 18.-20.5.2017 13 / 24

Mukana äännetason segmentointi: Kielitieteen päivät Jyväskylässä 18.-20.5.2017 14 / 24

101 niinkun esiintymää (yksi naispuhuja, keskustelupuhe) Jatkokoulutusseminaari 11.5.2001 Helsingin yliopiston fonetiikan laitos 15 / 24

Transkription ongelmia Miten määritetään spontaanissa puheessa äänteiden rajat? (vrt. foneemit) sanojen rajat? (esim. junktuuri-ilmiöt, sanojen lyheneminen jne.) Kirjoitetun kielen aiheuttamat ennakkoasenteet vaikeuttavat litterointia ja transkriptiota: Millä perusteella merkitään äänteiden pituus, jos kyseistä sanaa ei yleensä kirjoiteta? 16 / 24

Mitä yhteistä on kaikilla niinkuesiintymillä? Niinkusta löydettiin neljä vaihetta: 1. Alveolaarinen nasaalikonsonantti (C1) Lennes, Alarotu & Vainio (2001) 2. Suppea tai puolisuppea nasaalistunut vokaali (V1) 3. Velaarinen nasaali ja/tai muu velaarinen konstriktio (C2) 4. Vokaalimainen, yleensä pyöreä ja ei-nasaalinen vaihe (V2) 17 / 24

Tokens (N=101) 0,000 0,200 0,400 Duration (s) C1 [n] V1 (front) C2 (velar) V2 (round) 18 / 24

Tokens (N=101) 0 % 20 % 40 % 60 % 80 % 100 % Proportion of consonants/vowels of total duration Consonants Vowels 19 / 24

0,500 0,400 Duration (s) 0,300 0,200 0,100 0 50 100 Place in utterance (% ) 20 / 24

Tietyn äänteen tutkiminen: Glottaaliklusiilit Kielitieteen päivät Jyväskylässä 18.-20.5.2017 21 / 24

Density 0.000 0.002 0.004 0.006 0.008 0.010 All glottal stops, N = 323 Non utterance initial, N = 229 Emphatic words, N = 75 Incomplete words, N = 64 Other between word cases, N = 158 0 50 100 150 200 Duration of glottal stop (ms) Kielitieteen päivät Jyväskylässä 18.-20.5.2017 22 / 24

Toki voidaan tutkia myös pelkkiä äänitteitä, litteraatista välittämättä. Esimerkiksi puheen sävelkorkeus miehillä ja naisilla, spontaanissa keskustelussa vs. ääneen luetussa puheessa: Kielitieteen päivät Jyväskylässä 18.-20.5.2017 23 / 24

100 200 300 Hz 0.00 0.05 0.10 0.15 0.20 0.25 0.30 Spontaneous Finnish 10 5 0 5 10 15 20 0.00 0.05 0.10 0.15 0.20 0.25 0.30 Read aloud Finnish 10 5 0 5 10 15 20 ST 24 / 24

Työkaluja Praat-puheanalyysiohjelma: http://www.praat.org SpeCT Speech Corpus Toolkit for Praat: https://lennes.github.io/spect/ 25 / 24

Lähteet Boersma, Paul & Weenink, David (2017). Praat: doing phonetics by computer [Computer program]. Version 6.0.28, retrieved 23 March 2017 from http://www.praat.org/ Lennes, Mietta. (2017). SpeCT - Speech Corpus Toolkit for Praat (v1.0.0). First release on GitHub [Software]. Zenodo. http://doi.org/10.5281/zenodo.375923 Lennes, M. (2009) Segmental features in spontaneous and read-aloud Finnish. In: de Silva, V. & Ullakonoja, R., eds., Phonetics of Russian and Finnish, 145-166. Frankfurt am Main: Peter Lang. Lennes, M., Aho, E., Toivola, M. & Wahlberg, L. (2006) On the use of the glottal stop in Finnish conversational speech. The Phonetics Symposium 2006. Publications of the Department of Speech Sciences, University of Helsinki, 53, 93-102. Lennes, M., Alarotu, N., & Vainio, M. (2001) Is the phonetic quality of unaccented words unpredictable? An example from spontaneous Finnish. Journal of the International Phonetic Association 31 (1), 127-138. 26 / 24