Puhenäytteiden mittailusta puhekorpuksen perkuuseen: kalastelua mato-ongella ja verkoilla Mietta Lennes FIN-CLARIN / Helsingin yliopisto
Johdanto Kun puhetta ja kieltä tutkitaan kvantitatiivisesti, on tunnistettava kohde, jota tutkitaan, ne kohdetta koskevat muuttujat (piirteet, ominaisuudet, mittarit, suureet), joista ollaan kiinnostuneita. Yksinkertaistettuna: Millainen taulukko tarvitaan tutkimuskysymyksen selvittämiseksi? 2 / 24
Puheen annotaatio Puhuminen on jatkuvaa fyysistä toimintaa. Myös puheääni on pohjimmiltaan jatkuvaa. Puheäänestä ei ole suoraan erotettavissa yhtään ainutta tarkkarajaista yksikköä! 3 / 24
Puheen annotaatio Jotta äänite saadaan tutkimuskelpoiseksi, tarvitaan yleensä annotaatiota. Pelkkä ääninäytteen litteraatti (tekstinnös) ei yksinään kelpaa aineistoksi, koska se on näytteestä tehty tulkinta tai käännös. 4 / 24
Aineistot Spontaaneja dialogeja Äänitykset akustiikan laboratorion kaiuttomassa huoneessa tai ammattistudiossa 2 headset-mikrofonia puhujat muutaman metrin päässä toisistaan joko selin tai kasvokkain 5 / 24
Esimerkki annotaatiokerroksista Kielitieteen päivät Jyväskylässä 18.-20.5.2017 6 / 24
7 / 24
Avataan matopurkki Aineistoa annotoidessaan tutkija joutuu kuuntelemaan näytettä tarkasti ja miettimään sen sisältöä. Esimerkiksi Praat-ohjelmassa voi samalla hyödyntää akustisia kuvauksia. Katkelmia voi poimia ja mittauksia tehdä tapauskohtaisesti käsin. Näin syntyy usein hyviä työhypoteeseja! Kielitieteen päivät Jyväskylässä 18.-20.5.2017 8 / 24
Miten annotoidusta puheaineistosta saadaan dataa? Mitä dataa voidaan kerätä automaattisesti? Välineinä Praat-puheanalyysiohjelma ja eri tutkimuksia varten räätälöityjä Praat-skriptejä (ks. esim. SpeCT) 9 / 24
Pelkästä litteraatista voidaan esimerkiksi laskea sanamäärä tai kerätä sananmuotojen konteksteja <raja> se o se o houkutus o houkutus niinku houkutus niinku et niinku et <raja> jne. Kielitieteen päivät Jyväskylässä 18.-20.5.2017 10 / 24
Äänen aikajanaan kohdistetusta puhunnoksesta voi mitata myös esim. keston tai tehdä koko puhunnosta koskevia akustisia mittauksia Kielitieteen päivät Jyväskylässä 18.-20.5.2017 11 / 24
Kun saneetkin on rajattu erikseen, analyysi voidaan kohdistaa niihin: Kielitieteen päivät Jyväskylässä 18.-20.5.2017 12 / 24
Mukana äännetason segmentointi: Kielitieteen päivät Jyväskylässä 18.-20.5.2017 13 / 24
Mukana äännetason segmentointi: Kielitieteen päivät Jyväskylässä 18.-20.5.2017 14 / 24
101 niinkun esiintymää (yksi naispuhuja, keskustelupuhe) Jatkokoulutusseminaari 11.5.2001 Helsingin yliopiston fonetiikan laitos 15 / 24
Transkription ongelmia Miten määritetään spontaanissa puheessa äänteiden rajat? (vrt. foneemit) sanojen rajat? (esim. junktuuri-ilmiöt, sanojen lyheneminen jne.) Kirjoitetun kielen aiheuttamat ennakkoasenteet vaikeuttavat litterointia ja transkriptiota: Millä perusteella merkitään äänteiden pituus, jos kyseistä sanaa ei yleensä kirjoiteta? 16 / 24
Mitä yhteistä on kaikilla niinkuesiintymillä? Niinkusta löydettiin neljä vaihetta: 1. Alveolaarinen nasaalikonsonantti (C1) Lennes, Alarotu & Vainio (2001) 2. Suppea tai puolisuppea nasaalistunut vokaali (V1) 3. Velaarinen nasaali ja/tai muu velaarinen konstriktio (C2) 4. Vokaalimainen, yleensä pyöreä ja ei-nasaalinen vaihe (V2) 17 / 24
Tokens (N=101) 0,000 0,200 0,400 Duration (s) C1 [n] V1 (front) C2 (velar) V2 (round) 18 / 24
Tokens (N=101) 0 % 20 % 40 % 60 % 80 % 100 % Proportion of consonants/vowels of total duration Consonants Vowels 19 / 24
0,500 0,400 Duration (s) 0,300 0,200 0,100 0 50 100 Place in utterance (% ) 20 / 24
Tietyn äänteen tutkiminen: Glottaaliklusiilit Kielitieteen päivät Jyväskylässä 18.-20.5.2017 21 / 24
Density 0.000 0.002 0.004 0.006 0.008 0.010 All glottal stops, N = 323 Non utterance initial, N = 229 Emphatic words, N = 75 Incomplete words, N = 64 Other between word cases, N = 158 0 50 100 150 200 Duration of glottal stop (ms) Kielitieteen päivät Jyväskylässä 18.-20.5.2017 22 / 24
Toki voidaan tutkia myös pelkkiä äänitteitä, litteraatista välittämättä. Esimerkiksi puheen sävelkorkeus miehillä ja naisilla, spontaanissa keskustelussa vs. ääneen luetussa puheessa: Kielitieteen päivät Jyväskylässä 18.-20.5.2017 23 / 24
100 200 300 Hz 0.00 0.05 0.10 0.15 0.20 0.25 0.30 Spontaneous Finnish 10 5 0 5 10 15 20 0.00 0.05 0.10 0.15 0.20 0.25 0.30 Read aloud Finnish 10 5 0 5 10 15 20 ST 24 / 24
Työkaluja Praat-puheanalyysiohjelma: http://www.praat.org SpeCT Speech Corpus Toolkit for Praat: https://lennes.github.io/spect/ 25 / 24
Lähteet Boersma, Paul & Weenink, David (2017). Praat: doing phonetics by computer [Computer program]. Version 6.0.28, retrieved 23 March 2017 from http://www.praat.org/ Lennes, Mietta. (2017). SpeCT - Speech Corpus Toolkit for Praat (v1.0.0). First release on GitHub [Software]. Zenodo. http://doi.org/10.5281/zenodo.375923 Lennes, M. (2009) Segmental features in spontaneous and read-aloud Finnish. In: de Silva, V. & Ullakonoja, R., eds., Phonetics of Russian and Finnish, 145-166. Frankfurt am Main: Peter Lang. Lennes, M., Aho, E., Toivola, M. & Wahlberg, L. (2006) On the use of the glottal stop in Finnish conversational speech. The Phonetics Symposium 2006. Publications of the Department of Speech Sciences, University of Helsinki, 53, 93-102. Lennes, M., Alarotu, N., & Vainio, M. (2001) Is the phonetic quality of unaccented words unpredictable? An example from spontaneous Finnish. Journal of the International Phonetic Association 31 (1), 127-138. 26 / 24