MONIKÄYTTÖINEN FONETIIKKA

Samankaltaiset tiedostot
5 Akustiikan peruskäsitteitä

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

FONETIIKKA SUULLISEN KIELITAIDON ARVIOINNISSA

Mitä suomen intonaatiosta tiedetään

Suomen kielen Osaamispyörä -työkalu

Luento: Puhe. Mitä puhe on? Anatomiaa ja fysiologiaa. Puhetapahtuma. Brocan ja Wernicken alueet. Anatomiaa ja fysiologiaa. Puheen tuottaminen:

Say it again, kid! - peli ja puheteknologia lasten vieraan kielen oppimisessa

Puhutun ja kirjoitetun rajalla

Musiikkipäiväkirjani: Soitetaan rytmissä omaa ääntä käyttämällä (RV1) Juhlitaan kaikkia tunnettuja kielen ääniä.

Puhesynteesin perusteet Luento 4: difonikonkatenaatio

Foneettiset symbolit

Musiikkipäiväkirjani: Maalataan, kirjoitetaan ja luetaan musiikkia (PWR1) Valitaan värejä, kuvia tai symboleja erilaisille äänille.

Puheen akustiikan perusteita Mitä puhe on? 2.luento. Äänet, resonanssi ja spektrit. Äänen tuotto ja eteneminen. Puhe äänenä

Sanajärjestyksen ja intensiteetin vaikutus suomen intonaation havaitsemisessa ja tuotossa

Viestinnän, nykysuomen ja englannin kandidaattiohjelma

Englanti. 3. luokan keskeiset tavoitteet

Kuulohavainnon perusteet

Prominenssin toteutuminen kolmessa yleispuhesuomen varieteetissa

PIENI KAMPANJAKOULU. Ohjeita onnistuneen kampanjan toteuttamiseen 1 PIENI KAMPANJAKOULU

Organization of (Simultaneous) Spectral Components

PUHU MINULLE KUUNTELE MINUA

Alkukartoitus Opiskeluvalmiudet

Puhenäytteiden mittailusta puhekorpuksen perkuuseen: kalastelua mato-ongella ja verkoilla. Mietta Lennes FIN-CLARIN / Helsingin yliopisto

Oppilas pystyy nimeämään englannin kielen lisäksi myös muita vieraita kieliä niitä kohdatessaan.

Laulajan ilmaisu ja kuuntelijan kokemus

Prosodian havaitsemisesta: suomen lausepaino ja focus

Viestinnän, nykysuomen ja englannin kandidaattiohjelma

2.1 Ääni aaltoliikkeenä

Humanistiset tieteet

S Havaitseminen ja toiminta

S Havaitseminen ja toiminta

OHJEET SISÄMARKKINOIDEN HARMONISOINTIVIRASTOSSA (TAVARAMERKIT JA MALLIT) SUORITETTAVAAN YHTEISÖN TAVARAMERKKIEN TUTKINTAAN OSA C VÄITEMENETTELY

1 Kannat ja kannanvaihto

T3 ohjata oppilasta havaitsemaan kieliä yhdistäviä ja erottavia ilmiöitä sekä tukea oppilaan kielellisen uteliaisuuden ja päättelykyvyn kehittymistä

Äänen eteneminen ja heijastuminen

RAKENNUSAKUSTIIKKA - ILMAÄÄNENERISTÄVYYS

Puheen tuotto ja havaitseminen I Vokaalit. Puheentuoton lähde-suodin -malli. Glottaalinen äänilähde. Fonaatio

Puheen tuotto ja havaitseminen I

THE audio feature: MFCC. Mel Frequency Cepstral Coefficients

Kieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat

Opiskelija valitsee 1-2 pakollista kuvataiteen kurssia. Ensimmäisen pakollisen kurssin jälkeen (KU1 Minä, kuva ja kulttuuri) voi valita muita

» Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN

Varhainen leikki ja sen arviointi

Oppimistulosten arviointia koskeva selvitys. Tuntijakotyöryhmä

MONISTE 2 Kirjoittanut Elina Katainen

TTS. Puhesynteesi (tekstistä puheeksi, engl. text-tospeech,

Ylöjärven opetussuunnitelma Valinnainen kieli (B2)

Laajennettu tiedonkäsitys ja tiedon erilaiset muodot

SUOMEN KOULUJÄRJESTELMÄ

Tiistai klo Jari Eerola

Suomen prosodian variaation tutkimuksesta

Kielenkehityksen vaikeudet varhaislapsuudessa. Tiina Siiskonen KT, erityisopettaja

Normaalikoulun kielivalintailta Welcome! Willkommen! Bienvenue!

KERHOPAKETIN OHJELMA JA TAVOITTEET ( ARABIAN KIELI )

Kielet sähköistävät. Mitä muutoksia perusopetuksen opetussuunnitelmaprosessi on tuomassa kieliin? Opetusneuvos Anna-Kaisa Mustaparta

Oppilas keskustelee ryhmässä ja tuo esille mielipiteitään. Oppilas osallistuu luokan ja koulun ilmaisuesityksiin. Oppilas harjoittelee

KUN LUKEMINEN ON HANKALAA. Helena Sorsa

LAULUMUSIIKIN PÄÄAINE I

Puheenkäsittelyn menetelmät

SUOMI L3-KIELEN OSAAMISTASON KUVAUKSET yläkoulu ja lukio

Kohti uuden sukupolven digitaalipianoja

Tutkielma tasavireisestä, pythagoralaisesta ja diatonisesta sävelasteikosta Teuvo Laurinolli ( )

815338A Ohjelmointikielten periaatteet Harjoitus 2 vastaukset

MUSIIKKI, AIVOT JA OPPIMINEN. Mari Tervaniemi Tutkimusjohtaja Cicero Learning ja Kognitiivisen aivotutkimuksen yksikkö Helsingin yliopisto

Keravan kaupungin lukiokoulutuksen kieliesite

Miten tietokone näkee suomen murteet?

MAAHANMUUTTAJIEN ÄIDINKIELI PUOLAN KIELEN OPETUSSUUNNITELMA

MONIKULTTUURISEN OPETUKSEN JA OHJAUKSEN HAASTEET. Selkokielen käyttö opetuksessa. Suvi Lehto-Lavikainen, Koulutuskeskus Salpaus

2.4. Oppimistyyleistä

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

osassa III max-pist pistem pistemäärä osan III maksimista III:N MAX 30 Z Y X (X/Y)xZ=Å Åx0,3 TEHTÄVÄ

Kielen hyvän osaamisen taso on 6. luokan päättyessä taitotasokuvauksen mukaan:

Eye Pal Solo. Käyttöohje

FP1/Clt 120: Fonetiikan perusteet: artikulaatiotavat

Osa 1 Hengitys ja tuki Ólafur Torfason

Näkökulmia ja työskentelytapoja

Musiikkipäiväkirjani: Tutkitaan, improvisoidaan ja sävelletään (EIC1) Kerrotaan tarina eri äänteillä, äänillä tai melodioilla, joita on luotu yhdessä.

Kuuloaisti. Korva ja ääni. Melu

Tietotekniikan valintakoe

LAAJAVUOREN KOULUN. SAKSANKIELINEN OPETUS CLIL-OPETUS (Content and Language Integrated. Learning=SISÄLLÖN JA KIELEN YHDISTÄVÄ OPETUS Sirpa Rönkä

Aivotutkimus kielenoppimisen edistäjänä

Normaalikoulun kielivalintailta Welcome! Willkommen! Bienvenue!

Tavoite Opiskelija osaa käyttää englannin kielen rakenteita, hallitsee kielen perusilmaukset ja ymmärtää opiskelijan arkielämään liittyvää kieltä

Lausuminen kertoo sanojen määrän

Tieto- ja viestintätekniikan opinnot Jyväskylän yliopistossa

Mitä tahansa voi saavuttaa kunhan vain yrittää!

Oulun murteessa on käytössä myös nää-pronomini, joka tarkoittaa sinä. Sää on kuitenkin enemmän käytetty.

Osaamispisteet. Vapaasti valittava

Treffit mönkään? Ääntämisen opetuksesta ja sen tärkeydestä. FT Elina Tergujeff, Jyväskylän yliopisto

Finnish ONL attainment descriptors

Lapsen kielen kehitys II. Kielen ja puheen kehityksen tukeminen.

Rekursiolause. Laskennan teorian opintopiiri. Sebastian Björkqvist. 23. helmikuuta Tiivistelmä

Ihmisellä on viisi perusaistia

Kiinan kursseilla 1 2 painotetaan suullista kielitaitoa ja kurssista 3 alkaen lisätään vähitellen myös merkkien lukemista ja kirjoittamista.

Yhdyssana suomen kielessä ja puheessa

Infraäänimittaukset. DI Antti Aunio, Aunio Group Oy

Tällä ohjelmoitavalla laitteella saat hälytyksen, mikäli lämpötila nousee liian korkeaksi.

Alberta Language and Development Questionnaire (ALDeQ) A. Varhaiskehitys Lapsen nimi

Transkriptio:

HELSINGIN YLIOPISTON FONETIIKAN LAITOKSEN MONISTEITA MIMEOGRAPHED SERIES OF THE DEPARTMENT OF PHONETICS UNIVERSITY OF HELSINKI N:O 21 ANTTI IIVONEN, REIJO AULANKO & MARTTI VAINIO (toim.) MONIKÄYTTÖINEN FONETIIKKA 3. painos HELMIKUU 2005 HELSINKI

HELSINGIN YLIOPISTON FONETIIKAN LAITOKSEN MONISTEITA MIMEOGRAPHED SERIES OF THE DEPARTMENT OF PHONETICS UNIVERSITY OF HELSINKI N:O 21 ANTTI IIVONEN, REIJO AULANKO & MARTTI VAINIO (toim.) MONIKÄYTTÖINEN FONETIIKKA 3. painos HELMIKUU 2005 HELSINKI

ISBN 952-10-2349-X (nid.) ISBN 952-10-2350-3 (PDF) ISSN 0357-4954 Yliopistopaino, Helsinki 2005 Copyright kirjoittajat 2005

SISÄLTÖ Johdannoksi v Onko puhuja säveltäjä ja soittaja samassa persoonassa? 1 Antti Iivonen Foneettinen kirjoitus 21 Reijo Aulanko Puhujantunnistus ja forensinen fonetiikka 33 Tuija Niemi-Laitinen Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa 45 Antti Iivonen Lapsen puheenkehityksen alkuvaiheet 65 Antti Iivonen Puhesynteesi ja prosodian mallintaminen 79 Martti Vainio Viestiliikenne ja fonetiikka 95 Päivikki Eskelinen-Rönkä

JOHDANNOKSI: MIKSI OPISKELLA FONETIIKKAA? Lukion ja muiden koulujen sekä tiedotusvälineiden kautta on vaikea saada kuvaa siitä, mitä fonetiikka on. Yleisessä tietoisuudessa on sen sijaan suhteellisen selvä käsitys siitä, mitä ovat filosofia, psykologia tai erityiskieliin keskittyvät kieliaineet. Saattaa olla, että kadunmies yhdistää fonetiikan puhehäiriöiden alaan ja puheterapiaan. Helsingin yliopistossa nämä kuuluivatkin pitkään fonetiikkaan ja muodostivat oman linjansa kielitieteellisakustisen linjan ohella. Linja on itsenäistynyt omaksi logopedian oppiaineeksi. Seuraavat esimerkit ja argumentit pyrkivät kuvaamaan fonetiikan nykyistä luonnetta. 1. Puhe on ihmiskunnan välttämätön ja tärkein viestintämuoto. Heikot taidot vieraiden kielten oikein kuulemisessa ja ääntämisessä johtavat vakuuttavuuden puuttumiseen ja puhujan syrjäytymiseen. Tämä koskee siis vieraiden kielten oppimista ja opettamista, ja Suomessa maahanmuuttajille asia on erittäin keskeinen asia. Fonetiikka tarjoaa mahdollisuuksia kielten vertailuun ja oppimisen keinojen edistämiseen. Olet ehkä kiinnostunut kielistä, ehkä kaukaisista aasialaisista tai afrikkalaisista kielistä. Näiden foneettiset ominaisuudet ovat hyvinkin erilaisia suomeen verrattuina, mutta läheisimmätkin kielet ruotsi, viro, venäjä, englanti, saksa ja ranska tarjoavat jo kylliksi foneettisia vaikeuksia suomenkielisille (ks. luku Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa). 2. Jos jokin oikeusjuttu sisältää rikoksen tekijän ja epäillyn ääninäytteet ja pitäisi todistaa ovatko he sama henkilö vai eri henkilöitä, miten voidaan menetellä? Koska puheen akustinen muoto voidaan rekisteröidä (ks. luvut Onko puhuja säveltäjä ja soittaja samassa persoonassa? ja Puhujantunnistus ja forensinen fonetiikka), voidaan rekisteröintejä vertailemalla päätellä, onko kyseessä sama vai eri puhuja. Rikostutkinta käsittää esim häirinnän, uhkausten, kiristysten, terroritekojen ja huumetutkimusten puheaineistoja. 3. Kuulet nykyisin jo useissa teknisissä välineissä puhetta, joka on tuotettu puhesyntetisaattorilla. Jos se on laadultaan luonnollisen puheen kaltaista, niin miten luonnollisuus on saatu aikaan? Tämä on mahdollista puheteknologisella kehitystyöllä (ks. luku Puhesynteesi ja prosodian mallintaminen). Samaan alueeseen kuuluu automaattinen puhujantunnistus, automaattinen kielen tunnistus sekä puheen automaattinen tunnistus. Näet ehkä tässä oman kiinnostuksesi alueen. Näköpiirissä on, että puheteknologiset sovellukset (ks. alempana) tulevat saamaan entistä suuremman painotuksen fonetiikan opetusohjelmassa. Puheen akustiikan tuntemus on tälle suuntaukselle tärkeää. Helsingin yliopiston humanistinen ja käyttäytymistieteellinen tiedekunta ovat hyväksyneet uuden maisteriohjelman, jonka tavoitteena on kouluttaa kahdessa vuodessa kandidaatin tutkinnon jälkeen kieli-, puhe- ja käännösteknologian asiantuntijoita vuoden 2005 kesävalinnoista alkaen. Mm seuraavia osa-alueita kuuluu puheteknologiaan: puheen taltiointi puheen analyysi

vi puhesynteesi puheen automaattinen tunnistus puhujantunnistus ja -verifikaatio puhetietokannat, ja -korpukset (tietokoneessa), puhearkistot puhuvat sanakirjat puhetta tuottavien ja välittävien laitteiden puheen laadun arviointi (tunnistettavuus ja ymmärrettävyys) - matkapuhelimet ja puhelimet yleensä sekä automaattiset puhelinvastaajat - synteettinen puhe - tietoverkkojen puheainekset puhe multimediayhteyksissä, yleensä puhe tietokoneessa - ohjelmat, jotka perustuvat puheen käyttöön tietokoneohjelmat, jotka pyrkivät - ääntämisen opetukseen - esittämään näytteiden avulla esim. murre-eroja vammaisteknologia Fonetiikka on oppiaine, jonka harrastajan pitäisi olla melkoinen monitaituri ja hänen pitäisi kyetä liikkumaan tavallaan sen rajan kummallakin puolella, mikä valitettavasti on muodostunut humanististen ja luonnontieteiden väliin. Foneetikon pitäisi ymmärtää humanistista ajattelua, hänellä pitäisi olla kiinnostusta puhetta kohtaan, hänen tulisi omata kielitietoutta ja kiinnostusta kielitieteelliseen metodiikkaan, hän ei saisi vierastaa tekniikkaa eikä tietokoneiden käyttöä. Psykologian ja matematiikan tuntemuskin olisi hyväksi. Motivaatio fonetiikan opintoihin saattaa syntyä parhaiten kiinnostuksesta jotakin osa-aluetta tai erityiskysymystä kohtaan. Tutkintovaatimukset on myös järjestetty niin, että keskittyminen johonkin erityisalueeseen on mahdollista. Omakohtaisen kiinnostuksen kautta profiloituminen tietylle alueelle on osoittautunut ratkaisuksi ammattiuran valinnalle. Kielitieteelliset sovellukset Kieli ja puhe kietoutuvat toisiinsa erottamattomasti ja siksi sovelluksia kielellisten ilmiöiden foneettisesta toteutumisesta on runsaasti. Tässä kirjoituskokoelmassa käydään läpi joitakin esimerkkejä. Kielenopetus ja vieraan kielen omaksuminen (ks. luku Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa) ovat yksi keskeinen fonetiikan sovellusalue, jossa foneettisella kirjoituksella on tärkeä asema (ks. luku Foneettinen kirjoitus). Puhetieteiden laitos edistää tietoa maahanmuuttajien kielellisistä vaikeuksista suomalaisessa yhteiskunnassa. Kieli- ja puheteknologia Kaikkien sellaisten teknisten välineiden ja tietokoneohjelmien kehittämisessä, jotka ovat tekemisissä puheen kanssa, on foneettisia sovellusmahdollisuuksia. Yritysten kiinnostus puheteknologisiin sovelluksiin on viime aikoina lisääntynyt ja opiskelijoilla on ollut tutkimusavustajien paikkoja puheteknologisissa tutkimushankkeissa (ks luku Puhesynteesi ja prosodian mallintaminen).

vii Viestiliikennetutkimus Kiinnostuksen kohteena on teknisten välineiden kautta välittyvän puheen tunnistettavuus ja ymmärrettävyys sekä kohinan vaikutus niihin (ks. luku Viestiliikenne ja fonetiikka). Rikostutkimus Foneettisia keinoja voidaan soveltaa sellaisten rikosten tutkinnassa, joissa evidenssiin kuuluu (yleensä ääninauhaan taltioitua) puhetta (ns. forensinen tutkimus; ks. luku Puhujantunnistus ja forensinen fonetiikka). Psykologia ja aivotutkimus Psykologiaa ja fonetiikkaa yhdistävät puhesignaalien käsittely aivoissa, tunteiden foneettinen ilmentyminen ja yleensä puheen prosessointi. Lapsen kielenkehitys Foneettinen tutkimus on kohdistunut etenkin hyvin pienten lasten puheen ja kielen kehitykseen (ks. luku Lapsen puheenkehityksen alkuvaiheet). Logopedia Miltei kaikilta logopedian häiriösektoreilta löytyy foneettisia metodeja käyttäviä tutkimuksia. Laryngaalisen äänen ja useiden muiden kohteiden tutkimus yhdistää fonetiikkaa ja logopediaa. Puheviestintä Voidaan tutkia esimerkiksi puheen retoristen ja esteettisten tavoitteiden foneettista ilmenemistä, puheen tyylejä ja puhujien äänenkäyttöä. Audiologia Yhdistävänä tekijänä ovat puheen kuulemiseen liittyvät seikat. Musiikkitiede Laulun tutkimuksessa voidaan soveltaa fonetiikan metodeja. Laulun ja puheen eroja voidaan vertailla. Folkloristiikka Suullisella kansanruno- ja kertomusperinteellä ja erilaisilla perinteisillä laulutavoilla on foneettista mielenkiintoa ja fonetiikan tutkimusmenetelmillä voidaan saada em. suullisista esityksistä folkloristiikan näkökulmasta uutta tietoa. Hammaslääketiede Hampaat kuuluvat rakenneosana puhe-elimistöön ja ovat siksi foneettisesti kiinnostavia. Hammaslääketiedettä taas kiinnostaa, miten hampaiden korjaus ja proteesien suunnittelu ovat yhteydessä hyvältä kuulostavaan puheeseen. Ortografian kehittäminen Foneettista tietoa voidaan käyttää myös kielten oikeinkirjoitusjärjestelmiä luotaessa ja muokattaessa. On tutkittu mm. sitä, kuinka paljon Ugandan murteet eroavat toisistaan, sellaisen murteen löytämiseksi, jolla on eniten yhteisiä piirteitä muiden kanssa. Kielen oikeinkirjoituksen pohjana voidaan sen jälkeen pitää tätä murretta.

viii Väestöhistoria Koska väestöryhmät siirtyessään muualle vievät mennessään myös foneettiset tottumuksensa, voidaan vielä ehkä vuosisatojenkin päästä todeta niiden avulla ryhmän alkuperäinen asuma-alue. Puhetieteiden laitoksen (ent. fonetiikan laitos) toimintaan liittyviä hyödyllisiä wwwosoitteita ovat mm. seuraavat: Helsingin yliopisto: http://www.helsinki.fi/yliopisto/ Helsingin yliopiston käyttäytymistieteellinen tiedekunta http://www.helsinki.fi/behav/ Käyttäytymistieteellisen tiedekunnan opiskelivalinnat http://www.helsinki.fi/behav/valinnat/index.htm Fonetiikan opiskelijavalinnat http://www.helsinki.fi/behav/valinnat/fonetiikanvalinta.htm Helsingin yliopiston puhetieteiden laitos: http://www.helsinki.fi/puhetieteet// Helsingin yliopiston humanistinen tiedekunta: http://www.hum.helsinki.fi/ Fonetiikan terminologia: http://www.opiskelijakirjasto.lib.helsinki.fi/fonterm/ Helsingissä, helmikuun 8. päivänä 2005 Toimittajat

ONKO PUHUJA SÄVELTÄJÄ JA SOITTAJA SAMASSA PERSOONASSA? Antti Iivonen Säveltäjä ja soittaja, kielentäjä ja puhuja Säveltäjä on henkilö, joka kykenee merkitsemään jollakin notaatiolla (perinteisesti nuottikirjoituksella) suunnittelemansa sävellyksen muistiin. Säveltäjä pystyy merkitsemään nuottikirjoituksen avulla musiikin sointikuvan kirjalliseen muotoon (vrt. Tammen musiikkitietosanakirja TMT-2: 51). Soittaja on taas henkilö, joka hallitsee soittimensa käytön ja pystyy muuntamaan säveltäjän notaation kuultavaksi musiikiksi. On tietenkin melodioita etenkin kansanmusiikissa joita ei alunperin koskaan nuotinnettu. Säveltäjä voi itse myös soittaa sävellyksensä. Ja notaatiotyyppejä on olemassa useita. Säveltämisen ja soittamisen vertailu puhumiseen osoittaa monia yhtäläisyyksiä niiden välillä. Puhuja suunnittelee sen, mitä hän aikoo sanoa, mutta hänen ei ole pakko sanoa suunnittelun lopputuotetta ääneen. Ääneen lausumisen sijasta hän voi jättää sen muistiinsa ainakin joksikin ajaksi. Hän voi myös kirjoittaa sen, niinkuin säveltäjä merkitsee sävellyksen nuoteilla muistiin. Hän voi jos osaa merkitä suunnittelun tuloksen muistiin foneettisella kirjoituksella (ks. Aulanko, tässä julkaisussa), jolloin hän ainakin periaatteessa sisällyttää siihen paljon muutakin kuin mitä tavanomaiseen kirjoitukseen kuuluu. Puheen suunnitteluprosessia on kutsuttu useilla nimityksillä: kielentäminen, sisäinen puhe tai vain puheen suunnittelu (engl. planning). Puhetilanteissa useimmiten puhuja myös lausuu ääneen sen, mitä hän aikoi sanoa. Konkreettista puhumisprosessia on kutsuttu nimellä puhesuoritus (engl. execution). Puhe on siis tulos toisaalta kielentämisestä, toisaalta puhesuorituksesta. Kielentäminen on mahdollista niiden erilaisten resurssien avulla, joita meillä kielenkäyttäjinä on olemassa. Tärkein resurssi on sen kielen järjestelmä, jota puhujan käyttää. Jos puhuja hallitsee kyseessä olevaa kieltä puutteellisesti, voi tulos olla

2 Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen sanastollisesti ja kieliopillisesti virheellinen. Puhesuoritus puolestaan perustuu keskus- ja ääreishermostollisiin rakenteisiimme ja puhe-elimistön käyttöön. Kielen järjestelmälläkin on kuitenkin aivotoiminnallinen perusta. Arkipäivän tilanteissa puhuja on siis todellakin eräässä mielessä sanottavansa säveltäjä ja soittaja. Eroja on tietenkin paljon. Puhuja ei käytä notaatiota (ellei välillä kirjoita sanomaansa) ja hänen toimintansa on useimmiten paljon arkipäiväisempää kuin säveltäjän. Soittajalla voi olla sävelmä mielessään, vaikka hän ei sitä ole itse säveltänyt. Puhuja voi lukea myös toisen henkilön suunnittelemaa tai itsensä aiemmin kirjoittamaa tekstiä. Säveltäjäkin voi soittaa toisen säveltäjän tai omista nuoteistaan. On tietenkin mahdollista, että puhuja on oppinut ulkoa pitkiäkin tekstejä ja puhuu niitä ääneen siis ilman omakohtaista suunnittelua. On myös mahdollista, että puhuja on painanut muistiinsa vieraskielistä tekstiä edes sisältöä ymmärtämättä (esim. hausankieliset puhujat Pohjois-Afrikassa voivat osata ulkoa arabiankielisen Koraanin osaamatta arabiaa). Laululla on sanoittaja, jonka alkuperää emme aina lainkaan tunne. Sanoittajan suoritus vastaa puheessa kielentämistä. Kuva 1. Konkreettinen puhe on tulos puheen suunnittelusta ja puhesuorituksesta. Meidän ei tarvitse tehdä kovin laajoja ja syvällisiä tutkimuksia päästäksemme kuvan 1 esittämään käsitykseen. Meidän on kuitenkin mietittävä asiaa ja tiedostettava eri tekijöitä. Voimme siten sanoa, että olemme päätyneet tähän käsitykseen ajattelumme, päättelymme ja sisäisen kokemuksemme avulla eli olemme käyttäneet introspektiotamme. Joudumme näin miettimään niitä metodeja, joita meillä on käytettävissä, kun yritämme löytää vastausta kysymykseen, mitä puhuminen oikeastaan on. Puheen suunnittelua on verrattu onnistuneesti kokoonpanolinjaan (Levelt 1993; Suomi 1993): tuote koostetaan osista ja valmis tuote menee käyttöön ja kulutukseen. Puheessa osaset koostuvat tietyn kielen äänteistä ja sanoista. Sanat taipuvat ja etenkin suomessa taivutusmuotoja on runsaasti (mies : miehen : miestä : miehiä jne.). Kokoonpannut tuotteet ovat lauseita, puheenvuoroja, tervehdyksiä, kieltoja, käskyjä, esitelmiä, saarnoja, uutistekstejä jne. Kokoonpanossa tärkeää osaa näyttelee myös syntaksi: se, miten asetamme

Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen 3 sanat peräkkäin ja millaisia riippuvuussuhteita sanoilla on keskenään. Voimme siis sanoa, että puheen suunnittelua määrää pitkälle sanasto ja kielioppi. Puhuttu ilmaus ei kuitenkaan ole pelkkää sanastoa ja kielioppia. Voimme ajatella tilannetta, että nais- ja miespuhuja lukevat ääneen saman tekstin. Niinkuin soittaja tulkitsee nuottikirjoituksen usealla eri tavalla, samoin puhuja tulkitsee tekstiä lisäten siihen intonaation, painotukset, rytmin, puhenopeuden ja puhevoimakkuuden. Kuten musiikki-instrumentti (vrt. sama sävelmä soitettuna pianolla tai viululla) vaikuttaa lopulliseen, kuultavissa olevaan lopputulokseen, vaikuttaa puheen lopputulokseen puhujan omasta puheelimistöstä johtuvat piirteet. Tekstin tulkitsija lisää omasta päästään myös (tekstiin sopivan tai sopimattoman) tunnesimulaation. Hän siis näyttelee. Jokin puhetilanne vaatii huutamista, jokin toinen taas hiljaisen äänen käyttöä. Tällaisia ominaisuuksiahan eli prosodisia piirteitä ei yleensä merkitä kirjoitukseen. Tosin typografisin merkinnöin voidaan myös ilmaista näitä tekijöitä ( Nyt sanoit HIRVEÄN rumasti! ). Myös sarjakuvien piirtäjä pyrkii usein ilmaisemaan niitä. Esimerkkimme koskee ns. lukupuhuntaa. Tapaus, jossa puhuja on samalla oman puheensa suunnittelija, on sikäli erilainen, että puhujan koostamat prosodisetkin piirteet ovat hänen itsensä valitsemia, hän tarkoittaa juuri siinä puhetilanteessa ilmaista niillä jotakin. Ne eivät ole satunnaisia tai vaihtoehtoisia koristeita lopputuotteessa. Puhuja voi esimerkiksi pyrkiä tiettyyn retoriseen tai esteettiseen päämäärään. Tähän hän pääsee etenkin käyttämällä puheen prosodisia keinoja mutta myös erilaisia äänenlaatuja (kuten kuiskausta, karheata ääntä, jopa falsettia). Arkikielessä puhumme äänen värittämisestä ja äänensävystä. Kuulemme usein varsin helposti, onko kyseessä aito, spontaani, puhujan itsensä samanaikaisesti suunnittelema puhe vai lukupuhunta. Puhe voi sisältää myös naurahduksia, yskähdyksiä, hihkaisuja jne. eli erilaisia kielenulkoisia äännähdyksiä. Soittajalla on käytössään jonkin soitin, instrumentti. Puhujan instrumentti on hänen puhe-elimistönsä. Tässä tulemme kuitenkin merkittävään eroon puheen ja musiikin välillä. Musiikki-instrumentti on puhujan ulkopuolella oleva esine, jota soittaja käsittelee useimmissa tapauksissa käsin. Puhallinsoittimet ovat sikäli erikoisasemassa, että niissä soittaja käyttää käsien lisäksi hyväkseen keuhkoilla aikaan saatavaa aerodynaamista keinoa, hengitystekniikkaa. Laulaja on vielä lähempänä puhujaa, koska molemmat käyttävät samaa instrumenttia. Puheen ja laulun instrumentti, puhe-elimistö, on siis ihmisen sisään rakennettu ja sitä ohjaillaan motorisesti ääreishermoston avulla. Puheen suunnittelu ta-

4 Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen pahtuu aivotutkimuksen kannalta katsottuna keskushermostossa. Soittaja käyttää apunaan käsiä ja siten soittamisprosessi on paljon tietoisemman kehittelyn tulos kuin puhe, joka ihmisen hitaan evoluution aikana on epäilemättä hyöty- ja käytännön syistä pikemmin pakottautunut esiin ja joka ei siis ole pohjimmiltaan rationaalisen ja tietoisen kehittelyn tulos. Kuva 2 esittää kaavamaisesti puhumisen tilannetta ennen varsinaista puhesuoritusta (ääneen lausumista). Kielen sanasto, sanojen taivuttaminen, syntaksin soveltaminen, puheen sovittaminen puhetilanteeseen, prosodisten piirteiden ja äänenlaatujen valinta ovat taustasyötteitä konkreettiselle puhumistapahtumalle. Niihin pääsemme käsiksi introspektion avulla. Kielentämisprosessin alkuvaiheessa voimme tiedostaa sanoja ja niiden taivutusmuotoja sekä syntaksin avulla tapahtuvaa sanojen peräkkäinasettelua. Koko prosessi tähtää kuitenkin siihen, että kielentämisen lopputulos on peräkkäisiä äänteitä, prosodiaa ja äänenlaatuja. Kuva 2. Puheen tuottamisen taustalla on suuri määrä erilaisia osatekijöitä (syötteitä): kielen sanastoa, kielioppia, sovittamista puhetilanteeseen, prosodian ja äänenlaatujen valintaa, tunnetiloja, asenteita. Nuoli oikealla symboloi puhesuorituksen vaihetta eli vaihetta, jolloin puhe-elimiä säätelevät liikehermot antavat käskyjä puhelihaksille. Siihen, miten suunnittelu kohtaa ääreishermoston, emme pääse sisäisen havaintomme avulla käsiksi, vaan tarvitaan aivotutkimuksen keinoja. Kun pianisti soittaa sävellyksen, olisi mieletöntä sanoa, että nuotit ikäänkuin virtaavat hänen liikehermojaan pitkin ja muuntuvat sitten viimein säveliksi. Pikemminkin pianistilla on mielessään sävellyksen akustinen mielikuva 1 (tai hän lukee sitä nuoteista), ja hän on oppinut, miten pianoa on käytettävä tuon mielikuvan konkreettisen vastineen aikaan saamiseksi. Vastaavasti puhujan puhesuoritus ei tarkoita sitä, että sanat, lauseet, prosodia jne. virtaisivat hänen liikehermojaan myöten puhelihaksiin, jotka sitten tuottavat puheen akustisen ilmiasun (kuva 3). Puhuja on oppinut käyttämään puhe-elimistöään niin, että hänen tuottamansa akustinen lopputulos vastaa hänen mielessään olevaa tavoitetta. Kyseessä ei voi olla pelkkä muistijälkien peräkkäin- 1 Osoituksena siitä, miten visuaalinen maailma vaikuttaa vahvasti myös akustisen maailmamme kuvaukseen, ovat ilmaukset "akustinen mielikuva" ja "musiikin sointikuva".

Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen 5 asettelu, koska puhuja voi olla hyvin luova puhuessaan. Puheen retoriikka onkin juuri tiettyjen kielellisten ja foneettisten keinovarojen soveltamista luovalla tavalla puhetilanteessa. Kuva 3. Välittääkseen viestin kuulijalle, puhujan on tuotettava viestiä vastaava akustinen signaali (kuvassa puheen aaltomuotoinen esitys). Miksi akustinen viestintäkanava? Koko puheen suunnitteluprosessi tähtää siis siihen, että kielentämisen lopputuote saatetaan ilmoille eli ilmaistaan puhe-elimistön avulla akustiseen muotoon (kuva 3), kuulijan kuultavaksi. Voimme aiheellisesti kysyä, miksi puhe on muodostunut ihmisen arkipäivän keskeiseksi ja tärkeimmäksi viestintämuodoksi. Voimme kuvitella tilannetta, että ihmiskunta eräänä päivänä päättäisi, että tänään emme puhu mitään. Voimme kuvitella myös tilannetta, että elokuvasta poistetaan puhe. Miksi jokin visuaalinen media, esim. viittomakieli tai jokin kirjoituksen kaltainen viestintäkeino ei ole syrjäyttänyt puhetta? Suurena rajoituksena kaikelle visuaaliselle viestinnälle on valon ja suoran näköyhteyden välttämättömyys. Äänellinen viestintä on sen sijaan mahdollinen pimeässä, ilman näköyhteyttä ja suhteellisen pitkän välimatkankin päästä. Kun vuorokaudesta noin puolet on yötä, antoi akustinen viestintä ihmiskunnan ensimmäisille ihmisille varmemman viestintäkeinon. Kun puheen tuottamis- ja vastaanottovälineet ovat ihmisen sisään rakennettuja, ei tarvitse huolehtia viestintävälineiden saatavuudesta. Kaikki kuuloetäisyydellä olevat vastaanottajat saavat saman viestin samanaikaisesti. Myöskin viestin välittämisainetta, ilmaa, on aina siellä saatavilla, missä ihminen voi hengittää eli pitää elämää biologisesti yllä. Monet argumentit viittaavat siihen, että äänellinen, akustinen viestintä voitti suuremman ekologisen validisuuden perusteella mahdolliset visuaaliset kilpailijat. Esimerkiksi piirtäminen vaatii piirtimen ja alustan saatavuutta, mikä ei aina ole mahdollista tai aiheuttaa liiallista vaivaa. Työntekijä voi samalla puhua ja käyttää vapaasti käsiään muihin tehtäviin. Puheen akustinen lopputulos, ilmaan tuotettu paineaalto häviää itsestään muita kuin kuulijan mustijälkiä

6 Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen jättämättä, eikä näin jätettä jää jäljelle. Tuntoaisti, joka on sokeiden pistekirjoituksen perusta, ei sovellu välitöntä kosketusta vaativan luonteensa vuoksi viestinnän kaikkiin tarpeisiin. Seuraavissa luvuissa käsittelemme puhumisen instrumentin eräitä perustavaa laatua olevia ominaisuuksia sekä akustisia tuotteita, joita tällä instrumentilla saadaan aikaan. Puheen akustinen evidenssi Kuulija saa todisteen puhujan kielentämis- ja puhumisprosesseista keskittyessään tiedostamaan kuulemaansa puheviestiä. Puhuja seuraa myös itse koko ajan tuottamaansa puhetta auditiivisen palautteensa avulla. Kohtaamme siis jälleen puhujan ja toisaalta myös kuulijan introspektiivisen kyvyn havaita puheen yksityiskohtia. Voimme kutsua tätä puhujan / kuulijan sisäistä kokemusta puheen ominaisuuksista fenomenaaliseksi tiedoksi (vrt. von Fieandt 1950). Fenomenaalinen tieto tarkoittaa paitsi ihmisen havaintoihin perustuvaa tietoa, myös sitä myötäsyntyistä tapaa, jolla ihminen tiedostaa maailmaa. Nykyisin puhutaan tässä mielessä kognitiivisista kyvyistä. Kuulolla on kuitenkin suuria rajoituksia saada selville puheen perusominaisuuksia ja yksityiskohtia. Meillä on keinoja parantaa havaintoa puheen akustisten analyysimenetelmien avulla. Tällöin siirrymme kuvaamaan puhujan tuottamaa akustista puhesignaalia fyysisin keinoin. Viestinnän kannalta fyysinen vaihe on välttämätön, koska puhujan ja kuulijan tietoisuuksien välillä ei ole telepaattista yhteyttä. Koska meillä on keinot saada kuvauksen kohteeksi puheen akustinen muoto, meillä on mahdollisuus paitsi kuvata puheen yksityiskohtia myös saada hallintaamme uusia sovellusmahdollisuuksia sellaisilla aloilla kuin puheen automaattinen tunnistaminen, puhujantunnistus ja puhesynteesi. Myös puhujantunnistuksen (vrt. Niemi-Laitinen, tässä julkaisussa) vertailukeinot perustuvat kuulonvaraisten keinojen ohella akustisiin menetelmiin. Edellä todettiin jo se, että tavanomainen kirjoitus ei sisällä kaikkea sitä, mitä puheen suunniteltu ilmaus sisältää. Foneettinen kirjoitus on ilmaisultaan jo paljon rikkaampi. Puheen akustinen ilmaisu sisältää puolestaan kaiken, mitä puhuja ääneen lausuu. Seuraavassa keskitytään käsittelemään muutamia esimerkkejä siitä, miten puheen akustista evidenssiä voidaan käyttää puheen tutkimuksessa.

Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen 7 Esimerkki puheen äänteiden painotuksesta ja ajoituksesta Puheen ominaisuuksia voidaan tiedostaa usein käyttämällä esimerkkeinä sellaisia ilmaisupareja, jotka eroavat toisistaan vain tutkittavan ominaisuuden suhteen. Tällainen ilmauspari on seuraava: (a) Kyseessä ovat hallituksen vastaiset toimenpiteet. [= hallituksen tulevat toimenpiteet] (b) Kyseessä ovat hallituksen vastaiset toimenpiteet. [= hallitusta vastaan suunnatut toimenpiteet] Kirjoitetusta lauseesta emme välittömästi tiedä, kumpaa tulkintaa kirjoittaja on tarkoittanut. Puhuttuina kuitenkin osaamme käyttää keinoja, joilla ero voidaan selventää (eli disambiguoida). Voimme kokeilla itse mielessämme, kuinka tuottaisimme ilmaukset niin, että kuulijalle ero tulee selväksi. Ehkä voimme päästä käsitykseen, että tapauksessa (a) sanalla vastaiset on suurempi painotus kuin tapauksessa (b), jossa sana liittyy syntaktisesti kiinteämmin sanaan hallituksen. Jälkimmäisessä tapauksessa joudumme miettimään, onko kyseessä jopa yhdyssana hallituksenvastaiset. Päätelmämme painon merkityksestä ilmauksia erottavana tekijänä on oikea, mutta sen sijaan meidän on vaikeampi päätellä, mihin painon ilmaisu perustuu ja mitä vaikutuksia painon sijoittumisella kaiken kaikkiaan on. Tutkimus on osoittanut, että painotus saadaan aikaan usean akustisen piirteen avulla: suurempaan painotukseen johtavat painollisten tavujen kohdalle sattuvat pidempi kesto ja voimakkaampi intensiteetti, mutta kaikkein tärkeimpänä tekijänä vokaalisten segmenttien kohdalle sattuva perustaajuuden äkillinen nousu ja lasku. Miten nämä saadaan aikaan puheen tuoton avulla, siis fysiologisesti? On mietittävä puheen tuoton aivan keskeisiä tekijöitä voidaksemme vastata kysymykseen. Miten meidän puheinstrumenttimme oikein toimii? Käsittelemme ensin kysymystä, kuinka puheen perustaajuus ja intensiteetti muodostuvat. Puheen tuottamiseen tarvitaan ilman virtausta keuhkoista. Ilmavirta kohtaa kurkunpäässä äänihuulet, jotka sulkeutuessaan muodostavat esteen ilman kululle, jolloin äänihuulten alapuolelle muodostuu painetta (subglottaalinen paine). Paine pystyy toisaalta avaamaan äänihuulet, ja tällöin syntyy pieni ilmanpurkaus ääniraosta ylöspäin, joka aiheuttaa painepulssin siirtymisen ääniraon yläpuolelle ja kohti suuaukkoa. Joustavat äänihuulet sulkeutuvat nyt automaattisesti, koska paineen vähentyminen ääniraossa aiheuttaisi lopulta alipainetilan, jota luonto aerodynaamisesti pyrkii välttämään. Alipainetila uhkaa muodos-

8 Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen tua, koska ilmapartikkelien virtausnopeus on ääniraon keskellä suurempi kuin laidoilla. Äänihuulet pyrkivät nyt täyttämään alipaineiseksi käyvän tilan ja siis sulkeutumaan. Näin äänihuulet sulkeutuvat ja avautuvat automaattisesti, mikäli kurkunpään lihaksissa on sopiva jännitystila ja mikäli subglottaalista painetta riittää. Kyseessä on ns. Bernoullin efekti, joka on osatekijänä van den Bergin kehittämässä ns. aerodynaamis-myoelastisessa teoriassa (van den Berg 1968). Kurkunpään lihastoiminta, subglottaalinen paine, äänihuulten elastisuus ja alipainetilan välttäminen selittävät siis äänihuulten värähtelyn. Yksi ääniraon sulkeutuminen ja avautuminen muodostaa yhden äänihuuliperiodin. Äänihuuliperiodilla on aina jokin kesto (miehillä keskimäärin noin 10 millisekuntia = 10 ms, naisilla noin 5 ms). Tällä todellisen mikromaailman ilmiöllä on puheessa uskomattoman paljon tehtäviä. Ensinnäkin puheen perustaajuus määräytyy äänihuuliperiodien keston perusteella: lyhyt kesto aiheuttaa korkemman perustaajuuden kuin pitkä. Kuulon kannalta lyhyiden periodien aiheuttama äänihuulten perusvärähtely aiheuttaa korkeamman äänenkorkeuden vaikutelman. Korkeutta voidaan säädellä eri lihastoimintojen avulla. Näin selitimme (tässä tosin vain karkeasti) puheen perustaajuuden muodostumisen. Intensiteetti puolestaan kasvaa, kun äänihuulten alapuolista painetta lisätään keuhkoista suunnatun ilmavirran lisäyksen ja äänihuulten vastuksen avulla. Meitä kiinnostaa nyt kuitenkin vain se, miten puhen perustaajuus ja intensiteetti selittävät painotusta. Mikäli subglottaalista painetta kasvatetaan ja kurkunpään lihaksia säädellään oikein, saadaan ääniraosta lähtevä painepulssi voimakkaammaksi, mutta myös äänihuulten värähtelytaajuus suuremmaksi. Kun tämä tapahtuu äkillisesti ja palataan heti takaisin entiseen tilaan, saadaan aikaan keskeisin kuulijan kannalta painollisuuden vaikutelmaa synnyttävä efekti. Myös painotuksen vaikutukset äännesegmenttien ajoituksen järjestelyssä myötävaikuttavat painotuksen havaintoon. Tätä havainnollistetaan kuvassa 4, jossa todellisesta puheesta mitatut suhteelliset äännesegmenttien kestot esitetään peräkkäisten kestopalikoiden avulla. Esimerkkilauseemme versiossa (a) hallituksen vastaiset vie enemmän aikaa kuin esimerkissä (b). Esimerkissä (b) sanojen suurempaa syntaktista yhteenkuuluvuutta ilmaistaan ikäänkuin kestohaitarin supistamisella, joka kohdistuu koko sanaliittoon, mutta enemmän sanaan vastaiset. Esimerkissä (a) taas haitari leviää, varmasti osittain siksi, että äänihuulijärjestelyt vaativat nyt enemmän aikaa, mutta myös siksi, että pidempi kesto sinänsä lisää painollisuuden vaikutelmaa.

Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen 9 Kuva 4. Äännekestot sanoissa hallituksen+vastaiset. Sanat esiintyivät kahdessa syntaktisesti erilaisessa versiossa (a) ja (b) lauseessa Kyseessä ovat hallituksen vastaiset toimenpiteet.. Kuva osoittaa, miten kaksi segmentaalisesti identtistä ilmausta voivat olla segmenttikestojen osalta erilaisia. Kunkin äännesegmentin mitattua kestoa vastaa kuvaesityksen palikka. (Analyysi tehty SoundScope-ohjelmalla; kuva piirretty Kestovertailu-ohjelmalla.) Voidaan ehkä esittää moite, että meillä on tässä erikoistapaus, jollaisia harvoin tapaamme käytännössä. Se on tietysti tavallaan totta, mutta tosiasiassa käytämme juuri samoja keinoja syntaktisten suhteiden ilmaisussa muutoinkin, siis myös silloin kuin sekaannuksen vaaraa ei ole olemassa. Esimerkki äänteiden akustisesta visualisoinnista Puhetta ja laulua (vokaalimusiikkia) yhdistää se, että kummassakin on sanoja ja äänteitä. Seuraavassa paneudumme esimerkkiin äänteiden akustiikasta. Arkipäivän elämässä ei juurikaan tiedosteta sitä, että puhuttu ilmaus on olemassa akustisesti (vrt. kuva 3 edellä). Emme voi tässä paneutua syvällisesti puheen akustiikan perusteisiin, vaan pyrimme pikemmin luomaan vain johdannonomaisen käsityksen siitä, miten puheinstrumenttimme toimii akustisten viestien tuottajana ja erityisesti käsittelemme vokaalien akustiikkaa. Kun puheen akustisen muodon visualisoinnin (kuvantamisen) menetelmä sonagrafi keksittiin 1940-luvulla, merkitsi se ratkaisevaa edistysaskelta puheen akustisten ominaisuuksien tutkimuksen kannalta. Laitteella voitiin valmistaa esimerkiksi spektrogrammeja. Entistä paremmin voitiin tutkia äänteiden laatua, puheen kestojärjestelyjä, sävelkulkua, intensiteettiä ja muita ilmiöitä. Noin 60 vuoden kuluessa menetelmät ovat edelleen kehittyneet ja spektrografiset tutkimukset tehdään nykyisin tietokoneohjelmilla. Kuva 5 esittää miespuhuja TP:n ilman kontekstia ääntämää sanaa aisti. Kuva mahdollistaa äänteiden tar-

10 Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen kat aika- ja formanttien taajuusmittaukset. Siitä voidaan erottaa, onko äänne soinnillinen vai soinniton. Äänteiden vaikutusta toisiinsa voidaan havainnoida. Kirjoituksen lopussa on vertailun vuoksi neljä muuta sanaa, joista voi havainnoida, millaisia spektriominaisuuksia on äänteillä, joita ei ole kuvassa 5. Kuva 5. Miespuhuja TP:n tuottaman sanan aisti spektrogrammi. Analyysi on tehty Praat-ohjelmalla. Vaaka-asteikko kuvaa aikaa (s), pystyasteikko taajuutta (Hz). Sanan tuottamiseen on kulunut aikaa noin 0,530 sekuntia. Taajuusasteikko on ulotettu vain 4000 hertsiin asti. Kuvan pystyjuovat ilmaisevat äänihuulten tuottamia äänihuuliperiodeja, painepulsseja. Mitä tiuhempi on äänihuuliperodien esiintyminen aikayksikköä kohti, sitä korkeammalta ääni kuulostaa. [s]-äänteen akustinen kuva ilmaisee epäperiodisuutta (äänihuulet eivät värähtele). Leveät vaakajuovat ilmaisevat vokaalien formantteja. Kuva 6 esittää miespuhujan tuottamien suomen vokaalien visualisointia SoundScope-ohjelmalla tuotettujen spektrogrammien avulla. Kuvassa on myös vokaalien intensiteettikäyrät. Vokaalit on äännetty ilman sanakontekstia, joten viereisten äänteiden vaikutusta ei esiinny. Vokaalit on järjestetty tarkoituksellisesti etisyys-takaisuus -ulottuvuuden mukaan: ensin tulevat siis etuvokaalit [i, e, ä] väljyyden kasvaessa. Takavokaalit [a, o, u] seuraavat väljyyden supistuessa. Pyöreät etuvokaalit [y, ö] on sijoitettu edellisten ryhmien väliin. Intensiteettikäyrät osoittavat, että jotkut vokaalit ovat suhteellisesti heikompia kuin toiset (suppeat vokaalit [i], [y] ja [u] kaikkein heikoimmat). Intensiteettiä emme kuitenkaan käsittele tässä enempää, vaan tyydymme toteamaan, että kyse on vokaalien ominaisintensiteetin vaihtelusta.

Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen 11 Kuva 6. Suomen kahdeksan vokaalin /i, e, ä, y, ö, a, o, u/ kertaäännösten spektrogrammit (alempana) ja intensiteettikäyrät (ylempänä). Visualisointi laadittu Sound- Scope-ohjelman avulla. Vaaka-asteikko esittää aikaa (millisekunteja; ms), spektrogrammin pystyasteikko taajuutta (hertsejä; Hz), intensiteettikäyrän pystyasteikko signaalin voimakkuutta (tässä voltteina). Spektrogrammin kolmas ulottuvuus on tummuusaste, joka ilmaisee voimakkuutta. Mitä spektrogrammit oikeastaan ovat, mitä ne todistavat ja mihin niitä voidaan käyttää? Spektrogrammien vaaka-asteikko ilmaisee aikaa ja mittayksikkö on sekunti tai sen tuhannesosa millisekunti (ms). Voimme siis helposti mitata, mikä äänteiden kesto on. Tällaisen tekniikan avulla saatiin selville myös kuvan 4 äänteiden kestot. Kuvan 6 irrallaan äännetyt vokaalit ovat varsin pitkiä: ne ovat lähes puolen sekunnin (500 ms) mittaisia, kun todellisessa puheessa äänteiden keskimääräinen kesto on noin 60 80 ms:n luokkaa. Suomen kielessä fonologisesti pitkät (= kirjoituksessa kahdella identtisellä vokaalilla merkityt) vokaalit ovat tietenkin pidempiä kuin lyhyet (vrt. tuli/tuuli). Puhenopeus vaikuttaa kestoihin. Äännekestojen järjestely on puhujan erikoisimpia kykyjä, ja toisaalta kuulijan kyky havaita ja tunnistaa lyhytkestoisia yksiköitä nopeastakin puheesta on hämmästyttävä. Spektrogrammin pystyasteikko ilmaisee taajuutta, jota mitataan hertseinä (Hz). Sana spektri ei ehkä meille aluksi kerro mitään, mutta jos pyrimme yhdistämään asian

12 Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen omaan fenomenaaliseen kokemukseemme, voimme lähteä siitä, että fyysinen spektri vaikuttaa ratkaisevasti siihen, mitä kutsumme äänteen havaituksi laaduksi. Meistä on itsestään selvää, että esimerkiksi a ja ä ovat laadultaan erilaisia, mutta yleensä ajattelemme niitä vain kirjoituksen kirjaimina, emme puheen äänteinä. Akustiikan termejä käyttäen voimme sanoa, että a:n ja ä:n (eli tarkemmin foneettisin symbolein ilmaistuina [a]:n ja [æ]:n) laatuero perustuu niiden spektrieroihin ja etenkin spektrissä esiintyviin formantteihin. Spektrogrammeissa ilmenee ajan ja taajuuden lisäksi myös kolmantena ulottuvuutena tummuusasteen avulla ilmaistu voimakkuus, jota yleensä ilmaistaan desibeliasteikon (db) avulla. On kuin katsoisimme vuoristoa ylhäältäpäin korkeiden huippujen suuntautuessa kohti silmiämme. Kuva 7. Kuvassa 6 esitettyjen suomen vokaalien formanttirakenne (F1, F2, F3 ja F4) esitettynä tyylitellysti kertaäännösten perusteella. Kun tarkastelemme nyt kuvan 6 vokaalien spektrirakenteita, voimme havaita niissä eroja. Kiinnitämme erityisesti huomiota tummiin vaakajuoviin ja havaitsemme niiden olevan eri vokaaleissa eri korkeudella. Näitä akustisia energian keskittymiä tietyillä spektrin taajuusalueilla kutsutaan formanteiksi. Kuvassa 6 voimme erottaa niitä eräillä vokaaleilla neljäkin kappaletta. Kun mittaamme vokaalista neljä alinta (eli formantit F1, F2, F3 ja F4), saamme kuvan 7 tyylitellyn esityksen. Kuvaan on merkitty kunkin formantin mitattu taajuus. Voimme havaita, että vokaaleja erottelee parhaiten F2. Kun vokaalit asetettiin

Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen 13 etisyysasteen mukaan järjestykseen, on F2:n arvo laskeva. Poikkeuksena on [y], koska se on pyöreä vokaali ja sen formantti F2 on laskenut [i]:hin verraten siten, että se ei aivan sovi tuohon yleiseen linjaan. Toiseksi parhaiten erottelee F1. F1 ja F2 sijaitsevat kuulon parhaalla taajuuden erottelukyvyn aluella. Sen sijaan formantit F3 ja F4 eivät vaihtele eri vokaaleilla kovin paljon, ja niiden taajuusalueella kuulon erottelu on jo heikompi. Kuva 8. Vokaalien ä ja a vertailu lyhytaikaispektrien (FFT) avulla. Paksumpi viiva = a, ohuempi = ä. Kummastakin vokaalista on näkyvissä neljä ensimmäistä formanttia (F1 F4). Analyysit on tehty SoundScope-ohjelmalla, kuva piirretty Spektrivertailuohjelmalla. Akustisten menetelmien joukosta voimme kuitenkin valita vielä keinon, jolla spektrin tummuusaste-erot voidaan kuvata tarkemmin kuin mitä on mahdollista spektrogrammeissa. Tämä esitysmuoto on nimeltään lyhytaikaisspektri. Jätämme nyt ajan mittaamisen pois ja teemme tarkemman analyysin valitsemastamme vokaalin ajankohdasta. Tällöin saamme esimerkiksi kuvan 8, jossa vertailemme äänteiden a ja ä spektrejä vokaalien keskikohdalta käyttäen ns. FFT-analyysiä (= Fast Fourier Transform). Nyt katselemme vuoristoa ikäänkuin poikkileikkauksena sivultapäin ilman, että ottaisimme aikaulottuvuutta tarkemmin huomioon. Vaaka-asteikko ilmaisee taajuutta (kilohertseinä; khz), pystyasteikko voimakkuutta (db). Kuvasta voimme nyt havaita vokaalien formanttirakenteen paljon

14 Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen tarkemmin kuin spektrogrammista ja voimme havaita ä:n ja a:n ratkaisevan eron: ä:n formantti F2 on selvästi korkeampi kuin a:n. F1:ssä eroa ei juurikaan ole. Formantit F3 ja F4 eroavat kyllä jonkin verran, mutta eron merkitystä heikentää se, että ne sijaitsevat korkeammilla taajuuksilla, ja kuulon psykoakustinen herkkyys (erottelutarkkuus) ei ole enää samaa luokkaa kuin alemmilla taajuuksilla. Mitä sitten teemme näillä tiedoilla? Ensinnäkin voidaan kiinnittää huomiota siihen, että ä on suhteellisen harvinainen vokaali maailman kielissä ja siksi on hyvä, että voimme saada hallintaamme keinoja, joilla voimme vertailla vokaalien laatua. Lisäksi voimme todeta, että artikulatorisen vokaalinelikulmion ja akustisen formanttikartan välillä vallitsee tietynlainen rakenneyhtäläisyys. Suomen kielen vokaalinelikulmio ja vokaalikuutio on esitetty kuvassa 9 (vrt. Wiik 1989:89; Wiik 1998:40). Kaksiulotteisessa vokaalinelikulmiossa muiden ominaisuuksien suhteen toisiaan vastaavat laveat ja pyöreät vokaalit on sijoitettava samoihin pisteisiin. Kolmiulotteinen kuutio on siksi parempi kuvausmuoto. i, y u i y u e ö o e ö o ä a ä a. b. a Kuva 9. Suomen kielen vokaalit esitettyinä vokaalinelikulmiossa ja vokaalikuutiossa. Vokaalinelikulmion ulottuvuudet ovat etisyys-takaisuus (vaakasuunnassa) ja suppeus-väljyys (väljyysaste; pystysuunnassa). Vokaalikuutiossa on lisäksi syvyysulottuvuutena laveus-pyöreys.

Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen 15 Kuva 10. Suomen kielen lyhyet ja pitkät vokaalit esitettyinä F1/F2-formanttikartassa. (Formanttien mittausarvot: Wiik 1965. Viiden miespuhujan keskiarvot. Kuva laadittu Formanttikartta-ohjelmalla). Kuva 11. Brittienglannin kielen vokaalit esitettyinä F1/F2-formanttikartassa. Kutakin vokaalityyppiä havainnollistetaan avainsanalla. (Mitattu aineisto: Deterding 1998, jossa on käytetty viiden miespuhujan, digitaalisesta puhetietokannasta saatuja vokaaleja ja noin 10 esiintymää vokaalityyppiä kohden. Kuva laadittu Formanttikarttaohjelmalla).

16 Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen Vokaalikuution ja vokaalien formanttirakenteen välinen rakenneyhtäläisyys ilmenee siten, että kun vokaalien kaksi alinta formanttia (F1 ja F2) asetetaan samaan koordinaatistoon eli formanttikarttaan (asteikkojen nollapiste ylhäällä oikealla), niin vokaalit asettuvat samaan suhteelliseen järjestykseen. Koska pyöreät ja laveat vokaalit saavat erilliset asemansa koordinaatistossa, ei rakenneyhtäläisyys ole täydellinen. Etisyysaste vastaa kylläkin formanttikartan vaaka-asteikkoa, mutta pyöreys vaikuttaa niin, että vokaalipiste saa paikan enemmän oikealla vastaavaan laveaan verraten (esim. ö ja e). Kartan pystysuunta vastaa väljyysastetta. Edellä käytimme aineistona kerran äännettyjä vokaaleja (eli kertaäännöksiä). Kun otamme todellisissa sanoissa esiintyvät vokaalit ja suuremman aineiston viideltä miespuhujalta, saamme kuvan 10 formanttikartan (mittausaineisto saatu Wiikin 1965 väitöskirjasta). Kuvassa erotellaan lisäksi fonologisesti lyhyet ja pitkät vokaalit (vrt. pika/piika, tuli/tuuli). Havaitsemme, että lyhyet vokaalit (valkoiset ympyrät) ovat menettäneet jonkin verran selvää laatuaan ja joutuneet enemmän kuvion keskelle. Kartta on laadittu lisäksi ottaen huomioon psykoakustisia periaatteita (ks. tarkemmin Iivonen 1994, 1998) 2. Voimme sanoa, että meillä on käytössä vokaalien laadun kuvauksen erittäin hyvä likiarvo. Vokaalien artikulaation tutkiminen on huomattavasti hankalampaa kuin akustinen tutkimus, koska edellisessä puhujan on oltava läsnä laboratoriossa ja aineiston keruu on hidasta eikä aineiston määrä voi kasvaa suureksi. Näitä rajoituksia ei akustisella tutkimuksella ole. Koska olemme saaneet hallintaamme vokaalien järjestelmän akustisen kuvauksen, voimme myös nyt vertailla kieliä. Kuvassa 11 on esitetty brittienglannin vokaalit (mittausaineisto Deterding 1997). Aineisto edustaa viittä miespuhujaa ja vokaalit on poimittu digitaalisesta tietokannasta. Voimme vertailla toisaalta suomen ja brittienglannin vokaalilaatuja, toisaalta tehdä havaintoja saman kielen vokaalien välillä. Esim. englannin vokaalien [i] ja [I] ero (beat ja bit) on suurempi kuin suomen lyhyen ja pitkän [i]:n (pika/piika) välillä. Englannin [u] ja [Á] (pool ja book) ovat pikemminkin keski- kuin takavokaaleita. Suomessa lyhyt ja pitkä [u] ovat selvästi takavokaaleja. Suomen lyhyt [u] sijaitsee vokaaliavaruudessa hieman keskemmällä ilmeisesti sen vuoksi, että se ei saavuta yhtä suurta takaisuuden ja pyöreyden astetta kuin pitkä [u]. Ero vokaalien [Å] ja [o ] välillä (hot ja caught) on huomattavan suuri. Kuva näyttää myös, että vokaalit [A] ja [Ø] (fast ja butter) ovat aineistossa yhtä väljiä ja laadullisesti hyvin lähellä toisiaan vastoin useiden oppikirjojen esityksiä. 2 Ks. myös www-osoitetta http://www.helsinki.fi/hum/hyfl/projektit/vokaalitutkimus.html)

Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen 17 Esimerkki puheen äänenkorkeuden ilmaisusta Musiikkia ja puhetta laajasti yhdistävä tekijä on melodia, sävelkulku. Kun haluamme vertailla kahden puhujan tuottamia sävelkulkuja, voimme käyttää jälleen spektrogrammeja mutta niiden lisäksi automaattista äänenkorkeuden (perustaajuuden) analyysiä. Äänihuulten värähtelytaajuus aiheuttaa puheen perustaajuuden ja havaittavan sävelkorkeuden ja siten myös sävelkulun muuttumisen. Voimme tarkastella, miten nais- ja miespuhujan äänenkorkeus eroaa lauseissa, jotka ovat kieliopillisesti samoja. Kuva 12a. Spektrogrammi, joka näyttää perustaajuuden ja yläsävelet. Analyysi on tehty naispuhujan lauseesta Älä jätä tätä. SoundScope-ohjelmalla. Hz-asteikko on rajattu niin, että se ulottuu n. 1000 Hz:iin, jolloin perustaajuuden lisäksi näkyy kolme yläsäveltä. Kuva 12b. Spektrogrammi, joka näyttää perustaajuuden ja yläsävelet. Analyysi on tehty miespuhujan lauseesta Älä jätä tätä.. Hz-asteikko on rajattu niin, että se ulottuu n. 500 Hz:iin, jolloin perustaajuuden lisäksi näkyy kolme yläsäveltä.

18 Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen Kuvassa 12a näemme spektrogrammin naisen puhumasta lauseesta Älä jätä tätä.. Analyysiä on nyt muutettu niin, että äänen perustaajuus ja ns. yläsävelet tulevat näkyviin. Perustaajuus näkyy kuvassa n. 200 Hz:n yläpuolella leveänä vaakajuovana, ja ensimmäinen yläsävel näkyy sen kerrannaisena ylempänä. Soinnittomat äänteet (kuten [t]) aiheuttavat aina katkoksen perustaajuusjuovassa, koska äänihuulet eivät värähtele. Sanojen jätä ja tätä rajalla on [t] erityisen pitkä, koska suomessa esiintyy yksikön toisen persoonan imperatiivissa (jätä) ns. jäännöslopuke (loppu- tai alkukahdennus). Sen ansiosta seuraavan sanan alkukonsonantti kahdentuu, ja soinniton vaihe kasvaa siten pitkäksi. Meitä kiinnostaa nyt vain perustaajuus, koska se on sävelkulun ja sävelkorkeuden akustinen vastine (sen ohella, että perustaajuudella on muitakin funktioita). Kuvassa 12b nähdään vastaava analyysi miespuhujan tuottamasta lauseesta. Näemme, että perustaajuus vaihtelee välillä noin 100 150 Hz. Kummassakin kuvassa näkyy yläsäveliä kolme kappaletta. Se johtuu siitä, että naispuhujan spektrogrammin taajuusalue on rajattu alueelle 0 1000 Hz mutta miespuhujan alueelle 0 500 Hz. Perustaajuus katkeaa aina soinnittomien äänteiden kohdalla, koska perustaajuus luonnollisesti voi esiintyä vain soinnillisissa äänteissä. Vastaavat katkokset näkyvät yläsävelissä. Voimme eristää perustaajuuden ja laskea sen 10 ms:n välein automaattisella perustaajuuden laskentaohjelmalla. Tulokset näiden kahden puhujan lauseista on sijoitettu samaan kuvaan (kuvassa 13), jolloin voimme saada hyvin tarkan kuvan siitä, kuinka lauseet eroavat toisistaan. Spektrogrammien (kuvat 12a ja 12b) avulla voidaan tarkistaa, onko automaattinen analyysi onnistunut. Näemme nyt myös tarkemmin, että naispuhujan perustaajuuden vaihtelualue esimerkissämme on n. 200 250 Hz, miespuhujan n. 100 140 Hz. Perustaajuuden muodostama yleinen kuvio on hyvin samanlainen kummassakin, mutta edellä jo puheena ollut korkeusero on todettavissa ja miespuhuja on ääntänyt lauseen hitaammin, joten lauseesta on tullut kestoltaan pidempi. Kummassakin lauseessa käyrä nousee sanan jätä ensimmäisen [ä]-vokaalin kohdalla. Se liittyy painon ilmaisuun. Perustaajuus ilmaisee siis sävelkulun ohella myös painotusta (mihin jo edellä viitattiin). Käyrän eräät pienet yksityiskohdat ovat konsonanttien vaikutusta.

Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen 19 Kuva 13. Kuvien 12a ja 12b perustaajuuskontuurit esitettyinä samassa kuvassa. Ylempänä naispuhujan, alempana miespuhujan kontuuri lauseesta Älä jätä tätä.. Tavujen ajalliset keskikohdat on merkitty pystyviivoilla. Vaaka-asteikko ilmaisee aikaa (ms), pystyasteikko taajuutta (Hz). Kirjallisuus van den Berg, Jw. (1968) Mechanism of the larynx and the laryngeal vibrations. B. Malmberg (toim.) Manual of Phonetics. Amsterdam: North-Holland, 278 308. Deterding, David (1997) The formants of monophthong vowels in Standard Southern British English pronunciation. Journal of the International Phonetic Association 27, 47 55. von Fieandt, Kai (1950) Havaintopsykologia. Porvoo/Helsinki: WSOY. Iivonen, Antti (1994) Psychoacoustical explanation for the number of the major IPA vowels. Journal of the International Phonetic Association 24, 72 90. Iivonen, Antti (1998) Suomen ja saksan vokaalien laadun ja keston vertailu. A. Iivonen & T. Nevalainen (toim.) Vieraan kielen fonetiikan opetuksen näkökohtia. Helsingin yliopiston fonetiikan laitoksen julkaisuja 41, 47 70. Levelt, Willem J.M. (1983) Speaking. From Intention to Articulation. (Paperback edition 1993.) Cambridge, MA/London: The M. I. T. Press. TMT-2 = (1983) Tammen musiikkitietosanakirja 2. Helsinki: Tammi. Suomi, Kari (1990) Johdatusta puheen akustiikkaan. Logopedian ja fonetiikan laitoksen julkaisuja 4. Oulun yliopisto. Suomi, Kari (1993) An outline of a developmental model of adult phonological organization and

20 Onko puhuja säveltäjä ja soittaja samassa persoonassa? Antti Iivonen behaviour. Journal of Phonetics 21, 29 60. Wiik, K. (1965) Finnish and English Vowels. Annales Universitatis Turkuensis. Series B, Tom. 94. Turku: Turun yliopisto. Wiik, K. (1989) Taksonomista fonologiaa. Turun yliopisto, Fonetiikka. Turku: Painosalama OY. Wiik, K. (1998) Fonetiikan perusteet. 2. uudistettu laitos. Helsinki/Porvoo: WSOY. LIITEKUVIA SPEKTROGRAMMEISTA Spektrogrammit esittävät miespuhuja TP:n sanoja kansio, lohko, maasto ja nuolla. Vertaa kuvaan 5. TEHTÄVÄ: Segmentoi spektrogremmeista äänteet (osoita siis kullekin äänteelle oma segmentti).

FONEETTINEN KIRJOITUS Reijo Aulanko Foneettisella kirjoituksella tarkoitetaan merkkijärjestelmää, jolla voidaan mahdollisimman yksiselitteisesti kirjoittaa näkyviin ihmisen puhetta. Tavallinen oikeinkirjoitus (ortografia) ei ole foneettisiin tarpeisiin riittävä, koska äänne kirjain-vastaavuudet ovat erilaiset eri kielissä, niin että yleensä kieltä tuntematon ei kykene jonkin sanan kirjoitusasusta varmuudella päättelemään sen ääntämisasua. Suomen kielessä äänteiden ja kirjainten suhde (ns. foneemi grafeemi-vastaavuus) on paljon yksinkertaisempi kuin monissa muissa kielissä, joten suomalaisen mielestä erillinen foneettinen kirjoitusjärjestelmä ei ehkä tunnu kovin tarpeelliselta. Tilanne on kuitenkin aivan toinen esimerkiksi englannissa, jossa kirjoitusasun ja ääntämisen väliset säännöt ovat hyvin monimutkaiset, kuten seuraavat yksinkertaiset sanakirjaesimerkit osoittavat (Wells 1990): kirjoitusasu couch cough could count court couth ääntämisasu [kaáts] [kåf] [kád] [kaánt] [ko t] [ku T] Englannin ääntämisen ilmaisun vaikeuden huomaa myös esimerkiksi sellaisista sanakirjoista ja ensyklopedioista, joissa ei käytetä kansainvälistä foneettista kirjoitusta. Näissä joudutaan soveltamaan muita ratkaisuja, jotka yleensä perustuvat englannin oikeinkirjoituksen (spelling) ja ääntämisen yleisimmille vastaavuuksille joiden oletetaan olevan tuttuja kaikille englannintaitoisille. CD-ROM-muotoinen World Book Encyclopedia -hakuteos ilmoittaa nimille Urho Kaleva Kekkonen ja Wittgenstein seuraavat äänneasut: Urho Kaleva Kekkonen = OOR haw KAH leh vah KEHK oh nehn Wittgenstein = VIHT guhn shtyn

22 Foneettinen kirjoitus Reijo Aulanko Verkossa oleva tietosanakirja Encyclopedia.com antaa samoille nimille seuraavat ääntämisohjeet: Urho Kaleva Kekkonen = oor hô kä lāvä kĕ kōnĕn Wittgenstein = vĭt genshtīn Foneettinen kirjoitus (transkriptio) pyrkii esittämään kansainvälisesti sovituilla merkintätavoilla kaikki relevantit puheen piirteet kirjoitetussa muodossa. Ensisijaisesti foneettisissa kirjoitusjärjestelmissä on keskitytty äänteiden eli vokaalien ja konsonanttien merkitsemiseen, mutta jonkin verran on pyritty antamaan mahdollisuuksia myös puheen prosodisten piirteiden (esimerkiksi intonaation, painotuksen ja rytmin) sekä äänenlaatuerojen merkintään. Foneettisia kirjoitusjärjestelmiä on olemassa useita, mutta laajimmalle levinnyt on tällä hetkellä Kansainvälisen foneettisen seuran suunnittelema ja ylläpitämä aakkosto (International Phonetic Alphabet = IPA), jonka käyttökelpoisuutta ja mahdollisia puutteita seurataan jatkuvasti ja johon julkaistaan pieniä tarkennuksia ja päivityksiä muutaman vuoden välein (IPA Handbook 1999; ks. myös http://www2.arts.gla.ac.uk/ipa/ipa.html). Alussa esitettyjen englanninkielisten esimerkkisanojen foneettiset muodot on esitetty juuri IPA-järjestelmällä. Yllä mainitut erisnimet merkittäisiin IPA-aakkosin seuraavasti: Urho Kaleva Kekkonen = [»ur o»kaleva»kek onen] Wittgenstein = [»vitg nstain] IPAn on siis tarkoitus olla kansainvälisesti sovittu järjestelmä maailman kielten foneettisten ilmiöiden kirjoittamiseksi. IPA on luonteeltaan ns. alfabeettinen notaatiojärjestelmä, eli sen perustana ovat tavallisten kirjainten tapaiset merkit, joista kutakin käytetään osoittamaan vain yhtä tiettyä äännettä. On syytä huomata, että kukin merkki on itse asiassa tavallaan tiivis pikakirjoitusmuoto äänteen tuottamistavan kuvaukselle. Esimerkiksi foneettisessa kirjoituksessa esiintyvä merkki [p] on oikeastaan vain lyhenne joka osoittaa että kyseistä äännettä tuotettaessa huulet ovat tiukasti kiinni toisissaan, ilma ei pääse nenän kautta ulos eikä äänihuulissa synny sointivärähtelyä. Usein käyttötarkoituksesta ja -tilanteesta riippuen tehdään ero foneettisen ja foneemisen transkription välillä. Foneettisessa transkriptiossa pyritään esittämään äännöksen piirteet mahdollisimman pikkutarkasti riippumatta siitä olivatko ne kielen sääntöjen sanelemia vaiko puhujan yksilöllisistä piirteistä tai joistakin puhetilanteen piirteistä johtuvia ominaisuuksia. Foneeminen transkriptio taas rajoittuu esittämään vain kielellisesti relevantit, merkitystäerottavat ominaisuudet.

Foneettinen kirjoitus Reijo Aulanko 23 1. Foneettisen kirjoituksen käyttötarkoitukset Foneettisella kirjoituksella on useita erilaisia käyttötilanteita puhtaiden puheentutkimustarkoitusten ohella (ks. esim. Iivonen ym. 1990). Tyypillisimpiä näistä ovat tilanteet, joissa jollekin kielen sanalle on esitettävä ääntämisasu, joka on joko yleisin, normaalein (esim. erilaiset sanakirjat) tai sitten tavoiteltavin, suositeltavin ääntämistapa (esim. kielenopetuksessa käytetyt oppikirjat). (Useimmiten yleisin ääntämistapa lienee myös tavoiteltavin, muttei suinkaan aina.) Sanakirjoissa ja oppikirjoissa käytetään tyypillisesti foneemista transkriptiota, mutta ennen kuin niitä voidaan julkaista, on oltava olemassa kattava kuvaus kielen fonetiikasta, mikä edellyttää aina tarkkaa foneettista transkriptiota. Vasta perusteellisen foneettisen tason kuvauksen (deskriptiivisen vaiheen) jälkeen voidaan päätellä, mitkä puheen ominaisuudet milloinkin ovat puhujayhteisön yhteiseen kielelliseen järjestelmään kuuluvia (systemaattinen vaihe) ja mitkä taas johtuvat esim. puhujayksilöstä. Tämän jälkeen voidaan ryhtyä laatimaan kielen ääntämisoppaita (preskriptiivinen vaihe). Lingvistinen fonetiikka on perinteisesti ollut kiinnostunut nimenomaan kielten foneettisista ominaisuuksista, ja puhujien yksilölliset piirteet ovat olleet lähinnä häiriötekijä. Viime vuosina on fonetiikankin piirissä alettu yhä enemmän tutkia nimenomaan yksilöllisiä ominaisuuksia sekä puhujien välisiä eroja että puhujan sisäistä vaihtelua puhesuorituksissa. Logopedinen puheen tutkimus on jo lähtökohdiltaankin kiinnostunut puhujayksilön käyttäytymisestä ja erityisesti ns. normaalin puhesuorituksen ja poikkeavien puhunnosten välisistä eroista. Ball ym. (1996) pitävät poikkeavan puheen transkription käyttöä tarpeellisena sekä kulloisenkin puhujan puheentuottomahdollisuuksien kartoituksessa että ennen kaikkea puheen poikkeavuuksien säännönmukaisuuksien analysoinnissa ja sitä kautta syiden löytämisessä ja mahdollisen terapian suunnittelussa. Foneettisen kirjoituksen voi sanoa olevan mukana myös niissä tietokonesovelluksis -sa, puhesynteesissä ja automaattisessa puheentunnistuksessa, joissa puheen (joko koneen tuottaman tai sen ymmärtämän puheen) sisältö on jossakin vaiheessa esitetty foneettisessa muodossa. Tyypillisesti näissä tapauksissa lähinnä foneemista tasoa edustavassa transkriptiossa ei käytetä IPAn merkistöä sellaisenaan vaan esimerkiksi erilaisia ASCII-merkkien yhdistelmiä, joiden vastaavuudet IPA-järjestelmään ovat kuitenkin varsin yksiselitteiset (ks. esim. http://www.cs.brown.edu/~dpb/ascii-ipa.html). Koko IPA-järjestelmän satavuotisen historian ajan sen periaatteisiin on kuulunut myös ajatus siitä, että IPAa voitaisiin käyttää pohjana luotaessa kirjoitusjärjestelmää kielelle jolla ei sellaista ole ennestään ollut.

24 Foneettinen kirjoitus Reijo Aulanko 2. Foneettinen kirjoituksen historiasta Ajatuksia tavallisen kirjoitusjärjestelmän ohella tai lisänä käytettävästä, ääntämistä suoraan osoittavasta merkintäjärjestelmästä on esitetty jo ainakin 1500-luvulta lähtien (ks. Iivonen ym. 1990). Kiinnostus ääntämisen kuvaamiseen on vienyt eteenpäin paitsi foneettista kirjoitusta myös tieteellistä puheentutkimusta ja foneettista teoriaa yleensä. Aikojen kuluessa on kehitelty monenlaisia foneettisia kirjoitusjärjestelmiä: a) Osa on ollut selkeästi analfabeettisia, eli niissä äännettä ei edusta yksi tietty merkki vaan merkkiyhdistelmä, joka kertoo kaikki äänteen tuottamiseen liittyvät puheentuoton parametrit, eli kyseessä on ollut vain tavallista tekstiä tiiviimpään muotoon puettu foneettinen kuvaus. b) Ns. ikonisissa alfabeettisissa järjestelmissä merkkien muodot on valittu niin että ne kertoisivat suoraan äänteiden ominaisuuksista, esim. huulten pyöreys osoitettaisiin kirjoitusmerkin (jonkin osan) pyöreydellä. Suurta osaa ääntöelimistön toiminnoista on vaikea esittää suoraan kirjainmerkkien muotoina, ja lievemmässä muodossa ikonisiksi lasketaankin myös sellaiset järjestelmät, joissa ääntämisen eri piirteet on aina esitetty systemaattisesti tietynlaisina graafisina muotoina. c) Ei-ikonisissa alfabeettisissa järjestelmissä periaate on, että yhtä äännettä osoitetaan aina yhdellä kirjainmerkillä, mutta merkin muodon ei tarvitse mitenkään muistuttaa ääntämisasentoa. Merkit yleensä pohjautuvat esimerkiksi latinalaiseen tai kreikkalaiseen aakkostoon ja tarvittavat uudet merkit muovataan olemassaolevista merkeistä loogisesti mahdollisimman ennustettaviksi. IPA-järjestelmä on suurimmaksi osaksi ei-ikoninen alfabeettinen järjestelmä, vaikka sisältääkin joitakin ikonisiksi katsottavia merkintäperiaatteita. IPA-järjestelmäkin on jo hieman yli 100-vuotias (Iivonen ym. 1990; IPA Handbook 1999): IPA-notaatiota kehittänyt Kansainvälinen foneettinen seura perustettiin v. 1886. Seuran nimi oli alunperin The Phonetic Teachers Association, mutta muuttui nykyiseen muotoonsa Internationl Phonetic Association v. 1897. Kuten seuran alkuperäinen nimi kertoo, perustajajoukko koostui lähinnä fonetiikasta kiinnostuneista (eurooppalaisista) kieltenopettajista, joiden yhtenä tavoitteena oli luoda yhtenäinen tapa esittää eri kielten ääntämisohjeita kirjoitetussa muodossa. Seura on koko olemasaolonsa ajan julkaissut omaa aikakauslehteä, jonka nykyinen nimi on Journal of the International Phonetic Association. Lehdessä on vuosien varrella julkaistu foneettisen kirjoituksen kehittämisajatusten ohella runsaasti eri kielten foneettisia ominaisuuksia kuvaavia artikkeleita. Jo 1900-luvun alkupuolella nykyisen kaltaiseksi muotoutunut IPAn merkkijärjestelmä on siis alunperin tarkoitettu ensisijaisesti kielenopetustarkoituksiin, ja sillä on kuvattu paitsi yksittäisiä erikielisiä

Foneettinen kirjoitus Reijo Aulanko 25 äännöksiä myös kielten äännejärjestelmiä vertailukelpoisessa muodossa. Pääpaino on siis ollut kielikohtaisten erojen analysoinnissa ja esittämisessä, ei esimerkiksi murre-erojen tai puhujien välisten erojen tutkimuksessa. Perusajatukseltaan äänteitä osoittavien IPAn perusmerkkien järjestelmä on alusta alkaen pysynyt samankaltaisena: organisaatioperiaatteena on ääntöpaikan, ääntötavan (tai -asennon) ja soinnillisuuden kuvaaminen. 3. Kansainvälinen foneettinen kirjoitus (IPA) nykyään Ohessa on esitetty IPA-järjestelmän merkkivalikoima v. 1996 päivitetyssä muodossaan. Merkit on kaaviossa ryhmitelty kuuteen osastoon, joista jokaista kommentoidaan tässä lyhyesti. Perusterminologia ja mm. äänteiden kuvauksen periaatteet löytyvät esimerkiksi Wiikin (1998) teoksesta. IPA-kaavion sisältö ei suinkaan ole vain joukko erilaisia kirjainmerkkejä eivätkä merkit olekaan tärkeintä kaaviosta muistettavaa asiaa; paljon tärkeämpää on huomata, että merkkien järjestelmää ohjaa monipuolinen ja jäsentynyt näkemys niistä ihmisen foneettisista toimintamahdollisuuksista, joita ihmiskielet äännejärjestelmissään käyttävät. Kaavion yläosassa on esitetty konsonanttien merkit luokiteltuina ääntöpaikan, ääntötavan sekä soinnillisuusasteen mukaan. Sarakkeet esittävät ääntöväylän paikkoja edestä taakse: bilabiaalinen, labiodentaalinen, dentaalinen, alveolaarinen, postalveolaarinen, retrofleksinen, palataalinen, velaarinen, uvulaarinen, faryngaalinen, glottaalinen. Näistä retrofleksinen poikkeaa muista sikäli että se kertoo pikemminkin kielen asennosta (sen kärjen taaksepäin kääntyneisyydestä) kuin tietystä kielen ja suulaen kontaktipaikasta. Taulukon rivien otsikot kuvaavat konsonanttien artikulaatiotapaa, joka liittyy lähinnä ääntöväylän väljyysasteeseen: klusiili, nasaali, tremulantti, napausäänne, frikatiivi, lateraalifrikatiivi, approksimantti, lateraaliapproksimantti. Konsonanttien soinnillisuusaste on ilmaistu symbolin sijainnilla kussakin ruudussa: vasemmalla on soinniton ja oikealla soinnillinen variantti. Jos ruudussa on vain esimerkiksi soinnillisen äänteen merkki, tarkoittaa se sitä, että soinnitonta vastinetta pidetään siinä määrin harvoin esiintyvänä äänteenä, että sille ei ole esitetty omaa merkkiään. Osa konsonanttitaulukon ruuduista on mustattu osoittamaan sitä, että kyseisiä ääntämistapoja ei pidetä mahdollisina äänteinä ihmispuhujille. Tyhjät valkoiset ruudut puolestaan tarkoittavat konsonanttiäänteitä, jotka ovat periaatteessa mahdollisia, mutta joita ei minkään kielen ole havaittu käyttävän.

26 Foneettinen kirjoitus Reijo Aulanko

Foneettinen kirjoitus Reijo Aulanko 27 Tavallisten konsonanttien alapuolella vasemmalla on esitetty ei-pulmoniset konsonantit, joita tuotettaessa ei siis käytetä keuhkoja ensisijaisena ilmavirran aikaansaajana. Taulukon kolme saraketta kuvaavat kolmea erilaista tuottamistapaa ja kussakin sarakkeessa on esitetty muutama eri artikulaatiopaikoilla tuotettu konsonantti. Ensimmäisen sarakkeen naksausäänteissä (clicks) ilman äkillinen virtaus ja siitä aiheutuva naksahtava tai maiskahtava ääni aikaansaadaan kokonaan suuontelossa, lähinnä kielen ja suulaen kontaktien avulla. Implosiiveille puolestaan on ominaista voimakas kurkunpään laskeva liike samalla kun suuontelossa tuotetaan jonkin tavallisen konsonantin kaltainen artikulaatio. Kurkunpään laskulla periaatteessa aiheutetaan ilman imeytyminen sisäänpäin ääntöväylässä, mutta käytännössä äänihuulilla aikaansaatu kurkunpään sulku ei yleensä ole aivan tiivis ja niinpä kurkunpäätä laskettaessa henkitorvessa olevaa ilmaa karkaa ylöspäin sen verran että se aiheuttaa äänihuulten värähtelyn eli soinnin. Tästä syystä taulukossa on esitetty nimenomaan soinnillisia implosiiveja. Ejektiivit ovat implosiivien vastakohtia sikäli, että niissä kurkunpäätä, jossa äänihuulet on tiukasti suljettu, nostetaankin ylöspäin, niin että saadaan aikaan ulospäin suuntautuva ilman virtaus samalla kun suuontelossa jälleen tuotetaan jotakin tavanomaista konsonanttia. Kaavion keskellä oikealla on esitetty vokaalien merkit ns. vokaalikulmiossa kaksiulotteisena avaruutena, jossa dimensioina ovat vokaalin etisyys takaisuus ja suppeus väljyys (close open). Nämä kaksi ulottuvuutta viittaavat siis kielen sijaintiin suuontelossa vokaalia tuotettaessa. Väliasteet em. ulottuvuuksissa ovat seuraavat: etu- ja takavokaalien välissä ovat keskivokaalit sekä suppeiden ja väljien vokaalien välissä puolisuppeat (closemid) ja puoliväljät (open-mid). Vokaalikulmion kolmas ulottuvuus littyy huulten asentoon vokaalia tuotettaessa: pareittain esitetyistä symboleista aina oikeanpuoleinen tarkoittaa pyöreää (rounded) eli pyöristetyin huulin tuotettua vokaalia ja vasemmanpuoleinen laveaa (unrounded). Ei-pulmonisten konsonanttien alla on sekalainen joukko muita symboleja, joista suurin osa on joko erilaisia kaksoisartikuloituja äänteitä (esimerkiksi labiaalis-velaarinen approksimantti [w], jossa sekä huulten että velumin kohdalla tapahtuva artikulaatio on äänteelle luonteenomaista) tai epiglottaalisia konsonantteja (lähinnä hepreassa esiintyviksi esitettyjä kurkunkannella eli epiglottiksella artikuloituja frikatiiveja). Kaavion vasen alanurkka esittelee IPA-järjestelmän diakriittiset merkit, jotka antavat mahdollisuuksia modifioida konsonantti- ja vokaaliosastoissa esiteltyjen merkkien perusmerkityksiä esimerkiksi sointiasetusten osalta sekä artikulaatiopaikan ja -asennon

28 Foneettinen kirjoitus Reijo Aulanko tarkennuksien, ns. sekundaariartikulaatioiden (labiaalistuminen, palataalistuminen, velaaristuminen, faryngaalistuminen) ja nasaalistumisen osalta. Oikealla alhaalla oleva suprasegmentaalit-osasto antaa joitakin perusmahdollisuuksia puheen prosodisten ominaisuuksien merkitsemiseen. IPA-järjestelmällä voidaan merkitä mm. pää- ja sivupainot, joitakin pituus- eli kvantiteettiasteita sekä eräitä puheen rytmiseen jaksotteluun ja sävelkulkuun liittyviä ominaisuuksia. Sävelkulkuseikkojen merkintämahdollisuuksista tyydyttävimmät koskevat yksittäisten tavujen tai sanojen tooneja ja sana-aksentteja, kun taas pitempien ilmausten intonaation merkintään IPA ei tarjoa juurikaan keinoja. Seuraavassa on englanninkielisten sanojen avulla annettu esimerkkejä muutamista IPA-järjestelmän merkeistä (HUOM. vokaalien pituutta ei ole ilmaistu; IPA Handbook 1999; AE = amerikanenglanti): pea [pi] tea [ti] cap [kqp] bee [bi] deep [dip] gap [gqp] me [mi] knee [ni] hang [hqn] fee [fi] thief [Tif] see [si] vat [vqt] thee [Di] zeal [zil] she [Si] he [hi] read [ id] vision [vizn] ahead [ Ed] yes [jes] leaf [lif] weather [wed ( )] atom [»QR m] (AE) heed [hid] hid [hid] head [hed] had [hqd] father [fad ( )] book [buk] school [sku ] 4. Poikkeavan puheen ja äänenlaadun merkitseminen (ExtIPA ja VOQS) Kuten aiemmin todettiin, Kansainvälisen foneettisen kirjoituksen alkuperäinen päätarkoitus liittyi lähinnä ääntämisohjeiden antamiseen kieltenopiskelijoille. Ei siis olekaan yllättävää, että IPAn perusjärjestelmä on myöhemmin osoittautunut riittämättömäksi esim. puhujien yksilöllisten erojen ja ei-kielellisten äänelaatupiirteiden merkintään (ks. esim. Ball ym. 1996). Tätä puutetta paikkaamaan kehitetyistä merkistöistä tunnetuimmat lienevät ExtIPA (Duckworth ym. 1990, IPA Handbook 1999) ja VoQS (Ball ym. 1995, 1996). Näistä ExtIPA on suunniteltu kaikenlaisen normaalista poikkeavan puheentuoton merkitsemisjärjestelmäksi, kun taas VoQS keskittyy pelkästään erilaisten pitkäkestoisten äänenlaadun ominaisuuksien merkintään.

Foneettinen kirjoitus Reijo Aulanko 29 Oheisessa kaaviossa on esitetty ExtIPA-järjestelmän poikkeavan puheen merkintään tarkoitetut merkit (http://www.arts.gla.ac.uk/ipa/extipachart97.pdf). Kaavio on järjestelty osittain varsinaisen IPA-kaavion mukaisesti, mutta esimerkiksi yläosan konsonanttitaulukkoon ei ole sisällytetty merkkejä, jotka ovat jo varsinaisessa IPA-kaaviossa. Konsonanttien uusista artikulaatiopaikoista on syytä mainita dentolabiaalinen (ylähuulen ja alahampaiden kontakti, eli siis labiodentaalisen vastakohta), labioalveolaarinen (alahuulen ja ylähampaiden takana olevan hammasvallin kontakti; tarpeen yleensä vain joidenkin puhujayksilöiden tuotoksissa), lingvolabiaalinen (kielen ja ylähuulen kontakti; tämä merkintämahdollisuus on jo varsinaisessa IPAssakin, mutta on esitetty systemaattisemmin ExtIPAssa, koska ääntämistapa on yleinen nimenomaan poikkeavassa puheessa) ja velofaryngaalinen (velumin ja nielun seinämien välinen artikulaatiopaikka; koskee vain nenänielussa syntyvää frikatiivia). Diakriittisten merkkien joukosta löytyy merkintätavat mm. toistoääntämiselle (reiterated articulation; eli äänteen tai tavun toistolle ilman välitaukoja), liukuääntämiselle (sliding articulation; eli normaalikestoiselle äänteelle jonka aikana artikulaatiopaikka muuttuu) sekä ingressiiviselle (sisäänpäin suuntautuneelle) ja egressiiviselle (ulospäin suuntautuneelle) ilmavirralle. Jatkuvan puheen ilmiöiden merkintämahdollisuuksina on esitetty eri mittaisten taukojen merkit sekä yleisessä äänenvoimakkuudessa ja puhenopeudessa tapahtuvat muutokset. Viimeksimainittuja suositellaan merkittävän itse asiassa varsin kömpelöllä ja tilaavievällä tavalla, jossa transkriboidusta puheen virrasta rajataan kaarisuluin esimerkiksi tavallista hiljaisemmin tai nopeammin tuotettu puhejakso ja merkitään sen alkuun ja loppuun asianomainen tunnus. Soinnillisuusasteelle annetaan ExtIPAssa tarkempia merkintämahdollisuuksia kuin varsinaisessa IPA-järjestelmässä. Kaavion alareunassa esitetyistä muista symboleista kannattaa huomata mahdollisuus transkriboijan epävarmuuden osoittamiseen: transkriptioon voidaan merkitä tyhjä ympyrä, jos transkriboija ei pysty saamaan selvää siitä, mikä äänne on kyseessä; mikäli joitakin erillisiä äänteen piirteitä (esimerkiksi vokaali, frikatiivi ) pystytään tunnistamaan, ne voidaan merkitä em. ympyrän sisään. Erityisesti äänen laadun merkintään tarkoitetun VoQS-merkistön kaavio (Ball ym. 1995) on myös esitetty ohessa. Tyypillinen esimerkki VoQS-merkintöjä sisältävästä transkriptiosta on esitetty taulukon alareunassa. Samoin kuin ExtIPA-kaavion äänenvoimakkuus- ja puhenopeusmerkinnöissä, myös äänen laadun ominaisuudet ja vaihtelut on tapana merkitä rajaamalla nimetyin kaarisuluin asianomainen puhejakso. Kun jokaiselle merkinnälle on transkriptiossa merkitty selvästi sekä alku- että loppukohta, on myös helppoa esit

30 Foneettinen kirjoitus Reijo Aulanko

Foneettinen kirjoitus Reijo Aulanko 31

32 Foneettinen kirjoitus Reijo Aulanko tää tilanteet, joissa esimerkiksi erilaiset äänenlaatukvaliteetit alkavat ja loppuvat toisistaan riippumatta ja saattavat esiintyä samanaikaisestikin tietyn puhejakson aikana. Äänenlaatuseikat, jotka VoQS-järjestelmällä voidaan merkitä, on jaettu kolmeen luokkaan: ilmanvirtaustyyppeihin, fonaatiotyyppeihin ja supralaryngaalisiin asetuksiin. Ilmanvirtaustyyppien erittelyllä on mahdollistaa esittää vaikkapa ruokatorvipuheen (oesophageal speech) ja keinotekoisen kurkunpään (puhevibraattorin; electrolarynx) avulla tuotetun puheen vuorottelua laryngektomiapotilaalla. Fonaatiotyypeillä tarkoitetaan tässä kurkunpään (lähinnä äänihuulten) avulla tuotettuja erilaisia äänen laatuja, esimerkiksi kuiskausta, henkäyssoinnillisuutta (breathy voice), falsettia ja narinaa (creak). Supralaryngaaliset asetukset viittaavat kurkunpään yläpuolisella ääntöelimistöllä aikaansaatuihin yleisen äänen kvaliteetin eroihin, esimerkiksi huulten pyöristykseen, yleiseen retrofleksisyyteen, alaleuan asentoon tai kurkunpään nostolla tai laskulla aikaansaatuun supralaryngaalisen väylän koon vaihteluun. VoQS-järjestelmän sisältämät äänenlaatuparametrit perustuvat itse asiassa suurelta osin John Laverin (1980) esittämään äänen laadun kuvausjärjestelmään. Kirjallisuus Ball, M.J., Esling, J. & Dickson, C. (1995) The VoQS system for the transcription of voice quality. Journal of the International Phonetic Association 25, 71 80. Ball, M.J., Rahilly, J. & Tench, P. (1996) The Phonetic Transcription of Disordered Speech. San Diego/London: Singular Publishing Group. Duckworth, M., Allen, G., Hardcastle, W. & Ball, M. (1990) Extensions to the International Phonetic Alphabet for the transcription of atypical speech. Clinical Linguistics and Phonetics 4, 273 280. Iivonen, A., Sovijärvi, A. & Aulanko, R. (1990) Foneettisen kirjoituksen kehitys ja nykytila. Helsingin yliopiston fonetiikan laitoksen monisteita 16. IPA Handbook (1999) = Handbook of the International Phonetic Association. A Guide to the Use of the International Phonetic Alphabet. (1999) Cambridge: Cambridge University Press. Laver, J. (1980) The Phonetic Description of Voice Quality. Cambridge: Cambridge University Press. Wells, J. (1990) Longman Pronunciation Dictionary. London: Longman. Wiik, K. (1998) Fonetiikan perusteet. (2. p.) Porvoo/Helsinki/Juva: WSOY. Foneettisia kirjasimia on löydettävissä verkosta ainakin seuraavien osoitteiden kautta: http://www2.arts.gla.ac.uk/ipa/ipa.html http://www.sil.org/computing/fonts/encore-ipa.html http://babel.uoregon.edu/yamada/fonts/phonetic.html

PUHUJANTUNNISTUS JA FORENSINEN FONETIIKKA Tuija Niemi-Laitinen 1. Johdanto Puhujat ovat erilaisia Jokaisella meistä on yksilöllinen ääni ja puhetapa. Kuitenkin puhujan tunnistaminen puheen perusteella saattaa joskus olla hyvinkin vaikeaa. Kahden eri henkilön puhe saattaa kuulostaa hyvin samanlaiselta. Miksi? Selvitetäänpä ensin hieman sitä, mistä kaikista seikoista yksilöllinen puheemme muodostuu ja mitkä seikat siihen vaikuttavat. Alla on lueteltuna kolme pääkohtaa, joista jokainen vaikuttaa koko ajan puhuessamme. Nämä ovat: 1) puhujan anatomia l. yksilöllinen puhe-elimistö, 2) opitut puhemaneerit, kuten esimerkiksi puhetyyli, murre jne. 3) puhetilanne, jossa vaikuttavat esimerkiksi ympäristön äänet, muut puhujat (esimerkiksi kenelle puhutaan), puhujan tunnetila ja puhujan terveydentila puhehetkellä Ensimmäiseen kohtaan emme voi tietoisesti vaikuttaa. Puheemme ominaisuudet määräytyvät sen mukaan, minkälaisessa kunnossa kurkunpää, äänihuulet, kieli, hampaisto eli kaikki artikulaattorit ovat. Ääntöväylän koko ja muoto ovat yksilölliset, ja iän myötä niissä tapahtuu lisäksi muutoksia. Fysiologisia muutoksia puheeseen aiheuttavat mm. erilaiset sairaudet, alkoholi, tupakka ja huumeet. Nämä vaikuttavat kurkunpäähän ja muihin ääntöväylän osiin ja antavat lisää yksilöllisyyttä ääneemme. Lääkeaineillakin on oma vaikutuksensa puheen tuottoon. Toiseen kohtaan voimme jo jonkin verran vaikuttaa. Opimme elämämme aikana tiettyjä puhemaneereita, joita käytämme mielellämme. Nämä maneerit ovat osin tiedostamattomia, mutta osaa voimme muunnella ja tilanteen niin vaatiessa muuttaa puhetapaamme. Näin käy esimerkiksi murrepiirteille, jotka ovat puheessamme silloin, kun olemme ko. murteen puhujien kanssa tekemisissä. Silloin taas kun vaaditaan yleispuhekielistä muotoa, voimme tarvittaessa vaihtaa siihen. Joillekin tosin murre on jo niin automaatistunut, että sitä käytetään kaikissa puhetilanteissa.

34 Puhujantunnistus ja forensinen fonetiikka Tuija Niemi-Laitinen Puhetilanne vaikuttaa puheessa koko ajan. Jos puheympäristö on rauhallinen, voimme puhua normaalilla äänellä. Melussa joudumme huutamaan. Se, kenelle puhutaan, vaikuttaa suuresti puhekäyttäytymiseemme. Tietyille ihmisille puhumme aivan erilaisella äänensävyllä kuin toisille. Se, miten suhtaudumme kuulijaan tai kuulijoihin, eli asenteemme, vaikuttaa myös puhetilanteessa. Suurelle joukolle kuulijoita puheemme on erilaista kuin yhdelle tai kahdelle kuulijalle. 2. Käytäntö Forensinen fonetiikka Edellä käsiteltiin idiolektista eli puhujakohtaista fonetiikkaa. Seuraavaksi keskitymme sen sovellusalueeseen, forensiseen fonetiikkaan. Forensinen fonetiikka on rikostutkinnallista fonetiikkaa. Oikeuskäsittelyn todistusaineisto sisältää tällöin tavalla tai toisella tallennettuja puhenäytteitä. Nykypäivänä forensinen fonetiikka koostuu pääasiassa seuraavista osaalueista: a) Puhenäytteiden profilointi ja vertailu (puhujantunnistus) b) Huonolaatuisten puhenäytteiden laadun parantaminen c) Puhesisällön analyysi Näistä alueista käsitellään tässä yhteydessä ensin ja laajimmin ensimmäistä kohtaa. Muihin kahteen palataan tuonnempana. Forensiseen äänitutkimukseen kuuluvat em. lisäksi erilaisten mekaanisten äänien tutkimus (esimerkiksi laukausäänet) sekä puhenäytteiden autenttisuuden tutkimus. Nämä kaksi viimeksi mainittua aluetta eivät vaadi foneettista tietämystä, mutta äänien kanssa ollaan niissäkin tekemisissä. Puhenäytteiden profilointi ja vertailu (puhujantunnistus) Puhujantunnistus tarkoittaa käytännössä sitä, että rikostekniseen laboratorioon saapuu hätäkeskuksessa nauhoitettu puhelu, esimerkiksi pommiuhkaussoitto. Poliisilla on epäily soittajasta ja tämän epäillyn henkilön puhetta otetaan myös talteen vertailua varten. Poliisi lähettää puhenäytteet laboratorioon, jossa tutkija muodostaa ensin molemmista näytteistä tietynlaisen puhujaprofiilin, eli tutkii tarkasti kaikki puheen piirteet molemmista näytteistä. Tämän jälkeen tuloksia verrataan keskenään ja katsotaan löytyykö tuloksista riittävästi samankaltaisuutta, jotta puhenäytteet voitaisiin todeta saman henkilön tuottamiksi. Lausunnoissa käytetään todennäköisyysasteikkoa, varmaa tunnistusta tai hylkäystä ei voida tehdä

Puhujantunnistus ja forensinen fonetiikka Tuija Niemi-Laitinen 35 johtuen monista eri seikoista, joista enemmän kappaleessa 3. Hätäkeskukseen tulleiden soittojen lisäksi tyypillisiä ovat esimerkiksi valvontavideoiden äänien tutkiminen, televiestinnän ja teknisen kuuntelun tuottamat puhetallenteet sekä yksityishenkilöille tulleet uhkaus- tai häirintäsoitot. Tutkimuksen aikana näytteille suoritetaan sekä kuulonvarainen että akustinen tutkimus. Akustinen tutkimus voi perustua puoliautomaattisten tai automaattisten tietokoneohjelmien käyttöön. Näistä menetelmistä kerrotaan tarkemmin seuraavissa kappaleissa. Kuulonvarainen menetelmä Kuulonvarainen puhujantunnistus perustuu tutkijan kykyyn tunnistaa ja erotella samankaltaisuuksia ja eroja puhenäytteiden välillä. Tutkimuksessa kuunnellaan ja vertaillaan äänteitä, äänenlaatua sekä puheen prosodisia ominaisuuksia, kuten intonaatiota ja painotusta. Huomiota kiinnitetään myös puhenopeuteen ja tauotukseen, puherytmiin ja mahdollisiin erikoisiin puhemaneereihin tai murrepiirteisiin. Äänenlaatu voi tutkittavalla puhujalla olla erikoinen, esimerkiksi nasaalinen tai käheä. Puhepatologiat, kuten äänihäiriöt tai äännevirheet ovat hyviä tunnistusvihjeitä ja auttavat tutkijaa vertailussa. Kuulonvarainen menetelmä on siinä mielessä luotettavampi kuin akustiset mittaukset tai automaattiset menetelmät, että ihmiskorva on erittäin tarkka analysoidessaan kuulemaansa. Normaalikuuloinen henkilö pystyy erottelemaan tärkeän puheen taustamelusta ja keskittymään vain siihen. Tätä sanotaan ns. cocktail party -efektiksi. Akustinen analyysi ei tähän pysty. Erityisesti silloin, kun vertailtavat näytteet sisältävät hälyä tai ovat muutoin erilaiset teknisiltä ominaisuuksiltaan, on kuulonvaraisella menetelmällä tärkeä rooli. Kuulonvarainen menetelmä ei sisällä ns. korvinkuulijan tunnistusta (voice-line-up, ks. tarkemmin esim. Broeders & van Amelvoort 1999). Tätä tekniikkaa voidaan käyttää silloin, kun rikoksen todistaja on ainoastaan kuullut jonkun puhuvan, mutta mitään ei ole taltioitunut mihinkään kuulijan muistia lukuunottamatta. Forensiseen puhujantunnistusmenetelmään tämä ei kuulu. Olisihan se jo mahdottomuuskin, koska tutkija ei ole koskaan aikaisemmin kuullut rikoksesta epäillyn puhetta. Laboratorioissa suoritettava kuulonvarainen tutkimus on aina vertailututkimusta. Puoliautomaattinen akustinen menetelmä Nykyisin voidaan tutkia mitä tahansa puheen osatekijää akustisesti: äänteitä, prosodisia ominaisuuksia ja äänenlaatua. Niiden kuvaamiseksi mitataan joukko muuttujia. Voidaan

36 Puhujantunnistus ja forensinen fonetiikka Tuija Niemi-Laitinen sanoa, että kaikki tutkimukset, joissa tutkitaan puhujan yksilöllisen puhetavan (muuttujien) vaihteluita eri tilanteissa, ovat hyödyksi puhujantunnistukselle (ks. kuva 1). Vaihtelun suuruuden osoittaminen paljastaa nimittäin virhelähteitä, jotka muutoin saattaisivat jäädä huomiotta. Puhujantunnistus on nimittäin sitä vaikeampaa, mitä enemmän yhden puhujan puhe vaihtelee. Puheesta mitattavien muuttujien tulisi varioida paljon eri puhujien kesken, mutta vähän yhdellä puhujalla. Muuttujien tulisi kestää hyvin teknistä siirtoa ja olla helposti mitattavissa. Lisäksi niiden tulisi esiintyä puheessa usein. Niiden tulisi myös pysyä mahdollisimman muuttumattomana, jos puhuja pyrkii imitoimaan toista henkilöä tai muuttamaan tarkoituksellisesti ääntään (Wolf 1972 ja Nolan 1983). Moni mielenkiintoinen ja puhujia hyvin erotteleva puheen piirre saattaa olla rikostutkinnallisesti hyödytön, koska se esiintyy vain harvoin puheessa tai on hankalasti mitattavissa. Suurin osa rikosteknisistä laboratorioista eri maissa käyttää yhdistettyä menetelmää puhujantunnistuksessa. Tämä menetelmä sisältää sekä kuulonvaraisen että akustisen (kokonaan automaattisen tai puoliautomaattisen) tutkimuksen. 50 Puheen pitkäaikaiskeskiarvospektri GSM-puhenäytteistä. Sama puhuja, tekstinluku ja spontaani puhenäyte 40 30 20 db 10 0-10 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96-20 001-kuva 001-teksti Kuva 1. LTAS-spektri (pitkäaikaiskeskiarvo) saman puhujan kahdesta eri puhenäytteestä. Lukupuhuntanäyte (kesto 168 sekuntia) ohuemmalla viivalla kuvattuna ja spontaani kuvakerronta (kesto 172 sekuntia) tummemmalla viivalla kuvattuna. Puhujana nainen, HL, 21 vuotta. Tallennus GSM-puhelimella tietokoneelle. LTAS laadittu Praat-ohjelmalla 43 hertsin resoluutiovälein. Kuvaajassa x-akselilla 1 piste vastaa 43 hertsiä.

Puhujantunnistus ja forensinen fonetiikka Tuija Niemi-Laitinen 37 Automaattinen akustinen menetelmä Automaattista puhujantunnistusta voidaan käyttää joko kaupallisiin tarkoituksiin tai rikosten tutkintaan. Puhujan varmennuksesta (verifiointi) puhutaan silloin, kun sovellusta käytetään esimerkiksi sisäänpääsyn kontrolloinnissa. Muita tapauksia ovat puhujan identifiointi ja diskriminointi. Puhujan verifiointi toimii esimerkiksi seuraavasti. Jonkin yrityksen työntekijöiltä on kaikilta talletettuna tietokantaan puhenäyte. Automaattinen ohjelma mittaa tiettyjä akustisia puheen muuttujia ja laskee näytteille piirrevektorit. Sisäänpääsyn mahdollistamiseksi työntekijä joutuu sanomaan esimerkiksi saman lauseen, joka on jo aikaisemmin talletettu puhujatietokantaan. Testilauseen sisältö voi olla myös jotain muutakin. Ohjelma laskee nyt tästä uudesta näytteestä samat muuttujat sekä piirrevektorin ja vertaa sitä tietokannassa oleviin. Jos ohjelma päätyy siihen tulokseen, että henkilö on se, joka hänen tuleekin olla, hän pääsee sisälle. Jos taas ohjelma päätyy hylkäämään henkilön, sisäänpääsy estyy. Mikään ohjelma ei käytännön sovelluksena pysty vielä sataprosenttiseen puhujan verifiointiin, mutta testiolosuhteissa se kyllä onnistuu (ks. esim. Iivonen ym. 2003, Kinnunen 2004). Aina on mahdollista, että oikea henkilö ei pääsekään sisään, koska hänellä on flunssa tai ääni muuten erikoinen puhehetkellä. Joskus taas saattaa käydä niin, että väärä henkilö pääsee sisään toisen henkilön puhetta matkimalla tai vahingossa. Rikostutkinnassa puhujan identifiointi tietokannasta on automaattisen puhujantunnistuksen vaikeimpia tapauksia. Identifiointia voidaankin käyttää esimerkiksi tutkinnan alkuvaiheessa rajaamaan mahdollista tekijäjoukkoa. Ohjelma antaa tietokannasta muutamia tuntematonta puhenäytettä lähimpänä olevia henkilöitä, joista sitten muilla keinoin etsitään syyllinen. Identifioinnin ja verifioinnin välillä on monenlaisia eroja. Nämä erot ovat yleensä verifioinnin hyväksi, so. puhujan varmennus on aina helpompaa kuin puhujan identifiointi. Puhujien yhteistyöhalukkuus saattaa olla erilainen, rikoksesta epäilty ei aina välttämättä ole halukas antamaan ääninäytettä vertailua varten. Puhenäytteiden määrässä voi olla eroja, verifioinnissa saatetaan käyttää pitkiä puhenäytteitä, kun taas rikoshetken tallenteet voivat olla hyvinkin lyhyitä. Puhenäytteiden laatu on yleensä huomattavasti parempi verifioinnin yhteydessä. Rikosten tutkinnassa operoidaan useimmiten puhelinkaistalla, mikä tarkoittaa sitä, että puhe on kaistanpäästösuodatuksen, koodauksen, dekoodauksen ja usein myös eriasteisen kompressoinnin läpikäynyttä (vrt. kuvia 3 ja 4). Rikoslaboratorioissa tulee useimmiten kysymykseen tapaus, jossa kaksi puhenäytettä

38 Puhujantunnistus ja forensinen fonetiikka Tuija Niemi-Laitinen on vertailtavana. Tällöin on kyse puhujien diskriminoinnista. Kahdesta puhenäytteestä on päätettävä, kuuluvatko näytteet samalle puhujalle vai eivät. Tässä voidaan käyttää apuna vertailutietokantaa, joka sisältää riittävästi puhenäytteitä. Tämä tietokanta edustaa ns. keskiarvopuhujien joukkoa. Kutakin tutkittavaa puhujaa voidaan verrata tietokantaan ja tutkia, miten paljon tutkittavat puhenäytteet eroavat eri puheen muuttujien suhteen ensinnäkin toisistaan ja toisaalta tästä tietokannasta. Puhujansisäisen vaihtelun puheessa pitäisi olla pienempää kuin puhujienvälinen vaihtelu, jotta tunnistuksessa onnistuttaisiin. Johtopäätöstä muodostettaessa voidaan käyttää apuna ns. bayesilaista päätöslogiikkaa. Siinä punnitaan, millä todennäköisyydellä rikoshetken puhenäyte kuuluu epäillylle henkilölle ja toisaalta, millä todennäköisyydellä puhuja on saattanut ollut joku muu henkilö (ks. tarkemmin esim. Rose ym. 2003, Koolwaaij & Boves 1999, Champod & Meuwly 2000). Rikosten tutkinnassa automaattinen menetelmä ei yksin riitä, sen tueksi tarvitaan myös muita menetelmiä, jo aiemmin mainittuja akustisia ja kuulonvaraisia mittauksia. Tutkijan osuus tulosten tulkinnassa on merkittävä. 3. Puhujantunnistuksen vaikeudesta ja syistä siihen Johdanto-osan alussa oli puhetta erilaisista tilannetekijöistä, jotka voivat vaikuttaa puhehetkellä. Nämä tilannetekijät ovat puhujantunnistuksen virhelähteitä, koska yhden puhujan puhe saattaa muuttua tilanteesta toiseen. Näin tapahtuu monesta eri syystä. Alkoholi, tupakointi, huumausaineet ja lääkeaineet saattavat muuttaa henkilön puhetta joko tilapäisesti tai pysyvästi (ks. esim. Lehessaari 1996, Braun ja Künzel 2003). Puhujan kokema tunnetila puhehetkellä vaikuttaa puheeseen (ks. esim. Klasmeyer ja Sendlmeier 1997, Mozziconazzi 1998 ja Seppänen ym. 2003). Muutokset puhujan terveydentilassa, fyysisessä tai psyykkisessä, ovat yksi puhujantunnistusta hankaloittava tekijä. Puheen kohde vaihtelee tilanteesta toiseen ja niin myös puhetyyli. Puhujan kokema stressi tai uupumus puhehetkellä vaikuttavat myös puheeseen. Taustahäly on yksi merkittävä puhetta muuttava tekijä, joka vaikuttaa useimmiten puhujan sitä huomaamatta. Erilaisten puhelimien käyttö, puheen kompressio ja koodaus ovat teknisiä asioita, jotka vaikuttavat puhenäytteen laatuun (ks. kuvat 2 4 sekä Eskelinen-Rönkä ja Niemi-Laitinen 2001 & 2002, Byrne ja Foulkes 2004). Kuten kuvat 2 4 osoittavat, on samanaikaisesti GSM-puhelimen kautta ja mikrofonilla äänitetyissä näytteissä eroja. Ero johtuu puhelimien kaistanpäästösuodatuksesta (= 300 3400 Hz) sekä muista teknisistä toimenpiteistä, joita puhesignaalille puhelinverkossa tapahtuu.

Puhujantunnistus ja forensinen fonetiikka Tuija Niemi-Laitinen 39 50 LTAS vertailu GSM- ja DAT-nauhoitusten välillä. Sama puhuja, sama puhenäyte. 40 30 20 10 0 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 db -10 DAT_IR GSM_IR Kuva 2. LTAS (pitkäaikaiskeskiarvospektri) kahdesta samanaikaisesti nauhoitetusta puhenäytteestä. Puhujana mieshenkilö, puhenäytteen kesto n. 3 minuutia. GSMtallennus (ohuempi viiva), mikrofonin kautta DAT-nauhurille tallennettu näyte (paksumpi viiva). LTAS laadittu Praat-ohjelmalla 43 hertsin resoluutiovälein. Kuvaajassa x-akselilla 1 piste vastaa 43 hertsiä. Puheen tahallinen muuntelu tai toisen henkilön imitointi tulevat myös joskus kysymykseen puhujantunnistuksen virhelähteenä (ks. esim. Wagner ja Köster 1999, Zetterholm 1999; 2003). Lisäksi virhelähteenä voidaan pitää mahdollisia ongelmia ääninäytteiden taltiointivaiheessa tai analysointivaiheessa. 4. Laadunvarmistuksesta ja luotettavuudesta Rikosteknisen laboratorion laatuvaatimukset ovat korkeat. Kaikkien käytettävien tutkimusmenetelmien tulee olla yleisesti hyväksyttyjä ja kansainvälisesti akkreditoituja. Äänitutkimuksen menetelmät on Suomessa akkreditoitu ensimmäisenä maailmassa. Tämä tarkoittaa sitä, että laboratorion laatujärjestelmä kattaa kaikki tutkimukseen liittyvät dokumentoinnit menetelmäohjeista ja tutkimusselosteista lähtien. Virhelähteiden kartoitus ja niiden vaikutuksien tutkiminen on yksi laatuvaatimuksiin kuuluva osa. Toinen tärkeä osa on puheen eri muuttujien systemaattinen tutkiminen. Lisäksi kansainvälisten tutkimusfoorumien seuraaminen ja niihin osallistuminen on tärkeää. Näillä toimenpiteillä taataan se, että rikoksesta epäiltyjen oikeusturva on hyvä ja lausunnot luotettavia.

40 Puhujantunnistus ja forensinen fonetiikka Tuija Niemi-Laitinen 5000 0 0 0.65 Time (s) Kuva 3. Spektrogrammi miespuhujan tuottamasta sanasta samanlaisia. Äänitys mikrofonilla DAT-nauhurille (näytteenottotaajuus 44 khz, 16 bit, monoäänitys). Huomaa, ettei s-äänteiden koko spektri näy, koska kuvaaja on rajoitettu 5000 hertsiin. 5000 0 0 0.65 Time (s) Kuva 4. Spektrogrammi miespuhujan tuottamasta sanasta samanlaisia. Äänitys GSM-puhelimen kautta tietokoneelle (näytteenottotaajuus 44 khz, 16 bit, monoäänitys). Äänitys on tehty samanaikaisesti kuvan 3 nauhoituksen kanssa. Kuvaajassa näkyy se, että puhelin rajaa tallennuksen n. 3400 hertsiin.

Puhujantunnistus ja forensinen fonetiikka Tuija Niemi-Laitinen 41 5. Muut forensisen fonetiikan alueet Loppuun lyhyesti vielä forensiseen fonetiikkaan kuuluvista muista tutkimusalueista. Näistä yleisin nykyisin on huonolaatuisten puhenäytteiden laadun parantaminen. Siihen liittyy usein myös samaisen näytteen puhesisällön selvitys. Näytteiden laatua voidaan parantaa erilaisia suodatintekniikoita käyttämällä. Useimmiten tarvitaan monenlaisia suodattimia ja lisäksi signaalin voimistamista. Mekaanisten äänien tutkimus ei suoranaisesti ole foneettista tutkimusta mutta on sisällytetty rikostutkinnassa äänitutkimukseen. Alue kattaa esimerkiksi laukausäänet tai muut ei-puhetta sisältävät äänet. Tutkimukseen voi kuulua esimerkiksi puhelun taustalta kuuluvan mekaanisen äänilähteen selvitys. Tämä tapahtuu vertailemalla tuntematonta ääntä johonkin tuotettuun ääneen. Laukausäänen kyseessä ollessa voidaan ampua vertailulaukauksia ja tallentaa nämä samaa tekniikka käyttäen kuin tutkittavakin ääni. Puhenäytteiden autenttisuuden tutkimuksella tarkoitetaan näytteen alkuperän tutkimusta. Voidaan esimerkiksi selvittää sitä, onko nauhoitus aito vai onko sitä editoitu jälkikäteen. Tutkimusta tehdään tässäkin sekä kuulonvaraisin että akustisin menetelmin. Lisäksi analogisten tallenteiden yhteydessä voidaan käyttää apuna nauhan magneettisuuden tutkimuksia (ks. esim. Boss ym. 2003). Kirjallisuutta Baldwin, J. & French, P. (1990) Forensic Phonetics. London/New York: Pinter Publishers. Boss, D., Gfroerer, S., Neoustroev, N. (2003) A new Tool for the visualization of magnetic features on audiotapes. The International Journal of Speech, Language and the Law, 10, 255 276. Braun, A. (1995) Procedure and Perspectives in Forensic Phonetics. Proceedings of the XIIIth International Conference of Phonetic Sciences, Vol. 3. Stockholm: KTH & Stockholm University, 146 153. Braun, A. & Künzel, H. (2003) Effects of Alcohol on Speech Prosody. 15th International Congress of Phonetic Sciences, Barcelona 3 9 August 2003, 2645 2648. Broeders, A.P.A. & van Amelvoort, A.G. (1999) Line-up construction for forensic earwitness identification: a practical approach. Proceedings of the XIV International Congress of Phonetic Sciences 1999, San Francisco 1 7 Aug, 1373 1376. Brown, R. (1982) What is speaker recognition? Journal of the International Phonetic Association, 12, 13 24. Byrne, C & Foulkes, P. (2004) The mobile phone effect on vowel formants. Forensic Linguistics. The International Journal of Speech Language and the Law 11, 83 102. Champod, C. & Meuwly, D. (2000) The Inference of identity in Forensic Speaker Recognition.

42 Puhujantunnistus ja forensinen fonetiikka Tuija Niemi-Laitinen Speech Communication 31, 193 203. Eskelinen-Rönkä, P. & Niemi-Laitinen, T. (1999) Testing voice quality parameters in speaker recognition. Proceedings of the XIV International Congress of Phonetic Sciences 1999, San Francisco 1 7 Aug, 149 151. Eskelinen-Rönkä, P. & Niemi-Laitinen, T. (2001). The Effect of Noise in Forensic Speech and Audio Analysis. T. Salmi-Tolonen, R. Foley & I. Tukiainen (toim), CD Proceedings of The Law and Language Prospect and Retrospect Congress Levi 12 15.12.2001. Eskelinen-Rönkä, P. & Niemi-Laitinen, T. (2002) The Effect of Compression in F0 and HNR Analysis. P. Korhonen (toim.) The Phonetics Symposium 2002, Helsinki University of Technology, Laboratory of Acoustics and Audio Signal Processing, Report 67, 143 148. Eskelinen-Rönkä, P. & Niemi-Laitinen, T (2004) The Effect of Compression on Speech Intelligibility. Presentation at the IAFPA Conference 29 31.7.2004, Helsinki, Finland. Hollien, H. (1990) The Acoustics of Crime: The New Science of Forensic Phonetics. New York, NY: Plenum Press. Iivonen, A., Niemi-Laitinen, T. & Harinen, K (1998) Evaluation of similarity degree between speakers on the basis of short time FFT spectra. Proceedings of the Finnic Phonetics Symposium August 11 14, 1998. Pärnu, Estonia. Linguistica Uralica 3, 192 198. Iivonen, A. & Nieminen, A.-L. (1986) Puhujantunnistus fonetiikan juridisena sovelluksena. Helsingin yliopiston fonetiikan laitoksen monisteita n:o 11. Iivonen, A., Harinen, K., Keinänen, L., Kirjavainen, J., Meister, E. & Tuuri, L. (2003) Development of a multiparametric speaker profile for speaker recognition. 15th International Congress of Phonetic Sciences, Barcelona 3 9 August 2003, 695 698. Kinnunen, T. (2004) Spectral Features for Automatic Text-Independent Speaker Recognition. Licentiate s Thesis, Department of Computer Science, University of Joensuu. Klasmeyer, G. & Sendlmeier, W.F. (1997) The classification of different phonation types in emotional and neutral speech. Forensic Linguistics: Speech, Language and the Law, 4, 104 124. Koolwaaij, J. & Boves, L. (1999) On Decision Making in Forensic Casework. Forensic Linguistics. The International Journal of Speech Language and the Law 6, 242 264. Künzel, H. (1987) Sprechererkennung. Grundzüge forensischer Sprachverarbeitung. Heidelberg: Kriminalistik. Künzel, H., Braun, A. & Eysholdt, U. (1992) Einfluss von Alkohol auf die Sprache und Stimme. Heidelberg: Kriminalistik Verlag GmbH. Lehessaari, A.-L. (1996) Alkoholin vaikutus puheen prosodiikkaan. Helsingin yliopiston fonetiikan laitoksen julkaisuja 40. Mozziconazzi, S. (1998) Speech Variability and Emotion: Production and Perception. Dissertation. Eindhoven: Technische Universiteit Eindhoven. Niemi, T. (1998) Speaker-dependent segmental durations. S. Werner (toim.), Nordic Prosody Proceedings of the VIIth Conference, Joensuu 1996. Frankfurt/M: Peter Lang Europäischer Verlag der Wissenschaften, 225 236. Niemi, T. (1999) Keskiarvospektrit ja euclidian distance -arvo forensisessa fonetiikassa. J. Järvikivi & J. Heikkinen (toim.), Out Loud: Papers from the 19th Meeting of Finnish Phoneticians. Studies in Languages 33. University of Joensuu, Faculty of Humanities, 65 75. Niemi-Laitinen, T. (1999) Puhujantunnistus rikostutkinnassa. Helsingin yliopiston yleisen fonetiikan lisensiaatintyö. Säilytteillä maaliskuusta 2005 alkaen Käyttäytymistieteellisen tiedekunnan kirjastossa. Niemi-Laitinen, T., Eskelinen-Rönkä, P. & Monto, R. (1998) Speaker database test and funda-

Puhujantunnistus ja forensinen fonetiikka Tuija Niemi-Laitinen 43 mental frequency in speech. Proceedings of the Finnic Phonetics Symposium August 11 14, 1998. Pärnu, Estonia. Linguistica Uralica 3, 186 191. Niemi-Laitinen, T., Iivonen, A. & Harinen, K. (1999) Similarity Degree Between Speakers on the Basis of Short Time FFT Spectra. Proceedings of the XIV International Congress of Phonetic Sciences 1999, San Francisco 1 7 Aug., 153 156. Niemi-Laitinen, T. (2001) Automatic Speaker Recognition is it possible or not? S. Ojala & J. Tuomainen (toim.), Papers from the 21 st Meeting of Finnish Phoneticians Turku 4. 5.1.2001. Publications of the Department of Finnish Language and General Linguistics, University of Turku 67, 71 80. Niemi-Laitinen, T. (2003) Forensic Speech and Audio Accreditated first in Finland (abstract) P. Saukko (toim.), Forensic Science International, 136 Suppl. 1, p. 8. Elsevier. Nolan, F. (1983) The Phonetic Bases of Speaker Recognition. Cambridge: Cambridge University Press. Nolan, F. (1991) Forensic Phonetics. Journal of Linguistics 27, 483 493. Nolan, F. (1995) Can the definition of each speaker be expected to come from the laboratory in the next decades? Proceedings of the XIIIth International Conference of Phonetic Sciences, Vol. 3. Stockholm: KTH & Stockholm University, 130 137. Nolan, F. (1999) Speaker Recognition and Forensic Phonetics. W.J. Hardcastle & J. Laver (toim.), The Handbook of Phonetic Sciences. Oxford: Blackwell Publishers, 744 767. Nolan, F. (2001) Speaker identification evidence: its forms, limitations, and roles. T. Salmi- Tolonen, R. Foley & I. Tukiainen (toim.), CD Proceedings of The Law and Language Prospect and Retrospect Congress Levi 12. 15.12.2001. Rose, P. (2002) Forensic Speaker Identification. London: Taylor & Francis. Rose, P. (2002) The technical comparison of forensic voice samples. I. Freckelton & H. Shelby (toim.), Expert Evidence. Thomson: Lawbook Company. Rose, P., Osanai, T. & Kinoshitaa, Y. (2003) Strength of forensic speaker identification evidence: multispeaker formant- and cepstrum based segmental discrimination with a Bayesian Likelihood ratios as threshold. The International Journal of Speech, Language and the Law 10, 179 202. Seppänen T, Väyrynen E. & Toivanen J. (2003) Prosody-based classification of emotions in spoken Finnish. 8th European Conference on Speech Communication and Technology (Eurospeech'2003), Geneva, Switzerland, 717 720. Tosi, O. (1979) Voice Identification: Theory and Legal Applications. Baltimore: University Park Press. Wagner, I. & Köster, O. (1999) Perceptual recognition of familiar voices using falsetto as a type of voice disguise. Proceedings of the XIV International Congress of Phonetic Sciences 1999, San Francisco 1 7 Aug, vol. 2, 1381 1384. Whiteside, S.P. (1998) Simulated emotions: an acoustic study of voice and perturbation measures. Proceedings of the 5th International Conference on Spoken Language Processing 3, 699 702. Sydney, Australia. Wolf, J.J. (1972) Efficient acoustic parameters for speaker recognition. Journal of the Acoustical Society of America 51, 2044 2056. Zetterholm, E. (1999) Auditory and acoustic analysis of voice quality variations in normal voices. Proceedings of the XIV International Congress of Phonetic Sciences 1999, San Francisco 1 7 Aug, 973 976. Zetterholm, E. (2003) Voice imitation: A Phonetic Study of Perceptual Illusions and Acoustic Success. PhD Thesis, Lund University.

44 Puhujantunnistus ja forensinen fonetiikka Tuija Niemi-Laitinen

FONETIIKAN MERKITYS KIELENOMAKSUMISESSA JA -OPETUKSESSA 1 Antti Iivonen "The members of my family all came from different backgrounds and spoke several languages. When I was growing up, my father, who was a linguist himself, insisted that each member of the family speak to me in only one language. So my father spoke to me only in English, his father in Norwegian and his mother in Finnish. My mother spoke to me only in Hungarian and her mother only in Mongolian. That way I never got confused. Then I traveled with my father to his postings in Germany, Russia, China, Argentina and Turkey, so that by the age of 6, I spoke 10 different languages." Näin kertoo Stephen Wurm, Australian kansallisyliopiston emeritusprofessori Canberrasta, joka tuntee 48 kieltä, näiden joukossa eräs Papua-Uudessa-Guinessa puhuttu vaikea kieli. (Lähde: Internet: "Jane A. Edwards" (edwards@cogsci.berkeley.edu) 1. TOISEN KIELEN FONETIIKAN OPPIMINEN JA OPETTAMINEN Foneettiset seikat vähemmällä huomiolla kuin kielen muut alueet. Toisella kielellä tarkoitetaan tässä äidinkielen (native language; L1) jälkeen tapahtuvaa muun kielen (second language, foreign language; L2) oppimista. Suomessa se tarkoittaa useimmiten toisen kotimaisen tai vieraan kielen oppimista. Suomeen siirtyneille ulkomaalaisille se merkitsee suomen tai ruotsin kielen oppimista. Yllä esitetyn lainauksen puhuja, Stephen Wurm, on sitä mieltä, että opetettavaa kieltä tulisi puhua lapselle jo kaksivuotiaasta alkaen. Varhaisella iällä annettu kielikylpy johtaneekin nopeaan kielen omaksumiseen ja esimerkiksi parhaiten norminmukaiseen ääntämiseen, mutta harvalla on kuitenkin siihen tilaisuutta, ja aina ilmenee tarvetta kielenoppimiseen myöhemmällä iällä, mikä puolestaan vaatii kielen opetusta. Kun kielen opetuksessa on samanaikaisesti kiinnitettävä huomiota kielen sanaston, 1 Kirjoitus perustuu aiempaan julkaisuun: Antti Iivonen (1998) Nykynäkymiä fonetiikan asemasta kielenomaksumisessa ja -opetuksessa. A. Iivonen & T. Nevalainen (toim.) Vieraan kielen fonetiikan opetuksen näkökohtia. Helsingin yliopiston fonetiikan laitoksen julkaisuja 41, 15 30.

46 Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen syntaksin ja morfologian sekä nykyisin myös pragmatiikan opetukseen, jää tietoinen fonetiikan opetus helposti muun opetettavan aineksen jalkoihin. Tavallinen tilanne lienee se, että fonetiikan osalta keskeinen huomio riittää lähinnä toisen kielen uusien äänteiden opetukseen kaiken muun jäädessä läpäisyperiaatteen ja sattumanvaraisuuden varaan. Usein näyttää ajateltavan, että onko niin haittaa, vaikka foneettisiin seikkoihin ei kiinnitettäisikään huomiota, kun sujuva puhe joka tapauksessa sallii paljon virheitä ja puutteita (ääntämiseen kohdistetuista asenteista, ks. Abercrombie 1991). On kuitenkin eri asia, millaiset virheet ja puutteet aiheuttavat hankalia seuraamuksia, mitkä taas eivät. Ääntämisen heikentyneet muodotkin (reduktiot) ja äänteiden pois jättämiset (elisiot) ovat suureksi osaksi konventionaalistuneita, siis kielikohtaisten sääntöjen alaisia ja itse asiassa nekin siis muodostavat omalta osaltaan oppimisvaikeuksia. Usein tapaa myös asenteen, että fonetiikasta täytyy päästä helpommalla kuin kielen muista alueista. Perussyy fonetiikan heikompaan asemaan mainittuihin muihin kielen osa-alueisiin nähden lienee etenkin siinä, että jälkimmäiset riittävät kirjoitetun kielen hallintaan. Suullisen kielitaidon korostuminen viime vuosina on tosin johtanut myös lisääntyneeseen kiinnostukseen foneettisia taitoja kohtaan. Foneettiseen suoritukseen liittyy enemmän kehollista toimintaa abstraktimpaan kielelliseen toimintaan verrattuna. Ääntäminen vaatii ääntöliikkeiden ja puheen aerodynamiikan hallintaa. Tämän olemme äidinkielen osalta oppineet jokapäiväisen harjoituksen tuloksena lapsuudessamme lähes automaattiseksi kyvyksemme, emmekä helposti näe, että toisen kielen oppiminenkin vaatii paljon puhumista, ennenkuin sujuva puhe on mahdollista. Puhuminen ei ole vain mielen toimintaa vaan myös motorista ja aistitoimintaa. * Alempana kartoitetaan tiiviisti sitä kielenkäytön aluetta, joka koskee kielenopetuksen fonetiikkaa ja toisen kielen foneettisia taitoja yleensä. Ristiriita heikon motivaation ja foneettisten taitojen tarpeen kesken. Toisen kielen oppijoilla on usein heikko motivaatio jo hallinnassaan olevien, äidinkieleen perustuvien foneettisten tapojensa muuttamiseen, koska muutos koetaan häiritsevänä, kiusallisena ja epävarmuutta lisäävänä tekijänä. Siksi ei opettajallakaan ehkä riitä tarpeen vaatimaa motivaatiota tuoda esiin kielen foneettisia seikkoja. Heikko foneettinen suoritus aiheuttaa toisaalta helposti vaaran, että mahdollisesti muutoin hyvä kielitaito jää suullisissa kielenkäyttötilanteissa vaille merkitystä. Äidinkielen foneettinen opettelu vie lapselta vuosia, kunnes taito on lähes automaatistunut. Automaatistumisen myötä ei kielenkäyttäjällä

Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen 47 enää ole kiinnostusta oman kielensä perustaa, foneettista kykyään kohtaan, vaan suhtautuminen on samantapainen kuin suhde moniin biologisiin toimintoihin (kuten verenkiertoon): ne ovat olemassa, mutta niitä ei tiedosteta. Vieraan kielen opettelussa tällainen asenne ei tietenkään toimi, vaan on ikäänkuin aloitettava alusta: on luotava uusi foneettinen perusta. Suullisen kielitaidon kysyntä on viime aikoina kasvanut lisääntyneen kansainvälisen kanssakäymisen myötä. Vieraiden kielten ja äidinkielenkin suullisen hallinnan vaatimus on kasvanut suomalaisissa lukioissa. Amerikkalaisissa yliopistoissa syntyi 1980-luvun lopulla ongelma siitä, että etenkin aasialaista tai afrikkalaista alkuperää olevien opetusavustajien (teaching assistant) heikkoa englannin ääntämistä pidettiin ymmärrettävyyttä haittaavana (Ferrier 1991; Bresnahan & Kim 1993). Osaa heistä vaadittiin eroamaan, mikä vaatimus myös toteutui. Foneettinen tietoisuus. Foneettinen tietoisuus on osa kielellistä tietoisuutta. Sitä voidaan tarkastella erikseen kielen opettajan ja oppijan kannalta. Opettajan kannalta tämä merkitsee tiedon hankkimista tietyn kielen foneettisista ominaisuuksista sekä asianmukaisen terminologian ja kuvauskehikoiden käytön hallintaa. Oppija ei varmastikaan tarvitse samaa tietoisuuden astetta, eikä hänelle tarvitse opettaa kaikkia samoja asioita, jotka opettaja hallitsee. Mutta opettaja tuskin kykenee oma-aloitteisesti kehittämään foneettista harjoituksia tai ymmärtämään oppijan virheitä tuntematta kohdekielen fonetiikkaa. Foneettinen tietoisuus voidaan ymmärtää myös tietoisuutena ääntämisen virheistä ja puutteista. Kielenoppijat ovat tässä suhteessa varmastikin erilaisia. Foneettisten taitojen ala. Foneettiset taidot ymmärretään usein vain kielen äänteiden ääntämisenä korrektisti jonkin normin mukaisesti. Näin helposti unohdetaan ensinnäkin puheen kuuleminen: ne foneettiset tekijät, joiden varaan puheen tunnistaminen ja ymmärtäminen perustuvat. Puheen tuottaminen edellyttää kaiken sanottavan sovittamista puhe-elimistön toimintaan ja kuulon mahdollisuuksiin. Puheen akustiset yksityiskohdat eivät liity vain äänteiden tuottamiseen vaan kaikkiin puheen taustalla oleviin tekijöihin merkityksestä, sanastosta, syntaksista ja morfologiasta tunteisiin ja asenteisiin asti. Äänteiden ohella puheessa on prosodisia ja äänenlaadullisia piirteitä. Prosodiset taidot koskevat suurelta osin puheen jäsentämistä suuremmiksi ja pienemmiksi kokonaisuuksiksi, mikä tarkoittaa sitä, että puheessa on

48 Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen kokonaisuuksia ylläpitäviä ja niitä rajoittavia merkkejä. Voimme havaita tämän esim. pohtiessamme niitä keinoja. joilla seuraavat kaksi ilmausta, joilla on täsmälleen sama äännerakenne, pidetään suomen kielessä erillään: a. ruiskukan nupuissa b. ruiskukannu puissa Prosodisilla piirteillä on mahdollista ilmaista merkityksellisiä, loogisia eroja: a. Näin vielä toisen keltaisen auton. b. Näin vielä toisen, keltaisen auton. Lause a ilmoittaa, että puhuja on aiemmin nähnyt kahdella eri kerralla keltaisen auton. Lauseessa b pilkku ilmaisee, että puhuja on nähnyt aiemmin myös auton, mutta se ei ollut keltainen. Ero saadaan aikaan puheessa toisenlaisen painotuksen avulla. Kun television uutistenlukija hajamielisyyksissään painottaa väärin, voi kuulija hämmentyneenä miettiä seuraavan lauseen kuullessaan, onko biologiakin perin juurin muuttunut: Tyttö oli jäänyt kotiin kahden vanhan isänsä kanssa. Biologian oikku tuskin on kyseessä vaan lukijan prosodinen lipsahdus niin, että sanasta "kahden" tulee "isä"-sanan eikä "jäädä"-verbin määre (kahden = kaksin). Keskustelussa esiintyvillä viestinnällisillä akteilla (puheakteilla), joita ovat esimerkiksi väitteet, kysymykset, käskyt, moitteet, huudahdukset ja tervehdykset, on foneettisia seuraamuksia etenkin prosodisissa piirteissä (vrt. Searle et al. 1980; puheaktiteorian kritiikkiä on toisaalta esitetty, ks. Hakulinen 1996b). Viestinnälliset aktit toteutuvat puheenvuoroissa, joilla puolestaan on oma sisäinen kieliopillinen rakenteensa. Puhujan on kyettävä samanaikaisesti ilmausten rakenteita ja funktioita vastaavien prosodisten piirteiden suunnitteluun. Puheen tuotto ja vastaanotto ovat mitä suurimmassa määrin aikasidonnaisia. Jos pidämme arkikeskustelun ylimpänä kokonaisuutena puheenvuoroa tai kommunikatiivista aktia (esimerkkinä vaikkapa kysymys), on sen alaisina yksikköinä lausekkeet, sanat, tavut ja äänteet. Kaikkiin niihin liittyy foneettisia tekijöitä, jotka voivat olla kielikohtaisesti erilaisia ja siten kielenomaksumisen kohteita. Se, ovatko toisaalta puheen suunnittelun vaiheet ja toisaalta vastaanoton vaiheet todella seriaalisia (peräkkäisiä) vai sittenkin paralleelisia (rinnakkaisia), on edelleen kiistanalainen ongelma. Spontaanissa keskustelussa kieliopillisesti täydelliset lauseet eivät välttämättä toteudu (ks. Hakulinen 1996a), millä seikalla on myös foneettisia seuraamuksia. Äänenlaadun (voice quality) käsite on lähellä vanhempaa artikulaatiobaasiksen

Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen 49 (base of articulation) käsitettä. Artikulaatiobaasiksella on katsottu olevan merkittävä asema kielten erojen kuvauksessa (Sovijärvi 1954; Ternes 1976; Kelz 1974). Käsite tarkoittaa muun muassa sitä, missä keskimääräisessä asennossa kieli on suussa lepotilassa ennen puhetta tai sen aikana. Äänenlaatu (vrt. myös käsitteeseen artikulaatiotottumukset; articulatory settings) on ensisijaisesti brittiläisessä fonetiikassa kehitetty termi, jota ovat kehittäneet mm. David Abercrombie, David Crystal, John Laver ja John Esling. Laver (1980) on erottanut kurkunpäässä muodostuvat äänenlaatupiirteet (glottaaliset äänenlaadut) kurkunpään yläpuolisista (supraglottaalisista) piirteistä. Glottaalisia piirteitä ovat mm. kuiskaus, käheys, narina, falsetti ja henkäyssointi, supraglottaalisia piirteitä mm. nasaalisuus, huulten vähäinen pyöristäminen ja alaleuan vähäinen liikkuvuus. Äänenlaatuja voidaan tarkastella niiden alan kannalta: ne säilyvät suhteellisen muuttumattomina koko ajan puheessa tai sitten ne kohdistuvat vain johonkin määräalaan tai johonkin tiettyyn käyttöyhteyteen. Toisaalta voidaan tarkastella niiden esiintymistä kieliyhteisösidonnaisuuden kannalta. Ne voivat ensinnäkin olla puhtaasti yksilöllisiä, idiolektisia. Toisaalta ne voivat koskea laajempaa kieliyhteisöä. Esimerkiksi amerikanenglannin vokaalit ovat kauttaaltaan nasaalisempia kuin brittienglannin. Jokin sosiaaliryhmä, esim. ammattiryhmä, voi puhua käheämmällä äänellä kuin jokin toinen. Näillä piirteillä saattaa olla myös puheen ymmärtämistä vaikeuttava vaikutus. Usein unohdetaan myös, että foneettiset taidot sisältävät aina myös monenlaisen kielellisen ja kielenulkoisen vaihtelun hallintaa ja havaitsemista. Osaamme yleensä puhua yleiskieltä ja sen lisäksi jotakin murretta tai puhekielivarianttia ja tunnistamme useita saman kielen variantteja. Pystymme ymmärtämään äidinkieltä suhteellisen hyvin, kun sitä puhutaan nopeasti ja kohinaisissa tai jälkikaikuisissa olosuhteissa, kun toiskielinen puhe jää näillä ehdoilla usein käsittämättä. Uskomme, että oman äidinkielemme sanat ovat tunnistettavissa tavallisissa kuunteluolosuhteissa hyvin. Voimme tehdä kuitenkin kokeen, jossa kuulija ei näe suun liikkeitämme, kun äännämme harvinaisia sanoja, kasvien nimiä tai erisnimiä (esim. kaljama, sielikki, Ornamo). On todennäköistä, että saamme tulokseksi niissä kaikissa virhekuulemia (vrt. Iivonen 1991). Johtopäätös kielenopetuksen kannalta on, että on todennäköistä, että kielenoppija ei tavanomaisissa opetustiloissa kerta kaikkiaan välttämättä kuule opetettavien sanojen kaikkia äänteellisiä piirteitä. Näin oppilas ei saa mieleenpainumiselle (aivojen muistijälkien muodostumiselle) välttämättömiä aineksia riittävällä tarkkuudella. Koska puhe sisältää lähes aina melkoisen määrän puhujan tunnetilaan ja asennoitu-

50 Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen miseen kytkeytyviä prosodisia ja äänenlaadullisia piirteitä, on niiden ymmärtäminen ja "suodattaminen pois" toiskielisen puheen havaitsemisessa vaikeampaa kuin äidinkielen havaitsemisessa. Olemme lapsuudessamme joutuneet kuulemaan hyvin erilaisten ihmisten puhetta, ja näin meidän havaitsemis- ja muistitoimintamme ovat harjaantuneet erottamaan puheen tunnistamisen kannalta tärkeät akustiset vihjeet ja täydentämään mahdollisia puutteitakin. Puheen rytmi (poljento) on erilainen eri kielissä ja varmaankin vaikempia kohteita omaksua aidolla tavalla. Pike (1946) on jakanut kielet paino- ja tavuajoitteisiin. Edellisiin kuuluu etenkin englanti, jälkimmäisiin mm. romaaniset kielet. Dauer (1983) pyrki myöhemmin osoittamaan, että Piken jaottelu on liian karkea ja että kielten rakenne voi vaikuttaa rytmin ilmenemiseen. Suomen rytmiä on pidetty milloin tavuajoitteisena, milloin taas tahti- tai mora-ajoitteisena. Strangert (1985) lienee oikeassa kuvatessaan kvantiteettisuhteiden vaikuttavan merkittävästi suomen rytmiin. Vieras aksentti. Kun puhumme vierasta kieltä, se sisältää lähes aina jonkinasteisesti ns. "vieraan aksentin" (foreign accent) piirteitä. Puhumme tavallaan "välikieltä" (interlanguage) (esim. Suomi 1980, Corder 1981). Siinä on piirteitä sekä äidinkielestämme eli ns. positiivista tai negatiivista interferenssiä (interference) että vieraasta kielestä ja ehkä joitakin piirteitä, joita ei ole kummassakaan kielessä. Mitä heikommasta välikielen laadusta on kyse, sitä heikommin voimme olla kanssakäymisessä sen avulla äidinkielisten puhujien kanssa. Usein on viitattu tällöin heikkoihin sosiaalisiin mahdollisuuksiin esim. työelämässä. Voi olla kyllä niinkin, että tietyissä tilanteissa sosiaalinen toleranssi on niin suuri, että heikollakin kielitaidolla voi selviytyä, mutta vaativammissa tilanteissa syrjäytymisen vaara on olemassa. Vieraan aksentin käsite on sikäli epäonnistunut, että se alkuperältään viittaa prosodiaan (latinan accentus = kreikan prosodia). Vuosisatojen ajan aksentin alaisuuteen sijoitettiin huonosti tutkittuja ilmiöitä, joten siitä tuli eräänlainen käsitteellinen kaatopaikka. Vieraaseen aksenttiin sisällytetään prosodisten piirteiden lisäksi kaikki interferenssiä sisältävät segmentaalisetkin piirteet. Flege (1988: 229 230) on kehittänyt toisen kielen puhujan foneettisten taitojen arviointia seuraavien kriteereiden avulla: adekvaattisuus, autenttisuus, hyväksyttävyys, ymmärrettävyys ja negatiivinen arviointi. Adekvaattisuus merkitsee, että kuulija tunnistaa sanan oikein ilman kontekstin tarjoamaa semanttista apua (voidaan päätellä, että äänteet on

Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen 51 tuotettu oikein). Autenttisuus viittaa siihen, että puhujan tuotos on adekvaattinen, mutta kuulija havaitsee, ettei puhuja ole syntyperäinen kielenpuhuja. Tunnistus on siis kuitenkin korrekti. Toisaalta syntyperäinenkin voi tehdä poikkeamia, mutta kuulijalle ne ovat tuttuja poikkeamia eli distortioita kielen foneettisista normeista 2. Hyväksyttävyys viittaa eräänlaiseen asteikkoon, jolla syntyperäiset arvioivat puhujan tuotosten "hyvyyttä". Poikkeamat kielen normeista voivat laskea puheen ymmärrettävyyttä. Tietyt ääntämispiirteet voivat johtaa puhujaan kohdistuvaan negatiiviseen arviointiin. 2. KIRJOITUKSESTA AIHEUTUVAT ONGELMAT Latinan aakkoset ja kirjain. Kun useita eurooppalaisia kieliä alettiin kirjoittaa vasta 700- ja 800-luvulla ja roomalainen kirjoitusjärjestelmä otettiin käyttöön (kirjainmerkkien ja kirjoituksen historiasta ks. Gelb 1963; Diringer 1983), syntyi se tilanne, että latina ei voinut tarjota näiden kielten kaikille foneemeille omia kirjaimia. Uusia merkkejä otettiin käyttöön erittäin vähän (mm. erikoismerkki englannin /T/-foneemille, joka sekin sittemmin korvattiin kirjoituksessa kirjainjonolla <th>). Suurin osa tarpeellisista merkeistä on saatu latinan merkkeihin lisättyjen aksentti- tai muiden apumerkkien (vrt. suomen <ä, ö>; unkarin pituuden merkintä akuuttiaksentin merkin avulla <á>; suppean vokaalin merkki ranskassa <é>) tai kirjainjonojen (ranskan <eau> [o]) avulla. Aksenttimerkit voivat ilmaista muun muassa vokaalin laatua ja pituutta, mutta myös painollisuutta (italian <cittá>). Samalla kirjaimella voi olla eri kielissä eri äännevastaavuuksia. Alempana tarkastellaan sananalkuisen <g>:n ja <ch>:n ääntämistä <e>-kirjaimen edellä eräissä kielissä. kieli <g> <esim.> 'suomennos' <ch><esimerkki> 'suom.' latina [g] gens 'heimo, suku, kansa' espanja [x] gente 'ihmiset' [ts] cheque 'shekki' italia [dz] gente 'ihmiset' [k] che 'mikä' ranska [Z] gent 'ihmiset' [S] chèque 'shekki' hollanti [ ] generaal 'kenraali' saksa [g] genau 'tarkka' [C] Chemie 'kemia' englanti [dz] gender 'suku' [ts] cheque 'shekki' ruotsi [j] genast 'heti' [ts] check 'shekki' tanska [g] gennem 'läpi' 2 Tässä distortio viittaa hieman eri asiaan, kuin äänteelliset poikkeamat normista (esim. lapsen kielen poikkevat äännevariantit).

52 Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen Usein vallitsee se tilanne, että fonologisen muodon ja kirjoituksen kesken ei esiinny loogista yhtäpitävyyttä (ks. alla esitettyä taulukkoa). Muita kirjoitusjärjestelmiä edustavissa kielissä ilmenee toisenlaisia vaikeuksia. KIRJOITUS- JA ÄÄNNEASUN RISTIRIITAISUUKSIA * 1. Samoin merkitty kirjoitusasu äännetään eri tavoin: englannin sanoissa <think> ja <this> on eri alkukonsonantti ([T] ja [D]); englannissa <s>-kirjaimen äänteellinen vastine on eri sanoissa surface [s] 'pinta', sure [S] 'varma', use [z] 'käyttää' ja measure [Z] 'mitta'; kirjain <g> äännetään espanjassa etuvokaalien edessä [x] (gente 'ihmiset') ja muutoin kontekstista riippuen [g] tai [V] (gato [g] 'kissa', agua [V] 'vesi'); saksan <e> voi edustaa mm. painollista etuvokaalia [ ] ja painotonta redusoitunutta keskivokaalia [E] (Decke 'kansi' [d ke]); painollisissa ja painottomissa tavuissa esiintyvä sama kirjainmerkki voi saada eri äännevastaavuuden: engl. <banana>, foneettisesti [be"na ne]. 2. Eri tavoin merkitty kirjoitusasu äännetään samalla tavalla: englannin sea 'meri' äännetään samoin kuin see 'nähdä'; englannin sanoissa call 'kutsua' ja Michael <c> ja <ch> äännetään [k]:na; englannin sanoissa several 'usea; erillinen' ja certain 'varma' kirjainten <s> ja <c> äännösvastine on [s]; molemmat espanjan kirjoitusasut <v> ja <b> äännetään sananalkuisina tauon jälkeen samana äänteenä [b] (esim. Barcelona, Valencia); espanjan <z> ja etuvokaalien etinen <c> äännetään samalla tavoin [T] (zumo 'mehu', centro 'keskusta'); saksan <holen> 'noutaa' ja <hohlen> 'ontto; adj. taipunut muoto' ääntyvät samoin: [ho len]. 3. Kirjoituksessa merkityllä kirjaimella ei ole äännevastinetta: italiassa (humus 'humus'), ranskassa (hôtel 'hotelli') ja espanjassa (helado 'jäätelö') esiintyvää kirjainta <h> ei lainkaan äännetä; joissakin sanoissa näin käy myös englannissa (hour 'tunti'); äänteellinen vastaavuus puuttuu suluissa mainituilta kirjaimilta englannin sanoissa sword (<w>), psychology (<p>), high 'korkea' (<gh>), Michael (<ae>). 4. Kirjoituksessa ei ole mitään kirjainmerkkiä osoittamaan äännettyä äännettä: englannin sanasta open 'auki' ei ilmene, että <o> edustaa diftongiin [EÁ] sisältyvää kahta äännelaatua. 5. Kirjoituksessa on yhden äänteen vastineena useita kirjainmerkkejä: ranskan sanassa eau 'vesi' kolme merkkiä vastaa yhtä äännettä [o]. 6. Kirjoitus ei ilmaise ns. allofoneja, foneemin kontekstuaalisia variantteja: ruotsin lyhyen ja pitkän /ö/-foneemin variantit ovat väljempiä ja takaisempia /r/:n edellä kuin foneemin dominantti tyyppi (dörr 'ovi', föra 'ajaa, kuljettaa'); englannissa esiintyy tumma, velaaristunut /l/-foneemin variantti vokaalin jälkeisessä asemassa (full 'täysi', fill 'täyttää', film 'filmi'). * Käytetyt merkintätavat: < a > kun käsitellään kirjoitusta, ortografiaa /a/ kun käsitellään kielen foneemijärjestelmän yksikköä tai fonologista muotoa [a] kun käsitellään äänteellistä muotoa, foneettista asua

Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen 53 Suomenkielinen voi erehtyä kirjoituksen perusteella arvelemaan, että englannin sanassa banana [be"na ne] 'banaani' kaikissa tavuissa sopii ääntää suomen [a], vaikka englannissa painottomissa tavuissa vain muutamat vokaalityypit ovat mahdollisia, lähinnä [I], [E]. Tehtävä 1: Merkitse sulkeisiin sanan oikeinkirjoitusasuun vahvennettuna painetun kirjaimen äänneasu. Jos kirjaimella ei ole lainkaan äänteellistä vastinetta, merkitse "-". (Vastaukset ja koko sanan foneettinen notaatio kirjoituksen lopussa. Huomaa, että etenkin painottomissa tavuissa esiintyy englannissa vokaalilaadun vaihtelua niin, että [E], [I] ja [ E ] ovat usein toistensa vaihtoehtoisia ääntämisvariantteja.) konsonantit: vokaalit: musician [ ] butter [ ] precision [ ] farther [ ] Chicago [ ] passion [ ] pleasure [ ] apostle [ ], [ ] passion [ ] courteous [ ], [ ] vision [ ] naughty [ ] scissors [ ] kangaroo [ ] sword [ ] look [ ] threshold [ ] fatigue [ ] err [ ] analysis [ ], [ ] single [ ] pigeon [ ] breathe [ ] leopard [ ], [ ] Painotus ja puheen selvyysaste. Kielissä, joissa ei ole sanapainoa kiinteästi tietyllä tavulla, syntyy vaikeuksia, ellei painon paikkaa ole merkitty (näin tietenkin etenkin englannissa). Tehtävä 2: Alleviivaa englannin sanan kirjoitusasuun sen tavun vokaali, jota pidät pääpainollisena. Vastaukset ja koko sanan foneettinen notaatio kirjoituksen lopussa. machine arena javelin legitimate parenthesis secretary directory ascertain heritage heretical diplomacy parade medicine recipient hypothesis interprete beneficient paradise Espanjassa on tiettyjä painotuksen pääsääntöjä ("default"-tapauksia), joiden mukaan paino on pääsääntöisesti viimeistä edellisellä tavulla (persona 'henkilö') tai viimeisellä tavulla (estudiar 'opiskella'), jolloin painoa ei merkitä kirjoituksessa (mutta tässä painollinen

54 Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen vokaali on lihavoitu). Kaikki poikkeukset merkitään oikeinkirjoituksessa aksenttimerkillä (sábana 'lakana', situación 'tilanne')(vrt. Mäkinen 1993: 15). Tehtävä 3: Yritä määritellä seuraavien esimerkkien avulla, mitkä espanjan painotuksen pääsäännöt ovat (jolloin siis painoa ei merkitä oikeinkirjoitukseen). Tehtävässä painotus on merkitty vokaalin lihavoinnilla ja oikeinkirjoituksen aksenttimerkit (poikkeukset) on ilmaistu. Selitys kirjoituksen lopussa. pääsääntöiset: poikkeukset: ------------------------------------------------------------------------------------ carta 'kirje' mamá 'äiti maleta 'matkalaukku' fórmula 'kaava', fricasé 'viillokki' Madrid 'Madrid' amor 'rakkaus' alcázar 'linna' mamut 'mammutti' metal 'metalli' estéril 'steriili', móvil 'liikkuva' orden 'järjestys' millión 'miljoona' lejos 'kaukana' interés 'kiinnostus' locuaz 'puhelias' ------------------------------------------------------------------------------------ Kirjoituksen ominaisuuksia siirretään niihin mielikuviin, joita puhutulla kielelläkin uskotaan olevan. Näitä virheellisiä mielikuvia ovat sanavälien toteutuminen taukoina ja väärä käsitys kirjoituksen ja puheen selvyysasteista. Puheessa tauko sanaväleissä on tietenkin mahdollinen ja voi kytkeytyä esimerkiksi syntaksiin ja puhujan sananetsimisvaikeuksiin, mutta yleensä sananrajaa ei ilmaista tauolla. Kirjaimet kirjoitetaan painotekstissä toisiinsa verraten yhtä selvinä. Antiikin aikana kiveen hakatut roomalaiset monumentaalikirjaimet ovat edelleen lähes yhtä selviä kuin nykyään tietokoneella tulostetut isot kirjaimet. Puhe on kuitenkin verrattavissa enemmän käsin kirjoitettuun käsialaan: selvyysaste vaihtelee. Tämä koskee puhutun kielen sanojen painoasteisiin liittyviä reduktioilmiöitä, mutta myös puheen yleisiä selvyysasteiden vaihteluita. Kun englannin sanassa <object> voi paino olla ensimmäisellä (["ÅbdZIkt] 'esine') tai toisella ([Eb"dZekt] 'väittää vastaan') tavulla, merkitsee painon muutos myös vokaalien laatujen muutoksia, mikä suomenkieliseltä oppijalta saattaa jäädä huomaamatta. Sanan <occur> ensi tavussa, joka on painoton, esiintyy vokaali [E], ei [o] niinkuin usein suomalaiset ääntävät. Gutenbergin painokoneella saatiin kirjoittajan yksilöllisyys hävitettyä: kaikki kirjoitus alkoi näyttää tuottajastaan riippumatta samanlaiselta ja kaikki kirjaimet alkoivat vaikuttaa yhtä selviltä. Puheessa kuitenkin yksilö jättää jälkensä puheeseen, ja vaihtelusta huoli-

Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen 55 matta kuulija tunnistaa puheen. Yksilölliset erot saattavat etenkin kielenoppimisen alkuvaiheessa muodostaa kuitenkin keskeisen kommunikaatiovaikeuden. Puhenopeuden vaihtelu johtaa samantapaiseen vaikeuteen. 3. KIELENOPETUKSEN FONETIIKAN TUTKIMUS SUOMESSA Suomessa virisi kiinnostus kielen opetuksen fonetiikkaa kohtaan varsinkin Kalevi Wiikin (1965) väitöskirjan myötä. Siinä tekijä vertaili kontrastiivisen ja kokeellisen fonetiikan keinoja käyttäen suomen ja englannin vokaalien fonologista järjestelmää sekä vokaalien havaitsemista, akustisia laatuja ja kestoja. Samalla Wiik toi esiin useita kielenopetusta edistäviä neuvoja. Samoilla linjoilla toimivat sitten Lauri Lindgren (1968) ja Veijo Vihanta (1978) tutkiessaan ranskan vokaaleja. Vihannan tutkimukseen kuului suomalaisten oppijoiden tuottamien vokaalien laatutasoa ilmaiseva kuuntelutesti. Lähellä edellisiä ovat myös Taisto Määtän (1983) väitöskirja suomen, suomenruotsin ja ruotsinruotsin vokaaleista sekä Sinikka Niemen ruotsin kieltä käsittelevä tutkimus (1982) ja Reuterin artikkeli (1971). Erik Erämetsä ja Rolf Klemmt (1974) ovat vertailleet kaikkia saksan ja suomen äänteitä. Työssä korostetaan didaktisia näkökohtia ja pidetään aiheellisena lähteä liikkeelle oppimisvaikeuksista, ei niinkään foneettisesta tai fonologisesta systematiikasta käsin. Käyttäen aineistona luettuja dialogeja Pekka Hirvonen (1970) tutki suomen ja englannin intonaation eroja. Painotusta koskevia kontrastiivisia havaintoja sisältyy Jussi Niemen väitöskirjaan (1984). Kari Suomen (1980) väitöskirja koski suomen ja englannin klusiilien tuottamisessa esiintyviä eroja. Todetut havainnot ovat kielenopetuksen kannalta kiintoisia. Etenkin englannin aspiroitujen ja soinnillisten sananalkuisten klusiilien (vrt. pig 'sika' ja big 'iso') tuottamisessa suomenkielisillä oppijoilla on vaikeuksia, koska aspiraation tuottaminen on suomelle vierasta ja soinnin suomenkielinen saattaa tuottaa liioitellun soinnillisena. Sananloppuista soinnillista klusiilia edeltävää vokaalia suomenkielinen oppija ei aluksi osaa tuottaa riittävän pitkänä (vrt. bit/bid). Toisaalta vokaalien kestosuhteet ovat suomessa ja englannissa muutoinkin erilaiset (vrt. myös Wiik 1965). Kun suomen kielessä keskeistä on pitää erillään fonologisesti lyhyet ja pitkät vokaalit (sitä/siitä), vaikuttaa englannissa lyhyiden (jotka ovat samalla hölliä; lax) ja pitkien (tense) vokaalien ero omalta osaltaan (sit/ seat), mutta suurempi vaikutus on sillä, onko vokaalia seuraava konsonantti soinniton vai soinnillinen (sit/cid tai seat/seed). Jossakin määrin on vaikutusta myös sillä, onko seuraava

56 Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen konsonantti klusiili vai frikatiivi (seat/cease). Keskiarvoiset kestot pituusjärjestyksessä (Wiik 1965: 114) kuvaavat tilannetta: lyhyt höllä vokaali [I] ennen soinnitonta klusiilia (sit; 73 millisekuntia), pitkä tiukka vokaali [i ] ennen soinnitonta klusiilia (seat; 123 ms), lyhyt höllä vokaali ennen soinnillista klusiilia (Cid; 147 ms) ja pitkä tiukka vokaali ennen soinnillista klusiilia (seed; 285 ms). Jos vokaalia seuraa frikatiivi (s tai z), vokaalin kesto kasvaa hieman kaikissa luokissa. Jyväskylän kontrastiivinen hanke alkoi 1974 (Sajavaara & Lehtonen 1974). Hanke tuotti joukon yhteis- ja erillisjulkaisuja (mm. yli 1000 nimikettä käsittävän kontrastiivisen kielentutkimuksen bibliografian 1975). Hankkeessa arvostellaan strukturaalisen fonologian keinoja kielenopetuksessa ja korostetaan kommunikatiivisuuden ja pragmatiikan merkitystä. Tuotiin esiin muun muassa, että foneemit, morfeemit ja junktuurit eivät kuitenkaan välttämättä ole relevantteja yksiköitä puheen prosessoinnissa tai kielen omaksumisessa. Foneettisia tutkimuksia on koottu yhteisjulkaisuun (Lehtonen & Sajavaara 1979). Olen aiemmassa katsauksessani (Iivonen 1982) todennut ne moninaiset menetelmät, teoreettiset kehikot, aineistot ja näkökulmat, joita on pelkästään kontrastiivisen tutkimuksen piirissä vaihtelevasti esiintynyt. En kertaa tässä selostustani, mutta on aiheellista todeta, että suomalaisessa foneettisessa tutkimuksessa vain harvoja kieliä on otettu tarkastelun kohteeksi ja kustakin tutkitustakin kielestä on käsitelty vain muutamia valikoituja kohteita. Arvokkaita tuloksia on kuitenkin saavutettu, mikä on luonut kielenopetuksen fonetiikalle jo varsin hyvän teoreettisen pohjan. Hiljattain on myös ilmestynyt tuoreita väitöskirjoja (Toivanen 1999; de Silva 1999), joissa on käsitelty erityiskielen fonetiikkaa, mikä osoittaa uutta kiinnostusta kielten fonetiikkaa kohtaan. Foneettisen opetuksen keinojen tai omaksumisprosessien tutkimus on jäänyt vähemmälle huomiolle (vrt. kuitenkin mm. psykolingvistiikan kannalta Service 1989; 1993). Muualla näihin on kiinnitetty enemmän huomiota (mm. Brown 1991). 4. KIELENOPETUKSEN FONETIIKAN LÄHTÖKOHTATILANNE Kielenopetuksen fonetiikan päämääränä on kohdekielen mahdollisimman hyvä ääntäminen ja kyky kuulla ja tunnistaa sitä korrektilla tavalla. Päämäärä on kuitenkin monen kynnyksen takana. Pyrin havainnollistamaan näitä vaikeuksia oheisella kaaviolla. Kuvion ytimessä ovat kohdekielen foneettiset ominaisuudet. Jotta opetusta voidaan suunnitella, on opetta-

Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen 57 jalla on oltava tietoisuus näistä ominaisuuksista. Oppilaan ei välttämättä ole oltava niistä tietoinen ainakaan samassa määrin kuin opettajan. Oppilaan taitoja kohentaakseen opettaja soveltaa erilaisia opetuskeinoja. Hänen on kuitenkin otettava huomioon oppilaan ominaisuudet päämäärään päästäkseen. KIELEN FONETIIKKA TIETOISUUS KIELEN FONETIIKASTA äänteet äänenlaatu fonotaksi prosodia jne. OPETUSKEINOT OPPILAAN OMINAISUUDET Oppilaan ominaisuuksia ovat etenkin hänen ikänsä, taustansa (curriculumin käsite), motivaationsa ja lahjakkuutensa. Oppilaan motivaatio foneettisten taitojen omaksumiseen ei useinkaan ole korkea siitä huolimatta, että korrekti ääntäminen ja puheen tunnistaminen olisivat hänelle edullisia, jopa elintärkeitä. Sen vuoksi taitava opettaja voi salakuljettaa opetukseen systemaattisesti foneettisia taitoja edistävää ainesta ilman, että oppilas huomaa, mistä oikein on kysymys. Jos laulut ja lorut ym. vastaava aines osoittautuu hyödylliseksi, miksi ei käyttää niitä apuna. 5. FONEETTISET APUVÄLINEET Foneettisista apuvälineistä keskeisimpiä ovat foneettinen kirjoitus, terminologia ja erilaiset kuvauskehikot. Kuvauskehikoita ovat esimerkiksi kardinaalivokaalien diagrammi, siitä kehitetty vokaalinelikulmio ja formanttikartta sekä konsonanttitaulukko. Kaikissa näissä tietty äänne, vokaali tai konsonantti saa laatunsa mukaisen paikan niin, että äänteen samankaltaisuutta ja erilaisuutta voidaan verrata jonkin toisen kielen vastaavaan äänteeseen. Oheisessa kuvassa on esitetty ranskan 11 oraalivokaalin suhteelliset paikat Azamin (1992) mittausten mukaan. Kuvauskehikkona on käytetty tässä psykofoneettista formantti-

58 Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen karttaa (Iivonen 1998). Kuva osoittaa saman seikan, jonka Vihanta (1978) osoitti aiemmin pariisilaisten nuorten puhujien vokaaleissa: ranskan etinen [a] ja takainen [A] ovat lähentyneet toisiaan niin paljon, että niiden voidaan katsoa sulautuneen yhdeksi vokaalilaaduksi. i e y E O ø a ç A o u RANSKA Data: Azami 1992 Ranskan oraalivokaalien akustista laatua kuvaava formanttikartta. Merkittäviä opetuksen apuvälineitä ovat lisäksi seuraavat: foneettiset sanakirjat puhuvat sanakirjat äänikasetit ja videofilmit harjoituskirjat kielikohtaiset fonetiikan oppikirjat yleisen fonetiikan oppikirjat kielenopetuksen fonetiikkaa käsittelevät multimediatyyppiset oppikirjat ja artikkelit opetusohjelmat Foneettisia sanakirjoja on olemassa lähinnä vain suurista kielistä: englannista (Jones 1991; Kenyon & Knott 1953; Lewis 1972; Wells 1990) ranskasta (Lerond 1980; Warnant 1987) saksasta (Siebs 1969; Krech et al. 1982; Mangold 1990). Jonesin sanakirja ilmestyi ensi kerran v. 1917 ja siitä on otettu suuri määrä painoksia, joista 14. painoksen toimitti A.C. Gimson yhdessä Susan Ramsaranin kanssa. Brittiläisten nimien ääntämistä koskevan sanakirjan on julkaissut Pointon (1983). Merkittävä erikielisten nimien ääntämistietous löytyy Mangoldin (1990) kirjasta. Saksan kielen puhuvaa sanakirjaa on kehitetty Kölnin ja Hallen yliopiston foneetikkojen yhteistyönä. BBC, jonka ohjelmien ääntämisnormit ovat olleet esikuvallisia englannin ääntämisen kannalta, on julkaissut v.

Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen 59 1992 sanakirjan, jossa myös äänteellinen asu on merkitty foneettisesti. Sanakirjan esipuheessa John Tusa toteaa: "Our aim, and that of our English language teaching section, BBC English, is to reflect the quality of standard educated spoken English used in Britain today." Äänikasetteja ja videofilmejä on saatavana useiden oppikirjojen oheismateriaalina (esim. Hall et al. 1995). Kielikohtaisia fonetiikan oppikirjoja on saatavana etenkin suurista kielistä suhteellisen pitkältä aikaväliltä runsaasti, esim.: arabiasta (Kästner 1981; Kästner & Waldmann 1992) englannista (Gimson 1962 ja myöhemmät painokset ja editiot; Roach 1983 Lehtonen et al. 1977; Morris-Wilson 1992; Bauer et al.1980), ranskasta (P. Léon 1978; M. Léon 1976; Tranel 1987) ruotsista (Elert 1970; Higelin et al. 1972) saksasta (Moulton 1962; Wängler 1967; Kohler 1995; Hall et al. 1995) suomesta (Sovijärvi 1963/1979, Lieko 1992) venäjästä (Mäkilä & de Silva 1996) Arkipäivän elämään liittyvää havainnollisuutta ovat tavoitelleet ruotsin fonetiikan oppikirjassaan Higelin et al. (1972). Yleisen fonetiikan oppikirjat ovat tarpeellisia perusterminologian ja puhetapahtumien ymmärtämiseksi (esim. Elert 1970; Ladefoged 1975; Laver 1994). Yleisiä fonetiikan opetusta koskevia tai siihen liittyviä julkaisuja ovat mm. Lado (1957), Malmberg (1967, 1971), Breitung (1994) sekä Addison ja Barry (1996). Psykolingvistiseltä kannalta fonologian omaksumista on käsitellyt mm. Service (1989, 1993). Kirjallisuus Abercrombie, David (1991) Teaching pronunciation. A. Brown (toim.) Teaching English Pronunciation. A Book of Readings. London: Routledge, 87 95. Addison, Tony & Barry, Bill J. (1996) Proceedings of a Workshop on English Pronunciation Training at German Universities, Colleges of Education and Polytechnics. PHONUS 2, Reports in Phonetics, University of the Saarland 2. Azami, Zoubir (1992) Inversion acoustico-articulatoire par algorithmes génétiques. Rapport d'activités de l'institut de Phonétique 28. Université Libre de Bruxelles. Bauer, Laurie, Dienhart, John M., Hartvigson, Hans H. & Kvistgaard Jakobsen, Leif (1980) American English Pronunciation. Copenhagen: Gyldendal. BBC English Dictionary. London: HarperCollins. Breitung, Horst (toim.)(1994) Phonetik Intonation Kommunikation. Standpunkte zur Sprachund Kulturvermittlung 2. Werkstattberichte des Goethe-Instituts. München: Goethe-Institut.

60 Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen Bresnahan, Mary & Kim, Min Sun (1993) The impact of positive and negative messages on change in attitude toward international teaching assistants. Folia Linguistica 27, 347 363. Brown, Adam (1991) Teaching English Pronunciation. A Book of Readings. London: Routledge. Corder, S. Pit (1981) Error Analysis and Interlanguage. Oxford: Oxford University Press. Dauer, R.M. (1983) Stress-timing and syllable-timing reanalyzed. Journal of Phonetics 11, 51 62. Diringer, David (1983) A History of the Alphabet. Assisted by H. Freeman. Henley-on-Thames: Gresham Books. Elert, Claes-Christian (1970) Allmän och svensk fonetik. Stockholm: Almqvist & Wiksell. Ferrier, Linda (1991) Pronunciation training for foreign teaching assistants. ASHA 10, 65 70. Flege, James E. (1988) The production and perception of foreign language speech sounds. H. Winitz (toim.), Human Communication and Its Disorders. Norwood, NJ: Ablex. Gelb, I.J. (1963) A Study of Writing. Chicago/London: The University of Chicago Press. Gimson, A.C. (1962) An Introduction to the Pronunciation of English. Hertford: Stephen Austin and Sons. Gimson, A.C. (1989) An Introduction to the Pronunciation of English. Fourth edition revised by Susan Ramsaran. London: Edward Arnold. Gimson, A.C. (1994) An Introduction to the Pronunciation of English. Fifth edition revised by Alan Cruttenden. London: Edward Arnold. Hakulinen, Auli (toim.)(1996a) Kieli 10. Suomalaisen keskustelun keinoja II. Helsinki: Helsingin yliopiston suomen kielen laitos. Hakulinen, Auli (1996b) Johdanto: keskusteluanalyysin profiilista ja tilasta. Auli Hakulinen (toim.), Kieli 10. Suomalaisen keskustelun keinoja II. Helsinki: Helsingin yliopiston suomen kielen laitos, 9 22. Hall, Christopher, Natunen, Martina, Fuchs, Bertold & Freihoff, Roland (1995) Deutsche Aussprachelehre. Ein Hand- und Übungsbuch für Sprecher des Finnischen. Helsinki: Finn Lectura. Higelin, Siv, Ekroth, Gun, Hjorth, Agnete & Wistrand, Pär (1972) Svenskt uttal. Stockholm: Sveriges Radios förlag. Hirvonen, Pekka (1970) Finnish and English Communicative Intonation. Turun yliopiston fonetiikan laitoksen julkaisuja 8. Iivonen, Antti (1982) Kontrastiivisen fonetiikan kehityslinjoja. Virittäjä 86, 423 428. Iivonen, Antti (1991) Paljonko sanojen tunnistuksesta on arvausta ja mitä siitä seuraa. K. Suomi (toim.), Fonetiikan päivät Oulu 1990. Papers from the meeting of Finnish phoneticians. Oulun yliopiston logopedian ja fonetiikan laitoksen julkaisuja 5, 139 151. Iivonen, Antti (1998) Nykynäkymiä fonetiikan asemasta kielenomaksumisessa ja -opetuksessa. A. Iivonen & T. Nevalainen (toim.) Vieraan kielen fonetiikan opetuksen näkökohtia. Helsingin yliopiston fonetiikan laitoksen julkaisuja 41, 15 30. Iivonen, Antti, Sovijärvi, Antti & Aulanko, Reijo (1990) Foneettisen kirjoituksen kehitys ja nykytila. Helsingin yliopiston fonetiikan laitoksen monisteita 16. Jones, Daniel (1991) English Pronouncing Dictionary. Edited by A. C. Gimson, revisions and supplement by Susan Ramsaran. Cambridge: Cambridge University Press. Kelz, Heinrich (1974) Artikulationsbasis und phonetische Beschreibungsparameter. Forschungsberichte des Instituts für Kommunikationsforschung und Phonetik der Universität Bonn 50. Hamburg: Buske, 217 238. Kenyon, John S. & Knott, Thomas A. (1953) A Pronouncing Dictionary of American English. Springfield: Merriam-Webster. Kohler, K. (1995): Einführung in die Phonetik des Deutschen. (Grundlagen der Germanistik 20.)

Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen 61 2., neubearbeitete Auflage. Berlin: Erich Schmidt Verlag. Krech, Eva-Maria, Kurka, Eduard, Stelzig, Helmut, Stock, Eberhard, Stötzer, Ursula & Teske, Rudi (1982) Großes Wörterbuch der deutschen Aussprache. Leipzig: VEB Bibliographisches Institut. Kuokkanen-Kekki, Marjaana & Palmujoki, Katri (1995) Español uno. Espanjaa aikuisille. Helsinki: Finn Lectura. Kästner, Harmut (1981) Phonetik und Phonologie des modernen Hocharabisch. Leipzig: VEB Verlag Enzyklopädie. Kästner, Harmut & Waldmann, Albert (1992) Aussprache und Schrift des Arabischen. Leipzig/ ym.: Langenscheidt. Ladefoged, Peter (1975) A Course in Phonetics. New York/Chicago: Harcourt Brace Jovanovich. Lado, Robert (1957) Linguistics Across Cultures. Applied Linguistics for Language Teachers. Ann Arbor: The University of Michigan Press. Laver, John (1980) The Phonetic Description of Voice Quality. Cambridge: Cambridge University Press. Laver, John (1994) Principles of Phonetics. Cambridge: Cambridge University Press. Lehtonen, J., Sajavaara, K. & May, A. (1977) Spoken English: the Perception and Production of English on a Finnish-English Contrastive Basis. Jyväskylä: Gummerus. Lehtonen, Jaakko & Sajavaara, Kari (1979) Papers in Contrastive Phonetics. (Jyväskylä Cross- Language Studies 7.) Department of English, University of Jyväskylä. Léon, Monique (1976) Exercices systématiques de prononciation française. Paris: Hachette/ Larousse. Léon, Pierre (1978) Prononciation du français standard. 4 e édition, revue et corrigée. Paris: Didier. Lerond, Alain (1980) Dictionnaire de la prononciation. Paris: Larousse. Lewis, J. Windsor (1972) A Concise Pronouncing Dictionary of British and American English. London: Oxford University Press. Lieko, Anneli (1992) Suomen kielen fonetiikkaa ja fonologiaa ulkomaalaisille. Helsinki: Finn Lectura. Lindgren, Lauri (1968) L'interférence des systèmes phonémiques français et finnois. Turun yliopiston fonetiikan laitoksen julkaisuja 4. Malmberg, Bertil (1967) Uttalsundervisning. Stockholm: Almquist & Wiksell. Malmberg, Bertil (1971) Språkinlärning. En orientering och ett debattinlägg. Stockholm: Aldus. Mangold, M. (1990) DUDEN Aussprachewörterbuch. 3., völlig neu bearbeitete und erweiterte Auflage. In Zusammenarbeit mit der Dudenredaktion. Mannheim/Wien/Zürich: Dudenverlag. Meinhold, G. und Stock, E. (1982) Phonologie der deutschen Gegenwartssprache. 2., durchgesehene Aufl. Leipzig: VEB Bibliographisches Institut Leipzig. Morris-Wilson, Ian (1992) English Segmental Phonetics for Finns. Helsinki: Finn Lectura. Moulton, W. (1962) The Sounds of English and German. Chicago/London: The University of Chicago Press. Mäkilä, Kari & de Silva, Viola (1996) Venäjän ääntämisopas. Venäjää aikuisille. Helsinki: Finn Lectura. Mäkinen, Matti (1993) Claro! Lyhyt espanjan kielioppi. Helsinki: Kirjayhtymä. Niemi, Jussi (1984) Word Level Stress and Prominence in Finnish and English. Acoustic Experiments on Production and Perception. Joensuun yliopiston humanistisia julkaisuja 1. Niemi, Sinikka (1982) Fonologisk ljudförändring och ordgestalt. Akustiska och strukturella iakt-

62 Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen tagelser över sverigesvenskans, finlandsvenskans och finskans ljud- och stavelsestruktur samt ordgestalt. Licentiatavhandling vid Åbo Akademi. Pike, Kenneth (1946) The Intonation of American English. Ann Arbor: University of Michigan Press. Pointon, G. E. (1983) BBC Pronouncing Dictionary of British Names. Oxford: Oxford University Press. Reuter, Mikael (1971) Vokalerna i finlandsvenskan: en instrumentell analys och ett försök till systematisering enligt särdrag. Studier i nordisk filologi 58. Roach, Peter (1983) English Phonetics and Phonology. A Practical Course. Cambridge: Cambridge University Press. Searle, J.R., Kiefer, F. & Bierwisch, M. (toim.)(1980) Speech Act Theory and Pragmatics. Reidel. Service, Elisabet (1989) Phonological Coding in Working Memory and Foreign-Language Learning. General Psychology Monographs 9. Helsingin yliopisto. Service, Elisabet (1993) Phonological and semantic aspects of memory for foreign language. J. Chapelle & M. Th. Claes (toim.), Proceedings of the First International Congress of Memory and Memorization in Acquiring and Learning Languages, Brussels, Belgium 21 23 November 1991. C.L.L. Louvain-la-Neuve. Siebs (1969) = H. de Boor, H. Moser und C. Winkler (toim.), Siebs, Deutsche Aussprache. Reine und gemäßigte Hochlautung mit Aussprachewörterbuch. 19., umgearb. Auflage. Berlin: Walter de Gryuter & Co. de Silva, Viola (1999) Quantity and Quality as Universal and Specific Features of Sound Systems. Experimental Phonetic Research on Interaction of Russian and Finnish Sound Systems. Jyväskylä: University of Jyväskylä. Sjögren, Vivi-Ann, Serrano, Paco, Muro, Marja-Leena & Torikka, Riitta (1995) Este país 1. 4. painos. Helsinki/Jyväskylä: Yleisradio. Sovijärvi, Antti (1956) Über die phonetischen Hauptzüge der finnischen und der ungarischen Hochsprache. Ural-Altaische Bibliothek 2, 1 26. Wiesbaden. Sovijärvi, Antti (1963) Suomen kielen äännekuvasto. 2. painos 1979. Jyväskylä: Gummerus. Strangert, Eva (1985) Swedish Speech Rhythm in a Cross-Language Perspective. Acta Universitatis Umensis. (Umeå Studies in the Humanities 69.) Stockholm: Almqvist & Wiksell International. Suomi, Kari (1980) Voicing in English and Finnish stops. A typological comparison with an interlanguage study of the two languages in contact. Turun yliopiston suomalaisen ja yleisen kielitieteen laitoksen julkaisuja 10. Ternes, Elmar (1976) Probleme der kontrastiven Phonologie. Hamburg: Buske. Toivanen, Juhani H. (1999). Perspectives on Intonation: English, Finnish and English Spoken by Finns. 2 vols. Oulu: Oulu University Press. Tranel, Bernard (1987) The Sounds of French. An Introduction. Cambridge: Cambridge University Press. Warnant, L. (1987) Dictionnaire de la prononciation française dans sa norme actuelle. Paris/ Gembloux: Editions Duculot. Wells, John C. (1990) Longman Pronunciation Dictionary. Burnt Mill, Harlow (Essex): Longman. Vihanta, Veijo (1978) Les voyelles toniques du français et leur réalisation et perception par les étudiants finnophones. Studia philologica Jyväskyläensia 12. Wiik, Kalevi (1981) Fonetiikan perusteet. Porvoo/Helsinki/Juva: WSOY. Wängler, Hans-Heinrich (1967) Grundriß einer Phonetik des Deutschen. 2., verbesserte Auflage. Marburg: N. G. Elwert Verlag.

Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen 63 Tehtävien selitykset: Tehtävä 1. konsonantit: vokaalit: musician [S] [mju"zis E n] butter [Ø] ["bøte] precision [Z] [pri"siz E n] farther [A ] ["fa DE] Chicago [S] [SI"kA geá] passion [E] ["pœs E n] pleasure [Z] ["pleze] apostle [E], [Å] [E"pÅs E l] passion [S] ["pœs E n] courteous [ ], [ie] ["k ties] vision [Z] ["viz E n] naughty [O ] ["no ti] scissors [s] ["sizez] kangaroo [u ] [kœnge"ru ] sword [ ] [so d] look [Á] [lák] threshold [T] ["TreShEÁld] fatigue [ ] [fe"ti g] err [ ] [ ] analysis [E], [œ] [E"nœlEsIs] single [Ng] ["sing E l] pigeon [E] ["pidzen] breathe [D] [bri D] leopard [e], [E] ["leped] - foneettiset merkinnät Longman Pronunciation Dictionary (Wells 1990) mukaan lukuunottamatta muutamia vähäisiä tarkemerkkejä - [ E ] tarkoittaa lyhytkestoista redusoitunutta keskivokaalia, joka voidaan jättää ääntämättäkin. - ["] painon merkki pääpainollisen tavun edessä; -sivupainot jätetty merkitsemättä - [I] höllä puolisuppea lavea etuvokaali - [ ] jää ääntymättä (ei IPA:n merkki) - englannin [r]:n oikeampi IPA-merkki on [ ] Tehtävä 2. (Wellsin 1990 sanakirjasta otettu ensimmäinen ääntämismuoto. Etenkin painottomissa tavuissa vokaalilaadun vaihtelua esiintyy niin, että [E], [I] ja [ E ] ovat toistensa vaihtoehtoja. Vaihtoehtojen olemassaolo merkitty "ym." ) machine [me"si n] heretical [he"retik E l] arena [E"ri ne] diplomacy [dip"leámesi] ym. javelin ["dzœvelin] parade [pe"reid] legitimate [li"dzitemeit] medicine ["meds E n] ym. parenthesis [pe"rentesis] ym. recipient [ri"sipient] secretary ["sekreteri] hypothesis [hai"påtesis] directory [di"rekteri] interpret [In"t prit] ascertain [œse"tein] beneficent [be"nefisent] heritage ["heritidz] paradise ["pœredais] Tehtävä 3. Pääsääntöisesti vokaalipäätteiset sanat ja konsonanttipäätteisistä -n, ja -s -loppuiset sanat saavat painon viimeistä edelliselle tavulle (ns. penultima-painotus). Muissa tapauksissa paino on viimeisellä tavulla (ns. ultima-painotus). Näissä tapauksissa painoa ei merkitä oikeinkirjoitukseen. Tapauksissa, jotka eivät noudata näitä sääntöjä, paino merkitään akuuttiaksentin merkillä (esim. <á, í>). Lisäksi (ei sisälly tehtävään) on huomattava, että ns. vahvat vokaalit (a, e, o) eivät muodosta [vokaalijonoa alkaessaan] diftongia ja kuuluvat näin ollen eri tavuihin (Sjögren ym. 1995: 259): correo 'posti', Bilbao. Sanan päättyessä diftongiin paino on viimeistä edellisellä tavulla (farmacia 'apteekki'). Vaikka sanaan lisätään monikon pääte, paino säilyy samalla tavulla kuin yksikössä (Kuokkanen-Kekki & Palmujoki 1995: 183): mesa : mesas 'pöytä : pöydät'; nación : naciones (aksenttimerkkiä ei monikossa) 'kansakunta'; ciudad : ciudades 'kaupunki'. Lisäksi on olemassa eräitä erikoistapauksia.

64 Fonetiikan merkitys kielenomaksumisessa ja -opetuksessa Antti Iivonen

LAPSEN PUHEENKEHITYKSEN ALKUVAIHEET 1 Antti Iivonen 1. Johdanto Lapsen puheen kehitys ennen varsinaisia sanoja mielletään usein epämääräiseksi vaiheeksi, johon on vaikea saada otetta. Viime aikojen tutkimus on paljastanut tästä kaudesta kuitenkin kiintoisaa järjestystä, ja foneettisin metodein on pystytty saamaan entistä tarkempi kuva lapsen varhaisista ääntelyistä. On havaittu myös selviä kielellisen kehityksen esimuotoja, jotka toisaalta voidaan yhdistää aikuiskieleen kunkin erityiskielen kannalta, toisaalta ihmiskunnan kielen ja puheenkehitykseen yleensä. Lapsen kielellinen kehitys määritellään usein alkavaksi ensimmäisten sanojen ilmaantumisesta. Perusteena on esitetty lapsen oivallusta siitä, että sanoilla on symbolifunktio: äänellisesti ilmaistavat sanat merkitsevät asioita ja viittaavat esim. esineisiin, joita ei ole lapsen välittömän havainnon ulottuvilla. Jean Piaget ilmaisi tätä lapsen siirtymisellä representationaaliseen kauteen, joka merkitsee semioottisen funktion ilmaantumista (Ginsburg & Opper 1979: 30; Leiwo 1986: 59). Sana on mentaalinen symboli, joka edustaa sellaista, mikä ei välttämättä ole puhehetkellä läsnä. Piaget'n mukaan kausi ei kuitenkaan ala sanoilla, jotka viittaisivat esineisiin vaan parhaillaan tapahtuviin toimintoihin (Ginsburg & Opper 1979: 78). Piaget tuntuu muutoinkin sijoittavan sanojen kauden kovin myöhäiseksi: lapsi alkaisi käyttää sanoja esineisiin viittaavassa merkityksessä vasta noin kahden vuoden iässä (mts. 79). Myös Roman Jakobson (1968) sijoitti lapsen kielellisen kehityksen alun ensimmäiseen sanaan. Hän nimitti kautta ennen ensimmäisiä sanoja esikielelliseksi kaudeksi vastakohtana kielelliselle kaudelle ("first genuine stage of language"; mts. 21). Tällä hetkellä näyttää olevan asianmukaisempaa puhua esileksikaalisesta kaudesta, jota seuraa protosanojen kausi (vrt. Iivonen 1994: 9). Esileksikaalisen kauden loppupuolella vauvalla on 1 Kirjoitus on kooste kahdesta aiemmasta julkaisusta: Iivonen 1993 ja 1994.

66 Lapsen puheenkehityksen alkuvaiheet Antti Iivonen siinä mielessä kielellisiä kykyjä, että hän mm. (1) pystyy ilmaisemaan kommunikatiivisia tarkoituksia, (2) erottamaan ja ymmärtämään aikuiskielen sanoja ja ilmauksia (eli tajuamaan vastaanotossa jo symbolifunktion) ja (3) on kehittänyt jokeltelussa sellaisia ääntöliikkeitä, joita voidaan pitää myöhemmin ilmaantuvien, lapsen äidinkielen mukaisten äänteiden ja tavujen protomuotoina tai esimuotoina ( precursors ; Clark & Clark 1977: 389; ks. myös Ingram 1989: 139). Esileksikaalinen kausi on erityiskielen kehityksen kannalta merkittävä siksi, että sen aikana lapsi omaksuu motorisia malleja, joiden varaan myöhempi artikulaatio perustuu. Erityiskielen mukaisia foneettisia piirteitä alkaa ilmaantua jo ennen ensimmäisiä sanoja, jos kohta lapsikohtaiset vaihtelut ovatkin ilmeisiä (vrt. Blake & de Boysson-Bardies 1992). Ensimmäisten sanojen ilmaantuminen on usein sijoitettu n. 10 12 kuukauden ikään (tutkimustietoja tästä ks. Ingram 1989: 140). Kun tätä ajoitusta verrataan e.m. Piaget'n käsitykseen, voidaan havaita melko suuri erimielisyys. Ratkaisu tähän tulkintaeroon löytynee juuri protosanojen käsitteestä: leksikaalinen kehitys alkaa monessa suhteessa aikuiskielen sanoista poikkeavilla protosanoilla, jonka jälkeen kehitys saa systemaattisemman luonteen. Näin voidaan erottaa toisiaan seuraavat (1) esileksikaalinen ja (2) protosanojen sekä (3) systemaattisen fonologisen kehityksen kaudet. Toisaalta leksikaalisen kehityksen alun määrittelyn vaikeus johtuu siitä, että sen kriteerit voivat olla hyvin erilaiset. Kriteereiksi voidaan valita lapsen kyky ymmärtää sanoja, sanojen tuotto tai sanojen muodon yhtäpitävyys aikuiskielen kanssa (asiasta enemmän alempana). 2. Esileksikaalisen kauden yleispiirteitä Lapsella on ennen varsinaisia sanoja kommunikatiivisia akteja (kuten kutsu, pyyntö, kielto, vastalause; Ninio 1992; käsitteestä aikuiskielen kannalta mm. Edmundson 1989). Näitä hän ilmaisee prosodian, asentojen, eleiden ja ilmeiden avulla. Vauvan prosodia koskee etenkin intonaatiota (melodiaa), äänen voimakkuutta ja ajoitusta. Ne liittyvät vauvan monipuolisesti hallitsemiin fonaatiotyyppeihin. Vauvalla on hallussaan siten jo pragmaattisia taitoja (Locke 1983). Toinen kysymys on, milloin ne alkavat intentionaalisessa mielessä ja miten ne kehittyvät. Larynksin käyttö biologisiin funktioihin on prosodian kommunikatiivisen käytön evolutiivinen edellytys. Varsinaiset artikulaatiotoiminnathan puuttuvat lapselta aluksi kokonaan. Kommunikatiivisen aktin käsite palautuu puheaktien tutkimuk-

Lapsen puheenkehityksen alkuvaiheet Antti Iivonen 67 seen, jonka perustajia ovat Austin ja Searle (Cohen 1974; ks. myös Searle et al. 1980). Merkittävänä tekijänä äänellisen kommunikatiivisen aktin ja refleksinomaisen äänentuoton välillä on taustalla oleva intentionaalisuus tai sen puuttuminen. Kummasta lapsen äänellisissä ilmauksissa on kyse, ei ole helppoa todeta, ja on naivia pitää intentioiden tunnistamista ongelmattomana. Useinhan aikuinen vain liittää intentionaalisuuden tulkinnan omassa mielessään vauvan ilmaisuun. Hän uskoo siis ymmärtävänsä vauvan ilmaisun tarkoituksen. Müller et al. (1974) totesivat, että vanhemmilla on suuria vaikeuksia tunnistaa 3 5-kuukautisten vauvojen kivun, nälän ja hämmästyksen ääntelyitä, jos kontekstivihjeet puuttuivat. Vähän myöhemmin, 7 8 kuukauden iässä pyynnön, tervehdyksen, nälän ja hämmästyksen ääntelyt ovat tunnistettavissa (Ricks 1975). Lasten tunneilmaisukaan ei ole valmiina olemassa, vaan siinäkin tapahtuu kehittymistä (Shimura et al. 1992). Lapsen intentionaalisuuden vastineena on aikuisen empatia: ilman sitä vuorovaikutus ei onnistuisi. Tässä ei ole mahdollisuutta paneutua syvällisesti intentionaalisuuden käsitteeseen, mutta muutama huomautus lienee paikallaan. Intentionaalisuutta ovat käsitelleet filosofiselta kannalta mm. Wilson (1980), kognitiiviselta kannalta Kamppinen (1989) ja lapsen kehityksen kannalta van der Stelt (1993: 89 124). Mahdollisesti termi on useassa eri käytössä ja siksi se olisi kussakin yhteydessä selitettävä. Tarkastelen merkitysselitystä esimerkin valossa. Aikuisen yskähdys voi olla (1) hengitysväylän refleksi tai (2) tahallinen huomion herättämisen signaali. Edelliselle tapaukselle (1) on olemassa kausaalinen fysiologinen selitys; yskähdyksellä ei pyritä mihinkään, vaan syy (esim. pölyn joutuminen kurkunpään limakalvoihin) ja seuraus (yskähdys) ovat kaksi fysiologisen maailman tapahtumaa, jotka synnyttävät tahattoman yskäisyrefleksin ja vastaavan akustisen ilmiön. Jälkimmäiselle (2) on ominaista tavoitteellisuus, teleologisuus (toisen henkilön huomion herättäminen). Tavoitteen saavuttamiseksi henkilö jäljittelee refleksisen yskähdyksen piirteitä ja saa aikaan aiotun akustisen signaalin ilman, että tavoitteen ja signaalin välillä olisi kausaalisuhdetta. Tavoitteellisuutta pidän mentaalisen maailman ilmiönä. Yskähdys voi olla myös toisen henkilön lausumaan kohdistettu ironinen huomautus (jonkun kehuessa itseään toinen voi yskähdyksellä ilmaista peiteltyä kritiikkiä). Tämänkaltaisiin non-verbaaleihin ilmauksiin liittyvä konventionaalisuus merkitsee, että kyseessä on jo ilmauksen symbolinen käyttö, ja se puolestaan edellyttää ilmauksen merkitystä ja korkean asteen tietoisuuden tilaa. Puhuttaessa vauvan kyvyistä ovat tavoitteellisuus, konventionaalisuus ja tietoisuus

68 Lapsen puheenkehityksen alkuvaiheet Antti Iivonen hankalia käsitteitä, eikä aikuisen ja vauvan ominaisuuksia voida näiden suhteen samaistaa. Kamppisen (1989: 469) mukaan kognitiviivisille tiedoille ja prosesseille on ominaista kohteeseen suuntautuneisuus, mikä juuri on intentionaalisuutta. Kamppinen ei nimenomaisesti tarkoita toiminnan tavoitteellisuutta vaan "mentaalisten representaatioiden eli psyykkisten edustusten merkityksiä". Hän käsittelee myös intentionaalisuuden erilaisia tulkintoja sekä myös intentionaalisuuden kausaalisia selityksiä. On aiheellista huomata, että kun Kamppiselle intentiot ovat siis mentaalisten edustusten merkityksiä, van der Steltille (1993) itse viestit ovat intentioita. van der Stelt (1993: 98) jakaa nimittäin intentiot visuaalisiin, auditiivisiin (audible) ja näiden kahden yhdistelmiin, ns. voimakkaisiin (intense) intentioihin. Visuaaliset intentiot määritellään äidin ja lapsen molemminpuolisen katseen aikana esiintyvien ilmeiden ja pään liikkeiden avulla. Auditiiviset intentiot välittyvät suun liikkeiden ja samanaikaisesti kuultavissa olevien äänten välityksellä. Sanojen symbolifunktion ja kommunikatiivisten aktien ilmaisupontentiaalin vertailu osoittaa, että jälkimmäiset avaavat mahdollisuuksia vain tietynlaisiin, hetkelliseen tilanteeseen liittyviin ilmaisutarpeisiin (vrt. Kuckenburg 1990: 40). Missä määrin nisäkkäät yleensä ovat tällaisessa viestinnässä samankaltaisia, lienee vielä epäselvää. Kissa voi ilmaista haluaan pyrkiä ulos menemällä istumaan oven ääreen ja naukaisemalla samalla tai tulla potentiaalisen ovenaukaisijan eteen ja naukua samanaikaisesti. Linnutkin varoittavat toisiaan vaarasta (eläinten kommunikaatiosta mm. Tavolga 1974; Kuckenburg 1990; Korhonen 1993). Symbolisen esitysmuodon avulla ihminen voi riippumattomana puhehetkestä kertoa menneisyyden tapahtumista, suunnitella tulevia tekoja ja ilmaista tietoisuutensa tiloja. Latinaan perustuvassa kirjoituksessamme ilmaistaan ensisijaisesti sanojen (vrt. sanat taivutusmuodoissaan, sanojen rajat) ja eräiden funktionaalisten yksiköiden (vrt. piste, pilkku, kysymysmerkki) ilmaisuun tarvittavia seikkoja. Prosodiaa ei sellaisenaan merkitä, vaikka kirjaintyyliä vaihtamalla esim. painotusta voidaankin ilmaista. Monet prosodian ilmaisemat kommunikatiiviset aktit, puhujan tunnetila ja asennoituminen jäävät merkintää vaille. Kirjoituksessa jätetään siis huomiota vaille juuri niitä aineksia vastaavat ilmaisupiirteet, joiden avulla vauva kommunikoi esileksikaalisella kaudella ja jotka myös tekevät aikuiskielisenkin puheen niin eläväksi. Sarjakuvissa pyritään jossakin määrin ilmaisemaan kirjainten typografisilla ominaisuuksilla puheen prosodisia vastineita.

Lapsen puheenkehityksen alkuvaiheet Antti Iivonen 69 3. Lapsen viestinnälliset ääntelymahdollisuudet esileksikaalisella kaudella Edellä viitattiin jo siihen, että lapsi ilmaisee itseään prosodian, asentojen, eleiden ja ilmeiden avulla. Seuraavassa tarkastellaan yleiskatsauksellisesti Koopmansin ja Steltin (1979, 1986) sekä Ollerin (1980, 1986) jaotteluiden mukaan, millaisia äänellisiä keinoja vauvalla on ennen sanoja (ks. myös Kent & Bauer 1985; Kent & Murray 1982). Kuvauksissa esiintyviä termejä ovat fonaatio, hengitysjakso, kvasi- ja täysresonanttinen vokaali, kurluttelu, kanoninen, varioiva ja marginaalijokellus. Näiden määrittely on aluksi paikallaan. 2 Koopmans & Stelt (1986) erottavat ennen ensimmäisiä sanoja seuraavat kaudet: I. Jatkuva fonaatio ilman artikulaatioliikettä. II. Yhden hengitysjakson aikana fonaation keskeytys ilman artikulaatioliikettä. III. Yhden hengitysjakson aikana yksi artikulaatioliike; samalla fonaatio voi olla joko jatkuva tai keskeytynyt. IV. Artikulaatioliikkeiden väheneminen, keskeytyvän fonaation lisääntyminen ilman artikulaatiota, monenlaisia intonaation, keston ja intensiteetin variaatioita. V. Saman artikulaatioliikkeen toisto yhden hengitysjakson aikana, samalla kun fonaatio voi olla joko jatkuvaa tai se voi keskeytyä välillä. Näitä seuraa sitten vaihe VI: merkityksellisten sanojen käytön alkaminen eli siirrytään jo leksikaaliselle kaudelle. Kaudella V aikuiskielen motoriset elementit ovat jo mukana alkeismuodoissaan, ja siksi on ymmärrettävää, että aikuiset alkavat tulkita tämän kauden ääntelyitä sanoiksi, joilla on merkitys. Ollerin (1980, 1986; ks. tarkemmin Iivonen 1991) kausijako poikkeaa jonkin verran edellisestä jaottelusta: 2 fonaatio, laryngaalisen äänen tuottaminen (ilmenee esim. pitkitetyn [a]-vokaalin tuotossa); hengitysjakso, yhden uloshengityksen muodostama jakso; täysresonanttinen vokaali, vokaali, joka muistuttaa jo aikuiskielen vokaalia, jossa on perustaajuus ja täysi sarja harmonisia yläsäveliä; kvasiresonanttinen, vokaali, joka on puutteellisempi akustisilta ominaisuuksiltaan; kurluttelu (engl. cooing), myös kutsuttu "kujerteluksi"; äänellinen leikittely kitapurjeen ja sen jatkeen kitakielekkeen avulla käyttäen Bernoullin efektiä; kanoninen, varioiva ja marginaalijokellus; "marginaali" viittaa jokelluksen "tavun" konsonanttiin (esim. ba); kanoninen jokellus tarkoittaa konsonantin ja vokaalin muodostaman "tavun" (KV) toistelua (ba-ba-ba); varioiva jokellus sisältää mutkikkaamman vokaali- ja konsonanttijonon (esim. biga-biga-biga).

70 Lapsen puheenkehityksen alkuvaiheet Antti Iivonen I. Fonaatiovaihe (kvasiresonanttinen ääntely); 0 1 kk. II. Kurluttelu (engl. cooing) 2 3 kk. III. Laajennusvaihe (useita erilaisia ääntelyn äärimuotoja, kuten täysresonanttinen vokaalimainen ydin, lärpätys, vinkuna, murina, huuto, ingressiivisen/eggressiivisen ilmavirran käyttö, marginaalijokellus); 4 6 kk. IV. Kanoninen jokellus; 7 10 kk. V. Varioiva jokellus; 11 12 kk. Kanonisen jokelluksen tyypillinen ilmaus koostuu reduplikatiivisesti KV-tavua muistuttavasta tuotoksesta (esim. bä-bä-bä). Varioivassa jokelluksessa on vaihtelevia vokaaleja ja konsonantteja (esim. beja-beja-beja). Jos yhdistämme esitetyn kahden jaottelun piirteitä, voimme todeta, että esikielellinen kehitys käsittää seuraavat keskeiset vaiheet: jatkuvan fonaation, sen keskeyttämisen ilman artikulaatioliikettä ja myöhemmin artikulaatioliikkeen avulla, kurluttelun, äänen ääriominaisuuksien (prosodian ja fonaatiotyyppien) kokeilun, kanonisen jokelluksen sekä tämän muuntumisen varioivaksi jokellukseksi. Esikielellisellä kaudella lapsi luo perusteet jo monille kielen ja puheen rakenteille. Hengitysjakso ja sen aikainen fonaatio ovat rytmijakson ja samalla intonaatiokontuurin alkeismalli. Jatkuvan fonaation keskeyttäminen jollakin sulkeumalla tai lähentymällä tuottaa konsonanttiartikulaation raakileen (esim. ätä, äwä). Fonaation monipuolinen vaihtelu sisältää puheen prosodian kokeilua. Artikulaatioliike, jossa "vokaalin" ja "konsonantin" kestosuhteet jo muistuttavat aikuiskieltä, on tavun prototyyppi (bä) ja tavutoistolla lapsi tavoittaa jo kaksitavuisen sanaraakileen (bäbä), vaikka se hänelle merkitsisikin kokonaista ilmausta. Vauvan ensimmäisen vuoden ilmaisumahdollisuudet ovat kauden loppuun mennessä ennen ensimmäisiä sanoja ilmaistavissa seuraavan kaavion avulla: ESILEKSIKAALISEN KAUDEN ÄÄNELLISET ILMAISUMAHDOLLISUUDET: Fonaatio (soinnillinen ääni; harmonisista osasävelistä koostuva spektri) Prosodia (intonaatio, äänen korkeuden modulaatio hengitysjakson aikana; puhevoimakkuuden vaihtelu ääripäästä toiseen) Äänenlaatu (fonaatiotyyppien hallinta; esim. narina, kuiskaus) Jokeltelun protoartikulaatio (glottaaliklusiili, prototavu, protovokaalit ja -konsonantit, äännerakenteeltaan varioiva tavu)

Lapsen puheenkehityksen alkuvaiheet Antti Iivonen 71 Missä määrin vauva pystyy tässä vaiheessa tunnistamaan ja ymmärtämään aikuiskielen sanoja ja ilmauksia lienee samoin vielä tarkkaan ottaen epäselvää, mutta vauva ymmärtää varmasti joitakin sanoja ja kokonaisia ilmauksia sekä aikuisen kommunikatiivisia akteja. Jokeltelussa lapsi kehittää puheen prosodisia alkeita (mm. rytmiä, intonaatiota, ajoitusta) sekä vokaalien ja konsonanttien protomuotoja (tarkemmin Iivonen 1991, 1993, 1994). 3. Lapsen fonologia Fonologia voidaan ymmärtää kahdella tavalla: se on erityiskielen äänteellinen järjestelmä eli se äänellinen "arkkitehtuuri", jonka mukaan puhetta muodostetaan tai se on kielitieteilijän luoma kuvaus tästä järjestelmästä. Huomattavaa on, että puhujina ja kuulijoina kohtaamme vain sanoja ja sanoista muodostettuja ilmauksia, emme siis koskaan fonologista järjestelmää. Voimme siis sanoa, että meille kielen syntagmaattinen ilmeneminen eli ilmausten ja niihin sisältyvien yksiköiden peräkkäisyys on meidän luontainen kielen kohtaamistapamme, kun taas paradigmaattinen rakenne on vieraampaa ja kauempana tietoisuuden fokuksesta ja se tulee erityisen tietoiseksi vasta kielitieteellisen kuvauksen kautta. Puheen tuotossa ja havaitsemisessa joudumme tekemään jatkuvasti ratkaisuja, joiden kohteena on foneemin kokoista yksikköä vastaava segmentti, ja siten tuollaisen äänteellisen ikkunan kohdalla joudumme ikäänkuin kurkistamaan siihen foneemi-inventaarin valikkoon, joka tuolla kohdalla on mahdollinen. Meillä voi olla fonologistakin tietoisuutta, mikä ilmenee mm. loppusoinnussa (kysyy/pysyy) tai alkusoinnussa (vaka vanha), ja lapsen fonologinen tietoisuus on myös kehittyvä kyky (vrt. Ponsila 1992). Aikuisen fonologiseen tietoisuuteen vaikuttavat vahvasti koulutus ja kirjoitus. Lapsen varhainen fonologinen kehitys on siis syytä nähdä toisaalta syntagmaattisena, toisaalta paradigmaattisena ilmiönä. Syntagmaattisuus koskee esim. sitä, miten lapsi yhdistelee äänteitä sanoiksi, paradigmaattisuus sitä, millaisista äänne-elementeistä yhtymät koostuvat ja millaista äännevalikoimaa lapsi käyttää. Foneemien omaksumisjärjestys on aina myös sidoksissa syntagmaattiseen kehitykseen, koska lapsen jokeltelunkin luontainen ilmaus on tavumainen (vrt. myös Suomi 1993). Ferguson ja Farwell (1975) korostavat, että lapsi ei ole omaksumassa fonologista järjestelmää vaan sanoja, ja siksi nämä vaikuttavat fonologiseen kehitykseen. He eivät myöskään yhdy Jakobsonin käsitykseen, että lapsi oppisi alkuvaiheessa fonologisia vastakohtia kuten konsonanttien kesken sanoissa

72 Lapsen puheenkehityksen alkuvaiheet Antti Iivonen /ba/ ja /da/ tai /ma/ ja /na/. He totesivat mm., että eräs lapsi käytti samassa merkityksessä muotoja, joissa [m] ja [n] vaihtelivat. Ingram (1976: 21) arvioi, että lapsen kontrastien taju ilmaantuu vasta puolentoista vuoden iässä ja viittaa samalla Piaget'n representationaalisen kauden alkuun. Voimme valaista asiaa myös seuraavasti. Kun puhumme muodosta on syytä erottaa muoto yleensä ja diskreetti muoto. Kun piirrämme paperille millaisen viivan tahansa, viivalla on jokin muoto. Diskreettiä (erillistä, muista erottuvaa) muotoa se edustaa, jos se identifioidaan jonkin (visuaalisen) merkkijärjestelmän yksiköksi. Lapsen fonologiassa ei ole ongelmatonta, mikä lapsen kannalta edustaa diskreettiä muotoa, mutta tämä periaatteellinen ero on syytä tiedostaa. Lapsen kannalta samaa muotoa voivat edustaa varhaisessa iässä esim. sanat [papa, pappa, baba, babba, apa, aba, pa, ba]. Diskreetti muoto edellyttää erityiskielen fonologisen järjestelmän olemassaoloa. On myös aiheellista todeta, että diskreetti muoto on lingvistisen fonologian yksi kulmakivi. Kielen ominaisuuksiin kuuluu kaksoisjäsennys: sanat (1) koostuvat diskreeteistä elementeistä (yleensä segmentaalisista foneemeista, mutta toonit ja kvantiteetti ovat useissa kielissä merkittäviä), mutta (2) vasta niiden yhdistelmällä, sanalla, on merkitys (termistä kielitieteellisenä käsitteenä ks. Karlsson 1994: 13; ihmiskielen synnyn ja kehityksen kannalta Korhonen 1993: 245, 292 ). Elementit voivat esiintyä toisessa kombinaatiossa toisissa sanoissa (vrt. kolme/melko). Lapselle ei aluksi valkene tuo kaksoisjäsennys, eikä lapsi siis tajua sanan koostuvan erillisistä äänteistä. Lapsi käyttelee sanaa holistisesti. Systemaattisen fonologian kauden alkaminen merkitsee sitä, että lapsi tajuaa diskreettien segmenttien olemassaolon ja käytön kielessä. Muutoin olisi vaikea ymmärtää, miksi lapsi alkaa oivaltaa miniparien eron (kuten sade/säde, savi/saavi, tuki/tukki). Segmenttien laadun ja keston hallinta tulee ennen pitkää myös morfologisten muotojen ja niihin liittyvien morfofonologisten vaihteluiden omaksumisessa merkittäväksi (kuten muotopareissa kissa/kissan, kukka/kukan, hiiri/hiiren; kala/ kalaa). Protosanojen kaudelle on myös ominaista, että lapsen ensimmäisten sanojen joukossa saattaa olla äänteellisesti hyvinkin lähellä aikuiskieltä olevia sanoja, jotka myöhemmin taantuvat heikommalle tasolle (Jakobson 1968: 23; Ferguson ja Farwell 1975). Kun ajattelemme kehitystä jatkumona, on myös nähtävä varhaisten sanojen ja niitä edeltävän jokelluksen yhteydet. Lisäksi on kiinnitettävä huomiota lapsen sanojen auditiivisiin representaatioihin, ja hänen omiin tuotoksiinsa (vrt. Clark & Clark 1977: 375,

Lapsen puheenkehityksen alkuvaiheet Antti Iivonen 73 384, 388; Suomi 1993). Lapsi ei tunnista kaikkia aikuiskielen sanojen rakenteita tarkasti. Tästä esimerkkinä Jakobson (1968: 23) mainitsee ranskalaisen pojan, joka ei erottanut iässä 1;4 toisistaan sanoja bateau 'laiva' ja baton keppi, sauva, vaan matki jälkimmäisen kuullessaan laivan pilliä osoittaen näin, ettei hän erottanut nasaali- ja oraalivokaalia toisistaan. Poika oli toisaalta jokelluksessa tuottanut nasaalivokaaleita. Luonnollisen fonologian mukainen tutkimus olettaa, että lapsi kuulee aikuisen ilmaukset fonologisesti korrektisti, mikä lienee väärä olettamus (tästä enemmän Iivonen 1993: 48). Auditiivisen ja motorisen tason kehitys puolestaan liittyy lapsen neuraalisen kypsymisen edellytyksiin ja rajoituksiin. Näistä enemmän jäljempänä. Jakobson (1968: 21) toteaa etenkin belgialaisen Grégoiren vuonna 1937 julkaisemiin tuloksiin vedoten, että jokeltelukaudella lapsi tuottaa kaikki mahdolliset äänteet ("is capable of producing all conceivable sounds"). Mowrer (1960) esitti samankaltaisen väitteen. Näin ollen äidinkielen äänteiden omaksuminen voisi olla eräänlaista inhibitiota eli muiden kuin äidinkielen äänteiden poistamista käytöstä vanhempien selektiivisen vahvistuksen avulla (vrt. Clark & Clark 1977: 389). Nykyisen tiedon valossa näyttää kuitenkin siltä, että jokelluksen äänteiden määrä vaihtelee eri lapsilla, mutta mukana on äänteitä, joita ei ole lapsen äidinkielen fonologiassa. Siitä, onko jokeltelussa toisaalta esim. [s]-äännettä, en ole nähnyt todistetta. Jos lapsi hallitsisi tässä iässä kaikki mahdolliset äänteet, se olisi myös vastoin motorisen kypsymisen käsitystä (tarkemmin jäljempänä). 4. Jokelluksesta sanoihin Lapsen ensimmäisen sanan toteaminen varmuudella on hankalaa. Tämä johtuu seuraavista syistä. Lapsi käyttää ilmausta, jonka aikuinen (esim. äiti tai isä) tunnistaa joksikin sanaksi ja joka sopii tilanteeseen, mutta jonka ominaisuudet eivät kuitenkaan täytä aikuiskielen sanan kriteereitä. Olen käsitellyt [tä, ätä, äitä, ättä, äittä] -tyyppisiä ilmauksia (merkitys = 'äiti'?) mahdollisen ensimmäisen sanan todisteina (Iivonen 1986, 1993: 42 43). Tulkinnan hankaluutena on, että lapsi käyttää samaa sanaa myös monista muista asioista. Itkosen (1977b: 280) pojalla sana tarkoitti vielä iässä 1;6 äidin lisäksi isää! Tämä lienee ymmärrettävissä niin, että [äiti] ja [itä, iti] ovat lähellä toisiaan ja molemmat voidaan tulkita [VtV]- artikulaatioksi eli yhdeksi dentaaliseksi artikulaatioliikkeeksi, joka käsittää avaumasulkeuma-avauma -vaiheet. Japaninkielisessä aineistossa lapsi tarkoitti sanalla papa paitsi

74 Lapsen puheenkehityksen alkuvaiheet Antti Iivonen isää ja äitiä (!) myös muitakin sukulaisia (Nakazima 1980: 273). Poikani E tarkoitti sanalla pepe ([E]= on tässä lavean keskivokaalin merkkinä) vielä iässä 1;8 pöllöä, pyörää, pulloa, paperia ja putoamista. Ongelmat koskevat siis sekä muodon että merkityksen pysyvyyttä lapsen kielessä. Vaikka jonakin ajankohtana voi tuntua siltä, että lapsi käyttää sanaa johdonmukaisesti aikuiskielen tavoin, hän voi vähän myöhemmin osoittaa epäjohdonmukaisuutta. Lisäksi ei aina käy selväksi, liittääkö lapsi ilmaukseen ylipäänsä mitään tarkoitusta, vai leikkiikö hän vain ilmauksilla. Jokelluksen ja "varsinaisten" sanojen erottaminen ei aina ole helppoa. Robb ja Bleile (1994) viittaavat tähän ongelmaan erottaen lapsen ääntelyissä (vocalizations) refleksiset ja ei-refleksiset ääntelyt. Ei-refleksiset ääntelyt he jakavat lisäksi sanoihin (glossable) ja muihin ilmauksiin (non-glossable). Lisäksi on huomattava, että mikäli hyväksymme ensimmäisen sanan ilmaantumisen sijoituksen kehityksen suhteellisen varhaiseen vaiheeseen, voi muodostua ongelma siitä, että lapsen seuraavien sanojen ilmaantumiseen kuluu huomattavan pitkä aika, kun voitaisiin olettaa, että lapsella olisi pian muitakin sanoja. Esim. E-pojallani [äittä]-sana esiintyi jo iässä 0;10 ja J-pojallani [äiti] samassa iässä. Kun toisaalta E:llä alkoi olla enemmän sanoja vasta 1-vuotiaana ja silloinkin niukasti, niin [äittä]- sanan leksikaalisen ilmaantumisen sijoittaminen mainittuun ikään on melko väkinäistä. Konsonanttien omaksumisjärjestys saadaan näyttämään erilaiselta riippuen siitä, mikä sana katsotaan lapsen ensimmäiseksi sanaksi. Jakobson (1968: 29) etsi esikielellisen ja kielellisen kauden erottelulle tukea Meumannin v. 1903 esittämästä käsityksestä, että näiden kausien välillä on lapsella ns. hiljainen, jopa mykkä vaihe. Vaikka Jakobson tunnustaakin jokeltelun ja kielellisen kauden limittymisen, hän toteaa Gutzmanniin vedoten, että pysyvät äänteet on huolellisesti erotettava katoavista jokelluksen äänteistä. Hiljaiselle vaiheelle ei kuitenkaan ole löytynyt ehdotonta näyttöä (Linell & Jennische 1980: 17). Tällöin ongelmaksi tulee mm. se, onko lapsi omaksunut esim. konsonantit p, t, k jo jokelluksessa, jossa ne kuulostavat samoilta kuin kielellisellä kaudella. Muistettakoon, että jokellus alkaa ennen protosanojen kautta ja jatkuu vielä sen yli fonologian systemaattiselle kaudelle asti (vrt. Hallé 1991). Ingram (1989: 139) esittää kuusi mahdollista sanan omaksumisen toteamiskriteeriä. Ääripäinä ovat seuraavat määrittelyt: (1) lapsi ymmärtää aikuiskielen sanan jossakin, vaikkakin vaihtelevassa merkityksessä ja (6) lapsi ymmärtää aikuiskielen sanan ja käyttää sitä

Lapsen puheenkehityksen alkuvaiheet Antti Iivonen 75 aikuisen tavoin sekä ääntää sen korrektisti. Näiden vaiheiden väliin jää sangen pitkä aika. Ingramin toinen määrittely viittaa jo suurempaan vakiintuneisuuteen: (2) lapsi ymmärtää aikuiskielen sanan suunnilleen aikuiskielen merkityksessä. Kolmas määrittely, joka koskee (3) lapsen ääntelyitä, joita lapsi käyttää vakiintuneessa kontekstissa, viittaa jo lapsen omaan tuottoon, mutta ei vaadi sitä, että sanalla on symbolifunktio tai että sana muistuttaa osittainkaan aikuissanan muotoa. Neljäs määritelmä sisältää jo yhteyden aikuiskieleen: (4) lapsi tuottaa aikuiskielen sanan vakiintuneessa kontekstissa. Viides määrittely yhdistää tuoton ja ymmärtämisen, mutta ei vaadi vielä korrektia ääntämistä: (5) lapsi ymmärtää aikuiskielen sanan ja käyttää sitä aikuisen tavoin. Saamme siis hyvin erilaisia aikamäärittelyitä aina sen mukaan, mitä määrittelyä sovellamme. 5. Protosanojen kausi Esileksikaalista kautta seuraava vaihe merkitsee protosanojen ilmaantumista, jonka jälkeen seuraa systemaattisen fonologian kausi. Protosanojen kausi sattuu ajallisesti lapsen toiseen ikävuoteen ja ehkä pikemminkin sen ensi puoliskolle (Ingramin mukaan noin ikään 1;6 asti; Ingram 1976: 17), mutta yksilölliset erot lienevät suuria. Bühlerin v. 1931 julkaiseman tilaston mukaan 46 lapsesta 29 omaksui ensimmäisen sanansa aikavälillä 0;8 1;0 (siteerattu Ingramin 1989: 140 mukaan). Protosanojen kauden loppupuolella lapsi hallitsee noin 50 sanaa (Ferguson & Farwell 1975; Ingram 1976: 17; Ferguson 1986; Ingram 1989: 143). Lapsella on siis protosanojen kaudella yksisanailmauksia, joilla hän viittaa esineisiin ja asioihin ja jotka voivat sisältää kokonaisten lauseiden merkityksiä, mistä ovat johtuneet vaihtoehtoiset käsitteet yksisanakausi ja holofrastinen kausi (Ingram 1976). Ilmauksilla on yhteistä vastaavien aikuiskielen sanojen rakenteiden kanssa. Eräs protosanojen kauden peruskysymys koskee ilmausten funktionaalista tasoa: edustavatko lapsen protosanat kommunikatiivisia akteja vai onko niissä jo aikuismainen leksikaalisen rakenteen funktio pääasiana. Jos lapsi tunnistaa jonkin esineen ja nimeää sen, mutta liittää ilmaukseen samalla haluamisen intention, niin kyseessä ei ole sanan puhdas leksikaalinen käyttö. Lapsen kielenomaksumisen merkkipaaluja lieneekin juuri aikuismaisen leksikaalisen funktion erkaantuminen holistisesta kommunikatiivisesta aktista. Muodon täsmentyminen ja funktion rajaantuminen käyvät siis käsi kädessä.

76 Lapsen puheenkehityksen alkuvaiheet Antti Iivonen Kauden alku ei ole siis kuitenkaan täsmällisesti osoitettavissa. Myöskään sen muuttuminen systemaattisen fonologian kaudeksi ei ole niin äkillinen, että jokin selvä kriteeri olisi sille osoitettavissa. Systemaattisen kauden osoituksena voidaan ehkä pitää seuraavia seikkoja: 1) lapsen oivallus sanojen koostumisesta diskreeteistä äännesegmenteistä vastakohtana kokonaisille sanahahmoille, 2) suhteellisen nopeaksi muuttuva konsonantti- ja vokaaliparadigman täsmentyminen, 3) lapsen äänteiden tunnistettavuuden paraneminen. Kun lapsi on käsitellyt varhemmin "sanoja" holistisina sensoris-motorisina malleina, hän alkaa oivaltaa niiden diskreetin rakenteen. Kirjallisuus Blake, J. & de Boysson-Bardies, B. (1992) Patterns in babbling: A cross-linguistic study. Journal of Child Language 19, 51 74. Blake, J. & Fink, R. (1987) Sound-meaning correspondences in babbling. Journal of Child Language 14, 229 253. Clark, H.H. & Clark, E. (1977) Psychology and Language. An Introduction to Psycholinguistics. New York: Harcourt Brace Jovanovich. Cohen, L.J. (1974) Speech Acts. T. Sebeok (toim.), Current Trends in Linguistics 12. The Hague: Mouton, 173 208. Davis, P.A., Williams, J.A., Vaughn-Cooke, A.F. & Wright-Harp, W. (1992-1993) A comparison of lexical development in a child with normal language development and in a child with language delay. National Student Speech Language Hearing Association Journal 20, 73 77. Edmundson, W. (1989) Spoken Discourse. A Model for Analysis. London: Longman. Ferguson, C.A. (1978) Learning to pronounce: The earliest stages of phonological development in the child. F. D. Minifie & L.L. Lloyd (toim.), Communicative and Cognitive Abilities Early Behavioral Assessment. Baltimore: University Park Press, 273 297. Ferguson, C.A. (1986) Discovering sound units and constructing sound systems: It's child's play. J. S. Perkell, & D.H. Klatt (toim.), Invariance and Variability in Speech Processes. Hillsdale, NJ: Lawrence Erlbaum Associates, 36 51. Ferguson, C.A. & Farwell, C. (1975) Words and sounds in early language acquisition: English initial consonants in the first 50 words. Language 51, 49 39. Ginsburg, H. & Opper, S. (1979) Piaget's Theory of Intellectual Development. 2. edition. Englewood Cliffs: Prentice Hall. Hallé, P.A. (1991) Japanese and French infants' vocalisations at the onset of first words: A comparison of phonetic and prosodic cues in disyllabic productions. Annual Bulletin of the Research Institute of Logopedics and Phoniatrics 25, 195 220. Iivonen, A. (1986) Lapsen fonologisen kehityksen tutkimusmetodiikka. M. Lehtihalmes & A. Klippi (toim.), Logopedis-foniatrinen tutkimus Suomessa. Suomen logopedis-foniatrisen yhdistyksen julkaisuja 19, 17 58. Iivonen, A. (1990) Lapsen fonologis-foneettinen kehitys: 1. Yleisiä näkökohtia. Suomen logopedisfoniatrinen aikauslehti 9 (2), 6 12.

Lapsen puheenkehityksen alkuvaiheet Antti Iivonen 77 Iivonen, A. (1991) Lapsen fonologis-foneettinen kehitys: 2) Ilmaustyyppien kehitys esikielellisellä kaudella. Suomen logopedis-foniatrinen aikauslehti 10 (1), 15 25. Iivonen, A. (1993) Paradigmaattisia ja syntagmaattisia näkökohtia lapsen foneettis-fonologisessa kehityksessä. A. Iivonen, A. Lieko & P. Korpilahti (toim.) Lapsen normaali ja poikkeava kielen kehitys, 34 77. Iivonen, A. (1994) Lapsen varhainen äänteellinen kehitys. Suomen logopedis-foniatrinen aikakauslehti 1, 5 19. Itkonen, T. (1977a) Lapsen kielenoppiminen. R. Korhonen, K. Mäkinen & J. Rikama (toim.), Lukion äidinkieli 3. Helsinki: WSOY, 13 40. Itkonen, T. (1977b) Huomioita lapsen äänteistön kehityksestä. Virittäjä 81, 279 308. Jakobson, R. (1968) Child Language, Aphasia, and Phonological Universals. (Kääntäjä Allan R. Keiler.) The Hague: Mouton. (Alkuperäisteos: Kindersprache, Aphasie und allgemeine Lautgesetze. Uppsala 1941.) Ingram, D. (1976) Phonological Disability in Children. London: Edward Arnold. Ingram, D. (1989) First Language Acquisition. Method, Description, and Explanation. Cambridge: Cambridge University Press. Karlsson, F. (1994) Yleinen kielitiede. Helsinki: Yliopistopaino. Kent, R. & Bauer, H.R. (1985) Vocalizations of one-year-olds. Journal of Child Language 12, 491 526. Kent, R.D. & Murray, A.D. (1982) Acoustic features of infant vocalic utterances at 3, 6, and 9 months. Journal of the Acoustical Society of America 72, 353 365. Koopmans-van Beinum, F. & van der Stelt, J.M. (1979) Early stages in infant speech development. Proceedings of the Institute of Phonetic Sciences, University of Amsterdam 5, 30 43. Koopmans-van Beinum, F.J. & van der Stelt, J.M. (1986) Early stages in the development of speech movements. B. Lindblom & R. Zetterström (toim.), 1986, 37 50. Korhonen, M. (1993) Kielen synty. Helsinki: WSOY. Kuckenburg, M. (1990) Die Entstehung von Sprache und Schrift. 2. Auflage (1. Aufl. 1989). Köln: DuMont Buchverlag. Leiwo, M. (1986) Lapsen kielen kehitys. Toinen, uudistettu painos (1. painos 1979). Helsinki: Gaudeamus. Linell, P. & Jennische, M. (1980) Barns uttalsutveckling. Lund: Liber. Matschke, R.G. (1993) Hört der Mensch vor der Geburt? Neuere Erkenntnisse zur Reifung der menschlichen Hörbahn. Sprache Stimme Gehör 17, 158 163. Mowrer, O.H. (1960) Learning Theory and Symbolic Processes. New York: John Wiley & Sons. Müller, E., Hollien, H., Murry, T. (1974) Perceptual responses to infant crying: Identification of cry types. Journal of Child Language 1, 89 95. Nakazima, S. (1980) The reorganization process of babbling. T. Murry & J. Murry (toim.), Infant Communication: Cry and Early Speech. Houston, TX: College-Hill Press, 272 283. Ninio, A. (1992) The relation of children's single word utterances to single word utterances in the input. Journal of Child Language 19, 87 110. Oller, D.K. (1980) The emergence of the sounds of speech in infancy. Yeni-Komshian, Kavanaugh & Ferguson (toim.), 1980, 93 112. Oller, D.K. (1986) Metaphonology and infant vocalizations. B. Lindblom & R. Zetterström (toim.), 1986, 21 35. Ponsila, M-L. (1992) Fonologinen tietoisuus ja sen yhteys oikeinkirjoitustaidon kehittymiseen ensimmäisen kouluvuoden aikana. Pro gradu -tutkielma. Helsingin yliopiston fonetiikan laitos. Ricks, D.M. (1975) Vocal communication in preverbal normal and autistic children. N. O'Connor

78 Lapsen puheenkehityksen alkuvaiheet Antti Iivonen (toim.), Language, Cognitive Deficits, and Retardation. London: Butterworth, 75 80. Robb, M.P. & Bleile, K.M. (1994) Consonant inventories of young children from 8 to 25 months. Clinical Linguistics & Phonetics 8, 295 320. Searle, J., Kiefer, F. & Bierwisch, M. (toim.)(1980) Speech Act Theory and Pragmatics. Dordrecht: Reidel. Shimura, I., Imaizumi, S. & Shutou, T. (1992) Perceptual evaluation of emotional aspects of infants vocalizations. Annual Bulletin of the Research Institute of Logopedics and Phoniatrics (RILP) 26, University of Tokyo, 87 96. van der Stelt, J.M. (1993) Finally a Word. A Sensori-Motor Approach of the Mother-Infant System in its Development towards Speech. Studies in Language and Language Use 4. Amsterdam: IFOTT. Suomi, K. (1993) An outline of a developmental model of adult phonological organization and behaviour. Journal of Phonetics 21, 29 60. Tavolga, W. (1974) Bio-acoustics. New York: Pergamon Press. Wilson, G.M. (1980) The Intentionality of Human Action. (Acta philosophica Fennica 31.) Amsterdam: North-Holland.

PUHESYNTEESI JA PROSODIAN MALLINTAMINEN Martti Vainio 1 Yleistä Puhuvat ja puheen avulla toimivat käyttöliittymät ovat nykyisen tietoteknologian tärkeimpiä kehitysalueita. Lukija on varmaan jo tässä vaiheessa tullut vakuutetuksi puheen tärkeydestä ihmisen kommunikoinnissa. On siis luonnollista, että ihminen haluaa kommunikoida puheen ja kielen avulla myös toimiessaan erilaisten laitteiden kanssa olivat ne sitten leivänpaahtimia tai autoja. Puhe- ja kieliteknologian keskeisimpiä ongelmia on kielellisen ja diskreetin (tai epäjatkuvan) informaation yhdistäminen puheen jatkuvaan ja luokittelua kaihtavaan akustiseen realisaatioon. Vaikka puhe on fenomenologisesti selkeistä yksiköistä äänteistä, sanoista ja lauseista koostuvaa, ei se sitä instrumentaalisesti tarkasteltuna ole. Vaikka ongelma kärjistyykin puheen automaattisen tunnistamisen puolella, ei siltä millään tavalla vältytä tuotettaessa puhetta synteettisesti. Synteettinen puhe on edennyt valtavia harppauksia laadullisesti viimeisen puolivuosisadan aikana. Silti synteettisen puheen laatu luonnolliseen puhujaan verrattuna on vielä lapsenkengissään. Kuuntelijaa voidaan erilaisissa tilanteissa huijata kuvittelemaan, että kysymyksessä on oikea puhuja esim. puhelinpalveluissa tai erilaisissa julkisten paikkojen kuulutusjärjestelmissä, joissa yleisesti käytetään nauhoitettua puhetta. Tällaisen järjestelmän kutsuminen synteesijärjestelmäksi liikkuukin jo sillä hämärällä rajamaalla, jossa erojen tekeminen on hyvin vaikeaa. Yritän tässä luvussa selittää, mihin erojen tekeminen yleisesti nojaa. Puhesynteesi terminä on jo moniselitteinen. Yleisesti sillä tarkoitetaan kokonaisia järjestelmiä, jotka tuottavat puhetta (yleensä) niihin syötetystä tekstistä. Tarkemmin sanottuna tällöin ovat kysymyksessä ns. tekstistä-puheeksi -järjestelmät tai -syntetisaattorit (engl. Text- To-Speech, TTS). Alun perin puhesynteesillä tarkoitettiin järjestelmiä, joilla voitiin tuottaa

80 Puhesynteesi ja prosodian mallintaminen Martti Vainio puheen kaltaista signaalia pelkästään foneettisista merkinnöistä korkeintaan symbolisista äännejonoista, mutta yleisemmin esim. erilaisista parametriarvoista. Niin sanottu sääntösynteesi, (engl. synthesis by rule) tuli käyttöön vasta 1960-luvulla. TTS-järjestelmät perustuvat yleisesti sääntösynteesiin. Toisin sanoen järjestelmissä on jossain vaiheessa selkeitä loogisia sääntöjä siitä huolimatta, että nykyisissä järjestelmissä hyödynnetään hyvin paljon tilastollisia malleja. Puhesynteesiä on signaalintuottomielessä useita eri lajeja, joista tässä esityksessä keskitytään kahteen; ns. terminaalianalogiaan, jossa mallinnetaan ääniväylän siirtofunktiota, ja konkatenaatiosynteesiin, jossa valmiiksi tallennettuja, sanaa pienempiä, puheen osia kootaan peräkkäin ja manipuloidaan tarpeen mukaan synteettistä puhetta tuotettaessa. 2 Äänteistä puheeksi Tässä luvussa kuvataan niitä tapoja, joilla foneettisesta syötteestä voidaan tuottaa synteettistä puhesignaalia. 2.1 Puheentuoton akustinen teoria Suurin harppaus puhesynteesin alalla tapahtui 1950-luvulla, jolloin muotoiltiin puheentuoton akustinen teoria, jonka Gunnar Fant esitti v. 1960 julkaistussa väitöskirjassaan (Fant, 1960). Teoria perustuu olettamukseen, että puheentuotossa voidaan erottaa äänilähde ja ääntä suodattava osa toisistaan. Yleisesti lähteenä on äänihuuliraossa syntyvä ns. glottispulssien jono ja suotimena ylempi ääntöväylä. Frikatiiveja ja klusiilien eksploosiohälyjä tuotettaessa äänilähde kuitenkin sijaitsee itse väylässä. 2.2 Ääniväylän siirtofunktion mallit Ääniväylän siirtofunktion malleja kutsutaan usein terminaalianalogiaksi ja signaalin tuoton malleja formanttisyntetisaattoreiksi johtuen siitä, että niiden tärkeimmät rakenneosat ovat ns. resonaattorit, joilla tuotetaan formantteja. Formantti, kuten muistamme, on nimenomaan ääniväylän siirtofunktion resonanssi. Puheen havaitsemisesta tiedämme, että puheen ymmär-

Puhesynteesi ja prosodian mallintaminen Martti Vainio 81 1 60 0 Sound pressure level (db/hz) 40 20 0.9898 0.0001 0.01 Time (s) 0 0 11025 Frequency (Hz) Kuva 1: Vaimentuva siniaalto ja sen spektri. Formanttisynteesin resonaattorin ns. impulssivaste vastaa kuvan spektrin muotoa. Siihen syötetyn impulssin tuote on vaimeneva aalto jonka taajuuteen voidaan vaikuttaa resonaattorin keskitaajuutta muuttamalla; vaimeneminen määräytyy resonaattorin kaistanleveyden mukaan mitä kapeampi resonanssi, sitä hitaampaa vaimeneminen. rettävyyden kannalta kaksi ensimmäistä formanttia ovat kaikkein tärkeimmät. Ensimmäisissä formanttisyntetisaattoreissa olikin vain kaksi formanttia kun niitä nykyisissä malleissa on yleensä viisi tai kuusi. Kuvassa 1 on vaimentunut siniaalto (vasen puoli) sekä siitä laskettu jatkuva spektri. Synteesin resonaattoreihin kuva vertautuu sillä tavoin, että spektriä vastaavilla arvoilla synteesin resonaattori tuottaa yhdestä impulssista kuvan kaltaisen vaimenevan aallon. Puheessa kaikki soinnilliset äänteet koostuvat tällaisista vaimenevista aalloista, jotka summautuvat päällekkäin ja muodostavat jonon vaimenevia pulsseja. Näiden pulssien etäisyys toisistaan ajassa vastaa tällöin puheen perustaajuutta, josta koostuu ilmauksen havaittu melodia ja intonaatio. Jokaisen pulssin spektraalinen muoto siis sen komponenttien tuottama hahmo vastaa jotain äännettä tai siirtymää kahden äänteen välillä. Spektraalisen hahmon huippujen, formanttien, siirtymät ajassa taas tuottavat puheeseen sen tärkeän dynaamisen informaation, jonka avulla äänteet tunnistetaan puheen jatkuvasta virrasta. Formanttisyntetisaattorit eroavat toisistaan eniten siinä, miten eri resonaattorit on kytket-

82 Puhesynteesi ja prosodian mallintaminen Martti Vainio ty toisiinsa. Ne voidaan kytkeä sarjaan, jolloin edellisen resonaattorin tulos syötetään suoraan seuraavalle tai ne voidaan kytkeä rinnan ja eri resonaattorien tulos voidaan summata jälkikäteen. Sarjaan kytketyt resonaattorit muistuttavat enemmän ääniväylän toimintaa, mutta niiden arvojen säätäminen on vaikeampaa. Rinnan kytkettäessä joudutaan säätämään resonaattorien arvoja enemmän, mutta lopputuloksen kontrollointi on helpompaa. Kuvassa 2 on esitetty tyypillinen formanttisyntetisaattori, jossa soinnillisen äänilähteen (impulse train - glottal filter = impulssijono ja glottaalinen suodin) tai soinnittoman äänilähteen tuottama kohinasignaali (random numbers - LP filter = satunnaislukujono ja alipäästösuodatus, jossa suotimesta päästetään läpi vain matalat taajuudet) suodatetaan joko rinnan (pystyrivi R1- R6 kytketyissä resonaattoreissa, jolloin myös resonaattorien kaistanleveydet (A1-A6) joudutaan määrittelemään, tai sarjaan kytketyissä resonaattoreissa (vaakarivi RN-R5). Suodatuksen jälkeen eri piireistä tulevat signaalit summataan yhteen lopulliseksi äänisignaaliksi. Äänilähteenä voi toimia siis ns. glottismalli tuottamassa soinnillisia äänteitä kuten vokaaleja tai kohinageneraattori, jolla tuotetaan esim. frikatiiveja. Huomaa, että eri äänilähteet voidaan yhdistää esim. soinnillisten frikatiivien tuottamiseksi. Sellaisenaan formanttisyntetisaattori tuottaa vain yhtä ääntä kerrallaan ja jatkuvaa puhetta tuotettaessa sen parametreja täytyy säätää artikulaation aiheuttamien muutosten kaltaisesti. Yleensä se tapahtuu siten, että parametriarvoja päivitetään kymmenen millisekunnin välein. Alkuperäiset äännekohtaiset arvot ovat yleensä taulukoituina ja järjestelmän sääntökomponentti huolehtii siitä, että formanttiarvot kulkevat oikein äänteiden välillä. Monimutkaisuutta järjestelmiin tuottaa ns. koartikulaatio ja se, että äänteet reaalistuvat eri tavoin eri äänteiden ympäristössä. Esim. huulten ns. antisipatorinen pyöristys pyöreitä vokaaleja edeltävien konsonanttien aikana täytyy mallintaa sääntöjen avulla esim. laskemalla kolmannen formantin arvoa etukäteen. 2.3 Tallennettu puhe Canned speech Edellä kuvattiin puheentuottomalli, jossa kaikki signaalin osat tuotetaan alusta lähtien synteettisesti. Useimmissa nykyisissä synteesijärjestelmissä käytetään kuitenkin valmiiksi tallennettua puhetta synteesin pohjana. Tallennetut yksiköt vaihtelevat paljon eri tyyppisten synteesien välillä. Tallennettuun puheeseen perustuvat järjestelmät ovat jossain mielessä vanhimpia

Puhesynteesi ja prosodian mallintaminen Martti Vainio 83 RN ZN R1 R2 R3 R4 R5 cascade A1 R1 impulse train random numbers glottal filter LP filter parallel A2 A3 A4 A5 R2 R3 R4 R5 + preempasis synthetic speech output A6 R6 Kuva 2: Klatt -formanttisyntetisaattorin rakenne. synteesijärjestelmiä, joiden avulla on tehty neiti aika -tyyppisiä palveluja jo 1920-luvulta saakka. Nykyisissä järjestelmissä pyritään kuitenkin rajattomaan sanastoon siis sellaisiin syntetisaattoreihin, jotka pystyvät puhumaan minkä tahansa niille annetun lauseen. Niillä täytyy siis olla sellaisia yksiköitä muistissaan, joista voidaan koostaa täysin uusia ilmauksia. Synteesitapaa, jossa puhe kootaan pieniä yksiköitä peräkkäin asettelemalla kutsutaan konkatenaatioksi. 2.4 Konkatenaatiosynteesi Tyypillisesti konkatenaatiosynteesijärjestelmissä käytetään yksikköinä joko äänteitä tai ns. difoneja. Difonit ovat kahden äänteen välisiä akustisia kappaleita, jotka alkavat edellisen äänteen keskeltä ja loppuvat seuraavan äänteen keskelle. Siten niihin on tallentunut juuri ne vaikeasti mallinnettavat muutokset, joiden avulla suurin osa puheen sisältämästä äänteellisestä informaatiosta havaitaan. Difoneja kielessä on siten äänteiden määrän toinen potenssi; periaatteessa jokainen äänne voi seurata jokaista äännettä. Esim. suomessa difonien lukumäärä

84 Puhesynteesi ja prosodian mallintaminen Martti Vainio Kuva 3: Difonit sanalle takka. Huomaa, että tauon ja soinnittoman klusiilin tuottama difoni ei sisällä mitään. on 26 26 4 = 672 jos oletetaan, että suomessa on 25 äännettä. 26. äänne on tauko ja 4 tulee siitä, että kahden tauon tuottama sekä tauon ja soinnitoman klusiilin tuottamat difonit eivät ole mielekkäitä (ks. Kuva 3). Kielen ns. fonotaktiset rajoitteet tietenkin estävät kaikkien äänteiden vierekkäisyyden, mutta jos otamme huomioon sanojen rajat ja vierasperäiset sanat, voimme olettaa, että melkein kaikki kombinaatiot tulevat käyttöön jossain vaiheessa synteesin elinkaarta. Edellä olevassa luvussa on oletettu, että suomen äänteiden kestoasteet voidaan mallintaa samoilla difoneilla. Difonikonkatenaation etuja ovat sen muokkautuvaisuus prosodisesti (ks. luku 4) ja pienehkö koko; muutamalla sadalla näytteellä voidaan tuottaa rajaton määrä erilaisia ilmauksia. Kuvassa 3 on kuvattu erillään ilmaistun (siis taukojen rajaamaan) takka -sanan tuottamat difonit. Toinen nykyisin yleinen tapa tehdä konkatenaatiota on ns. yksikönvalintasynteesi (engl. unit selection), jossa puhe tuotetaan yhdistämällä mielivaltaisen kokoisia tallennettuja puheen osia erilaisten kriteerien ja sopivuuslaskelmien mukaan. Puheen osat voivat olla puolikkaista äänteistä kokonaisiin sanoihin tai lausekkeisiin riippuen tallennetun tietokannan sisällöstä, koosta ja tuotetun puheen suhteesta niihin. Yksikönvalinnassa ei leikkaa-liimaa vaiheen jälkeen tehdä minkäänlaista prosessointia, vaan oletuksena on se, että järjestelmä on valinnut oikeanlaiset yksiköt myös prosodisesti sopiviksi; usein ehdotusta perustaajuudesta ja äännekestoista käytetään yksikönvalinnan apuna. Parhaimmillaan tällaiset synteesit ovat täysin luonnolliselta kuulostavia, mutta huonoimmillaan täysin kelvottomia. Myös niiden vaatima tallennustila on valtava verrattuna esim. difoneihin. Kuvassa 4 on esitetty kuinka sana takka voidaan muodostaa yhdistämällä parhaat ehdokkaat tietokannasta peräkkäin. Yleensä ehdokkaat on ensin ryhmitelty foneettisen sopivuuden perusteella, jon-

Puhesynteesi ja prosodian mallintaminen Martti Vainio 85 Kuva 4: Unit selection synteesin äänne-ehdokkaita sanalle takka. Lopullinen äännejono valitaan ns. foneettisesti sopivista vaihtoehdoista (pystyrivit) parhaan yhteensopivuuden mukaan (yksiköitä yhdistävät viivat). ka jälkeen joukolle lasketaan ns. konkatenaatiohinta, joka alhaisimmillaan tuottaa vähiten kuultavia epäjatkuvuuksia puheeseen. 3 Tekstistä puheeksi Yleensä prosessi tekstistä puheeksi on modulaarinen; ensin teksti pätkitään sanan tapaisiksi yksiköiksi ja lyhenteet sekä numerot lavennetaan sanoiksi. Lavennuksen jälkeen sanat analysoidaan mahdollisimman hyvin lingvistisesti ja lopuksi muunnetaan äänteelliseen muotoon. Samalla rakennettavalle ilmaukselle haetaan rytminen hahmo sanapainojen muodossa sekä melodinen hahmo ennustamalla, mitkä sanoista aksentuoidaan melodisesti. Foneettisesti kiinnostavaa TTS-järjestelmissä on kuitenkin vain prosodian mallinnus sekä signaalin generointi, joten lingvistinen analyysi jää tämän esityksen ulkopuolelle.

86 Puhesynteesi ja prosodian mallintaminen Martti Vainio 4 Prosodian mallinnus keinotekoisilla hermoverkoilla Tässä luvussa esittelen prosodiaa käsittelevää tutkimusta, jossa on mallinnettu suomen prosodiaa kolmen eri parametrin suhteen puhesynteesiä varten (Vainio, 2001). Nämä kolme parametria ovat äännekestot, äänekkyys ja äänen korkeus tai perustaajuus. Yhdessä ne vastaavat puheen intonaatiosta, painotuksesta ja rytmistä. Edellä mainitut akustisesti mitattavat parametrit vaihtelevat niin lauseen, sanan kuin äänteenkin tasolla ja kaikki variaatio on syytä koota malleihin, jotta puhesynteesi ei kuulostaisi mekaaniselta ja monotoniselta. Toisaalta malleihin kerätty tieto lisää tietoamme puheesta yleisesti. Prosodinen vaihtelu on samankaltaista muun kielellisen vaihtelun kanssa siinä mielessä, että siinä yhdistyvät äärimmäisen yleiset ja äärimmäisen harvinaiset ilmiöt. Toisin sanoen äärimmäisen harvinaiset yksittäiset ilmiöt ilmenevät joukkona äärimmäisen usein. Jokainen lause siis sisältää niin yleisiä kuin harvinaisiakin asioita siinä määrin, että jos halutaan tilastollista kattavuutta, tarvitaan valtavia määriä dataa. Tällaiseen ei useimmiten ole mahdollisuuksia ja datan aukkoja täyttämään tarvitaan malleja, jotka pystyvät yleistämään. Intonaatio ja äännekestot ovat kautta aikojen olleet foneettisen tutkimuksen ja puheteknologian tärkeitä tutkimus- ja mallinnuskohteita. Äänekkyyden tutkimus on kuitenkin jäänyt paljon vähemmälle. Vielä vähemmän on tutkittu näiden eri prosodisten parametrien yhteisvaikutusta ja vuorovaikutusta. Oman tutkimuksemme yksi peruslähtökohta on tutkia kaikkia näitä parametreja samanaikaisesti samanlaisin metodein. Keinotekoiset hermoverkot tunnetaan kyvyistään yleistää ja toisaalta kyvyistään erotella ja luokitella ilmiöitä, jotka ovat epälineaarisessa suhteessa toisiinsa ja niitä määrääviin tekijöihin. Näin ollen ne täyttävät molemmat edellä esille tulleet kriteerit; ts. ne soveltuvat kaikkien prosodisten parametrien mallinnukseen tasavertaisesti ja toisaalta ne pystyvät yleistämään ja täyttämään aukkoja datassa. Hermoverkot ovat oppivia järjestelmiä ja niiden opetus vaatii melkoisia määriä dataa. Käyttämämme verkot ovat ns. monitasoisia perseptroneja ja niiden oppiminen on ohjattua ts. niille annettu data täytyy käsitellä ennen opetusta. Käsittelyllä tässä tarkoitetaan mm. äännesegmenttien erottamista toisistaan puhevirrassa ja niiden merkitsemistä. Toisaalta intonaation kulku on riippuvainen myös lauseen sisäisestä, kieliopillisesta rakenteesta. Myös

Puhesynteesi ja prosodian mallintaminen Martti Vainio 87 tämä täytyy verkolle erikseen kertoa, jotta se voisi oppia tuottamaan erilaiset ilmiöt siinä vaiheessa kun se toimii syntetisaattorin osana. Opetusdatana olemme käyttäneet Teknillisen korkeakoulun Akustiikan laboratorion kanssa yhteistyössä kerättyä suomen kielen puhetietokantaa ja Akustiikan laboratoriossa kehitettyä signaalin analysointiohjelmistoa (Karjalainen et al., 1988; Altosaar, 2001). Miten siis voimme kuroa umpeen symbolien diskreetin ja signaalien jatkuvan maailman? Seuraavassa yritän hiukan yksityiskohtaisemmin hahmotella yhtä tapaa ratkaista tätä ongelmaa. 4.1 Hermoverkkojen arkkitehtuuri ja datan koodaus Hermoverkot ovat matemaattisia malleja ja vaativat näin ollen numeerista tietoa käsiteltäväkseen. Yksi tapa tuottaa symbolisesta tiedosta jatkuvaa on koodata se sellaiseen numeeriseen muotoon, että hermoverkko sitä ymmärtää. Mutta ensin lienee paikallaan hiukan kuvailla keinotekoisen hermoverkon rakennetta. Keinotekoiset hermoverkot koostuvat ns. neuroneista jotka on järjestelty eri kerroksiin. Neuroneja yhdistävät toisiinsa kytkennät (weights), joiden kertoimien löytäminen on verkon oppimisen ydin. Neuroneja itseään voidaan pitää malleina luonnollisista hermoista, jolloin painokertoimet (kytkennät) kuvaavat hermojen synaptisia yhteyksiä. Neuronit on toisaalta järjestetty kerroksittain siten, että ylimpänä (tässä tapauksessa) on ns. syöte-kerros (input layer), jonka neuronien kautta koodattu data syötetään verkolle. Sen alapuolella on nolla, yksi tai useampi piilotettu kerros (hidden layer) ja viimeisenä ns. vastekerros (output layer). Kaikkien kerroksien sisältämien neuronien lukumäärä riippuu mallinnettavan kohteen monimutkaisuudesta ja määräytyy siten tarpeen mukaan usein yrityksen ja erehdyksen kautta. Käyttämämme MLP:t (multi-layer perceptron) käyttävät oppimiseen ns. virheen takaisinsyöttöä (error back-propagation), jossa verkon tuottaman tuloksen ja ns. tavoitearvon (target value) välinen erotus syötetään takaisin verkkoon. Oppiminen tapahtuu siten virheen korjaamisen kautta ja sitä jatketaan yleensä niin kauan, että virhe joko häviää tai ei enää merkityksellisesti pienene. Kuvassa 5 on esitetty sekä hermoverkon rakenne että tapa koodata prosodiaan vaikuttavaa informaatiota verkon syötteeksi. Tuloksena on joukko verkkoja, jotka ovat kaikki jollain ta-

88 Puhesynteesi ja prosodian mallintaminen Martti Vainio takassakin Text string Input Phoneme string Coding C. Ṿ stop. a BV. f r i c : Ṿ C. place in word = 4 length of word = 9 place in phoneme = 8 Input vector [.8.4.2.4 1.0.4.2.1.4.8.8.2.4.8.4.879.375.810] Input layer Neural Network Output: coded F0 coded loudness or log of duration Hidden layer Output layer Kuva 5: Hermoverkkomalli prosodiaa varten: ylin laatikko esittää symbolisen datan koodausta, keskimmäinen laatikko hermoverkon rakennetta ja alin laatikko signaalista laskettuja maaliarvoja. Opetusvaiheessa verkon ja datasta laskettujen maaliarvojen välinen virhe pyritään minimoimaan. Käytettäessä verkkoa tuottamiseen ei dataa tarvita, vaan tekstistä laskettu syöte riittää. voin erikoistuneet tuottamaan eri prosodisia parametreja eri kuvaustasolla. Periaatteessa olisi mahdollista rakentaa yksi valtavan suuri verkko, joka mallintaisi koko ongelmakentän yhdellä kertaa, mutta käytännössä erikoistumisella päästään parempaan tulokseen. Esim. pelkästään sanatason äännekestojen mallinnus vaatii optimaalisessa tapauksessa kuusitoista verkkoa, jotka ovat kaikki erikoistuneen mallintamaan jotain tiettyä äännettä tai pientä joukkoa äänteitä (ks. Kuva 6).

Puhesynteesi ja prosodian mallintaminen Martti Vainio 89 Short Phones 18.1% Short Vowels 12.0% Vowels 13.8 % Long Vowels 7.3% All Phones 16.9% Consonants 19.5 % Short Consonants 18.5 % Stops 12.5 % Nasals 19.5 % Fricatives 14.0 % Short 13.0 % Long 5.0 % Short 17.8 % Long 8.5 % Short 14.2 % Long 10.4 % Long Phones 7.7% Semivowels 21.1% Long Consonants 11.0 % Short 19.7% Long 10.6% Kuva 6: Sanatasolla toimivien, eri äänneryhmille erikoistuneiden verkkojen keskimääräiset virheet. Huomaa, että erikoistuminen pienentää virhettä. Mitä on siis se informaatio jota verkko voi puheen symbolisesta rakenteesta käyttää hyväkseen? Yleisesti voidaan sanoa, että sellaista on kaikki informaatio, jonka on foneettisessa tutkimuksessa todettu vaikuttavan prosodiaan. Seuraavassa on lueteltu joitain sellaisia tekijöitä, jotka vaikuttavat kaikkien prosodisten piirteiden käyttäytymiseen jollain tasolla. Jokainen näistä piirteistä voidaan helpohkosti laskea äännejonoista, jotka ovat toisaalta suoraviivaisesti laskettavissa kirjoitetusta tekstistä. Äännetason informaatio: äänteen identiteetti (esim. /a/ vs. /e/) äänteen luonnollinen luokka (esim. vokaalit vs. konsonantit) äänteen pituus (pitkä vs. lyhyt; esim. /t/ sanoissa muta vs mutta )

90 Puhesynteesi ja prosodian mallintaminen Martti Vainio Tavutason informaatio: tavun paikka sanassa tavun leksikaalinen paino (painollinen vs. painoton) Sanatason informaatio: tutkittavan äänteen paikka sanassa sanan pituus äänteinä sanan pituus tavuina sanan sanaluokka sanan funktionaalinen status (funktio- vs. sisältösana) Lausetason informaatio: sanan paikka lauseessa tavun paikka lauseessa lauseen pituus sanoina lauseen pituus tavuina Kaikki yllä olevat informaatiopalaset vastaavat yhtä hermoverkon syötetason neuronia ja ovat koodatut siten, että jokainen erilainen informaatio edustaa pientä reaalilukua välillä 0.0 ja 1.0. Esim. äänteiden identiteetti edustaa kahtakymmentä viittä erilaista arvoa välillä 0.0 ja 1.0. Esim. /a/ voisi olla 0.01 ja /s/ 0.9. Yleisesti olemme käyttäneet seitsemän äänteen kokoista ikkunaa, jota liu utetaan esim. lauseen yli äänne kerrallaan. Näin tuotetaan eri parametrien arvot lauseen jokaiselle äänteelle. Maaliarvoina olemme käyttäneet äännekestojen logaritmeja (äännekestojen distribuutio on logaritminen), perustaajuutta puolisävelasteikolla ja äänekkyyttä ns. foneina. Puolisävelet ja fonit on lisäksi koodattu syötteen tavoin lineaarisesti nollan ja yhden välisiksi arvoiksi. Koska verkot mallintavat vain annettua dataa, ei niillä ole mielekästä mallintaa useampaa ihmistä kerralla ainakaan kertomatta niille että tietty data on tietyn ihmisen tuottamaa. Jälleen kerran erikoistumisella päästään parhaaseen tulokseen.

Puhesynteesi ja prosodian mallintaminen Martti Vainio 91 Kaiken kaikkiaan keinotekoiset hermoverkot soveltuvat erinomaisesti puheen prosodisten piirteiden mallintamiseen. Tässä kuvaillussa ratkaisussa parametrien arvoja on pyritty ennustamaan suoraan nykyisissä tekstistä puheeksi muokkaavissa järjestelmissä hermoverkkoja käytetään yleensä jonkin toisen mallin parametrien estimoimiseen. Esimerkiksi intonaation ennustamiseen voidaan käyttää ns. Fujisakin mallia, jonka parametrien arvot estimoidaan hermoverkoilla. Fujisakin malli kuvaa ihmisen toimintaa fysiologisella tasolla (sen perusparametrien sanotaan kuvaavan kahden eri kurkunpään lihaksen toimintaa), joten sen vaatiman informaation voidaan katsoa olevan suoremmassa yhteydessä ihmisen kielelliseen käyttäytymiseen kuin käyttämämme malli, jonka parametrien keskinäisen tärkeyden tutkiminen on erittäin hankalaa. Kuvassa 7 on esitetty kaksi suomenkielen lausetta; niiden perustaajuuskäyrät ja hermoverkkojen ehdotukset perustaajuuden arvoiksi jokaiselle vokaalille. Kyseessä ovat verkot, jotka eivät ole saaneet informaatiota lauseiden rakenteesta tai sanojen tyypeistä. Niinpä kuvassa on nähtävissä useanlaisia virheitä ja toisaalta ne osoittavat hienosti verkkojen kyvyn ymmärtää niille annettua dataa. Paras esimerkki verkon kyvystä nähdä pintaa syvemmälle on niiden tuoton korrektius on-sanan suhteen. Olla-verbi on puheessa useimmiten ns. funktiosana eikä sitä tavallisesti painoteta. Tämän seikan verkko on kyennyt oppimaan ns. pintatason kuvauksesta, joka sille on syötteenä oppimisvaiheessa annettu. Myös lauseenalkuiset funktiosanat ovat oikealla tavalla painottomat. Toisaalta ensimmäisen lauseen minulla-sanan kohdalla vastaavaa yleistystä ei ole voinut tapahtua, koska sana käyttäytyy aineistossa niin monella tavalla. Toinen verkon tuottama virhe lauseissa on niiden viimeisten vokaalien liian korkeat perustaajuusarvot. Tässä tapauksessa kysymyksessä on kuitenkin opetusdatan sisältö lähes kaikki lauseet loppuvat ns. narahdukseen, jolla ei ole selkeitä perustaajuusarvoja. Näin ollen ei verkkokaan ole voinut tuottaa kuin jonkinlaisen keskimääräisen arvon puuttuvalle datalle. Edellisistä virheistä ja puutteista näkyy selvästi, että keinotekoiset hermoverkot ja niitä vastaavat muut tilastolliset menetelmät ovat täysin riippuvaisia niille annetusta informaatiosta. Moni prosodinen ilmiö määräytyy kuitenkin niin abstraktin ja korkean tason lingvistisen informaation perusteella, ettei niiden ennustaminen ole ilman ns. maailmantietoa mahdollista. Tällaisia ilmiöitä ovat mm. asenteisiin ja tunnetiloihin liittyvät prosodiset ilmiöt. Toisaalta ns. informaatiorakennetta (joka määrittelee mm. sen, mikä ilmauksessa on uutta ja mikä van-

92 Puhesynteesi ja prosodian mallintaminen Martti Vainio 150 Frequency (Hz) "koska minulla on kouristuksia, minulla on kuumetta" 0 0 3.344 150 "vaikka ulkona on kylmä, kilpikonna on pihalla" 0 0 3.622 Time (s) Kuva 7: Kahden luonnollista puhetta olevan lauseen perustaajuuskäyrät (harmaa viiva) ja hermoverkkojen tuottamat estimaatit lauseiden vokaalien perustaajuusarvoiksi (lineaarisesti yhdistettynä). Huomaa, että puutteellinen lingvistinen informaatio on johtanut esim. funktiosanojen virheelliseen painottumiseen (jälkimmäinen sana minulla ) ja toisaalta lauseen fokuksen liian vähäiseen painottumiseen (sanat kouristuksia ja ulkona ). haa informaatiota) voidaan tuottaa ns. käsitteestä puheeksi -synteesissä. Näissä järjestelmissä puhe tuotetaan suoraan esim. aikataulutiedoista, eikä TTS-järjestelmän tapaista arvaukseen perustuvaa lingvististä analyysiä tarvita. 5 Yhteenveto Olen tässä luvussa pyrkinyt hiukan kuvaamaan sitä, miten symbolisen ja jatkuvan signaalin rajapinnan kuvausta voidaan lähestyä. Prosodian suhteen olen kuvannut erästä ratkaisua pe-

Puhesynteesi ja prosodian mallintaminen Martti Vainio 93 rustuen keinotekoisiin hermoverkkoihin. Hermoverkot ovat kuitenkin vain yksi tilastollinen tapa kuvata ilmiöitä ja prosodian mallinnus etenkin puhesynteesiä varten onkin menetelmällisessä rikkaudessaan vertaansa vailla. Kunnollista prosodian mallintamista on puheen automaattisen tunnistamisen ohella jo pitkään pidetty kieli- ja puheteknologian haastavimpina alueina. Erityisen mielenkiintoiseksi ne tekee niiden monitieteellinen ja tieteen luokittelurajoja rikkova luonne. Prosodia on informaatiota, kielellisiä rakenteita ja tunteita sekä asenteita kokoavana ilmiökenttänä herättänyt myös psykologien ja kognitiotieteilijöiden mielenkiinnon. Kaiken kaikkiaan prosodia on tulevaisuuden puheentutkimuksen tärkeimpiä kohteita. Puhesynteesiä käsittelevää kirjallisuutta on melko paljon ja tietoa löytyy erityisesti internetistä. Kokonaisia TTS-järjestelmiä kuvaavia teoksia ovat mm. MIT:n synteesin kuvaus (Allen et al., 1987) sekä AT&T:n järjestelmän kuvaus (Sproat, 1998). Verkosta löytyy myös avoimeen lähdekoodiin perustuva Festival-järjestelmä (Black et al., 2004), jonka avulla on myös tehty suomenkielinen versio, joka sekin löytyy Festvox-sivustoilta. Kirjallisuus Allen, J., Hunnicut, M. S., and Klatt, D. H. (1987). From Text to Speech: The MITalk system. Cambridge University Press, Cambridge. Altosaar, T. (2001). Object-based Modelling for Representing and Prosessing Speech Corpora. Technical Report 63, Helsinki University of Technology Laboratory of Acoustics and Audio Signal Processing. Black, A. W., Taylor, P., and Caley, R. (1996/2004). The Festival Speech Synthesis System system. http://www.festvox.org/. Fant, G. (1960). Acoustic Theory of Speech Production. Mouton, The Hague. Karjalainen, M., Altosaar, T., and Alku, P. (1988). QuickSig - An object-oriented signal processing environment. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, New York.

94 Puhesynteesi ja prosodian mallintaminen Martti Vainio Sproat, R., editor (1998). Multilingual Text-To-Speech Synthesis: The Bell Labs Approach. Kluwer, Dordrecht. Vainio, M. (2001). Artificial Neural Network Based Prosody Models for Finnish Text-to- Speech Synthesis. Number 43 in Publications of the Department of Phonetics, University of Helsinki. Yliopistopaino.

VIESTILIIKENNE JA FONETIIKKA Päivikki Eskelinen-Rönkä 1. Johdanto Viestiliikennepuhe tarjoaa mielenkiintoisen, suhteellisen uuden tutkimusalueen puheentutkimuksen moniulotteiseen tutkimuskenttään. Viestiliikenteessä puhutun informaation siirto tapahtuu yleensä jonkinlaisen viestintävälineen, kuten radiopuhelimen avulla joko suljetussa tai avoimessa viestijärjestelmässä, ja viestintään voi samanaikaisesti olla osallisena kaksi tai useampi usein ennalta tiedossa oleva osapuoli. Viestiliikennepuheen tutkimuksella on vahva yhteys foneettiseen tutkimukseen, mutta poikkitieteellisen luonteensa vuoksi alalla on fonetiikan ohella luonteva leikkauspinta mm. teknisten tieteenalojen kanssa. Sovellus- ja toteutusalan laajuudesta huolimatta viestiliikenteeseen kohdistunut tutkimus on kuitenkin ollut tähän asti vähäistä Suomessa. Asiaan lienee oleellisesti vaikuttanut tutkimusaineiston hankintaan liittyvät rajoitukset. Radiolain 7 1 momentin mukaan "Joka vastaanottaa muun kuin hänelle tarkoitetun radiolähetyksen, jota ei ole tarkoitettu yleisesti vastaanotettavaksi, ei saa tallentaa sitä, eikä ilmaista tai käyttää hyväksi sen sisältöä taikka tietoa sen olemassaolosta." Viestiliikennepuhetutkimuksen toteuttaminen edellyttää siis usein tarkoin määriteltyä yhteistyötä viestiliikenteestä vastaavan tahon kanssa. Mistä viestiliikennepuheessa on sitten kysymys? Viestiliikenteelle on tunnusomaista vahva tilannesidonnaisuus eli kontekstuaalisuus. Viestinnän ydin on sanoma (syntynyttä tilannetta ja/tai välitöntä toimintaa koskeva informaatio), joka täytyy saada välitetyksi eteenpäin maksimaalisen ymmärrettävästi ja usein lyhyimmässä mahdollisimmassa ajassa. Viestiliikennepuheen vaatimusten tarkoituksenmukaisuus tulee selkeästi esille esimerkiksi rikostutkinnassa, palo- ja pelastustoimessa sekä lennonjohtamisessa. Viestiliikennepuhe tallennetaan usein mahdollista myöhemmin tapahtuvaa tutkinnallista tarkoitusta varten. Tilanteen selvittämisen ja puhujien oikeusturvan kannalta on oleellista, että puhutun viestin sisältö ja asianmukaisuus voidaan epäselvissä tilanteissa tarkistaa jälkikäteen.

96 Viestiliikenne ja fonetiikka Päivikki Eskelinen-Rönkä Käsittelen seuraavissa kappaleissa viestiliikennepuheen tutkimuksen rakentumista tarkemmin. Selvityksen havainnollistamisessa käytän esimerkkinä ilmailuviestinnän tutkimusalalla toteutettua, lennonjohtajien ja lentäjien väliseen viestintään kohdistunutta tutkimusta. Vaikka esitetty tutkimus kohdentuukin kapeaan erikoisalaan, ovat tutkimuksen pääperiaatteet sovellettavissa mihin tahansa muun alan viestiliikenteeseen kohdistuvaan tutkimukseen. 2. Viestiliikennetutkimuksen osatekijät Lennonjohtajien ja lentäjien välinen radiopuhelimen avulla tapahtuvaa viestiliikenne on vahvasti tilanteeseen sidottu (kontekstuaalinen) informaationsiirtomenetelmä. Viestin ytimen muodostaa erityissanasto, jota kutsutaan yleisnimityksellä fraseologia. Koska ilmailuviestinnässä on keskeisellä sijalla siinä käytettävä tekniikka, on fraseologian lisäksi standardoitu myös informaationsiirrossa käytetty radiopuhelintekniikka ja -laitteisto. Kaikki lennonjohtajien ja lentäjien välinen viestiliikenne on lisäksi tallennettava lennonjohtopalvelua antavassa yksikössä ympärivuorokautisesti turvallisuusnäkökohtien vuoksi. Millaisista tekijöistä viestiliikennepuhetutkimus ilmailuviestinnän tapauksessa koostuu? Kun tarkastelet ilmailuviestinnän esimerkkiä edellä esitetyssä kappaleessa kokonaisuutena, erotat siinä yleistasolla kolme päätekijäryhmää. Nämä ovat 1) kieleen ja puheeseen liittyvät tekijät (viestijät ja viesti), 2) ympäristötekijät (viestinnänaikainen taustahäly) sekä 3) tekniset tekijät (päätelaitteet, kanava ja tallennustekniikka). Näennäisestä irrallisuudesta huolimatta edellä mainitut tekijät ovat kiinteässä vuorovaikutuksessa kielen ja puheen ollessa koko prosessista päävastuussa. Miksi on näin? Siksi, että kaikkien muiden tekijöiden vaikutukset reaalistuvat aina lopulta kielen ja puheen ohjaamissa puhumisen ja kuulemisen prosesseissa. Kieli ja puhe ovat siten yhdessä kuin ydinprosessori, jonka syötteenä toimivat kaikki muut viestintään vaikuttavat osatekijät. 2.1 Kieli ja puhe Ilmailun radiopuhelinviestinnän tarkoituksena on saada määrättyyn lennonvaiheeseen liittyvä informaatio siirretyksi lennonjohtajan ja lentäjän välillä täysin yksiselitteisesti ja mahdollisimman nopeasti. Koska viestijät voivat äidinkieleltään olla erikielisiä, on

Viestiliikenne ja fonetiikka Päivikki Eskelinen-Rönkä 97 kansainvälisen ilmailuviestinnän sovittu perustuvan englanninkieleen. Kielitaidon erilaisesta tasosta johtuvien väärinymmärrysten välttämiseksi ilmailuviestinnässä käytetyt sanat ja ilmaisut on myös turvallisuussyistä vakioitu merkityksiltään ja muodoiltaan sekä osin myös ääntämistavaltaan. Siksi siitä käytetäänkin nimitystä standardi fraseologia. Koska viestiliikenteen ydin on sanoman maksimaalinen ymmärrettävyys, sitoo tämä lennonjohtajan ja lentäjän tiukasti yhteiseen prosessiin. Arkielämässä puheen ymmärrettävyys mielletään helposti kohdistuvan pelkästään puhujan henkilökohtaisiin puhetaitoihin. Tällainen olettamus piilottaa kuitenkin taustalle sen tosiasian, että ymmärrettävyys liittyy kiinteänä osana laajempaan puheen havaitsemisen ja tunnistamisen kokonaistapahtumaan, jossa keskeisellä sijalla on kuulija. Kuulijan puheen vastaanottoprosessiin liittyvät fyysiset ja kognitiiviset tekijät säätelevät sitä, miten hän paineaaltona etenevää puhesignaalia havaitsee ja käsittelee, kielellisiä yksiköitä tunnistaa sekä millaisia merkityksiä hän näiden välille rakentaa. Puhujan kannalta puheen ymmärrettävyys tarkoittaa puolestaan kykyä ja halua tuottaa kuulijaan, tilanteeseen ja olosuhteisiin nähden riittävän selkeää ja ymmärrettävää puhetta. On tarpeellista myös huomata, että termillä ymmärrettävyys voidaan tarkoittaa kahta eri asiaa. Ymmärrettävyydellä voidaan viitata 1) esimerkiksi sanan tai sen osan muodon korrektiin tunnistamiseen. Voimme esimerkiksi tunnistaa oikein sanan kaskelotti tietämättä, mitä sana merkitsee. Ymmärrettävyydellä voidaan myös tarkoittaa 2) ymmärtämistä tai käsittämistä, jolloin sillä puolestaan tarkoitetaan sanojen tai ilmaisujen oikein ymmärrettyä merkitystä. Käsitteet ovat hierarkkisia siinä mielessä, että käsittämisen edellytyksenä on tunnistettavuus, ymmärtäminen pitää siis sisällään ymmärrettävyyden. Lennonjohtajien ja lentäjien välisessä kommunikaatiossa pelkkä viestin tunnistettavuus ilman ymmärtämistä ts. merkitystä on lentoturvallisuuden kannalta kestämätön tilanne. Ilmailuviestinnässä jokainen puhuttu sana kantaa lennon sujumisen kannalta merkityksellistä tietoa. Ymmärrettävyys rakentuu puheen havaitsemisen ja sanatunnistuksen avulla. Millaiset tekijät sitten ohjaavat näitä prosesseja? Puheen havaitsemiseen vaikuttaa tarkkaavaisuuden suuntaaminen, sillä ihmisen havaintoprosessi käsittelee puhesignaalia eri tavoin kuin puhetta sisältämätöntä signaalia (Studdert-Kennedy 1976). Foneettisella tasolla äännesegmenttien tunnistaminen perustuu foneemien kategoriseen havaitsemiseen (Clark & Yallop 1995:313). Äänteiden tunnistamiseen vaikuttaa kielellinen tietoisuus siten, että äännekategorioiden rajat ovat riippuvaisia kuulijan omaksumasta kielijärjestelmästä (Clark & Clark 1977:204).

98 Viestiliikenne ja fonetiikka Päivikki Eskelinen-Rönkä Puhenopeus vaikuttaa tunnistamisen kannalta relevanttiin äännesegmentin kestoon. Kuulijoiden havaintomekanismi on kuitenkin joustava, sillä se pystyy kompensoimaan puhenopeuden kasvun aiheuttamien muutosten vaikutuksia. Sävelkulun vaihtelut intonaation muodossa tarjoavat tärkeää tietoa puheen rakenteelliseen analyysiin. Painollisuuden havainnolla on puolestaan merkittävä osuus myös puhevirran jaksotuksessa, sillä sanojen rajat eivät ole jatkuvassa puheessa tauoin ilmaistuja, kuten sanat ovat kirjoituksessa välilyönnein erotettuja (Shoup & Pfeifer 1976:200, 206). Termillä leksikko tarkoitetaan muistiin kertynyttä sanavarantoa. Koska leksikko kasvaa kehittymisen ja kypsymisen myötä, on sanavarannon koko aikuisikään mennessä jo hyvin suuri. Leksikon suuresta koosta huolimatta sanojen erottaminen ja tunnistaminen sujuvat käytännössä kuitenkin ilman suurempia hankaluuksia. Tämä on mahdollista muun muassa kielellisen tietoisuuden (top-down) ja sanojen esiintymistaajuuteen (Luce et al. 1990:122) liittyvän tietoisuuden vuoksi. Kielellinen tietoisuus sisältää foneemikategorioiden ohella fonologisen, syntaktisen ja leksikaalisen tiedon siitä, millaisessa ympäristössä sana voi esiintyä (Ladefoged & Broadbent 1957:100, Clark & Clark 1977:204, Connine 1990:285, Weber 2001:95). Sanojen esiintymistaajuus vaikuttaa puolestaan siten, että tunnistaminen on sitä nopeampaa, mitä tutumpi sana tai ilmaus on kuulijalle. Kaksikielisyyteen ja kielenvaihtoon liittyvän tutkimuksen perusteella tiedetään, että mitä korkeampi on vieraan kielen hallintaan liittyvän kielellisen automatisoitumisen aste, sitä nopeammin reaktioaikamittausten perusteella kielenvaihto sujuu (Noble 1999: 401 419, Aulanko 2001:61). Vaikka puhesignaalissa esiintyy paljon puhujien äänielimistön muodosta ja kokoeroista, tunnetiloista sekä murteista aiheutuvaa vaihtelua, pystyy kuulija suhteellisen helposti ymmärtämään eri puhujien tuottamaa puhetta. Tätä kuuloaistin suodatus- ja sovituskykyä kutsutaan perseptuaaliseksi normalisaatioksi (Johnson 1997: 145, McQueen & Cutler 1997:568, Pisoni 1997:14). 2.2 Ympäristöön liittyvät tekijät Puheviestintä normaaliolosuhteissa tapahtuu harvoin kommunikaatiolle täysin optimaalisissa olosuhteissa. Myös ilmailuviestinnässä melutekijät ovat jatkuvasti läsnä häiriten vaihtelevassa määrin puhe- ja kuunteluprosesseja. Erityppisten ilma-alusten ohjaamoissa esiintyvä häly on yhdistelmä aerodynamiikasta, koneäänistä ja erilaisista järjestelmään liittyvistä äänistä, kuten ilmastointi- ja paineistusäänistä. Lennonjohtajien työtilan taustahäly

Viestiliikenne ja fonetiikka Päivikki Eskelinen-Rönkä 99 muodostuu puolestaan muun muassa lennonjohtajien keskinäisestä tiedonvälityksestä, tietokoneiden ja tulostimien käyntiäänistä sekä erilaisista huomio- ja hälytinäänistä. Kuinka häly sitten vaikuttaa? Puhe- ja kuunteluprosessit ovat lähtökohdiltaan hyvin sietokykyisiä ja joustavia tapahtumia. Kun esimerkiksi puheensorinassa haluat kuunnella nimenomaista puhujaa, auttaa kuunteluprosessiasi tiedostettu tarkkaavaisuuden suuntaaminen, niin kutsuttu Cocktail party -efekti. Tämä kuuloaistisi myötäsyntyinen kyky suodattaa kuuntelua häiritsevää hälyä ei kuitenkaan ole riittävä silloin, kun häly on voimakas. Hälyisissä kuunteluolosuhteissa hyödynnät tiedostamattasi lisäksi äänteiden ja sanojen tunnistamisessa aivojesi foneemirekonstruointiin liittyvää erityiskykyä. Tässä tapahtumassa aivot rakentavat kielellisen tietoisuuden perusteella uudelleen hälyn peittämät puuttuvat äänteet. Ilmiötä kutsutaan myös illusoriseksi efektiksi, sillä rekonstruktio tuottaa havaintoomme jotain sellaista, mitä ei alun perin ole kuultu. Yleisesti ottaen hälyssä sanojen tunnistustarkkuus laskee, sillä häly saa äänteet kuulostamaan enenevässä määrin samankaltaisilta. Kaksikielisessä työympäristössä häly myös vahvistaa puhujien taipumusta käyttää vahvempaa kieltä ja mitä pitempään hälyvaikutus kestää, sitä suuremmalla todennäköisyydellä heikompi kieli vaihdetaan dominantiksi kieleksi. Hälyisessä kommunikaatiotilanteessa viestijät myös pyrkivät korvaamaan (kompensoimaan) hälyn aiheuttamaa ymmärrettävyyden heikkenemistä puhumalla esimerkiksi äänekkäämmin, nostamalla äänenkorkeutta tai artikuloimalla selvemmin. Tällaista puhetilanteen hälyolosuhteisiin sopeutumisen (adaptoitumisen) aiheuttamaa kompensaatiota kutsutaan Lombardin efektiksi. Häiritsevän voimakkaan hälyn poistamista puhetallenteista kutsutaan siistaamiseksi. Puheen ymmärrettävyyttä huonontavien hälyäänten poisto tallenteista vahingoittamatta itse puhesignaalia on käytännössä vaikeaa. Siistaukseen on kuitenkin kehitetty erilaisia algoritmeja ja ohjelmia. Voit kokeilla esimerkiksi Sound Cleaner -nimisen siistausohjelman erityyppisten suodatinten vaikutusta verkko-osoitteessa http://www.speechpro.com/eng/products/ index.html. Kannattaa kuitenkin aina mahdollisuuksien mukaan minimoida hälyn määrää tallennustilanteessa kuin yrittää teknisin toimenpitein parantaa hälyn turmelemaa tallennetta jälkikäteen. 2.3 Tekniikkaan liittyvät tekijät Viestiliikenne tapahtuu nykyisin puhelimen kaltaisten lähetinten ja vastaanotinten avulla erilaisissa avoimissa tai suljetuissa verkoissa. Suljettua ja luvanvaraista viestijärjestelmää

100 Viestiliikenne ja fonetiikka Päivikki Eskelinen-Rönkä edustaa esimerkiksi viranomaisviestintään tarkoitettu VIRVE-verkko (http://www.virve.com/). Avointa järjestelmää edustaa esimerkiksi ilmailuviestintään varatut radiokanavat, joilla käytyä salaamatonta viestintää voi sopivin vastaanottimin ulkoapäin kuunnella (muista kuitenkin radiolaki!). Järjestelmät voivat hyödyntää joko analogia- tai digitaalitekniikkaa ja niissä voidaan käyttää viestin sisällön suojaamiseksi erilaisia salaustekniikoita. Viestiliikenteessä kielellisen tiedon siirron perustuessa lähes täysin tekniikkaan on erittäin tärkeää tunnistaa siirtoketjun vaikutukset puheen ymmärrettävyyteen. Millaisista teknisistä tekijöistä siirtoketju muodostuu? Ilmailun viestiliikenteessä siirtoketjun tekniset tekijät voidaan erotella lähetin- ja vastaanotinlaitteiston, siirtokanavan sekä tallennusmenetelmän alaluokkiin. Lennonjohtajat ja lentäjät käyttävät viestinnässään standardoitua amplitudimodulointiin (AM) perustuvaa radiopuhelinjärjestelmää. Ilmailuradio koostuu puolestaan erilaisista komponenteista, joista tärkeimmät ovat oskillaattori, modulaattori, mikrofoni ja radiovastaanotin (Rinta-Opas & Virtanen 1977). Viestintävirasto on puolestaan varannut siviili-ilmailun käyttöön ilmailuviestinnässä tarvitut radiotaajuuskanavat (http://www.ficora.fi/suomi/index.html). Taajuusalueeltaan ihmisen koko kuuloalueen (20 20000 Hz) tekninen siirtäminen on epätaloudellista ja siirtojärjestelmää liikaa kuormittava. Siksi siirtokaistaa on supistettu kattamaan ainoastaan puheen ymmärrettävyyden kannalta tärkeimmän taajuusalueen. Tällaiseksi riittävän ymmärrettävyyden takaavaksi taajuuskaistaksi on vakioitu 300 3400 hertsin kaista. Taajuuskaistaa koskeva standardi on käytössä mm. puhelimissa, myös ilmailussa käytetyissä radiopuhelimissa. Taajuuskaista tuotetaan esimerkiksi analogiaan perustuvassa puhelintekniikassa suodattamalla puhesignaalista yli- ja alipäästösuodattimilla tarpeettomat osat pois. Yli- ja alipäästösuodattimet eivät kuitenkaan ole ymmärrettävyyteen kohdistuvilta vaikutuksiltaan täysin ongelmattomia. Alipäästösuodatin esimerkiksi leikkaa korkeataajuuksista energiaa sisältävän terävän [s]-äänteen osittain pois tehden siitä kuulovaikutelmaltaan suhahtavan. Suomenkielisen puhujan puheen ymmärrettävyyteen muuntuminen ei juuri vaikuta, sillä suhahtavalla äänteellä [S] ei ole foneemista asemaa (lainasanoja lukuunottamatta). Englanninkielisille puhujille tilanne on kuitenkin toinen, sillä tässä kielessä mainittujen äänteiden energian taajuus toimii äänteitä erottelevana piirteenä. Äänteiden kuulovaikutelman samankaltaistuminen voi olla kriittinen silloin, kun sanan merkitys muuttuu äänteen muuntumisen vuoksi. Puhe sellaisenaan on ainutkertainen tapahtuma. Se leviää paineaaltona ympäristöön,

Viestiliikenne ja fonetiikka Päivikki Eskelinen-Rönkä 101 laskee teholtaan suhteessa etäisyyden kasvuun äänilähteestä ja lopuksi häviää. Jotta puhetta voitaisiin akustisesti häviöllisen luonteensa vuoksi tutkia, täytyy se ensin saada jotenkin tallennettua. Erilaisia tallentamiseen käytettyjä laitteita ja menetelmiä onkin useita. Perusasia on kuitenkin se, että tallennetusta puhesignaalista on toistettavissa ne signaalin ominaisuudet ja piirteet, jotka ovat tallennuslaitteelle siirtyneet. Tallennuslaitteisiin päivittäin tallentuva puheaineisto voi olla määrältään huomattava. Esimerkiksi lennonjohtopalvelua antava lentoasema on velvollinen tallentamaan kaiken viestiliikenteen ympärivuorokautisesti. Tallennukseen ja arkistointiin liittyvää resurssiongelmaa on pyritty ratkaisemaan kehittämällä erilaisia puheenpakkausmenetelmiä. Digitaalitekniikalla tieto voidaan pakata eli kompressoida erilaisilla psykoakustiikkaan perustuvilla laskennallisilla menetelmillä erittäin vähän muistia kuluttaviin muotoihin. Kompressiot eivät suodatusten tavoin ole kuitenkaan puheen ymmärrettävyyden kannalta täysin ongelmattomia (Eskelinen-Rönkä & Niemi-Laitinen 2002). Kompressiomenetelmiä koskeva tutkimus on ollut tähän asti hyvin vähäistä. 3. Lopuksi Kuten varmasti huomasit, kokoaa nimike viestiliikennetutkimus sateenvarjon tavoin alleen varsin laajan ja monitasoisen tutkimuskokonaisuuden. Esimerkkinä käyttämässäni siviiliilmailun viestiliikennetutkimuksessa tämä kokonaisuus muodostui kielen ja puheen, teknisten tekijöiden sekä ympäristötekijöiden päätekijäluokista kunkin näistä tekijöistä jakautuen edelleen muihin alaluokkiin. Voit tutustua tarkemmin tähän tutkimukseen vaikkapa artikkeleissa Eskelinen-Rönkä 2001, 2002 sekä 2004. Ilmailun viestiliikennettä koskevan tutkimuksen periaatteita voi soveltaa minkä tahansa muun viestiliikenteen tutkimukseen joko sellaisenaan tai tarpeellisin osin. Fonetiikan näkökulmasta viestiliikenteen tutkimus on ollut hyvin vähäistä. Siviiliilmailun radiopuhelinviestinnän ymmärrettävyyttä koskeva tutkimus on toiminut tämän alan tutkimuksen päänavaajana. Viestiliikennettä koskevan tutkimuksen tärkeys on helposti todettavissa tutkimustulosten hyödynnettävyydestä käsin. Oikein välittynyt tiedonsiirto lennonjohtajan ja lentäjän välillä on osaltaan takaamassa jokaisen matkustajan turvallista lentomatkaa.

102 Viestiliikenne ja fonetiikka Päivikki Eskelinen-Rönkä Kirjallisuus Aulanko, R. (2001) Puheen havaitsemisen peruskäsitteitä. A. Iivonen & R. Aulanko (toim.) Fonetiikan peruskäsitteitä. Helsingin yliopiston fonetiikan laitoksen monisteita 23, 43 66. Clark, H. & Clark, E. (1977) Psychology and Language. An Introduction to Psycholinguistics. USA: Harcourt Brace Jovanovich. Clark, J. & Yallop, C. (1995) An Introduction to Phonetics and Phonology. 2. Edition. Oxford: Blackwell. Connine, G. (1990) Effects of Sentence Context and Lexical Knowledge in Speech Processing. G.T.M. Altmann (toim.) Cognitive Models of Speech Processing. Psycholinguistic and Computational Perspectives. Cambridge, MA: The MIT Press, 281 294. Eskelinen-Rönkä, P. (2001). Lennonjohtoa radioaalloilla: suomalaisen lennonjohtajan viestipuheen piirteitä. S. Ojala & J. Tuomainen (toim.) 21. Fonetiikan Päivät, Turku 4. 5.2001. Turun yliopiston suomalaisen ja yleisen kielitieteen laitoksen julkaisuja 67, 149 157. Eskelinen-Rönkä, P. (2002). Puheen ymmärrettävyys ilmailun radiopuhelinviestinnässä. P. Korhonen (toim.) 22. fonetiikan päivät 2002 The phonetics symposium 2002. Teknillisen korkeakoulun sähkö- ja tietoliikennetekniikan osaston akustiikan ja äänenkäsittelytekniikan laboratorion julkaisuja 67, 133 142. Eskelinen-Rönkä, P. (2004) Kompression vaikutus puheen ymmärrettävyyteen. 23. fonetiikan päivät Oulu, 28 29.8.2004 (painossa). Eskelinen-Rönkä, P. & Niemi-Laitinen, T. (2002). Kompression vaikutus F0- ja HNR-analyyseihin. P. Korhonen (toim.) 22. fonetiikan päivät 2002 The phonetics symposium 2002. Teknillisen korkeakoulun sähkö- ja tietoliikennetekniikan osaston akustiikan ja äänenkäsittelytekniikan laboratorion julkaisuja 67, 143 148. Johnson, K. (1997) Acoustic and Auditory Phonetics. Oxford: Blackwell. Ladefoged, P. & Broadbent, D.E. (1957) Information Conveyed by Vowels. Journal of The Acoustical Society of America 29, 98 104. (Julkaistu myös teoksessa I. Lehiste (toim.) Readings in Acoustic Phonetics, 93 107.) Luce, P.A., Pisoni, D.B. & Goldinger, S.D. (1990) Similarity Neighborhoods of Spoken Words. G.T.M. Altmann (toim.) Cognitive Models of Speech Processing. Psycholinguistic and Computational Perspectives. Cambridge, MA: The MIT Press, 122 147. McQueen, J.M. & Cutler, A. (1997) Cognitive Processes in Speech Perception. W. J. Hardcastle, & J. Laver (toim.) The Handbook of Phonetic Sciences. Oxford: Blackwell, 566 585. Noble, C. (1999) Nonnative English-Speaking Pilots' workload in L1 and L2 Airspace. International Aviation Training Symposium IATS 1999, Final Proceedings http://www.iats.jccbi. gov/1999/finalproceedings/final5.pdf (6.7.2004). Pisoni, D.B. (1997). Some Thoughts on "Normalization" in Speech Perception. K. Johnson & J.W. Mullennix (toim.) Talker Variability in Speech Processing. San Diego: Academic Press, 9 32. Rinta-Opas, A. & Virtanen, V. (1977). Ilmailun radio- ja tutkajärjestelmät. 2. p. Helsinki: Suomen Ilmailuliitto. Shoup, J.E. & Pfeifer, L.L. (1976) Acoustic Characteristics of Speech Sounds. N. Lass (toim.) Contemporary Issues in Experimental Phonetics. New York: Academic Press, 171 224. Studdert-Kennedy, M. (1976) Speech Perception. N. Lass (toim.) Contemporary Issues in Experimental Phonetics. New York: Academic Press, 243 294. Weber, A. (2001). Help or Hindrance: How Violation of Different Assimilation Rules Affects Spoken-Language Processing. Language and Speech 44, 95 118.

HELSINGIN YLIOPISTON FONETIIKAN LAITOKSEN MONISTEITA MIMEOGRAPHED SERIES OF THE DEPARTMENT OF PHONETICS UNIVERSITY OF HELSINKI 1. Nyman M, Nyman G. OVE IIIb -puhesyntetisaattorin ohjausohjelman käyttöopas, 1978. 2. Iivonen A, Sirviö P. Glottis: funktiot ja tutkimusmenetelmät, 1979. 3. Tuomi SK, Jauhiainen T. Auditiiviset testit puheterapiassa, 1979. 4. Tutkijaseminaarin esitelmät, 1981. 5. Laukkanen (Koskinen) M-K. Johdatus puhetekniikkaan, 1980. 6. Nyman M, Nyman G, Sovijärvi A. OVE IIIb -puhesyntetisaattorin sääntösynteesiohjelmiston käyttö, 1981. 7. Laakso M-L, Leinonen L. Hengityselimistön rakenne ja hengitystoiminta. Opintomoniste logopedian opiskelijoille, 1981. 8. Iivonen A. On explaining the sentence initial pitch height in Finnish, 1983. 9. Iivonen A. Domeeni prosodiikassa: täsmennyksiä ja ongelmia, 1984. 10. Leinonen L, Laakso M-L. Hermoston ja aistinelimistön rakenne ja toiminta. Opintomoniste logopedian opiskelijoille, 1985. 11. Puhujantunnistus fonetiikan juridisena sovelluksena, 1986. 12. Iivonen A. Kuulon kriittinen kaista mahdollisten vokaalien lukumäärän ja vokaalien psykoakustisten etäisyyksien selittäjänä, 1987. 13. Iivonen A. Yleinen fonetiikka. Peruskurssin opintomoniste, 1988. 14. Lehtihalmes M. Motoriset puhehäiriöt ja dysfagia. Luentokurssin opintomoniste, 1989. 15. Iivonen A. Regional German Vowel Studies, 1989. 16. Iivonen A, Sovijärvi A, Aulanko R. Foneettisen kirjoituksen kehitys ja nykytila, 1990. 17. Leiwo M, Timonen A, Toivanen P. Terveydenhuollon viestinnästä ja sen ongelmista, 1990. 18. Iivonen A, Klippi A, Lehtihalmes M, Leiwo M. Logopedian jatko- ja erikoistumiskoulutuksen kehittäminen Suomessa, 1991. 19. Korpijaakko-Huuhka A-M, Klippi A, Lonka E, Burakoff-Horko K, Piirto H. Laatua oppimiseen. Logopedian opetuksen kehittämiskoulutusryhmän raportti, 1997. 20. Lehessaari A-L, Yli-Luukko E. Lausepainotutkimuksen foneettisia perusteita ja validiteettikysymyksiä, 1999. 21. Iivonen A, Aulanko R, Vainio M (toim.). Monikäyttöinen fonetiikka, 2000. (2. p. 2002) 22. Koskinen M-K. Puheilmaisun ja lausunnan perusteet, 2000. 23. Iivonen A, Aulanko R (toim.). Fonetiikan peruskäsitteitä, 2001. 24. Korpijaakko-Huuhka A-M. Filosofian lisensiaatin tutkinto puheterapeutin erikoistumiskoulutuksena. Suunnitelma erikoistumiskoulutuksen tavoitteista, sisällöistä ja rahoituksesta, 2002. 25. Poutiainen S. Selvitys puheviestinnän opetuksesta Helsingin yliopistossa, 2002. ISBN 952-10-2349-X (nid.) ISBN 952-10-2350-3 (PDF) ISSN 0357-4954 Helsinki 2005, Yliopistopaino