S-114.2720 Havaitseminen ja toiminta Heikki Hyyti 60451P Harjoitustyö 3 puheen havaitseminen Mikä on akustinen vihje (acoustic cue)? Selitä seuraavat käsitteet ohjelman ja kirjan tietoja käyttäen: Spektrogrammi (2) Spektrogrammi on kolmiulotteinen kartta, jossa vaaka-akselilla on aika ja pystyakselilla on taajuus. Kolmas ulottuvuus on harmaasävy, jonka kirkkaudella on määritetty kulloisenkin ajanhetken ja taajuuden äänen amplitudi. Mitä tummempi piste on tietyn taajuuden ja ajan hetkellä sitä suurempi amplitudi. Formantti (2) On paikallinen maksimi amplitudista signaalin spektrissä. Ensimmäinen foramntti F1 on matalimmalla taajuudella oleva paikallinen maksimi spektrissä. Spektrogrammissa formantti näkyy tummempana vaakajuovana. Klusiili (stop consonant) (2) On äänne, joka syntyy, kun ilmavirta ensin pysäytetään ääntöväylässä ja sitten annetaan sen purkautua äkillisesti. Klusiilit voivat olla soinnillisia tai soinnittomia. Soinnittomia klusiileja ovat [k], [t] ja [p]. Niitä vastaavat soinnilliset klusiilit ovat [b], [d] ja [g]. Formanttisiirtymä (formant transition) (2) On muutos formantin taajuudessa. Kun Spektrogrammissa tumma formanttialue nousee tai laskee, niin se on formanttisiirtymä. Koartikulaatio (coarticulation) (3) Muutos, jonka jokin äänne saa aikaiseksi sitä edeltäviin tai seuraaviin äänteisiin. Mitkä akustiset vihjeet erottavat sanat "pea" ja "tea" toisistaan? (2) pea - ja tea -sanoissa vain konsonanteilla sanan alussa on eroa. pea -sanassa kaikki formantit nousevat loppua kohti, kun taas tea -sanassa formantit laskevat loppua kohti.
Tunnistustehtävät Aloita vasemmalta. Missä vaiheessa sana alkaaa kuulostaa "tea"-sanalta? Aloita sitten ärsykkeiden kuuntelu oikealta. Milloin sana ei enää kuulosta "tea"-sanalta? Muutos ei yleensä tapahdu samassa kohtaa. Miksi? (4) Muutos tapahtui hieman puolen välin jälkeen kummassakin tapauksessa riippuen aloitussuunnasta. Muutos ei tapahdu samassa kohdassa, koska oletan että sama ärsyke toistuu, jolloin pyrin löytämään tea -sanaa kuunnellessani t-äänteen ja taas pea -sanaa kuunnellessani p-äänteen sanan alusta. Tunnistuskokeet Tee /ba/-/da/ -tunnistuskoe. Älä hämmenny, jos suurin osa ärsykkeistä kuulostaa samoita eroa on vaikeaa havaita. OK Katso tuloksia. Minkä ärsykkeen (vasemmalta laskettuna) kohdalla käyräsi ylittää 50%:n rajan? Käyrä ylittää 50% rajan 4. ja 5. ärsykkeen välissä vasemmalta lukien. Vertaa tuloksiasi "tyypilliseen" tapaukseen. Onko tuloksissa eroa? (3) Minun ba - ja da -tavujen erottelukyky oli huomattavasti parempi kuin tyypillisen tapauksen. Siis Käyräni oli paljon jyrkempi kuin tyypillisen tapauksen mallikäyrä. Mallikäyrä alkoi laskea jo ennen 4. sanaa vasemmalta ja laski hiljalleen ennen 5. sanaa. Minulla käyrä oli maksimissa aina ennen 4. sanaa ja muuttui nollaksi 5. sanan kohdalla. Minulla raja on siis sellainen, että 4. sana vasemmalta tunnistuu lähes aina ba -tavuksi ja 5.sana da -tavuksi. Mitä metodia (vrt. 1. harjoitus) käytettiin? (3) Vakiomenetelmää. Tee /e/-/ae/ -tunnistuskoe. Katso tuloksia. Minkä ärsykkeen (vasemmalta laskettuna) kohdalla käyräsi ylittää 50%:n rajan? Vasemmalta laskettuna 50% raja ylitettiin 4. ja 5. ärsykkeen välissä.
Vertaa tuloksiasi "tyypilliseen" tapaukseen. Onko tuloksissa eroa? (3) Käyräni on samansuuntainen kuin tyypillisen vastauksen käyrä, mutta se mutkittelee hieman eri tavalla. Alussa vasemmalla käyräni tekee pienen mutkan alaspäin, jonka jälkeen se nousee takaisin 100% tunnistukseen, josta se laskee melko nopeasti alas 0% todennäköisyyteen. Todennäköisyydet on laskettu ohjelmassa e -äänteen tunnistuksen suhteen. Mallikäyrä laskee tässäkin tapauksessa hitaammin. Mene eteenpäin siihen saakka kunnes konsonantti- ja vokaalikokeiden tuloksia verrataan toisiinsa. Ovatko käyrät samanlaiset? Mitkä ovat erot ja yhtäläisyydet? (3) Vokaalien tunnistuksen käyrä on paljon loivempi konsonanttien tunnistuksen käyrään verrattuna. Konsonantit siis tunnistetaan paljon helpommin kuin vokaalit. Mitä käyrän jyrkkyys kertoo tällaisten ärsykkeiden havaitsemisesta? Mitä vaakasuora käyrä merkitsee? Entä hyvin loiva tai hyvin jyrkkä? (7) Mitä jyrkempi käyrä on, sitä tarkemmin tunnistus on tapahtunut. Jos käyrä on vaakasuora, niin ärsykkeitä ei ole erotettu toisistaan ollenkaan vaan molemmat on tunnistettu vain 50% todennäköisyydellä. Loiva käyrä kertoo siitä että äänteet voivat sekoittua toisiinsa ja jyrkkä taas sen että äänteet eivät sekoitu toisiinsa. Erotuskokeet Tee /ba/-/da/ -erotuskoe. Älä hämmenny, jos suurin osa ärsykkeistä kuulostaa samoita eroa on vaikeaa havaita. OK Katso tuloksia. Monennenko ärsykkeen (vasemmalta laskettuna) kohdalla käyräsi ylittää 50%:n rajan? Käyräni ylittää 50% rajan 4 ärsykeparin kohdalla. Vertaa tuloksiasi "tyypilliseen" tapaukseen. Onko tuloksissa eroa? (3) On eroa, ja on paljon. Minun käyräni ei koskaan nouse niin tarkkaan erotusprosenttiin kuin mallikäyrä. Lisäksi minulla käyrä nousee eri kohdasta ylös. Lisäksi minulla on muutaman eri kohdassa nouseva piikki käyrässäni. Minulla oli paljon vaikeuksia erottaa yhtään äännettä toisistaan, jostakin syystä muistini onnistui sekoittamaan kaikki ärsykkeet niin toisiinsa, että eroa edellisen ja seuraavan ärsykkeen välille ei tullut juuri yhtään.
Tee /e/-/ae/ --erotuskoe. Katso tuloksia. Minkä ärsykkeen (vasemmalta laskettuna) kohdalla käyräsi ylittää 50%:n rajan? Vertaa tuloksiasi "tyypilliseen" tapaukseen. Onko tuloksissa eroa? (3) Tässä testissä käyräni pyörii koko ajan 50% tuntumassa. Se ylittää 63% rajan vain 5. ärsykkeen kohdalla. Tulokseni eroaa dramaattisesti tyypillisestä tuloksesta. Käyräni on ensinnäkin paljon alempana kuin mallikäyrä. Toiseksi käyräni pomppoilee 50% tuntumassa sikin sokin. Tämä antaa viitteen, että en oikeasti erota juuri näitä äänteitä toisistaan ollenkaan. Mene eteenpäin siihen saakka kunnes konsonantti- ja vokaalikokeiden tuloksia verrataan toisiinsa. Ovatko käyrät samanlaiset? Mitkä ovat erot ja yhtäläisyydet? (3) Eivät ole samanlaiset. Konsonanttien tunnistuskäyrässä näkyy selvät piikit tiettyjen tunnistettujen erojen kohdalla. Vokaaleissa käyrissä ei näy niin suurta eroa. Mallikäyrissä on tiettyä samankaltaisuutta siltä osin, että vokaaleissa ja konsonanteissa on molemmissa huippuarvot 3. ärsykkeen kohdalla. Minun omissa käyrissäni ei tällaista yhteneväisyyttä ole. Mitä käyrän jyrkkyys kertoo tällaisten ärsykkeiden havaitsemisesta? Mitä vaakasuora käyrä merkitsee? Entä hyvin terävähuippuinen käyrä? (7) Käyrän jyrkkyys ei tässä testissä juurikaan kerro koko totuutta. Käyrän tiettyjen pisteiden korkeus kertoo vierekkäisten äänteiden tunnistuvuuden eron todennäköisyyden. Tällöin alhaalla oleva käyrän mukaan kaikki vierekkäiset äänteet on tunnistettu samoiksi, ja jos käyrä on ylhäällä, niin kaikki vierekkäisten erot on tunnistettu ja samat ärsykkeet (33%) on osattu poimia pois erojen joukosta. Jos käyrässä on yhtäkkisiä nousuja tai laskuja, kertoo se, että näiden tiettyjen äänteiden kohdalla on ollut jokin ratkaiseva muutos erottuvuudessa. Minulla ainakin oli vain konsonanteissa tietty kohta jossa tunnistin eron ollenkaan. Vokaaleissa homma meni arpomiseksi, ja siksi käyräni pysyi 50% tietämissä kaikilla äänteiden eroilla. Kuinka jyrkkä /ba/-/da/ -tunnistuskokeen käyrä olisi siinä kohtaa jossa /ba/-/da/ - erotuskokeen käyrä saavuttaa huippunsa? Miksi? (7) Konsonanteissa tunnistuskokeen käyrän suurin muutos on tapahtunut juuri siinä kohdassa, jossa erotuskokeessa tuli suurin arvo. Olin siis tunnistanut kaikki 5. ärsykkeen vasemmalla puolella olevat äänteet puhtaasti ba -äänteeksi ja 5. ärsykkeen oikealla puolella olevat 5. ärsyke mukaan luettuna da -äänteeksi. Vokaaleissa samanlaista yhteneväisyyttä ei minun kohdallani ollut. Vokaalien tunnistamisen käyrä oli paljon loivempi ja selvää eron tunnistusta ei tapahtunut minkään yksittäisen äänteen välillä, vaan se oli hitaampi prosessi. Tällöin yhdenkään vierekkäisen äänteen välille ei syntynyt huomattavaa erotustodennäköisyyttä erotuskokeessa.
Modes of perception Jätä soinnun erottelutehtävä tekemättä mutta lue muut aiheet. Kuinka kategorinen havaitseminen auttaa puheen ymmärtämisessä? (5) Kategorisen havaitsemisen ansiosta konsonantit tunnistetaan varmuudella joksikin tietyksi konsonantiksi ja näin saadaan selkeästi jokin tietty sana tunnistettua. Näin voidaan tunnistaa tiettyjä tunnettuja konsonantteja ja pidemmälle vietynä tiettyjä tunnettuja sanoja kohinaisesta ja sekavastakin syötesignaalista. Kategorisen havaitsemisen pohdintaa Suun yläosa etuhampaiden takana on nimeltään hammasvalli (alveolar ridge). Kun lausut esim. "t":n tai "d":n, kielenkärkesi osuu sinne. Sekä "t" että "d" ovatkin nimeltään alveolaarisia konsonantteja (tai alveolaareja). Eräs bilabiaalinen konsonantti on "p". Keksi jokin toinen bilabiaalinen konsonantti ja kerro miten se muodostetaan (artikuloidaan). (4) Bilabiaalinen konsonantti on myös b, joka lausutaan hyvin samalla tavalla kuin p vain vähän pehmeämmin. Kieli painetaan alas kitalakeen ja huulilla avataan ilman kulku niin että syntyy ilmavirran nopea muutos saa konsonantin aikaan. b lausutaan soinnillisemmin ja siihen kuluu enemmän ilmaa, kun sointia resonoidaan nenäontelossa. Puheen havaitsemisen teorioita ja käsitteitä Hae ohjelma verkosta osoitteesta http://www.unige.ch/fapse/psy/persons/frauenfelder/sp/model_speech.html, pura ja aja ohjelma. A-osio: Ohjelma esittelee neljä eri ongelmaa, jotka vaikeuttavat puheen havaitsemista (segmentation, lack of invariance, lack of linearity ja normalization). Kuvaa näitä ongelmia ja selitä, miksi ne tekevät puheen havaitsemisesta vaikeaa? (12) Segmentation Korvaan tuleva puhesignaali on yhtäjaksoista, eikä siinä ole sanojen välejä, pilkkuja tai pisteitä. Akustisesti on vaikea löytää rajoja äänteiden ja sanojen välille. Tällöin on vaikea tunnistaa erillisiä sanoja massasta, jolloin sanat voivat yhdistyä toisiinsa tai tavut voivat jäädä yhdistymättä, kun väkisin nämä eri osat joudutaan kuitenkin erottelemaan. Lack of invariance Eri äänteet äännetään eri tavalla riippuen niiden suhteesta muihin sanassa oleviin äänteisiin. Tällöin esimerkiksi k äännetään eri tavalla riippuen sitä seuraavasta vokaalista. Tämän takia on vaikea tunnistaa eri äänteitä, koska niiden ääntäminen riippuu kokonaisuudesta.
Lack of linearity Puhesignaalissa eri äänteet eivät käyttäydy lineaarisesti peräkkäin, kuten kirjoitetussa tekstissä, vaan äänteet lausutaan toistensa päällekkäin toisiinsa sekoittuen. Tällöin puheesta on vaikeata tunnistaa tiettyä äännettä kun ei tiedetä missä äänne tarkkaan ottaen vaihtuu ja missä se on puhtaimmillaan. Normalization Erilaiset ihmiset puhuvat hyvin eri tavoilla. Puhujien ääntämys eroaa monesta syystä. Sukupuoli, ikä, äidinkieli, puheviat, puheen nopeus ja monet muut asiat muuttavat äänisignaalia huomattavasti. Tämä signaali pitää pystyä normalisoimaan niin, että näistä kaikista erilaisista signaaleista voidaan tunnistaa samat äänteet. C-osio: Ohjelma kuvailee viisi erilaista puheen havaitsemisen mallia. Mikä malleista on mielestäsi uskottavin? Perustele valintasi. (10) Malleista uskottavin on mielestäni Hyper and Hypo speech. Siinä on otettu huomioon myös muiden aistien tuoma informaatio, joka todellakin vaikuttaa aisti-informaatioon. Lisäksi siinä on tehty äänien normalisointi niin että äänteiden muutoksia verrataan vallitseviin olosuhteisiin ja ääneen kokonaisuutenaan. Jos ääni on nopeata tai puhevikaista, niin siihen sopeudutaan ja puheen tunnistus viritetään tähän tilanteeseen. Tämän voi mielestäni huomata vaikka siitä että jos odottaa puhujan puhuvat erilaisella äänellä kuin hän sitten puhuukin, niin aluksi puheen tunnistaminen on todella vaikeata. Myöhemmin kuitenkin kun oppii miten kyseinen ihminen puhuu, niin tunnistaminen on helpompaa. Ainoa häiritsevä puute mallissa on viestin ymmärtämisen ja tunnistuksen puolella. Se toimii mielestäni paremmin Analysis by syntehesis metodissa, jossa saadusta informaatiosta pyritään etsimään itse tuotettuun signaaliin vertaamalla oikea havainto. Olisi loogista, jos opitusta kielestä olisi erilaisia variaatioita muistissamme, johon vain vertaamme kuulemaamme signaalia. Tämä syntetisoitu mallisignaali olisi siis jo valmiina muistissamme.