Annotaatioon liittyvä ydinkäsitteistö

Samankaltaiset tiedostot
Vfo254: Puhekorpusten käyttö. Puhekorpusten lingvistinen representaatio. Yleistä. Symbolinen representaatio. Martti Vainio. Transkription tarkkuus

Puhenäytteiden mittailusta puhekorpuksen perkuuseen: kalastelua mato-ongella ja verkoilla. Mietta Lennes FIN-CLARIN / Helsingin yliopisto

Puhekorpukseet. Puhekorpukset ja puhetietokannat. Puhekorpus. Martti Vainio

Mitä suomen intonaatiosta tiedetään

FONETIIKKA SUULLISEN KIELITAIDON ARVIOINNISSA

Automaattinen semanttinen annotointi

Puhutun ja kirjoitetun rajalla

Åbo Akademi klo Mietta Lennes Nykykielten laitos Helsingin yliopisto

Foneettiset symbolit

» Fonetiikka tutkii puheen: Tuottamista -> ARTIKULATORINEN Akustista ilmenemismuotoa -> AKUSTINEN Havaitsemista -> AUDITIIVINEN

Suomen prosodian variaation tutkimuksesta

TTS. Puhesynteesi (tekstistä puheeksi, engl. text-tospeech,

Yhdyssana suomen kielessä ja puheessa

Prosodian havaitsemisesta: suomen lausepaino ja focus

815338A Ohjelmointikielten periaatteet Harjoitus 2 vastaukset

Mitä puhe on? Fonetiikan perusteet kieliteknologeille. Puheen analyysin viitekehys. Puhe ja Kommunikaatio. Puhe ja kommunikaatio (jatkoa)

Mitä puhe on? Fonetiikan perusteet kieliteknologeille

ARVO - verkkomateriaalien arviointiin

Voimaa arkeen, esiintymistaito, osa 1. c/o Katja Kujala

Luento 12: XML ja metatieto

Vfo254: Puhekorpusten käyttö

Puheaineiston annotaatio eli nimikointi. Mietta Lennes Sanna Ahjoniemi

Vfo254: Puhekorpusten käyttö

Puhe ja kommunikaatio

9. Periytyminen Javassa 9.1

Mitä puhe on? Fonetiikan perusteet kieliteknologeille

Varhainen leikki ja sen arviointi

Taulukot. Jukka Harju, Jukka Juslin

TIEDONHAKU INTERNETISTÄ

Suomen kielen Osaamispyörä -työkalu

Tuotetietopankin alustanvaihdon muutostöiden luokittelu

Kuulohavainnon perusteet

osassa III max-pist pistem pistemäärä osan III maksimista III:N MAX 30 Z Y X (X/Y)xZ=Å Åx0,3 TEHTÄVÄ

Puhesynteesi. Martti Vainio. 11. huhtikuuta 2003

Sanajärjestyksen ja intensiteetin vaikutus suomen intonaation havaitsemisessa ja tuotossa

Puhesynteesin perusteet Luento 5: unit selection -synteesi

Organization of (Simultaneous) Spectral Components

KESKUSTELUNANALYYSI. Anssi Peräkylä Kvalitatiiviset menetelmät

8. Kieliopit ja kielet

Lapsen tyypillinen kehitys. -kommunikaatio -kielellinen kehitys

Kielten rikas maailma jo ennen sanoja Kielen oppimisen varhaisvaiheet, tuen tarpeen tunnistaminen ja tukemisen keinot

Poikkeusinfo XML-rajapinnan kuvaus, rajapinnan versio 2 Seasam Group

Esiintyminen. N-piirin JOVA-koulutus 2010

Digitaalinen audio

VeRan laboratoriotietojen siirtoformaatti

Luento: Puhe. Mitä puhe on? Anatomiaa ja fysiologiaa. Puhetapahtuma. Brocan ja Wernicken alueet. Anatomiaa ja fysiologiaa. Puheen tuottaminen:

Tietokoneohjelmien käyttö laadullisen aineiston analyysin apuna

Tutoriaaliläsnäoloista

M. Merikanto 2012 XML. Merkkauskieli, osa 2

Ctl160 Tekstikorpusten tietojenkäsittely p.1/15

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

Toimintokaavio. UML-Toimontokaavio 1

ARVO - verkkomateriaalien arviointiin

FI3 Tiedon ja todellisuuden filosofia LOGIIKKA. 1.1 Logiikan ymmärtämiseksi on tärkeää osata erottaa muoto ja sisältö toisistaan:

PUHU MINULLE KUUNTELE MINUA

Kompleksiluvut signaalin taajuusjakauman arvioinnissa

Automaatit. Muodolliset kielet

Kirjautumisosoite: wilma.tuusula.fi

1. Skannaus ja tekstintunnistus (OCR) verkkoskannerilta

Verbin valenssi määrää, minkälaisia argumentteja ja komplementteja verbi odottaa saavansa millaisissa lauseissa verbi voi esiintyä.

Rakenteisen oppimateriaalin tuottaminen verkossa esimerkki Rhaptos. Antti Auer Koordinaattori, HT Jyväskylän yliopisto Virtuaaliyliopistohanke

Suomen kielen variaatio 1. Puhuttu ja kirjoitettu kieli Suomen puhekielen vaihtelu

Tiedonhallinnan perusteet. Viikko 1 Jukka Lähetkangas

Puhesynteesin perusteet: Lingvistinen esikäsittely

Kielipankki ja AV-aineistot

FM, laaja-alainen erityisopettaja. Tiina Muukka Oulu

Analytiikka tulosten mittaamisessa. Google Analytics

TIETOINEN HAVAINTO, TIETOINEN HAVAINNOINTI JA TULKINTA SEKÄ HAVAINNOLLISTAMINEN

Ruma merkitys. Tommi Nieminen. XLII Kielitieteen päivät. Kielitieteen epäilyttävin välttämätön käsite. Itä-Suomen yliopisto ...

4.1 Urakäsite. Ympyräviiva. Ympyrään liittyvät nimitykset

Yhteentoimivuusalusta: Miten saadaan ihmiset ja koneet ymmärtämään toisiaan paremmin?

Korpusten käsittely clt131, P Luento 6

AAC -menetelmien sovellus kehitysvammahuoltoon. Kirsi Vainio

Fonetiikan perusteet (FA1/Clt 120): ääni II, ilmavirtamekanismit ja äänteet

Esiintyminen. N-piirin JOVA-koulutus 2012

Päivi Homanen Satakieliohjelma Tampere

ETNIMU-projektin, aivoterveyttä edistävän kurssin 5.osa. Aistit.

Suomen puherytmi typologisessa katsannossa

ISO SUOMEN KIELIOPPI S2- OPETUKSESSA. Muutama havainto

Fonetiikan asema semioottisesti ja fonologian peruskäsitteistöä

Fonetiikan asema semioottisesti ja fonologian peruskäsitteistöä

SGN-4010, Puheenkäsittelyn menetelmät Harjoitus 6, 18. ja

Datatähti 2019 loppu

Sivuston tiedotwindowsrepublic.com.au

CLT131: Tekstityökalut 2011, viides luento

Kielen oppimisen perusta on vuorovaikutus (Launonen, K Vuorovaikutus, riskit ja tukeminen kuntoutuksen keinoin)

Kieli merkitys ja logiikka. 4: Luovuus, assosiationismi. Luovuus ja assosiationismi. Kielen luovuus. Descartes ja dualismi

VIESTINTÄSUUNNITELMA CITIZEN MINDSCAPES TUTKIMUSRYHMÄLLE

Uudet EU-asetukset. EUR-Lexin tarkennetun haun käyttöohje

Ilmoita organisaatiosi kotipaikkana toimiva maa tai alue 2.c KEPA: Sisältääkö hanke 5 prosentin omarahoitusosuuden?

Elisa Chat. Leila Virta

Matematiikan peruskurssi 2

AV-muotojen migraatiotyöpaja - video. KDK-pitkäaikaissäilytys seminaari / Juha Lehtonen

Intonaation analyysi ja annotointi puhekorpuksissa

KUN LUKEMINEN ON HANKALAA. Helena Sorsa

Luonnos eams-rakenteeksi

Sisällys. 9. Periytyminen Javassa. Periytymismekanismi Java-kielessä. Periytymismekanismi Java-kielessä

LAINAUSJÄRJESTELMÄ. Kyllä. Vihermetsän lukion kirjastossa on samankaltainen, mutta monimutkaisempi lainausjärjestelmä:

Massahaun tulosten tulkintaa

Hankinnan sisällön määrittely

Transkriptio:

Annotaatioon liittyvä ydinkäsitteistö Mietta Lennes 27. marraskuuta 2002 Ydinkäsitteitä *aivastus (sneeze) Merkintä: [.sneeze] *annotaatio (annotation) Jonkin tallenteen (puhe, video, teksti tms.) määrättyyn ulottuvuuteen (ts. tallenteen osaan tai pisteeseen) liitetty kuvaus tai representaatio (symbolinen tai ei). Annotaatio siis liittyy joko segmenttiin tai ankkuriin, jotka taas viittaavat tiettyyn tallenteeseen. Yksittäisen annotaation sisältämää kuvausta kutsutaan myös nimikkeeksi. Esimerkkejä: Äänisignaalista tehty transkriptio on annotaatio, kun se on liitetty äänisignaalin aikaulottuvuuteen. Erilaiset tekstin joukkoon lisätyt tagit (tag) ovat annotaatioita. Samalla tallenteella voi olla useita rinnakkaisia annotaatioita. Mutta: jollakin perusteella pitänee kuitenkin määritellä, mikä rinnakkaisista annotaatioista on oletusannotaatio? Ehkä tietokannan käyttäjä määrittelee preferenssinä suosikkiannotoijansa? Ehdotus: kun annotoija tarkastelee tai muuttaa jonkun toisen tekemää annotaatiota, hän voi samalla merkitä tiettyjä annotaatiotasoja tai niiden osia sellaisinaan hyväksytyiksi. Näin saadaan käyttöön mahdollisimman paljon useamman henkilön tarkastamia annotaatioita. Hakuvaiheessa hakukone voi sisällyttää hakuun tietystä tallenteesta vain ne osat, jotka ovat käyttäjän suosikkiannotoijien tekemiä tai hyväksymiä. *annotaatioalue, annotaatiodomeeni (annotation domain) Joukko annotoitavia ilmiöitä, jotka ainakin löyhästi liittyvät samaan aihealueeseen. Annotaatioalueet eivät ole ehdottomia tietokannan rakenteen kannalta, ja käsitteet tietyllä annotaatioalueella voivat olla tiiviissäkin yhteydessä jonkin toisen alueen käsitteisiin. *annotoija (annotator) Annotaatioiden laatija. Sisältyy tallenteeseen liittyvään metadataan. Samalla tallenteella voi olla useita annotoijia ja vastaavasti useita rinnakkaisia annotaatioita. Annotoijaa koskevaa metadataa: milloin viimeksi muuttanut annotaatiotaan, onko sertifioitu annotoija,... *dialogi (dialogue) Keskustelu, johon osallistuu (aktiivisesti) kaksi puhujaa. Attribuutit: suunnittelematon puhe. *ei-kielellinen äännähdys (non-speech noise) Merkintä: [.ns] *ele (gesture) Puheeseen liittyvä vartalon tai raajojen liike. Standardit puuttuvat. ISLE: Pään eleet: rotaatio, kulma eteen/taakse, sivuttaiskulma. Käsien eleet: funktio ( osoittaminen, ei, takaisin ), modifioijat: viittaus projisoitavaan kuvaan, raaka morfologinen muoto (esim. ympyrä yhdellä kädellä ), alku- ja loppukoordinaatit. *epäselvä puhe (unclear speech) Jakso puhetta, jonka sisällöstä annotoija ei ole saanut selvää. Merkintä: [.unclear] *haukotus (yawn) Merkintä: [.yawn] *hengitys (breathing) Vaatii oman annotaatiokerroksen, koska sisään- ja uloshengitys voi esiintyä päällekkäin monen muun puheen ilmiön kanssa. Esim. sisäänhengitys puhunnoksen aikana implikoi ingressiivistä puhetta. Läheskään kaikki hengitykset eivät erotu äänisignaalissa eivätkä siis ole annotoitavissa (ilman fysiologista lisäinformaatiota). Jos hengityksen alku ja loppu ovat erotettavissa, ne eivät kuitenkaan välttämättä ole tarkkarajaisia. Attribuutit: sisään/ulos *huokaus (sigh) Merkintä: [.sigh] 1

*institutionaalinen puhetilanne (institutional speech situation) Puhetilanne, jossa ainakin yksi puhuja edustaa jonkinlaista muodollista organisaatiota (tai on tilanteessa ammattilainen).[?] *ilme (mimic) Kasvojen ilme. (Attribuuttina ilmeen kategoria: viha, ikävystyneisyys, ilo/onnistuminen, hämmästys, neutraali/määrittelemätön, kasvot osittain näkymättömissä. Standardit vasta kehitteillä.) *istunto, sessio (session) Lingvistisen analyysin perusyksikkö: koherentti lingvistisen toiminnan tai suorituksen tyyppi [?]. Istunto on tekninen nimitys niille metatiedoille, erityyppisille tallenteille ja annotaatioille, jotka kuvaavat samaa kielellistä tapahtumaa tai tilannetta. Istunto muodostaa kimpun tiiviisti yhteenkuuluvaa aineistoa: esim. tietystä puhujasta tehty videotallenne, kuvia hänen kodistaan, kenttähuomautuksia tapahtumapaikasta ja videotallenteeseen liittyvät multimodaaliset annotaatiot. Istunnon käsite on määritelty IMDI-standardissa. *keskustelu Puhetilanne, johon osallistuu vähintään kaksi puhujaa. Yläkäsite: puhetilanne. Alakäsitteitä: arkikeskustelu, institutionaalinen keskustelu. Attribuutit: suunnittelematon puhe. *kuiskaus (whisper) Merkintä: äänenlaatutasolla [0] *lause (clause) Alakäsitteet: päälause, sivulause. *lukupuhunta (reading aloud) Alakäsitteet: institutionaalinen ja ei-institutionaalinen lukupuhunta. Attribuutit: suunniteltu puhe. *maiskaus huulilla (lip smack) Merkintä: [.ls] *maiskaus kielellä (tongue click) Merkintä: [.tc] *metatieto, metadata (metadata) Kokonaiseen puhetietokantaan tai johonkin sen sisältämään tallenteeseen liitetty yleiskuvaus, viitetiedot ja muu oheisinformaatio. EAGLES/ISLE:n yleiskatsaus kielitieteelliseen metadataan: [?] *monologi, yksinpuhelu Puhetilanne, jossa on vain yksi puhuja. Passiivisia kuulijoita voi kuitenkin olla läsnä. Yläkäsite: puhetilanne. *murre (dialect) *nauru (laughter) Merkintä: [.laugh] *nielaisu (swallow) Merkintä: [.swallow] *nimike (label) Ankkurille tai segmentille (tai näiden joukolle) annettu kuvaus tai analyyttinen merkintä, eli annotaatio. *nimikointi (labeling) Puheen symbolisten kuvausten (transkriptioiden) liittäminen segmentoituun puhetallenteeseen. *noodi/ankkuri näyte (sample) tai indeksoitu yksikkö (esim. tekstitallenteessa merkki). Tietty tallenteen piste tai paikka, johon voidaan kohdistaa annotaatio tai jota voidaan käyttää segmentin alkuna tai loppuna. *puhetietokanta (speech database) Järjestetty kokoelma annotoituja puhetallenteita, joista voidaan tehdä hakuja (sisältää jonkinlaisen hallintajärjestelmän). Yläkäsite: puhekorpus. *puhetilanne Tilanne, jossa vähintään yksi ihminen tuottaa puhetta. Sisältyy tallenteen metadataan. Attribuutteja: puhujien kokonaismäärä tallenteessa; institutionaalinen vai arkikeskustelu; avoin/yksityinen; onko yleisöä tai tarkkailijoita läsnä; tilanteeseen liittyvät esineet; jne. Mukana voi olla vapaasanainen kuvaus, esim. syntymäpäiväjuhlat, ostoksilla, kaupan takahuoneessa. Alakäsitteitä: monologi, keskustelu. Assosiaatiot: tapahtumapaikka. *puhuja (speaker) Puhetietokannan sisältämissä tallenteissa esiintyvän puhujan pysyvät tiedot puhetietokannan metadatassa, tai puhujan muuttuvat tiedot kunkin relevantin puhetallenteen metadatassa. Kummassakin tapauksessa tiettyyn puhujaan viitataan ainutkertaisella ID-koodilla. Myös jossakin tallenteessa esiintyvällä tunnistamattomalla puhujalla on oma ID-koodi, vaikkei hänestä tiedettäisi mitään muuta. Puhujan pysyvät attribuutit: ID-koodi, sukupuoli, syntymäaika, syntymäpaikka, vanhempien murteet 2

Puhujan muuttuvat l. tallennekohtaiset attribuutit: kielitaito, asuinpaikat, koulutus, ammatti, uskonto, puolison murre, lasten määrä; rooli ko. puhetilanteessa; suhde kuhunkin toiseen puhujaan; palkkio tms. korvaus; lupa tallenteen käyttöön *puhujat (speakers) Tallenteen aikana esiintyvien puhujien ID-koodit. Tallenteeseen liittyvää metatietoa. *puhujien lukumäärä (number of speakers) Puhujien kokonaismäärä tallenteen aikana. Tallenteeseen (tai koko istuntoon) liittyvää metatietoa. Puhujien kokonaislukumäärä voidaan ohittaa alemman tason annotaatiossa esim. kun puhujia liittyy mukaan tai poistuu keskustelusta. *puhujien visuospatiaalinen suhde (visuospatial relationship between speakers) Puhujan suhde tilassa kuhunkin toiseen puhujaan. Attribuutit: näkyvyys, kanava (esim. puhelin), fyysinen välimatka. (voidaan ohittaa alemman tason annotaatiossa, jos muuttuu) *puhunnos (utterance) Jakso, jonka aikana puhuja yhtäjaksoisesti puhuu (artikuloi). Puhunnoksen voi päättää tauko, hengitys (jonka aikana ei artikuloida), täytetty tauko, tms. *rykäisy (clear throat) Merkintä: [.ct] *sane, sananmuoto (word form, token) Sana siinä muodossa kuin se puheessa esiintyy, kaikkine affikseineen. Attribuutteja: sanaluokka, lemma, (onko myöhäinen laina,) onko vierasta kieltä Mahdollisia merkintätapoja eri tasoilla: ortografinen, ortokrafine, [saneen foneettinen transkriptio]. *segmentointi (segmentation) Erilaisten yksiköiden (ajallisten) alku- ja loppupisteiden etsiminen ja merkitseminen puhe- tms. signaalista. Tuloksena segmenttejä. *segmentti (segment) Puhe-, video- tms. signaalin osa, jolla on määrätty alku- ja loppupiste, eli segmentti liittyy kahteen eri kohdissa signaalia olevaan ankkuriin. (Huom. yksittäinen, jollakin periaatteella signaalista määritetty piste ei ole segmentti vaan ankkuri.) *suunniteltu puhe (planned speech) Puhetyyli, jossa puhujan puhe on suunniteltu etukäteen, esim. hän lukee ääneen, puhuu ulkomuistista tai näyttelee. Alakäsitteet: suunniteltu institutionaalinen puhe, suunniteltu ei-institutionaalinen puhe, suunniteltu puhe koetilanteessa. *suunnittelematon puhe (unplanned speech) Puhetyyli, jossa puhujan puhetta ei ole suunniteltu etukäteen. Alakäsitteet: suunnittelematon institutionaalinen puhe, suunnittelematon puhe kontrolloidussa koetilanteessa ja suunnittelematon ei-institutionaalinen puhe. *tallenne (record) Tarkoittaa tässä vain digitaalisia tallenteita, jotka on mahdollista liittää puhetietokantaan. Yläkäsite: istunto. Alakäsitteitä: äänitallenne, videotallenne, tekstitallenne. Metadataa: Attribuutteja: *tunniste, *nimi, *koko, *tyyppi, *formaatti, tapahtumapaikan kuvaus, tallennusvälineet, äänitysajankohta, muutosajankohdat, äänittäjä, aihe, kuvaus, julkaisija, toimittaja, lähde, kieli, suhde, kattavuus, *oikeudet. Assosiaatiot: puhetilanne (kuuluu myös tallenteen metadataan). *tapahtumapaikka (setting) Yleiskuvaus paikasta, josta istunnon sisältämä aineisto on kerätty. Assosiaatiot: puhetilanne. *tauko (pause) Puhetallenteen segmentti, jonka aikana puhuja ei artikuloi. (Huom. muut prosodiset rajat, esim. intonaatioyksiköt, merkitään erikseen ja ne kuuluvat prosodiseen alueeseen.) *transkriptio (transcription) Puhetallenteen tai sen osan symbolinen kuvaaminen. Edellyttää aina tulkintaa. Tiukasti määriteltynä transkriptio on annotaation alakäsite vain siinä tapauksessa, että transkriptio on jollakin tavalla liitetty siihen tallenteeseen, jota se kuvaa. *vuoro, puheenvuoro (turn) 1) saman puhujan tietyssä keskustelussa tuottama puheen jakso, jonka aikana muut eivät puhu päälle (vallitseeko keskusteluntutkimuksessa nykyään? voiko sisältää taukoja ja kuinka pitkiä?) tai 2) saman puhujan tietyssä keskustelussa tuottama puheen jakso, jonka aikana muut samaan keskusteluun osallistuvat puhujat eivät keskeytä häntä (esim. tauot, minimipalautteet, epäonnistuneet keskeytysyritykset sallittaisiin) Huom. Vuoron määrittely ei tässä vaiheessa ole välttämätöntä, koska vuoron käsite voidaan molemmissa 3

tapauksissa johtaa muista annotaatioista. (Attribuutteja: ks. kommunikatiivinen akti.) *yleisö (audience) Yksi tai useampia ihmisiä, jotka ovat läsnä puhetilanteessa, mutteivät osallistu siihen puhujina. Yleisö voi joko yksinomaan tarkkailla tai myös antaa merkkejä hyväksynnästä (nyökkäykset, suosionosoitukset). Puhujat ovat tietoisia yleisöstä. Yleisö voi olla myös esim. kokeen johtaja. Yleisön läsnä- /poissaolo on istuntoon tai tallenteeseen liittyvää metatietoa (puhetilanteen attribuutti). *yskiminen (cough) Merkintä: [.cough] *äänenlaatu (voice quality) Puhujan tuottaman soinnin laatu, esim. modaaliääni, narina, henkäyssointi, falsetti ja kuiskaus. Vaatii oman annotaatiotasonsa, koska voi esiintyä päällekkäin muiden ilmiöiden kanssa. Äänenlaatuilmiöiden luokittelu on vaikeaa ja tutkimuksissa on todettu, että ihmiset kykenevät erottamaan lähinnä vain narinaäänen melko luotettavasti [?]. Merkintäehdotus: glottalisaatio [?], henkäyssointi [Hv], kuiskaus [0],... (modaaliääntä ei tarvitse merkitä) *äänne, fooni (sound, phone) Pienin mahdollinen kvalitatiivinen (= laadullinen) puheen segmentti, joka kuulon avulla voidaan erottaa muista segmenteistä. Esim. brit. engl. sanassa <church> kirkko, jonka kirjoitusasussa on kuusi kirjainta, voidaan erottaa viisi äännettä. Sana alkaa ja päättyy affrikaattaan [ts], jonka kaksi segmenttiä ([t] ja [S] = suhu-s) voidaan erottaa kuulon avulla. Fonologisesti sanassa on kuitenkin vain kolme foneemia, koska affrikaatta on itsenäinen foneemi. Tietyissä tapauksissa äänne ja #piirre# voivat olla vaikeasti erotettavissa: voimakas aspiraatio on kuultavissa (esim. englannissa vokaalin edessä [p]:ssä sanassa <pea> papu ) ja voi olla kestoltaan tavallisen äänteen mittainen ja muodostaa oman, puheen virrasta erottuvan segmentin[?]. Merkintä: [foneettinensymboli( tarke)( tarke)]. Annotaatiodomeenit Akustis-laskennallinen annotaatiodomeeni akustis-laskennallinen annotaatiodomeeni (acoustic-computational annotation domain) Tämän annotaatiodomeenin käsitteet ovat automaattisesti tai puoliautomaattisesti johdettavissa muusta tietokannan informaatiosta. Millaista akustista ja laskennallista tietoa tietokantaan pitäisi välttämättä tallentaa? Ylimääräiset mittaukset ja tiedot vievät tallennustilaa, mutta usein käytettävät ja raskaat analyysit voidaan suorittaa ja päivittää offline, jolloin ne ovat heti käyttäjän ulottuvilla. Foneettinen annotaatiodomeeni foneettinen annotaatiodomeeni (phonetic annotation domain) Annotaatiodomeeni, jossa kuvataan foneettista tulkintaa vaativat ilmiöt. prosodinen annotaatiodomeeni (prosodic annotation domain) Puheen sävelkulkua, painotusta ja kestoja käsittelevä annotaatiodomeeni. Sisältyy osana foneettiseen domeeniin. Lingvistinen (kielellinen) annotaatiodomeeni lingvistinen annotaatiodomeeni (linguistic annotation domain) Lingvististä tulkintaa vaativat annotaatiot. morfologinen annotaatiodomeeni (morphological annotation domain) Morfologisten annotaatioiden muodostama kokonaisuus. Syntaktinen annotaatiodomeeni syntaktinen annotaatiodomeeni (syntactic annotation domain) Lauseiden rakenteeseen liittyvät annotaatiot. 4

Tekstuaalinen annotaatiodomeeni tekstuaalinen annotaatiodomeeni (textual annotation domain) Annotaatiodomeeni, joka koskee tekstitallenteita tai lukupuhuntaa (kirjoitetun tekstin piirteiden annotointi). Semanttis-pragmaattinen annotaatiodomeeni semanttis-pragmaattinen annotaatiodomeeni (semantic-pragmatic annotation domain) Annotaatiodomeeni, joka koskee tekstitallenteita tai lukupuhuntaa (kirjoitetun tekstin piirteiden annotointi). Paralingvistinen annotaatiodomeeni paralingvistinen annotaatiodomeeni (paralinguistic annotation domain) Puheen paralingvistisiä ominaisuuksia käsittelevät annotaatiot. Diskurssiannotaatiodomeeni diskurssiannotaatiodomeeni (discourse annotation domain) Annotaatiodomeeni, joka käsittelee puheen vuorovaikutuksellisia piirteitä. Visuospatiaalinen annotaatiodomeeni visuospatiaalinen annotaatiodomeeni (visual annotation domain) Näköaistiin ja siihen pohjautuvaan kommunikaatioon liittyvien käsitteiden muodostama kokonaisuus ja annotaatiodomeeni. Eleet, ilmeet. Haptinen annotaatiodomeeni haptinen annotaatiodomeeni (haptic annotation domain, tactile annotation domain) Kosketus- ja tuntoaistia käsittelevä annotaatiodomeeni. Mittausannotaatiodomeeni mittausannotaatiodomeeni (measurement annotation domain) Annotaatiodomeeni, joka koskee sellaisia mitattuja fysiologisia signaaleja, joihin edellämainitut annotaatiot eivät sovellu. Esim. artikulaatioon liittyvät mittaukset, aivosähkökäyrä (EEG), tms. Muita mahdollisesti tarvittavia käsitteitä Eleiden luokittelua deiktinen ele (deictic gesture) Osoittamiseleitä, joilla merkitään joko läsnäolevaa objektia tai henkilöä tai abstraktia entiteettiä kuten se oli hyvin valmisteltu ja [se] oli hyvä juttu, missä [se]-sanan aikana esiintyy osoittava ele, joka viittaa se oli hyvin valmisteltu. emblemaattinen ele (emblematic gesture) Ele, johon liittyy kulttuurisidonnainen viesti joka olisi myös ilmaistavissa sanoin; esimerkiksi peukalot pystyyn -ele. ikoninen ele (iconic gesture) Ele, joka on jossakin suhteessa samanaikaisen puheen sisältöön, esim. kirjoituseleen tekeminen, kun pyydetään allekirjoitusta. Attribuutteja: muoto = muoto tai toiminta, johon ele viittaa. iskuele (beat gesture) Rytminen liike, joka esiintyy sanan tai ilmauksen yhteydessä, muttei ole missään visuaalisessa suhteessa kielelliseen sisältöön. lokaatio (location) Korkeus ja lateraalinen asema eleavaruudessa. Eleen ominaisuus. metaforinen ele (metaphoric gesture) Ikonisen eleen sukulainen, joka on metaforisessa suhteessa puheen sisältöön, esimerkiksi palikan piirtäminen kädellä ilmaan, kun palikka kuvaa vaikkapa taloa tai pankkitiliä. 5

Muita käsitteitä lingvistinen signaali (linguistic signal) Aikasidonnainen, kielellisestä toiminnasta tehty tallenne (Steven Birdin määritelmä). Esimerkkejä: kielellistä toimintaa kuvaava ääni-, video- tai fysiologinen tallenne, jokin näistä johdettu signaali (esimerkiksi perustaajuus), tai teksti. Lingvistinen signaali indeksoidaan joko näytteinä (sample) tai tekstin kohdalla merkkeinä (character). tavu (syllable) Tavu on puheentuoton eräs perusyksikkö. Tavun sisäisessä rakenteessa erotetaan tavun keskus (centre, nucleus), tavun avaava segmentti (onset) ja tavun päättävä segmentti (coda). Tavunrajaa ei kuitenkaan ole aina helppoa määrätä.[?] Fonologinen tavurakenne voi erota huomattavasti foneettisesti toteutuneesta äännejonosta. Yläkäsite: sana (tavu ei ole mahdollinen ilman tunnistettavaa sanaa?). Merkintä: [tavu] (omalle annotaatiotasolleen) funktionaalinen tyyppi (functional type) Saneen attribuutti. Arvoja: negaatio; modaalinen (välttämättömyys, mahdollisuus); episteeminen (tieto, usko); 3-ulotteiset suhteet objektien välillä, kausaaliset suhteet asiantilojen välillä, deiktiset funktiot (henkilö, spatiaalinen, temporaalinen); palautefunktio, oman kommunikaation hallinta; muu? kommunikatiivinen akti (communicative act) Yhteisesti hyväksyttyä ja kaikkiin tapauksiin sopivaa perusluokitusta ei ole, mutta periaatteessa tällainen informaatio on mahdollista annotoida tutkijan omien mieltymysten mukaan. (Miten määritetään puheen tai eleen segmentti, johon tietty akti liittyy?) Olisi ehkä mahdollista jaotella puheenvuorot seuraavasti: partikkelivuoro, lauseke, lause, moniyksikköinen (multiunit turn). Voisi myös merkitä helposti tunnistettavia rakenteellisia piirteitä: interrogatiivi (hakukysymys tai ko-kysymys), deklaratiivi, eksklamatiivi. Sekalaisempia esimerkkejä: väite/toteamus, ymmärrys, kysymys, vastaus, vahvistus, avaus, lopetus, varmistus, kiittäminen, toisto, uudelleenmuotoilu, jatkokehotus, odotus, korjaus, toistopyyntö, hyväksyntä, vahvistuspyyntö, täydennys/selvennys, anteeksipyyntö, selitys, epäröinti, keskeytys, vitsi, vuoron pitäminen, vastalause, tarjous, muistutus, johtopäätös, pyyntö, itsen vahvistus, määrittely, esittäytyminen, muu (epäselvä). 6