Prosovar-hankkeen väliraportti Puheaineiston keruusta verkossa sekä havaintoja aineistosta Tommi Nieminen 2 Tommi Kurki 1 Hamid Behravan 1 Heini Kallio 3 1 Turun yliopisto, 2 Itä-Suomen yliopisto, 3 Helsingin yliopisto Fonetiikan päivät, 5 6 3 2015 Otaniemi
Jäsennys 1 Johdanto 2 Keruukone 3 Kertynyt aineisto ja sen laatu 4 Pari tehtyä havaintoa
Prosovar-hanke Prosovar = Suomen prosodian alueellinen ja sosiaalinen variaatio Tommi Kurjen (TY) ja Tommi Niemisen (ISY) ideoima hanke, jonka johtajana toimii Kurki ja jota sen mukaisesti hallinnoidaan Turun yliopistosta lisäksi hankkeessa ovat toimineet Hamid Behravan (ISY > TY) hankkeen keruusivuston suunnittelijana sekä Heini Kallio (HY) väitöskirjantekijänä
Mistä hankkeessa on ollut kyse? hankkeen päämääränä on ollut: 1) kerätä suomesta prosodian tutkimukseen soveltuva puhetietokanta 2) kehittää tähän uusi, joukkoistukseen perustuva keruumenetelmä 3) tutkia suomen prosodian alueellista ja sosiaalista variaatiota hanketta rahoitti Koneen säätiö 1 8 2013 31 5 2015; hankkeelle on haettu ja haetaan uutta rahoitusta
Jäsennys 1 Johdanto 2 Keruukone 3 Kertynyt aineisto ja sen laatu 4 Pari tehtyä havaintoa
Keruukone verkossa
Joukkoistusta? Puhuutufi on ollut aito yritys joukkoistaa keruuta ei vain hyödyntää verkkoa keruun menetelmänä tavoitteena on ollut sivusto, jonne ihmiset voisivat palata: erilaisia tehtäviä pelimäisyyttä karttuvaa tietoa paluukanava tutkijoilta kerääjille täysin tässä ei toistaiseksi ilmeisesti ole onnistuttu, koska kerran äänittäneet eivät juurikaan palaa miten lisätä vuorovaikutteisuutta? miten tehdä joukkoistamisesta aidompaa?
sivustolla on erilaisia tehtäväsarjoja Erilaisia tehtäviä käyttäjä voi aina keskeyttää tehtävien tekemisen ja palatessaan saa eteensä tekemättömiä niin kauan kuin niitä on tarjota tehtävissä pyritään vakioimaan taustatekijät niin, että puhunnokset olivat mahdollisimman pitkälle vertailukelpoisia tavallisia tilanteita, arkista toimintaa sama asia eri murtein tehtävien tyyppejä: marjojenostokeskustelu videon tapahtumien kuvailu henkilön opastus (kuvitteellisen) kartan avulla ja niin edelleen älkää minua uskoko vaan käykää itse katsomassa!
Jäsennys 1 Johdanto 2 Keruukone 3 Kertynyt aineisto ja sen laatu 4 Pari tehtyä havaintoa
Kertynyt aineisto noin 700 rekisteröitynyttä mutta (oikeasti) äänittäneitä käyttäjiä 270 useimmat äänittäneistä ovat kuitenkin tehneet useamman kuin yhden äänityksen pelleilijät ovat olleet hyvin harvassa toistaiseksi on turha puuttua vielä sosiaaliseen variaatioon: aineistoa on siihen liian vähän informanttien sosiaalinen jakauma on vinoutunut sosiaalisia muuttujia on Suomessa perinteisestikin ollut vaikea määrittää
Mistä käyttäjähävikki? rekisteröityneitä käyttäjiä on ollut selvästi äänittäneitä enemmän: mistä tämä voi johtua? tehdäänkö rekisteröityminen vain, jotta päästään katsomaan, millaisia tehtävät ovat? onko joukossa ehkä murtautumis- tai muita häirintäyrityksiä? vai eikö sivuston tekniikka kaikille käyttäjille edelleenkään toimi?
Jakauma murrealueittain (Perinteinen jako pääkaupunkiseutukorjauksella) lounaismurteet 23 siirtymämurteet 44 hämäläismurteet 31 Etelä-Pohjanmaan murre 8 keski- ja pohjoispohjalaiset murteet 21 peräpohjalaismurteet 5 savolaismurteet 47 kaakkoismurteet 8 pääkaupunkiseutu 61 perint ruotsinkieliset alueet 1 ulkomaat 3
Jakauma asuinmaakunnittain Varsinais-Suomi 41 Satakunta 26 Etelä-Karjala 7 Pohjois-Karjala 12 Etelä-Savo 7 Pohjois-Savo 10 Kainuu 2 Kanta-Häme 4 Pirkanmaa 15 Päijät-Häme 5 Keski-Suomi 13 Kymenlaakso 4 Pohjanmaa 1 Etelä-Pohjanmaa 7 Keski-Pohjanmaa 2 Pohjois-Pohjanmaa 18 Lappi 5 Uusimaa 70 muu 3
Riittääkö laatu? lähtökohtana on alkuaankin ollut tutkittavien prosodisten piirteiden (F0, A0, d) robustius: suhteet riittävät, absoluuttinen arvo merkityksetön äänitystasoa on arvioitu kuvailevalla asteikolla; keskiarvo on tyydyttävä äänitystaso-ongelmien lisäksi muita äänitykseen laatuun liittyviä ongelmia: huono S/N-suhde (taustahäly, usein jo itse tallentavasta laitteesta) huono taajuusvaste (etenkin korkeat taajuudet huonoja: esim frikatiivien analyysi mahdotonta) muita, oudompia ongelmia
Äänitystaso erinomaisesta 1 puhuja 282, tehtävä 3-17 0-1 mitäs marjo(j)a sull on tänääm myytävänä mi tæs ma r joff @ sul loñ tæ næ :m my : tæ Væ næ m i t æ s m A r j off @ s u l: o n t æ n æ : m: y : t æ V æ n æ 3763 5676 Time (s)
heikkoon 1 puhuja 271, tehtävä 5-38 0-1 oetaanko taksi kotua lentokentälle o e ta ff:n tak si ko tu A» leñ to keñ tæl le o e t A ff: N t A k s i k o t u A» l e n t o k e n t æ l: e 2532 432 Time (s)
Korkeiden taajuuksien katoaminen 1 puhuja 163, tehtävä 1-1 0-1 sellases sel la ses s e l: A s e s 8792 9234 Time (s)
Outoja ongelmia 1 puhuja 240, tehtävä 4-27 0-1 pikku pik ku p i k: u 1007 1043 Time (s)
Jäsennys 1 Johdanto 2 Keruukone 3 Kertynyt aineisto ja sen laatu 4 Pari tehtyä havaintoa
Missä mennään? ensimmäinen osatavoite on saada kultakin äänittäneeltä luotettavasti segmentoitua sanat, tavut ja foonit vähintään yhdestä äänitteestä (pientä hävikkiä on luvassa siitä, etteivät aivan kaikki äänitteet ole ehkä segmentoitavissa laatusyistä) tämä segmentointi riittää jo kestosuhteiden (ja niiden mahdollisen variaation) analyysiin seuraava tavoite on merkitä prominenssit: aksentit eli lausepainot
F0:n loppunousut 300 puhuja 120, tehtävä 2-7 Pitch (Hz) 250 200 150 Pe li me ol la:n tæs sæ kus ta :N ka dul la 100 50 1471 3258 Time (s)
Vokaali osana s:ää 1 puhuja 205, tehtävä 1-46 0-1 kosk sit se unohtaa tän kosk süt se unoh no h ta: Dflæñ k o s k sü t s e u n o h t A: Dfl æ n 3102 3222 Time (s)
Puolivokaaliprosodia Sana marjoja 5000 puhuja 224, tehtävä 3-17 4000 3000 2000 1000 0 m A rü ø
KIITOS!