Puheentutkimuksen tilastoanalyysin perusteet Pertti Palo 2.11.2011
Kuka? Tekn.Lis. Pertti Palo pertti.palo (ät) helsinki.fi vastaanotto sopimuksen mukaan Todennäköisyyslaskua keväästä -99 Puhetieteiden jatko-opiskelijawannabe Mitäs muuta?
Mitä? Puheentutkimuksen tilastoanalyysin perusteet laajuus: 4op II-III periodi 1. luento 2.11., 1. harjoitus 10. tai 11.11. (ryhmiä on kaksi) esitiedot: lukiosta voi olla apua, ilmankin selviää suorittaminen: luentokuulustelut ja harjoitustyöt tavoitteet: tehdä data-analyysin peruskäsitteistä arkipäiväisiä oppimateriaali: nämä kalvot, netissä julkaistava materiaali ja vaikkapa Baayen: Analyzing Linguistic Data A practical introduction to statistics luvut 1-4
... ja kauanko siihen menee? Luentoja 7*2+3*2 = 20h Harjoituksia 6*2+4*2 = 20h Yhteensä 40h 4op = 4*26.7 = 106.8h 106.8h / 2 = 53.4h 53.4h - 40h = 13.4h Harjoitustyö + kahden opponointi = 13.4h / 3 4.5h
... ja kalenterin kanssa? Alustavaa aikataulua: II periodin luennot 2.11.-14.12. II periodin harjoitukset 10.11.-16.12. III periodissa luennot 25.1., 1.2. ja 29.2. III periodissa 18.1.-29.2. välisenä aikana muilla viikoilla toinen harjoitusryhmä ke 14-16 ja toisen aika avoin 1. harjoitustyö DL n. 30.11. 2. ja 3. harjoitustyö III periodissa Seminaariluennot 7.12., 1.2. ja 29.2.... alustavasti
Hä? Asiasisältöön kuuluu alustavasti (mm.): muuttujat, yhtälöt, kaavat, nominaaliset ja jatkuvat muuttujat, useampi ulotteiset muuttujat mittaustasot, laatuero yms. asteikot kuvailevien suureiden järkevä käyttö: mm. prosenttiosuudet vs. absoluuttiset suhteet datavektorit, suuret datamatriisit, datan visualisointi ja käsittely lineaariset ja logaritmiset asteikot suureiden (SPL, F0, formantit, kestot, tavumäärä) kuvaamisessa tilastolliset tunnusluvut: keskiarvo, otoskeskiarvo, varianssi, keskihajonta, kovarianssi otoskoon vaikutus tunnuslukuihin; outlierit ja datan rajaaminen muuttujien väliset suhteet: verrannollisuus, korrelaatio ja kausaalisuus
Kui oikeesti? No, näin: luentokuulusteluissa kaksi (helppoa) kysymystä joka kerralla -> max 20p -> arvosana 0-5 kolme harjoitustyötä ja kustakin arvosana 0-5 kurssin kokonaisarvosana (jos kaikki osat hyväksytty) 0.4*luennot + 0.2*(harjoitusten summa)
Kui oikeesti (siis suomeksi)? No, näin: Tämän kerran luentokuulustelu: 1. Mihin tilastollisilla menetelmillä tähdätään? 2. Mikä on skalaarin ja vektorin ero? Kolme harjoitustyötä jotka tehdään (2-)3 hengen ryhmissä jotka tehdään R -nimisellä tilasto-ohjelmalla joista kirjoitetaan raportti jotka opponoidaan ja arvostellaan ristiin ryhmien kesken joista yhden kukin ryhmä esittelee seminaarissa. Kurssin kokonaisarvosana muodostuu (painotettuna) summana edellisistä. Tarkoitukseni on saada kaikki tosissaan kurssia tekevät siitä läpi hyvällä arvosanalla.
Avoin kysymys: Kuinka alkupään harjoitukset, jotka eivät ole harjoitustöitä, pitäisi ottaa huomioon? Pitäisikö ylipäätään?
Entä jos...? No, säädetään: jos on ongelmia aikataulun kanssa, sovi poikkeusjärjestelystä jos jokin harjoitustyö on liian työläs, kertokaa heti jos jokin asia ei vain toimi, keksitään parempi ratkaisu / jätetään tarvittaessa vaikka osa tehtävästä tekemättä pidetään aina mielessä kokonaisuus ja kurssin tulevaisuus
Muita juttuja Nettisivut Palauteryhmä Harjoitusryhmiin jakautuminen Rästitentti Oliko muuta?
Aloitetaanpa sitten Kahvitauon paikka? Ensin kuitenkin Toisenlainen tapa nähdä matematiikka.
Toisenlainen tapa nähdä matematiikka Kumpi on tärkeämpää rakentajalle kantava talon runko ja sen pystyttämisen periaatteet vai ruuvit ja akkuvääntimen tekniikka? Talo itse vai sen rakentamiseen käytetyt työkalut? Tällä kurssilla opetellaan käyttämään työkaluja, joilla voidaan tehdä tutkimusta, analysoida dataa.
Toisenlainen tapa nähdä matematiikka Näitä työkaluja ovat: matemaattiset käsitteet ja menetelmät (muuttujat, yhtälöt, funktiot, derivaatta) elävät ideamaailmassa, todennäköisyyslaskun käsitteet ja menetelmät (ehdollinen todennäköisyys, satunnaismuuttujat, jakaumat, odotusarvo, korrelaatio, jne.) elävät ideamaailmassa, tilastotieteen käsitteet (otos, keskiarvo, otoshajonta jne.), tilastotieteen menetelmät (testit, mallit yms), tilastolliset ohjelmat kuten R, SPSS, Excel, Matlab elävät reaalimaailmassa. Nämä työkalut eivät ole: aina uusimpia ja hienoimpia, mustia laatikoita, pääasia.
Mikä sitten on pääasia? Oppia lukemaan aiempia tutkimuksia. Oppia käyttämään oikeita työkaluja oikeaan tarpeeseen. Oppia riittävästi työkalujen ominaisuuksista, jottei käytä vahingossa väärää työkalua. Oppia rakentamaan tarpeet siten, että käytettävissä olevat työkalut riittävät. Oppia suunnittelemaan kokeet siten, että esitettyihin kysymyksiin on mahdollista ja helppoa vastata. Oppia riittävästi, jotta selviää graduun tarvittavasta data-analyysista. Rakentaa pohjaa hienompien, uudempien menetelmien oppimiseen.
Kahvitauko Kahvitauon jälkeen Data-analyysia, muuttujia ja todennäköisyyksiä.
Data-analyysia 1 Millaista dataa haluamme? Riippuvuussuhteita kuvaavaa, moniulotteista, pitkältä ajalta kerättyä, usealta koehenkilöltä kerättyä, erilaisilla käsittelyillä saatua... Jopas on! Eikä siinä kaikki...
Data-analyysia 2 Millaista data yleensä on? Vajaata, virheellistä, biasoitunutta, kohinaista, epävarmaa, hankalaa....
Epävarmuutta ilmassa Miten siis toimia? Otetaan vajaus huomioon, korjataan ilmeisimmät virheet, oikaistaan bias ja hanskataan epävarmuus. Helppoa... sanoa.
Puretaan paloiksi - aloitetaan perusteista Ensin riippuvuussuhteiden (matematiikan ja tilastotieteen) peruskäsitteitä: muuttuja, mitta-asteikko, yhtälö, funktio. Sitten useampiulotteisia muuttujia (matematiikkaa): vektorit. Lopuksi epävarmuuden peruskäsitteitä (todennäköisyyslaskua): todennäköisyys ja ehdollinen todennäköisyys.
Muuttujatyyppejä ja mitta-asteikkoja Mitta-asteikkoja: nominaali- eli laatueroasteikko (foneemi) järjestysasteikko eli ordinaaliasteikko (? keksikääpä hyvä esimerkki) intervalli- eli välimatka-asteikko (syntymävuosi) suhdeasteikko (äänenpainetaso) Kaksi tärkeää muuttujatyyppiä: jatkuvat muuttujat (äänenpaine, aika) diskreetit muuttujat (tavujen lukumäärä, Likert-asteikko data)
Muuttujat, yhtälöt, funktiot y = 2x + 1 f (x) = 2x + 1 Kuvajainen... -> R y = f (x)
Esimerkkejä funktioista f (x) = sin(x) f (x) = x 2 + 1 Kuvajainen -> R f (x) = 1
Vektorit Edellisissä funktioissa ja yhtälöissä x ja y ovat yksiulotteisia muuttujia. Niistä voidaan koota kaksiulotteinen muuttuja eli vektori: r = (x, y) tai [pystyvektori] eli piste xy-tasossa. Lisätään ulottuvuus: kolmiulotteinen vektori: r = (x, y, z) eli piste kolmiulotteisessa avaruudessa. Vähän vielä lisää: viisiulotteinen vektori: r = (x, y, z, φ, θ) eli EMA -käämin paikka ja kiertymiskulmat. Paljon lisää: r = 200 vastausta kysymykseen Likert-asteikolla mitattuna (1,2,3,4,5). Vieläkin lisää: r = 10 min puhesignaali näytteistettynä 44100 Hz taajuudella (10*60*44100-ulotteinen vektori).
Todennäköisyys Mittari joka on aina välillä [0, 1]. 0 = mahdoton tapahtuma. 1 = varma tapahtuma. Määritellään tapahtuma A = Salista valitun henkilön nimi on Pertti A:n todennäköisyys voidaan kirjoittaa: P( Salista valitun henkilön nimi on Pertti ) = P(A) =? B = Salista valittu henkilö on mies. P(B) =?
Ehdollinen todennäköisyys P(A B) =? P(B A) =? C = Foneetikko, D = Nainen P(C D) =? P(D C) =? P(A B) = P(A ja B) P(B) = P(A B) P(B) P(A A) = 1
Luentokuulustelu 1. Palautetta tästä luennosta: Mikä luennossa oli hyvää, mikä huonoa? 2. Parannusehdotuksia tulevia luentoja varten: Mitä haluaisit tehtävän toisin jatkossa? Miten lähestymistapaa voisi parantaa?