Puheentutkimuksen tilastoanalyysin perusteet



Samankaltaiset tiedostot
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Mat Systeemien identifiointi

TILASTOLLINEN LAADUNVALVONTA

Matematiikan tukikurssi

Tutkimuksen suunnittelu / tilastolliset menetelmät. Marja-Leena Hannila Itä-Suomen yliopisto / Terveystieteiden tdk

MTTTP1, luento KERTAUSTA

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

ARVIOINTIPERIAATTEET

Harjoitus 2: Matlab - Statistical Toolbox

Johdatus tn-laskentaan perjantai

Sovellettu todennäköisyyslaskenta B

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

MTTTP1, luento KERTAUSTA

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

Tytöt LVI-alalla - Perusraportti

TN-IIa (MAT22001), syksy 2017

Puheentutkimuksen tilastoanalyysin perusteet. 8. luento. Pertti Palo

MATEMATIIKKA 5 VIIKKOTUNTIA

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu

Kvantitatiiviset menetelmät

Väli- ja loppuraportointi

MUUTOS 14! - Sosiaaliset kriteerit julkisissa hankinnoissa!

Hypoteesin testaus Alkeet

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Numeeriset menetelmät

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

7. laskuharjoituskierros, vko 10, ratkaisut

213a. MS-A0503 Todennäköisyyslaskenna n ja tilastotieteen per; M (vkot 3-7)

Valintaperusteet, syksy 2011: Sosiaali- ja terveysala

Sovellettu todennäköisyyslaskenta B

Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat

Otanta ilman takaisinpanoa

Sähköstaattisen potentiaalin laskeminen

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

TieVie-hanke Saksan kieli. Ritva Huurtomaa

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Analyyttinen mekaniikka I periodi 2012

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Johdatus tilastotieteeseen Testit järjestysasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

5.6.3 Matematiikan lyhyt oppimäärä

Esimerkkejä derivoinnin ketjusäännöstä

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

&idx=2&uilang=fi&lang=fi&lvv=2015

II- luento. Etiikan määritelmiä. Eettisen ajattelu ja käytänteet. 1 Etiikka on oikean ja väärän tutkimusta

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

OPETUSSUUNNITELMALOMAKE

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

Otoskoko 107 kpl. a) 27 b) 2654

Kvantitatiiviset tutkimusmenetelmät maantieteessä

r = r f + r M r f (Todistus kirjassa sivulla 177 tai luennon 6 kalvoissa sivulla 6.) yhtälöön saadaan ns. CAPM:n hinnoittelun peruskaava Q P

ELEC-C5210 Satunnaisprosessit tietoliikenteessä

Luento 6. June 1, Luento 6

LUKUJÄRJESTYSPOHJA Tekniikan ja luonnontieteiden TkK-tutkinto-ohjelma, Ympäristö- ja energiatekniikan opintosuunta

T Informaatiotekniikan seminaari: Kombinatorinen Optimointi

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

4.1 Mitä autopaikalle saa pysäköidä?

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

ALAJÄRVEN, LEHTIMÄEN, SOININ JA VIMPELIN LOMATOIMISTOJEN PUOLUEETON JA VANKKUMATON ÄÄNENKANNATTAJA. Täyttä asiaa, ei arvailuja - jo vuodesta 2008

IV-kuntotutkimushanke_tutkijat

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

Mat Sovellettu todennäköisyyslasku 5. harjoitukset/ratkaisut. Jatkuvat jakaumat

7 Osa 7: Pidempiä esimerkkejä R:n käytöstä

Hallintotieteiden opinto-opas lkv , Yleisopinnot ok Yleisopinnot

dx=2&uilang=fi&lang=fi&lvv=2015

Oppimistavoitematriisi

Kvantitatiiviset menetelmät

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

OPETUSSUUNNITELMALOMAKE

Til.yks. x y z

Til.yks. x y z

Opettajalle ohje opintojakson toteutuksen tekemiselle mallipohjana ja mallipohjan tuominen opintojakson toteutukseen.

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Päähaku, matemaattisten tieteiden kandiohjelma Valintakoe klo

Syksyn aloituskampanjat lippukunnissa

Johdatus Ammattikorkeakoulun matematiikkaan ja fysiikkaan

JOHTAMINEN, VIESTINTÄ JA MUUTOS VIESTINTÄPÄÄLLIKKÖ NIINA KAUPPINEN

Henrika Honkanen Oulun yliopisto Biolääketieteen laitos Anatomian ja solubiologian yksikkö

Matemaatikot ja tilastotieteilijät

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Viikko 1: Johdantoa Matti Kääriäinen

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Kandidaatintyö Elektroniikan laitoksella

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

HAVAINTO KIUSAAMISESTA KIUSAAMISEN KARTOITUS

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

TUTKIMUSOPAS. SPSS-opas

Transkriptio:

Puheentutkimuksen tilastoanalyysin perusteet Pertti Palo 2.11.2011

Kuka? Tekn.Lis. Pertti Palo pertti.palo (ät) helsinki.fi vastaanotto sopimuksen mukaan Todennäköisyyslaskua keväästä -99 Puhetieteiden jatko-opiskelijawannabe Mitäs muuta?

Mitä? Puheentutkimuksen tilastoanalyysin perusteet laajuus: 4op II-III periodi 1. luento 2.11., 1. harjoitus 10. tai 11.11. (ryhmiä on kaksi) esitiedot: lukiosta voi olla apua, ilmankin selviää suorittaminen: luentokuulustelut ja harjoitustyöt tavoitteet: tehdä data-analyysin peruskäsitteistä arkipäiväisiä oppimateriaali: nämä kalvot, netissä julkaistava materiaali ja vaikkapa Baayen: Analyzing Linguistic Data A practical introduction to statistics luvut 1-4

... ja kauanko siihen menee? Luentoja 7*2+3*2 = 20h Harjoituksia 6*2+4*2 = 20h Yhteensä 40h 4op = 4*26.7 = 106.8h 106.8h / 2 = 53.4h 53.4h - 40h = 13.4h Harjoitustyö + kahden opponointi = 13.4h / 3 4.5h

... ja kalenterin kanssa? Alustavaa aikataulua: II periodin luennot 2.11.-14.12. II periodin harjoitukset 10.11.-16.12. III periodissa luennot 25.1., 1.2. ja 29.2. III periodissa 18.1.-29.2. välisenä aikana muilla viikoilla toinen harjoitusryhmä ke 14-16 ja toisen aika avoin 1. harjoitustyö DL n. 30.11. 2. ja 3. harjoitustyö III periodissa Seminaariluennot 7.12., 1.2. ja 29.2.... alustavasti

Hä? Asiasisältöön kuuluu alustavasti (mm.): muuttujat, yhtälöt, kaavat, nominaaliset ja jatkuvat muuttujat, useampi ulotteiset muuttujat mittaustasot, laatuero yms. asteikot kuvailevien suureiden järkevä käyttö: mm. prosenttiosuudet vs. absoluuttiset suhteet datavektorit, suuret datamatriisit, datan visualisointi ja käsittely lineaariset ja logaritmiset asteikot suureiden (SPL, F0, formantit, kestot, tavumäärä) kuvaamisessa tilastolliset tunnusluvut: keskiarvo, otoskeskiarvo, varianssi, keskihajonta, kovarianssi otoskoon vaikutus tunnuslukuihin; outlierit ja datan rajaaminen muuttujien väliset suhteet: verrannollisuus, korrelaatio ja kausaalisuus

Kui oikeesti? No, näin: luentokuulusteluissa kaksi (helppoa) kysymystä joka kerralla -> max 20p -> arvosana 0-5 kolme harjoitustyötä ja kustakin arvosana 0-5 kurssin kokonaisarvosana (jos kaikki osat hyväksytty) 0.4*luennot + 0.2*(harjoitusten summa)

Kui oikeesti (siis suomeksi)? No, näin: Tämän kerran luentokuulustelu: 1. Mihin tilastollisilla menetelmillä tähdätään? 2. Mikä on skalaarin ja vektorin ero? Kolme harjoitustyötä jotka tehdään (2-)3 hengen ryhmissä jotka tehdään R -nimisellä tilasto-ohjelmalla joista kirjoitetaan raportti jotka opponoidaan ja arvostellaan ristiin ryhmien kesken joista yhden kukin ryhmä esittelee seminaarissa. Kurssin kokonaisarvosana muodostuu (painotettuna) summana edellisistä. Tarkoitukseni on saada kaikki tosissaan kurssia tekevät siitä läpi hyvällä arvosanalla.

Avoin kysymys: Kuinka alkupään harjoitukset, jotka eivät ole harjoitustöitä, pitäisi ottaa huomioon? Pitäisikö ylipäätään?

Entä jos...? No, säädetään: jos on ongelmia aikataulun kanssa, sovi poikkeusjärjestelystä jos jokin harjoitustyö on liian työläs, kertokaa heti jos jokin asia ei vain toimi, keksitään parempi ratkaisu / jätetään tarvittaessa vaikka osa tehtävästä tekemättä pidetään aina mielessä kokonaisuus ja kurssin tulevaisuus

Muita juttuja Nettisivut Palauteryhmä Harjoitusryhmiin jakautuminen Rästitentti Oliko muuta?

Aloitetaanpa sitten Kahvitauon paikka? Ensin kuitenkin Toisenlainen tapa nähdä matematiikka.

Toisenlainen tapa nähdä matematiikka Kumpi on tärkeämpää rakentajalle kantava talon runko ja sen pystyttämisen periaatteet vai ruuvit ja akkuvääntimen tekniikka? Talo itse vai sen rakentamiseen käytetyt työkalut? Tällä kurssilla opetellaan käyttämään työkaluja, joilla voidaan tehdä tutkimusta, analysoida dataa.

Toisenlainen tapa nähdä matematiikka Näitä työkaluja ovat: matemaattiset käsitteet ja menetelmät (muuttujat, yhtälöt, funktiot, derivaatta) elävät ideamaailmassa, todennäköisyyslaskun käsitteet ja menetelmät (ehdollinen todennäköisyys, satunnaismuuttujat, jakaumat, odotusarvo, korrelaatio, jne.) elävät ideamaailmassa, tilastotieteen käsitteet (otos, keskiarvo, otoshajonta jne.), tilastotieteen menetelmät (testit, mallit yms), tilastolliset ohjelmat kuten R, SPSS, Excel, Matlab elävät reaalimaailmassa. Nämä työkalut eivät ole: aina uusimpia ja hienoimpia, mustia laatikoita, pääasia.

Mikä sitten on pääasia? Oppia lukemaan aiempia tutkimuksia. Oppia käyttämään oikeita työkaluja oikeaan tarpeeseen. Oppia riittävästi työkalujen ominaisuuksista, jottei käytä vahingossa väärää työkalua. Oppia rakentamaan tarpeet siten, että käytettävissä olevat työkalut riittävät. Oppia suunnittelemaan kokeet siten, että esitettyihin kysymyksiin on mahdollista ja helppoa vastata. Oppia riittävästi, jotta selviää graduun tarvittavasta data-analyysista. Rakentaa pohjaa hienompien, uudempien menetelmien oppimiseen.

Kahvitauko Kahvitauon jälkeen Data-analyysia, muuttujia ja todennäköisyyksiä.

Data-analyysia 1 Millaista dataa haluamme? Riippuvuussuhteita kuvaavaa, moniulotteista, pitkältä ajalta kerättyä, usealta koehenkilöltä kerättyä, erilaisilla käsittelyillä saatua... Jopas on! Eikä siinä kaikki...

Data-analyysia 2 Millaista data yleensä on? Vajaata, virheellistä, biasoitunutta, kohinaista, epävarmaa, hankalaa....

Epävarmuutta ilmassa Miten siis toimia? Otetaan vajaus huomioon, korjataan ilmeisimmät virheet, oikaistaan bias ja hanskataan epävarmuus. Helppoa... sanoa.

Puretaan paloiksi - aloitetaan perusteista Ensin riippuvuussuhteiden (matematiikan ja tilastotieteen) peruskäsitteitä: muuttuja, mitta-asteikko, yhtälö, funktio. Sitten useampiulotteisia muuttujia (matematiikkaa): vektorit. Lopuksi epävarmuuden peruskäsitteitä (todennäköisyyslaskua): todennäköisyys ja ehdollinen todennäköisyys.

Muuttujatyyppejä ja mitta-asteikkoja Mitta-asteikkoja: nominaali- eli laatueroasteikko (foneemi) järjestysasteikko eli ordinaaliasteikko (? keksikääpä hyvä esimerkki) intervalli- eli välimatka-asteikko (syntymävuosi) suhdeasteikko (äänenpainetaso) Kaksi tärkeää muuttujatyyppiä: jatkuvat muuttujat (äänenpaine, aika) diskreetit muuttujat (tavujen lukumäärä, Likert-asteikko data)

Muuttujat, yhtälöt, funktiot y = 2x + 1 f (x) = 2x + 1 Kuvajainen... -> R y = f (x)

Esimerkkejä funktioista f (x) = sin(x) f (x) = x 2 + 1 Kuvajainen -> R f (x) = 1

Vektorit Edellisissä funktioissa ja yhtälöissä x ja y ovat yksiulotteisia muuttujia. Niistä voidaan koota kaksiulotteinen muuttuja eli vektori: r = (x, y) tai [pystyvektori] eli piste xy-tasossa. Lisätään ulottuvuus: kolmiulotteinen vektori: r = (x, y, z) eli piste kolmiulotteisessa avaruudessa. Vähän vielä lisää: viisiulotteinen vektori: r = (x, y, z, φ, θ) eli EMA -käämin paikka ja kiertymiskulmat. Paljon lisää: r = 200 vastausta kysymykseen Likert-asteikolla mitattuna (1,2,3,4,5). Vieläkin lisää: r = 10 min puhesignaali näytteistettynä 44100 Hz taajuudella (10*60*44100-ulotteinen vektori).

Todennäköisyys Mittari joka on aina välillä [0, 1]. 0 = mahdoton tapahtuma. 1 = varma tapahtuma. Määritellään tapahtuma A = Salista valitun henkilön nimi on Pertti A:n todennäköisyys voidaan kirjoittaa: P( Salista valitun henkilön nimi on Pertti ) = P(A) =? B = Salista valittu henkilö on mies. P(B) =?

Ehdollinen todennäköisyys P(A B) =? P(B A) =? C = Foneetikko, D = Nainen P(C D) =? P(D C) =? P(A B) = P(A ja B) P(B) = P(A B) P(B) P(A A) = 1

Luentokuulustelu 1. Palautetta tästä luennosta: Mikä luennossa oli hyvää, mikä huonoa? 2. Parannusehdotuksia tulevia luentoja varten: Mitä haluaisit tehtävän toisin jatkossa? Miten lähestymistapaa voisi parantaa?