FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 9. luento Pertti Palo 22.11.2012

Käytännön asioita Eihän kukaan paikallaolijoista tee 3 op kurssia? 2. seminaarin ilmoittautuminen. 2. harjoitustyön DL 3.12. klo 12.00.

Lineaarimallit: Mihin näitä voidaan käyttää? Esimerkiksi: Millainen kahden muuttujan välinen lineaarinen riippuvuus on ja onko sitä ylipäätään? -> Yhden selittäjän regressiomalli (viime luento) Onko eri ryhmien odotusarvoissa eroa? -> ANOVA eli yksisuuntainen varianssianalyysi Mitkä kaikki tekijät vaikuttavat tarkasteltuun ilmiöön? -> Usean selittäjän regressiomallit eli usean selittäjän lineaarimallit

ANOVA I: Eroavatko ryhmien odotusarvot? ANOVA on lyhenne sanoista ANalysis Of VAriance. Siis suomeksi varianssi- tai vaihteluanalyysi. Yksinkertaisimmillaan se on tilastollinen testi, joka yleistää (nimestään huolimatta) odotusarvojen vertaamisen useammalle kuin kahdelle ryhmälle. Tämä on myös sen yleisin käyttötarkoitus.

ANOVA II: Yksisuuntainen varianssianalyysi Taustaoletukset: (Seuraava koskee useita/tyypillisiä ANOVA-malleja, mutta ei kaikkia.) Kerätään otos joka luokittuu kolmeen tai useampaan luokkaan. Verrattavat ryhmät/luokat ovat riippumattomia Normaalisuus - residuaalit ovat normaalijakautuneita Varianssien homogeenisuus eli homoskedastisuus - sama varianssi eri ryhmissä. Hypoteesit: H 0 : Luokkien odotusarvot ovat yhtä suuret eli µ 1 = µ 2 =... = µ n. H 1 : Jonkin luokan odotusarvo on erisuuri kuin muiden.

ANOVA-esimerkki Eroavatko ensitavujen riimien kestot eri tavukonteksteissa? > aov ( du1 ~ tcond, k e s t o t ) > du1_by_tcond_anova > summary ( du1_by_tcond_anova ) Df Sum Sq Mean Sq F v a l u e Pr(>F ) tcond 5 10. 1930 2. 03860 1583. 8 < 2. 2 e 16 R e s i d u a l s 3294 4.2398 0.00129 S i g n i f. c o d e s : 0 0. 0 0 1 0. 0 1 0. 0 5. 0. 1 1

Entäs jos data ei ole normaalijakautunutta? Kruskal-Wallis -testi: Taustaoletukset: Kerätään otos, joka luokittuu kolmeen tai useampaan luokkaan. Verrattavat ryhmät/luokat ovat riippumattomia Varianssien homogeenisuus eli homoskedastisuus - sama varianssi eri ryhmissä. Hypoteesit: H 0 : Luokkien mediaanit ovat yhtä suuret. H 1 : Jonkin luokan mediaani on eri suuri kuin muiden.

Kruskal-Wallis -esimerkki Ovatko eri ääntötyyppien femmask-arviot samanlaisia? > k r u s k a l. t e s t ( femmask ~ t y y p p i, data = m i e l i k u v a t ) K ruskal W a l l i s rank sum t e s t data : femmask by t y y p p i K ruskal W a l l i s c h i s q u a r e d = 2 0 1. 8 6 5 8, d f = 7, p v a l u e < 2. 2 e 16

5min happipaussi 2. seminaarin ilmoittautuminen

Monen selittäjän lineaarimalli: Mikä kaikki vaikuttaa tarkasteltuun ilmiöön? Taustaoletukset ovat oleellisesti samat kuin yhden selittäjän mallissa. Analyysi on hieman erilaista. Käytännön tasolla tulee kysymykseen mallin valinnan ongelma: Mikä on paras malli tälle ilmiölle? Yleensä selittäjät valitaan tilastollisen merkitsevyyden perusteella. Järkeä pitää kuitenkin käyttää: Tilastollisesti merkitsevän selittäjän todellinen merkitys voi olla olematon. Tilastollisesti merkitsemätän selittäjä voi olla teoreettisen tai taustatiedon valossa tarpeellinen mallissa. Poikkeuksien kanssa pitää olla huolellinen ja varovainen.

Usean selittäjän lineaarimalli: Esimerkki Laajennetaan R:llä viimeluennon regressioesimerkki useamman selittäjän lineaarimalliksi. > summary ( lm ( s p e e c h r a t e ~ a r t i c u l a t i o n r a t e+b r e a k s, s e l k o r e g r e s s i o ) ) C a l l : lm ( f o r m u l a = s p e e c h r a t e ~ a r t i c u l a t i o n r a t e+b r e a k s, s e l k o r e g r e s s i o ) R e s i d u a l s : Min 1Q Median 3Q Max 0.084431 0.018092 0.000589 0. 024182 0. 049631 C o e f f i c i e n t s : E s t i m a t e Std. E r r o r t v a l u e Pr ( > t ) ( I n t e r c e p t ) 1.499872 0.140135 1 0. 7 0 8. 1 3 e 08 a r t i c u l a t i o n r a t e 0.713614 0.019782 3 6. 0 7 2. 0 3 e 14 b r e a k s 0.051190 0.001874 27.32 7. 2 0 e 13 S i g n i f. c o d e s : 0 0. 0 0 1 0. 0 1 0. 0 5. 0. 1 1 R e s i d u a l s t a n d a r d e r r o r : 0.03737 on 13 d e g r e e s o f freedom M u l t i p l e R s q u a r e d : 0. 9 9 8 5, A d j u s t e d R s q u a r e d : 0. 9983 F s t a t i s t i c : 4340 on 2 and 13 DF, p v a l u e : < 2. 2 e 16

Kurssin sisältöä Tilastolliset kuvaajat: histogrammit, pylväsdiagrammit, pistediagrammit, pairs -kuvaajat, regressioanalyysin diagnostiset kuvaajat Todennäköisyydet, ehdollinen todennäköisyys, todennäköisyysjakaumat Otostunnusluvut: keskiarvo, mediaani, otoshajonta, otosvarianssi, otoskovarianssi, otoskorrelaatio Jakaumien tunnusluvut: odotusarvo, mediaani, keskihajonta, varianssi, kovarianssi, korrelaatio Tilastollinen testaaminen Toistuvien tehtävien automatisointi - ohjelmointi Tieteellisten raporttien lukeminen

Tilastollisia päättelymenetelmiä tällä kurssilla Kursiivilla on merkitty ne mentelmät, joita ei käytetty, mutta jotka ovat hyvin lähellä käytettyjä menetelmiä. Tehtävä Päättely yhden muuttujan suhteen Kahden riippuvan ryhmän vertailu Kahden riippumattoman ryhmän vertailu Useamman ryhmän vertailu Kahden muuttujan välinen riippuvuus Muuttujien mitta-asteikko Jatkuva Ordinaali Kategorinen Odotusarvon Wilcoxonin rankisummatestvuustesti χ 2 -yhteensopi- luottamusväli tai odotusarvon t-testi Parivertailutesti Wilcoxonin rankisummatesti - eli riippuvien otosten t-testi Kahden otoksen Mann-Whitney - χ 2 -homogeenisuustesti t-testi testi tai χ 2 -riippumattomuustesti ANOVA Kruskal-Wallis - χ 2 -riippumattomuustesti testi Lineaarimallit χ 2 -riippumattomuustesti χ 2 -riippumattomuustesti

Aiheita, joita tällä kurssilla ei käsitelty Klusterointi ja luokittelu Bayesiläinen päättely Stokastiset prosessit Aikasarja-analyysi Logistiset regressiomallit, ordinaalilogistiset regressiomallit, yhteisvaikutukset regressiomalleissa, yleiset lineaarimallit Usean selitettävän muuttujan (tulosmuuttujan) lineaarimallit Sekamallit... ja paljon muuta.

Luentokuulustelu 1. Voiko monen selittäjän lineaarimalleilla todistaa kausaliteetin eli esimerkiksi, että korkeat kolesteroliarvot yhdessä muiden tekijöiden kanssa aiheuttavat sydänkohtauksia? 2. Anna esimerkki sinua kiinnostavasta ongelmasta, jonka tutkimiseen voisi käyttää monen selittäjän lineaarimalleja?