FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Samankaltaiset tiedostot
Puheentutkimuksen tilastoanalyysin perusteet. 8. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

MTTTP1, luento KERTAUSTA

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

MTTTP1, luento KERTAUSTA

Tilastollinen aineisto Luottamusväli

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Kandidaatintutkielman aineistonhankinta ja analyysi

Sovellettu todennäköisyyslaskenta B

Harjoitus 7: NCSS - Tilastollinen analyysi

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

MTTTP5, luento Luottamusväli, määritelmä

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Sovellettu todennäköisyyslaskenta B

Yleistetyistä lineaarisista malleista

Matemaatikot ja tilastotieteilijät

tilastotieteen kertaus

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Mat Tilastollisen analyysin perusteet, kevät 2007

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1 TILASTOJEN KÄYTTÖ 7. Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10

Estimointi. Vilkkumaa / Kuusinen 1

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

TESTINVALINTATEHTÄVIEN VASTAUKSET

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

TILASTOLLISTEN MENETELMIEN KIRJO JA KÄYTTÖ LÄÄKETIETEEN TUTKIMUSJULKAISUISSA. Pentti Nieminen

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

2. Keskiarvojen vartailua

Identifiointiprosessi

Kvantitatiiviset tutkimusmenetelmät maantieteessä

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

HAVAITUT JA ODOTETUT FREKVENSSIT

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

pisteet Frekvenssi frekvenssi Yhteensä

Väliestimointi (jatkoa) Heliövaara 1

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Tilastolliset menetelmät. β versio. Tilastolliset menetelmät. Ilkka Mellin. Teknillinen korkeakoulu, Matematiikan laboratorio

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Tilastolliset menetelmät

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Mat Sovellettu todennäköisyyslasku A

Tilastotieteen aihehakemisto

Tilastollisia peruskäsitteitä ja Monte Carlo

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

2. TILASTOLLINEN TESTAAMINEN...

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1)

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

Kvantitatiiviset menetelmät

Sovellettu todennäköisyyslaskenta B

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Sovellettu todennäköisyyslaskenta B

4.2 Useampi selittävä muuttuja (kertausta)

Regressioanalyysi. Kuusinen/Heliövaara 1

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

Mat Tilastollisen analyysin perusteet, kevät 2007

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

Aki Taanila TILASTOLLISEN PÄÄTTELYN ALKEET

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Osa 2: Otokset, otosjakaumat ja estimointi

Mat Tilastollisen analyysin perusteet, kevät 2007

Transkriptio:

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 9. luento Pertti Palo 22.11.2012

Käytännön asioita Eihän kukaan paikallaolijoista tee 3 op kurssia? 2. seminaarin ilmoittautuminen. 2. harjoitustyön DL 3.12. klo 12.00.

Lineaarimallit: Mihin näitä voidaan käyttää? Esimerkiksi: Millainen kahden muuttujan välinen lineaarinen riippuvuus on ja onko sitä ylipäätään? -> Yhden selittäjän regressiomalli (viime luento) Onko eri ryhmien odotusarvoissa eroa? -> ANOVA eli yksisuuntainen varianssianalyysi Mitkä kaikki tekijät vaikuttavat tarkasteltuun ilmiöön? -> Usean selittäjän regressiomallit eli usean selittäjän lineaarimallit

ANOVA I: Eroavatko ryhmien odotusarvot? ANOVA on lyhenne sanoista ANalysis Of VAriance. Siis suomeksi varianssi- tai vaihteluanalyysi. Yksinkertaisimmillaan se on tilastollinen testi, joka yleistää (nimestään huolimatta) odotusarvojen vertaamisen useammalle kuin kahdelle ryhmälle. Tämä on myös sen yleisin käyttötarkoitus.

ANOVA II: Yksisuuntainen varianssianalyysi Taustaoletukset: (Seuraava koskee useita/tyypillisiä ANOVA-malleja, mutta ei kaikkia.) Kerätään otos joka luokittuu kolmeen tai useampaan luokkaan. Verrattavat ryhmät/luokat ovat riippumattomia Normaalisuus - residuaalit ovat normaalijakautuneita Varianssien homogeenisuus eli homoskedastisuus - sama varianssi eri ryhmissä. Hypoteesit: H 0 : Luokkien odotusarvot ovat yhtä suuret eli µ 1 = µ 2 =... = µ n. H 1 : Jonkin luokan odotusarvo on erisuuri kuin muiden.

ANOVA-esimerkki Eroavatko ensitavujen riimien kestot eri tavukonteksteissa? > aov ( du1 ~ tcond, k e s t o t ) > du1_by_tcond_anova > summary ( du1_by_tcond_anova ) Df Sum Sq Mean Sq F v a l u e Pr(>F ) tcond 5 10. 1930 2. 03860 1583. 8 < 2. 2 e 16 R e s i d u a l s 3294 4.2398 0.00129 S i g n i f. c o d e s : 0 0. 0 0 1 0. 0 1 0. 0 5. 0. 1 1

Entäs jos data ei ole normaalijakautunutta? Kruskal-Wallis -testi: Taustaoletukset: Kerätään otos, joka luokittuu kolmeen tai useampaan luokkaan. Verrattavat ryhmät/luokat ovat riippumattomia Varianssien homogeenisuus eli homoskedastisuus - sama varianssi eri ryhmissä. Hypoteesit: H 0 : Luokkien mediaanit ovat yhtä suuret. H 1 : Jonkin luokan mediaani on eri suuri kuin muiden.

Kruskal-Wallis -esimerkki Ovatko eri ääntötyyppien femmask-arviot samanlaisia? > k r u s k a l. t e s t ( femmask ~ t y y p p i, data = m i e l i k u v a t ) K ruskal W a l l i s rank sum t e s t data : femmask by t y y p p i K ruskal W a l l i s c h i s q u a r e d = 2 0 1. 8 6 5 8, d f = 7, p v a l u e < 2. 2 e 16

5min happipaussi 2. seminaarin ilmoittautuminen

Monen selittäjän lineaarimalli: Mikä kaikki vaikuttaa tarkasteltuun ilmiöön? Taustaoletukset ovat oleellisesti samat kuin yhden selittäjän mallissa. Analyysi on hieman erilaista. Käytännön tasolla tulee kysymykseen mallin valinnan ongelma: Mikä on paras malli tälle ilmiölle? Yleensä selittäjät valitaan tilastollisen merkitsevyyden perusteella. Järkeä pitää kuitenkin käyttää: Tilastollisesti merkitsevän selittäjän todellinen merkitys voi olla olematon. Tilastollisesti merkitsemätän selittäjä voi olla teoreettisen tai taustatiedon valossa tarpeellinen mallissa. Poikkeuksien kanssa pitää olla huolellinen ja varovainen.

Usean selittäjän lineaarimalli: Esimerkki Laajennetaan R:llä viimeluennon regressioesimerkki useamman selittäjän lineaarimalliksi. > summary ( lm ( s p e e c h r a t e ~ a r t i c u l a t i o n r a t e+b r e a k s, s e l k o r e g r e s s i o ) ) C a l l : lm ( f o r m u l a = s p e e c h r a t e ~ a r t i c u l a t i o n r a t e+b r e a k s, s e l k o r e g r e s s i o ) R e s i d u a l s : Min 1Q Median 3Q Max 0.084431 0.018092 0.000589 0. 024182 0. 049631 C o e f f i c i e n t s : E s t i m a t e Std. E r r o r t v a l u e Pr ( > t ) ( I n t e r c e p t ) 1.499872 0.140135 1 0. 7 0 8. 1 3 e 08 a r t i c u l a t i o n r a t e 0.713614 0.019782 3 6. 0 7 2. 0 3 e 14 b r e a k s 0.051190 0.001874 27.32 7. 2 0 e 13 S i g n i f. c o d e s : 0 0. 0 0 1 0. 0 1 0. 0 5. 0. 1 1 R e s i d u a l s t a n d a r d e r r o r : 0.03737 on 13 d e g r e e s o f freedom M u l t i p l e R s q u a r e d : 0. 9 9 8 5, A d j u s t e d R s q u a r e d : 0. 9983 F s t a t i s t i c : 4340 on 2 and 13 DF, p v a l u e : < 2. 2 e 16

Kurssin sisältöä Tilastolliset kuvaajat: histogrammit, pylväsdiagrammit, pistediagrammit, pairs -kuvaajat, regressioanalyysin diagnostiset kuvaajat Todennäköisyydet, ehdollinen todennäköisyys, todennäköisyysjakaumat Otostunnusluvut: keskiarvo, mediaani, otoshajonta, otosvarianssi, otoskovarianssi, otoskorrelaatio Jakaumien tunnusluvut: odotusarvo, mediaani, keskihajonta, varianssi, kovarianssi, korrelaatio Tilastollinen testaaminen Toistuvien tehtävien automatisointi - ohjelmointi Tieteellisten raporttien lukeminen

Tilastollisia päättelymenetelmiä tällä kurssilla Kursiivilla on merkitty ne mentelmät, joita ei käytetty, mutta jotka ovat hyvin lähellä käytettyjä menetelmiä. Tehtävä Päättely yhden muuttujan suhteen Kahden riippuvan ryhmän vertailu Kahden riippumattoman ryhmän vertailu Useamman ryhmän vertailu Kahden muuttujan välinen riippuvuus Muuttujien mitta-asteikko Jatkuva Ordinaali Kategorinen Odotusarvon Wilcoxonin rankisummatestvuustesti χ 2 -yhteensopi- luottamusväli tai odotusarvon t-testi Parivertailutesti Wilcoxonin rankisummatesti - eli riippuvien otosten t-testi Kahden otoksen Mann-Whitney - χ 2 -homogeenisuustesti t-testi testi tai χ 2 -riippumattomuustesti ANOVA Kruskal-Wallis - χ 2 -riippumattomuustesti testi Lineaarimallit χ 2 -riippumattomuustesti χ 2 -riippumattomuustesti

Aiheita, joita tällä kurssilla ei käsitelty Klusterointi ja luokittelu Bayesiläinen päättely Stokastiset prosessit Aikasarja-analyysi Logistiset regressiomallit, ordinaalilogistiset regressiomallit, yhteisvaikutukset regressiomalleissa, yleiset lineaarimallit Usean selitettävän muuttujan (tulosmuuttujan) lineaarimallit Sekamallit... ja paljon muuta.

Luentokuulustelu 1. Voiko monen selittäjän lineaarimalleilla todistaa kausaliteetin eli esimerkiksi, että korkeat kolesteroliarvot yhdessä muiden tekijöiden kanssa aiheuttavat sydänkohtauksia? 2. Anna esimerkki sinua kiinnostavasta ongelmasta, jonka tutkimiseen voisi käyttää monen selittäjän lineaarimalleja?