Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Samankaltaiset tiedostot
Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Testit järjestysasteikollisille muuttujille

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Mat Tilastollisen analyysin perusteet, kevät 2007

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Testejä suhdeasteikollisille muuttujille

Mat Tilastollisen analyysin perusteet, kevät 2007

2. TILASTOLLINEN TESTAAMINEN...

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Sovellettu todennäköisyyslaskenta B

Testaa onko myrkkypitoisuus eri ryhmissä sama. RATK. Lasketaan kaikkien havaintoarvojen summa: k T i = = 486.

Mat Sovellettu todennäköisyyslasku A

10. laskuharjoituskierros, vko 14, ratkaisut

Testit laatueroasteikollisille muuttujille

HAVAITUT JA ODOTETUT FREKVENSSIT

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Johdatus tilastotieteeseen Testit järjestysasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

11. laskuharjoituskierros, vko 15, ratkaisut

Lohkoasetelmat. Kuusinen/Heliövaara 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen. TKK (c) Ilkka Mellin (2004) 1

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mediaanikorko on kiinteäkorkoiselle lainalle korkeampi. Tämä hypoteesi vastaa taloustieteen käsitystä korkojen määräytymismekanismista.

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Osa 2: Otokset, otosjakaumat ja estimointi

Mat Tilastollisen analyysin perusteet, kevät 2007

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Estimointi. Otantajakauma

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

5.7 Uskottavuusfunktioon perustuvia testejä II

pisteet Frekvenssi frekvenssi Yhteensä

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

tilastotieteen kertaus

Tilastollinen aineisto Luottamusväli

Tehtävä 1. (a) JYVÄSKYLÄN YLIOPISTO Matematiikan ja tilastotieteen laitos Parametrittomat ja robustit menetelmät Harjoitukset 7, vastaukset

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Lohkoasetelmat. Heliövaara 1

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

031021P Tilastomatematiikka (5 op) viikko 5

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Aki Taanila VARIANSSIANALYYSI

Transkriptio:

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle -

Sisältö - -

-

Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen samuudesta. Viime luennolla mainitsimme esimerkiksi tilanteen, jossa halutaan testata diplomi-insinöörien kuukausipalkan odotusarvon yhtäsuuruutta eri paikkakunnilla. ANOVA perustuu normaalisuusoletukseen. Oletusta kuukausipalkan jakauman normaalisuudesta voidaan kuitenkin epäillä. Tällä luennolla tarkastellaankin varianssianalyysin epäparametristä vastinetta. -

vastaa yksisuuntaista varianssianalyysiä ilman oletuksia perusjoukon jakauman tyypistä. - testaa nollahypoteesia siitä, että k riippumatonta otosta tulevat kaikki samasta jakaumasta. Testi on erityisen herkkä eroille ja sen vuoksi testi esitetään usein testinä samuudesta.

Olkoot x 1j, x 2j,..., x nj j satunnaismuuttujan x j havaitut arvot, j {1,..., k}. Oletetaan, että havaintopisteet x 1j, x 2j,..., x nj j ovat riippumattomia ja samoin jakautuneita. Oletetaan vielä, että tarkasteltavat k otosta ovat toisistaan riippumattomia ja että muuttujat x j, j {1,..., k}, noudattavat muuten samaa jatkuvaa jakaumaa, mutta niiden mediaanit saattavat erota toisistaan. - Nollahypoteesi H 0 : m 1 = m 2 = = m k. Vaihtoehtoinen hypoteesi H 1 : Ainakin kaksi mediaaneista m j eroaa toisistaan.

- perustuu kaikkien havaintojen keskinäisen suuruusjärjestyksen tarkasteluun.

Yhdistetään otokset x 1j, x 2j,..., x nj j, j {1,..., k} yhdeksi otokseksi z 1, z 2,..., z n, missä n = k j=1 n j. Järjestetään yhdistetyn otoksen havainnot suuruusjärjestykseen pienimmästä suurimpaan. Olkoon R(z s ) havainnon z s järjestysluku yhdistetyssä otoksessa z 1, z 2,..., z n. Muodostetaan otoksista järjestyslukujen ryhmäkeskiarvot - r j = 1 n j ja yhdistetyn otoksen keskiarvo missä n = k j=1 n j. r = 1 n n j z s=x ij,i=1 R(z s ) n R(z s ), s=1

Tarkastellaan ryhmien välistä järjestyslukujen vaihtelua kuvaavaa ryhmäneliösummaa k n j ( r j r) 2 j=1 - ja järjestyslukujen kokonaisvaihtelua kuvaavaa neliösummaa n (R(z s ) r) 2. s=1

suure k j=1 K = (n 1) n j( r j r) 2 n s=1 (R(z s) r). 2 - Jos nollahypoteesi pätee, niin testisuure noudattaa suurilla otoskoilla likimain χ 2 jakaumaa vapausastein k 1. Testisuureen normaaliarvo on k 1. Suuret testisuureen arvot (verrattuna normaaliarvoon k 1) viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni.

Useat ohjelmistot laskevat n tarkkoja p arvoja otoskokojen ollessa pieniä. Suurilla otoskoilla tarkkojen p arvojen määrittäminen vaatii kovan tehon laskentakapasiteettia ja tällöin ohjelmistot nojaavat asymptoottisiin p arvoihin (toisin sanoen edellä mainittuun χ 2 jakaumaan). -

Diskreetit jakaumat Oletimme edellä, että otokset ovat jatkuvista jakaumista. ä voidaan käyttää myös silloin kun jakaumat ovat diskreettejä, mutta tällöin on mahdollista, että osalla otospisteistä järjestysluku on sama. Tällöin kaikille näille otospisteille valitaan järjestysluvuksi keskimmäinen. Esim. jos kahdella otospisteellä on sama järjestysluku, vastaten järjestyslukuja 7 ja 8, niin molemmille pisteille asetetaan järjestysluvuksi 7.5. Jos taas esimerkiksi kolmella otospisteellä on sama järjestysluku, vastaten järjestyslukuja 3, 4 ja 5, niin järjestysluvuksi valitaan kaikille kolmelle 4. -

Esimerkki Tarkastellaan kolmen opiskelijaryhmän saamia tenttipisteitä tilastotieteen tentissä. Pistemäärät ja niiden järjestysluvut (sulkeissa) on esitetty alla olevassa taulukossa. ryhmä 1 ryhmä 2 ryhmä 3 18.0 (14) 16.5 (11) 23 (22) 11.0 (4.5) 10.0 (3) 22 (20) 17.0 (12) 15.0 (8.5) 23 (22) 14.0 (7) 15.0 (8.5) 24 (24) 11.0 (4.5) 20.5 (17) 21 (18) 9.5 (2) 8.0 (1) 21.5 (19) 16.0 (10) 12.0 (6) 23 (22) 20.0 (16) 17.5 (13) 19.0 (15) -

Esimerkki Muodostetaan otoksista järjestyslukujen ryhmäkeskiarvot r 1 = 1 54 (14 + 4.5 + 12 + 7 + 4.5 + 2 + 10) = 7 7 = 7.714286, r 2 = 1 7 (11 + 3 + 8.5 + 8.5 + 17 + 1 + 6) = 55 7 = 7.857143, - r 3 = 1 191 (22+20+22+24+18+19+22+16+13+15) = 10 10 = 19.1, ja yhdistetyn otoksen keskiarvo r = 1 300 (54 + 55 + 191) = 24 24 = 12.5.

Esimerkki Lasketaan ryhmäneliösumma k n j ( r j r) 2 = 7 (7.714286 12.5) 2 + 7 (7.857143 12.5) 2 j=1 +10 (19.1 12.5) 2 = 746.8143 ja järjestyslukujen kokonaisvaihtelua kuvaavaa neliösummaa n (R(z s ) r) 2 s=1 = (14 12.5) 2 + (4.5 12.5) 2 + (12 12.5) 2 + (7 12.5) 2 +(4.5 12.5) 2 + (2 12.5) 2 + (10 12.5) 2 + (11 12.5) 2 +(3 12.5) 2 + (8.5 12.5) 2 + (8.5 12.5) 2 +(17 12.5) 2 + (1 12.5) 2 + (6 12.5) 2 +(22 12.5) 2 +(20 12.5) 2 +(22 12.5) 2 +(24 12.5) 2 +(18 12.5) 2 +(19 12.5) 2 +(22 12.5) 2 +(16 12.5) 2 +(13 12.5) 2 +(15 12.5) 2 = 1147 -

Esimerkki Nyt k j=1 K = (n 1) n j( r j r) 2 n s=1 (R(z s) r) = (24 1)746.8143 = 14.97535. 2 1147 - Testin p arvo on reilusti alle 0.05 arvo 5.99 antaa p arvon 0.05 joten nollahypoteesi samuudesta hylätään. Todetaan, että tenttimenestyksessä on opiskelijaryhmien välillä tilastollisesti merkittävä ero.

-

- Jos llä päädytään hylkäämään nollahypoteesi samuudesta, niin voidaan jatkaa ryhmittelyllä, jossa selvitetään missä ryhmissä erot ovat tilastollisesti merkitseviä.

Tarkastellaan samuutta/eroavuutta pareittain. Tarkasteltavia pareja on yhteensä c = k(k 1) 2 kappaletta. Ensimmäisenä ajatuksena mieleen tulee tarkastella pareja Wilcoxonin kahden otoksen järjestyslukutestillä. Tällöin tulee kuitenkin muistaa, että jos yhdistettyyn vertailuun halutaan riskitaso α, niin parivertailut on suoritettava riskitasolla β = α c. Esimerkiksi jos haluamme käyttää yhdistetyssä vertailussa riskitasoa 0.05, niin parivertailuissa nollahypoteesin hylkäykseen vaaditaan, että p arvo on pienempi tai yhtäsuuri kuin 0.05 c. -

Numeerinen esimerkki stä Edellisen luennon esimerkissä tutkittiin kolmen eri keksimerkin suklaapitoisuuksia. Varianssianalyysin perusteella todettiin, että suklaapitoisuuksissa oli eroja. Hieman tuo varianssianalyysin vaatima normaalisuusoletus kuitenkin mietityttää (massa kun ei voi olla negatiivinen). Parivertailussa päätetäänkin käyttää epäparametristä ä. Kalle Panu Stara 0.111 0.109 0.119 0.123 0.107 0.124 0.109 0.103 0.125 0.120 0.104 0.117 0.115 0.098 0.111 0.112 0.110 0.120 0.117 0.101 0.118 0.110 0.115 0.116 0.119 0.099 0.122 0.116 0.111 0.119 -

Vertailtavia pareja on c = k(k 1) 2 = 3 kpl. Näin ollen testin p-arvo on oltava pienempi tai yhtäsuuri kuin 0.05 3 = 0.0166... Wilcoxonin järjestyslukutestiä on käytetty jo aikaisemmin, joten p-arvot on tällä kertaa laskettu suoraan laskentaohjelmistolla. Wilcoxon rank sum test with continuity correction data: kalle and panu W = 91, p-value = 0.002169 alternative hypothesis: true location shift is not equal to 0 - Wilcoxon rank sum test with continuity correction data: kalle and stara W = 26, p-value = 0.07478 alternative hypothesis: true location shift is not equal to 0 Wilcoxon rank sum test with continuity correction data: panu and stara W = 1.5, p-value = 0.0002821 alternative hypothesis: true location shift is not equal to 0

Molempien Panun pahanmakuisia unelmasulkaaprinsessakeksejä tutkivien testien p-arvot ovat pienempiä kuin 0.05 3 = 0.0166... Näin ollen nollahypoteesi voidaan hylätä molemmissa vertailuissa ja voidaan todeta, että Panun pahanmakuisten unelmasuklaaprinsessakeksien suklaapitoisuuksien teoreettinen mediaani eroaa Kallen supersuklaisien herkkukeksien sekä Staran suklaalla signeerattujen tähtikeksien suklaapitoisuuksien teoreettisista mediaaneista. -

- -

Huomaa, että on konstruoitu siten, että se testaa nollahypoteesia siitä, että k riippumatonta otosta tulevat kaikki samasta jakaumasta. Täten testi saattaa havaita muunkinlaista poikkeavuutta kuin eron. Testi on siis pelkkää erojen testaamista laajempi, vaikka toimiikin käytännössä parhaiten juuri silloin kun jakaumat eroavat toisistaan suhteen. -

J. S. Milton, J. C. Arnold: Introduction to Probability and Statistics, McGraw-Hill Inc 1995. R. V. Hogg, J. W. McKean, A. T. Craig: Introduction to Mathematical Statistics, Pearson Education 2005. P. Laininen: Todennäköisyys ja sen tilastollinen soveltaminen, Otatieto 1998, numero 586. I. Mellin: Tilastolliset t, http://math.aalto.fi/opetus/sovtoda/materiaali.html. -