Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle -
Sisältö - -
-
Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen samuudesta. Viime luennolla mainitsimme esimerkiksi tilanteen, jossa halutaan testata diplomi-insinöörien kuukausipalkan odotusarvon yhtäsuuruutta eri paikkakunnilla. ANOVA perustuu normaalisuusoletukseen. Oletusta kuukausipalkan jakauman normaalisuudesta voidaan kuitenkin epäillä. Tällä luennolla tarkastellaankin varianssianalyysin epäparametristä vastinetta. -
vastaa yksisuuntaista varianssianalyysiä ilman oletuksia perusjoukon jakauman tyypistä. - testaa nollahypoteesia siitä, että k riippumatonta otosta tulevat kaikki samasta jakaumasta. Testi on erityisen herkkä eroille ja sen vuoksi testi esitetään usein testinä samuudesta.
Olkoot x 1j, x 2j,..., x nj j satunnaismuuttujan x j havaitut arvot, j {1,..., k}. Oletetaan, että havaintopisteet x 1j, x 2j,..., x nj j ovat riippumattomia ja samoin jakautuneita. Oletetaan vielä, että tarkasteltavat k otosta ovat toisistaan riippumattomia ja että muuttujat x j, j {1,..., k}, noudattavat muuten samaa jatkuvaa jakaumaa, mutta niiden mediaanit saattavat erota toisistaan. - Nollahypoteesi H 0 : m 1 = m 2 = = m k. Vaihtoehtoinen hypoteesi H 1 : Ainakin kaksi mediaaneista m j eroaa toisistaan.
- perustuu kaikkien havaintojen keskinäisen suuruusjärjestyksen tarkasteluun.
Yhdistetään otokset x 1j, x 2j,..., x nj j, j {1,..., k} yhdeksi otokseksi z 1, z 2,..., z n, missä n = k j=1 n j. Järjestetään yhdistetyn otoksen havainnot suuruusjärjestykseen pienimmästä suurimpaan. Olkoon R(z s ) havainnon z s järjestysluku yhdistetyssä otoksessa z 1, z 2,..., z n. Muodostetaan otoksista järjestyslukujen ryhmäkeskiarvot - r j = 1 n j ja yhdistetyn otoksen keskiarvo missä n = k j=1 n j. r = 1 n n j z s=x ij,i=1 R(z s ) n R(z s ), s=1
Tarkastellaan ryhmien välistä järjestyslukujen vaihtelua kuvaavaa ryhmäneliösummaa k n j ( r j r) 2 j=1 - ja järjestyslukujen kokonaisvaihtelua kuvaavaa neliösummaa n (R(z s ) r) 2. s=1
suure k j=1 K = (n 1) n j( r j r) 2 n s=1 (R(z s) r). 2 - Jos nollahypoteesi pätee, niin testisuure noudattaa suurilla otoskoilla likimain χ 2 jakaumaa vapausastein k 1. Testisuureen normaaliarvo on k 1. Suuret testisuureen arvot (verrattuna normaaliarvoon k 1) viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni.
Useat ohjelmistot laskevat n tarkkoja p arvoja otoskokojen ollessa pieniä. Suurilla otoskoilla tarkkojen p arvojen määrittäminen vaatii kovan tehon laskentakapasiteettia ja tällöin ohjelmistot nojaavat asymptoottisiin p arvoihin (toisin sanoen edellä mainittuun χ 2 jakaumaan). -
Diskreetit jakaumat Oletimme edellä, että otokset ovat jatkuvista jakaumista. ä voidaan käyttää myös silloin kun jakaumat ovat diskreettejä, mutta tällöin on mahdollista, että osalla otospisteistä järjestysluku on sama. Tällöin kaikille näille otospisteille valitaan järjestysluvuksi keskimmäinen. Esim. jos kahdella otospisteellä on sama järjestysluku, vastaten järjestyslukuja 7 ja 8, niin molemmille pisteille asetetaan järjestysluvuksi 7.5. Jos taas esimerkiksi kolmella otospisteellä on sama järjestysluku, vastaten järjestyslukuja 3, 4 ja 5, niin järjestysluvuksi valitaan kaikille kolmelle 4. -
Esimerkki Tarkastellaan kolmen opiskelijaryhmän saamia tenttipisteitä tilastotieteen tentissä. Pistemäärät ja niiden järjestysluvut (sulkeissa) on esitetty alla olevassa taulukossa. ryhmä 1 ryhmä 2 ryhmä 3 18.0 (14) 16.5 (11) 23 (22) 11.0 (4.5) 10.0 (3) 22 (20) 17.0 (12) 15.0 (8.5) 23 (22) 14.0 (7) 15.0 (8.5) 24 (24) 11.0 (4.5) 20.5 (17) 21 (18) 9.5 (2) 8.0 (1) 21.5 (19) 16.0 (10) 12.0 (6) 23 (22) 20.0 (16) 17.5 (13) 19.0 (15) -
Esimerkki Muodostetaan otoksista järjestyslukujen ryhmäkeskiarvot r 1 = 1 54 (14 + 4.5 + 12 + 7 + 4.5 + 2 + 10) = 7 7 = 7.714286, r 2 = 1 7 (11 + 3 + 8.5 + 8.5 + 17 + 1 + 6) = 55 7 = 7.857143, - r 3 = 1 191 (22+20+22+24+18+19+22+16+13+15) = 10 10 = 19.1, ja yhdistetyn otoksen keskiarvo r = 1 300 (54 + 55 + 191) = 24 24 = 12.5.
Esimerkki Lasketaan ryhmäneliösumma k n j ( r j r) 2 = 7 (7.714286 12.5) 2 + 7 (7.857143 12.5) 2 j=1 +10 (19.1 12.5) 2 = 746.8143 ja järjestyslukujen kokonaisvaihtelua kuvaavaa neliösummaa n (R(z s ) r) 2 s=1 = (14 12.5) 2 + (4.5 12.5) 2 + (12 12.5) 2 + (7 12.5) 2 +(4.5 12.5) 2 + (2 12.5) 2 + (10 12.5) 2 + (11 12.5) 2 +(3 12.5) 2 + (8.5 12.5) 2 + (8.5 12.5) 2 +(17 12.5) 2 + (1 12.5) 2 + (6 12.5) 2 +(22 12.5) 2 +(20 12.5) 2 +(22 12.5) 2 +(24 12.5) 2 +(18 12.5) 2 +(19 12.5) 2 +(22 12.5) 2 +(16 12.5) 2 +(13 12.5) 2 +(15 12.5) 2 = 1147 -
Esimerkki Nyt k j=1 K = (n 1) n j( r j r) 2 n s=1 (R(z s) r) = (24 1)746.8143 = 14.97535. 2 1147 - Testin p arvo on reilusti alle 0.05 arvo 5.99 antaa p arvon 0.05 joten nollahypoteesi samuudesta hylätään. Todetaan, että tenttimenestyksessä on opiskelijaryhmien välillä tilastollisesti merkittävä ero.
-
- Jos llä päädytään hylkäämään nollahypoteesi samuudesta, niin voidaan jatkaa ryhmittelyllä, jossa selvitetään missä ryhmissä erot ovat tilastollisesti merkitseviä.
Tarkastellaan samuutta/eroavuutta pareittain. Tarkasteltavia pareja on yhteensä c = k(k 1) 2 kappaletta. Ensimmäisenä ajatuksena mieleen tulee tarkastella pareja Wilcoxonin kahden otoksen järjestyslukutestillä. Tällöin tulee kuitenkin muistaa, että jos yhdistettyyn vertailuun halutaan riskitaso α, niin parivertailut on suoritettava riskitasolla β = α c. Esimerkiksi jos haluamme käyttää yhdistetyssä vertailussa riskitasoa 0.05, niin parivertailuissa nollahypoteesin hylkäykseen vaaditaan, että p arvo on pienempi tai yhtäsuuri kuin 0.05 c. -
Numeerinen esimerkki stä Edellisen luennon esimerkissä tutkittiin kolmen eri keksimerkin suklaapitoisuuksia. Varianssianalyysin perusteella todettiin, että suklaapitoisuuksissa oli eroja. Hieman tuo varianssianalyysin vaatima normaalisuusoletus kuitenkin mietityttää (massa kun ei voi olla negatiivinen). Parivertailussa päätetäänkin käyttää epäparametristä ä. Kalle Panu Stara 0.111 0.109 0.119 0.123 0.107 0.124 0.109 0.103 0.125 0.120 0.104 0.117 0.115 0.098 0.111 0.112 0.110 0.120 0.117 0.101 0.118 0.110 0.115 0.116 0.119 0.099 0.122 0.116 0.111 0.119 -
Vertailtavia pareja on c = k(k 1) 2 = 3 kpl. Näin ollen testin p-arvo on oltava pienempi tai yhtäsuuri kuin 0.05 3 = 0.0166... Wilcoxonin järjestyslukutestiä on käytetty jo aikaisemmin, joten p-arvot on tällä kertaa laskettu suoraan laskentaohjelmistolla. Wilcoxon rank sum test with continuity correction data: kalle and panu W = 91, p-value = 0.002169 alternative hypothesis: true location shift is not equal to 0 - Wilcoxon rank sum test with continuity correction data: kalle and stara W = 26, p-value = 0.07478 alternative hypothesis: true location shift is not equal to 0 Wilcoxon rank sum test with continuity correction data: panu and stara W = 1.5, p-value = 0.0002821 alternative hypothesis: true location shift is not equal to 0
Molempien Panun pahanmakuisia unelmasulkaaprinsessakeksejä tutkivien testien p-arvot ovat pienempiä kuin 0.05 3 = 0.0166... Näin ollen nollahypoteesi voidaan hylätä molemmissa vertailuissa ja voidaan todeta, että Panun pahanmakuisten unelmasuklaaprinsessakeksien suklaapitoisuuksien teoreettinen mediaani eroaa Kallen supersuklaisien herkkukeksien sekä Staran suklaalla signeerattujen tähtikeksien suklaapitoisuuksien teoreettisista mediaaneista. -
- -
Huomaa, että on konstruoitu siten, että se testaa nollahypoteesia siitä, että k riippumatonta otosta tulevat kaikki samasta jakaumasta. Täten testi saattaa havaita muunkinlaista poikkeavuutta kuin eron. Testi on siis pelkkää erojen testaamista laajempi, vaikka toimiikin käytännössä parhaiten juuri silloin kun jakaumat eroavat toisistaan suhteen. -
J. S. Milton, J. C. Arnold: Introduction to Probability and Statistics, McGraw-Hill Inc 1995. R. V. Hogg, J. W. McKean, A. T. Craig: Introduction to Mathematical Statistics, Pearson Education 2005. P. Laininen: Todennäköisyys ja sen tilastollinen soveltaminen, Otatieto 1998, numero 586. I. Mellin: Tilastolliset t, http://math.aalto.fi/opetus/sovtoda/materiaali.html. -