Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1
Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n 1 1), (n 2 1)]) Entä jos vertailtavia ryhmiä on useampi kuin kaksi? Varianssianalyysi yleistää t-testin tilanteeseen, jossa vertailtavia ryhmiä on k kappaletta Varianssianalyysin nollahypoteesi on siis muotoa H 0 : μ 1 =... = μ k Vilkkumaa / Kuusinen 2
Varianssianalyysin nimi Nimi varianssianalyysi on harhaanjohtava, sillä siinä tutkitaan ryhmien odotusarvoja. Nimi johtuu siitä, että ryhmäkohtaisten odotusarvojen testaaminen perustuu eri tavoilla määrättyjen varianssien yhtäsuuruuden testaamiseen F -testeillä. Vilkkumaa / Kuusinen 3
Yksisuuntainen ja useampisuuntainen varianssianalyysi Perusjoukon jako ryhmiin voidaan tehdä yhden tai useamman tekijän perusteella: - Jos ryhmiin jako perustuu yhteen tekijään, puhutaan yksisuuntaisesta varianssianalyysista. - Jos ryhmiin jako perustuu m tekijään, puhutaan m-suuntaisesta varianssianalyysista. Vilkkumaa / Kuusinen 4
Yksisuuntainen varianssianalyysi Vilkkumaa / Kuusinen 5
Yksisuuntaisen varianssianalyysin perusasetelma 1/3 Oletetaan, että tutkimuksen kohteena oleva perusjoukko voidaan jakaa k ryhmään jonkin tekijän A suhteen. Oletetaan, että jokaisesta ryhmästä i = 1, 2,..., k poimitaan yksinkertaiset satunnaisotokset, joiden koot ovat n 1, n 2,..., n k. Olkoon y ji = j. havainto ryhmässä i. Käytetystä otantamenetelmästä seuraa, että havainnot y ji, j = 1, 2,..., n i, i = 1, 2,..., k voidaan olettaa riippumattomiksi satunnaismuuttujiksi. Vilkkumaa / Kuusinen 6
Yksisuuntaisen varianssianalyysin perusasetelma 2/3 Yksisuuntaisen varianssianalyysin tilastollinen malli parametroidaan seuraavasti: y ji = μ i + ε ij, ε ij N(0, σ 2 ), j = 1, 2,..., n i, i = 1, 2,..., k Oletuksista seuraa, että (i) E(y ji ) = μ i, j = 1, 2,..., n i, i = 1, 2,..., k (ii) Var(y ji ) = σ 2, j = 1, 2,..., n i, i = 1, 2,... k Vilkkumaa / Kuusinen 7
Yksisuuntaisen varianssianalyysin perusasetelma 3/3 Haluamme testata nollahypoteesia, että ryhmäkohtaiset odotusarvot E(y ji ) = μ i, j = 1, 2,..., n i, i = 1, 2,..., k ovat yhtä suuria. Nollahypoteesi on siis muotoa H 0 : μ 1 = μ 2 = = μ k = μ Vilkkumaa / Kuusinen 8
Johtopäätökset Jos nollahypoteesi H 0 pätee, ryhmät voidaan yhdistää havaintojen keskimääräisiä arvoja koskevissa tarkasteluissa. Jos nollahypoteesi H 0 ei päde, tiedetään, että muuttujan y ryhmäkohtaiset odotusarvot eroavat toisistaan ainakin kahdessa ryhmässä. Jos nollahypoteesi H 0 hylätään, ryhmäkohtaisia odotusarvoja voidaan verrata pareittain tai simultaanisesti. Vilkkumaa / Kuusinen 9
Ryhmäkeskiarvot ja kokonaiskeskiarvo Määritellään havaintoarvojen y ji ryhmäkeskiarvot kaavoilla ȳ i = 1 n i n i j=1 y ji, i = 1, 2,..., k sekä kaikkien havaintoarvojen y ji kokonaiskeskiarvo kaavalla ȳ = 1 N n i y ji = 1 N n i ȳ i, j=1 jossa on havaintojen kokonaislukumäärä. N = n 1 + n 2 + + n k Vilkkumaa / Kuusinen 10
Neliösummia 1/2 Olkoon n i SST = (y ji ȳ) 2 j=1 havaintoarvojen y ji kokonaisvaihtelua kuvaava neliösumma, SSG = n i (ȳ i ȳ) 2 = n i (ȳ i ȳ) 2 j=1 ryhmien välistä vaihtelua kuvaava neliösumma ja SSE = n i j=1 (y ji ȳ i ) 2 ryhmien sisäistä vaihtelua kuvaava neliösumma. Vilkkumaa / Kuusinen 11
Neliösummia 2/2 Havaintoarvojen y ji ryhmäkohtaiset otosvarianssit s 2 i saadaan kaavoilla s 2 i = 1 n i 1 n i j=1 (y ji ȳ i ) 2, i = 1, 2,..., k, joten neliösumma SSE voidaan kirjoittaa myös muotoon SSE = (n i 1)s 2 i. Vilkkumaa / Kuusinen 12
Varianssianalyysihajotelma Yksisuuntaista varianssianalyysia vastaava varianssianalyysihajotelma on SST = SSG + SSE. Vapausasteet N 1 = (k 1) + (N k). Vilkkumaa / Kuusinen 13
Testisuure Yksisuuntaisen varianssianalyysin F -testisuure on muotoa Jos nollahypoteesi F = N k k 1 SSG SSE H 0 : μ 1 = μ 2 = = μ k = μ pätee, testisuure noudattaa F -jakaumaa vapausastein (k 1, N k). Vilkkumaa / Kuusinen 14
Testisuureen tulkinta 1/3 Testisuure F = N k k 1 SSG SSE voidaan tulkita varianssien vertailutestisuureeksi, jossa havaintojen y ji varianssin σ 2 estimaattoria MSE = 1 N k SSE = 1 N k verrataan estimaattoriin MSG = 1 k 1 SSG = 1 k 1 n i j=1 (y ji ȳ i ) 2 n i (ȳ i ȳ) 2. Vilkkumaa / Kuusinen 15
Testisuureen tulkinta 2/3 Voidaan osoittaa, että E(MSE) = σ 2, ja E(MSG) = σ 2 + n k 1 τi 2, missä n = N/k ja τ i = μ i μ on ryhmittelevän tekijän tason i vaikutus. Vilkkumaa / Kuusinen 16
Testisuureen tulkinta 3/3 Näin ollen estimaattori MSE = 1 N k SSE = 1 N k n i j=1 (y ji ȳ i ) 2 on aina harhaton havaintojen y ji varianssille σ 2, mutta estimaattori MSG = 1 k 1 SSG = 1 k 1 n i (ȳ i ȳ) 2 on harhaton varianssille σ 2 ainoastaan, jos nollahypoteesi pätee. H 0 : μ 1 = μ 2 = = μ k = μ Vilkkumaa / Kuusinen 17
Varianssianalyysitaulukko Varianssianalyysin tulokset on tapana esittää varianssianalyysitaulukossa. Vaihtelun SS df M S F lähde Ryhmien välinen SSG k 1 MSG = 1 k 1 SSG vaihtelu F = N k k 1 SSG SSE Ryhmien sisäinen SSE N k MSE = 1 N k SSE vaihtelu Kokonaisvaihtelu SST N 1 Vilkkumaa / Kuusinen 18
Klikkerit: 3 ryhmään jaetulle aineistolle on tehty 1-suuntainen varianssianalyysi. Minkä johtopäätöksen voit tuloksista tehdä merkitsevyystasolla 0.05? 1. Ryhmäkohtaiset odotusarvot ovat samat 2. Ainakin yhden ryhmän odotusarvo poikkeaa toisista 3. Kaikkien ryhmien odotusarvot ovat erisuuret. Vilkkumaa / Kuusinen 19
Bartlettin testi Yksisuuntaisessa varianssianalyysissa oletetaan, että havaintojen y ji ryhmäkohtaiset varianssit ovat yhtä suuria. Tätä oletusta voidaan testata Bartlettin testillä. Olkoot havainnot y ji normaalisia: y ji N(μ i, σi 2 ), j = 1, 2,..., n i, i = 1, 2,..., k Oletetaan lisäksi, että havainnot y ji ovat riippumattomia. Nollahypoteesi on muotoa H 0 : σ 2 1 = σ 2 2 = = σ 2 k = σ 2. Vilkkumaa / Kuusinen 20
Bartlettin testi - testisuure Määritellään Bartlettin testisuure: B = Q h, jossa ja s 2 P Q = (N k) ln(s 2 P ) h = 1 + on yhdistetty varianssi ( 1 3(k 1) (n i 1) ln(s 2 i ), 1 n i 1 1 N k ) s 2 P = 1 N k (n i 1)s 2 i. Vilkkumaa / Kuusinen 21
Bartlettin testi - testisuureen jakauma Jos nollahypoteesi H 0 : σ 2 1 = σ 2 2 = = σ 2 k = σ 2 pätee, Bartlettin testisuure B noudattaa suurissa otoksissa approksimatiivisesti χ 2 -jakaumaa vapausastein (k 1): B a χ 2 (k 1). Suuret testisuureen B arvot johtavat nollahypoteesin H 0 hylkäämiseen. Vilkkumaa / Kuusinen 22
Yksisuuntaisen varianssianalyysin laskutoimitusten suorittaminen Varianssianalyysissa ja Bartlettin testissä havainnoista joudutaan laskemaan otosvariansseja ja neliösummia, mikä voi olla työlästä ilman tietokonetta. Ohjeet tarvittavien laskutoimitusten suorittamiseen löytyvät 6. laskuharjoituksen ratkaisuista sivuilta 11-13 (vanhat tehtävät). Vilkkumaa / Kuusinen 23
Yhteenveto Yksisuuntaisella varianssianalyysilla tutkitaan, poikkeavatko yhden tekijän suhteen ryhmitellyn aineiston ryhmäkohtaiset odotusarvot toisistaan Nollahypoteesi: ryhmäkohtaiset odotusarvot ovat samat H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, poikkeaa ainakin yhden ryhmän odotusarvo muista Nollahypoteesin testaaminen perustuu jäännösvarianssiestimaattorien MSE ja MSG vertailuun F -testillä Testi olettaa ryhmäkohtaiset varianssit samoiksi; tätä oletusta voidaan testata Bartlettin testillä Vilkkumaa / Kuusinen 24