VARIANSSIANALYYSI ANALYSIS OF VARIANCE 1
Suomalaisten aikuisten pituusjakauma:.8.7.6.5.4.3.2.1 14 15 16 17 18 19 2 21 Jakauma ei ole normaali, sen olettaminen sellaiseksi johtaa virheellisiin päätelmiin. Syy tietysti on miesten ja naisten erilaiset jakaumat (jakaumat normaalit, hajonta = 6.5 cm, odotusarvot erilaiset). 2
Yksinkertaisimmillaan varianssianalyysi on tarkoitettu tällaisten tilanteiden hallintaan. Käytetty malli on pituus = keskipituus + sukupuolen vaikutus + kohina. Matemaattisesti kirjoitettuna malli on i:nnelle näytteelle y i = m + t i + u i, missä y i on pituus (ns. vaste eli selitettävä muuttuja), m on keskipituus (keskivaste, intercept), t i on sukupuolen vaikutus (selittävä muuttuja eli faktori) ja u i on normaalijakautunut virhe (odotusarvo, varianssi σ 2 ). Faktorilla t on kaksi tasoa, mies ja nainen. 3
Kun otetaan näytteitä (satunnaisotos) kirjataan ylös henkilön pituus ja sukupuoli. Perustehtäviä on kolme: Estimoidaan m sekä t:n tasojen arvot. Estimoidaan u:n varianssi σ 2. Testataan onko faktorilla tosiaan jotain vaikutusta vasteeseen. Nollahypoteesi H on, että ei ole. 4
Näytteet (kaiken kaikkiaan 41 ihmistä) esitetään ns. datamatriisina, taulukkoeditorissa: Pituusdata.csv Rows Pituus Sukupuoli 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 162.3 163.6 157.4 156.7 171.4 165.4 161.1 17.5 166.8 158.9 174 167.2 174.9 172.7 16.9 156.9 164.8 163.2 159.8 168.5 188.3 175 173.1 1 1 1 5
Tulostus, ns. ANOVA-taulu, on seuraavanlainen (kuten näkyy, kyseessä on ns. yksisuuntainen ANOVA): Pituusdata.csv: Fit Y by X Page 1 Oneway Analysis of Pituus By Sukupuoli Oneway Anova Summary of Fit Rsquare Adj Rsquare Root Mean Square Error Mean of Response Observations (or Sum Wgts) Analysis of Variance.585271.574637 5.4411 171.2659 41 Source Sukupuoli Error C. Total DF 1 39 4 Sum of Squares 167.3241 1138.9681 2746.2922 Mean Square 167.32 29.2 F Ratio 55.372 Prob > F <.1 Means for Oneway Anova Level 1 Number 2 21 Mean 164.85 177.376 Std Error 1.284 1.1793 Std Error uses a pooled estimate of error variance Lower 95% 162.41 174.99 Upper 95% 167.29 179.76 Käytetty ohjelma on JMP c. c SAS Institute Inc. 6
ANOVA-taulusta löytyvät useimmat halutut suureet. Ensinnäkin: Keskivaste (Mean of Response) on 171.3 cm. Hajonnan σ estimaatti (Root Mean Square Error) on 5.4 cm. Faktorin tasojen estimoidut arvot ovat 164.9 cm (naiset) sekä 177.4 cm (miehet). Tason arvot on tässä lisätty keskivasteeseen. 7
Muuta mielenkiintoista ovat F-testi ja selitysaste R 2 (Rsquare). F-testin testisuure saadaan muodossa F = MSR MSE, missä MSR on faktorin tasojen erojen aiheuttama otosvarianssi ja MSE saadaan poistamalla otoksen kokonaisvarianssista MSR. Suuri testisuureen arvo merkitsee sitä, että tasoerot selittävät ison osan kokonaisvaihtelusta. Testisuureella on F-jakauma, jonka avulla tarkka tilastotesti voidaan tehdä. Pienet p-arvot (Prob > F) tietävät suurta merkitsevyyttä. Edellä oleva <.1 on jo hyvin pieni ja malli erittäin merkitsevä. 8
Selitysaste R 2 taas saadaan muodossa R 2 = SSR SST, missä SSR on faktorin tasoerojen aiheuttama neliösumma (otosvarianssi ilman jakajaa) ja SST otoksen kokonaisneliösumma. Se kertoo kuinka suuren suhteellisen osan faktorien tasoerot selittävät kokonaisvaihtelusta. Edellä oleva.59 on kohtuullinen. Saatu malli voi olla merkitsevä (pieni F-testin p-arvo), vaikka sen selitysaste on pieni. Silloin faktorin tasoerot selittävät vasteen vaihtelua, mutta tämä on muuhun vaihteluun nähden suhteellisen pientä. (Tällainenkin selittävyys voi kuitenkin olla käyttökelpoista.) 9
Hyvin suuri selitysaste (lähellä 1:tä) ei välttämättä ole hyvä. Silloin pienen näytemäärän takia malli selittää kohinaakin tai sitten kohinan osuus on hyvin pientä ja koko tilastotarkastelu voi olla turhaa. Näytteiden kohinasatunnaismuuttujat u i oletetaan tässä riippumattomiksi ja samoin jakautuneiksi. Kun vastedatasta vähennetään estimoitujen vaste-erojen vaikutus, saadaan ns. residuaali, jonka ideaalisesti pitäisi olla satunnaisotos normaalijakautuneesta satunnaismuuttujasta. Tilasto-ohjelmistot sisältävät runsaasti erilaisia menetelmiä, joilla residuaalia käyttäen voidaan testata näitä perusoletuksia ja muutakin. 1
Eo. mallissa residuaalit piirrettynä näytejärjestyksessä ovat alla olevassa kuvassa. (Residuaaleja voi olla syytä piirtää muitakin muuttujia vastaan, esimerkiksi vastearvoja vastaan.) Hyvältä näyttää: 15 1 5 Residuaali 5 1 5 1 15 2 25 3 35 4 45 Näytenro 11
Huolestuttavia kuvioita ovat mm. seuraavanlaiset: 12
Residuaalin ns. normaalitodennäköisyyskuvassakaan ei ole mitään vikaa:.99.98.95.9 Normaalikertymä.75.5.25.1.5.2.1 8 6 4 2 2 4 6 8 1 Residuaali Eo. esimerkissä faktorin tasoja oli kaksi. Niitä voi olla useampiakin. 13
Yksisuuntaisessa ANOVAssa on vain yksi faktori. ANOVA voi olla monisuuntainenkin. Silloin faktoreita on useampia. Kaksisuuntaisessa ANOVAssa faktoreita on kaksi. Esimerkkinä voisi olla ihmisen sukupuoli ja tulotaso (sopivalla luokituksella). Jos vaste on elinikä, malli olisi silloin ikä = keski ikä + sukupuolen vaikutus + tulotason vaikutus + kohina. Matemaattisesti malli on i:nnelle näytteelle y i = m + t i + v i + u i, 14
missä y i on ikä, m on keski-ikä, t i on sukupuolen vaikutus, v i on tulotason vaikutus ja u i on normaalijakautunut virhe (odotusarvo, varianssi σ 2 ). Seuraavassa on elokuvadataa (kaikkiaan 276 näytettä). Faktoreita on kaksi, elokuvan laji ja amerikkalainen luokitus. 15
Movies.jmp Rows Type Rating Domestic $ Worldwide $ 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 31 Family Drama Drama Family Drama Mystery-Suspense Mystery-Suspense Action Family Drama Drama Drama Drama Action Family Mystery-Suspense Action Action Action PG G R PG-13 G R PG R PG-13 R G G R PG R R R R PG-13 PG PG-13 PG-13 PG-13 PG-13 PG PG G R PG-13 PG-13 PG-13 19.3$ 135.5$ 116.7$ 17.7$ 162.8$ 141.3$ 17.4$ 18.3$ 18.4$ 173.$ 1.5$ 217.4$ 13.1$ 115.$ 11.7$ 145.1$ 129.8$ 16.7$ 132.8$ 172.1$ 21.6$ 148.5$ 213.1$ 26.$ 21.6$ 118.5$ 12.8$ 117.7$ 251.2$ 17.3$ 184.$ 239.6$ 34.9$ 229.7$ 312.1$ 358.$ 237.3$ 13.5$ 152.3$ 212.3$ 315.1$ 1.5$ 52.4$ 348.1$ 115.$ 21.8$ 285.4$ 129.8$ 176.9$ 149.4$ 334.1$ 554.6$ 313.4$ 287.9$ 31.3$ 35.6$ 332.$ 268.$ 352.7$ 413.$ 237.3$ 335.$ 16
Kaksisuuntainen ANOVA antaa seuraavan taulun (JMP): Movies.jmp: Fit Least Squares Response Domestic $ Whole Model Summary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Observations (or Sum Wgts) Analysis of Variance Source Model Error C. Total DF 7 268 275 Parameter Estimates Term Intercept Type[Action] Type[] Type[Drama] Type[Family] Rating[G] Rating[PG] Rating[PG-13] Effect Tests Source Type Rating Nparm 4 3.9618.72573 65.63236 157.3877 276 Sum of Squares 122849.6 1154438.5 1277288.1 Estimate 151.86177 1.9468935-19.77941 12.315294 22.81672-15.85163 2.426284 28.5424 DF 4 3 Mean Square 17549.9 437.6 Std Error 5.38984 8.54238 7.746396 7.491321 12.6493 14.13742 7.156271 8.241943 Sum of Squares 51442.967 8382.915 t Ratio 3.14.23-2.55 1.64 1.8-1.12.34 3.46 F Ratio 2.9856 6.4292 F Ratio 4.742 Prob > F.3 Prob> t <.1.8199.112.114.724.2632.7348.6 Prob > F.195.3 Pag 17
Kuten näkyy, malli on merkitsevä (p-arvo on.3), mutta selitysaste on pieni (.1). ANOVA testaa myös yksittäisten tasojen merkitystä, ja erikseen kummankin faktorin vaikutuksen. Erityisesti Rating on hyvin merkitsevä. Tasojen estimoidut vaikutukset eivät tässä ole kovin tärkeitä, ja sitäpaitsi ne riippuvat tavasta, jolla ohjelma koodaa faktoritasot. Tasojen välinen vertailu on toki mahdollista. Yksi tasoista jätetään yleensä tulostuksessa pois eräänlaisena nollatasona. 18
Eo. mallissa toisen faktorin vaikutus on aina sama riippumatta ensimmäisen faktorin tasosta. Näin ei aina tarvitse olla, faktoreilla voi olla yhdysvaikutusta. Mallissa tämä ilmoitetaan formaalisti tulomuotoisilla termeillä: y i = m + t i + v i + t i v i + u i. ANOVA estimoi yhdysvaikutustermit ja testaa niiden merkityksen niin mukana koko mallissa kuin myös erikseen. 19
Ne tasoyhdelmät, joista näytteet saadaan ovat periaatteessa valittavissa. (Usein tosin tavalla tai toisella ennalta valitut, tai satunnaisesti valikoituvat.) Yhdelmille voi olla toistojakin, eri määrät eri yhdelmille jne. Kaikki tavat valita tasoyhdelmät ja toistot tietylle näytemäärälle eivät ole yhtä hyviä. Erityisesti, jos näytemäärä on pieni, on tasoyhdelmät toistoineen valittava huolellisesti. Tämä tilastomatematiikan osa-alue on ns. koesuunnittelu. Jos esimerkiksi kolmisuuntaisessa ANO- VAssa kullakin kolmesta faktorista on viisi eri tasoa, on eri yhdelmiä jo 125 kpl. Se voi olla liikaa, ja lisäksi saattaisi olla hyvä olla vielä toistojakin mukana. 2
Koesuunnittelun malleja ja menetelmiä on suuri määrä. Mainitaan vain eräs klassinen sellainen, ns. roomalainen neliö. Jos edellä ensimmäisen faktorin tasot ovat rivit, toisen faktorin tasot ovat sarakkeet ja kolmannen faktorin tasot ovat kirjaimet A, B, C, D ja E, niin eri tasoyhdelmät saadaan alla vasemmasta neliöstä (25 näytettä). Oikeasta neliöstä saataisiin yhdelmät kuuden tason tapauksessa. A D B E C A D C E B F D A C B E B A E C F D C B E D A C E D F A B B E A C D D C F B E A E C D A B F B A D C E E F B A D C Roomalaisia neliöitä on paljon ja niistä pitäisi aina valita kulloinkin käytettävä neliö satunnaisesti. 21