Aki Taanila VARIANSSIANALYYSI 18.5.2007
VARIANSSIANALYYSI 1 JOHDANTO...2 VARIANSSIANALYYSI...3 Yksisuuntainen varianssianalyysi...3 Kaksisuuntainen varianssianalyysi ilman toistoja...6 Kaksisuuntainen varianssianalyysi toistoin...9 SPSS ja yksisuuntainen varianssianalyysi...12 SPSS ja kaksisuuntainen varianssianalyysi ilman toistoja...14 SPSS ja kaksisuuntainen varianssianalyysi toistoin...15 LIITE: NORMAALIJAKAUTUNEISUUS...17 Yleistä...17 Onko jakauma normaali?...18
VARIANSSIANALYYSI 2 JOHDANTO Tilastollisen osuuden lisäksi dokumentti sisältää myös ohjeet Excelin käyttöön esitettyjen menetelmien yhteydessä. Excel-ohjeet erotat oikeassa marginaalissa olevasta pystyviivasta. SPSS-ohjeet on sijoitettu omiin lukuihin. Dokumentin lähteenä on käytetty verkkomateria http://myy.helia.fi/~taaak/p Dokumenttiin liittyy Excel-esimerkki http://myy.haaga-helia.fi/~taaak/p/anova.xls Aki Taanilan muita materiaaleja Kvantitatiivisen tutkimuksen suunnittelu http://myy.haagahelia.fi/~taaak/t/suunnittelu.pdf Aineiston esittäminen ja kuvailu http://myy.haaga-helia.fi/~taaak/k/kuvailu.pdf SPSS alkeet http://myy.haaga-helia.fi/~taaak/k/spss.pdf Matemaattisia malleja http://myy.haaga-helia.fi/~taaak/m/malleja.pdf Tilastollinen päättely http://myy.haaga-helia.fi/~taaak/p/paattely.pdf Kommentit ja parannusehdotukset Otan mielelläni vastaan kommentteja ja parannusehdotuksia sähköpostitse osoitteeseen aki.taanila(at)haaga-helia.fi.
VARIANSSIANALYYSI 3 VARIANSSIANALYYSI Kokeellista tutkimusasetelmaa käytettäessä vertaillaan ryhmiä toisiinsa. Jos vertailtavia ryhmiä on kaksi, niin keskiarvojen vertailuun voidaan käyttää kahden ryhmän t-testiä. Jos ryhmiä on useampia, niin keskiarvojen vertailuun voidaan käyttää varianssianalyysia. Huomaa, että ei ole hyväksyttävää käyttää kahden ryhmän t-testiä useamman ryhmän tapaukseen (siis vertailemalla ryhmiä pareittain). Tämä johtuu siitä, että toistettaessa t- testiä useampaan kertaan saman ryhmän kohdalla, virhepäätelmän riski kasvaa. Tässä esityksessä tarkastellaan kolmea varianssianalyysin tyyppiä: 1. Yksisuuntainen varianssianalyysi (completely randomized design): sopii tutkimusasetelmiin, joissa on yksi selittävä/riippumaton muuttuja. 2. Kaksisuuntainen varianssianalyysi ilman toistoja (randomized block design): sopii tutkimusasetelmiin, joissa on yksi selittävä/riippumaton muuttuja ja lisäksi halutaan kontrolloida satunnaisvaihtelun lähdettä. 3. Kaksisuuntainen varianssianalyysi toistoin (factorial design): sopii tutkimusasetelmiin, joissa tarkastellaan kahden selittävän muuttujan vaikutusta. Yksisuuntainen varianssianalyysi Käyttöedellytykset Yksisuuntaisen varianssianalyysin käyttöedellytykset ovat: 1. Otokset ovat toisistaan riippumattomat ja satunnaisesti valitut 2. Otokset ovat peräisin normaali jakautuneesta perusjoukosta 3. Perusjoukossa ryhmien varianssit ovat yhtä suuria. Jos sinulla on vahvat syyt epäillä käyttöedellytysten täyttymistä, niin voit käyttää yksisuuntaisen varianssianalyysin sijasta Kruskall-Wallis -testiä. Kruskall-Wallis -testin voit laskea tilasto-ohjelmaa (SPSS) käyttäen. 1 Otokset ovat toisistaan riippumattomat ja satunnaisesti valitut Jos kyseessä on asetelma, jossa vertailtavat ryhmät saavat tutkijan toimesta erilaiset käsittelyt, niin erilaisen käsittelyn saavat täytyy valita satunnaisesti samasta perusjoukosta. Esim. jos kokeillaan kolmen eri oppimateriaalin vaikutusta oppimistuloksiin, niin kullekin oppimateriaalille valitaan käyttäjät satunnaisesti samasta perusjoukosta. Jos kyseessä on asetelma, jossa verrataan ryhmiä, jotka ovat luonnostaan erilaisen "käsittelyn" saaneita (ilman tutkijan myötävaikutusta), niin tutkittavat täytyy valita satunnaisesti tietyn käsittelyn saaneista. Esim. jos verrataan eri ikäluokkiin kuuluvien reaktionopeutta, niin kustakin ikäluokasta valitaan otokset satunnaisesti.
VARIANSSIANALYYSI 4 2 Otokset ovat peräisin normaalijakautuneesta perusjoukosta Riippuvan muuttujan (muuttuja, jonka keskiarvoja ja variansseja tarkastellaan) täytyy noudattaa likimain normaalijakaumaa kussakin tarkasteltavista ryhmistä. Pienet poikkeamat normaalijakaumasta eivät ole vakavia. 3 Perusjoukossa ryhmien varianssit ovat yhtä suuria Esimerkki Riippuvan muuttujan täytyy omata likimain samansuuruiset varianssit kussakin tarkasteltavista ryhmistä. Jos kustakin ryhmästä valitaan samansuuruinen otos, niin pienet erot variansseissa eivät ole vakavia. Esim. Tarkastellaan kolmen eri automallin polttoaineenkulutusta. Selittävänä muuttujana on automalli. Arvotaan tietty määrä kuljettajia ajamaan kutakin automallia ja lasketaan kullekin automallille keskimääräinen polttoaineenkulutus. Vertailtavana on siis kolmen eri automallin keskimääräinen polttoaineenkulutus. A- ja B-autoilla oli siis kumpaisellakin 7 kuljettajaa ja C autolla 6 kuljettajaa. Polttoaineen kulutuksen vaihtelua voidaan havainnollistaa kuviolla:
VARIANSSIANALYYSI 5 Kuviosta nähdään, että samallakin automallilla esiintyy kuljettajasta johtuvaa vaihtelua. Kuljettajasta johtuva vaihtelu on tässä tutkimusasetelmassa satunnaisvaihtelua, koska sitä ei olla millään tavalla kontrolloitu. Automallien erot ovat tässä tapauksessa niin suuria, että ne erottuvat kuljettajasta johtuvasta vaihtelusta huolimatta (lukuun ottamatta mallien B ja C välistä eroa). Yksisuuntaisella varianssianalyysilla pyritään tunnistamaan ryhmien välinen vaihtelu, joka erottuu satunnaisvaihtelusta. Ideana on kokonaisvarianssin jakaminen ryhmien väliseen varianssiin ja ryhmien sisäiseen varianssiin. Jos ryhmien välinen varianssi ja ryhmien sisäinen varianssi ovat yhtä suuria, niin riippumaton muuttuja ei todennäköisesti ole aiheuttanut vaihtelua. Mitä suurempi ryhmien välinen varianssi on ryhmien sisäiseen varianssiin verrattuna sitä todennäköisempää on, että riippumaton muuttuja on aiheuttanut vaihtelua. Hypoteesit Päättelysääntö P-arvon laskeminen Yksisuuntainen varianssianalyysi on testimenetelmä, jonka hypoteesit ovat: Nollahypoteesi: Ryhmien keskiarvot ovat yhtä suuret. Vaihtoehtoinen hypoteesi: Ainakin kahden ryhmän välillä on merkitsevä ero. Hypoteesin testaus lähtee siitä olettamuksesta, että nollahypoteesi on totta. Testaus perustuu p-arvoon: todennäköisyys saada vähintään niin paljon toisistaan poikkeavat keskiarvot kuin otoksesta saadut. Yleensä päättelysääntönä käytetään: jos p-arvo on alle 5 %, niin nollahypoteesi hylätään, muussa tapauksessa nollahypoteesi jää voimaan. Päättelyn perusteluna on esitettävä laskettu p-arvo. Excelissä voit laskea yksisuuntaisen varianssianalyysin toiminnolla Tools-Data analysis-anova: Single Factor suom. Työkalut-Tietojen analysointi-anova: yksisuuntainen Jos Data Analysis -työkaluja ei ole valikossa, niin hae ne käyttöön Tools - Add Ins - toiminnolla (suom. Työkalut - Apuohjelmat).
VARIANSSIANALYYSI 6 Edellä on määritelty laskettavaksi varianssianalyysi solualueesta, jolla tieto on järjestetty sarakkeittain (yhden automallin polttoaineen kulutukset yhdessä sarakkeessa). Laskennan tuloksena saat yhteenvedon ja anova-taulukon. Yhteenvedosta löydät ryhmien keskiarvot ja varianssit. Anova-taulukossa vaihtelu on jaoteltu luokkien väliseen (esimerkissä automallien välinen) vaihteluun ja ryhmien sisäiseen vaihteluun. Yllä luokkien väliseen vaihteluun liittyvä p-arvo on 0,000171 eli 0,0171%. Tässä tapauksessa nollahypoteesi hylätään, koska p-arvo on pienempi kuin 5%. Anovataulukon muihin lukuihin tutustuminen on vaivan arvoista ja auttaa paremmin ymmärtämään menetelmän perusidean. Monista tilastotieteen kirjoista löydät yksityiskohtaisen anova-taulukon johtamisen. Kaksisuuntainen varianssianalyysi ilman toistoja Käyttöedellytykset Yksisuuntainen varianssianalyysi on riippumattomien otosten t-testin vastine useamman ryhmän vertailuun. Kaksisuuntaista varianssianalyysiä ilman toistoja voidaan käyttää kahden riippuvan otoksen t-testin vastineena. Käyttöedellytykset ovat samat kuin yksisuuntaisella varianssianalyysillä (otosten riippumattomuutta lukuun ottamatta): 1. Otokset ovat satunnaisesti valitut
VARIANSSIANALYYSI 7 2. Otokset ovat peräisin normaali jakautuneesta perusjoukosta 3. Perusjoukossa ryhmien varianssit ovat yhtä suuria. Esimerkki Jos esim. kuljettajan ajotavan arvellaan vaikuttavan merkittävästi polttoaineenkulutukseen, niin voidaan toteuttaa tutkimusasetelma, jossa sama kuljettaja ajaa jokaista autoa. Alla olevassa esimerkissä on valittu satunnaisesti 6 kuljettajaa, joista jokainen ajaa jokaisella automallilla. Kuljettajien ajovuorot arvotaan, jolloin kaikki kuljettajat eivät aja autoja samassa järjestyksessä. Tällaisella asetelmalla voidaan erottaa kuljettajan vaikutus satunnaisvaihtelusta, jolloin satunnaisvaihtelu saadaan pienemmäksi. Tätä kautta saadaan myös automallin vaikutus paremmin erottumaan satunnaisvaihtelusta. Hypoteesit Päättelysääntö P-arvon laskeminen Nollahypoteesi: Ryhmien keskiarvot ovat yhtä suuret. Vaihtoehtoinen hypoteesi: Ainakin kahden ryhmän välillä on merkitsevä ero. Hypoteesin testaus lähtee siitä olettamuksesta, että nollahypoteesi on totta. Testaus perustuu p-arvoon: todennäköisyys saada vähintään niin paljon toisistaan poikkeavat keskiarvot kuin otoksesta saadut. Yleensä päättelysääntönä käytetään: jos p-arvo on alle 5 %, niin nollahypoteesi hylätään, muussa tapauksessa nollahypoteesi jää voimaan. Päättelyn perusteluna on esitettävä laskettu p-arvo. Excelissä kaksisuuntainen varianssianalyysi ilman toistoja lasketaan toiminnolla Tools-Data Analysis-Anova: Two-Factor Without Replication (Työkalut-Tietojen analysointi-anova: kaksisuuntainen ilman toistoa). Jos Data Analysis -työkaluja ei ole valikossa, niin hae ne käyttöön Tools - Add Ins - toiminnolla (suom. Työkalut - Apuohjelmat).
VARIANSSIANALYYSI 8 Esimerkkimme tulosteena saadaan keskiarvot ja varianssit sisältävä yhteenveto-taulukko sekä varsinainen anova-taulukko: Tässä tapauksessa sarakkeiden aiheuttamaan vaihteluun liittyvä p-arvo 0,1075 % on pienempi kuin 5%, joten nollahypoteesi hylätään. Taulukon mukaan myös kuljettajien välillä oli eroja, koska rivien aiheuttamaan vaihteluun liittyvä p-arvo on noin 1 %. Kuvion avulla voidaan havainnollistaa eroja:
VARIANSSIANALYYSI 9 Kuviosta nähdään, että automallin B kulutus on ollut alhaisin kuljettajaa 6 lukuun ottamatta. Kaksisuuntainen varianssianalyysi toistoin Käyttöedellytykset Esimerkki Jos tarkasteltavana on kaksi selittävää/riippumatonta muuttujaa, niin voidaan käyttää kaksisuuntaista varianssianalyysiä toistoin. Jos esim. ensimmäinen riippumaton muuttuja määrittää 3 ryhmää ja toinen 5 ryhmää, niin kaikkiaan ryhmiä on 3x5=15 kappaletta. Kustakin ryhmästä otetaan satunnaisesti valittu otos (seuraavassa oletetaan, että otokset ovat samansuuruisia). Kaksisuuntaisen varianssianalyysin käyttöedellytykset ovat samat kuin yksisuuntaisellakin: 1. Otokset ovat toisistaan riippumattomat ja satunnaisesti valitut 2. Otokset ovat peräisin normaali jakautuneesta perusjoukosta 3. Perusjoukossa ryhmien varianssit ovat yhtä suuria Seuraavassa taulukossa riippumattomina muuttujina ovat automalli (X, Y, Z) ja kuljettajan ikäluokka (1, 2, 3, 4, 5). Kustakin ryhmästä (automalli-ikäluokka yhdistelmä) on otettu 3 kappaleen otos.
VARIANSSIANALYYSI 10 Hypoteesit Päättelysääntö P-arvon laskeminen Nollahypoteesi: Ryhmien keskiarvot ovat yhtä suuret. Vaihtoehtoinen hypoteesi: Ainakin kahden ryhmän välillä on merkitsevä ero. Hypoteesin testaus lähtee siitä olettamuksesta, että nollahypoteesi on totta. Testaus perustuu p-arvoon: todennäköisyys saada vähintään niin paljon toisistaan poikkeavat keskiarvot kuin otoksesta saadut. Yleensä päättelysääntönä käytetään: jos p-arvo on alle 5%, niin nollahypoteesi hylätään, muussa tapauksessa nollahypoteesi jää voimaan. Päättelyn perusteluna on esitettävä laskettu p-arvo. Excelissä kaksisuuntainen varianssianalyysi toistoin lasketaan toiminnolla Tools-Data Analysis-Anova: Two Factor With Replication (Työkalut-Tietojen analysointi-anova: kaksisuuntainen, toistot sallittuja). Jos Data Analysis -työkaluja ei ole valikossa, niin hae ne käyttöön Tools - Add Ins - toiminnolla (suom. Työkalut - Apuohjelmat).
VARIANSSIANALYYSI 11 Huomaa, että määrittelyikkunaan täytyy antaa otoksen koko, joka esimerkkimme tapauksessa on 3. Tuloksena saadaan yhteenveto taulukko keskiarvoista ja variansseista sekä anova-taulukko. Anova-taulukossa kokonaisvaihtelu on jaettu rivien väliseen vaihteluun (päävaikutus) sarakkeiden väliseen vaihteluun (päävaikutus) riippumattomien muuttujien välisestä vuorovaikutuksesta aiheutuvaan vaihteluun otosten sisäiseen vaihteluun Tulosten tulkinta on vaativaa, koska mukana on myös riippumattomien muuttujien mahdollinen vuorovaikutus. Yllä olevassa esimerkissä vuorovaikutukseen liittyvä p-arvo on erittäin pieni (Excel esittää hyvin pienet luvut tieteellistä esitysmuotoa käyttäen kymmenen potensseina; 1,9E-10 tarkoittaa lukua 0,00000000019). Aina, kun tilastollisesti merkitsevää vuorovaikutusta esiintyy, niin päävaikutuksiin on suhtauduttava kriittisesti. Päävaikutukset saattavat näyttää tilastollisesti merkitseviltä, mutta voivatkin olla vuorovaikutuksen aiheuttamia. Asiaa voi tarkastella ja ymmärtää kuvioiden avulla:
VARIANSSIANALYYSI 12 Kuvioissa vuorovaikutus ilmenee toisiaan leikkaavina viivoina. Esimerkkimme tapauksessa tilanne on melko sotkuinen ja vaikeasti tulkittava. Automallien välillä näyttäisi olevan eroa, mutta ikäluokissa 4 ja 5 havaittava vuorovaikutus sotkee tilannetta. Ikäluokkien kohdalla luokka 3 on selvästi tuhlailevin polttoaineen kulutuksen suhteen, mutta muiden ikäluokkien kohdalla erot eivät ole yhtä selviä. SPSS ja yksisuuntainen varianssianalyysi Esim. Jos vertaillaan kolmen eri automallin polttoaineenkulutusta arpomalla kullekin automallille satunnaisesti kuljettajia, niin SPSS-aineisto näyttää seuraavalta:
VARIANSSIANALYYSI 13 Yksisuuntainen varianssianalyysi lasketaan toiminnolla Analyze - Compare Means - One-Way ANOVA: Määrittelyikkunassa valitaan riippumaton muuttuja Factor-ruutuun ja riippuva(t) muuttuja(t) Dependent List -ruutuun. Tulosteena saat ANOVA-taulukon, josta löydät testin p-arvon Sig-sarakkeesta. Yllä p- arvo on 0,000 eli ainakin pienempi kuin 0,1%.
VARIANSSIANALYYSI 14 Jos epäilet, että varianssianalyysin käyttöedellytykset eivät ole voimassa, niin voit käyttää Kruskall-Wallis -testiä (Analyze-Nonparametric Tests-K Independent Samples). SPSS ja kaksisuuntainen varianssianalyysi ilman toistoja Esim. Jos vertaillaan eri automallien polttoaineenkulutusta siten että satunnaisesti valituista kuljettajista jokainen ajaa jokaista automallia, niin SPSS-aineisto näyttää seuraavalta: Kaksisuuntainen varianssianalyysi ilman toistoja lasketaan General Linear Model-Univariate: toiminnolla Analyze- Riippumattomat muuttujat siirretään Fixed Factor(s) -ruutuun ja riippuva muuttuja Dependent Variable -ruutuun. Model-painikkeen avulla määritellään käytettäväksi
VARIANSSIANALYYSI 15 malliksi Custom ja valitaan Model-kohtaan riippumattomat muuttujat. Laskettavaksi valitaan päävaikutukset (Main effects): Tuloksena saadaan anova-taulukko: Automalleihin liittyvä p-arvo on 0,001 eli 0,1%. SPSS ja kaksisuuntainen varianssianalyysi toistoin Esim. Jos vertaillaan eri automallien polttoaineenkulutusta eri ikäisten kuljettajien kuljettamana, niin riippumattomia muuttujia ovat automalli ja ikä. Kaksisuuntainen varianssinanalyysi lasketaan toiminnolla Analyze-General Linear Model-Univariate:
VARIANSSIANALYYSI 16 Lisätoimintona kannattaa hyödyntää kuvioita, joita voit määritellä piirrettäväksi Plotspainiketta käyttäen. Oletusasetuksilla saadaan anova-taulukko: Esimerkin tapauksessa vuorovaikutukseen liittyvä p-arvo on alle 0,1 %, joten päävaikutuksiin on suhtauduttava kriittisesti, vaikka niihin liittyvät p-arvot ovat pieniä. Asiaa kannattaa tarkastella kuvioiden avulla:
VARIANSSIANALYYSI 17 LIITE: NORMAALIJAKAUTUNEISUUS Yleistä Ihmisten fyysiset ja henkiset ominaisuudet, teollisesti valmistettujen tuotteiden ominaisuudet, mittausvirheet, pörssiosakkeiden päivätuotot jne. noudattavat yleensä likimain normaalijakaumaa. Ylipäätään määrälliset muuttujat, joiden arvo määräytyy monen eri tekijän perusteella noudattavat yleensä likimain normaalijakaumaa. Normaalijakaumassa suurin osa arvoista sijoittuu keskiarvon läheisyyteen, symmetrisesti keskiarvon molemmille puolille. Normaalijakauma määräytyy keskiarvon ja keskihajonnan perusteella. Keskiarvo määrää jakauman keskikohdan sijainnin ja keskihajonta määrää jakauman leveyden. Normaalijakaumassa noin 95% tapauksista sijaitsee korkeintaan kahden keskihajonnan päässä keskiarvosta. Yllä olevassa kuvassa jakaumalla A ja B on sama keskiarvo, mutta jakauman A keskihajonta on suurempi. Jakaumalla C on suurempi keskiarvo kuin jakaumalla A, mutta A:n ja C:n keskihajonnat ovat likimain samat. Normaalijakaumalla on keskeinen asema tilastotieteessä: Keskiarvo ja keskihajonta ovat jakaumaa hyvin kuvailevia tunnuslukuja vain likimain normaalijakautuneille muuttujille. Useiden tilastollisten testien edeltävyysehtona on muuttujien normaalijakautuneisuus.
VARIANSSIANALYYSI 18 Onko jakauma normaali? SPSS-tilasto-ohjelmalla voit tarkastella, noudattaako muuttuja normaalijakaumaa. Jakauman normaalisuutta voit arvioida silmämäärin histogrammin avulla: Valitse Graphs - Interactive - Histogram, jolloin aukenee Create Histogram - valintaikkuna. Siirrä tarkasteltava muuttuja koordinaatiston vaaka-akselille. Varmista, että Histrogram-välilehdeltä on valittuna Normal Curve -ruutu. Valitse OK. Yllä olevan histogrammin palkkajakauma ei vaikuta normaalijakautuneelta. SPSS:llä normaalijakautuneisuutta voidaan testata asettamalla hypoteesit: Nollahypoteesi: Muuttuja noudattaa normaalijakaumaa. Vaihtoehtoinen hypoteesi: Muuttuja ei noudata normaalijakaumaa. Testin laskeminen sujuu seuraavasti: Valitse Statistics - Descriptive Statistics - Explore. Siirrä muuttujat, joiden normaalijakautuneisuutta haluat tarkastella, Dependent List - ruutuun. Tarvittaessa voit siirtää Factors-ruutuun kategorisen muuttujan, jonka mukaan jaat aineiston luokkiin. Tällöin testaat normaalijakautuneisuutta erikseen kussakin luokassa. Napsauta Plots-painiketta, jolloin aukenee Explore: Plots -valintaikkuna.
VARIANSSIANALYYSI 19 Valitse Normality plots with tests -ruutu. Valitse Continue. Valitse OK. Monien muiden tulosten ohella saat Tests of Normality -taulukon: Testinä käytetään isoilla otoksilla Kolmogorov-Smirnov -testiä. Pienillä otoksilla (n<50) on suotavampaa käyttää Shapiro-Wilk -testiä. Päättelysääntö: jos testin p-arvo (taulukossa Sig.) on pienempi kuin 0,05 (5%), niin nollahypoteesi hylätään. Esimerkkitaulukon tapauksessa muuttuja ei ole normaalisti jakautunut ja tuloksen voi raportoida esim. seuraavasti: Current Salary -muuttuja ei ole normaalisti jakautunut (Kolmogorov-Smirnov testin p-arvo alle 0,001).