Aki Taanila VARIANSSIANALYYSI

Samankaltaiset tiedostot

Aki Taanila TILASTOLLINEN PÄÄTTELY

Aki Taanila TILASTOLLINEN PÄÄTTELY

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Aki Taanila TILASTOLLISEN PÄÄTTELYN ALKEET

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Aki Taanila TILASTOLLISEN PÄÄTTELYN ALKEET

Estimointi. Otantajakauma

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Sovellettu todennäköisyyslaskenta B

Testejä suhdeasteikollisille muuttujille

KAHDEN RYHMÄN VERTAILU

Testit järjestysasteikollisille muuttujille

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Aki Taanila TILASTOLLISEN PÄÄTTELYN ALKEET

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tilastollisia peruskäsitteitä ja Monte Carlo

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

2. TILASTOLLINEN TESTAAMINEN...

Diskreetit todennäköisyysjakaumat. Kertymäfunktio Odotusarvo Binomijakauma Poisson-jakauma

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

6.1.2 Yhdessä populaatiossa tietyn tyyppisten alkioiden prosentuaalista osuutta koskeva päättely

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Väliestimointi (jatkoa) Heliövaara 1

Perusnäkymä yksisuuntaiseen ANOVAaan

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Sovellettu todennäköisyyslaskenta B

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

10. laskuharjoituskierros, vko 14, ratkaisut

IBM SPSS Statistics 21 (= SPSS 21)

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

HAVAITUT JA ODOTETUT FREKVENSSIT

Summamuuttujat, aineiston pilkkominen ja osa-aineiston poiminta 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Kandidaatintutkielman aineistonhankinta ja analyysi

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

2. Aineiston kuvailua

Mat Sovellettu todennäköisyyslasku A

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

TUTKIMUSOPAS. SPSS-opas

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

BIOSTATISTIIKKAA ESIMERKKIEN AVULLA. Kurssimoniste (luku 2) Janne Pitkäniemi. Helsingin Yliopisto Kansanterveystieteen laitos

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat:

Aineistokoko ja voima-analyysi

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

Otoskoko 107 kpl. a) 27 b) 2654

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Yleistetyistä lineaarisista malleista

Määrällisen aineiston esittämistapoja. Aki Taanila

Tilastotieteen jatkokurssi syksy 2003 Välikoe

Teema 9: Tilastollinen merkitsevyystestaus

, Määrälliset tutkimusmenetelmät 2 4 op

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin millaista se on?

MTTTP5, luento Luottamusväli, määritelmä

Määrällisen aineiston esittämistapoja. Aki Taanila

Otoskoon arviointi. Tero Vahlberg

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Aki Taanila AIKASARJOJEN ESITTÄMINEN

1. Tilastollinen malli??

Sovellettu todennäköisyyslaskenta B

Tilastomenetelmien lopputyö

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

/1. MTTTP5, luento Kertausta. Olk. X 1, X 2,..., X n on satunnaisotos N(µ, ):sta, missä tunnettu. Jos H 0 on tosi, niin

RISKITASO. Riskitaso (α) määrittää virhepäätelmän todennäköisyyden. Käytettyjä riskitasoja:

Transkriptio:

Aki Taanila VARIANSSIANALYYSI 18.5.2007

VARIANSSIANALYYSI 1 JOHDANTO...2 VARIANSSIANALYYSI...3 Yksisuuntainen varianssianalyysi...3 Kaksisuuntainen varianssianalyysi ilman toistoja...6 Kaksisuuntainen varianssianalyysi toistoin...9 SPSS ja yksisuuntainen varianssianalyysi...12 SPSS ja kaksisuuntainen varianssianalyysi ilman toistoja...14 SPSS ja kaksisuuntainen varianssianalyysi toistoin...15 LIITE: NORMAALIJAKAUTUNEISUUS...17 Yleistä...17 Onko jakauma normaali?...18

VARIANSSIANALYYSI 2 JOHDANTO Tilastollisen osuuden lisäksi dokumentti sisältää myös ohjeet Excelin käyttöön esitettyjen menetelmien yhteydessä. Excel-ohjeet erotat oikeassa marginaalissa olevasta pystyviivasta. SPSS-ohjeet on sijoitettu omiin lukuihin. Dokumentin lähteenä on käytetty verkkomateria http://myy.helia.fi/~taaak/p Dokumenttiin liittyy Excel-esimerkki http://myy.haaga-helia.fi/~taaak/p/anova.xls Aki Taanilan muita materiaaleja Kvantitatiivisen tutkimuksen suunnittelu http://myy.haagahelia.fi/~taaak/t/suunnittelu.pdf Aineiston esittäminen ja kuvailu http://myy.haaga-helia.fi/~taaak/k/kuvailu.pdf SPSS alkeet http://myy.haaga-helia.fi/~taaak/k/spss.pdf Matemaattisia malleja http://myy.haaga-helia.fi/~taaak/m/malleja.pdf Tilastollinen päättely http://myy.haaga-helia.fi/~taaak/p/paattely.pdf Kommentit ja parannusehdotukset Otan mielelläni vastaan kommentteja ja parannusehdotuksia sähköpostitse osoitteeseen aki.taanila(at)haaga-helia.fi.

VARIANSSIANALYYSI 3 VARIANSSIANALYYSI Kokeellista tutkimusasetelmaa käytettäessä vertaillaan ryhmiä toisiinsa. Jos vertailtavia ryhmiä on kaksi, niin keskiarvojen vertailuun voidaan käyttää kahden ryhmän t-testiä. Jos ryhmiä on useampia, niin keskiarvojen vertailuun voidaan käyttää varianssianalyysia. Huomaa, että ei ole hyväksyttävää käyttää kahden ryhmän t-testiä useamman ryhmän tapaukseen (siis vertailemalla ryhmiä pareittain). Tämä johtuu siitä, että toistettaessa t- testiä useampaan kertaan saman ryhmän kohdalla, virhepäätelmän riski kasvaa. Tässä esityksessä tarkastellaan kolmea varianssianalyysin tyyppiä: 1. Yksisuuntainen varianssianalyysi (completely randomized design): sopii tutkimusasetelmiin, joissa on yksi selittävä/riippumaton muuttuja. 2. Kaksisuuntainen varianssianalyysi ilman toistoja (randomized block design): sopii tutkimusasetelmiin, joissa on yksi selittävä/riippumaton muuttuja ja lisäksi halutaan kontrolloida satunnaisvaihtelun lähdettä. 3. Kaksisuuntainen varianssianalyysi toistoin (factorial design): sopii tutkimusasetelmiin, joissa tarkastellaan kahden selittävän muuttujan vaikutusta. Yksisuuntainen varianssianalyysi Käyttöedellytykset Yksisuuntaisen varianssianalyysin käyttöedellytykset ovat: 1. Otokset ovat toisistaan riippumattomat ja satunnaisesti valitut 2. Otokset ovat peräisin normaali jakautuneesta perusjoukosta 3. Perusjoukossa ryhmien varianssit ovat yhtä suuria. Jos sinulla on vahvat syyt epäillä käyttöedellytysten täyttymistä, niin voit käyttää yksisuuntaisen varianssianalyysin sijasta Kruskall-Wallis -testiä. Kruskall-Wallis -testin voit laskea tilasto-ohjelmaa (SPSS) käyttäen. 1 Otokset ovat toisistaan riippumattomat ja satunnaisesti valitut Jos kyseessä on asetelma, jossa vertailtavat ryhmät saavat tutkijan toimesta erilaiset käsittelyt, niin erilaisen käsittelyn saavat täytyy valita satunnaisesti samasta perusjoukosta. Esim. jos kokeillaan kolmen eri oppimateriaalin vaikutusta oppimistuloksiin, niin kullekin oppimateriaalille valitaan käyttäjät satunnaisesti samasta perusjoukosta. Jos kyseessä on asetelma, jossa verrataan ryhmiä, jotka ovat luonnostaan erilaisen "käsittelyn" saaneita (ilman tutkijan myötävaikutusta), niin tutkittavat täytyy valita satunnaisesti tietyn käsittelyn saaneista. Esim. jos verrataan eri ikäluokkiin kuuluvien reaktionopeutta, niin kustakin ikäluokasta valitaan otokset satunnaisesti.

VARIANSSIANALYYSI 4 2 Otokset ovat peräisin normaalijakautuneesta perusjoukosta Riippuvan muuttujan (muuttuja, jonka keskiarvoja ja variansseja tarkastellaan) täytyy noudattaa likimain normaalijakaumaa kussakin tarkasteltavista ryhmistä. Pienet poikkeamat normaalijakaumasta eivät ole vakavia. 3 Perusjoukossa ryhmien varianssit ovat yhtä suuria Esimerkki Riippuvan muuttujan täytyy omata likimain samansuuruiset varianssit kussakin tarkasteltavista ryhmistä. Jos kustakin ryhmästä valitaan samansuuruinen otos, niin pienet erot variansseissa eivät ole vakavia. Esim. Tarkastellaan kolmen eri automallin polttoaineenkulutusta. Selittävänä muuttujana on automalli. Arvotaan tietty määrä kuljettajia ajamaan kutakin automallia ja lasketaan kullekin automallille keskimääräinen polttoaineenkulutus. Vertailtavana on siis kolmen eri automallin keskimääräinen polttoaineenkulutus. A- ja B-autoilla oli siis kumpaisellakin 7 kuljettajaa ja C autolla 6 kuljettajaa. Polttoaineen kulutuksen vaihtelua voidaan havainnollistaa kuviolla:

VARIANSSIANALYYSI 5 Kuviosta nähdään, että samallakin automallilla esiintyy kuljettajasta johtuvaa vaihtelua. Kuljettajasta johtuva vaihtelu on tässä tutkimusasetelmassa satunnaisvaihtelua, koska sitä ei olla millään tavalla kontrolloitu. Automallien erot ovat tässä tapauksessa niin suuria, että ne erottuvat kuljettajasta johtuvasta vaihtelusta huolimatta (lukuun ottamatta mallien B ja C välistä eroa). Yksisuuntaisella varianssianalyysilla pyritään tunnistamaan ryhmien välinen vaihtelu, joka erottuu satunnaisvaihtelusta. Ideana on kokonaisvarianssin jakaminen ryhmien väliseen varianssiin ja ryhmien sisäiseen varianssiin. Jos ryhmien välinen varianssi ja ryhmien sisäinen varianssi ovat yhtä suuria, niin riippumaton muuttuja ei todennäköisesti ole aiheuttanut vaihtelua. Mitä suurempi ryhmien välinen varianssi on ryhmien sisäiseen varianssiin verrattuna sitä todennäköisempää on, että riippumaton muuttuja on aiheuttanut vaihtelua. Hypoteesit Päättelysääntö P-arvon laskeminen Yksisuuntainen varianssianalyysi on testimenetelmä, jonka hypoteesit ovat: Nollahypoteesi: Ryhmien keskiarvot ovat yhtä suuret. Vaihtoehtoinen hypoteesi: Ainakin kahden ryhmän välillä on merkitsevä ero. Hypoteesin testaus lähtee siitä olettamuksesta, että nollahypoteesi on totta. Testaus perustuu p-arvoon: todennäköisyys saada vähintään niin paljon toisistaan poikkeavat keskiarvot kuin otoksesta saadut. Yleensä päättelysääntönä käytetään: jos p-arvo on alle 5 %, niin nollahypoteesi hylätään, muussa tapauksessa nollahypoteesi jää voimaan. Päättelyn perusteluna on esitettävä laskettu p-arvo. Excelissä voit laskea yksisuuntaisen varianssianalyysin toiminnolla Tools-Data analysis-anova: Single Factor suom. Työkalut-Tietojen analysointi-anova: yksisuuntainen Jos Data Analysis -työkaluja ei ole valikossa, niin hae ne käyttöön Tools - Add Ins - toiminnolla (suom. Työkalut - Apuohjelmat).

VARIANSSIANALYYSI 6 Edellä on määritelty laskettavaksi varianssianalyysi solualueesta, jolla tieto on järjestetty sarakkeittain (yhden automallin polttoaineen kulutukset yhdessä sarakkeessa). Laskennan tuloksena saat yhteenvedon ja anova-taulukon. Yhteenvedosta löydät ryhmien keskiarvot ja varianssit. Anova-taulukossa vaihtelu on jaoteltu luokkien väliseen (esimerkissä automallien välinen) vaihteluun ja ryhmien sisäiseen vaihteluun. Yllä luokkien väliseen vaihteluun liittyvä p-arvo on 0,000171 eli 0,0171%. Tässä tapauksessa nollahypoteesi hylätään, koska p-arvo on pienempi kuin 5%. Anovataulukon muihin lukuihin tutustuminen on vaivan arvoista ja auttaa paremmin ymmärtämään menetelmän perusidean. Monista tilastotieteen kirjoista löydät yksityiskohtaisen anova-taulukon johtamisen. Kaksisuuntainen varianssianalyysi ilman toistoja Käyttöedellytykset Yksisuuntainen varianssianalyysi on riippumattomien otosten t-testin vastine useamman ryhmän vertailuun. Kaksisuuntaista varianssianalyysiä ilman toistoja voidaan käyttää kahden riippuvan otoksen t-testin vastineena. Käyttöedellytykset ovat samat kuin yksisuuntaisella varianssianalyysillä (otosten riippumattomuutta lukuun ottamatta): 1. Otokset ovat satunnaisesti valitut

VARIANSSIANALYYSI 7 2. Otokset ovat peräisin normaali jakautuneesta perusjoukosta 3. Perusjoukossa ryhmien varianssit ovat yhtä suuria. Esimerkki Jos esim. kuljettajan ajotavan arvellaan vaikuttavan merkittävästi polttoaineenkulutukseen, niin voidaan toteuttaa tutkimusasetelma, jossa sama kuljettaja ajaa jokaista autoa. Alla olevassa esimerkissä on valittu satunnaisesti 6 kuljettajaa, joista jokainen ajaa jokaisella automallilla. Kuljettajien ajovuorot arvotaan, jolloin kaikki kuljettajat eivät aja autoja samassa järjestyksessä. Tällaisella asetelmalla voidaan erottaa kuljettajan vaikutus satunnaisvaihtelusta, jolloin satunnaisvaihtelu saadaan pienemmäksi. Tätä kautta saadaan myös automallin vaikutus paremmin erottumaan satunnaisvaihtelusta. Hypoteesit Päättelysääntö P-arvon laskeminen Nollahypoteesi: Ryhmien keskiarvot ovat yhtä suuret. Vaihtoehtoinen hypoteesi: Ainakin kahden ryhmän välillä on merkitsevä ero. Hypoteesin testaus lähtee siitä olettamuksesta, että nollahypoteesi on totta. Testaus perustuu p-arvoon: todennäköisyys saada vähintään niin paljon toisistaan poikkeavat keskiarvot kuin otoksesta saadut. Yleensä päättelysääntönä käytetään: jos p-arvo on alle 5 %, niin nollahypoteesi hylätään, muussa tapauksessa nollahypoteesi jää voimaan. Päättelyn perusteluna on esitettävä laskettu p-arvo. Excelissä kaksisuuntainen varianssianalyysi ilman toistoja lasketaan toiminnolla Tools-Data Analysis-Anova: Two-Factor Without Replication (Työkalut-Tietojen analysointi-anova: kaksisuuntainen ilman toistoa). Jos Data Analysis -työkaluja ei ole valikossa, niin hae ne käyttöön Tools - Add Ins - toiminnolla (suom. Työkalut - Apuohjelmat).

VARIANSSIANALYYSI 8 Esimerkkimme tulosteena saadaan keskiarvot ja varianssit sisältävä yhteenveto-taulukko sekä varsinainen anova-taulukko: Tässä tapauksessa sarakkeiden aiheuttamaan vaihteluun liittyvä p-arvo 0,1075 % on pienempi kuin 5%, joten nollahypoteesi hylätään. Taulukon mukaan myös kuljettajien välillä oli eroja, koska rivien aiheuttamaan vaihteluun liittyvä p-arvo on noin 1 %. Kuvion avulla voidaan havainnollistaa eroja:

VARIANSSIANALYYSI 9 Kuviosta nähdään, että automallin B kulutus on ollut alhaisin kuljettajaa 6 lukuun ottamatta. Kaksisuuntainen varianssianalyysi toistoin Käyttöedellytykset Esimerkki Jos tarkasteltavana on kaksi selittävää/riippumatonta muuttujaa, niin voidaan käyttää kaksisuuntaista varianssianalyysiä toistoin. Jos esim. ensimmäinen riippumaton muuttuja määrittää 3 ryhmää ja toinen 5 ryhmää, niin kaikkiaan ryhmiä on 3x5=15 kappaletta. Kustakin ryhmästä otetaan satunnaisesti valittu otos (seuraavassa oletetaan, että otokset ovat samansuuruisia). Kaksisuuntaisen varianssianalyysin käyttöedellytykset ovat samat kuin yksisuuntaisellakin: 1. Otokset ovat toisistaan riippumattomat ja satunnaisesti valitut 2. Otokset ovat peräisin normaali jakautuneesta perusjoukosta 3. Perusjoukossa ryhmien varianssit ovat yhtä suuria Seuraavassa taulukossa riippumattomina muuttujina ovat automalli (X, Y, Z) ja kuljettajan ikäluokka (1, 2, 3, 4, 5). Kustakin ryhmästä (automalli-ikäluokka yhdistelmä) on otettu 3 kappaleen otos.

VARIANSSIANALYYSI 10 Hypoteesit Päättelysääntö P-arvon laskeminen Nollahypoteesi: Ryhmien keskiarvot ovat yhtä suuret. Vaihtoehtoinen hypoteesi: Ainakin kahden ryhmän välillä on merkitsevä ero. Hypoteesin testaus lähtee siitä olettamuksesta, että nollahypoteesi on totta. Testaus perustuu p-arvoon: todennäköisyys saada vähintään niin paljon toisistaan poikkeavat keskiarvot kuin otoksesta saadut. Yleensä päättelysääntönä käytetään: jos p-arvo on alle 5%, niin nollahypoteesi hylätään, muussa tapauksessa nollahypoteesi jää voimaan. Päättelyn perusteluna on esitettävä laskettu p-arvo. Excelissä kaksisuuntainen varianssianalyysi toistoin lasketaan toiminnolla Tools-Data Analysis-Anova: Two Factor With Replication (Työkalut-Tietojen analysointi-anova: kaksisuuntainen, toistot sallittuja). Jos Data Analysis -työkaluja ei ole valikossa, niin hae ne käyttöön Tools - Add Ins - toiminnolla (suom. Työkalut - Apuohjelmat).

VARIANSSIANALYYSI 11 Huomaa, että määrittelyikkunaan täytyy antaa otoksen koko, joka esimerkkimme tapauksessa on 3. Tuloksena saadaan yhteenveto taulukko keskiarvoista ja variansseista sekä anova-taulukko. Anova-taulukossa kokonaisvaihtelu on jaettu rivien väliseen vaihteluun (päävaikutus) sarakkeiden väliseen vaihteluun (päävaikutus) riippumattomien muuttujien välisestä vuorovaikutuksesta aiheutuvaan vaihteluun otosten sisäiseen vaihteluun Tulosten tulkinta on vaativaa, koska mukana on myös riippumattomien muuttujien mahdollinen vuorovaikutus. Yllä olevassa esimerkissä vuorovaikutukseen liittyvä p-arvo on erittäin pieni (Excel esittää hyvin pienet luvut tieteellistä esitysmuotoa käyttäen kymmenen potensseina; 1,9E-10 tarkoittaa lukua 0,00000000019). Aina, kun tilastollisesti merkitsevää vuorovaikutusta esiintyy, niin päävaikutuksiin on suhtauduttava kriittisesti. Päävaikutukset saattavat näyttää tilastollisesti merkitseviltä, mutta voivatkin olla vuorovaikutuksen aiheuttamia. Asiaa voi tarkastella ja ymmärtää kuvioiden avulla:

VARIANSSIANALYYSI 12 Kuvioissa vuorovaikutus ilmenee toisiaan leikkaavina viivoina. Esimerkkimme tapauksessa tilanne on melko sotkuinen ja vaikeasti tulkittava. Automallien välillä näyttäisi olevan eroa, mutta ikäluokissa 4 ja 5 havaittava vuorovaikutus sotkee tilannetta. Ikäluokkien kohdalla luokka 3 on selvästi tuhlailevin polttoaineen kulutuksen suhteen, mutta muiden ikäluokkien kohdalla erot eivät ole yhtä selviä. SPSS ja yksisuuntainen varianssianalyysi Esim. Jos vertaillaan kolmen eri automallin polttoaineenkulutusta arpomalla kullekin automallille satunnaisesti kuljettajia, niin SPSS-aineisto näyttää seuraavalta:

VARIANSSIANALYYSI 13 Yksisuuntainen varianssianalyysi lasketaan toiminnolla Analyze - Compare Means - One-Way ANOVA: Määrittelyikkunassa valitaan riippumaton muuttuja Factor-ruutuun ja riippuva(t) muuttuja(t) Dependent List -ruutuun. Tulosteena saat ANOVA-taulukon, josta löydät testin p-arvon Sig-sarakkeesta. Yllä p- arvo on 0,000 eli ainakin pienempi kuin 0,1%.

VARIANSSIANALYYSI 14 Jos epäilet, että varianssianalyysin käyttöedellytykset eivät ole voimassa, niin voit käyttää Kruskall-Wallis -testiä (Analyze-Nonparametric Tests-K Independent Samples). SPSS ja kaksisuuntainen varianssianalyysi ilman toistoja Esim. Jos vertaillaan eri automallien polttoaineenkulutusta siten että satunnaisesti valituista kuljettajista jokainen ajaa jokaista automallia, niin SPSS-aineisto näyttää seuraavalta: Kaksisuuntainen varianssianalyysi ilman toistoja lasketaan General Linear Model-Univariate: toiminnolla Analyze- Riippumattomat muuttujat siirretään Fixed Factor(s) -ruutuun ja riippuva muuttuja Dependent Variable -ruutuun. Model-painikkeen avulla määritellään käytettäväksi

VARIANSSIANALYYSI 15 malliksi Custom ja valitaan Model-kohtaan riippumattomat muuttujat. Laskettavaksi valitaan päävaikutukset (Main effects): Tuloksena saadaan anova-taulukko: Automalleihin liittyvä p-arvo on 0,001 eli 0,1%. SPSS ja kaksisuuntainen varianssianalyysi toistoin Esim. Jos vertaillaan eri automallien polttoaineenkulutusta eri ikäisten kuljettajien kuljettamana, niin riippumattomia muuttujia ovat automalli ja ikä. Kaksisuuntainen varianssinanalyysi lasketaan toiminnolla Analyze-General Linear Model-Univariate:

VARIANSSIANALYYSI 16 Lisätoimintona kannattaa hyödyntää kuvioita, joita voit määritellä piirrettäväksi Plotspainiketta käyttäen. Oletusasetuksilla saadaan anova-taulukko: Esimerkin tapauksessa vuorovaikutukseen liittyvä p-arvo on alle 0,1 %, joten päävaikutuksiin on suhtauduttava kriittisesti, vaikka niihin liittyvät p-arvot ovat pieniä. Asiaa kannattaa tarkastella kuvioiden avulla:

VARIANSSIANALYYSI 17 LIITE: NORMAALIJAKAUTUNEISUUS Yleistä Ihmisten fyysiset ja henkiset ominaisuudet, teollisesti valmistettujen tuotteiden ominaisuudet, mittausvirheet, pörssiosakkeiden päivätuotot jne. noudattavat yleensä likimain normaalijakaumaa. Ylipäätään määrälliset muuttujat, joiden arvo määräytyy monen eri tekijän perusteella noudattavat yleensä likimain normaalijakaumaa. Normaalijakaumassa suurin osa arvoista sijoittuu keskiarvon läheisyyteen, symmetrisesti keskiarvon molemmille puolille. Normaalijakauma määräytyy keskiarvon ja keskihajonnan perusteella. Keskiarvo määrää jakauman keskikohdan sijainnin ja keskihajonta määrää jakauman leveyden. Normaalijakaumassa noin 95% tapauksista sijaitsee korkeintaan kahden keskihajonnan päässä keskiarvosta. Yllä olevassa kuvassa jakaumalla A ja B on sama keskiarvo, mutta jakauman A keskihajonta on suurempi. Jakaumalla C on suurempi keskiarvo kuin jakaumalla A, mutta A:n ja C:n keskihajonnat ovat likimain samat. Normaalijakaumalla on keskeinen asema tilastotieteessä: Keskiarvo ja keskihajonta ovat jakaumaa hyvin kuvailevia tunnuslukuja vain likimain normaalijakautuneille muuttujille. Useiden tilastollisten testien edeltävyysehtona on muuttujien normaalijakautuneisuus.

VARIANSSIANALYYSI 18 Onko jakauma normaali? SPSS-tilasto-ohjelmalla voit tarkastella, noudattaako muuttuja normaalijakaumaa. Jakauman normaalisuutta voit arvioida silmämäärin histogrammin avulla: Valitse Graphs - Interactive - Histogram, jolloin aukenee Create Histogram - valintaikkuna. Siirrä tarkasteltava muuttuja koordinaatiston vaaka-akselille. Varmista, että Histrogram-välilehdeltä on valittuna Normal Curve -ruutu. Valitse OK. Yllä olevan histogrammin palkkajakauma ei vaikuta normaalijakautuneelta. SPSS:llä normaalijakautuneisuutta voidaan testata asettamalla hypoteesit: Nollahypoteesi: Muuttuja noudattaa normaalijakaumaa. Vaihtoehtoinen hypoteesi: Muuttuja ei noudata normaalijakaumaa. Testin laskeminen sujuu seuraavasti: Valitse Statistics - Descriptive Statistics - Explore. Siirrä muuttujat, joiden normaalijakautuneisuutta haluat tarkastella, Dependent List - ruutuun. Tarvittaessa voit siirtää Factors-ruutuun kategorisen muuttujan, jonka mukaan jaat aineiston luokkiin. Tällöin testaat normaalijakautuneisuutta erikseen kussakin luokassa. Napsauta Plots-painiketta, jolloin aukenee Explore: Plots -valintaikkuna.

VARIANSSIANALYYSI 19 Valitse Normality plots with tests -ruutu. Valitse Continue. Valitse OK. Monien muiden tulosten ohella saat Tests of Normality -taulukon: Testinä käytetään isoilla otoksilla Kolmogorov-Smirnov -testiä. Pienillä otoksilla (n<50) on suotavampaa käyttää Shapiro-Wilk -testiä. Päättelysääntö: jos testin p-arvo (taulukossa Sig.) on pienempi kuin 0,05 (5%), niin nollahypoteesi hylätään. Esimerkkitaulukon tapauksessa muuttuja ei ole normaalisti jakautunut ja tuloksen voi raportoida esim. seuraavasti: Current Salary -muuttuja ei ole normaalisti jakautunut (Kolmogorov-Smirnov testin p-arvo alle 0,001).