VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Samankaltaiset tiedostot
Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501


Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

A250A0050 Ekonometrian perusteet Tentti

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

Kaksisuuntainen varianssianalyysi. Heliövaara 1

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Harjoitus 7: NCSS - Tilastollinen analyysi

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

MTTTP5, luento Luottamusväli, määritelmä

Väliestimointi (jatkoa) Heliövaara 1

4.2 Useampi selittävä muuttuja (kertausta)

Perusnäkymä yksisuuntaiseen ANOVAaan

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Puheentutkimuksen tilastoanalyysin perusteet. 8. luento. Pertti Palo

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Altistusaika 1 kk 2 kk 3 kk

Lohkoasetelmat. Kuusinen/Heliövaara 1

Kertausluento. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Lohkoasetelmat. Heliövaara 1

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Osafaktorikokeet. Kurssipalautetta voi antaa Oodissa Kuusinen/Heliövaara 1

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Toimittaja Erä

Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Yleistetyistä lineaarisista malleista

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Harjoitus 9: Excel - Tilastollinen analyysi

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

1. KAKSISUUNTAINEN VARIANSSIANALYYSI: TULOSTEN TULKINTA

Johdatus regressioanalyysiin. Heliövaara 1

HAVAITUT JA ODOTETUT FREKVENSSIT

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

10. laskuharjoituskierros, vko 14, ratkaisut

Sovellettu todennäköisyyslaskenta B

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Kvantitatiiviset menetelmät

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Mat Tilastollisen analyysin perusteet, kevät 2007

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

11. laskuharjoituskierros, vko 15, ratkaisut

Sovellettu todennäköisyyslaskenta B

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

Mat Tilastollisen analyysin perusteet, kevät 2007

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Koesuunnittelu 2 k -faktorikokeet. TKK (c) Ilkka Mellin (2005) 1

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs)

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

pisteet Frekvenssi frekvenssi Yhteensä

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Sovellettu todennäköisyyslaskenta B

Korrelaatiokertoinen määrittely 165

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Tampereen yliopisto Matematiikan, tilastotieteen ja filosofian laitos Raija Leppälä puh , sähköposti

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Aki Taanila VARIANSSIANALYYSI

Opiskelija viipymisaika pistemäärä

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Todennäköisyyden ominaisuuksia

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Suhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä

Otoskoko 107 kpl. a) 27 b) 2654

Teema 10: Regressio- ja varianssianalyysi

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Transkriptio:

VARIANSSIANALYYSI ANALYSIS OF VARIANCE 1

Suomalaisten aikuisten pituusjakauma:.8.7.6.5.4.3.2.1 14 15 16 17 18 19 2 21 Jakauma ei ole normaali, sen olettaminen sellaiseksi johtaa virheellisiin päätelmiin. Syy tietysti on miesten ja naisten erilaiset jakaumat (jakaumat normaalit, hajonta = 6.5 cm, odotusarvot erilaiset). 2

Yksinkertaisimmillaan varianssianalyysi on tarkoitettu tällaisten tilanteiden hallintaan. Käytetty malli on pituus = keskipituus + sukupuolen vaikutus + kohina. Matemaattisesti kirjoitettuna malli on i:nnelle näytteelle y i = m + t i + u i, missä y i on pituus (ns. vaste eli selitettävä muuttuja), m on keskipituus (keskivaste, intercept), t i on sukupuolen vaikutus (selittävä muuttuja eli faktori) ja u i on normaalijakautunut virhe (odotusarvo, varianssi σ 2 ). Faktorilla t on kaksi tasoa, mies ja nainen. 3

Kun otetaan näytteitä (satunnaisotos) kirjataan ylös henkilön pituus ja sukupuoli. Perustehtäviä on kolme: Estimoidaan m sekä t:n tasojen arvot. Estimoidaan u:n varianssi σ 2. Testataan onko faktorilla tosiaan jotain vaikutusta vasteeseen. Nollahypoteesi H on, että ei ole. 4

Näytteet (kaiken kaikkiaan 41 ihmistä) esitetään ns. datamatriisina, taulukkoeditorissa: Pituusdata.csv Rows Pituus Sukupuoli 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 162.3 163.6 157.4 156.7 171.4 165.4 161.1 17.5 166.8 158.9 174 167.2 174.9 172.7 16.9 156.9 164.8 163.2 159.8 168.5 188.3 175 173.1 1 1 1 5

Tulostus, ns. ANOVA-taulu, on seuraavanlainen (kuten näkyy, kyseessä on ns. yksisuuntainen ANOVA): Pituusdata.csv: Fit Y by X Page 1 Oneway Analysis of Pituus By Sukupuoli Oneway Anova Summary of Fit Rsquare Adj Rsquare Root Mean Square Error Mean of Response Observations (or Sum Wgts) Analysis of Variance.585271.574637 5.4411 171.2659 41 Source Sukupuoli Error C. Total DF 1 39 4 Sum of Squares 167.3241 1138.9681 2746.2922 Mean Square 167.32 29.2 F Ratio 55.372 Prob > F <.1 Means for Oneway Anova Level 1 Number 2 21 Mean 164.85 177.376 Std Error 1.284 1.1793 Std Error uses a pooled estimate of error variance Lower 95% 162.41 174.99 Upper 95% 167.29 179.76 Käytetty ohjelma on JMP c. c SAS Institute Inc. 6

ANOVA-taulusta löytyvät useimmat halutut suureet. Ensinnäkin: Keskivaste (Mean of Response) on 171.3 cm. Hajonnan σ estimaatti (Root Mean Square Error) on 5.4 cm. Faktorin tasojen estimoidut arvot ovat 164.9 cm (naiset) sekä 177.4 cm (miehet). Tason arvot on tässä lisätty keskivasteeseen. 7

Muuta mielenkiintoista ovat F-testi ja selitysaste R 2 (Rsquare). F-testin testisuure saadaan muodossa F = MSR MSE, missä MSR on faktorin tasojen erojen aiheuttama otosvarianssi ja MSE saadaan poistamalla otoksen kokonaisvarianssista MSR. Suuri testisuureen arvo merkitsee sitä, että tasoerot selittävät ison osan kokonaisvaihtelusta. Testisuureella on F-jakauma, jonka avulla tarkka tilastotesti voidaan tehdä. Pienet p-arvot (Prob > F) tietävät suurta merkitsevyyttä. Edellä oleva <.1 on jo hyvin pieni ja malli erittäin merkitsevä. 8

Selitysaste R 2 taas saadaan muodossa R 2 = SSR SST, missä SSR on faktorin tasoerojen aiheuttama neliösumma (otosvarianssi ilman jakajaa) ja SST otoksen kokonaisneliösumma. Se kertoo kuinka suuren suhteellisen osan faktorien tasoerot selittävät kokonaisvaihtelusta. Edellä oleva.59 on kohtuullinen. Saatu malli voi olla merkitsevä (pieni F-testin p-arvo), vaikka sen selitysaste on pieni. Silloin faktorin tasoerot selittävät vasteen vaihtelua, mutta tämä on muuhun vaihteluun nähden suhteellisen pientä. (Tällainenkin selittävyys voi kuitenkin olla käyttökelpoista.) 9

Hyvin suuri selitysaste (lähellä 1:tä) ei välttämättä ole hyvä. Silloin pienen näytemäärän takia malli selittää kohinaakin tai sitten kohinan osuus on hyvin pientä ja koko tilastotarkastelu voi olla turhaa. Näytteiden kohinasatunnaismuuttujat u i oletetaan tässä riippumattomiksi ja samoin jakautuneiksi. Kun vastedatasta vähennetään estimoitujen vaste-erojen vaikutus, saadaan ns. residuaali, jonka ideaalisesti pitäisi olla satunnaisotos normaalijakautuneesta satunnaismuuttujasta. Tilasto-ohjelmistot sisältävät runsaasti erilaisia menetelmiä, joilla residuaalia käyttäen voidaan testata näitä perusoletuksia ja muutakin. 1

Eo. mallissa residuaalit piirrettynä näytejärjestyksessä ovat alla olevassa kuvassa. (Residuaaleja voi olla syytä piirtää muitakin muuttujia vastaan, esimerkiksi vastearvoja vastaan.) Hyvältä näyttää: 15 1 5 Residuaali 5 1 5 1 15 2 25 3 35 4 45 Näytenro 11

Huolestuttavia kuvioita ovat mm. seuraavanlaiset: 12

Residuaalin ns. normaalitodennäköisyyskuvassakaan ei ole mitään vikaa:.99.98.95.9 Normaalikertymä.75.5.25.1.5.2.1 8 6 4 2 2 4 6 8 1 Residuaali Eo. esimerkissä faktorin tasoja oli kaksi. Niitä voi olla useampiakin. 13

Yksisuuntaisessa ANOVAssa on vain yksi faktori. ANOVA voi olla monisuuntainenkin. Silloin faktoreita on useampia. Kaksisuuntaisessa ANOVAssa faktoreita on kaksi. Esimerkkinä voisi olla ihmisen sukupuoli ja tulotaso (sopivalla luokituksella). Jos vaste on elinikä, malli olisi silloin ikä = keski ikä + sukupuolen vaikutus + tulotason vaikutus + kohina. Matemaattisesti malli on i:nnelle näytteelle y i = m + t i + v i + u i, 14

missä y i on ikä, m on keski-ikä, t i on sukupuolen vaikutus, v i on tulotason vaikutus ja u i on normaalijakautunut virhe (odotusarvo, varianssi σ 2 ). Seuraavassa on elokuvadataa (kaikkiaan 276 näytettä). Faktoreita on kaksi, elokuvan laji ja amerikkalainen luokitus. 15

Movies.jmp Rows Type Rating Domestic $ Worldwide $ 1 2 3 4 5 6 7 8 9 1 11 12 13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 31 Family Drama Drama Family Drama Mystery-Suspense Mystery-Suspense Action Family Drama Drama Drama Drama Action Family Mystery-Suspense Action Action Action PG G R PG-13 G R PG R PG-13 R G G R PG R R R R PG-13 PG PG-13 PG-13 PG-13 PG-13 PG PG G R PG-13 PG-13 PG-13 19.3$ 135.5$ 116.7$ 17.7$ 162.8$ 141.3$ 17.4$ 18.3$ 18.4$ 173.$ 1.5$ 217.4$ 13.1$ 115.$ 11.7$ 145.1$ 129.8$ 16.7$ 132.8$ 172.1$ 21.6$ 148.5$ 213.1$ 26.$ 21.6$ 118.5$ 12.8$ 117.7$ 251.2$ 17.3$ 184.$ 239.6$ 34.9$ 229.7$ 312.1$ 358.$ 237.3$ 13.5$ 152.3$ 212.3$ 315.1$ 1.5$ 52.4$ 348.1$ 115.$ 21.8$ 285.4$ 129.8$ 176.9$ 149.4$ 334.1$ 554.6$ 313.4$ 287.9$ 31.3$ 35.6$ 332.$ 268.$ 352.7$ 413.$ 237.3$ 335.$ 16

Kaksisuuntainen ANOVA antaa seuraavan taulun (JMP): Movies.jmp: Fit Least Squares Response Domestic $ Whole Model Summary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Observations (or Sum Wgts) Analysis of Variance Source Model Error C. Total DF 7 268 275 Parameter Estimates Term Intercept Type[Action] Type[] Type[Drama] Type[Family] Rating[G] Rating[PG] Rating[PG-13] Effect Tests Source Type Rating Nparm 4 3.9618.72573 65.63236 157.3877 276 Sum of Squares 122849.6 1154438.5 1277288.1 Estimate 151.86177 1.9468935-19.77941 12.315294 22.81672-15.85163 2.426284 28.5424 DF 4 3 Mean Square 17549.9 437.6 Std Error 5.38984 8.54238 7.746396 7.491321 12.6493 14.13742 7.156271 8.241943 Sum of Squares 51442.967 8382.915 t Ratio 3.14.23-2.55 1.64 1.8-1.12.34 3.46 F Ratio 2.9856 6.4292 F Ratio 4.742 Prob > F.3 Prob> t <.1.8199.112.114.724.2632.7348.6 Prob > F.195.3 Pag 17

Kuten näkyy, malli on merkitsevä (p-arvo on.3), mutta selitysaste on pieni (.1). ANOVA testaa myös yksittäisten tasojen merkitystä, ja erikseen kummankin faktorin vaikutuksen. Erityisesti Rating on hyvin merkitsevä. Tasojen estimoidut vaikutukset eivät tässä ole kovin tärkeitä, ja sitäpaitsi ne riippuvat tavasta, jolla ohjelma koodaa faktoritasot. Tasojen välinen vertailu on toki mahdollista. Yksi tasoista jätetään yleensä tulostuksessa pois eräänlaisena nollatasona. 18

Eo. mallissa toisen faktorin vaikutus on aina sama riippumatta ensimmäisen faktorin tasosta. Näin ei aina tarvitse olla, faktoreilla voi olla yhdysvaikutusta. Mallissa tämä ilmoitetaan formaalisti tulomuotoisilla termeillä: y i = m + t i + v i + t i v i + u i. ANOVA estimoi yhdysvaikutustermit ja testaa niiden merkityksen niin mukana koko mallissa kuin myös erikseen. 19

Ne tasoyhdelmät, joista näytteet saadaan ovat periaatteessa valittavissa. (Usein tosin tavalla tai toisella ennalta valitut, tai satunnaisesti valikoituvat.) Yhdelmille voi olla toistojakin, eri määrät eri yhdelmille jne. Kaikki tavat valita tasoyhdelmät ja toistot tietylle näytemäärälle eivät ole yhtä hyviä. Erityisesti, jos näytemäärä on pieni, on tasoyhdelmät toistoineen valittava huolellisesti. Tämä tilastomatematiikan osa-alue on ns. koesuunnittelu. Jos esimerkiksi kolmisuuntaisessa ANO- VAssa kullakin kolmesta faktorista on viisi eri tasoa, on eri yhdelmiä jo 125 kpl. Se voi olla liikaa, ja lisäksi saattaisi olla hyvä olla vielä toistojakin mukana. 2

Koesuunnittelun malleja ja menetelmiä on suuri määrä. Mainitaan vain eräs klassinen sellainen, ns. roomalainen neliö. Jos edellä ensimmäisen faktorin tasot ovat rivit, toisen faktorin tasot ovat sarakkeet ja kolmannen faktorin tasot ovat kirjaimet A, B, C, D ja E, niin eri tasoyhdelmät saadaan alla vasemmasta neliöstä (25 näytettä). Oikeasta neliöstä saataisiin yhdelmät kuuden tason tapauksessa. A D B E C A D C E B F D A C B E B A E C F D C B E D A C E D F A B B E A C D D C F B E A E C D A B F B A D C E E F B A D C Roomalaisia neliöitä on paljon ja niistä pitäisi aina valita kulloinkin käytettävä neliö satunnaisesti. 21