1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Samankaltaiset tiedostot
1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

1. KAKSISUUNTAINEN VARIANSSIANALYYSI: TULOSTEN TULKINTA

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Mat Tilastollisen analyysin perusteet

Regressioanalyysi. Kuusinen/Heliövaara 1

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Heliövaara 1

Lohkoasetelmat. Kuusinen/Heliövaara 1

Perusnäkymä yksisuuntaiseen ANOVAaan

Johdatus regressioanalyysiin. Heliövaara 1

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

A B DIFFERENCE

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Yleistetyistä lineaarisista malleista

Harjoitus 7: NCSS - Tilastollinen analyysi

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-C2{04 Tilastollisen analyysin perusteet

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Koesuunnittelu 2 k -faktorikokeet. TKK (c) Ilkka Mellin (2005) 1

Väliestimointi (jatkoa) Heliövaara 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Vastepintamenetelmä. Kuusinen/Heliövaara 1

analyysin perusteet Mat Ti lastol I isen Tentti /Mellin

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Testejä suhdeasteikollisille muuttujille

Altistusaika 1 kk 2 kk 3 kk

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Harjoitus 9: Excel - Tilastollinen analyysi

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Mat Tilastollisen analyysin perusteet, kevät 2007


Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Sovellettu todennäköisyyslaskenta B

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

MTTTP5, luento Luottamusväli, määritelmä

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Kvantitatiiviset menetelmät

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Menestyminen valintakokeissa ja todennäköisyyslaskussa

Toimittaja Erä

Testaa onko myrkkypitoisuus eri ryhmissä sama. RATK. Lasketaan kaikkien havaintoarvojen summa: k T i = = 486.

Mat Tilastollisen analyysin perusteet. Testit suhdeasteikollisille muuttujille. Avainsanat:

Sovellettu todennäköisyyslaskenta B

Koesuunnittelu Vastepintamenetelmä. TKK (c) Ilkka Mellin (2005) 1

Mediaanikorko on kiinteäkorkoiselle lainalle korkeampi. Tämä hypoteesi vastaa taloustieteen käsitystä korkojen määräytymismekanismista.

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Sovellettu todennäköisyyslaskenta B

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Kertausluento. Vilkkumaa / Kuusinen 1

Teema 9: Tilastollinen merkitsevyystestaus

Vastepintamenetelmä. Heliövaara 1

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1

Useampisuuntainen varianssianalyysi. Useampisuuntainen varianssianalyysi. Useampisuuntainen varianssianalyysi

SPSS-perusteet. Sisältö

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Mat Tilastollisen analyysin perusteet, kevät 2007

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Osa 2: Otokset, otosjakaumat ja estimointi

Korrelaatiokertoinen määrittely 165

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Transkriptio:

Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yksisuuntainen varianssianalyysi Bartlettin testi, Bonferronin menetelmä, F-testi, Jäännösneliösumma, χ 2 -testi, Kokonaiskeskiarvo, Kokonaisneliösumma, Kokonaisvaihtelu, Luottamusväli, Neliösumma, Odotusarvo, Odotusarvojen vertailu, Ryhmien sisäinen vaihtelu, Ryhmien välinen vaihtelu, Ryhmä, Ryhmäkeskiarvo, Ryhmäneliösumma, Taso, Testi, Vapauaste, Varianssi, Varianssianalyysihajotelma, Yksisuuntainen varianssianalyysi, Yleinen lineaarinen malli 1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT Alihankkijat A, B ja C toimittavat tehtaalle osia 500 kappaleen erissä. Kaikkien kolmen alihankkijan toimittamien erien joukosta poimittiin satunnaisesti 6 erää tarkastettavaksi. Alla olevassa taulukossa on annettu tarkastetuista eristä löytyneiden viallisten osien lukumäärät. Poikkeavatko viallisten osien keskimääräiset lukumäärät eri ali-hankkijoiden toimittamissa erissä tilastollisesti merkitsevästi toisistaan? Alihankkija A Alihankkija B Alihankkija C 28 22 33 37 27 29 34 29 39 29 20 33 31 18 37 33 30 38 Tehtävä ratkaistaan käyttämällä yksisuuntaista varianssianalyysia. (a) (b) (c) RATKAISU: Talleta aineisto STATISTIX-tiedostoksi DEFECT1 taulukkomuodossa, jolloin eri alihankkijoita koskevat tiedot talletetaan erillisinä muuttujina. Talleta aineisto STATISTIX-tiedostoksi DEFECT2 kategorisessa muodossa, jolloin eri alihankkijoita koskevat tiedot talletetaan yhdeksi muuttujaksi, mutta tiedostoon lisättään indikaattorimuuttuja, joka kertoo mihin alihankkijaan mikin havainto liittyy. Anna indikaattorimuuttujalle arvoiksi luvut 1, 2, 3. Tee yksisuuntaiset varianssianalyysit sekä (a)- että (b)-kohdan tiedostoille ja tarkista, että saat samat tulokset. Yksisuuntaisessa varianssianalyysissa perusjoukko jaetaan ryhmiin yhden tekijän suhteen ja päämääränä on testata ryhmäkohtaisten odotusarvojen yhtäsuuruutta. TKK/SAL Ilkka Mellin (2005) 1/1

Tehtävän tavoitteena on näyttää, kuinka yksisuuntaisen varianssianalyysin aineistot voidaan tallettaa STATISTIX-tiedostoiksi kahdessa eri muodossa: (i) (ii) Taulukkomuodossa eri ryhmiin kuuluvat havainnot talletetaan tiedostoon erillisiksi muuttujiksi. Kategorisessa muodossa kaikki havainnot talletetaan yhdeksi muuttujaksi ja ryhmä ilmaistaan indikaattorimuuttujan avulla. (a) AINEISTON TAULUKKOMUOTO Talletetaan aineisto STATISTIX-tiedostoksi DEFECT1 taulukkomuodossa. Muuttujat: SUPA = Alihankkija A SUPB = Alihankkija B SUPC = Alihankkija C Tulostetaan tiedosto DEFECT1. File > Print Print Variables = SUPA, SUPB, SUPC DEFECT1 SUPA SUPB SUPC 28 22 33 37 27 29 34 29 39 29 20 33 31 18 37 33 30 38 (b) AINEISTON KATEGORINEN MUOTO Talletetaan aineisto STATISTIX-tiedostoksi DEFECT2 kategorisessa muodossa. Muuttujat: DEFECT = Alihankkija A, Alihankkija B, Alihankkija C I = Indikaattorimuuttuja I = 1 Alihankkija A I = 2 Alihankkija B I = 3 Alihankkija C TKK/SAL Ilkka Mellin (2005) 2/2

Tulostetaan tiedosto DEFECT2. File > Print Print Variables = DEFECT, I DEFECT2 DEFECT I 28 1 37 1 34 1 29 1 31 1 33 1 22 2 27 2 29 2 20 2 18 2 30 2 33 3 29 3 39 3 33 3 37 3 38 3 TKK/SAL Ilkka Mellin (2005) 3/3

(c) YKSISUUNTAINEN VARIANSSIANALYYSI Varianssianalyysi aineiston taulukkomuodosta Tehdään yksisuuntainen varianssianalyysi tiedoston DEFECT1 aineistolle. Statistics > Linear Models > One-Way AOV Model Specification = Table Table Variables = SUPA, SUPB, SUPC DEFECT1 ONE-WAY AOV FOR: SUPA SUPB SUPC SOURCE DF SS MS F P ------- ---- --------- --------- ------ ------ BETWEEN 2 354.111 177.056 10.45 0.0014 WITHIN 15 254.167 16.9444 TOTAL 17 608.278 CHI-SQ DF P BARTLETT'S TEST OF ------ ------ ------ EQUAL VARIANCES 0.80 2 0.6712 COCHRAN'S Q 0.4931 LARGEST VAR / SMALLEST VAR 2.2381 COMPONENT OF VARIANCE FOR BETWEEN GROUPS 26.6852 EFFECTIVE CELL SIZE 6.0 SAMPLE GROUP VARIABLE MEAN SIZE STD DEV --------- ---------- ------ ---------- SUPA 32.000 6 3.3466 SUPB 24.333 6 5.0067 SUPC 34.833 6 3.8166 TOTAL 30.389 18 4.1164 CASES INCLUDED 18 MISSING CASES 0 TKK/SAL Ilkka Mellin (2005) 4/4

Varianssianalyysi aineiston kategorisesta muodosta Tehdään yksisuuntainen varianssianalyysi tiedoston DEFECT2 aineistolle. Statistics > Linear Models > One-Way AOV Model Specification = Categorical Dependent Variable = DEFECT Categorical Variable = I DEFECT2 ONE-WAY AOV FOR DEFECT BY I SOURCE DF SS MS F P ------- ---- --------- --------- ------ ------ BETWEEN 2 354.111 177.056 10.45 0.0014 WITHIN 15 254.167 16.9444 TOTAL 17 608.278 CHI-SQ DF P BARTLETT'S TEST OF ------ ------ ------ EQUAL VARIANCES 0.80 2 0.6712 COCHRAN'S Q 0.4931 LARGEST VAR / SMALLEST VAR 2.2381 COMPONENT OF VARIANCE FOR BETWEEN GROUPS 26.6852 EFFECTIVE CELL SIZE 6.0 SAMPLE GROUP I MEAN SIZE STD DEV --------- ---------- ------ ---------- 1 32.000 6 3.3466 2 24.333 6 5.0067 3 34.833 6 3.8166 TOTAL 30.389 18 4.1164 CASES INCLUDED 18 MISSING CASES 0 Yksisuuntaisen varianssianalyysin tulostukset tiedostoista DEFECT1 ja DEFECT2 vastaavat täydellisesti toisiaan. TKK/SAL Ilkka Mellin (2005) 5/5

2. YKSISUUNTAISEN VARIANSSIANALYYSIN TULOSTEN TULKINTA Tutustu tarkemmin STATISTIX-ohjelman antamiin tuloksiin tehtävän 1 aineistolle. (a) (b) (c) (d) (e) (f) (g) RATKAISU: Mitkä ovat ryhmäkohtaiset keskiarvot ja kokonaiskeskiarvo? Mitkä ovat ryhmien välinen neliösumma, ryhmien sisäinen neliösumma ja kokonaisneliösumma? Yksisuuntaisessa varianssianalyysissa testataan oletusta, jonka mukaan ryhmäkohtaiset odotusarvot ovat yhtä suuria. Mikä on oletusta testaavan testisuureen arvo ja vastaava p- arvo? Onko oletus perusteltu? Laske varianssianalyysin testisuureen arvo varianssianalyysihajotelman neliösummien avulla ja tarkista, että tulos on sama kuin (c)-kohdassa. Kun yksisuuntaisessa varianssianalyysissa testataan oletusta, jonka mukaan ryhmäkohtaiset odotusarvot ovat yhtä suuria, oletetaan, että ryhmien sisäiset varianssit ovat yhtä suuria. Onko oletus perusteltu? Laske ryhmien sisäistä vaihtelua kuvaava neliösumma ryhmäkohtaisten varianssien avulla. Vertaile odotusarvoja käyttämällä Bonferronin menetelmää. Montako ryhmää aineistosta löytyy? Yksisuuntaisessa varianssianalyysissa perusjoukko jaetaan ryhmiin yhden tekijän suhteen ja päämääränä on testata ryhmäkohtaisten odotusarvojen yhtäsuuruutta. Tehtävän tavoitteena on tutustuttaa STATISTIX-ohjelman yksisuuntaista varianssianalyysia koskeviin tulostuksiin. TKK/SAL Ilkka Mellin (2005) 6/6

Tehdään yksisuuntainen varianssianalyysi tehtävän 1 tiedoston DEFECT1 aineistolle. Statistics > Linear Models > One-Way AOV Model Specification = Table Table Variables = SUPA, SUPB, SUPC DEFECT1 ONE-WAY AOV FOR: SUPA SUPB SUPC SOURCE DF SS MS F P ------- ---- --------- --------- ------ ------ BETWEEN 2 354.111 177.056 10.45 0.0014 WITHIN 15 254.167 16.9444 TOTAL 17 608.278 CHI-SQ DF P BARTLETT'S TEST OF ------ ------ ------ EQUAL VARIANCES 0.80 2 0.6712 COCHRAN'S Q 0.4931 LARGEST VAR / SMALLEST VAR 2.2381 COMPONENT OF VARIANCE FOR BETWEEN GROUPS 26.6852 EFFECTIVE CELL SIZE 6.0 SAMPLE GROUP VARIABLE MEAN SIZE STD DEV --------- ---------- ------ ---------- SUPA 32.000 6 3.3466 SUPB 24.333 6 5.0067 SUPC 34.833 6 3.8166 TOTAL 30.389 18 4.1164 CASES INCLUDED 18 MISSING CASES 0 TKK/SAL Ilkka Mellin (2005) 7/7

(a) RYHMÄKESKIARVOT JA KOKONAISKESKIARVO Ryhmien SUPA, SUPB, SUOC ryhmäkohtaiset aritmeettiset keskiarvot, ryhmäkoot ja ryhmäkohtaiset otoskeskihajonnat sekä kaikkien havaintojen kokonais- eli yleiskeskiarvo ja otoskeskihajonta on annettu alla olevassa taulukossa. SAMPLE GROUP VARIABLE MEAN SIZE STD DEV --------- ---------- ------ ---------- SUPA 32.000 6 3.3466 SUPB 24.333 6 5.0067 SUPC 34.833 6 3.8166 TOTAL 30.389 18 4.1164 Esimerkiksi ryhmästä SUPB on annettu seuraavat tiedot rivillä SUPB: Havaintojen aritmeettinen keskiarvo (MEAN) = 24.333 Ryhmän koko (SAMPLE SIZE) = 6 Havaintojen otoskeskihajonta (GROUP STD DEV) = 5.0067 Yhdistetystä aineistosta taulukossa on annettu tiedot rivillä TOTAL: Havaintojen aritmeettinen keskiarvo (MEAN) = 30.389 Ryhmän koko (SAMPLE SIZE) = 18 Havaintojen otoskeskihajonta (GROUP STD DEV) = 4.1164 Yksisuuntaisen varianssianalyysin ryhmäkohtaisten odotusarvojen yhtäsuuruutta koskeva testi perustuu ryhmäkohtaisten aritmeettisten keskiarvojen ja yleiskeskiarvon vertailuun. Taulukossa ryhmäkeskiarvot 32.000 (ryhmä SUPA), 24.333 (ryhmä SUPB), 34.833 (ryhmä SUPC) on annettu sarakkeessa MEAN. Ryhmien sisäistä vaihtelua kuvaavat ryhmäkohtaiset otoskeskihajonnat 3.3466 (ryhmä SUPA), 5.0067 (ryhmä SUPB), 3.8166 (ryhmä SUPC) on annettu sarakkeessa GROUP STD DEV. (b) VARIANSSIANALYYSIHAJOTELMAN NELIÖSUMMAT Varianssianalyysin testi ryhmäkohtaisten odotusarvojen yhtäsuuruudelle perustuu varianssianalyysihajotelmalle jossa SST = SSG + SSE SST = kokonaisneliösumma (TOTAL SS) SSG = ryhmien välistä vaihtelua kuvaava ryhmäneliösumma (BETWEEN SS) SSE = ryhmien sisäistä vaihtelua kuvaava jäännösneliösumma (WITHIN SS) TKK/SAL Ilkka Mellin (2005) 8/8

Varianssianalyysihajotelman neliösummat on annettu alla olevassa taulukossa sarakkeessa SS: SOURCE DF SS MS F P ------- ---- --------- --------- ------ ------ BETWEEN 2 354.111 177.056 10.45 0.0014 WITHIN 15 254.167 16.9444 TOTAL 17 608.278 Taulukosta nähdään, että SST = SSG + SSE eli 608.278 = 354.111 + 254.167 (c) VARIANSSIANALYYSIN TESTI ODOTUSARVOJEN YHTÄSUURUUDELLE Testisuure ryhmäkohtaisten odotusarvojen yhtäsuuruudelle on muotoa jossa n k SSG F = k 1 SSE n = havaintojen kokonaislukumäärä k = ryhmien lukumäärä SSG = ryhmien välistä vaihtelua kuvaava ryhmäneliösumma (BETWEEN SS) SSE = ryhmien sisäistä vaihtelua kuvaava jäännösneliösumma (WITHIN SS) Testisuureen arvo ryhmäkohtaisten odotusarvojen yhtäsuuruudelle on annettu alla olevassa taulukossa sarakkeessa F. SOURCE DF SS MS F P ------- ---- --------- --------- ------ ------ BETWEEN 2 354.111 177.056 10.45 0.0014 WITHIN 15 254.167 16.9444 TOTAL 17 608.278 Taulukosta nähdään, että testisuureen arvo on F = 10.45 Testisuureen arvoa vastaava p-arvo saadaan sarakkeesta P: p = 0.0014 TKK/SAL Ilkka Mellin (2005) 9/9

Johtopäätös: Nollahypoteesi ryhmäodotusarvojen yhtäsuuruudesta voidaan hylätä: Viallisten keskimääräiset lukumäärät alihankkijoilla A, B ja C poikkevat tilastollisesti merkitsevästi toisistaan. (d) VARIANSSIANALYYSIN TESTI ODOTUSARVOJEN YHTÄSUURUUDELLE JA VARIANSSIANALYYSHAJOTELMA F-testisuureen arvo määrätään varianssianalyysihajotelman neliösummista: n k SSG 18 3 354.111 F = = = 10.449 k 1 SSE 3 1 254.167 Tulos on sama kuin (c)-kohdassa annettu F-testisuureen arvo. (e) VARIANSSIANALYYSIN TESTI VARIANSSIEN YHTÄSUURUUDELLE Varianssianalyysissa oletetaan, että ryhmäkohtaiset varianssit ovat yhtä suuria. Tätä oletusta voidaan testata Bartlettin testillä. CHI-SQ DF P BARTLETT'S TEST OF ------ ------ ------ EQUAL VARIANCES 0.80 2 0.6712 Bartlettin testin χ 2 -testisuureen arvo (CHI-SQ) on 2 χ = 0.80 ja vapausasteiden lukumäärä (DF) on k 1 = 3 1 = 2. Testisuureen arvoa vastaava p-arvo (P) on 0.6712. Johtopäätös: Nollahypoteesi varianssien yhtäsuuruudesta jää voimaan. (f) RYHMIEN SISÄINEN VAIHTELU JA RYHMÄKOHTAISET VARIANSSIT Ryhmien sisäistä vaihtelua kuvaava neliösumma voidaan laskea ryhmäkohtaisten varianssien avulla; ks. kohta (a): k 2 2 2 2 ( i 1) i 5 3.3466 5 5.0067 5 3.8166 254.166 i= 1 SSE = n s = + + = TKK/SAL Ilkka Mellin (2005) 10/10

(g) ODOTUSARVOJEN VERTAILU Kohdassa (c) todettiin, että nollahypoteesi ryhmäkohtaisten odotusarvojen yhtäsuuruudesta voidaan hylätä. Tällöin on luontevaa vertailla ryhmäkohtaisia odotusarvoja pareittain toisiinsa. Tehdään odotusarvojen vertailu Bonferronin menetelmällä. One-Way AOV AOV Table > Results Comparison of Means Comparison Method = Bonferroni Alpha = 0.05 DEFECT1 BONFERRONI COMPARISON OF MEANS HOMOGENEOUS VARIABLE MEAN GROUPS --------- ---------- ----------- SUPC 34.833 I SUPA 32.000 I SUPB 24.333.. I THERE ARE 2 GROUPS IN WHICH THE MEANS ARE NOT SIGNIFICANTLY DIFFERENT FROM ONE ANOTHER. CRITICAL T VALUE 2.694 REJECTION LEVEL 0.050 CRITICAL VALUE FOR COMPARISON 6.4019 STANDARD ERROR FOR COMPARISON 2.3766 Analyysin mukaan aineisto koostuu kolmen sijasta kahdesta ryhmästä. Toiseen ryhmään kuuluvat ryhmien SUPC ja SUPA alkiot ja toiseen ryhmään ryhmän SUPB alkiot. Ryhmien SUPC ja SUPA havaintojen odotusarvot eivät eroa tilastollisesti merkitsevästi toisistaan. Sen sijaan ryhmien SUPC SUPA ja SUPB odotusarvot eroavat tilastollisesti merkitsevästi toisistaan. Yleinen johtopäätös: Viallisten keskimääräiset lukumäärät alihankkijoilla C ja A eivät poikkea tilastollisesti merkitsevästi toisistaan, mutta viallisten keskimääräiset lukumäärät niillä ja alihankkijalla B poikkeavat tilastollisesti merkitsevästi toisistaan. TKK/SAL Ilkka Mellin (2005) 11/11

3. YKSISUUNTAINEN VARIANSSIANALYYSI JA YLEINEN LINEAARINEN MALLI Tehtävässä käytetään tehtävän 1 (b)-kohdan tiedostoa DEFECT2. (a) (b) (c) RATKAISU: Lisää tiedostoon DEFECT2 kolme indikaattorimuuttujaa IA, IB, IC. Indikaattorimuuttujat määritellään seuraavalla tavalla: I i = 1, jos havainto kuuluu ryhmään i 0, jos havainto ei kuulu ryhmään i Estimoi lineaarinen malli, jossa selittäjinä käytetään muuttujia IA, IB, IC. Vertaa regressiokertoimia tehtävän 1 tulostuksista löytyviin ryhmäkohtaisiin aritmeettisiin keskiarvoihin. Huomautus: Mallissa ei saa olla vakiotermiä! Miksi? Testaa regressiokertoimien yhtäsuuruutta ja vertaa testin tulosta tehtävässä 1 saatuun yksisuuntaisen varianssianalyysin testitulokseen. Testin suoritus on esitetty tehtäväpaperin lopussa. Yksisuuntaisessa varianssianalyysissa perusjoukko jaetaan ryhmiin yhden tekijän suhteen ja päämääränä on testata ryhmäkohtaisten odotusarvojen yhtäsuuruutta. Tehtävän tavoitteena on näyttää, että yksisuuntaisen varianssianalyysin malli on erikoistapaus yleisestä lineaarisesta mallista. TKK/SAL Ilkka Mellin (2005) 12/12

Mat-2.104 Tilastollisen analyysin perusteet (a) INDIKAATTORIMUUTTUJAT Lisätään tehtävän 1 kategorisessa muodossa olevaan STATISTIX-tiedostoon DEFECT2 indikaattorimuuttujat IA, IB, IC. Indikaattorimuuttujat määritellään seuraavalla tavalla: I ji = Tulostetaan tiedosto DEFECT2. 1, jos havainto j kuuluu ryhmään i 0, jos havainto j ei kuulu ryhmään i File > Print Print Variables = DEFECT, IA, IB, IC DEFECT2 DEFECT IA IB IC 28 1 0 0 37 1 0 0 34 1 0 0 29 1 0 0 31 1 0 0 33 1 0 0 22 0 1 0 27 0 1 0 29 0 1 0 20 0 1 0 18 0 1 0 30 0 1 0 33 0 0 1 29 0 0 1 39 0 0 1 33 0 0 1 37 0 0 1 38 0 0 1 TKK/SAL Ilkka Mellin (2005) 13/13

(b) REGRESSIOANALYYSI Estimoidaan lineaarinen regressiomalli (1) DEFECT = µ 1 IA + µ 2 IB + µ 3 IC + ε Huomaa, että mallissa ei ole mukana vakioselittäjää! Statistics > Linear Models > Linear Regression Dependent Variable = DEFECT Independent Variables = IA, IB, IC DEFECT2 UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF DEFECT NOTE: MODEL FORCED THROUGH ORIGIN PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF --------- ----------- --------- ----------- ------ ----- IA 32.0000 1.68050 19.04 0.0000 0.7 IB 24.3333 1.68050 14.48 0.0000 0.7 IC 34.8333 1.68050 20.73 0.0000 0.7 R-SQUARED 0.9852 RESID. MEAN SQUARE (MSE) 16.9444 ADJUSTED R-SQUARED 0.9823 STANDARD DEVIATION 4.11636 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 3 16976.8 5658.94 333.97 0.0000 RESIDUAL 15 254.167 16.9444 TOTAL 18 17231.0 CASES INCLUDED 18 MISSING CASES 0 Mallin (1) regressiokertoimien estimaateiksi saadaan: Kertoimen µ 1 estimaatti = 32.0000 Kertoimen µ 2 estimaatti = 24.3333 Kertoimen µ 3 estimaatti = 34.8333 Estimaatit ovat samat kuin havaintoarvojen ryhmäkohtaiset aritmeettiset keskiarvot; ks. tehtävä 2, kohta (a). Estimoitu malli on siten muotoa DEFECT = 32.0000 IA + 24.3333 IB + 34.8333 IC Mallin (1) jäännösneliösumma (RESIDUAL SS) 254.167 on sama kuin varianssi-analyysissa laskettava ryhmien sisäistä vaihtelua kuvaava neliösumma SSE; kts. tehtävä 2, kohta (b). TKK/SAL Ilkka Mellin (2005) 14/14

Huomautus: Malliin (1) ei voi liittää vakioselittäjää, koska mallin DEFECT = β + µ 1 IA + µ 2 IB + µ 3 IC + ε selittäjien välillä olisi tarkka lineaarinen riippuvuus: CONSTANT = IA + IB + IC jossa CONSTANT on vakioselittäjä: CONSTANT = 1 kaikille havainnoille Selittäjien lineaarinen riippuvuus tekee regressiokertoimien estimoimisen tavanomaisella PNS-keinolla mahdottomaksi. (c) REGRESSIOKERTOIMIEN YHTÄSUURUUDEN TESTAAMINEN Asetetaan lineaarisen mallin (1) DEFECT = µ 1 IA + µ 2 IB + µ 3 IC + ε kertoimille nollahypoteesi H 0 : µ 1 = µ 2 = µ 3 = µ Jos nollahypoteesi H 0 pätee, malli (1) voidaan kirjoittaa muotoon (2) DEFECT = µ CONSTANT + ε Testi nollahypoteesille H 0 perustuu testisuureeseen jossa n k SSER SSE F = k 1 SSE n = havaintojen kokonaislukumäärä k = ryhmien lukumäärä SSE R = jäännösneliösumma mallista (2) SSE = jäännösneliösumma mallista (1) Lisätään tiedostoon DEFECT2 muuttuja CONSTANT. Muuttuja CONSTANT määritellään seuraavalla tavalla: CONSTANT = 1 kaikille havainnoille TKK/SAL Ilkka Mellin (2005) 15/15

Tulostetaan tiedosto DEFECT2. File > Print Print Variables = DEFECT, CONSTANT DEFECT2 DEFECT CONSTANT 28 1 37 1 34 1 29 1 31 1 33 1 22 1 27 1 29 1 20 1 18 1 30 1 33 1 29 1 39 1 33 1 37 1 38 1 TKK/SAL Ilkka Mellin (2005) 16/16

Estimoidaan lineaarinen regressiomalli (2) DEFECT = µ CONSTANT + ε Statistics > Linear Models > Linear Regression Dependent Variable = DEFECT Independent Variables = CONSTANT DEFECT2 UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF DEFECT NOTE: MODEL FORCED THROUGH ORIGIN PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 30.3889 1.40991 21.55 0.0000 R-SQUARED 0.9647 RESID. MEAN SQUARE (MSE) 35.7810 ADJUSTED R-SQUARED 0.9626 STANDARD DEVIATION 5.98173 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 16622.7 16622.7 464.57 0.0000 RESIDUAL 17 608.278 35.7810 TOTAL 18 17231.0 CASES INCLUDED 18 MISSING CASES 0 Mallin (2) regressiokertoimen estimaatiksi saadaan: Kertoimen µ estimaatti = 30.3889 Estimaatti on sama kuin havaintoarvojen yleiskeskiarvo; ks. tehtävä 2, kohta (a). Estimoitu malli on siten muotoa DEFECT = 30.3889 IA Mallin (2) jäännösneliösumma (RESIDUAL SS) 608.278 on sama kuin varianssianalyysissa laskettava havaintojen kokonaisvaihtelua kuvaava neliösumma SST; ks. tehtävä 2, kohta (b). Yhdistämällä saatu tulos (b)-kohdan tulokseen saadaan testisuureen arvoksi n k SSER SSE 18 3 608.278 254.167 F = = = 10.449 k 1 SSE 3 1 254.167 Tulos on täsmälleen sama kuin tehtävän 2 kohdassa (d) saatu tulos, mikä on ymmärrettävää, kun huomataan, että Johtopäätös: SSER SSE = SSG Nollahypoteesi regressiokertoimien yhtäsuuruudesta voidaan hylätä. TKK/SAL Ilkka Mellin (2005) 17/17

4. YKSISUUNTAINEN VARIANSSIANALYYSI: SOVELLUS 1 USA:ssa toimiva yritys on etsimässä sopivaa automerkkiä hoitamaan kuljetuksiaan. Ehdolla on kotimainen, japanilainen ja eurooppalainen automerkki. Jokaista merkkiä tilataan 5 kappaletta, tilatuilla autoilla ajetaan 10,000 mailia normaaliajoa ja autojen ajokustannukset (c/maili) mitataan. Tiedot mittauksista on annettu STATISTIX-tiedostossa CARS1. RATKAISU: Onko eri automerkkien keskimääräisissä ajokustannuksissa tilastollisesti merkitsevää eroa? Yksisuuntaisessa varianssianalyysissa perusjoukko jaetaan ryhmiin yhden tekijän suhteen ja päämääränä on testata ryhmäkohtaisten odotusarvojen yhtäsuuruutta. Tehtävän tavoitteena on esittää sovellusesimerkki yksisuuntaisesta varianssianalyysista, tilanteessa, jossa oletus odotusarvojen yhtäsuuruudesta jää voimaan. Tehdään yksisuuntainen varianssianalyysi tiedoston CARS1 aineistolle. Statistics > Linear Models > One-Way AOV Model Specification = Table Table Variables = DOM, JAP, EUR Ryhmäkohtaisten varianssien yhtäsuuruuden testaaminen Testataan oletusta ryhmäkohtaisten varianssien yhtäsuuruudesta. Bartlettin testin χ 2 -testisuureen arvo (CHI-SQ) on 2 χ = 0.54 ja vapausasteiden lukumäärä (DF) on k 1 = 3 1 = 2. Testisuureen arvoa vastaava p-arvo (P) on 0.7615. Johtopäätös: Nollahypoteesi varianssien yhtäsuuruudesta jää voimaan. TKK/SAL Ilkka Mellin (2005) 18/18

Ryhmäkohtaisten odotusarvojen yhtäsuuruuden testaaminen Testataan oletusta ryhmäkohtaisten odotusarvojen yhtäsuuruudesta. F-testisuureen arvo (F) on F = 0.40 ja vapausasteiden lukumäärät (DF) ovat k 1 = 2 ja n k = 12. Testisuureen arvoa vastaava p-arvo (P) on 0.6761. Johtopäätös: Nollahypoteesi odotusarvojen yhtäsuuruudesta jää voimaan. CARS1 ONE-WAY AOV FOR: DOM EUR JAP SOURCE DF SS MS F P ------- ---- --------- --------- ------ ------ BETWEEN 2 2.43333 1.21667 0.40 0.6761 WITHIN 12 36.1000 3.00833 TOTAL 14 38.5333 CHI-SQ DF P BARTLETT'S TEST OF ------ ------ ------ EQUAL VARIANCES 0.54 2 0.7615 COCHRAN'S Q 0.4593 LARGEST VAR / SMALLEST VAR 2.1989 COMPONENT OF VARIANCE FOR BETWEEN GROUPS -0.35833 EFFECTIVE CELL SIZE 5.0 SAMPLE GROUP VARIABLE MEAN SIZE STD DEV --------- ---------- ------ ---------- DOM 17.400 5 1.3730 EUR 17.300 5 1.7306 JAP 16.500 5 2.0359 TOTAL 17.067 15 1.7345 CASES INCLUDED 15 MISSING CASES 0 Yleinen johtopäätös: Eri automerkkien keskimääräiset ajokustannukset eivät eroa tilastollisesti merkitsevästi toisistaan. TKK/SAL Ilkka Mellin (2005) 19/19

5. YKSISUUNTAINEN VARIANSSIANALYYSI: SOVELLUS 2 Eräs korkeajännitekaapeli punotaan 12 teräslangasta, joilta vaaditaan suurta vetolujuutta. Lankojen vetolujuuden tutkimiseksi valitaan satunnaisesti 9 kaapelia ja jokaisen kaapelin kaikkien teräslankojen vetolujuudet mitataan. Mitattujen veto-lujuuksien poikkeamat arvosta 340 kg on annettu kiloina STATISTIX-tiedostossa CABLES. Indikaattorimuuttuja I1 ilmaisee mistä kaapelista kukin teräslanka on otettu. (a) (b) (c) (d) RATKAISU: Testaa nollahypoteesia, että eri kaapeleista otetuilla teräslangoilla on samat keskimääräiset vetolujuudet. Tee myös ryhmäkohtaisten odotusarvojen vertailut Bonferronin menetelmällä. Kohdassa (a) nollahypoteesi hylätään. Asiaa tarkemmin tutkittaessa havaitaan, että kaapeleiden 1-4 langat on valmistettu teräserästä A, kaapeleiden 5-8 langat on valmistettu teräserästä B ja kaapelin 9 langat on valmistettu teräserästä C. Indikaattorimuuttuja I2 ilmaisee mistä teräserästä kaapelin langat on valmistettu. Testaa nollahypoteesia, että teräserästä A valmistettujen kaapeleiden teräslangoilla on samat keskimääräiset vetolujuudet. Testaa nollahypoteesia, että teräserästä B valmistettujen kaapeleiden teräslangoilla on samat keskimääräiset vetolujuudet. Mikä on johtopäätös? Testaa nollahypoteesia, että eri teräseristä valmistettujen kaapeleiden teräslangoilla on samat keskimääräiset vetolujuudet. Tee myös ryhmä-kohtaisten odotusarvojen vertailut Bonferronin menetelmällä. Tee tuloksista yhteenveto. Yksisuuntaisessa varianssianalyysissa perusjoukko jaetaan ryhmiin yhden tekijän suhteen ja päämääränä on testata ryhmäkohtaisten odotusarvojen yhtäsuuruutta. Tehtävän tavoitteena on esittää sellainen sovellusesimerkki yksisuuntaisesta varianssianalyysista, jossa tulee esiin ryhmityksen vaikutus. TKK/SAL Ilkka Mellin (2005) 20/20

(a) VARIANSSIANALYYSI RYHMILLE 1-9 Tehdään yksisuuntainen varianssianalyysi tiedoston CABLES aineistolle käyttäen indikaattorimuuttujana muuttujaa I1, jolla on yhdeksän tasoa. Statistics > Linear Models > One-Way AOV Model Specification = Categorical Dependent Variable = TENSSTR Categorical Variables = I1 CABLES ONE-WAY AOV FOR TENSSTR BY I1 SOURCE DF SS MS F P ------- ---- --------- --------- ------ ------ BETWEEN 8 1924.30 240.537 9.07 0.0000 WITHIN 99 2626.92 26.5345 TOTAL 107 4551.21 CHI-SQ DF P BARTLETT'S TEST OF ------ ------ ------ EQUAL VARIANCES 10.31 8 0.2442 COCHRAN'S Q 0.2025 LARGEST VAR / SMALLEST VAR 4.7964 COMPONENT OF VARIANCE FOR BETWEEN GROUPS 17.8335 EFFECTIVE CELL SIZE 12.0 SAMPLE GROUP I1 MEAN SIZE STD DEV --------- ---------- ------ ---------- 1-4.0833 12 4.9627 2-7.0000 12 6.9544 3-6.0833 12 5.0535 4-2.6667 12 6.4291 5 1.9167 12 5.2303 6 0.8333 12 3.7376 7 0.9167 12 3.1754 8 3.3333 12 4.0527 9 6.2500 12 5.5780 TOTAL -0.7315 108 5.1512 CASES INCLUDED 108 MISSING CASES 0 TKK/SAL Ilkka Mellin (2005) 21/21

Ryhmäkohtaisten varianssien yhtäsuuruuden testaaminen Testataan oletusta ryhmäkohtaisten varianssien yhtäsuuruudesta. Bartlettin testin χ 2 -testisuureen arvo (CHI-SQ) on 2 χ = 10.31 ja vapausasteiden lukumäärä (DF) on k 1 = 9 1 = 8. Testisuureen arvoa vastaava p-arvo (P) on 0.2442. Johtopäätös: Nollahypoteesi varianssien yhtäsuuruudesta jää voimaan. Ryhmäkohtaisten odotusarvojen yhtäsuuruuden testaaminen Testataan oletusta ryhmäkohtaisten odotusarvojen yhtäsuuruudesta. F-testisuureen arvo (F) on F = 9.07 ja vapausasteiden lukumäärät (DF) ovat k 1 = 8 ja n k = 99. Testisuureen arvoa vastaava p-arvo (P) on (4:llä desimaalilla) 0.0000. Johtopäätös: Nollahypoteesi odotusarvojen yhtäsuuruudesta voidaan hylätä. TKK/SAL Ilkka Mellin (2005) 22/22

Odotusarvojen vertailu Tehdään odotusarvojen vertailu Bonferronin menetelmällä. One-Way AOV AOV Table > Results Comparison of Means Comparison Method = Bonferroni Alpha = 0.05 CABLES BONFERRONI COMPARISON OF MEANS OF TENSSTR BY I1 HOMOGENEOUS I1 MEAN GROUPS --------- ---------- ----------- 9 6.2500 I 8 3.3333 I I 5 1.9167 I I I 7 0.9167 I I I 6 0.8333 I I I I 4-2.6667.. I I I I 1-4.0833... I I I 3-6.0833... I I 2-7.0000... I THERE ARE 5 GROUPS IN WHICH THE MEANS ARE NOT SIGNIFICANTLY DIFFERENT FROM ONE ANOTHER. CRITICAL T VALUE 3.290 REJECTION LEVEL 0.050 CRITICAL VALUE FOR COMPARISON 6.9186 STANDARD ERROR FOR COMPARISON 2.1030 Analyysin mukaan aineisto koostuu yhdeksän sijasta viidestä ryhmästä. Uusia ryhmiä voidaan muodostaa usealla eri tavalla. Esimerkiksi alkuperäisen ryhmityksen ryhmä 6 voidaan liittää neljään eri ryhmään. (b) VARIANSSIANALYYSIT RYHMILLE 1-4 JA 5-8 Tehdään yksisuuntainen varianssianalyysi tiedoston CABLES aineistolle erikseen ryhmille 1-4 ja 5-8 käyttäen indikaattorimuuttujana muuttujaa I1. TKK/SAL Ilkka Mellin (2005) 23/23

Varianssianalyysi ryhmille 1-4 Rajoitetaan havainnot ryhmiin 1-4. Data > Omit / Select / Restore Cases Omit / Select / Restore Expression Omit I1 > 4 Statistics > Linear Models > One-Way AOV Model Specification = Categorical Dependent Variable = TENSSTR Categorical Variables = I1 CABLES ONE-WAY AOV FOR TENSSTR BY I1 SOURCE DF SS MS F P ------- ---- --------- --------- ------ ------ BETWEEN 3 137.417 45.8056 1.31 0.2831 WITHIN 44 1538.50 34.9659 TOTAL 47 1675.92 CHI-SQ DF P BARTLETT'S TEST OF ------ ------ ------ EQUAL VARIANCES 1.83 3 0.6077 COCHRAN'S Q 0.3458 LARGEST VAR / SMALLEST VAR 1.9637 COMPONENT OF VARIANCE FOR BETWEEN GROUPS 0.90330 EFFECTIVE CELL SIZE 12.0 SAMPLE GROUP I1 MEAN SIZE STD DEV --------- ---------- ------ ---------- 1-4.0833 12 4.9627 2-7.0000 12 6.9544 3-6.0833 12 5.0535 4-2.6667 12 6.4291 TOTAL -4.9583 48 5.9132 CASES INCLUDED 48 MISSING CASES 0 TKK/SAL Ilkka Mellin (2005) 24/24

Ryhmäkohtaisten varianssien yhtäsuuruuden testaaminen Testataan oletusta ryhmäkohtaisten varianssien yhtäsuuruudesta. Bartlettin testin χ 2 -testisuureen arvo (CHI-SQ) on 2 χ = 1.83 ja vapausasteiden lukumäärä (DF) on k 1 = 4 1 = 3. Testisuureen arvoa vastaava p-arvo (P) on 0.6077. Johtopäätös: Nollahypoteesi varianssien yhtäsuuruudesta jää voimaan. Ryhmäkohtaisten odotusarvojen yhtäsuuruuden testaaminen Testataan oletusta ryhmäkohtaisten odotusarvojen yhtäsuuruudesta. F-testisuureen arvo (F) on F = 1.31 ja vapausasteiden lukumäärät (DF) ovat k 1 = 3 ja n k = 44. Testisuureen arvoa vastaava p-arvo (P) on 0.2831. Johtopäätös: Nollahypoteesi odotusarvojen yhtäsuuruudesta jää voimaan. TKK/SAL Ilkka Mellin (2005) 25/25

Varianssianalyysi ryhmille 5-8 Rajoitetaan havainnot ryhmiin 5-8. Data > Omit / Select / Restore Cases Omit / Select / Restore Expression Omit I1 < 5 Data > Omit / Select / Restore Cases Omit / Select / Restore Expression Omit I1 > 8 Statistics > Linear Models > One-Way AOV Model Specification = Categorical Dependent Variable = TENSSTR Categorical Variables = I1 CABLES ONE-WAY AOV FOR TENSSTR BY I1 SOURCE DF SS MS F P ------- ---- --------- --------- ------ ------ BETWEEN 3 48.8333 16.2778 0.96 0.4201 WITHIN 44 746.167 16.9583 TOTAL 47 795.000 CHI-SQ DF P BARTLETT'S TEST OF ------ ------ ------ EQUAL VARIANCES 2.84 3 0.4176 COCHRAN'S Q 0.4033 LARGEST VAR / SMALLEST VAR 2.7130 COMPONENT OF VARIANCE FOR BETWEEN GROUPS -0.05671 EFFECTIVE CELL SIZE 12.0 SAMPLE GROUP I1 MEAN SIZE STD DEV --------- ---------- ------ ---------- 5 1.9167 12 5.2303 6 0.8333 12 3.7376 7 0.9167 12 3.1754 8 3.3333 12 4.0527 TOTAL 1.7500 48 4.1180 CASES INCLUDED 48 MISSING CASES 0 TKK/SAL Ilkka Mellin (2005) 26/26

Ryhmäkohtaisten varianssien yhtäsuuruuden testaaminen Testataan oletusta ryhmäkohtaisten varianssien yhtäsuuruudesta. Bartlettin testin χ 2 -testisuureen arvo (CHI-SQ) on 2 χ = 2.84 ja vapausasteiden lukumäärä (DF) on k 1 = 4 1 = 3. Testisuureen arvoa vastaava p-arvo (P) on 0.4176. Johtopäätös: Nollahypoteesi varianssien yhtäsuuruudesta jää voimaan. Ryhmäkohtaisten odotusarvojen yhtäsuuruuden testaaminen Testataan oletusta ryhmäkohtaisten odotusarvojen yhtäsuuruudesta. F-testisuureen arvo (F) on F = 0.96 ja vapausasteiden lukumäärät (DF) ovat k 1 = 3 ja n k = 44. Testisuureen arvoa vastaava p-arvo (P) on 0.4201. Johtopäätös: Nollahypoteesi odotusarvojen yhtäsuuruudesta jää voimaan. Yleinen johtopäätös: Ryhmät 1-4 ja 5-8 ovat sisäisesti homogeenisia odotusarvojensa suhteen. TKK/SAL Ilkka Mellin (2005) 27/27

(c) VARIANSSIANALYYSI YHDISTETYILLE RYHMILLE Yhdistetään ryhmät 1-4 ja 5-8 ja olkoon ryhmä 9 kolmantena ryhmänä. Tätä ryhmitystä edustaa tiedostossa CABLES muuttuja I2. Statistics > Linear Models > One-Way AOV Model Specification = Categorical Dependent Variable = TENSSTR Categorical Variables = I2 CABLES ONE-WAY AOV FOR TENSSTR BY I2 SOURCE DF SS MS F P ------- ---- --------- --------- ------ ------ BETWEEN 2 1738.05 869.023 32.44 0.0000 WITHIN 105 2813.17 26.7921 TOTAL 107 4551.21 CHI-SQ DF P BARTLETT'S TEST OF ------ ------ ------ EQUAL VARIANCES 6.40 2 0.0407 COCHRAN'S Q 0.4261 LARGEST VAR / SMALLEST VAR 2.1081 COMPONENT OF VARIANCE FOR BETWEEN GROUPS 26.3197 EFFECTIVE CELL SIZE 32.0 SAMPLE GROUP I2 MEAN SIZE STD DEV --------- ---------- ------ ---------- 1-4.9583 48 5.9714 2 1.7500 48 4.1128 3 6.2500 12 5.5780 TOTAL -0.7315 108 5.1761 CASES INCLUDED 108 MISSING CASES 0 TKK/SAL Ilkka Mellin (2005) 28/28

Ryhmäkohtaisten varianssien yhtäsuuruuden testaaminen Testataan oletusta ryhmäkohtaisten varianssien yhtäsuuruudesta. Bartlettin testin χ 2 -testisuureen arvo (CHI-SQ) on 2 χ = 6.40 ja vapausasteiden lukumäärä (DF) on k 1 = 3 1 = 2. Testisuureen arvoa vastaava p-arvo (P) on 0.0407. Johtopäätös: Nollahypoteesi varianssien yhtäsuuruudesta voidaan juuri ja juuri hylätä 5 %:n merkitsevyystasolla. Ryhmäkohtaisten odotusarvojen yhtäsuuruuden testaaminen Testataan oletusta ryhmäkohtaisten odotusarvojen yhtäsuuruudesta. F-testisuureen arvo (F) on F = 32.44 ja vapausasteiden lukumäärät (DF) ovat k 1 = 2 ja n k = 105. Testisuureen arvoa vastaava p-arvo (P) on (4:llä desimaalilla) 0.0000. Johtopäätös: Nollahypoteesi odotusarvojen yhtäsuuruudesta voidaan hylätä, kun todisteet nollahypoteesia vastaan ovat näin voimakkaita, vaikka ryhmäkohtaisten varianssien yhtäsuuruusoletusta vastaan on lieviä todisteita. TKK/SAL Ilkka Mellin (2005) 29/29

Odotusarvojen vertailu Tehdään odotusarvojen vertailu Bonferronin menetelmällä. One-Way AOV AOV Table > Results Comparison of Means Comparison Method = Bonferroni Alpha = 0.05 CABLES BONFERRONI COMPARISON OF MEANS OF TENSSTR BY I2 HOMOGENEOUS I2 MEAN GROUPS --------- ---------- ----------- 3 6.2500 I 2 1.7500.. I 1-4.9583... I ALL 3 MEANS ARE SIGNIFICANTLY DIFFERENT FROM ONE ANOTHER. CRITICAL T VALUE 2.433 REJECTION LEVEL 0.050 STANDARD ERRORS AND CRITICAL VALUES OF DIFFERENCES VARY BETWEEN COMPARISONS BECAUSE OF UNEQUAL SAMPLE SIZES. Analyysin mukaan aineisto koostuu kolmesta ryhmästä, joiden odotusarvot eroavat tilastollisesti merkitsevästi toisistaan. (d) YHTEENVETO TULOKSISTA (i) (ii) Teräserällä, josta kaapelit on valmistettu, on tilastollisesti merkitsevä vaikutus kaapeleiden vetolujuuteen; ks. kohta (c). Samasta teräserästä valmistettujen kaapeleiden vetolujuudet eivät poikkea tilastollisesti merkitsevästi toisistaan; ks. kohta (b). TKK/SAL Ilkka Mellin (2005) 30/30

Mat-2.104 Tilastollisen analyysin perusteet KAAVOJA Tehtävässä 3 pyydetään testaamaan yksisuuntaisen varianssianalyysin mallia vastaavassa regressiomallissa regressiokertoimien yhtäsuuruutta. Tämä testi ja yksisuuntaisen varianssianalyysin testi ryhmäkohtaisten odotusarvojen yhtäsuuruudelle ovat ekvivalentteja. Yksisuuntaisen varianssianalyysin malli Olkoon (1) y j n i k 2 ji = µ i + ε ji, ε ji N(0, σ ), = 1, 2,, i, = 1, 2,, yksisuuntaisen varianssianalyysin malli, jossa jäännöstermit ε ji oletetaan lisäksi korreloimattomiksi. Yksisuuntaisen varianssianalyysin malli ja yleinen lineaarinen malli Varianssinalyysimallia (1) vastaava yleinen lineaarinen malli on muotoa (2) y = µ 1I1 + µ 2I2 + + µ I + ε, j = 1, 2,, n, i = 1, 2,, k ji k k ji i jossa jäännöstermistä ε ji tehdään samat oletukset kuin mallissa (1). Olkoon nollahypoteesina H : µ = µ = = µ = µ 0 1 2 k Testin suoritus (i) (ii) Estimoidaan lineaarinen regressiomalli (2) PNS-menetelmällä. Olkoon SSE tuloksena saatava jäännösneliösumma. Estimoidaan lineaarinen regressiomalli, jossa selittäjänä on pelkkä vakio. Olkoon SSE R tuloksena saatava jäännnösneliösumma. Huomautus: jossa SSE = ( n 1) s R 2 y 2 s y on kaikkien y-havaintojen varianssin harhaton estimaattori. TKK/SAL Ilkka Mellin (2005) 31/31

Mat-2.104 Tilastollisen analyysin perusteet (iii) Muodostetaan testisuure jossa (iv) Jos nollahypoteesi pätee, n k SSER SSE F = k 1 SSE n = n + n + + n 1 2 k H : µ = µ = = µ = µ 0 1 2 F F( k 1, n k) k Testin idea Nollahypoteesi H : µ = µ = = µ = µ 0 1 2 k merkitsee (k 1) lineaarisen rajoituksen spesifioimista malli (2) regressiokertoimille. Huomaa, että rajoituksien lukumäärä on (k 1). Miksi? Jos rajoitukset otetaan huomioon, malli (2) voidaan kirjoittaa muotoon (3) y = µ + ε, j = 1, 2,, n, i = 1, 2,, k ji ji i Esitetyssä testissä mallin (2) jäännösneliösummaa SSE verrataan rajoitetun mallin (3) jäännösneliösummaan SSE R. Voidaan osoittaa, että mallin (3) jäännösneliösumma SSE R on aina vähintään yhtä suuri kuin mallin (2) jäännösneliösumma SSE. Nollahypoteesi H 0 hylätään, jos jäännösneliösumma kasvaa kyllin voimaakkaasti, kun nollahypoteesin määrämät rajoitukset otetaan estimoinnissa huomioon. Huomautuksia (i) (ii) Mallin (2) regressiokertoimien µ 1, µ 2,, µ k PNS-estimaattoreiksi saadaan y-havaintojen ryhmäkohtaiset aritmeettiset keskiarvot. Mallin (3) regressiokertoimen µ PNS-estimaattoriksi saadaan y-havaintojen kokonaiskeskiarvo eli kaikkien y-havaintojen yhteinen aritmeettinen keskiarvo. TKK/SAL Ilkka Mellin (2005) 32/32