Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Samankaltaiset tiedostot
3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

2. Keskiarvojen vartailua

Tavoite on eliminoida sen vaikutus koetuloksista. 4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Eliminointimenetelmiä:

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Kiusatekijä on taustatekijä, joka voi vaikuttaa

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Perusnäkymä yksisuuntaiseen ANOVAaan

Sovellettu todennäköisyyslaskenta B

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Faktorikokeilla tarkoitetaan koesuunnitelmaa, jossa koe toistetaan kaikilla faktoreiden tasojen kombninaatioilla.

9.1 Hierarkiset asetelmat (Nested Designs)

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Väliestimointi (jatkoa) Heliövaara 1

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs)

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Tavoite on eliminoida sen vaikutus koetuloksista. Eliminointimenetelmiä:

9. Muita koeasetelmia. Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9.1 Hierarkiset asetelmat (Nested Designs)

5. Johdatus faktorikokeisiin. Tekijän omaa vaikutusta vastemuuttujaan sanotaan. 5.1 Taustaa

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Kuusinen/Heliövaara 1

Testaa onko myrkkypitoisuus eri ryhmissä sama. RATK. Lasketaan kaikkien havaintoarvojen summa: k T i = = 486.

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

5. Johdatus faktorikokeisiin. Tekijän omaa vaikutusta vastemuuttujaan sanotaan. 5.1 Taustaa

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Lohkoasetelmat. Heliövaara 1

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Testejä suhdeasteikollisille muuttujille

Sovellettu todennäköisyyslaskenta B

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

031021P Tilastomatematiikka (5 op) viikko 5

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

A250A0050 Ekonometrian perusteet Tentti

Todennäköisyyden ominaisuuksia

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Sovellettu todennäköisyyslaskenta B

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

1. KAKSISUUNTAINEN VARIANSSIANALYYSI: TULOSTEN TULKINTA

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista.

Estimointi. Vilkkumaa / Kuusinen 1

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Sovellettu todennäköisyyslaskenta B

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

MTTTP5, luento Luottamusväli, määritelmä

HAVAITUT JA ODOTETUT FREKVENSSIT

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Yleistetyistä lineaarisista malleista

Otoskoon arviointi. Tero Vahlberg

Regressioanalyysi. Kuusinen/Heliövaara 1

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

pisteet Frekvenssi frekvenssi Yhteensä

Teema 9: Tilastollinen merkitsevyystestaus

5.7 Uskottavuusfunktioon perustuvia testejä II

Estimointi. Otantajakauma

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

Mat Tilastollisen analyysin perusteet, kevät 2007

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

1. Tilastollinen malli??

Sovellettu todennäköisyyslaskenta B

Altistusaika 1 kk 2 kk 3 kk

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Toimittaja Erä

pitkittäisaineistoissa

Transkriptio:

3. Yhden faktorin kokeet 3.1 Varianssianalyysi Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä). Esimerkki 3.1: Tutkitaan kankaassa käytettävän synteettisen kuidun vetolujuutta, joka riippuu käytettävän puuvillan määrästä (%-osuus painosta) kankaassa. Puuvillapitoisuuden tulee olla 20 40 prosenttia. Koe toteutetaan määrillä 15, 20, 25, 30 ja 35 prosenttia. Tässä siis a = 5. Kullakin tasolla toteutetaan n = 5 toistoa. Kaikkiaan on siis 25 käsittelyä (runs). Käsittelyt toteutetaan satunnaisessa järjestyksessä (completely randomized design). 1

Havaintoaineisto: Tensile strength experiment data (lb/square inch) ================================================================ Cotton Observations weight ----------------------- percentage 1 2 3 4 5 Total Average Std ================================================================ 15 7 7 15 11 9 49 9.8 3.35 20 12 17 12 18 18 77 15.4 3.13 25 14 18 18 19 19 88 17.6 2.07 30 19 25 22 19 23 108 21.6 2.61 35 7 10 11 15 11 54 10.8 2.86 ---------------------------------------------------------------- Total 376 15.04 ================================================================ Source: Montgomery (2002), p. 62 2

Yksisuuntaisen varianssianalyysin malli: (One-way or single factor analysis of variance model) (1) Y ij = μ i + ε ij, i = 1, 2,..., a, j = 1,..., n. Vaihtoehtoisesti (2) Y ij = μ + τ i + ε ij, jossa (3) ε ij NID(0, σ 2 ), josta seuraa, että Y ij ovat riipumattomia ja (4) Y ij N(μ + τ i, σ 2 ). 3

Huom. 3.1: Vaihtoehdossa (1) (5) μ i = μ + τ i. μ: yleiskeskiarvo (grand mean, overall mean) τ i : käsittelyn i vaikutus (treatment effect). Huom. 3.2: Molemmat yllä olevista malleista kuuluvat lineaaristen mallien perheeseen. Huom. 3.3: Määrittämällä yleiskeskiarvo (6) μ = 1 a a μ i, i=1 silloin (7) a τ i = 0. i=1 Täten τ i kuvaa poikkeamaa yleiskeskiarvosta μ. 4

Kiinteän tekijän ja satunnaistekijän malli (Fixed effect and random effect) Jos käsittelytasot i = 1,..., a valitaan ennalta (kiinitetään), koskevat johtopäätökset tarkasti ottaen vain näiden käsittelytasojen keskiarvoja. Estimoitavat parametrit ovat (μ, τ i, σ 2 ). Tätä sanotaan kiinteän tekijän malliksi. Jos käsittelytasot i = 1,..., a on satunnaisotos laajemmasta käsittelytasojen populaatiosta, voidaan johtopäätöksetkin ulottaa koko käsittelytasojen populaatioon. Tällaista mallia sanotaan satunnaistekijän malliksi. Tällöin τ i on myös satunnaismuuttuja, odotusarvona E[τ i ] = 0. Kiinnostuksen kohteena on millaisen varianssikontribuution τ i tuottaa vastemuuttujan (Y ) kokonaisvarianssiin. 5

Kiinteän tekijän mallin analysointi Lähtökohtamallina (2) [vaihtoehtoisesti (1)]. Käsittelyiden vaikutusten analyysi perustuu siihen, kuinka suuri osa Y ij :n vaihtelusta on kästittelyistä τ i peräisin ja kuinka suuri osa on luettavissa sattuman tiliin (virhekomponentin ε ij aiheuttamaa). 6

Tukitaan ensimmäisessä vaiheessa onko käsittelyillä ylipäätään vaikutusta. Tilastollin nollahypoteesi (ei vaikutusta): (8) H 0 : τ 1 = = τ a = 0. Vastahypoteesi (on vaikutusta): (9) H 1 : τ i = 0 jollakin i. Jos (8) on voimassa, eli käsittelyillä ei vaikutusta, typistyy malli (2) muotoon. Y ij = μ + ε ij, eli havainnot ovat puhdasta satunnaiskohinaa. Huom. 3.4: Yhtäpitävästi mallin (2) sijaan voidaan testata mallia (1), jolloin (10) H 0 : μ 1 = = μ a (11) H 1 : μ i = μ j jollakin (i, j) 7

Testisuure: Testisuure perustuu varianssin dekomponointiin (varianssihajotelmaan). Määritellään (12) y i. = n j=1 y ij, (13) y.. = a i=1 y i. = a n i=1 j=1 y ij, (14) y i. = 1 n n j=1 y ij = y i. n, (15) y.. = 1 N jossa N = an. a n i=1 j=1 y ij = y.. N, 8

Kokonaisneliösumma (Total Sum of Squares): (16) SS tot = a n i=1 j=1 mittaa kokonaisvaihtelua. (y ij y.. ) 2 Käsittelyjen välinen neliösumma (Between Treatment Sum of Squares): (17) SS treat = n a i=1 ( y i. y.. ) 2 kuvaa käsittelystä (treatment) aiheutuvaa vaihtelua. Käsittelyjen sisäinen neliösumma (virhevaihtelu) (Error Sum of Squares): (18) SS err = a n i=1 j=1 (y ij y i. ) 2 kuvaa käsittelyjen sisäistä vaihtelua, joka on virhevaihtelua (within or error variation). 9

Varianssianalyysin peruslauseke: (19) a i=1 j=1 n (y ij y.. ) 2 = n a ( y i. y.. ) 2 + i=1 a n (y ij y i. ) 2 i=1 j=1 eli lyhyesti (20) SS tot = SS treat + SS err. SS tot :n vapausasteet: df tot = N 1 SS treat :n vapausasteet: df treat = a 1 SS err :n vapausasteet: df err = N a Havaitaan (21) df tot = df treat + df err 10

Keskineliöt (Mean Squares): Saadaan jakamalla neliösummat vapausasteillaan (22) MS treat = SS treat a 1 (23) MS err = SS err N a Nollahypoteesin (8) testaaminen perustuu suhdelukuun (24) F = SS treat/(a 1) SS err /(N a) = MS treat MS err, joka noudattaa F -jakaumaa vapausastein df treat = a 1 ja df err = N a, jos H 0 -hypoteesi on tosi. 11

Huom. 3.5: F -testisuure muodostuu kahden riippumattoman χ 2 -jakautuneen satunnaismuuttujan osamäärästä, jolloin sen jakaumana on F -jakauma (k.s. Kappale 2). Varianssianalyysissa periaate on, että kokoneliösumma pyritään jakamaan osaneliösummiin, jotka (nollahyposteesin) vallitessa ovat riippumattomia. Jakaumatulokset seuraavat oheisesta tärkeästä Cochranen lauseesta. Lause 3.1: (Cochran) Olkoon satunnaismuuttujat z i N(0, 1), i = 1,... ν. Määritellään n (25) Q = Zi 2 = Q 1 + Q 2 +... + Q m, i=1 jossa Q k :n vapausasteet on ν k (k = 1,..., m), m ν. Silloin Q k ovat riippumattomia χ 2 -jakautuneita satunnaismuuttujia vapausasteilla ν k, jos ja vain jos (26) ν = ν 1 + + ν m. 12

ANOVA-taulu (Analysis of Variance Table): Source of variation SS df M S F MS Treatment SS treat a 1 MS treat treat MS err Error SS err N a MS err Total SS tot N 1 13

Esimerkki 3.2 (Esimerkin 3.1 jatkoa). Tässä a = 5, n = 5 ja N = an = 25. SAS PROC ANOVA ajojono. options ls = 78; data tensile; input treatment strength @@; datalines; 15 7 15 7 15 15 15 11 15 9 20 12 20 17 20 12 20 18 20 18 25 14 25 18 25 18 25 19 25 19 30 19 30 25 30 22 30 19 30 23 35 7 35 10 35 11 35 15 35 11 ; proc anova data = tensile; class treatment; model strength = treatment; run; Tulokset: The ANOVA Procedure Class Level Information Class Levels Values treatment 5 15 20 25 30 35 Number of observations 25 Dependent Variable: strength =============================================================== Sum of Source DF Squares Mean Square F Value Pr > F --------------------------------------------------------------- Model 4 475.76 118.94 14.76 <.0001 Error 20 161.20 8.06 --------------------------------------------------------------- Corrected Total 24 636.96 =============================================================== 14

p-arvo on pienempi kuin 0.0001, joten H 0 -hypoteesi hylätään. Täten tulokset osoittavat vahvasti sen puolesta, että puuvillan osuus kuidussa vaikuttaa lujuuteen. 15

Mallin parametrien estimointi: F -testi osoittaa vain, että keskiarvoissa on eroa. Mallin y ij = μ + τ i + ε ij ylesikeskiarvo μ ja poikkeamat τ i (käsittelyvaikutukset) voidaan estimoida kaavoilla: (27) ˆμ = y.. (28) ˆτ i = y i. y.., ja (29) ˆμ i = y i.. Huom. 3.6: μ i = μ + τ i ja ˆμ i = ˆμ + ˆτ i = y i.. 16

Esimerkki 3.3: (Jatkoa) Esimerkin 3.1 havaintaineiston yhteydessä on laskettu ˆμ i = y i. estimaatit ja yleiskeskiarvo. Näistä saadaan ˆτ 1 = y 1. y.. = 5.24 ˆτ 2 = y 2. y.. = +0.36 ˆτ 3 = y 3. y.. = 2.56 ˆτ 4 = y 4. y.. = +6.56 ˆτ 5 = y 5. y.. = 4.24 Kuten jo esimerkin 3.1 tuloksista havaitaan kasvaa keskimääräinen lujuus aina 30 prosentin kohdalle saakka, jonka jälkeen se selvästi laskee. Yksittäisten tasojen tilastollisiin vertailuihin palataan tarkemmin tuonnempana. 17

Epätasapainoinen aineisto (Unbalanced data) Kun faktoreiden eri tasoilla havaintojen määrät poikkeavat toisistaan sanotaan, että koeasetelma on epätasapainoinen (unbalanced). Yllä oleva varianssianalyysi soveltuu myös tällaiseen aineistoon. Havaintojen kokonaismäärä N = a i=1 n i, jossa n i on havaintojen määrä käsittelyn tasolla i. Tarvittavat neliösummat: (30) SS T = a n i i=1 j=1 (y ij y.. ) 2 (31) SS B = ja a i=1 n i ( y i. y.. ) 2 (32) SS E = a n i i=1 j=1 (y ij y i. ) 2 Huom. 3.7: Neliösummista tarvitaan vain kaksi. Kolmas voidaan ratkaista identiteetistä SS T = SS B + SS E. 18

3.2 Mallin riittävyystarkastelut Varianssianalyysin testitulos on luotettava ainoastaan, jos mallin taustalla olevat oletukset täyttyvät. Oletuksena on, että havainnot ovat mallin (33) y ij = μ + τ i + ε ij mukaisia, jossa (34) ε ij N(0, σ 2 ). Erityisesti siis jakauman pitäisi olla normaalinen ja varianssin pitäisi olla sama kaikilla käsittelyn tasoilla i. 19

Oletusten paikkansapitävyyttä voidaan tutkia residuaalien (35) e ij = y ij ˆy ij avulla, jossa ˆy ij = ˆμ + ˆτ i on havainnon y ij mallin ennustama arvo. Havaitaan, että kullakin käsittelyn tasolla ennustearvo on (36) ˆy ij = ˆμ + ˆτ i = y.. + ( y i. y.. ) = y i. 20

Normaalisuus Kuten aiemmin, yksi käytetty tapa on Normal Probability Plot Normal probability plot for residuals 2.5 2.0 Standardized normal distribution value 1.5 1.0 0.5 0.0-0.5-1.0-1.5-2.0-2.5-5 -4-3 -2-1 0 1 2 3 4 5 6 Residual Kuvio on jälleen ok. 21

Varianssin yhtäsuuruus: Varianssien yhtäsuuruutta voidaan testata. (37) H 0 : σ1 2 = σ2 2 = = σ2 a vastahypoteesina (38) H 1 : ainakin yksi on eri suuruinen Bartlettin testi (39) χ 2 = (N a) ln S2 p a i=1 (n i 1) ln Si 2 ( a ) 1 1 1 3(a 1) i=1 n i 1 1 N a joka noudattaa χ 2 -jakaumaa vapausasteella a 1, jos H 0 on tosi. (40) S 2 p = 1 N a a i=1 (n i 1)S 2 i. 22

Varianssin vakioisuutta voidaan tutkia myös graafisesti muodostamalla sirontakuvio, jossa pystyakselilla on residuaalin arvo ja vaakaakselilla ennustettu arvo. Resiidual vs fitted values 6 5 4 3 2 Residual 1 0 7 9 11 13 15 17 19 21 23-1 -2-3 -4-5 Predicted Kuvion perusteella ei ole havaittavissa mitään hälyyttävää. 23

Varianssin stabilointimenetelmiä Jos jäännösvarianssi ei ole vakio, voidaan tietyillä muunnoksilla yrittää stabiloida sitä: Usein epästabiilissa tilanteessa keskihajonta on relaatiossa odotusarvoon siten, että (41) σ y μ α, jossa tarkoittaa suoraan verrannollinen. Tällöin muuntamalla alkuperäiset havainnot muotoon (42) y = y 1 α saadaan parannettua tilannetta, jossa muunnettujen havaintojen varianssi on likimain vakio. 24

Taulukko 3.1: Varianssin stabilointimuunnoksia. α 1 α Muunnos σ y vakio 0 1 Ei muunnosta σ y μ 1/2 1/2 1/2 Neliöjuuri σ y μ 1 0 log-muunnos σ y μ 3/2 3/2 1/2 käänteisarvo neliöjuuresta σ y μ 2 2 1 käänteisarvo 25

3.3 Keskiarvojen vertailu Jos testitulokset osoittavat, että keskiarvot poikkeavat toisistaan, niin seuraava kysymys on, että mitkä kesiarvot ovat poikkeavia. Käsittelytasojen keskiarvoja tarkastelmalla saadaan käsitys asiasta. 26

Parittainen vertailu: Testattavat hypoteesit: (43) H 0 : μ i = μ j H 0 : μ i = μ j. Suoraviivainen parittainen t-testaus johtaa kokonaismerkitsevyystason kasvuun (esim. jos kätetään 5%:n merkitsevyystasoa, on jokaisessa vertailussa 5%:n virhe, joten kasvaa lähes testien lkm x 5%:n suuruiseksi). Menetelmiä on useampia. Tunnetuimpia ovat Tukeyn, Duncanin ja Fisherin menetelmät. Tarkastellaan tässä Fisherin mentelmää. 27

The Fisher Least Significant Difference (LSD): Fisherin menetelmä perustuu parittaisten keskiarvojen vertailuun t-testillä. Heikkoutena tällä menetelmällä on edellä mainittu kokonaismerkitsevyystaso kasvu. Hypotseestia (43) voidaan testat t-testillä (44) t ij = y i. y j. MS E ( 1 n j + 1 n i ). 28

Keskiarvot y i. ja y j. poikkeavat toisistaan merkitsevästi tasolla α, jos ( ) (45) y i. y j. > t α/2,n a MSE + 1ni 1nj. Lukua (46) LSD = t α/2,n a 1 MS E + 1 n i n j ) sanotaan least significant difference ( pienimmän merkitsevän eron ) luvuksi. 29

Esimerklki 3.4: Portland sementtiesimerkissä, n 1 = = n 5 n = 5. Olkoon α = 0.05, jolloin (47) LSD = t.025,20 2MS E n = 2.086 2 8.06 5 = 3.75. Täten keskiarvoparit, jotka poikkeavat vähintään 3.75 ovat tilastollisesti merkitseviä (antavat tilastollista evidenssiä, että vastaavat populaatiokeskiarvot poikkeavat toisistaan) Aineistosta: y 1. y 2. = 9.8 15.4 = 5.6 y 1. y 3. = 9.8 17.6 = 7.8 y 1. y 4. = 9.8 21.6 = 11.8 y 1. y 5. = 9.8 10.8 = 1.0 y 2. y 3. = 15.4 17.6 = 2.2 y 2. y 4. = 15.4 21.6 = 6.2 y 2. y 5. = 15.4 10.8 = 4.6 y 3. y 4. = 17.6 21.6 = 4.0 y 3. y 5. = 17.6 10.8 = 6.8 y 4. y 5. = 21.6 10.8 = 10.8 Tähdellä merkityt erot ovat tilstollisesti merkitseviä. Täten muut paitsi y 1. y 5. = 1.0 ja y 2. y 3. = 2.2 ovat (tilastollisesti) merkitseviä. 30

SAS-ohjelmistolla nämä saadaan proc anova ohjelmas käskyllä means. Ohessa on esimerkki Tukey, Scheffe, Duncan ja LSD menetelmien veratiluista. options ls = 78; data tensile; input treatment strength @@; datalines; 15 7 15 7 15 15 15 11 15 9 20 12 20 17 20 12 20 18 20 18 25 14 25 18 25 18 25 19 25 19 30 19 30 25 30 22 30 19 30 23 35 7 35 10 35 11 35 15 35 11 ; proc anova data = tensile; class treatment; model strength = treatment; run; means treatment / tukey scheffe duncan lsd; run; 31

Tulokset: The ANOVA Procedure Dependent Variable: strength Sum of Source DF Squares Mean Square F Value Pr > F Model 4 475.760 118.940 14.76 <.0001 Error 20 161.200 8.060 Corrected Total 24 636.960 t Tests (LSD) for strength NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate. Alpha 0.05 Error Degrees of Freedom 20 Error Mean Square 8.06 Critical Value of t 2.08596 Least Significant Difference 3.7455 Means with the same letter are not significantly different. t Grouping Mean N treatment A 21.600 5 30 B 17.600 5 25 B B 15.400 5 20 C 10.800 5 35 C C 9.800 5 15 32

Duncan s Multiple Range Test for strength NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate. Alpha 0.05 Error Degrees of Freedom 20 Error Mean Square 8.06 Number of Means 2 3 4 5 Critical Range 3.745 3.931 4.050 4.132 Means with the same letter are not significantly different. Duncan Grouping Mean N treatment A 21.600 5 30 B 17.600 5 25 B B 15.400 5 20 C 10.800 5 35 C C 9.800 5 15 33

Tukey s Studentized Range (HSD) Test for strength NOTE: This test controls the Type I experimentwise error rate, nut it generally has a higher Type II error rate than REGWQ. Alpha 0.05 Error Degrees of Freedom 20 Error Mean Square 8.06 Critical Value of Studentized Range 4.23186 Minimum Significant Difference 5.373 Means with the same letter are not significantly different. Tukey Grouping Mean N treatment A 21.600 5 30 A B A 17.600 5 25 B B C 15.400 5 20 C D C 10.800 5 35 D D 9.800 5 15 34

Ryan-Einot-Gabriel-Welsch Multiple Range Test for strength NOTE: This test controls the Type I experimentwise error rate. Alpha 0.05 Error Degrees of Freedom 20 Error Mean Square 8.06 Number of Means 2 3 4 5 Critical Range 4.5266 4.9761 5.0256 5.3730 Means with the same letter are not significantly different. REGWQ Grouping Mean N treatment A 21.600 5 30 A B A 17.600 5 25 B B 15.400 5 20 C 10.800 5 35 C C 9.800 5 15 35

Vertailu kontrolliryhmään: [Dunnet (1964)] Usein yksi ryhmistä muodostaa kontrolliryhmän, johon testituloksia verrataan. Oletetaan, että ensimmäinen ryhmä on kontrolliryhmä. Testattavat hypoteesit ovat (48) H 0 : μ i = μ 1 H 1 : μ i = μ 1 i = 2,..., a. H 0 hylätään merkitsevyystasolla α, jos y i. y 1. > d α (a 1, df) 1 MS E + 1 n i n 1 (49) jossa d α (a 1, df) on taulukkoarvo (Dunnet in t-arvo, vastaavasta kuin t-testissä), merkitsevyystasolla α ja vapauasteluvulla df = N a. ), 36

Esimerkki 3.5: Olkoon edellisessä esimerkissä ensimmäinen käsittely kontrolliryhmänä. käskyllä means treatment / dunnett( 15 ); The ANOVA Procedure SAS:lla saadaan Dunnett s t Tests for strength NOTE: This test controls the Type I experimentwise error for comparisons of all treatments against a control. Alpha 0.05 Error Degrees of Freedom 20 Error Mean Square 8.06 Critical Value of Dunnett s t 2.65112 Minimum Significant Difference 4.7602 Comparisons significant at the 0.05 level are indicated by ***. Difference treatment Between Simultaneous 95% Comparison Means Confidence Limits 30-15 11.800 7.040 16.560 *** 25-15 7.800 3.040 12.560 *** 20-15 5.600 0.840 10.360 *** 35-15 1.000-3.760 5.760 37

3.4 Kontrastit Keskiarvoja voidaan verrata yleisemminkin. Tekstiiliesimerkissä voitaisiin testata ovatko kahden alimman tason ja ylimmän tason keskimääräiset vetolujuudet samat. (50) tai (51) H 0 : μ 1 + μ 2 = μ 4 + μ 5 H 1 : μ 1 + μ 2 = μ 4 + μ 5 H 0 : μ 1 + μ 2 μ 4 μ 5 = 0 H 1 : μ 1 + μ 2 μ 4 μ 5 = 0 38

Yleisesti kontrasti on parametrien lineaarikombinaatio (52) μ c = a i=1 c i μ i, jossa kertoimille c 1,..., c a (kontrastikertoimet) pätee (53) a i=1 n i c i = 0 Yllä (51):n tapauksessa μ c = 0, c 1 = c 2 = 1, c 3 = 0 ja c 4 = c 5 = 1 (n 1 = = n 5 = n). Huom. 3.8: Kontrastit ovat erikoistapaus yleisistä lineaarisista hypoteeseista, muotoa a (54) H 0 : d i μ i = μ, jossa kertoimet d i eivät välttämättä summaudu nollaksi. i=1 39

Kontrastien testaus (i) t-testi: Merkitään (55) y c = jolloin (56) E[y c ] = a i=1 a i=1 c i y i., c i E[y i. ] = ja riippumattomuuden nojalla (57) Var[y c ] = σ 2 a Hypoteesia (58) H 0 : a i=1 i=1 a i=1 n i c 2 i. c i μ i = 0 c i μ i = μ c voidaan testata t-testillä ai=1 c i y i. (59) t = MS ai=1 E n i c 2, i joka on t-jakautunut vapausasteella N a, kun H 0 on tosi. 40

Ortogonaaliset kontrastit Kontrasteja {c i } ja {d i } sanotaan ortogonaalisiksi, jos (60) a i=1 n i c i d i = 0. 41