3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Samankaltaiset tiedostot
3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

2. Keskiarvojen vartailua

Tavoite on eliminoida sen vaikutus koetuloksista. 4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Eliminointimenetelmiä:

4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Kiusatekijä on taustatekijä, joka voi vaikuttaa

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Perusnäkymä yksisuuntaiseen ANOVAaan

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Väliestimointi (jatkoa) Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs)

9.1 Hierarkiset asetelmat (Nested Designs)

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Faktorikokeilla tarkoitetaan koesuunnitelmaa, jossa koe toistetaan kaikilla faktoreiden tasojen kombninaatioilla.

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

9. Muita koeasetelmia. Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9.1 Hierarkiset asetelmat (Nested Designs)

Testaa onko myrkkypitoisuus eri ryhmissä sama. RATK. Lasketaan kaikkien havaintoarvojen summa: k T i = = 486.

4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Tavoite on eliminoida sen vaikutus koetuloksista. Eliminointimenetelmiä:

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

5. Johdatus faktorikokeisiin. Tekijän omaa vaikutusta vastemuuttujaan sanotaan. 5.1 Taustaa

5. Johdatus faktorikokeisiin. Tekijän omaa vaikutusta vastemuuttujaan sanotaan. 5.1 Taustaa

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Kuusinen/Heliövaara 1

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Lohkoasetelmat. Heliövaara 1

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

A250A0050 Ekonometrian perusteet Tentti

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

031021P Tilastomatematiikka (5 op) viikko 5

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

MTTTP5, luento Luottamusväli, määritelmä

Yleistetyistä lineaarisista malleista

Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista.

Estimointi. Vilkkumaa / Kuusinen 1

Todennäköisyyden ominaisuuksia

1. KAKSISUUNTAINEN VARIANSSIANALYYSI: TULOSTEN TULKINTA

Sovellettu todennäköisyyslaskenta B

Testejä suhdeasteikollisille muuttujille

5.7 Uskottavuusfunktioon perustuvia testejä II

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Otoskoon arviointi. Tero Vahlberg

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

pisteet Frekvenssi frekvenssi Yhteensä

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

HAVAITUT JA ODOTETUT FREKVENSSIT

Teema 9: Tilastollinen merkitsevyystestaus

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Mat Tilastollisen analyysin perusteet, kevät 2007

Estimointi. Otantajakauma

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

Regressioanalyysi. Kuusinen/Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

1. Tilastollinen malli??

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Sovellettu todennäköisyyslaskenta B

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Kandidaatintutkielman aineistonhankinta ja analyysi

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

pitkittäisaineistoissa

Transkriptio:

3. Yhden faktorin kokeet 3.1 Varianssianalyysi Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä). Esimerkki 3.1: Tutkitaan kankaassa käytettävän synteettisen kuidun vetolujuutta, joka riippuu käytettävän puuvillan määrästä (%-osuus painosta) kankaassa. Puuvillapitoisuuden tulee olla 20 40 prosenttia. Koe toteutetaan määrillä 15, 20, 25, 30 ja 35 prosenttia. Havaintoaineisto: Tensile strength experiment data (lb/square inch) ================================================================ Cotton Observations weight ----------------------- percentage 1 2 3 4 5 Total Average Std ================================================================ 15 7 7 15 11 9 49 9.8 3.35 20 1217 1218 18 77 15.4 3.13 25 14 18 18 19 19 88 17.6 2.07 30 19 25 22 19 23 108 21.6 2.61 35 7 10 11 15 11 54 10.8 2.86 ---------------------------------------------------------------- Total 376 15.04 ================================================================ Source: Montgomery (2002), p. 62 Tässä siis a = 5. Kullakin tasolla toteutetaan n =5 toistoa. Kaikkiaan on siis 25 käsittelyä (runs). Käsittelyt toteutetaan satunnaisessa järjestyksessä (completely randomized design). 1 2

Yksisuuntaisen varianssianalyysin malli: (One-way or single factor analysis of variance model) Huom. 3.1: Vaihtoehdossa (1) (5) μ i = μ + τ i. μ: yleiskeskiarvo (grand mean, overall mean) τ i : käsittelyn i vaikutus (treatment effect). (1) Y ij = μ i + ε ij, i =1, 2,...,a, j =1,...,n. Vaihtoehtoisesti (2) Y ij = μ + τ i + ε ij, jossa (3) ε ij NID(0,σ 2 ), josta seuraa, että Y ij ovat riipumattomia ja Huom. 3.2: Molemmat yllä olevista malleista kuuluvat lineaaristen mallien perheeseen. Huom. 3.3: Määrittämällä yleiskeskiarvo (6) μ = 1 μ i, a silloin (7) τ i =0. Täten τ i kuvaa poikkeamaa yleiskeskiarvosta μ. (4) Y ij N(μ + τ i,σ 2 ). 3 4

Kiinteän tekijän ja satunnaistekijän malli (Fixed effect and random effect) Jos käsittelytasot i =1,...,avalitaan ennalta (kiinitetään), koskevat johtopäätökset tarkasti ottaen vain näiden käsittelytasojen keskiarvoja. Estimoitavat parametrit ovat (μ, τ i,σ 2 ). Tätä sanotaan kiinteän tekijän malliksi. Jos käsittelytasot i =1,...,a on satunnaisotos laajemmasta käsittelytasojen populaatiosta, voidaan johtopäätöksetkin ulottaa koko käsittelytasojen populaatioon. Tällaista mallia sanotaan satunnaistekijän malliksi. Kiinteän tekijän mallin analysointi Lähtökohtamallina (2) [vaihtoehtoisesti (1)]. Käsittelyiden vaikutusten analyysi perustuu siihen, kuinka suuri osa Y ij :n vaihtelusta on kästittelyistä τ i peräisin ja kuinka suuri osa on luettavissa sattuman tiliin (virhekomponentin ε ij aiheuttamaa). Tällöin τ i on myös satunnaismuuttuja, odotusarvona E[τ i ] = 0. Kiinnostuksen kohteena on millaisen varianssikontribuution τ i tuottaa vastemuuttujan (Y ) kokonaisvarianssiin. 5 6

Tukitaan ensimmäisessä vaiheessa onko käsittelyillä ylipäätään vaikutusta. Testisuure: Testisuure perustuu varianssin dekomponointiin (varianssihajotelmaan). Tilastollin nollahypoteesi (ei vaikutusta): (8) H 0 : τ 1 = = τ a =0. Vastahypoteesi (on vaikutusta): Määritellään (12) y i. = n j=1 y ij, (9) H 1 : τ i = 0 jollakin i. Jos (8) on voimassa, eli käsittelyillä ei vaikutusta, typistyy malli (2) muotoon. Y ij = μ + ε ij, eli havainnot ovat puhdasta satunnaiskohinaa. Huom. 3.4: Yhtäpitävästi mallin (2) sijaan voidaan testata mallia (1), jolloin (13) y.. = (14) y i. = 1 n (15) y.. = 1 N jossa N = an. y i. = n j=1 n j=1 y ij = y i. n, n j=1 y ij, y ij = y.. N, (10) H 0 : μ 1 = = μ a (11) H 1 : μ i = μ j jollakin (i, j) 7 8

Kokonaisneliösumma (Total Sum of Squares): n (16) SS tot = (y ij y.. ) 2 j=1 mittaa kokonaisvaihtelua. Varianssianalyysin peruslauseke: (19) j=1 n (y ij y.. ) 2 = n ( y i. y.. ) 2 + j=1 n (y ij y i. ) 2 Käsittelyjen välinen neliösumma (Between Treatment Sum of Squares): (17) SS treat = n ( y i. y.. ) 2 kuvaa käsittelystä (treatment) aiheutuvaa vaihtelua. Käsittelyjen sisäinen neliösumma (virhevaihtelu) (Error Sum of Squares): n (18) SS err = (y ij y i. ) 2 j=1 kuvaa käsittelyjen sisäistä vaihtelua, joka on virhevaihtelua (within or error variation). eli lyhyesti (20) SS tot = SS treat + SS err. SS tot :n vapausasteet: df tot = N 1 SS treat :n vapausasteet: df treat = a 1 SS err :n vapausasteet: df err = N a Havaitaan (21) df tot = df treat + df err 9 10

Keskineliöt (Mean Squares): Saadaan jakamalla neliösummat vapausasteillaan (22) MS treat = SS treat a 1 (23) MS err = SS err N a Nollahypoteesin (8) testaaminen perustuu suhdelukuun (24) F = SS treat/(a 1) SS err /(N a) = MS treat, MS err joka noudattaa F -jakaumaa vapausastein df treat = a 1jadf err = N a, josh 0 -hypoteesi on tosi. Huom. 3.5: F -testisuure muodostuu kahden riippumattoman χ 2 -jakautuneen satunnaismuuttujan osamäärästä, jolloin sen jakaumana on F -jakauma (k.s. Kappale 2). Varianssianalyysissa periaate on, että kokoneliösumma pyritään jakamaan osaneliösummiin, jotka (nollahyposteesin) vallitessa ovat riippumattomia. Jakaumatulokset seuraavat oheisesta tärkeästä Cochranen lauseesta. Lause 3.1: (Cochran) Olkoon satunnaismuuttujat z i N(0, 1), i =1,...ν. Määritellään n (25) Q = Zi 2 = Q 1 + Q 2 +...+ Q m, jossa Q k :n vapausasteet on ν k (k =1,...,m), m ν. Silloin Q k ovat riippumattomia χ 2 -jakautuneita satunnaismuuttujia vapausasteilla ν k, jos ja vain jos (26) ν = ν 1 + + ν m. 11 12

ANOVA-taulu (Analysis of Variance Table): Source of variation SS df MS F MS Treatment SS treat a 1 MS treat treat MS err Error SS err N a MS err Total SS tot N 1 Esimerkki 3.2 (Esimerkin 3.1 jatkoa). Tässä a =5,n =5jaN = an =25. 2 2 2 2 2 2 2 2 2 2 SAS PROC ANOVA ajojono. options ls = 78; data tensile; input treatment strength @@; datalines; 15 7 15 7 15 15 15 11 15 9 0 12 0 17 0 12 0 18 0 18 5 14 5 18 5 18 5 19 5 19 30 19 30 25 30 22 30 19 30 23 35 7 35 10 35 11 35 15 35 11 ; proc anova data = tensile; class treatment; model strength = treatment; run; Tulokset: The ANOVA Procedure Class Level Information Class Levels Values treatment 5 15 20 25 30 35 Number of observations 25 13 Dependent Variable: strength =============================================================== Sum of Source DF Squares Mean Square F Value Pr > F --------------------------------------------------------------- Model 4 475.76 118.94 14.76 <.0001 Error 20 161.20 8.06 --------------------------------------------------------------- Corrected Total 24 636.96 =============================================================== 14

p-arvo on pienempi kuin 0.0001, joten H 0 -hypoteesi hylätään. Täten tulokset osoittavat vahvasti sen puolesta, että puuvillan osuus kuidussa vaikuttaa lujuuteen. Mallin parametrien estimointi: F -testi osoittaa vain, että keskiarvoissa on eroa. Mallin y ij = μ + τ i + ε ij ylesikeskiarvo μ ja poikkeamat τ i (käsittelyvaikutukset) voidaan estimoida kaavoilla: (27) ˆμ = y.. (28) ˆτ i = y i. y.., ja (29) ˆμ i = y i.. Huom. 3.6: μ i = μ + τ i ja ˆμ i =ˆμ +ˆτ i = y i.. 15 16

Esimerkki 3.3: (Jatkoa) Esimerkin 3.1 havaintaineiston yhteydessä on laskettu ˆμ i = y i. estimaatit ja yleiskeskiarvo. Näistä saadaan ˆτ 1 = y 1. y.. = 5.24 ˆτ 2 = y 2. y.. = +0.36 ˆτ 3 = y 3. y.. = 2.56 ˆτ 4 = y 4. y.. = +6.56 ˆτ 5 = y 5. y.. = 4.24 Kuten jo esimerkin 3.1 tuloksista havaitaan kasvaa keskimääräinen lujuus aina 30 prosentin kohdalle saakka, jonka jälkeen se selvästi laskee. Yksittäisten tasojen tilastollisiin vertailuihin palataan tarkemmin tuonnempana. Epätasapainoinen aineisto (Unbalanced data) Kun faktoreiden eri tasoilla havaintojen määrät poikkeavat toisistaan sanotaan, että koeasetelma on epätasapainoinen (unbalanced). Yllä oleva varianssianalyysi soveltuu myös tällaiseen aineistoon. Havaintojen kokonaismäärä N = a n i, jossa n i on havaintojen määrä käsittelyn tasolla i. Tarvittavat neliösummat: n i (30) SS T = (y ij y.. ) 2 j=1 (31) SS B = ja (32) SS E = j=1 n i ( y i. y.. ) 2 n i (y ij y i. ) 2 17 Huom. 3.7: Neliösummista tarvitaan vain kaksi. Kolmas voidaan ratkaista identiteetistä SS T = SS B + SS E. 18

3.2 Mallin riittävyystarkastelut Varianssianalyysin testitulos on luotettava ainoastaan, jos mallin taustalla olevat oletukset täyttyvät. Oletuksena on, että havainnot ovat mallin (33) y ij = μ + τ i + ε ij mukaisia, jossa (34) ε ij N(0,σ 2 ). Erityisesti siis jakauman pitäisi olla normaalinen ja varianssin pitäisi olla sama kaikilla käsittelyn tasoilla i. Oletusten paikkansapitävyyttä voidaan tutkia residuaalien (35) e ij = y ij ˆy ij avulla, jossa ˆy ij =ˆμ +ˆτ i on havainnon y ij mallin ennustama arvo. Havaitaan, että kullakin käsittelyn tasolla ennustearvo on (36) ˆy ij = ˆμ +ˆτ i = y.. +( y i. y.. ) = y i. 19 20

Normaalisuus Varianssin yhtäsuuruus: Kuten aiemmin, yksi käytetty tapa on Normal Probability Plot Varianssien yhtäsuuruutta voidaan testata. (37) H 0 : σ 2 1 = σ2 2 = = σ2 a 2.5 2.0 Normal probability plot for residuals vastahypoteesina (38) H 1 : ainakin yksi on eri suuruinen Standardized normal distribution value 1.5 1.0 0.5 0.0-0.5-1.0-1.5-2.0-2.5-5 -4-3 -2-1 0 1 2 3 4 5 6 Residual Bartlettin testi (39) χ 2 = (N a)lns2 p a (n i 1) ln Si 2 ( a ) 1 1 1 3(a 1) n i 1 1 N a joka noudattaa χ 2 -jakaumaa vapausasteella a 1, jos H 0 on tosi. Kuvio on jälleen ok. (40) S 2 p = 1 N a (n i 1)Si 2. 21 22

Varianssin vakioisuutta voidaan tutkia myös graafisesti muodostamalla sirontakuvio, jossa pystyakselilla on residuaalin arvo ja vaakaakselilla ennustettu arvo. Varianssin stabilointimenetelmiä Jos jäännösvarianssi ei ole vakio, voidaan tietyillä muunnoksilla yrittää stabiloida sitä: 6 Resiidual vs fitted values Usein epästabiilissa tilanteessa keskihajonta on relaatiossa odotusarvoon siten, että Residual 5 4 3 2 1 0 7 9 11 13 15 17 19 21 23-1 -2-3 -4-5 Predicted Kuvion perusteella ei ole havaittavissa mitään hälyyttävää. (41) σ y μ α, jossa tarkoittaa suoraan verrannollinen. Tällöin muuntamalla alkuperäiset havainnot muotoon (42) y = y 1 α saadaan parannettua tilannetta, jossa muunnettujen havaintojen varianssi on likimain vakio. 23 24

Taulukko 3.1: Varianssin stabilointimuunnoksia. α 1 α Muunnos σ y vakio 0 1 Ei muunnosta σ y μ 1/2 1/2 1/2 Neliöjuuri σ y μ 1 0 log-muunnos σ y μ 3/2 3/2 1/2 käänteisarvo neliöjuuresta σ y μ 2 2 1 käänteisarvo 3.3 Keskiarvojen vertailu Jos testitulokset osoittavat, että keskiarvot poikkeavat toisistaan, niin seuraava kysymys on, että mitkä kesiarvot ovat poikkeavia. Käsittelytasojen keskiarvoja tarkastelmalla saadaan käsitys asiasta. 25 26

Parittainen vertailu: The Fisher Least Significant Difference (LSD): Testattavat hypoteesit: (43) H 0 : μ i = μ j H 0 : μ i = μ j. Suoraviivainen parittainen t-testaus johtaa kokonaismerkitsevyystason kasvuun (esim. jos kätetään 5%:n merkitsevyystasoa, on jokaisessa vertailussa 5%:n virhe, joten kasvaa lähes testien lkm x 5%:n suuruiseksi). Fisherin menetelmä perustuu parittaisten keskiarvojen vertailuun t-testillä. Heikkoutena tällä menetelmällä on edellä mainittu kokonaismerkitsevyystaso kasvu. Hypotseestia (43) voidaan testat t-testillä (44) t ij = y i. y j. MS E ( 1 n j + 1 n i ). Menetelmiä on useampia. Tunnetuimpia ovat Tukeyn, Duncanin ja Fisherin menetelmät. Tarkastellaan tässä Fisherin mentelmää. 27 28

Keskiarvot y i. ja y j. poikkeavat toisistaan merkitsevästi tasolla α, jos ( ) MSE + 1ni 1nj (45) y i. y j. >t α/2,n a Lukua (46) LSD = t α/2,n a 1 MS E + 1 ) n i n j sanotaan least significant difference ( pienimmän merkitsevän eron ) luvuksi.. Esimerklki 3.4: Portland sementtiesimerkissä, n 1 = = n 5 n =5. Olkoon α =0.05, jolloin 2MS E 2 8.06 (47) LSD = t.025,20 =2.086 =3.75. n 5 Täten keskiarvoparit, jotka poikkeavat vähintään 3.75 ovat tilastollisesti merkitseviä (antavat tilastollista evidenssiä, että vastaavat populaatiokeskiarvot poikkeavat toisistaan) Aineistosta: y 1. y 2. = 9.8 15.4 = 5.6 y 1. y 3. = 9.8 17.6 = 7.8 y 1. y 4. = 9.8 21.6 = 11.8 y 1. y 5. = 9.8 10.8 = 1.0 y 2. y 3. = 15.4 17.6 = 2.2 y 2. y 4. = 15.4 21.6 = 6.2 y 2. y 5. = 15.4 10.8 = 4.6 y 3. y 4. = 17.6 21.6 = 4.0 y 3. y 5. = 17.6 10.8 = 6.8 y 4. y 5. = 21.6 10.8 = 10.8 Tähdellä merkityt erot ovat tilstollisesti merkitseviä. Täten muut paitsi y 1. y 5. = 1.0 ja y 2. y 3. = 2.2 ovat (tilastollisesti) merkitseviä. 29 30

SAS-ohjelmistolla nämä saadaan proc anova ohjelmas käskyllä means. Ohessa on esimerkki Tukey, Scheffe, Duncan ja LSD menetelmien veratiluista. 2 2 2 2 2 2 2 2 2 2 options ls = 78; data tensile; input treatment strength @@; datalines; 15 7 15 7 15 15 15 11 15 9 0 12 0 17 0 12 0 18 0 18 5 14 5 18 5 18 5 19 5 19 30 19 30 25 30 22 30 19 30 23 35 7 35 10 35 11 35 15 35 11 ; proc anova data = tensile; class treatment; model strength = treatment; run; means treatment / tukey scheffe duncan lsd; run; Tulokset: The ANOVA Procedure Dependent Variable: strength Sum of Source DF Squares Mean Square F Value Pr > F Model 4 475.760 118.940 14.76 <.0001 Error 20 161.200 8.060 Corrected Total 24 636.960 t Tests (LSD) for strength NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate. Alpha 0.05 Error Degrees of Freedom 20 Error Mean Square 8.06 Critical Value of t 2.08596 Least Significant Difference 3.7455 Means with the same letter are not significantly different. t Grouping Mean N treatment A 21.600 5 30 B 17.600 5 25 B B 15.400 5 20 C 10.800 5 35 C C 9.800 5 15 31 32

Duncan s Multiple Range Test for strength NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate. Alpha 0.05 Error Degrees of Freedom 20 Error Mean Square 8.06 Number of Means 23 4 5 Critical Range 3.745 3.931 4.050 4.132 Means with the same letter are not significantly different. Duncan Grouping Mean N treatment A 21.600 5 30 B 17.600 5 25 B B 15.400 5 20 C 10.800 5 35 C C 9.800 5 15 Tukey s Studentized Range (HSD) Test for strength NOTE: This test controls the Type I experimentwise error rate, nut it generally has a higher Type II error rate than REGWQ. Alpha 0.05 Error Degrees of Freedom 20 Error Mean Square 8.06 Critical Value of Studentized Range 4.23186 Minimum Significant Difference 5.373 Means with the same letter are not significantly different. Tukey Grouping Mean N treatment A 21.600 5 30 A B A 17.600 5 25 B B C 15.400 5 20 C D C 10.800 5 35 D D 9.800 5 15 33 34

Ryan-Einot-Gabriel-Welsch Multiple Range Test for strength NOTE: This test controls the Type I experimentwise error rate. Alpha 0.05 Error Degrees of Freedom 20 Error Mean Square 8.06 Number of Means 23 4 5 Critical Range 4.5266 4.9761 5.0256 5.3730 Means with the same letter are not significantly different. REGWQ Grouping Mean N treatment A 21.600 5 30 A B A 17.600 5 25 B B 15.400 5 20 C 10.800 5 35 C C 9.800 5 15 Vertailu kontrolliryhmään: [Dunnet (1964)] Usein yksi ryhmistä muodostaa kontrolliryhmän, johon testituloksia verrataan. Oletetaan, että ensimmäinen ryhmä on kontrolliryhmä. Testattavat hypoteesit ovat (48) H 0 : μ i = μ 1 H 1 : μ i = μ 1 i =2,...,a. H 0 hylätään merkitsevyystasolla α, jos y i. y 1. >d α (a 1,df) 1 MS E + 1 ), n i n 1 (49) jossa d α (a 1,df) on taulukkoarvo (Dunnet in t-arvo, vastaavasta kuin t-testissä), merkitsevyystasolla α ja vapauasteluvulla df = N a. 35 36

Esimerkki 3.5: Olkoon edellisessä esimerkissä ensimmäinen käsittely kontrolliryhmänä. SAS:lla saadaan käskyllä means treatment / dunnett( 15 ); The ANOVA Procedure Dunnett s t Tests for strength NOTE: This test controls the Type I experimentwise error for comparisons of all treatments against a control. Alpha 0.05 Error Degrees of Freedom 20 Error Mean Square 8.06 Critical Value of Dunnett s t 2.65112 Minimum Significant Difference 4.7602 Comparisons significant at the 0.05 level are indicated by ***. 3.4 Kontrastit Keskiarvoja voidaan verrata yleisemminkin. Tekstiiliesimerkissä voitaisiin testata ovatko kahden alimman tason ja ylimmän tason keskimääräiset vetolujuudet samat. (50) tai (51) H 0 : μ 1 + μ 2 = μ 4 + μ 5 H 1 : μ 1 + μ 2 = μ 4 + μ 5 H 0 : μ 1 + μ 2 μ 4 μ 5 =0 H 1 : μ 1 + μ 2 μ 4 μ 5 =0 Difference treatment Between Simultaneous 95% Comparison Means Confidence Limits 30-15 11.800 7.040 16.560 *** 25-15 7.800 3.040 12.560 *** 20-15 5.600 0.840 10.360 *** 35-15 1.000-3.760 5.760 37 38

Yleisesti kontrasti on parametrien lineaarikombinaatio (52) μ c = c i μ i, jossa kertoimille c 1,...,c a (kontrastikertoimet) pätee (53) n i c i =0 Yllä (51):n tapauksessa μ c =0, c 1 = c 2 =1, c 3 =0jac 4 = c 5 = 1 (n 1 = = n 5 = n). Huom. 3.8: Kontrastit ovat erikoistapaus yleisistä lineaarisista hypoteeseista, muotoa (54) H 0 : d i μ i = μ, jossa kertoimet d i eivät välttämättä summaudu nollaksi. 39 Kontrastien testaus (i) t-testi: Merkitään (55) y c = jolloin (56) E[y c ]= c i y i., c i E[y i. ]= ja riippumattomuuden nojalla (57) Var[y c ]=σ 2 a n i c 2 i. Hypoteesia (58) H 0 : c i μ i =0 c i μ i = μ c voidaan testata t-testillä a c i y i. (59) t = MS a E n i c 2, i joka on t-jakautunut vapausasteella N a, kun H 0 on tosi. 40

Ortogonaaliset kontrastit Kontrasteja {c i } ja {d i } sanotaan ortogonaalisiksi, jos (60) n i c i d i =0. 41