4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Kiusatekijä on taustatekijä, joka voi vaikuttaa

Samankaltaiset tiedostot

Tavoite on eliminoida sen vaikutus koetuloksista. 4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Eliminointimenetelmiä:

4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Tavoite on eliminoida sen vaikutus koetuloksista. Eliminointimenetelmiä:

Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Faktorikokeilla tarkoitetaan koesuunnitelmaa, jossa koe toistetaan kaikilla faktoreiden tasojen kombninaatioilla.

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs)

5. Johdatus faktorikokeisiin. Tekijän omaa vaikutusta vastemuuttujaan sanotaan. 5.1 Taustaa

5. Johdatus faktorikokeisiin. Tekijän omaa vaikutusta vastemuuttujaan sanotaan. 5.1 Taustaa

Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista.

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

9.1 Hierarkiset asetelmat (Nested Designs)

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Lohkoasetelmat. Heliövaara 1

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Lohkoasetelmat. Kuusinen/Heliövaara 1

9. Muita koeasetelmia. Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9.1 Hierarkiset asetelmat (Nested Designs)

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Altistusaika 1 kk 2 kk 3 kk

A250A0050 Ekonometrian perusteet Tentti

Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). tulee katettua (complete replicate). Havaintojen

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Perusnäkymä yksisuuntaiseen ANOVAaan

6. 2 k faktorikokeet. Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). määrä per faktoritasokombinaatio (balansoidussa)kokeessa.

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

1. KAKSISUUNTAINEN VARIANSSIANALYYSI: TULOSTEN TULKINTA

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Toimittaja Erä

Osafaktorikokeet. Kurssipalautetta voi antaa Oodissa Kuusinen/Heliövaara 1

Latinalaiset neliöt ja taikaneliöt

2. Keskiarvojen vartailua

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

MTTTP5, luento Luottamusväli, määritelmä

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Osafaktorikokeet. Heliövaara 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Testejä suhdeasteikollisille muuttujille

6. 2 k faktorikokeet. Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). määrä per faktoritasokombinaatio (balansoidussa)kokeessa.

Sovellettu todennäköisyyslaskenta B

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Regressioanalyysi. Vilkkumaa / Kuusinen 1

8. Osittaiset 2 k faktorikokeet. Niinpä, jos voidaan olettaa, että korekeamman

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Hierarkkiset koeasetelmat. Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1

Harjoitus 9: Excel - Tilastollinen analyysi

Koesuunnittelu 2 k -faktorikokeet. TKK (c) Ilkka Mellin (2005) 1

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Koesuunnittelu Latinalaiset neliöt. TKK (c) Ilkka Mellin (2005) 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

SEM1, työpaja 2 ( )

pitkittäisaineistoissa

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Puheentutkimuksen tilastoanalyysin perusteet. 8. luento. Pertti Palo

Vastepintamenetelmä. Heliövaara 1

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

2. Teoriaharjoitukset

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus regressioanalyysiin. Heliövaara 1

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Kemometriasta. Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

RISTIINTAULUKOINTI JA Χ 2 -TESTI

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?

Aki Taanila VARIANSSIANALYYSI

pitkittäisaineistoissa

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Transkriptio:

4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat 4.1 Satunnaistettu lohkokoe (Randomized Block Design) Kiusatekijä (nuisance factor): Kiusatekijä on taustatekijä, joka voi vaikuttaa koetuloksiin, mutta siitä sinänsä ei olla kiinnostuneita. 1

Tavoite on eliminoida sen vaikutus koetuloksista. Eliminointimenetelmiä: Satunnaistaminen: Jos kiusatekijä ei ole havaittavissa, pyritään sen vaikutus poistamaan satunnaistamisella (randomization). Kovarianssianalyysi: Havaittavissa oleva kiusatekijä voidaan huomioida koetuloksissa kovariaatteina (lisämuuttujina). 2

Satunnaistettu täysi lohkokoe: [Randomized complete block design (RCBD)] Kiusatekijä on tunnistettavissa ja kontrolloitavissa. Kiusatekijän vaikutus eliminoidaan täydellä lohkokokeella, mikä tarkoittaa, että tehdään jokaiselle koeyksikölle (jokaisessa lohkossa) kaikki käsittelyt. Tyypillisesti tällainen tilanne on, kun tiedetään, että koeyksiköiden ominaispiirteet vaikuttavat koetuloksiin. Koeyksiköt (havaintoyksiöt) eivät ole homogeenisia. 3

Esimerkki 4.1: (ks. Esim 2.4) Halutaan tutkia antavatko metallin kovuuden tutkimisessa käytettävät neljä pistokärkeä samoja kovuustuloksia. Kullakin kärjellä halutaan tehdä neljä mittausta, eli yhteensä 5 4 = 16 mittausta. Kysymyksessä on yhden tekijän koeasetelma (tekijänä pistokärki). Jos toteutetaan täysin satuunnaistettu yhden faktorin koe, valitaan 16 testipalaa ja arvotaan kullekin pistokärjelle neljä palaa. Ongelmana kuitenkin on, että jos metallipalat ovat kovuuksiltaan erilaisia, vaikuttaa mittaustuloksiin pistokärjen ja satunnaisvirheen lisäksi myös metallipalan mahdollisesti vaihteleva ominaiskovuus. Ominaiskovuudet muodostavat tässä potentiaalisen kiusatekijän, joka kuitenkin voidaan eliminoida satunnaistetulla täydellä lohkokoeella. Menettely: Valitaan neljä metallipalaa ja tehdään mittaus jokaisessa palassa kullakin pistokärjellä (complete block design). Kussakin koepalassa mittausjärjestys on satunnainen (randomization). 4

Taulukko 4.1: Satunnaistettu täysi lohkokoe kovuusmittauskokeessa. =============================================================== Mittaus- Koepala Keskikarki 1 2 3 4 Yhteensa Keskiarvo hajonta --------------------------------------------------------------- 1 9.3 9.4 9.6 10.0 38.3 9.58 0.310 2 9.4 9.3 9.8 9.9 38.4 9.60 0.294 3 9.2 9.4 9.5 9.7 37.8 9.45 0.208 4 9.7 9.6 10.0 10.2 39.5 9.88 0.275 --------------------------------------------------------------- Yht. 37.6 37.7 38.9 39.8 154.0 9.63 0.293 Karv. 9.40 9.43 9.73 9.95 Khaj. 0.216 0.126 0.222 0.208 =============================================================== 5

Yleisesti satunnaistetun täyden lohkokokeen asetelma on muotoa: Taulukko 4.2: Randomized Complete Block Design lohko 1 lohko 2 lohko b käsittely 1 y 11 y 12 y 1b käsittely 2 y 21 y 22. y 2b käsittely a y a1 y a2 y ab Huom. 4.1: Jokaisessa lohkossa on yksi havainto per käsittely. Huom. 4.2: Käsittelyjen järjestys jokaisen lohkon sisällä on satunnainen. Täten satunnaistaminen tapahtuu vain lohkon sisällä 6

Tilastollinen malli Tilastollinen malli (eräs mahdollisuus) havainnoille voidaan RCBD-asetelmassa kirjoittaa muotoon (muista, että tilastollisen mallintamisessa kysymys on siitä, että mistä havaittu vaihtelu on peräisin) (1) y ij = μ + τ i + β j + ε ij, jossa μ on yleiskeskiarvo (overall mean), τ i on käsittelyn i vaikutus (treatment effect), β j on lohkon j vaikutus (block effect) ja satunnaisvirhe ε ij N(0, σ 2 ), i = 1,..., a, j = 1,..., b. Parametrit τ i ja β j ajatellaan poikkeamina keskiarvosta μ, jolloin (2) a i=1 τ i = b j=1 β j = 0. 7

Mallia (1) sanotaan vaikutusten esitysmuodoksi (vaikutusten malli tai efektien malli) (effects model) Vaihtoehtoisesti voidaan kirjoittaa odotusarvoesitys (mean model) (3) y ij = μ ij + ε ij, jossa μ ij = μ + τ i + β j. Jatkossa käytetään pääsääntöisesti efektien mallin esitystä. 8

Hypoteesit: Kysymys: Onko käsittelyillä vaikutusta? Testattavat hypotsseit: (4) H 0 : τ 1 = = τ a = 0 H 1 : τ i = 0 jollakin i Kokonaisvaihtelua mittaava neliösumma voidaan dekomponoida vaihtelun lähteiden mukaisesti (5) a i=1 b j=1 (y ij y.. ) 2 = b a i=1 ( y i. y.. ) 2 +a b j=1 ( y.j y.. ) 2 + a i=1 b j=1 (y ij y.j y i. + y.. ) 2 eli (6) SS tot = SS treat + SS block + SS err, 9

jossa (7) SS tot = a b i=1 j=1 (y ij y.. ) 2 on kokonaisneliösumma, (8) SS treat = b a i=1 ( y i. y.. ) 2 on käsittelyjen osuus SS tot :sta, (9) SS block = b b j=1 ( y.j y.. ) 2 on lohkojen välisen vaihtelun osuus SS tot :sta ja (10) SS err = a b i=1 j=1 (y ij y i. y.j + y.. ) 2 on virhevaihtelun osuus kokonaisvaihtelusta. 10

Edellä (11) y i. = 1 b (12) y.j = 1 a ja b y ij j=1 a y ij i=1 (13) y.. = 1 ab a b i=1 j=1 y ij. 11

Vapausasteet: SS tot : N 1, jossa df tot = N = ab, SS treat : df treat = a 1, SS block : df block = b 1 ja SS err : df err = ab (a 1) (b 1) = (a 1)(b 1) Keskineliöt: Jakamalla neliösummat vapausasteillaan saadaan keskineliösummat, joita voidaan käyttää samalla varianssien estimaattoreina. (14) MS treat = SS treat a 1, (15) MS block = SS block b 1, (16) MS err = SS err (a 1)(b 1). 12

Testisuure: Hypoteesin (4) testaus perustuu testisuureeseen (17) F = MS treat MS err, joka on F -jakautunut vapausasteilla a 1 ja (a 1)(b 1), jos H 0 on tosi. 13

Varianssitaulu: Vaihtelun Neliö- Vapaus- Keskilähde summa asteet neliöt F MS Käsittely SS treat a 1 MS treat treat MS err Lohkot SS block b 1 MS block Virhe SS err (a 1)(b 1) MS err Yhteensä SS tot N 1 Periaatteessa testisuuretta F block = MS block /MS err voidaan käyttää myös lohkovaikutusten testaamiseen (H 0 : β 1 = = β b = 0). Kuitenkin satunnaistaminen on tehty vain lohkojen sisällä, minkä seurauksena testi ei ole täysin validi. Käytännön ratkaisuna on, että käytetään sitä deskriptiivisenä suureena; jos F block on suuri on syytä lohkominen tehdä myös vastaavissa kokeissa myöhemminkin. 14

Esimerkki 4.2: Metallin kovuustestiaineisto. Alla olevassa kuviossa havainnot on koepaloittain (Test coupon). Hardness Testing Experiment 10.4 10.2 10 Type of Tip 9.8 9.6 9.4 9.2 9 0 1 2 3 4 5 Test Coupon Tip 1 Tip 2 Tip 3 Tip 4 Kuvion perusteella on ilmeistä, että koepalat ovat eri kovuisia, joten vaikutus on syytä eliminoida ennen kärkien mittaustuloksien analyysissa. 15

SAS-ajojono RCBD:lle: options ls = 78; /* Data from Montgomery 5 ed, p. 127 */ data hardness; input tip coupon y @@; datalines; 1 1 9.3 1 2 9.4 1 3 9.6 1 4 10.0 2 1 9.4 2 2 9.3 2 3 9.8 2 4 9.9 3 1 9.2 3 2 9.4 3 3 9.5 3 4 9.7 4 1 9.7 4 2 9.6 4 3 10.0 4 4 10.2 ; proc anova data = hardness; class tip coupon; model y = tip coupon; run; 16

Tulokset: The ANOVA Procedure Class Level Information Class Levels Values tip 4 1 2 3 4 coupon 4 1 2 3 4 Number of observations 16 Dependent Variable: y Sum of Source DF Squares Mean Square F Value Pr > F Model 6 1.21000000 0.20166667 22.69 <.0001 Error 9 0.08000000 0.00888889 Corrected Total 15 1.29000000 R-Square Coeff Var Root MSE y Mean 0.937984 0.979542 0.094281 9.625000 Source DF Anova SS Mean Square F Value Pr > F tip 3 0.38500000 0.12833333 14.44 0.0009 coupon 3 0.82500000 0.27500000 30.94 <.000 Ensimmäisessä taulukossa on yhditetty testaus, jossa on käsittelyn ja lohkon vaikutus yhdessä. Alemmassa taulukossa käsittelyn ja lohkon vaikutukset ovat erikseen. Kaikki p-arvo ovat < 0.001, joten kärjet antavat erilaisia tuloksia. Samoin lohkovaikutuksella on merkitystä, joten se on syytä huomioida. 17

Itse asiassa, jos lohkovaikutusta ei huomioitaisi ja analyysi olisi tehty tavanomaisena yhden faktorin kokeena, olisi tulokset seuraavanlaisia: Sum of Source DF Squares Mean Square F Value Pr > F Model 3 0.38500000 0.12833333 1.70 0.2196 Error 12 0.90500000 0.07541667 Corrected Total 15 1.29000000 Näiden tulosten mukaan mittauskärkein antamilla tuloksilla ei olisi eroa, mikä olisi mitä ilmeisemmin virheellinen johtopäätös! 18

Keskiarvojen yksittäiset vertailut voidaan tehdä samalla tavalla kuin yhden faktorin kokeessa. Esimerkki 4.3: Tarkastellaan esimerkkinä LSD ja Tukey vertailuja (proc anova käsky means tip / lsd tukey;) The ANOVA Procedure t Tests (LSD) for y NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate. Alpha 0.05 Error Degrees of Freedom 9 Error Mean Square 0.008889 Critical Value of t 2.26216 Least Significant Difference 0.1508 Means with the same letter are not significantly different. t Grouping Mean N tip A 9.87500 4 4 B 9.60000 4 2 B B 9.57500 4 1 B B 9.45000 4 3 19

Tukey s Studentized Range (HSD) Test for y NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher Type II error rate than REGWQ. Alpha 0.05 Error Degrees of Freedom 9 Error Mean Square 0.008889 Critical Value of Studentized Range 4.41490 Minimum Significant Difference 0.2081 Means with the same letter are not significantly different. Tukey Grouping Mean N tip A 9.87500 4 4 B 9.60000 4 2 B B 9.57500 4 1 B B 9.45000 4 3 Havaitaan, että eron aiheutta mittauskärki 4. 20

Mallin riittävyystarkastelut Residuaalit (18) ˆe ij = y ij ˆy ij = y ij (ˆμ + ˆτ i + ˆβ j ) = y ij y i. y.j + y.. jossa ˆμ = y.., ˆτ i = y i. y.. ja ˆβ j = y.j y... Näihin perustuen normaalisuus ja vakiovarianssisuus tarkastelut tehdään kuten kappaleessa 3. Huom 4.3: Havainnon y ij ennustearvo (19) ˆy ij = ˆμ + ˆτ i + ˆβ j = y.. + ( y i. y.. ) + ( y.j y.. ) = y i. + y.j y.. 21

Residual normal probability plot and Residuals versus predicted values Residual plots against coupon and tip No obvious non-normalities or non-linearities. 22

4.2 Latinalaiset neliöt Latinalaisten neliöiden koeasetelmalla voidaan eliminoida kahden kiusatekijän vaikutus koetuloksista (havainnot ovat kahden taustatekijän suhteen mahdollisesti epähomogeenisia). Perusajatus: käytetään kiusafaktoreita (nuisance factors) lohkomuuttujina (blocking variables). 23

Asetelma: (a) Käsittelyn (treatment) tasoja p ( 3). Molemmilla kiusafaktoreilla myös p luokkaa. (b) Muodostetaan kiusafaktoreiden luokkien mukaisesti p p taulukko. (c) Kullakin rivillä ja kullakin sarakkeella toteutetaan jokainen käsittely (treatment) täsmälleen kerran (kokeita yhteensä p 2 ja jokaisesta käsittelytasolta saadaan p havaintoa). Huom 4.4: Koeasetelmaa, jossa kullakin käsittely (treatment) tehdään täsmälleen kerran kussakin taustatekijöiden (blocking variables) määrittämässä solussa, sanotaan ortogonaaliseksi. 24

Etuja: (a) Yleisesti latinalaisten neliöiden koesuunnitelmilla (latinalaiset neliöt, kreikkalais-latinalaiset neliöt, hyper-kreikkalais-latinalaiset neliöt) voidaan eliminoida useamman kiusatekijän vaikutukset (b) Tarvitaan vain suhteellisen vähän koetoistoja (Latinalaisessa neliössä p 2 ). 25

Rajoitteita: (a) Kiusatekijöillä täytyy olla täsmälleen yhtä monta tasoa kuin käsittelyfaktorilla (p tasoa) (b) Kiusatekijöiden välillä ei saa olla yhdysvaikutusta (interaction). Myöskään kiusatekijöiden ja käsittelyfaktorin ei saa olla yhdysvaikutuksia. 26

Esimerkki 4.4: Tarkastellaan suihkumoottoreille tarkoitetun viiden erilaisen polttoaineseoksen palamisominaisuuksia. Kustakin raaka-aineet-erästä saadaan valmistettua erä kutakin polttoaineseosta. Seokset on mahdollista teettää viidellä eri toimittajalla. Käsittelytekijänä (treatment) on siis seos ja taustatekijöinä (kiusafaktorit) raaka-aine-erät ja toimittajat. Koeasetelma: Valmistetaan kustakin raaka-aine-erästä jokaista seostyyppiä yksi erä siten, että kukin toimittaja valmistaa yhden erän jokaista seosta, joista kunkin muodostuu eri raaka-aine-eristä. 27

Merkitään seoksia (käsittelyjä) aakkosilla A, B, C, D ja E, saadaan esitys, jota sanotaan latinalaiseksi neliöksi (latinalaiseten aakkosten vuoksi) Polttoaineen palamisominaisuudet ============================================================= Raaka-aine- Toimittaja (column) era (row) 1 2 3 4 5 ------------------------------------------------------------- 1 A = 24 B = 20 C = 19 D = 24 E = 24 2 B = 17 C = 24 D = 30 E = 27 A = 36 3 C = 18 D = 38 E = 26 A = 27 B = 21 4 D = 26 E = 31 A = 26 B = 23 C = 22 5 E = 22 A = 30 B = 20 C = 29 D = 31 ============================================================= Tärkeää on, että raaka-aineet ja toimittajat eri seoksille tulee valittua satunnaisesti. Yllä oleva neliö on yksi perusneliöistä. Permutoimalla sarakkeita ja rivejä saadaan muut neliöt. Satunnaistaminen toteutuu siten, että valitaan kaikista mahdollisita neliöistä toteutettava satunnaisesti. 28

Latinalaista neliötä, jossa ensimmäinen rivi ja sarake ovat aakkosjärjestyksessä sanotaan standardineliöksi (standard Latin square). Esimerkkeja standardineliosita: ================================================================= 3x3 4x4 5x5 6x6 ----------------------------------------------------------------- A B C A B C D A B C D E A B C D E F B C A B C D A B C D E A B C D E F A C A B C D A B C D E A B C D E F A B D A B C D E A B C D E F A B C E A B C D E F A B C D F A B C D E n of std squares 1 4 56 9408 total n of squares 12 576 161 280 818 851 200 number of runs 9 16 25 36 ================================================================= 29

Tilastollinen malli: p p latinalaisen neliön malli havainnolle on muotoa (20) y ijk = μ + α i + τ j + β k + ε ijk, i = 1,..., p (rivitekijä), j = 1,..., p (käsittely [treatment]), k = 1,..., p (saraketekijä). Esimerkki 4.5: (Jatkoa) Jos i = 2, k = 3, niin j = 4(= D) ja y 143 = 30. Virhetermille pätee E[ε ijk ] = 0 ja Var[ε ijk ] = σ 2 ε. Kuten lohkokokeessa, α i, τ j ja β k ovat poikkeamia yleiskeskiarvosta ja summautuvat nolliksi. Perusoletuksena on siis, että tekijöiden (faktoreiden) välillä ei ole yhdysvaikutusta (interaction). 30

Havaintojen lukumäärä: N = p 2. Varianssiahjoitelma: (21) SS tot = SS row + SS column + SS treat + SS err, jossa (22) SS tot = (y ijk y) 2, (23) SS row = p (24) SS col = p (25) SS treat = p (26) i,j,k p i=1 p k=1 p j=1 ( y i.. y) 2, ( y..k y) 2, ( y.j. y) 2, SS err = SS tot SS row SS col SS treat. 31

Varianssitaulu: Source of Sum of Degrees of Mean variation squares freedom square F Treatments SS treat p 1 MS treat MS treat MS err Rows SS row p 1 MS row MS row MS err Columns SS col p 1 MS col MS col MS err Error SS err (p 2)(p 1) MS err Total SS tot p 2 1 Pääasiallinen kiinnostus on käsittelyn vaikutuksessa. Huom. 4.5: Varianssihajotelma noudattaa havaitun arvon y ijk dekomponointia (27) y ijk y... = ( y i. y... ) + ( y.j. y... ) + ( y..k y... ) eli +(y ijk y i.. y.j. y..k + 2 y... ) (28) tot = row + treat + col + err. 32

Esimerkki 4.6: Polttoaine-esimerkki. SAS:lla toteutettuna ajovirta on seuraava: data propellant; input y batch treat $ operator; label y = "burning rate"; datalines; 24 1 A 1 17 2 B 1 18 3 C 1 26 4 D 1 22 5 E 1 20 1 B 2 24 2 C 2 38 3 D 2 31 4 E 2 30 5 A 2 19 1 C 3 30 2 D 3 26 3 E 3 26 4 A 3 20 5 B 3 24 1 D 4 27 2 E 4 27 3 A 4 23 4 B 4 29 5 C 4 24 1 E 5 36 2 A 5 21 3 B 5 22 4 C 5 31 5 D 5 ; proc anova data = propellant; class batch treat operator; model y = batch treat operator; run; 33

Tulokset: The SAS System The ANOVA Procedure Class Level Information Class Levels Values batch 5 1 2 3 4 5 treat 5 A B C D E operator 5 1 2 3 4 5 Number of Observations Read 25 Number of Observations Used 25 The ANOVA Procedure Dependent Variable: y burning rate Sum of Source DF Squares Mean Square F Value Pr > F Model 12 548.0000000 45.6666667 4.28 0.0089 Error 12 128.0000000 10.6666667 Corrected Tot 24 676.0000000 R-Square Coeff Var Root MSE y Mean 0.810651 12.85821 3.265986 25.40000 Source DF Anova SS Mean Square F Value Pr > F batch 4 68.0000000 17.0000000 1.59 0.2391 treat 4 330.0000000 82.5000000 7.73 0.0025 operator 4 150.0000000 37.5000000 3.52 0.0404 34

Ylemmässä varianssitaulun F -testi testaa onko millään tekijällä vaikutusta. Alemman varianssitaulun F -testit testaavat kunkin yksittäisen tekijän vaikutusta. Tuloksista havaitaan, että eri seoksien keskimääräiset palamistulokset poikkeavat toisistaan tilastollisesti merkitsevästi. Lisäksi eri toimittajien seoksilla on vaikutusta palamistulokseen. Sen sijaan raaka-aine-erillä ei näytä olevan vaikutusta. 35

Mallin (20) parametrien estimaattorit ovat (29) ˆμ = y = y... = 1 N (30) ˆα i = y i.. y..., (31) ˆτ j = y.j. y..., y ijk i,j,k (32) ˆβ k = y..k y... (33) ˆy ijk = ˆμ + ˆα i + ˆτ j + ˆβ k. 36

Maliin riittävyyden tarkastelut: Jos malli on riittävä, residuaalit ovat puhtaasti satunnaisvaihtelua Residuaalit: (34) e ijk = y ijk ˆy ijk = y ijk y i.. y.j. y..k + 2 y... Graafisilla tarkasteluilla saadaan yleissilmäys tilanteesta. 37

Esimerkki 4.6: Normal probability plot and residual versus predicted Treatment versus residual and operator versus residual Normaaliisuus on jokseenkin ok, eikä ilmeisiä epälineaarisuuksia. 38

4.3 Kreikkalais-latinalaiset neliöt Kolme taustatekijää (nuisance factors). Käsitellään ne lohkomuuttujina. Asetelma: (a) Käsittelytasoja ja taustamuuttujien tasoja p ( 4). (b) Lähtökohtana p p latinalainen neliö, jonka päälle määritellään toinen latinalainen neliö. Käsittelyn tasoja merkitään kreikkalaisilla kirjaimilla (tästä nimi) ja kolmannen taustatekijän tasoja latinalaisilla kirjaimilla. Sarakevaikutukset Rivi 1 2 3 4 1 Aα Bβ Cγ Dδ 2 Bδ Aγ Dβ Cα 3 Cβ Dα Aδ Bγ 4 Dγ Cδ Bα Aβ 39

Huom 4.6: Kysymyksessä jälleen ns. ortogonaalinen asetelma siinä mielessä, että kullakin taustatekijän tasolla käsittely toistetaan täsmälleen kerran. Tilastollinen malli: (35) y ijkl = μ + θ i + τ j + ω k + l + ε ijkl, i, j, k, l = 1,..., p. Rivi: θ i (lohkotekijä) Sarake: l (lohkotekijä) Latinalainen aakkonen: τ j (treatment) Kreikkalainen aakkonen: ω k (lohkotekijä) 40

Määrittelemällä kesiarvot indeksien yli kuten edellä, saadaan estimaattorit (36) ˆμ = y... = 1 N jossa N = p 2 i,j,k,l (37) ˆθ i = y i... y..., y ijkl, (38) ˆτ j = y.j.. y..., (39) ˆω k = y..k. y..., (40) ˆl = y...l y... ja sovitearvo (fitted value) (41) ˆy ijkl = ˆμ + ˆθ i + ˆτ j + ˆω k + ˆl = y... + ( y i... y... ) + ( y.j.. y... ) +( y..k. y... ) + ( y...l y... ) 41

Residuaali termi: (42) e ijkl = y ijkl ˆy ijkl Varianssitaulu: Source SS df M S F Latin SS latin p 1 MS latin MS latin MS err Greek SS greek p 1 MS greek MS greek MS err Rows SS row p 1 MS row MS row MS err Columns SS rol p 1 MS rol MS rol MS err Error SS err (p 3)(p 1) MS err Total SS tot p 2 1 jossa esimerkiksi (43) SS latin = p p j=1 ( y.j.. y... ) 2 42

Esimerkki 4.7: Polttoaine-esimerkki. Oletetaan, että kokeet tehdään viidellä eri testimoottorilla, joiden mahdollinen vaikutus halutaan eliminoida. Identifioidaan moottorit kreeikkalaisilla aakkosilla ja oletetaan, että koe on toteutettu seuraavasti: Raaka-aine- Toimittaja (column) era (row) 1 2 3 4 5 1 Aα = 24 Bγ = 20 Cε = 19 Dβ = 24 Eδ = 24 2 Bβ = 17 Cδ = 24 Dα = 30 Eγ = 27 Aε = 36 3 Cγ = 18 Dε = 38 Eβ = 26 Aδ = 27 Bα = 21 4 Dδ = 26 Eα = 31 Aγ = 26 Bε = 23 Cβ = 22 5 Eε = 22 Aβ = 30 Bδ = 20 Cα = 29 Dγ = 31 43

data propellant; input y batch treat $ operator assembly $; label y = "burning rate"; datalines; 24 1 A 1 alpha 17 2 B 1 beta 18 3 C 1 gamma 26 4 D 1 delta 22 5 E 1 epsilon 20 1 B 2 gamma 24 2 C 2 delta 38 3 D 2 epsilon 31 4 E 2 alpha 30 5 A 2 beta 19 1 C 3 epsilon 30 2 D 3 alpha 26 3 E 3 beta 26 4 A 3 gamma 20 5 B 3 delta 24 1 D 4 beta 27 2 E 4 gamma 27 3 A 4 delta 23 4 B 4 epsilon 29 5 C 4 alpha 24 1 E 5 delta 36 2 A 5 epsilon 21 3 B 5 alpha 22 4 C 5 beta 31 5 D 5 gamma ; proc anova data = propellant; class batch treat assembly operator; model y = batch treat assembly operator; run; 44

Results: The ANOVA Procedure Dependent Variable: y burning rate Sum of Source DF Squares Mean Square F Value Pr > F Model 16 610.0000000 38.1250000 4.62 0.0171 Error 8 66.0000000 8.2500000 Corrected Tot 24 676.0000000 R-Square Coeff Var Root MSE y Mean 0.902367 11.30819 2.872281 25.40000 Source DF Anova SS Mean Square F Value Pr > F batch 4 68.0000000 17.0000000 2.06 0.1783 treat 4 330.0000000 82.5000000 10.00 0.0033 assembly 4 62.0000000 15.5000000 1.88 0.2076 operator 4 150.0000000 37.5000000 4.55 0.0329 Testimoottorilla (assemmpply) ei näytä olevan vaikutusta (p-arvo 0.2076). 45

Parittaisten (ortogonaalisten) latinalaisten asetelma, joka muodostaa kreikkalais-latinalaisen neliön, voidaan yleistää edelleen. p p hyperneliö on koeasetelma, joka muodostetaan kolmesta tai useammmasta ortogonaalinen latinalaisesta neliöstä. p 1:stä ortogonaalisesta latinalaisesta neli - ostä voidaan muodostaa asetelma, jolla periaatteessa voidaan tutkia p + 1:n tekijän vaikutusta. 46

4.4 Balansoitu epätäydellisen lohkokoe (Balanced Incomplete Block Design, BIBD) Kaikkia käsittelyitä (treatments) ei toteuteta jokaisessa lohkossa (epätäydellinen, incomplete). Kuitenkin kaikkia käsittelykombinaatioita pidetään yhtä tärkeinä. Tällöin koe toteutetaan site, että jokainen käsittelypari esiintyy yhtä monta kertaa (balansoitu [balanced] Lähtökohta: Olkoon käsittelyn tasoja a ja jokaisessa lohkossa voidaan toteuttaa k < a koetta. 47

Koeasetelma: Periaatteessa koeasetelma voidaan toteuttaa siten, että valitaan (44) b = a k ) = a! k!(a k)! lohkoa ja totetutetaan kussakin yksi k alkion (käsittelyn) kombinaatio satunnaistetussa järjestyksessä. Huom. 4.7: Usein balanssi saadaan aikaiseksi pienemmällä kuin ( a k) lohkomäärällä. Kirjallisuudesta löytyy sopivia BIBD-taulukoita pienemmille lohkomäärille. 48

Esimerkki 4.7: Makesivalmistaja haluaa testata asiakkailla kuutta uutuustuotetta (A, B, C, D, E, F). Asiakkaita pyydetään maistamaan tuotteita ja pisteyttämään ne skaalalla 0 100. Käytännön syistä kutakin koehenkilöä pyydetään maistamaan neljää tuotetta. Kokeeseen valitaan b = 15 = ( 6 4) henkilöä (lohkot) =============================================== Koehenkilo Pistemaara (tuote) [lohko, block] [kasittely, treatment]) ----------------------------------------------- 1 51 (A) 55 (B) 69 (C) 83 (D) 2 48 (A) 87 (D) 56 (E) 22 (F) 3 65 (B) 91 (C) 67 (E) 35 (F) 4 42 (A) 48 (B) 65 (C) 43 (E) 5 36 (A) 58 (B) 69 (D) 7 (F) 6 79 (C) 85 (D) 56 (E) 25 (F) 7 54 (A) 60 (B) 90 (C) 21 (F) 8 62 (A) 92 (C) 94 (D) 63 (E) 9 39 (B) 71 (D) 47 (E) 11 (F) 10 51 (A) 59 (B) 84 (D) 51 (E) 11 39 (A) 74 (C) 61 (E) 25 (F) 12 69 (B) 78 (C) 78 (D) 22 (F) 13 63 (A) 74 (B) 59 (E) 32 (F) 14 55 (A) 74 (C) 78 (D) 34 (F) 15 73 (B) 83 (C) 92 (D) 68 (E) =============================================== 49

Satunnausistaminen on toteutettu siten, että kullekin tuotekombinaatio on jaettu satunnaisesti koehenkilöille ja maistamisjärjestys on permutoitu satunnaiseksi kunkin koehenkilön kohdalla. 50

Esittämällä havaintoaineisto seuraavasti nähdään selkeämmin koeasetelma. ========================================== Brand Block ---------------------------- Subj. A B C D E F Aver ------------------------------------------ 1 51 55 69 83.... 64.5 2 48.... 87 56 22 53.3 3.. 65 91.. 67 35 64.5 4 42 48 65.. 43.. 49.5 5 36 58.. 69.. 7 42.5 6.... 79 85 56 25 61.3 7 54 60 90.... 21 56.3 8 62.. 92 94 63.. 77.8 9.. 39.. 71 47 11 42.0 10 51 59.. 84 51.. 61.3 11 39.. 74.. 61 25 49.8 12.. 69 78 78.. 22 61.8 13 63 74.... 59 32 57.0 14 55.. 74 78.. 34 60.3 15.. 73 83 92 68.. 79.0 ------------------------------------------ Aver 50.1 60.0 79.5 82.1 57.1 23.4 58.7 = grand mean ========================================== 51

BIBD:n tilastolinen analysointi Kästittelyjen lukumäärä: a. Lohkojen lukumäärä: b. Kussakin lohkossa k käsittelyä (k < a). Toistoja r, eli jokainen käsittely toistuu r kertaa. Havaintoja: N = ar = bk. Kukin käsittelypari esiintyy (45) λ = lohkossa. r(k 1) a 1 Jos a = b, sanotaan koeasetelmaa symmetriseksi. 52

Esimerkki 4.8: Makutesti. a = 6, b = 15, k = 4, r = 10, N = 6 10 = 15 4 = 60 ja λ = 10(4 1) 6 1 = 30 5 = 6. 53

BIBD:n tilastollinen on samaa muotoa kuin RCBD:n (Randomized Complete Block Design), [kaava (1], eli (46) y ij = μ + τ i + β j + ε ij, jossa y ij on havainto i lohkossa j. Parametri μ on yleiskeskiarvo, τ i on käsittelyn i vaikutus, β j on lohkon j vaikutus ja ε ij on virhetermi. Jälleen a i=1 τ i = 0 ja b j=1 β j = 0. Kokonaisvaihtelu voidaan dekomponoida joko (47) SS tot = SS treat(adj) + SS block + SS err, tai (48) SS tot = SS treat + SS block(adj) + SS err. 54

Varianssitaulu: Source SS df MS F Treatment SS treat(adj) a 1 Block SS block(adj) b 1 Error SS err N a b + 1 Total SS tot N 1 SS treat(adj) a 1 SS block(adj) b 1 F = MS treat(adj) MS err F = MS block(adj) MS err Huom. 4.8: Yllä SS tot = SS treat(adj) + SS block(adj) + SS err, koska koeasetelma ei ole enää ortogonaalinen. 55

SS treat(adj) ja SS block(adj) lasketaan tavalla, jossa huomioidaan, ettei kaikkia käsittelyjä ole toteutettu jokaisessa lohkossa. SAS:n proc glm ja SPSS:n General Linear Model estimoinnissa nämä saadaan Sum of Squares Type III valinnoilla. 56

Teknisesti tämä tapahtuu siten, että estimoidaan ensin koko malli, jossa on molemmat efektit (treatment ja block). Estimointi tapahtuu regressiotekniikalla Saadaan neliösummahajotelma (49) SS tot = SS model.full + SS err Estimoidaan seuraavaksi malli, jossa on vain block tekijä (50) SS tot = SS model.block + SS err.block SS treat(adj) saadaan erotuksena (51) SS treat(adj) = SS model.full SS model.block 57

Vastaavsti SS block(adj) saadaan estimoimalla ensin treat efektin malli, josta (52) SS tot = SS model.treat + SS err.treat ja (53) SS block(adj) = SS model.full SS model.treat. 58

Esimerkki 4.9: Makutesti SAS-toteutus, proc glm Ensiksi luodaan data: data taste; input koehenkilo pisteet tuote $ @@; label koehenkilo = "block variable"; label tuote = "treatment variable"; datalines; 1 51 A 1 55 B 1 69 C 1 83 D 2 48 A 2 87 D 2 56 E 2 22 F 3 65 B 3 91 C 3 67 E 3 35 F 4 42 A 4 48 B 4 65 C 4 43 E 5 36 A 5 58 B 5 69 D 5 7 F 6 79 C 6 85 D 6 56 E 6 25 F 7 54 A 7 60 B 7 90 C 7 21 F 8 62 A 8 92 C 8 94 D 8 63 E 9 39 B 9 71 D 9 47 E 9 11 F 10 51 A 10 59 B 10 84 D 10 51 E 11 39 A 11 74 C 11 61 E 11 25 F 12 69 B 12 78 C 12 78 D 12 22 F 13 63 A 13 74 B 13 59 E 13 32 F 14 55 A 14 74 C 14 78 D 14 34 F 15 73 B 15 83 C 15 92 D 15 68 E ; run; Toteutetaan proc glm:llä proc glm data = taste; class koehenkilo tuote; model pisteet = koehenkilo tuote / ss3; run; quit; 59

Tulokset: The GLM Procedure Class Level Information Class Levels Values koehenkilo 15 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 tuote 6 A B C D E F Number of Observations Read 60 Number of Observations Used 60 The GLM Procedure Dependent Variable: pisteet Sum of Source DF Squares Mean Square F Value Pr > F Model 19 26600.91944 1400.04839 53.86 <.0001 Error 40 1039.68056 25.99201 Corrected Total 59 27640.60000 R-Square Coeff Var Root MSE pisteet Mean 0.962386 8.685241 5.098236 58.70000 Source DF Type III SS Mean Square F Value Pr > F koehenkilo 14 3555.91944 253.99425 9.77 <.0001 tuote 5 20154.31944 4030.86389 155.08 <.0001 60

Koska p-arvot jäävät pieniksi on selvästi pääteltävissä, että tuotteiden keskimääräiset pistemäärät poikkeavat toisistaan, eli jotkut tuotteest maistuvat selvästi paremmilta kuin toiset. Yksittäisten keskiarvojen tarkasteluilla (monivertailutestit) saadaan selville parhaimmin maistuvat tuotteet. Koehenkilöiden välillä on myös eroa, joten tämän aiheuttaman vaihtelun huomiointi on perusteltua kokeessa. 61

Keskiarvo vertailut (Tukey): The GLM Procedure Tukey s Studentized Range (HSD) Test for pisteet NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher Type II error rate than REGWQ. Alpha 0.05 Error Degrees of Freedom 40 Error Mean Square 25.99201 Critical Value of Studentized Range 4.23165 Minimum Significant Difference 6.8223 Means with the same letter are not significantly different. Tukey Grouping Mean N tuote A 82.100 10 D A A 79.500 10 C B 60.000 10 B B B 57.100 10 E C 50.100 10 A D 23.400 10 F 62

Tuotteiden D ja C makuominaisuuksissa ei ole merkittävää eroa. Samoin tuotteet B ja E ovat makuominaisuuksiltaan samanlaisia. Heikoimmin pärjää D, joka poikkeaa tilastollisesti merkitsevästi toisista. 63