Tavoite on eliminoida sen vaikutus koetuloksista. 4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Eliminointimenetelmiä:



Samankaltaiset tiedostot
4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Kiusatekijä on taustatekijä, joka voi vaikuttaa

4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Tavoite on eliminoida sen vaikutus koetuloksista. Eliminointimenetelmiä:

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Faktorikokeilla tarkoitetaan koesuunnitelmaa, jossa koe toistetaan kaikilla faktoreiden tasojen kombninaatioilla.

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs)

5. Johdatus faktorikokeisiin. Tekijän omaa vaikutusta vastemuuttujaan sanotaan. 5.1 Taustaa

Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista.

5. Johdatus faktorikokeisiin. Tekijän omaa vaikutusta vastemuuttujaan sanotaan. 5.1 Taustaa

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

9.1 Hierarkiset asetelmat (Nested Designs)

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Lohkoasetelmat. Heliövaara 1

9. Muita koeasetelmia. Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9.1 Hierarkiset asetelmat (Nested Designs)

A250A0050 Ekonometrian perusteet Tentti

Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). tulee katettua (complete replicate). Havaintojen

Perusnäkymä yksisuuntaiseen ANOVAaan

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Lohkoasetelmat. Kuusinen/Heliövaara 1

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

6. 2 k faktorikokeet. Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). määrä per faktoritasokombinaatio (balansoidussa)kokeessa.

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

Altistusaika 1 kk 2 kk 3 kk

Toimittaja Erä

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Testejä suhdeasteikollisille muuttujille

1. KAKSISUUNTAINEN VARIANSSIANALYYSI: TULOSTEN TULKINTA

2. Keskiarvojen vartailua

8. Osittaiset 2 k faktorikokeet. Niinpä, jos voidaan olettaa, että korekeamman

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Koesuunnittelu Latinalaiset neliöt. TKK (c) Ilkka Mellin (2005) 1


MTTTP5, luento Luottamusväli, määritelmä

Hierarkkiset koeasetelmat. Heliövaara 1

Osafaktorikokeet. Kurssipalautetta voi antaa Oodissa Kuusinen/Heliövaara 1

6. 2 k faktorikokeet. Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). määrä per faktoritasokombinaatio (balansoidussa)kokeessa.

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Kemometriasta. Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Otoskoko 107 kpl. a) 27 b) 2654

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Sovellettu todennäköisyyslaskenta B

Puheentutkimuksen tilastoanalyysin perusteet. 8. luento. Pertti Palo

Väliestimointi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

RISTIINTAULUKOINTI JA Χ 2 -TESTI

pitkittäisaineistoissa

Vastepintamenetelmä. Kuusinen/Heliövaara 1

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?

2. Keskiarvojen vartailua

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Harjoitus 7: NCSS - Tilastollinen analyysi

Osafaktorikokeet. Heliövaara 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Frequencies. Frequency Table

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa. Y i = + 1 X i p X ip + u i

Latinalaiset neliöt ja taikaneliöt

Koesuunnittelu 2 k -faktorikokeet. TKK (c) Ilkka Mellin (2005) 1

SEM1, työpaja 2 ( )

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Vastepintamenetelmä. Heliövaara 1

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Sisällysluettelo 6 VARIANSSIANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Tilastotieteellisiä malleja välimatka- ja suhdeasteikollisten preferenssien mittaamiseen. Pekka Leskinen ja Tuomo Kainulainen Metla

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Opetus talteen ja jakoon oppilaille. Kokemuksia Aurajoen lukion tuotantoluokan toiminnasta Anna Saivosalmi

Testit järjestysasteikollisille muuttujille

pitkittäisaineistoissa

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

TUTKIMUSOPAS. SPSS-opas

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Transkriptio:

4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat 4.1 Satunnaistettu lohkokoe (Randomized Block Design) Kiusatekijä (nuisance factor): Kiusatekijä on taustatekijä, joka voi vaikuttaa koetuloksiin, mutta siitä sinänsä ei olla kiinnostuneita. Tavoite on eliminoida sen vaikutus koetuloksista. Eliminointimenetelmiä: Satunnaistaminen: Jos kiusatekijä ei ole havaittavissa, pyritään sen vaikutus poistamaan satunnaistamisella (randomization). Kovarianssianalyysi: Havaittavissa oleva kiusatekijä voidaan huomioida koetuloksissa kovariaatteina (lisämuuttujina). 1 2 Satunnaistettu täysi lohkokoe: [Randomized complete block design (RCBD)] Kiusatekijä on tunnistettavissa ja kontrolloitavissa. Kiusatekijän vaikutus eliminoidaan täydellä lohkokokeella, mikä tarkoittaa, että tehdään jokaiselle koeyksikölle (jokaisessa lohkossa) kaikki käsittelyt. Tyypillisesti tällainen tilanne on, kun tiedetään, että koeyksiköiden ominaispiirteet vaikuttavat koetuloksiin. Koeyksiköt (havaintoyksiöt) eivät ole homogeenisia. Esimerkki 4.1: (ks. Esim 2.4) Halutaan tutkia antavatko metallin kovuuden tutkimisessa käytettävät neljä pistokärkeä samoja kovuustuloksia. Kullakin kärjellä halutaan tehdä neljä mittausta, eli yhteensä 5 4 = 16 mittausta. Kysymyksessä on yhden tekijän koeasetelma (tekijänä pistokärki). Jos toteutetaan täysin satuunnaistettu yhden faktorin koe, valitaan 16 testipalaa ja arvotaan kullekin pistokärjelle neljä palaa. Ongelmana kuitenkin on, että jos metallipalat ovat kovuuksiltaan erilaisia, vaikuttaa mittaustuloksiin pistokärjen ja satunnaisvirheen lisäksi myös metallipalan mahdollisesti vaihteleva ominaiskovuus. Ominaiskovuudet muodostavat tässä potentiaalisen kiusatekijän, joka kuitenkin voidaan eliminoida satunnaistetulla täydellä lohkokoeella. 3 Menettely: Valitaan neljä metallipalaa ja tehdään mittaus jokaisessa palassa kullakin pistokärjellä (complete block design). Kussakin koepalassa mittausjärjestys on satunnainen (randomization). 4

Taulukko 4.1: Satunnaistettu täysi lohkokoe kovuusmittauskokeessa. =============================================================== Mittaus- Koepala Keskikarki 1 2 3 4 Yhteensa Keskiarvo hajonta --------------------------------------------------------------- 1 9.3 9.4 9.6 10.0 38.3 9.58 0.310 2 9.4 9.3 9.8 9.9 38.4 9.60 0.294 3 9.2 9.4 9.5 9.737.8 9.45 0.208 4 9.79.6 10.0 10.2 39.5 9.88 0.275 --------------------------------------------------------------- Yht. 37.6 37.7 38.9 39.8 154.0 9.63 0.293 Karv. 9.40 9.43 9.73 9.95 Khaj. 0.216 0.126 0.222 0.208 =============================================================== Yleisesti satunnaistetun täyden lohkokokeen asetelma on muotoa: Taulukko 4.2: Randomized Complete Block Design lohko 1 lohko 2 lohko b käsittely 1 y 11 y 12 y 1b käsittely 2 y 21 y 22. y 2b käsittely a y a1 y a2 y ab Huom. 4.1: Jokaisessa lohkossa on yksi havainto per käsittely. Huom. 4.2: Käsittelyjen järjestys jokaisen lohkon sisällä on satunnainen. Täten satunnaistaminen tapahtuu vain lohkon sisällä 5 6 Tilastollinen malli Tilastollinen malli (eräs mahdollisuus) havainnoille voidaan RCBD-asetelmassa kirjoittaa muotoon (muista, että tilastollisen mallintamisessa kysymys on siitä, että mistä havaittu vaihtelu on peräisin) (1) y ij = μ + τ i + β j + ε ij, jossa μ on yleiskeskiarvo (overall mean), τ i on käsittelyn i vaikutus (treatment effect), β j on lohkon j vaikutus (block effect) ja satunnaisvirhe ε ij N(0,σ 2 ), i =1,...,a, j =1,...,b. Mallia (1) sanotaan vaikutusten esitysmuodoksi (vaikutusten malli tai efektien malli) (effects model) Vaihtoehtoisesti voidaan kirjoittaa odotusarvoesitys (mean model) (3) y ij = μ ij + ε ij, jossa μ ij = μ + τ i + β j. Jatkossa käytetään pääsääntöisesti efektien mallin esitystä. Parametrit τ i ja β j ajatellaan poikkeamina keskiarvosta μ, jolloin (2) a τ i = b β j =0. i=1 j=1 7 8

Hypoteesit: Kysymys: Onko käsittelyillä vaikutusta? Testattavat hypotsseit: (4) H 0 : τ 1 = = τ a =0 H 1 : τ i = 0 jollakin i Kokonaisvaihtelua mittaava neliösumma voidaan dekomponoida vaihtelun lähteiden mukaisesti (5) a i=1 b j=1 (y ij y..) 2 = b a i=1 ( y i. y..) 2 +a b j=1 ( y.j y..) 2 + a i=1 b j=1 (y ij y.j y i. + y..) 2 jossa (7) SS tot = a b (y ij y.. ) 2 i=1 j=1 on kokonaisneliösumma, (8) a SS treat = b ( y i. y.. ) 2 i=1 on käsittelyjen osuus SS tot :sta, (9) b SS block = b ( y.j y.. ) 2 j=1 on lohkojen välisen vaihtelun osuus SS tot :sta ja (10) SS err = a b (y ij y i. y.j + y.. ) 2 i=1 j=1 on virhevaihtelun osuus kokonaisvaihtelusta. eli (6) SS tot = SS treat + SS block + SS err, 9 10 Edellä (11) y i. = 1 b y ij b j=1 (12) y.j = 1 a y ij a i=1 ja (13) y.. = 1 a b y ij. ab i=1 j=1 Vapausasteet: SS tot : N 1, jossa df tot = N = ab, SS treat : df treat = a 1, SS block : df block = b 1ja SS err : df err = ab (a 1) (b 1) = (a 1)(b 1) Keskineliöt: Jakamalla neliösummat vapausasteillaan saadaan keskineliösummat, joita voidaan käyttää samalla varianssien estimaattoreina. (14) MS treat = SS treat a 1, (15) MS block = SS block b 1, (16) MS err = SS err (a 1)(b 1). 11 12

Testisuure: Varianssitaulu: Hypoteesin (4) testaus perustuu testisuureeseen (17) F = MS treat MS err, joka on F -jakautunut vapausasteilla a 1ja (a 1)(b 1), jos H 0 on tosi. Vaihtelun Neliö- Vapaus- Keskilähde summa asteet neliöt F MStreat Käsittely SS treat a 1 MS treat Lohkot SS block b 1 MS block Virhe SS err (a 1)(b 1) MS err Yhteensä SS tot N 1 Periaatteessa testisuuretta F block = MS block /M S err voidaan käyttää myös lohkovaikutusten testaamiseen (H 0 : β 1 = = β b =0). Kuitenkin satunnaistaminen on tehty vain lohkojen sisällä, minkä seurauksena testi ei ole täysin validi. Käytännön ratkaisuna on, että käytetään sitä deskriptiivisenä suureena; jos F block on suuri on syytä lohkominen tehdä myös vastaavissa kokeissa myöhemminkin. 13 14 Esimerkki 4.2: Metallin kovuustestiaineisto. Alla olevassa kuviossa havainnot on koepaloittain (Test coupon). Type of Tip Hardness Testing Experiment 10.4 10.2 10 9.8 9.6 9.4 9.2 9 0 1 2 3 4 5 Test Coupon Tip 1 Tip 2 Tip 3 Tip 4 SAS-ajojono RCBD:lle: options ls = 78; /* Data from Montgomery 5 ed, p. 127*/ data hardness; input tip coupon y @@; datalines; 1 1 9.3 1 2 9.4 1 3 9.6 1 4 10.0 2 1 9.4 2 2 9.3 2 3 9.8 2 4 9.9 3 1 9.2 3 2 9.4 3 3 9.5 3 4 9.7 4 1 9.74 2 9.6 4 3 10.0 4 4 10.2 ; proc anova data = hardness; class tip coupon; model y = tip coupon; run; Kuvion perusteella on ilmeistä, että koepalatovateri kovuisia, joten vaikutus on syytä eliminoida ennen kärkien mittaustuloksien analyysissa. 15 16

Tulokset: The ANOVA Procedure Class Level Information Class Levels Values tip 4 1 2 3 4 coupon 4 1 2 3 4 Number of observations 16 Dependent Variable: y Sum of Source DF Squares Mean Square F Value Pr > F Model 6 1.21000000 0.2016666722.69 <.0001 Error 9 0.08000000 0.00888889 Corrected Total 15 1.29000000 Itse asiassa, jos lohkovaikutusta ei huomioitaisi ja analyysi olisi tehty tavanomaisena yhden faktorin kokeena, olisi tulokset seuraavanlaisia: Sum of Source DF Squares Mean Square F Value Pr > F Model 3 0.38500000 0.12833333 1.70 0.2196 Error 12 0.90500000 0.07541667 Corrected Total 15 1.29000000 Näiden tulosten mukaan mittauskärkein antamilla tuloksilla ei olisi eroa, mikä olisi mitä ilmeisemmin virheellinen johtopäätös! R-Square Coeff Var Root MSE y Mean 0.937984 0.979542 0.094281 9.625000 Source DF Anova SS Mean Square F Value Pr > F tip 3 0.38500000 0.12833333 14.44 0.0009 coupon 3 0.82500000 0.27500000 30.94 <.000 Ensimmäisessä taulukossa on yhditetty testaus, jossa on käsittelyn ja lohkon vaikutus yhdessä. Alemmassa taulukossa käsittelyn ja lohkon vaikutukset ovat erikseen. Kaikki p-arvo ovat < 0.001, joten kärjet antavat erilaisia tuloksia. Samoin lohkovaikutuksella on merkitystä, joten se on syytä huomioida. 17 18 Keskiarvojen yksittäiset vertailut voidaan tehdä samalla tavalla kuin yhden faktorin kokeessa. Esimerkki 4.3: Tarkastellaan esimerkkinä LSDjaTukey vertailuja (proc anova käsky means tip / lsd tukey;) The ANOVA Procedure t Tests (LSD) for y NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate. Alpha 0.05 Error Degrees of Freedom 9 Error Mean Square 0.008889 Critical Value of t 2.26216 Least Significant Difference 0.1508 Means with the same letter are not significantly different. t Grouping Mean N tip A 9.87500 4 4 B 9.60000 4 2 B B 9.57500 4 1 B B 9.45000 4 3 Tukey s Studentized Range (HSD) Test for y NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher Type II error rate than REGWQ. Alpha 0.05 Error Degrees of Freedom 9 Error Mean Square 0.008889 Critical Value of Studentized Range 4.41490 Minimum Significant Difference 0.2081 Means with the same letter are not significantly different. Tukey Grouping Mean N tip A 9.87500 4 4 B 9.60000 4 2 B B 9.57500 4 1 B B 9.45000 4 3 Havaitaan, että eron aiheutta mittauskärki 4. 19 20

Mallin riittävyystarkastelut Residual normal probability plot and Residuals versus predicted values Residuaalit (18) ˆe ij = y ij ˆy ij = y ij (ˆμ +ˆτ i + ˆβ j ) = y ij y i. y.j + y.. jossa ˆμ = y..,ˆτ i = y i. y.. ja ˆβ j = y.j y... Residual plots against coupon and tip Näihin perustuen normaalisuus ja vakiovarianssisuus tarkastelut tehdään kuten kappaleessa 3. Huom 4.3: Havainnon y ij ennustearvo (19) ˆy ij = ˆμ +ˆτ i + ˆβ j = y.. +( y i. y..)+( y.j y..) = y i. + y.j y.. No obvious non-normalities or non-linearities. 21 22 4.2 Latinalaiset neliöt Asetelma: Latinalaisten neliöiden koeasetelmalla voidaan eliminoida kahden kiusatekijän vaikutus koetuloksista (havainnot ovat kahden taustatekijän suhteen mahdollisesti epähomogeenisia). Perusajatus: käytetään kiusafaktoreita (nuisance factors) lohkomuuttujina (blocking variables). (a) Käsittelyn (treatment) tasoja p ( 3). Molemmilla kiusafaktoreilla myös p luokkaa. (b) Muodostetaan kiusafaktoreiden luokkien mukaisesti p p taulukko. (c) Kullakin rivillä ja kullakin sarakkeella toteutetaan jokainen käsittely (treatment) täsmälleen kerran (kokeita yhteensä p 2 ja jokaisesta käsittelytasolta saadaan p havaintoa). Huom 4.4: Koeasetelmaa, jossa kullakin käsittely (treatment) tehdään täsmälleen kerran kussakin taustatekijöiden (blocking variables) määrittämässä solussa, sanotaan ortogonaaliseksi. 23 24

Etuja: (a) Yleisesti latinalaisten neliöiden koesuunnitelmilla (latinalaiset neliöt, kreikkalais-latinalaiset neliöt, hyper-kreikkalais-latinalaiset neliöt) voidaan eliminoida useamman kiusatekijän vaikutukset (b) Tarvitaan vain suhteellisen vähän koetoistoja (Latinalaisessa neliössä p 2 ). Rajoitteita: (a) Kiusatekijöillä täytyy olla täsmälleen yhtä monta tasoa kuin käsittelyfaktorilla (p tasoa) (b) Kiusatekijöiden välillä ei saa olla yhdysvaikutusta (interaction). Myöskään kiusatekijöiden ja käsittelyfaktorin ei saa olla yhdysvaikutuksia. 25 26 Esimerkki 4.4: Tarkastellaan suihkumoottoreille tarkoitetun viiden erilaisen polttoaineseoksen palamisominaisuuksia. Kustakin raaka-aineet-erästä saadaan valmistettua erä kutakin polttoaineseosta. Seokset on mahdollista teettää viidellä eri toimittajalla. Käsittelytekijänä (treatment) on siis seos ja taustatekijöinä (kiusafaktorit) raaka-aine-erät ja toimittajat. Koeasetelma: Valmistetaan kustakin raaka-aine-erästä jokaista seostyyppiä yksieräsiten,että kukin toimittaja valmistaa yhden erän jokaista seosta, joista kunkin muodostuu eri raaka-aine-eristä. Merkitään seoksia (käsittelyjä) aakkosilla A, B, C, D ja E, saadaan esitys, jota sanotaan latinalaiseksi neliöksi (latinalaiseten aakkosten vuoksi) Polttoaineen palamisominaisuudet ============================================================= Raaka-aine- Toimittaja (column) era (row) 1 2 3 4 5 ------------------------------------------------------------- 1 A = 24 B = 20 C = 19 D = 24 E = 24 2 B = 17 C = 24 D = 30 E = 27 A = 36 3 C = 18 D = 38 E = 26 A = 27 B = 21 4 D = 26 E = 31 A = 26 B = 23 C = 22 5 E = 22 A = 30 B = 20 C = 29 D = 31 ============================================================= Tärkeää on, että raaka-aineet ja toimittajat eri seoksille tulee valittua satunnaisesti. Yllä oleva neliö on yksi perusneliöistä. Permutoimalla sarakkeita ja rivejä saadaan muut neliöt. Satunnaistaminen toteutuu siten, että valitaan kaikista mahdollisita neliöistä toteutettava satunnaisesti. 27 28

Latinalaista neliötä, jossa ensimmäinen rivi ja sarake ovat aakkosjärjestyksessä sanotaan standardineliöksi (standard Latin square). Esimerkkeja standardineliosita: ================================================================= 3x3 4x4 5x5 6x6 ----------------------------------------------------------------- A B C A B C D A B C D E A B C D E F B C A B C D A B C D E A B C D E F A C A B C D A B C D E A B C D E F A B D A B C D E A B C D E F A B C E A B C D E F A B C D F A B C D E n of std squares 1 4 56 9408 total n of squares 12 576 161 280 818 851 200 number of runs 9 16 25 36 ================================================================= Tilastollinen malli: p p latinalaisen neliön malli havainnolle on muotoa (20) y ijk = μ + α i + τ j + β k + ε ijk, i =1,...,p (rivitekijä), j =1,...,p (käsittely [treatment]), k =1,...,p (saraketekijä). Esimerkki 4.5: (Jatkoa) Jos i =2,k = 3, niin j =4(=D) ja y 143 =30. Virhetermille pätee E[ε ijk ]=0jaVar[ε ijk ]=σ 2 ε. Kuten lohkokokeessa, α i, τ j ja β k ovat poikkeamia yleiskeskiarvosta ja summautuvat nolliksi. Perusoletuksena on siis, että tekijöiden (faktoreiden) välillä ei ole yhdysvaikutusta (interaction). 29 30 Havaintojen lukumäärä: N = p 2. Varianssitaulu: Varianssiahjoitelma: (21) SS tot = SS row + SS column + SS treat + SS err, jossa (22) SS tot = (y ijk y) 2, i,j,k p (23) SS row = p ( y i.. y) 2, i=1 p (24) SS col = p ( y..k y) 2, k=1 p (25) SS treat = p ( y.j. y) 2, j=1 (26) SS err = SS tot SS row SS col SS treat. Source ofsum ofdegrees ofmean variation squares freedom square F Treatments SS treat p 1 MS treat MStreat Rows SS row p 1 MS row MSrow Columns SS col p 1 MS col MScol Error SS err (p 2)(p 1) MS err Total SS tot p 2 1 Pääasiallinen kiinnostus on käsittelyn vaikutuksessa. Huom. 4.5: Varianssihajotelma noudattaa havaitun arvon y ijk dekomponointia (27) y ijk y... = ( y i. y...)+( y.j. y...)+( y..k y...) +(y ijk y i.. y.j. y..k +2 y...) eli (28) tot = row + treat + col + err. 31 32

Esimerkki 4.6: Polttoaine-esimerkki. SAS:lla toteutettuna ajovirta on seuraava: data propellant; input y batch treat $ operator; label y = "burning rate"; datalines; 24 1 A 1 17 2 B 1 18 3 C 1 26 4 D 1 22 5 E 1 20 1 B 2 24 2 C 2 38 3 D 2 31 4 E 2 30 5 A 2 19 1 C 3 30 2 D 3 26 3 E 3 26 4 A 3 20 5 B 3 24 1 D 4 27 2 E 4 27 3 A 4 23 4 B 4 29 5 C 4 24 1 E 5 36 2 A 5 21 3 B 5 22 4 C 5 31 5 D 5 ; proc anova data = propellant; class batch treat operator; model y = batch treat operator; run; Tulokset: The SAS System The ANOVA Procedure Class Level Information Class Levels Values batch 5 1 2 3 4 5 treat 5 A B C D E operator 5 1 2 3 4 5 Number of Observations Read 25 Number of Observations Used 25 The ANOVA Procedure Dependent Variable: y burning rate Sum of Source DF Squares Mean Square F Value Pr > F Model 12 548.0000000 45.66666674.28 0.0089 Error 12 128.0000000 10.6666667 Corrected Tot 24 676.0000000 R-Square Coeff Var Root MSE y Mean 0.810651 12.85821 3.265986 25.40000 Source DF Anova SS Mean Square F Value Pr > F batch 4 68.0000000 17.0000000 1.59 0.2391 treat 4 330.0000000 82.5000000 7.73 0.0025 operator 4 150.0000000 37.5000000 3.52 0.0404 33 34 Ylemmässä varianssitaulun F -testi testaa onko millään tekijällä vaikutusta. Alemman varianssitaulun F -testit testaavat kunkin yksittäisen tekijän vaikutusta. Tuloksista havaitaan, että eri seoksien keskimääräiset palamistulokset poikkeavat toisistaan tilastollisesti merkitsevästi. Lisäksi eri toimittajien seoksilla on vaikutusta palamistulokseen. Mallin (20) parametrien estimaattorit ovat (29) ˆμ = y = y... = 1 y ijk N i,j,k (30) ˆα i = y i.. y..., (31) ˆτ j = y.j. y..., (32) ˆβ k = y..k y... (33) ˆy ijk =ˆμ +ˆα i +ˆτ j + ˆβ k. Sen sijaan raaka-aine-erillä einäytä olevan vaikutusta. 35 36

Maliin riittävyyden tarkastelut: Jos malli on riittävä, residuaalit ovat puhtaasti satunnaisvaihtelua Esimerkki 4.6: Normal probability plot and residual versus predicted Residuaalit: (34) e ijk = y ijk ˆy ijk = y ijk y i.. y.j. y..k +2 y... Graafisilla tarkasteluilla saadaan yleissilmäys tilanteesta. Treatment versus residual and operator versus residual Normaaliisuus on jokseenkin ok, eikä ilmeisiä epälineaarisuuksia. 37 38 4.3 Kreikkalais-latinalaiset neliöt Kolme taustatekijää (nuisance factors). Käsitellään ne lohkomuuttujina. Asetelma: (a) Käsittelytasoja ja taustamuuttujien tasoja p ( 4). (b) Lähtökohtana p p latinalainen neliö, jonka päälle määritellään toinen latinalainen neliö. Käsittelyn tasoja merkitään kreikkalaisilla kirjaimilla (tästä nimi) ja kolmannen taustatekijän tasoja latinalaisilla kirjaimilla. Huom 4.6: Kysymyksessä jälleen ns. ortogonaalinen asetelma siinä mielessä, että kullakin taustatekijän tasolla käsittely toistetaan täsmälleen kerran. Tilastollinen malli: (35) y ijkl = μ + θ i + τ j + ω k + l + ε ijkl, i, j, k, l =1,...,p. Rivi: θ i (lohkotekijä) Sarake: l (lohkotekijä) Latinalainen aakkonen: τ j (treatment) Kreikkalainen aakkonen: ω k (lohkotekijä) D Sarakevaikutukset Rivi 1 2 3 4 1 Aα Bβ Cγ Dδ 2 Bδ Aγ Dβ Cα 3 Cβ Dα Aδ Bγ 4 γ Cδ Bα Aβ 39 40

Määrittelemällä kesiarvot indeksien yli kuten edellä, saadaan estimaattorit (36) ˆμ = y... = 1 y ijkl, N i,j,k,l jossa N = p 2 (37) ˆθ i = y i... y..., (38) ˆτ j = y.j.. y..., (39) ˆω k = y..k. y..., (40) ˆl = y...l y... ja sovitearvo (fitted value) (41) ˆy ijkl = ˆμ + ˆθ i +ˆτ j +ˆω k + ˆl = y... +( y i... y... )+( y.j.. y... ) +( y..k. y... )+( y...l y... ) Residuaali termi: (42) e ijkl = y ijkl ˆy ijkl Varianssitaulu: Source SS df MS F Latin SS latin p 1 MS latin MSlatin Greek SS greek p 1 MS greek MSgreek Rows SS row p 1 MS row MSrow Columns SS rol p 1 MS rol MSrol Error SS err (p 3)(p 1) MS err Total SS tot p 2 1 jossa esimerkiksi p (43) SS latin = p ( y.j.. y... ) 2 j=1 41 42 Esimerkki 4.7: Polttoaine-esimerkki. Oletetaan, että kokeet tehdään viidellä eri testimoottorilla, joiden mahdollinen vaikutus halutaan eliminoida. Identifioidaan moottorit kreeikkalaisilla aakkosilla ja oletetaan, että koe on toteutettu seuraavasti: Raaka-aine- Toimittaja (column) era (row) 1 2 3 4 5 1 Aα =24 Bγ =20 Cε =19 Dβ =24 Eδ =24 2 Bβ =17 Cδ =24 Dα =30 Eγ =27 Aε =36 3 Cγ =18 Dε =38 Eβ =26 Aδ =27 Bα =21 4 Dδ =26 Eα =31 Aγ =26 Bε =23 Cβ =22 5 Eε =22 Aβ =30 Bδ =20 Cα =29 Dγ =31 data propellant; input y batch treat $ operator assembly $; label y = "burning rate"; datalines; 24 1 A 1 alpha 172 B 1 beta 18 3 C 1 gamma 26 4 D 1 delta 22 5 E 1 epsilon 20 1 B 2 gamma 24 2 C 2 delta 38 3 D 2 epsilon 31 4 E 2 alpha 30 5 A 2 beta 19 1 C 3 epsilon 30 2 D 3 alpha 26 3 E 3 beta 26 4 A 3 gamma 20 5 B 3 delta 24 1 D 4 beta 272 E 4 gamma 273 A 4 delta 23 4 B 4 epsilon 29 5 C 4 alpha 24 1 E 5 delta 36 2 A 5 epsilon 21 3 B 5 alpha 22 4 C 5 beta 31 5 D 5 gamma ; proc anova data = propellant; class batch treat assembly operator; model y = batch treat assembly operator; run; 43 44

Results: The ANOVA Procedure Dependent Variable: y burning rate Sum of Source DF Squares Mean Square F Value Pr > F Model 16 610.0000000 38.1250000 4.62 0.0171 Error 8 66.0000000 8.2500000 Corrected Tot 24 676.0000000 R-Square Coeff Var Root MSE y Mean 0.90236711.30819 2.872281 25.40000 Source DF Anova SS Mean Square F Value Pr > F batch 4 68.0000000 17.0000000 2.06 0.1783 treat 4 330.0000000 82.5000000 10.00 0.0033 assembly 4 62.0000000 15.5000000 1.88 0.2076 operator 4 150.0000000 37.5000000 4.55 0.0329 Testimoottorilla (assemmpply) ei näytä olevan vaikutusta (p-arvo 0.2076). Parittaisten (ortogonaalisten) latinalaisten asetelma, joka muodostaa kreikkalais-latinalaisen neliön, voidaan yleistää edelleen. p p hyperneliö on koeasetelma, joka muodostetaan kolmesta tai useammmasta ortogonaalinen latinalaisesta neliöstä. p 1:stä ortogonaalisesta latinalaisesta neli - ostä voidaan muodostaa asetelma, jolla periaatteessa voidaan tutkia p +1:ntekijän vaikutusta. 45 46 4.4 Balansoitu epätäydellisen lohkokoe (Balanced Incomplete Block Design, BIBD) Kaikkia käsittelyitä (treatments) ei toteuteta jokaisessa lohkossa (epätäydellinen, incomplete). Kuitenkin kaikkia käsittelykombinaatioita pidetään yhtä tärkeinä. Tällöin koe toteutetaan site, että jokainen käsittelypari esiintyy yhtä monta kertaa (balansoitu [balanced] Koeasetelma: Periaatteessa koeasetelma voidaan toteuttaa siten, että valitaan (44) b = a ) a! = k k!(a k)! lohkoa ja totetutetaan kussakin yksi k alkion (käsittelyn) kombinaatio satunnaistetussa järjestyksessä. Huom. 4.7: Usein balanssi saadaan aikaiseksi pienemmällä kuin ( a k) lohkomäärällä. Kirjallisuudesta löytyy sopivia BIBD-taulukoita pienemmille lohkomäärille. Lähtökohta: Olkoon käsittelyn tasoja a ja jokaisessa lohkossa voidaan toteuttaa k<a koetta. 47 48

Esimerkki 4.7: Makesivalmistaja haluaa testata asiakkailla kuutta uutuustuotetta (A, B, C, D, E, F). Asiakkaita pyydetään maistamaan tuotteita ja pisteyttämään ne skaalalla 0 100. Satunnausistaminen on toteutettu siten, että kullekin tuotekombinaatio on jaettu satunnaisesti koehenkilöille ja maistamisjärjestys on permutoitu satunnaiseksi kunkin koehenkilön kohdalla. Käytännön syistä kutakin koehenkilöä pyydetään maistamaan neljää tuotetta. Kokeeseen valitaan b =15= ( 6 4) henkilöä (lohkot) =============================================== Koehenkilo Pistemaara (tuote) [lohko, block] [kasittely, treatment]) ----------------------------------------------- 1 51 (A) 55 (B) 69 (C) 83 (D) 2 48 (A) 87(D) 56 (E) 22 (F) 3 65 (B) 91 (C) 67(E) 35 (F) 4 42 (A) 48 (B) 65 (C) 43 (E) 5 36 (A) 58 (B) 69 (D) 7(F) 6 79 (C) 85 (D) 56 (E) 25 (F) 754 (A) 60 (B) 90 (C) 21 (F) 8 62 (A) 92 (C) 94 (D) 63 (E) 9 39 (B) 71 (D) 47 (E) 11 (F) 10 51 (A) 59 (B) 84 (D) 51 (E) 11 39 (A) 74 (C) 61 (E) 25 (F) 12 69 (B) 78 (C) 78 (D) 22 (F) 13 63 (A) 74 (B) 59 (E) 32 (F) 14 55 (A) 74 (C) 78 (D) 34 (F) 15 73 (B) 83 (C) 92 (D) 68 (E) =============================================== 49 50 Esittämällä havaintoaineisto seuraavasti nähdään selkeämmin koeasetelma. ========================================== Brand Block ---------------------------- Subj. A B C D E F Aver ------------------------------------------ 1 51 55 69 83.... 64.5 2 48.... 8756 22 53.3 3.. 65 91.. 6735 64.5 4 42 48 65.. 43.. 49.5 5 36 58.. 69.. 742.5 6.... 79 85 56 25 61.3 754 60 90.... 21 56.3 8 62.. 92 94 63.. 7.8 9.. 39.. 71 47 11 42.0 10 51 59.. 84 51.. 61.3 11 39.. 74.. 61 25 49.8 12.. 69 78 78.. 22 61.8 13 63 7 4.... 59 32 57.0 14 55.. 74 78.. 34 60.3 15.. 7 3 83 92 68.. 7 9.0 ------------------------------------------ Aver 50.1 60.0 79.5 82.1 57.1 23.4 58.7 = grand mean ========================================== BIBD:n tilastolinen analysointi Kästittelyjen lukumäärä: a. Lohkojen lukumäärä: b. Kussakin lohkossa k käsittelyä (k<a). Toistoja r, eli jokainen käsittely toistuu r kertaa. Havaintoja: N = ar = bk. Kukin käsittelypari esiintyy (45) λ = lohkossa. r(k 1) a 1 Jos a = b, sanotaan koeasetelmaa symmetriseksi. 51 52

Esimerkki 4.8: Makutesti. a =6,b =15,k =4,r =10, N =6 10 = 15 4=60 ja λ = 10(4 1) 6 1 = 30 5 =6. BIBD:n tilastollinen on samaa muotoa kuin RCBD:n (Randomized Complete Block Design), [kaava (1], eli (46) y ij = μ + τ i + β j + ε ij, jossa y ij on havainto i lohkossa j. Parametri μ on yleiskeskiarvo, τ i on käsittelyn i vaikutus, β j on lohkon j vaikutus ja ε ij on virhetermi. Jälleen a i=1 τ i =0ja b j=1 β j =0. Kokonaisvaihtelu voidaan dekomponoida joko (47) SS tot = SS treat(adj) + SS block + SS err, tai (48) SS tot = SS treat + SS block(adj) + SS err. 53 54 Varianssitaulu: Source SS df MS F SS treat(adj) ja SS block(adj) lasketaan tavalla, jossa huomioidaan, ettei kaikkia käsittelyjä ole toteutettu jokaisessa lohkossa. Treatment SS treat(adj) a 1 Block SS block(adj) b 1 Error SS err N a b +1 Total SS tot N 1 SS treat(adj) a 1 SS block(adj) b 1 F = MS treat(adj) F = MS block(adj) SAS:n proc glm ja SPSS:n General Linear Model estimoinnissa nämä saadaan Sum ofsquares Type III valinnoilla. Huom. 4.8: Yllä SS tot = SS treat(adj) + SS block(adj) + SS err, koska koeasetelma ei ole enää ortogonaalinen. 55 56

Teknisesti tämä tapahtuu siten, että estimoidaan ensin koko malli, jossa on molemmat efektit (treatment ja block). Estimointi tapahtuu regressiotekniikalla Vastaavsti SS block(adj) saadaan estimoimalla ensin treat efektin malli, josta (52) SS tot = SS model.treat + SS err.treat ja (53) SS block(adj) = SS model.full SS model.treat. Saadaan neliösummahajotelma (49) SS tot = SS model.full + SS err Estimoidaan seuraavaksi malli, jossa on vain block tekijä (50) SS tot = SS model.block + SS err.block SS treat(adj) saadaan erotuksena (51) SS treat(adj) = SS model.full SS model.block 57 58 Esimerkki 4.9: Makutesti SAS-toteutus, proc glm 7 7 47 Ensiksi luodaan data: data taste; input koehenkilo pisteet tuote $ @@; label koehenkilo = "block variable"; label tuote = "treatment variable"; datalines; 1 51 A 1 55 B 1 69 C 1 83 D 2 48 A 2 87 D 2 56 E 2 22 F 3 65 B 3 91 C 3 67 E 3 35 F 4 42 A 4 48 B 4 65 C 4 43 E 5 36 A 5 58 B 5 69 D 5 7 F 6 9 C 6 85 D 6 56 E 6 25 F 7 54 A 760 B 790 C 721 F 8 62 A 8 92 C 8 94 D 8 63 E 9 39 B 9 1 D 9 E 9 11 F 10 51 A 10 59 B 10 84 D 10 51 E 11 39 A 11 74 C 11 61 E 11 25 F 12 69 B 12 78 C 12 78 D 12 22 F 13 63 A 13 74 B 13 59 E 13 32 F 14 55 A 14 74 C 14 78 D 14 34 F 15 73 B 15 83 C 15 92 D 15 68 E ; run; Tulokset: The GLM Procedure Class Level Information Class Levels Values koehenkilo 15 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 tuote 6 A B C D E F Number of Observations Read 60 Number of Observations Used 60 The GLM Procedure Dependent Variable: pisteet Sum of Source DF Squares Mean Square F Value Pr > F Model 19 26600.91944 1400.04839 53.86 <.0001 Error 40 1039.68056 25.99201 Corrected Total 59 27640.60000 R-Square Coeff Var Root MSE pisteet Mean 0.962386 8.685241 5.098236 58.70000 Source DF Type III SS Mean Square F Value Pr > F koehenkilo 14 3555.91944 253.99425 9.77 <.0001 tuote 5 20154.31944 4030.86389 155.08 <.0001 Toteutetaan proc glm:llä proc glm data = taste; class koehenkilo tuote; model pisteet = koehenkilo tuote / ss3; run; quit; 59 60

Koska p-arvot jäävät pieniksi on selvästi pääteltävissä, että tuotteiden keskimääräiset pistemäärät poikkeavat toisistaan, eli jotkut tuotteest maistuvat selvästi paremmilta kuin toiset. Yksittäisten keskiarvojen tarkasteluilla (monivertailutestit) saadaan selville parhaimmin maistuvat tuotteet. Koehenkilöiden välillä onmyös eroa, joten tämän aiheuttaman vaihtelun huomiointi on perusteltua kokeessa. Keskiarvo vertailut (Tukey): The GLM Procedure Tukey s Studentized Range (HSD) Test for pisteet NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher Type II error rate than REGWQ. Alpha 0.05 Error Degrees of Freedom 40 Error Mean Square 25.99201 Critical Value of Studentized Range 4.23165 Minimum Significant Difference 6.8223 Means with the same letter are not significantly different. Tukey Grouping Mean N tuote A 82.100 10 D A A 79.500 10 C B 60.000 10 B B B 57.100 10 E C 50.100 10 A D 23.400 10 F 61 62 Tuotteiden D ja C makuominaisuuksissa ei ole merkittävää eroa. Samoin tuotteet B ja E ovat makuominaisuuksiltaan samanlaisia. Heikoimmin pärjää D, joka poikkeaa tilastollisesti merkitsevästi toisista. 63