7. Lohkominen ja sulautus 2 k kokeissa Lohkominen (Blocking) Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista. Esimerkiksi faktorikokeessa raaka-aine-erät muodostavat usein lohkotekijän. Esimerkki 7.1: Oletetaan, että esimerkissä 6.1 (2 2 asetelma), raaka-aine-erästä voidaan tehdä vainneljä koetta. Täten 12 kokeen (kolme toistoa per käsittelykombinaatio) toteuttamiseen tarvitaan kolme raaka-aineerää (kolme lohkoa). Huomattavaa on, että jokaisessa lohkossa toteutetaan täysi faktorikoe (kaikki käsittelykombinaatiot). Analyysi toteutetaan samalla tavalla kuin kappaleen 5 tapauksessa. 1 2
Lohkot on merkitty SAS-data osassa Block-muuttujalla, arvoina 1, 2 ja 3. options ls = 80; data chemicalprocess; input A B Block y @@; label A = "Reactant concenntration (15%= low, 25%= high)" B = "Catalyst (0.5kg = low, 1kg = high)" y = "Yield"; datalines; 15 0.5 1 28 15 0.5 2 25 15 0.5 3 27 25 0.5 1 36 25 0.5 2 32 25 0.5 3 32 15 1 1 18 15 1 2 19 15 1 3 23 25 1 1 31 25 1 2 30 25 1 3 29 ; run; Title "2ˆ2 factorial example with blocking"; proc glm data = chemicalprocess; class A B Block; model y = Block A B A*B /ss3; run; Tulokseksi saadaan The GLM Procedure Dependent Variable: y Yield Sum of Source DF Squares Mean Square F Value Pr > F Model 5 298.1666667 59.6333333 14.41 0.0027 Error 6 24.8333333 4.1388889 Corrected 11 323.0000000 R-Square Coeff Var Root MSE y Mean 0.923117 7.397912 2.034426 27.50000 Source DF Type III SS Mean Square F Value Pr > F Block 2 6.5000000 3.2500000 0.79 0.4978 A 1 208.3333333 208.3333333 50.34 0.0004 B 1 75.0000000 75.0000000 18.12 0.0053 A*B 1 8.3333333 8.3333333 2.01 0.2057 Havaitaan, että lohkotekijän vaikutus jää pieneksi, joten sen jättäminen pois ei juurikaan muutaisi tuloksisa. 3 4
Sulautus (Confounding, Aliasing) Jos lohkoissa ei ole mahdollista toteuttaa kaikkia faktorikokeen käsittelykombinaatiotita, voidaan käyttää tekniikkaa, jota sanotaan sulautukseksi (confounding). Esimerkiksi raaka-aine-erä ei riitä kaikkien käsittelykombinaatioiden valmistamiseen. Sulautuksessa täysi faktorikoe lohkotaan (allokoidaan lohkoihin), jossa lohkon koko (käsittelyjen määrä) on pienempi kuin täyden faktorikokeen käsittelykombinaatioiden määrä. Seuraus on, että tiettyjäkäsittelyvaikutuksia ei voida erottaa lohkovaikutuksista (sulautuvat lohkoihin). Tällöin kussakin lohkossa voidaan toteuttaa vain vajaa faktorikoe (vähemmän käsittelykombinaatioita kuin 2 k ). Kysymyksessä on siis epätäydellisen lohkokokeen asetelma. 5 6
Yleinen tilanne 2 k faktorikoe 2 p vajaata lohkoa (incomplete blocks), jossa p<k 2 k faktoriasetelman sulautus kahdessa lohkossa Sulautuksessa koe tehdään (esimerkiksi) siten, että käsittelyt A B ja A + B + toteutetaan toisessa lohkossa ja A B + ja A + B toisessa lohkossa (käsittelyjärjestykset satunnaistetaan). Designmatriisin avulla ilmaistuna asia on seuraava (oletetaan, että AB = +1 allokoidaan lohkoon 1 ja AB = 1 lohkoon 2) p =1: 2 1 = 2 lohkoa. Jos k =2,täydessä lohkokokeessa tarvittaisiin 2 2 =4käsittelyä. A B AB Block -1-1 +1 1 +1-1 -1 2-1 +1-1 2 +1 +1 +1 1 7 8
Havaitaan, että yhdysvaikutukset, kun A ja B ovat saman merkkiset (AB = +1), ovat samassa lohkossa. Samoin yhdysvaikutukset, kun A ja B ovat vastakkaismerkkisiä (AB = 1), ovat samassa lohkossa. Tällöin lohkovaikutus ja AB vaikutus ovat identtisiä (AB on sulautettu lohkoihin). Tämä nähdään seuraavasti: 2 2 kokeen solukeskiarvot ovat: B 1 +1 A 1 y 11. y 12. +1 y 21. y 22. Yhdysvaikutus on (1) AB interact =( y 12. + y 21. ) ( y 11. + y 22. ) Jos keskiarvot merkitään edellä esitetyndesignmatriisin vastaaville riveille saadaan esitys A B AB Block Cell average -1-1 +1 1 y 11. +1-1 -1 2 y 21. -1 +1-1 2 y 12. +1 +1 +1 1 y 22. Lohkovaikutus saadaan erotuksena lohkon 2 arvojen summasta ja lohkon 1 arvojen summasta, Block effect =( y 12. + y 21. ) ( y 11. + y 22. ), (2) eli täsmälleen sama kuin AB interact. 9 10
Vaihtoehtoisesti olisi voitu päävaikutukset sulauttaa lohkoihin. Käytäntö on, että korkeimman asteen yhdysvaikutukset sulautetaan. Esimerkki 7.2: 2 4 kokeen yhdysvaikutustermin ABCD sulautus kahden lohkon tapauksessa. Muodostetaan lohko 1 käsittelykombinaatioista, joissa ABCD =1ja lohkon 2, kun ABCD = 1. Tällöin A B C D ABCD Block -1-1 -1-1 +1 1 +1-1 -1-1 -1 2-1 +1-1 -1-1 2 +1 +1-1 -1 +1 1-1 -1 +1-1 -1 2 +1-1 +1-1 +1 1-1 +1 +1-1 +1 1 +1 +1 +1-1 -1 2-1 -1-1 +1-1 2 +1-1 -1 +1 +1 1-1 +1-1 +1 +1 1 +1 +1-1 +1-1 2-1 -1 +1 +1 +1 1 +1-1 +1 +1-1 2-1 +1 +1 +1-1 2 +1 +1 +1 +1 +1 1 Havaitaan, että sulautettua tekijää voidaan käyttää regressiossa lohkomuuttujana. 11 Seuraava esimerkki valaisee, että sulautettu tekijä ja lohkovaikutus todellakin yhdistyvät sulautuksessa toisiinsa niin, ettei estimoidusta arvosta voida identifioida kummasta on kysymys. Esimerkki 7.3: Tarkastellaan esimerkin 6.4 aineistoa. y: suodatusnopeus (filtration rate gal/h) A: lämötila (temperature), B: paine (pressure), C: formaldehydi (concentration of formaldehyde) D: sekoitusnopeus (stirring rate). Aineistosta laskettuna yhdysvaikutukseeksi saatiin ABCD =0.6875 (regressiokertoimen avulla ilmaistuna, mikä tässä tapauksessa, kun tasot ovat ±1, tarkoittaa poikkeamaa yleiskeskiarvosta, jolten kokonaisvaikutus on 2 0.6875 = 1.375). 12
Oletetaan seuraavassa, että yksi raaka-aine-erä riittää vain kahdeksaan käsittelykombinaatioon, joten faktorikokeen tarvitseman 2 4 =16käsittelykombinaation toteuttamiseksi tarvitaan kaksi raaka-aine-erää. Oletetaan, että erä 1 on heikompilaatuista, jossa tulokset ovat systemaattisesti 20 yksikköä alemmat kuin erästä 2 saadut tulokset (vähennetään esimerkin 6.4 lohkoon 1 kuuluvista arvoista 20). Data: ======================== A B C D Block y ----------------------- -1-1 -1-1 1 25 +1-1 -1-1 2 71-1 +1-1 -1 2 48 +1 +1-1 -1 1 45-1 -1 +1-1 2 68 +1-1 +1-1 1 40-1 +1 +1-1 1 60 +1 +1 +1-1 2 65-1 -1-1 +1 2 43 +1-1 -1 +1 1 80-1 +1-1 +1 1 25 +1 +1-1 +1 2 104-1 -1 +1 +1 1 55 +1-1 +1 +1 2 86-1 +1 +1 +1 2 70 +1 +1 +1 +1 1 76 ======================= 13 14
Faktoriefektit (estimaatit) ========================== Effect Estimate -------------------------- A 21.625 B 3.125 A*B 0.125 C 9.875 A*C -18.125 B*C 2.375 A*B*C 1.875 D 14.625 A*D 16.625 B*D -0.375 A*B*D 4.125 C*D -1.125 A*C*D -1.625 B*C*D -2.625 A*B*C*D -18.625 =========================== Eli näitä kahta vaikutusta ei voida erottaa toisistaan. Tämän takia sulautettavaksi tekijäksi on hyvä valita tekijä, jonka vaikutuksen oletetaan olevan käytännön kannalta merkityksetön. Lohkominen on tässä erittäin tärkeää. Jos lohkomista ei olisi suoritettu, vaan satunnaisteminen olisi tehty kaikkien 16 käsittelykombinaatioiden yli, huonompilaatuisesta raaka-aineesta valmistetut kokeet harhauttavat tuloksia. Kaikkien muiden tekijöiden vaikutukset pysyvät samana kuin esimerkissä 6.4 (2 x regressioestimaatti), lukuun ottamatta ABCD tekijää, joka sisältää myös lohkovaikutuksen ( 20). ABCD = todellinen yhdysvaikutus + lohkovaikutus = 1.375 + ( 20) = 18.625. Esimerkkinä tästä käy yllä oleva tilanne. Kuvitellaan, että satunnaistaminen olisi juuri sattunut tuottamaan yllä olevan käsittelyjärjestyksen. Lohkovaikutus (huono raaka-aine) tulkittaisiin silloin korkeana ABCD yhdysvaikutuksena! Yleinen ohje: When in doubt, block. 15 16
2 k kokeen sulautus neljän (p = 2) lohkon tapauksessa Lohkottaessa neljään lohkoon, kussakin lohkossa on 2 k 2 käsittelyä. Asetelma soveltuu, kun tekijöitä on suurehko määrä k 4. Tällöin valitaan kaksi tekijää, joiden perusteella lohkotaan. Esimerkki 7.4: Kun k =5 ja p =2, 2 5 koeasetelma lohkossa on 2 3 =8käsittelyä. Jos muodostetaan ADEja BCElohkotekijöiksi, myös (ADE)(BCE) =ABCDE 2 = ABCD tekijä sulautuu. Lohko 1: ADC =1,BCE =1 Lohko 2: ADC = 1, BCE =1 Lohko 3: ADC =1,BCE = 1 Lohko 4: ABC = 1, BCE = 1 Tekijät on valittava huolella, sillä tekijä, joka muodostuu näiden tulona sulautuu myös lohkoihin. 17 18
Yleisessä tapauksessa [lohkoja 2 p,käsittelyjä per lohko 2 k p (p<k)], on olmassa tiettyjä suosituksia tekijöistä, joiden perusteella lohkot muostetaan. Osittainen sulautus Jos käsittelyjä toistetaan (n >1), voidaan lohkot muodostaa eri tekijöillä eri toistoissa. Nämä täytyy kuitenkin ratkoa tapauskohtaisesti, ettei sulauteta tutkimuksen kannalta tärkeitä yhdysvaikutustekijöitä. Etuna on, että voidaan estimoida lohkojen muodostuksessa käytetyt yhdysvaikutukset toistoista, joissa on käytetty eri tekijöitä lohkomiseen. 19 20
Esimerkki 7.5: Tarkasellaan 2 3 faktorikoetta, jossa toistoja on n =4 ja p = 1, eli lohkoja 2 1 =2 kappaletta. Tällöin sulautettavat tekijät voidaan valita siten, että ensimmäisessä toistossa sulautetaan ABC, toisessa AB, kolmannessa AC ja neljännessä BC. Analyysi voidaan toteuttaa siten, että SS A, SS B, SS C lasketaan koko aineisosta, SS AB toistoista I, III ja IV, SS AC toistoista I, II ja IV, SS BC toistoista I, II ja III sekä SS ABC toistoista II, III ja IV. Varianssitaulu: Source SS df MS F Replicates SS repl 3 MS repl Blocks within replicates SS block 4 MS block A SS A 1 MS A MS A B SS B 1 MS A MS A C SS C 1 MS A MS A AB (I&III&IV) SS AB 1 MS AB MS AB AC (I&II&IV) SS AC 1 MS AC MS AC BC (I&II&III) SS BC 1 MS BC MS BC ABC (II&III&III) SS ABC 1 MS ABC MS ABC Error SS err 17 Total SS tot 31 SS block = SS ABC (repl I) + SS AB (repl II) +SS AC (repl III) + SS BC (repl IV) 21 22
Esimerkki 7.6: Kemiallisen prosessin tuottavuuden parantamiseksi tarkastellaan faktorikokeella neljän kontrolloitavan tekijän (A, B, C, D) vaikutusta tuotokseen (y). Yhdestä raaka-aine-erästä saadaan valmistettua 8 koeerää, joten täyden faktorikokeen (2 4 = 16) toteuttamiseksi tarvitaan kaksi raaka-aine-erää. Jokaisesta käsittelystä tehdään kaksi toistoa, joten raaka-aine-eriä tarvitaan neljä. Sulautettaviksi tekijöiksi valitaan ensimmäisessä toistossa ABCD ja toisessa toistossa ABC. options ls = 80; data example76; input A B C D R y @@; label y = "yield of a chemical process" R = "replicate"; datalines; -1-1 -1-1 1 90-1 -1-1 -1 2 93 +1-1 -1-1 1 74 +1-1 -1-1 2 78-1 +1-1 -1 1 81-1 +1-1 -1 2 85 +1 +1-1 -1 1 83 +1 +1-1 -1 2 80-1 -1 +1-1 1 77-1 -1 +1-1 2 78 +1-1 +1-1 1 81 +1-1 +1-1 2 80-1 +1 +1-1 1 88-1 +1 +1-1 2 82 +1 +1 +1-1 1 73 +1 +1 +1-1 2 70-1 -1-1 +1 1 98-1 -1-1 +1 2 95 +1-1 -1 +1 1 72 +1-1 -1 +1 2 76-1 +1-1 +1 1 87-1 +1-1 +1 2 83 +1 +1-1 +1 1 85 +1 +1-1 +1 2 86-1 -1 +1 +1 1 99-1 -1 +1 +1 2 90 +1-1 +1 +1 1 79 +1-1 +1 +1 2 75-1 +1 +1 +1 1 87-1 +1 +1 +1 2 84 +1 +1 +1 +1 1 80 +1 +1 +1 +1 2 80 ; run; 23 24
* COMMENT: Sort observations by replicate; proc sort data = example76; by r; run; * COMMENT: Run GLM by group in order to obtain SS(ABCD) * from replicate I and SS(ABC) from replicate II. * The within replicate Sum of Squares is * obtained as the sum of SS(ABCD) form * replicate II and SS(ABC) from repicate I; Title "2k blocking example ABCD confounded in replicate I and ABC in replicate II"; proc glm data = example76; by r; * Run analysis group wise by replicate r; class A B C D; model y = A B C D /ss3; run; * COMMENT: Run GLM for the combined data to obtain the rest * of the Sum of Squares * Using variable R (replicate indicator) gives the sum of * squares between replicates; proc glm data = example76; class R A B C D; model y = R A B C D@2 A*B*D A*C*D B*C*D /ss3; run; Kokoamalla tulokset varianssitauluun saadaan: =============================================================== Source df SS MS F p-val --------------------------------------------------------------- Between Replics 1 11.3 11.3 1.46 0.2489 Block (ABCD rep I + ABC rep II) 2 118.8 59.4 7.67 0.0063 A 1 657.0 657.0 84.86 0.0000 B 1 13.8 13.8 1.78 0.2051 C 1 57.8 57.8 7.46 0.0171 D 1 124.0 124.0 16.02 0.0015 AB 1 132.0 132.0 17.05 0.0012 AC 1 3.8 3.8 0.49 0.4970 BC 1 2.5 2.5 0.33 0.5772 AD 1 38.3 38.3 4.94 0.0445 BD 1 0.3 0.3 0.04 0.8518 CD 1 22.8 22.8 2.94 0.1100 ABC (from repl I) 1 144.0 144.0 18.60 0.0008 ABD 1 175.8 175.8 22.70 0.0004 ACD 1 7.0 7.0 0.91 0.3580 BCD 1 7.0 7.0 0.91 0.3580 ABCD (from repl II) 1 10.6 10.6 1.36 0.2638 Error 13 100.7 7.7 --------------------------------------------------------------- Total 31 1627.5 =============================================================== Havaitaan, että lohkominen on ollut tarpeen tässä. ABC on myös tilastollisesti merkitsevä. 25 26