6. 2 k faktorikokeet Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). Vähintään 2 k havaintoa, jotta kaikki vaihtoehdot tulee katettua (complete replicate). Havaintojen kokonaismäärä N =2 k n, jossa n toistojen määrä per faktoritasokombinaatio (balansoidussa)kokeessa. Oletukset: (1) faktorit kiinteitä (fixed factors), (2) asetelma on täysin satunnaistettu (completely randomized design) Esimerkki 6.1: Tarkastellaan seoksen väkevyysasteen (A, prosennteina) ja katalyytin määrän (B, kilogrammoina) vaikutusta kemiallisessa prosessissa saatavan tuotoksen määrään (y, mitattu sopivassa yksikössä). A: 15% ( low = 1 ), 25% ( high = + 1 ) B: 0.5kg ( low = 1 ), 1kg ( high = +1 ). Toistoja: n =3, Data: ============================================================= Toisto Kasittely- ----------------------------- A B kombinaatio I II III Total ------------------------------------------------------------- -1-1 A low, B low 28 25 27 80 +1-1 A high, B low 36 32 32 100-1 +1 A low, B high 18 19 23 60 +1 +1 A high, B high 31 30 29 90 ============================================================= (3) virhetermi N(0,σ 2 )-jakautunut. Yleisessä tarkastelussa vastemuuttujaa (response variable) merkitään y:llä ja faktoreita A, B, C,... 1 2 Koe on satunnaistettu siten, että jokaisella toistolla permutoidaan ensin rivit satunnaisesti ja tehdään käsittelyt (runs). Matriisia Factor Run A B 1 1 1 2 +1 1 3 1 +1 4 +1 +1 sanotaan designmatriisiksi. Analyysi toteutetaan kuten edellisessä kappaleessa. SAS-ajo: options ls = 80; data chemicalprocess; input A B y @@; label A = "Reactant concentration (15% = low, 25% = high)" B = "Catalyst (0.5kg = low, 1kg = high)" y = "Yield"; datalines; 15 0.5 28 15 0.5 25 15 0.5 27 25 0.5 36 25 0.5 32 25 0.5 32 15 1 18 15 1 19 15 1 23 25 1 31 25 1 30 25 1 29 ; Title "2ˆ2 factorial example"; proc glm data = chemicalprocess; class A B; model y = A B A*B; 3 4
Tulokset The GLM Procedure Class Level Information Class Levels Values A 2 15 25 B 2 0.5 1 Number of Observations Read 12 Number of Observations Used 12 2ˆ2 factorial example The GLM Procedure Dependent Variable: y Yield Sum of Model 3 291.6666667 97.2222222 24.82 0.0002 Error 8 31.3333333 3.9166667 Total 11 323.0000000 0.902993 7.196571 1.979057 27.50000 A 1 208.3333333 208.3333333 53.19 <.0001 B 1 75.0000000 75.0000000 19.15 0.0024 A*B 1 8.3333333 8.3333333 2.13 0.1828 Yhdysvaikutus ei ole tilastollisesti merkitsevä, joten se voidaan jättää pois mallista. Kun faktorit ovat kvantitatiivisia, voidaan käyttää myös regressioanalyysia. Tulokseksi saadaan n.s. vastepinta (response surface), jota voidaan käyttää ennustamaan y:n arvoja millä tahansa väkevöitysasteella ja katalyytin määrällä. Jättämällä yhdysvaikutustekijä pois, on estimoitava regressiomlli muotoa (1) y = β 0 + β A A + β B B + ε. proc glm data = chemicalprocess; model y = A B; 0.877193 7.634119 2.099383 27.50000 Parameter Estimate Error t Value Pr > t Intercept 18.33333333 3.09020755 5.93 0.0002 A 0.83333333 0.12120791 6.88 <.0001 B -10.00000000 2.42415825-4.13 0.0026 5 6 Huom. 6.1: Edellä esitetty designmatriisi on ortogonaalinen (A:n ja B:n sisätulo on nolla). Tällaista koeasetelmaa sanotaan ortogonaaliseksi (toistoja n kappaletta kaikilla faktoritasojen kombinaatioilla). Huom. 6.2: Regressioanalyysi voidaan toteuttaa myös käyttämällä designmatriisin sarakkeita sellaisenaan selittävinä muuttujina. Yhdysvaikutustekijää vastaava selittävä muuttuja on tällöin A B = 1 1 1 1 Esim. 6.2: Määritellään { 1, jos A =15 { 1, jos B =0.5 x 1 = 1, jos A =25 x 2 = 1, jos B =1 jolloin regressiomalli on y = β 0 + β 1 x 1 + β 2 x 2 + β 12 x 1 x 2 + ε. data cp2; * Muodostetaan uusi tiedosto; set chemicalprocess; if (a = 15) then x1 = -1; else x1 = 1; if (b = 1) then x2 = -1; else x2 = 1; Title "2ˆ2 factorial as a regression model"; proc glm; model y = x1 x2 x1*x2; Laadullisesti kaikki vaihtoehdot (ANOVA, response surface, regression) johtavat samaan tulokseen. 7 8
Dependent Variable: y Yield Sum of Model 3 291.6666667 97.2222222 24.82 0.0002 Error 8 31.3333333 3.9166667 Corrected 11 323.0000000 0.902993 7.196571 1.979057 27.50000 x1 1 208.3333333 208.3333333 53.19 <.0001 x2 1 75.0000000 75.0000000 19.15 0.0024 x1*x2 1 8.3333333 8.3333333 2.13 0.1828 Standard Parameter Estimate Error t Value Pr > t Intercept 27.50000000 0.57130455 48.14 <.0001 x1 4.16666667 0.57130455 7.29 <.0001 x2 2.50000000 0.57130455 4.38 0.0024 x1*x2-0.83333333 0.57130455-1.46 0.1828 Yleinen 2 k malli Yleisessä 2 k faktorikokeen asetelmassa (factorial design) on k päävaikutusta, k 2 ) toisen asteen yhdysvaikutustermiä, ) k kolmannen asteen yhdysvaikutustermiä, 3 yksi k:n tekijän yhdysvaikutustermi. Yhteensä termejäon2 k 1 (yleiskeskiarvon lisäksi). Yhdelläkin toistolla kokeita on tehtävä 2 k kappaletta, jotta kaikki vaihtoehdot tulee testatuksi. 9 10 Kokeen toteuttamiseksi laaditaan ensin standardi designmatriisi (standard design matrix), joka saadaan lisäämällä faktori kerrallaan ja yhdistämällä se muihin faktoreihin. Esimerkki 6.2: 2 4 faktorikokeen standardi designmatriisi + + + + + + + + + ============================ Factor -------------- Row A B C D ============================ 1-1 -1-1 -1 2 1-1 -1-1 3-1 + 1-1 -1 4 1 + 1-1 -1 5-1 -1 1-1 6 1-1 1-1 7-1 + 1 1-1 8 1 + 1 1-1 9-1 -1-1 1 10 + 1-1 -1 + 1 11-1 +1-1 +1 12 + 1 + 1-1 + 1 13-1 -1 +1 +1 14 + 1-1 + 1 + 1 15-1 +1 +1 +1 16 + 1 + 1 + 1 + 1 ============================ Satunnaistaminen toteutetaan permutoimalla rivit satunnaiseen järjestykseen. 11 Varianssitaulu (toistoja n): Source SS df MS F Main effect A SS A 1 MS A MSA Main effect B SS B 1 MS B MSB Main effect C SS C 1 MS C MSC Main effect D SS D 1 MS D MSD Interaction AB SS AB 1 MS AB MSAB Interaction AC SS AC 1 MS AC MSAC Interaction AD SS AD 1 MS AD MSAD Interaction BC SS BC 1 MS BC MSBC Interaction BD SS BD 1 MS BD MSBD Interaction CD SS CD 1 MS CD MSCD Interaction ABC SS ABC 1 MS ABC MSABC Interaction ABD SS ABD 1 MS ABD MSABD Interaction ACD SS ACD 1 MS ACD MSACD Interaction BCD SS BCD 1 MS BCD MSBCD Interaction ABCD SS ABCD 1 MS ABCD MSABCD Error SS err 2 k (n 1) MS err Total SS tot 2 4 n 1 12
Huom. 6.3: Koska pää- ja yhdysvaikutustermien vapausasteet ovat 1, SS ja MS ovat samat. MS err = SS err/[16(n 1)] (2 4 = 16). 2 k kokeen toteutus: 1. Estimoidaan faktoriefektit 2. Muodostetaan perusmalli a) jos toistoja, estimoidaan täysi malli b) jos ei toistoja, valitaan tekijät normaalijakaumatestillä 3. Testataan tekijöiden tilastolliset merkitsevyydet 4. Poistetaan tarpeettomat tekijät ja estimoidaan lopullinen malli 5. Analysoidaan residuaalit 6. Tulkitaan mallin tulokset 13 14 Esimerkki 6.3: Nikkelin ja titaniumin seoksesta valmistetun metallin (mm. lentokoneen moottoreissa) murtumat. Taustatekijöitä: A pouring temperature, B titanium content, C heat treatment method ja D amount of grain refiner used. Vastemuuttuja y the length of crack in mm 10 2 induced in a sample coupon subject to a standard test. Toistoja n = 2 jokaisella käsittelykombinaatiolla. Kysymyksessä on2 4 täysin satunnaistettu faktorikoe. Design matriisi, käsittelyjärjestykset ja mittaukset: ==================================================== Run order Replicate --------------- -------------------- A B C D Repl I Repl II I II ---------------------------------------------------- -1-1 -1-1 16 13 7.309 6.376 +1-1 -1-1 12 14 14.707 15.219-1 +1-1 -1 11 9 11.635 12.089 +1 +1-1 -1 13 10 17.273 17.815-1 -1 +1-1 4 12 10.403 10.151 +1-1 +1-1 9 11 4.368 4.098-1 +1 +1-1 5 8 9.360 9.253 +1 +1 +1-1 6 4 13.440 12.923-1 -1-1 +1 3 7 8.561 8.951 +1-1 -1 +1 2 6 16.867 17.052-1 +1-1 +1 14 3 13.876 13.658 +1 +1-1 +1 8 16 19.824 19.639-1 -1 +1 +1 7 1 11.846 12.337 +1-1 +1 +1 15 2 6.125 5.904-1 +1 +1 +1 1 5 11.190 10.935 +1 +1 +1 +1 10 15 15.653 15.053 ===================================================== 15 16
SAS-analyysi options ls = 80; data titanium; input y @@; /* muodostetaan design matriisi*/ if (mod(int((_n_+1)/2),2)=0) then A = 1; else A = -1; if (mod(int((_n_+1)/2),4)=0) (mod(int((_n_+1)/2)+1,4)=0) then B = 1; else B = -1; if (mod(int((_n_+1)/2),8)=0) (mod(int((_n_+1)/2)+1,8)=0) (mod(int((_n_+1)/2)+2,8)=0) (mod(int((_n_+1)/2)+3,8)=0) then C = 1; else C = -1; if (int((_n_+1)/2) < 9) then D = -1; else D = 1; label y = "Crack length (mm x 10e-2)" A = "Pouring temperature" B = "Titanium content" C = "Heat treatment method" D = "Grain refiner used"; datalines; 7.037 6.376 14.707 15.219 11.635 12.089 17.273 17.815 10.403 10.151 4.368 4.098 9.360 9.253 13.440 12.923 8.561 8.951 16.867 17.052 13.876 13.658 19.824 19.639 11.846 12.337 6.125 5.904 11.190 10.935 15.653 15.053 ; Title "Nickel-titan alloy cracks data (2ˆ4 faktorial design)"; proc glm data = titanium; class A B C D; model y = A B C D; 17 18 Nickel-titan alloy cracks data (2ˆ4 faktorial design) The GLM Procedure Class Level Information Class Levels Values A 2-1 1 B 2-1 1 C 2-1 1 D 2-1 1 Number of Observations Read 32 Number of Observations Used 32 Dependent Variable: y The GLM Procedure Crack length (mm x 10e-2) Sum of Model 15 570.9475379 38.0631692 468.99 <.0001 Error 16 1.2985540 0.0811596 Corrected 31 572.2460919 0.997731 2.376408 0.284885 11.98806 A 1 72.9088501 72.9088501 898.34 <.0001 B 1 126.4606561 126.4606561 1558.17 <.0001 A*B 1 29.9267161 29.9267161 368.74 <.0001 C 1 103.4641125 103.4641125 1274.82 <.0001 A*C 1 128.4964805 128.4964805 1583.26 <.0001 B*C 1 0.0737280 0.0737280 0.91 0.3547 A*B*C 1 78.7512500 78.7512500 970.33 <.0001 D 1 30.6622805 30.6622805 377.80 <.0001 A*D 1 0.0468180 0.0468180 0.58 0.4586 B*D 1 0.0178605 0.0178605 0.22 0.6453 A*B*D 1 0.0768320 0.0768320 0.95 0.3450 C*D 1 0.0472781 0.0472781 0.58 0.4564 A*C*D 1 0.0029261 0.0029261 0.04 0.8518 B*C*D 1 0.0101531 0.0101531 0.13 0.7282 A*B*C*D 1 0.0015961 0.0015961 0.02 0.8902 19 Mikään interaktiotekijä, jossa D on mukana, ei ole tilastollisesti merkitsevä. Kolmannen asteen tekijöistä ABC on tilastollisesti merkitsevä. Yleinen tapa on, että pysytelään hierarkisissa malleissa, jolloin korkeinta astetta olevan termin kaikki alemmat termit säilytetään lopullisessa mallissa. Poistamalla muut tilastollisesti ei-merkitsevät tekijät estimoidaan seuraavaksi malli, jossa on ABC ja kaikki alemman asteen termit sekä D:n päävaikutus (main effect). Regressioestimoinnilla saadaan myös kertoimet. 20
Nickel-titan alloy cracks data (2ˆ4 faktorial design) The GLM Procedure Dependent Variable: y Crack length (mm x 10e-2) Sum of Model 8 570.7440739 71.3430092 1092.46 <.0001 Error 23 1.5020180 0.0653051 Corrected 31 572.2460919 Tekijän C, heat treatment method, vaikutus on negatiivinen samoin kuin AC interactioterimin. Tarkastellaan seuraavaksi mallin riittävyyttä. 0.997375 2.131693 0.255549 11.98806 A 1 72.9088501 72.9088501 1116.43 <.0001 B 1 126.4606561 126.4606561 1936.46 <.0001 A*B 1 29.9267161 29.9267161 458.26 <.0001 C 1 103.4641125 103.4641125 1584.32 <.0001 A*C 1 128.4964805 128.4964805 1967.63 <.0001 B*C 1 0.0737280 0.0737280 1.13 0.2990 A*B*C 1 78.7512500 78.7512500 1205.90 <.0001 D 1 30.6622805 30.6622805 469.52 <.0001 Normaalisuus on jokseenkin ok, eikä heteroskedastisuutta ole havaittavissa. Standard Parameter Estimate Error t Value Pr > t Intercept 11.98806250 0.04517505 265.37 <.0001 A 1.50943750 0.04517505 33.41 <.0001 B 1.98793750 0.04517505 44.01 <.0001 A*B 0.96706250 0.04517505 21.41 <.0001 C -1.79812500 0.04517505-39.80 <.0001 A*C -2.00387500 0.04517505-44.36 <.0001 B*C 0.04800000 0.04517505 1.06 0.2990 A*B*C 1.56875000 0.04517505 34.73 <.0001 D 0.97887500 0.04517505 21.67 <.0001 21 22 Jos tavoitteena on saada seos, jossa murtumat (cracks) ovat mahdollisimman pieniä, löytyy kombinaatio suoraan etsimällä vaihtoehto, jossa keskiarvo on pienin. Yleisessä tapauksessa tämä ja muut vaihtoehdot saadaan ennustettua regressiomallia, jonka kerroinestimaatit on tulostuksen alimmassa taulukossa. Alla on ennusteet eri kombinaatioilla. Minimi löytyy tekijäntasoilla A = 1, B = -1, C = 1, D = -1 y 2121. =4.2 ja ˆy 2121 =4.1. Ero (pieni) keskiarvon ja regressioennusteen välillä johtuu siitä, että malli ei ole saturoitu (saturoitu malli = malli, jossa kaikki päävaikutus ja yhdysvaikutustermit) ===================================== A B C D mean(y) pred (y) ------------------------------------- -1-1 -1-1 6.7 6.8 1-1 -1-1 15.0 15.0-1 1-1 -1 11.9 11.8 1 1-1 -1 17.5 17.7-1 -1 1-1 10.3 10.2 1-1 1-1 4.2 4.1-1 1 1-1 9.3 9.2 1 1 1-1 13.2 13.3-1 -1-1 1 8.8 8.7 1-1 -1 1 17.0 16.9-1 1-1 1 13.8 13.8 1 1-1 1 19.7 19.6-1 -1 1 1 12.1 12.2 1-1 1 1 6.0 6.1-1 1 1 1 11.1 11.2 1 1 1 1 15.4 15.2 ==================================== 23 24
Jos yhdysvaikutstekijöitä ei huomioitaisi, päävaikutusten ( yksi tekijä kerrallaan asetelma) johtaisi, tilanteeseen, jossa malli ennustaisi parhaan tuloksen käsittelykombinaatiolla A = -1, B = -1, C = 1, D = -1, y pred =5.7, kun tilastollisesti merkitsevät yhdysvaikutusterimit sisältävä malli ennustaa y pred =10.2! Tarkastellaan vielä yhdysvaikutustermejä hieman lähemmin. Tarkastellaan AB, AC, BC ja ABC yhdysvaikutuksia. Erityisesti BC ei ole tilastollisesti merkitsevä. Jos yhdysvaikutusta ei ole, niin kyseisten tekijöiden vaikutus vastemuuttujaan on samansuuntaista (parallel) siiryttäessä käsittelyn tasolta toiselle. Yhdysvaikutuksen tapauksessa profiilien suunnat poikkeavat toisistaan. Profiels of A class means given B treatment Profiels of A class mean profiles given C treatment Profiels of B class mean profiles given C treatment 20 20 20 15 15 15 10 10 10 5 A- A+ B- 9.5 10.5 B+ 11.5 16.5 5 A- A+ C- 10.3 17.3 C+ 10.7 9.7 5 B- B+ C- 11.8 15.7 C+ 8.2 12.2 B:n ja C:n välillä ei siis ole yhdysvaikutusta. 25 26 Tarkastellaan seuraavkasi ABC yhdysvaikutusta. BC for A = -1 BC for A = +1 BC for A combined 15.0 20.0 20.0 Jos kaikki yllä olevat profiilit olisivat saman samanlaisia, se olisi osoitus ABC yhdysvaikutuksen puuttumisesta. 10.0 15.0 10.0 15.0 10.0 Jos kaikki ovat samansuuntaisia, puuttuuvat kaikki yhdysvaikututekijät. 5.0 B- B+ C=-1 7.7 12.8 C = +1 11.2 10.2 5.0 B- B+ C=-1 16.0 18.6 C = +1 5.1 14.3 5.0 B- B+ C=-1 11.8 15.7 C = +1 8.2 12.2 D:ltä puuttuu kaikki interaktiotermit. Kuviona tämä näyttää seuraavalta. (esimerkiksi BD ja ABD). A:n luokissa B:n keskiarvoprofiilit eivät ole saman suun- 15.0 BD for A = -1 20.0 BD for A = +1 20.0 BD for A combined taisia, kun taas aggregoitaessa A:n yli, profiilit ovat 15.0 15.0 samansuuntaisest (viimeinen kuvio oikealla, joka on sama kuin BC-kuvio edellä). 10.0 10.0 10.0 5.0 B- B+ 5.0 B- B+ 5.0 B- B+ Tämä on osoitus kolmannen asteen iteraktiosta (ABC). D=-1 8.5 10.6 D = +1 10.4 12.4 D=-1 9.6 15.4 D = +1 11.5 17.5 D=-1 9.0 13.0 D = +1 11.0 15.0 27 28
2 k asetelma: yksi toisto (n =1) Faktoreiden lukumäärän k kasvaessa, kasvaa käsittelyykombinaatioiden määrä nopeasti. Esimerkiksi, jos k = 5, niin 2 5 = 32 kombinaatiota, jos k = 6, niin 2 6 = 64 kombinaatiota. Tällaisissa tapauksissa turvaudutaan usien vain yhteen toistoon (n =1). Kuitenkin, jos korkeimpien asteiden yhdysvaikutuksia ei esiinny voidaan niiden vapausasteet käyttää residuaalivarianssin estimointiin. Normaalijakauman todennäköisyyskuviota (normal probability plot) voidaan käyttää päättämään minkä termien estimaatit ovat katsottavissa pelkästään satunnaisvaihteluksi (satunnaiskohinaksi). Täyden mallin (saturated) yhdysvaikutusten testausta ei tällöin voida toteuttaa, koska residuaalivarianssin estimoimiseksi ei riitä vapausasteita. 29 30 Esimerkki 6.4: Kemiallista tuotetta valmistetaan paineastiassa suodattamalla. Tavoiteena on parantaa suodatusnopeutta nykyisestä n. 75 gal/h. Faktorikokeella tutkitaan suodatusnopeuteen vaikuttavia tekijöitä. Vastemuuttuja: y: suodatusnopeus (filtration rate gal/h) Faktorit: Havainnot: + + + + + + + + + + + + + + + + + + + + ================ A B C D y ---------------- -1-1 -1-1 45 1-1 -1-1 71-1 +1-1 -1 48 1 1-1 -1 65-1 -1 +1-1 68 1-1 1-1 60-1 +1 +1-1 80 1 1 1-1 65-1 -1-1 +1 43 1-1 -1 1 100-1 +1-1 +1 45 1 1-1 1 104-1 -1 +1 +1 75 1-1 1 1 86-1 +1 +1 +1 70 1 1 1 1 96 ================ A: Lämpötila (temperature) B: Paine (pressure) C: Formalehydikonsentraatio (concentration of formaldehyde) D: Sekoitusnopeus? (stirring rate) 31 32
Regressiokerroinestimaatit: ========================== Parameter Estimate -------------------------- Intercept 70.06250000 A 10.81250000 B 1.56250000 A*B 0.06250000 C 4.93750000 A*C -9.06250000 B*C 1.18750000 A*B*C 0.93750000 D 7.31250000 A*D 8.31250000 B*D -0.18750000 A*B*D 2.06250000 C*D -0.56250000 A*C*D -0.81250000 B*C*D -1.31250000 A*B*C*D 0.68750000 ========================== Kerroinestimaattien Normal probability plot: 3 2 Standardized Normla Variate 1 AD D C 0-1 -2 AC -3-15 -10-5 0 5 10 15 Effect estimate A Suoralla olevat kertoimet ovat tilastollisesti merkityksettömiä. Estimoidaan malli, jossa on tekijöiden A, C ja D päävaikutukset sekä yhdysvaikututermit AC ja AD. 33 34 Erityisesti, koska B eikä mitkään siihen liittyvät yhdysvaikutustermit osoittaudu tilastollisesti merkittäviksi, jää B kokonaisuudessaan pois. Tällöin koetilanne voidaan itse asiassa ajatella 2 3 asetelmana, jossa muodostuu kaksi toistoa (n =2)(hidden replication) jokaiseen soluun. Alla on tulokset näin syntyneen 2 3 saturoidusta mallista. Tulokset vahvistavat edelleen, etteivät myöskään CD ja ACD ole tilastollisesti merkitseviä, joten ne voidaan poistaa myös lopullisesta mallista. Saturoidun mallin variannsitaulu: Model 7 5551.437500 793.062500 35.35 <.0001 Error 8 179.500000 22.437500 Corrected 15 5730.937500 0.968679 6.760855 4.736824 70.06250 A 1 1870.562500 1870.562500 83.37 <.0001 C 1 390.062500 390.062500 17.38 0.0031 A*C 1 1314.062500 1314.062500 58.57 <.0001 D 1 855.562500 855.562500 38.13 0.0003 A*D 1 1105.562500 1105.562500 49.27 0.0001 C*D 1 5.062500 5.062500 0.23 0.6475 A*C*D 1 10.562500 10.562500 0.47 0.5120 35 36
Lopullisen mallin estimaatit: The GLM Procedure Dependent Variable: y Filtration rate (gal/h) Sum of Model 5 5535.812500 1107.162500 56.74 <.0001 Error 10 195.125000 19.512500 Corrected 15 5730.937500 0.965952 6.304793 4.417296 70.06250 A 1 1870.562500 1870.562500 95.86 <.0001 C 1 390.062500 390.062500 19.99 0.0012 D 1 855.562500 855.562500 43.85 <.0001 A*C 1 1314.062500 1314.062500 67.34 <.0001 A*D 1 1105.562500 1105.562500 56.66 <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept 70.06250000 1.10432389 63.44 <.0001 A 10.81250000 1.10432389 9.79 <.0001 C 4.93750000 1.10432389 4.47 0.0012 D 7.31250000 1.10432389 6.62 <.0001 A*C -9.06250000 1.10432389-8.21 <.0001 A*D 8.31250000 1.10432389 7.53 <.0001 Residuaalien normaalisuuskuvion (Normal probability plot) perusteella ei esiinny merkittäviä poikkeamia, joten malli näiltä osinnäyttäisi olevan riittävä. 37 38 Estimoitu regressiomalli on siis muotoa: ˆy = 70.06 + 10.81 A +4.94 C +7.31 D (2) 9.06 AC +8.32 AD Havaitaan jälleen, että tuotannon maksimin määrittämisessä yhdysvaikutustekijät ovat avainasemassa. Huom. 6.4: Kun faktorit ovat kvantitatiivisa, voidaan vali [ 1, 1] ajatella ääripäiksi, jossa skaalaamalla uudestaan alaraja ilmaisee %-osuuden faktorin maksimiarvostajayläraja 100%. Jos tarkastellaan vain päävaikutuksia, maksimi saavutettaisiin, kun A = C = D = 1, jolloin läpäisy päävaikutuksilla ennustettuna olisi 70.06 + 10.81 + 4.94 + 7.31 93, (täyden mallin ennuste 70.06 + 10.81 + 4.94 + 7.31 9.06 + 8.32 92, eli liki sama, johtuen siitä, että -9.06 ja 8.32 käytännöllisesti katsoen kumoavat toisensa). Kuitenkin AC:n kerroin on negatiivinen, jolloin valitsemalla A tai C negatiiviseksi, muuttuu vaikutus positiiviseksi. Tässä kannattaavalitac negatiiviseksi. Maksimi löytyy tekijöiden ääriarvoista (±1) valitsemalla A =1,C = 1, D = 1, jolloin ˆy =70.06 + 10.81 4.94 + 7.31 + 9.06 + 8.31 100. 39 40
Esimerkki 6.5: Data transformation in Factorial Design. Tarkastella jälleen 2 4 koetta, jossa on vain yksi toisto. Vastemuuttuja (Response): y: Advance rate of a dill Faktorit: A: Drill load B: Flow rate C: Rotational speed D: Drilling mud used Saturoidun mallin faktoreiden estimaatit: ========================== Parameter Estimate -------------------------- A 0.458750000 B 3.218750000 A*B 0.295000000 C 1.646250000 A*C 0.077500000 B*C 0.755000000 A*B*C 0.081250000 D 1.145000000 A*D 0.418750000 B*D 0.796250000 A*B*D 0.380000000 C*D 0.223750000 A*C*D 0.292500000 B*C*D 0.087500000 A*B*C*D 0.271250000 ========================== 41 42 Normaalisuuskuvio: Normal Probability Plot of Effect Coefficients Estimoitaessa vastaava malli, jäännöskuviot ovat seuraavat: 3 2 C B Standard normal deviate 1 0-1 BD BC D Kuvioiden perusteella virhtemin varianssi ei näytä ole- -2 van vakio eikä normaalisuus toteudu. -3 0 1 2 3 4 Estimate Kuvion mukaan merkittäviä tekijöitä ovat B, C, D, BC ja BD. Koska vastemuuttuja on nopeus (rate), log-muunnos y =logy, jossa log on luonnollinen logaritmi, on yleisesti järkevä vaihtoehto. 43 44
Muunnetun mallin kertoimien normaalikuvion perusteella vain B, C ja D päävaikutukset ovat merkityksellisiä. Normal variable value 3 2 1 0-1 -2 Normal Probability Plot of Factor Effects D -3-0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 Factor effect C B Estimointitulokset: Dependent Variable: yl log dill rate Sum of Model 3 7.11461861 2.37153954 164.82 <.0001 Error 12 0.17266157 0.01438846 Corrected 15 7.28728019 R-Square Coeff Var Root MSE yl Mean 0.976306 7.511260 0.119952 1.596961 B 1 5.34521052 5.34521052 371.49 <.0001 C 1 1.33887075 1.33887075 93.05 <.0001 D 1 0.43053735 0.43053735 29.92 0.0001 Standard Parameter Estimate Error t Value Pr > t Intercept 1.596961407 0.02998798 53.25 <.0001 B 0.577992783 0.02998798 19.27 <.0001 C 0.289273956 0.02998798 9.65 <.0001 D 0.164038363 0.02998798 5.47 0.0001 45 46 Jäännöstarkastelut (mallin riittävyys) Keskipistearvon lisääminen 2 k koeasetelmaan 2 k faktorikokeissa implisiittisenä oletuksena on, että faktoreiden vaikutus on lineaarista. Osittain yhdysvaikutustermin kautta voidaan huomioida mahdollista epälineaarisuutta. Kuvioiden perusteella kaikki malli on näiltä osinok. Lopputuloksena on, että vain faktoreiden Flow, Speed ja Mud päävaikutuksilla on merkitystä. Yhdysvaikutuksen puuttuessa, niitä voidaan säädellä toisistaan riippumatta poraustulosta optimoitaessa. Toteuttamalla kokeet myös faktorin 1 ja +1 arvojen lisäksi myös nolla -arvolla saadaan tutkittua mahdollista epälineaarista vaikutusta vastemuuttujaan. Huom. 6.5: Oletuksena tässä lähestymistavassa on, että faktorit ovat kvantitatiivisia. Estimoitava malli ajatellaan olevan muotoa: (3) k y = β 0 + β i x i + k βij x i x j + β jj x 2 j + ε j=1 i<j i=1 Testatttava hypoteesi (4) H 0 : β 11 = = β kk =0. 47 48
Teknisesti tämä onnistuu lisäämällä yksi faktoritaso lisää. Keskipistetasolla (kaikki faktorit nolla-tasolla) toistoja tehdään n c kappaletta, jotka satunnaistetaan kokeen suunnitteluvaiheessa tavanomaiseen tapaan. Esimerkki 6.6: Oletetaan, että suodatusesimerkissä (Esim. 6.4) keskipistetasolla (0, 0, 0, 0) on tehty neljä toistoa, joista on saatu arvot 73, 75, 66 ja 69. Määritellään uusi muuttuja cp = 1, kun center point havainto ja cp = 0 muuten. SAS-toteutus on seuraava: proc glm:ssä analyysi totetutetaan regressioestimoinnilla (kvantitatiiviset faktorit). 49 50 options ls = 80; data filtration; input A B C D cp y; label y = "Filtration rate (gal/h)" A = "Temperature" B = "Pressure" C = "Concentration of formaldehyde" D = "Stirring rate" cp = "Center point"; datalines; -1-1 -1-1 0 45 + 1-1 -1-1 0 71-1 + 1-1 -1 0 48 + 1 + 1-1 -1 0 65-1 -1 +1-1 0 68 + 1-1 + 1-1 0 60-1 + 1 + 1-1 0 80 + 1 + 1 + 1-1 0 65-1 -1-1 +1 0 43 + 1-1 -1 + 1 0 100-1 + 1-1 + 1 0 45 + 1 + 1-1 + 1 0 104-1 -1 +1 +1 0 75 + 1-1 + 1 + 1 0 86-1 + 1 + 1 + 1 0 70 + 1 + 1 + 1 + 1 0 96 0 0 0 0 1 73 0 0 0 0 1 75 0 0 0 0 1 66 0 0 0 0 1 69 ; Saturoidun mallin tulokset: The GLM Procedure Dependent Variable: y Filtration rate (gal/h) Sum of Model 16 5732.450000 358.278125 22.05 0.0133 Error 3 48.750000 16.250000 Corrected 19 5781.200000 0.991567 5.742349 4.031129 70.20000 A 1 1870.562500 1870.562500 115.11 0.0017 B 1 39.062500 39.062500 2.40 0.2188 A*B 1 0.062500 0.062500 0.00 0.9544 C 1 390.062500 390.062500 24.00 0.0163 A*C 1 1314.062500 1314.062500 80.87 0.0029 B*C 1 22.562500 22.562500 1.39 0.3236 A*B*C 1 14.062500 14.062500 0.87 0.4209 D 1 855.562500 855.562500 52.65 0.0054 A*D 1 1105.562500 1105.562500 68.03 0.0037 B*D 1 0.562500 0.562500 0.03 0.8643 A*B*D 1 68.062500 68.062500 4.19 0.1332 C*D 1 5.062500 5.062500 0.31 0.6157 A*C*D 1 10.562500 10.562500 0.65 0.4791 B*C*D 1 27.562500 27.562500 1.70 0.2838 A*B*C*D 1 7.562500 7.562500 0.47 0.5441 cp 1 1.512500 1.512500 0.09 0.7802 Title "Filtration example with center point"; Proc glm data = filtration; model y = A B C D cp /ss3; 51 52
Center point taso ei ole tilastolliseti merkitsevä (p-arvo 0.78), joten tekijöillä eioleepälineaarisuutta (kvadraattisia tekijöitä), eli nollahypoteesia H 0 : β 11 = = β 44 =0 ei hylätä. Havaitaan jälleen, että vaintekijät A, C, D, AC ja AD ovat tilastolliseti merkitseviä. 53