Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). tulee katettua (complete replicate). Havaintojen

Transkriptio

1 6. 2 k faktorikokeet Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). Vähintään 2 k havaintoa, jotta kaikki vaihtoehdot tulee katettua (complete replicate). Havaintojen kokonaismäärä N = 2 k n, jossa n toistojen määrä per faktoritasokombinaatio (balansoidussa)kokeessa. Oletukset: (1) faktorit kiinteitä (fixed factors), (2) asetelma on täysin satunnaistettu (completely randomized design) (3) virhetermi N(0, σ 2 )-jakautunut. Yleisessä tarkastelussa vastemuuttujaa (response variable) merkitään y:llä ja faktoreita A, B, C,... 1

2 Esimerkki 6.1: Tarkastellaan seoksen väkevyysasteen (A, prosennteina) ja katalyytin määrän (B, kilogrammoina) vaikutusta kemiallisessa prosessissa saatavan tuotoksen määrään (y, mitattu sopivassa yksikössä). A: 15% ( low = 1 ), 25% ( high = + 1 ) B: 0.5kg ( low = 1 ), 1kg ( high = + 1 ). Toistoja: n = 3, Data: ============================================================= Toisto Kasittely A B kombinaatio I II III Total A low, B low A high, B low A low, B high A high, B high ============================================================= 2

3 Koe on satunnaistettu siten, että jokaisella toistolla permutoidaan ensin rivit satunnaisesti ja tehdään käsittelyt (runs). Matriisia sanotaan designmatriisiksi. Factor Run A B Analyysi toteutetaan kuten edellisessä kappaleessa. 3

4 SAS-ajo: options ls = 80; data chemicalprocess; input A B label A = "Reactant concentration (15% = low, 25% = high)" B = "Catalyst (0.5kg = low, 1kg = high)" y = "Yield"; datalines; ; run; Title "2ˆ2 factorial example"; proc glm data = chemicalprocess; class A B; model y = A B A*B; run; 4

5 Tulokset The GLM Procedure Class Level Information Class Levels Values A B Number of Observations Read 12 Number of Observations Used 12 2ˆ2 factorial example The GLM Procedure Dependent Variable: y Yield Sum of Source DF Squares Mean Square F Value Pr > F Model Error Total R-Square Coeff Var Root MSE y Mean Source DF Type III SS Mean Square F Value Pr > F A <.0001 B A*B Yhdysvaikutus ei ole tilastollisesti merkitsevä, joten se voidaan jättää pois mallista. 5

6 Kun faktorit ovat kvantitatiivisia, voidaan käyttää myös regressioanalyysia. Tulokseksi saadaan n.s. vastepinta (response surface), jota voidaan käyttää ennustamaan y:n arvoja millä tahansa väkevöitysasteella ja katalyytin määrällä. Jättämällä yhdysvaikutustekijä pois, on estimoitava regressiomlli muotoa (1) y = β 0 + β A A + β B B + ε. proc glm data = chemicalprocess; model y = A B; run; R-Square Coeff Var Root MSE y Mean Parameter Estimate Error t Value Pr > t Intercept A <.0001 B

7 Huom. 6.1: Edellä esitetty designmatriisi on ortogonaalinen (A:n ja B:n sisätulo on nolla). Tällaista koeasetelmaa sanotaan ortogonaaliseksi (toistoja n kappaletta kaikilla faktoritasojen kombinaatioilla). Huom. 6.2: Regressioanalyysi voidaan toteuttaa myös käyttämällä designmatriisin sarakkeita sellaisenaan selittävinä muuttujina. Yhdysvaikutustekijää vastaava selittävä muuttuja on tällöin A B = Laadullisesti kaikki vaihtoehdot (ANOVA, response surface, regression) johtavat samaan tulokseen. 7

8 Esim. 6.2: Määritellään { 1, jos A = 15 x 1 = 1, jos A = 25 jolloin regressiomalli on x 2 = { 1, jos B = 0.5 1, jos B = 1 y = β 0 + β 1 x 1 + β 2 x 2 + β 12 x 1 x 2 + ε. data cp2; * Muodostetaan uusi tiedosto; set chemicalprocess; if (a = 15) then x1 = -1; else x1 = 1; if (b = 1) then x2 = -1; else x2 = 1; run; Title "2ˆ2 factorial as a regression model"; proc glm; model y = x1 x2 x1*x2; run; 8

9 Dependent Variable: y Yield Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected R-Square Coeff Var Root MSE y Mean Source DF Type III SS Mean Square F Value Pr > F x <.0001 x x1*x Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 x <.0001 x x1*x

10 Yleinen 2 k malli Yleisessä 2 k faktorikokeen asetelmassa (factorial design) on k päävaikutusta, k 3 k 2 ) ) toisen asteen yhdysvaikutustermiä, kolmannen asteen yhdysvaikutustermiä, yksi k:n tekijän yhdysvaikutustermi. Yhteensä termejä on 2 k 1 (yleiskeskiarvon lisäksi). Yhdelläkin toistolla kokeita on tehtävä 2 k kappaletta, jotta kaikki vaihtoehdot tulee testatuksi. 10

11 Kokeen toteuttamiseksi laaditaan ensin standardi designmatriisi (standard design matrix), joka saadaan lisäämällä faktori kerrallaan ja yhdistämällä se muihin faktoreihin. Esimerkki 6.2: 2 4 faktorikokeen standardi designmatriisi ============================ Factor Row A B C D ============================ ============================ Satunnaistaminen toteutetaan permutoimalla rivit satunnaiseen järjestykseen. 11

12 Varianssitaulu (toistoja n): Source SS df MS F Main effect A SS A 1 MS A MS A MS err Main effect B SS B 1 MS B MS B MS err Main effect C SS C 1 MS C MS C MS err Main effect D SS D 1 MS D MS D MS err Interaction AB SS AB 1 MS AB MS AB MS err Interaction AC SS AC 1 MS AC MS AC MS err Interaction AD SS AD 1 MS AD MS AD MS err Interaction BC SS BC 1 MS BC MS BC MS err Interaction BD SS BD 1 MS BD MS BD MS err Interaction CD SS CD 1 MS CD MS CD MS err Interaction ABC SS ABC 1 MS ABC MS ABC MS err Interaction ABD SS ABD 1 MS ABD MS ABD MS err Interaction ACD SS ACD 1 MS ACD MS ACD MS err Interaction BCD SS BCD 1 MS BCD MS BCD MS err Interaction ABCD SS ABCD 1 MS ABCD MS ABCD MS err Error SS err 2 k (n 1) MS err Total SS tot 2 4 n 1 12

13 Huom. 6.3: Koska pää- ja yhdysvaikutustermien vapausasteet ovat 1, SS ja MS ovat samat. MS err = SS err /[16(n 1)] (2 4 = 16). 13

14 2 k kokeen toteutus: 1. Estimoidaan faktoriefektit 2. Muodostetaan perusmalli a) jos toistoja, estimoidaan täysi malli b) jos ei toistoja, valitaan tekijät normaalijakaumatestillä 3. Testataan tekijöiden tilastolliset merkitsevyydet 4. Poistetaan tarpeettomat tekijät ja estimoidaan lopullinen malli 5. Analysoidaan residuaalit 6. Tulkitaan mallin tulokset 14

15 Esimerkki 6.3: Nikkelin ja titaniumin seoksesta valmistetun metallin (mm. lentokoneen moottoreissa) murtumat. Taustatekijöitä: A pouring temperature, B titanium content, C heat treatment method ja D amount of grain refiner used. Vastemuuttuja y the length of crack in mm 10 2 induced in a sample coupon subject to a standard test. Toistoja n = 2 jokaisella käsittelykombinaatiolla. Kysymyksessä on 2 4 täysin satunnaistettu faktorikoe. 15

16 Design matriisi, käsittelyjärjestykset ja mittaukset: ==================================================== Run order Replicate A B C D Repl I Repl II I II ===================================================== 16

17 SAS-analyysi options ls = 80; data titanium; input /* muodostetaan design matriisi*/ if (mod(int((_n_+1)/2),2)=0) then A = 1; else A = -1; if (mod(int((_n_+1)/2),4)=0) (mod(int((_n_+1)/2)+1,4)=0) then B = 1; else B = -1; if (mod(int((_n_+1)/2),8)=0) (mod(int((_n_+1)/2)+1,8)=0) (mod(int((_n_+1)/2)+2,8)=0) (mod(int((_n_+1)/2)+3,8)=0) then C = 1; else C = -1; if (int((_n_+1)/2) < 9) then D = -1; else D = 1; label y = "Crack length (mm x 10e-2)" A = "Pouring temperature" B = "Titanium content" C = "Heat treatment method" D = "Grain refiner used"; datalines; ; run; 17

18 Title "Nickel-titan alloy cracks data (2ˆ4 faktorial design)"; proc glm data = titanium; class A B C D; model y = A B C D; run; 18

19 Nickel-titan alloy cracks data (2ˆ4 faktorial design) The GLM Procedure Class Level Information Class Levels Values A B C D Number of Observations Read 32 Number of Observations Used 32 The GLM Procedure Dependent Variable: y Crack length (mm x 10e-2) Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected R-Square Coeff Var Root MSE y Mean Source DF Type III SS Mean Square F Value Pr > F A <.0001 B <.0001 A*B <.0001 C <.0001 A*C <.0001 B*C A*B*C <.0001 D <.0001 A*D B*D A*B*D C*D A*C*D B*C*D A*B*C*D

20 Mikään interaktiotekijä, jossa D on mukana, ei ole tilastollisesti merkitsevä. Kolmannen asteen tekijöistä ABC on tilastollisesti merkitsevä. Yleinen tapa on, että pysytelään hierarkisissa malleissa, jolloin korkeinta astetta olevan termin kaikki alemmat termit säilytetään lopullisessa mallissa. Poistamalla muut tilastollisesti ei-merkitsevät tekijät estimoidaan seuraavaksi malli, jossa on ABC ja kaikki alemman asteen termit sekä D:n päävaikutus (main effect). Regressioestimoinnilla saadaan myös kertoimet. 20

21 Nickel-titan alloy cracks data (2ˆ4 faktorial design) The GLM Procedure Dependent Variable: y Crack length (mm x 10e-2) Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected R-Square Coeff Var Root MSE y Mean Source DF Type III SS Mean Square F Value Pr > F A <.0001 B <.0001 A*B <.0001 C <.0001 A*C <.0001 B*C A*B*C <.0001 D <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 A <.0001 B <.0001 A*B <.0001 C <.0001 A*C <.0001 B*C A*B*C <.0001 D <

22 Tekijän C, heat treatment method, vaikutus on negatiivinen samoin kuin AC interactioterimin. Tarkastellaan seuraavaksi mallin riittävyyttä. Normaalisuus on jokseenkin ok, eikä heteroskedastisuutta ole havaittavissa. 22

23 Jos tavoitteena on saada seos, jossa murtumat (cracks) ovat mahdollisimman pieniä, löytyy kombinaatio suoraan etsimällä vaihtoehto, jossa keskiarvo on pienin. Yleisessä tapauksessa tämä ja muut vaihtoehdot saadaan ennustettua regressiomallia, jonka kerroinestimaatit on tulostuksen alimmassa taulukossa. Alla on ennusteet eri kombinaatioilla. Minimi löytyy tekijäntasoilla A = 1, B = -1, C = 1, D = -1 y = 4.2 ja ˆy 2121 = 4.1. Ero (pieni) keskiarvon ja regressioennusteen välillä johtuu siitä, että malli ei ole saturoitu (saturoitu malli = malli, jossa kaikki päävaikutus ja yhdysvaikutustermit) 23

24 ===================================== A B C D mean(y) pred (y) ==================================== 24

25 Jos yhdysvaikutstekijöitä ei huomioitaisi, päävaikutusten ( yksi tekijä kerrallaan asetelma) johtaisi, tilanteeseen, jossa malli ennustaisi parhaan tuloksen käsittelykombinaatiolla A = -1, B = -1, C = 1, D = -1, y pred = 5.7, kun tilastollisesti merkitsevät yhdysvaikutusterimit sisältävä malli ennustaa y pred = 10.2! 25

26 Tarkastellaan vielä yhdysvaikutustermejä hieman lähemmin. Tarkastellaan AB, AC, BC ja ABC yhdysvaikutuksia. Erityisesti BC ei ole tilastollisesti merkitsevä. Jos yhdysvaikutusta ei ole, niin kyseisten tekijöiden vaikutus vastemuuttujaan on samansuuntaista (parallel) siiryttäessä käsittelyn tasolta toiselle. Yhdysvaikutuksen tapauksessa profiilien suunnat poikkeavat toisistaan. Profiels of A class means given B treatment Profiels of A class mean profiles given C treatment Profiels of B class mean profiles given C treatment Class mean Class mean Class mean A- A+ B B A- A+ C C B- B+ C C B:n ja C:n välillä ei siis ole yhdysvaikutusta. 26

27 Tarkastellaan seuraavkasi ABC yhdysvaikutusta. BC for A = -1 BC for A = +1 BC for A combined Class mean 10.0 Class mean Class mean B- B+ C= C = B- B+ C= C = B- B+ C= C = A:n luokissa B:n keskiarvoprofiilit eivät ole saman suuntaisia, kun taas aggregoitaessa A:n yli, profiilit ovat samansuuntaisest (viimeinen kuvio oikealla, joka on sama kuin BC-kuvio edellä). Tämä on osoitus kolmannen asteen iteraktiosta (ABC). 27

28 Jos kaikki yllä olevat profiilit olisivat saman samanlaisia, se olisi osoitus ABC yhdysvaikutuksen puuttumisesta. Jos kaikki ovat samansuuntaisia, puuttuuvat kaikki yhdysvaikututekijät. D:ltä puuttuu kaikki interaktiotermit. Kuviona tämä näyttää seuraavalta. (esimerkiksi BD ja ABD). BD for A = -1 BD for A = +1 BD for A combined Class mean 10.0 Class mean Class mean B- B+ D= D = B- B+ D= D = B- B+ D= D =

29 2 k asetelma: yksi toisto (n = 1) Faktoreiden lukumäärän k kasvaessa, kasvaa käsittelyykombinaatioiden määrä nopeasti. Esimerkiksi, jos k = 5, niin 2 5 = 32 kombinaatiota, jos k = 6, niin 2 6 = 64 kombinaatiota. Tällaisissa tapauksissa turvaudutaan usien vain yhteen toistoon (n = 1). Täyden mallin (saturated) yhdysvaikutusten testausta ei tällöin voida toteuttaa, koska residuaalivarianssin estimoimiseksi ei riitä vapausasteita. 29

30 Kuitenkin, jos korkeimpien asteiden yhdysvaikutuksia ei esiinny voidaan niiden vapausasteet käyttää residuaalivarianssin estimointiin. Normaalijakauman todennäköisyyskuviota (normal probability plot) voidaan käyttää päättämään minkä termien estimaatit ovat katsottavissa pelkästään satunnaisvaihteluksi (satunnaiskohinaksi). 30

31 Esimerkki 6.4: Kemiallista tuotetta valmistetaan paineastiassa suodattamalla. Tavoiteena on parantaa suodatusnopeutta nykyisestä n. 75 gal/h. Faktorikokeella tutkitaan suodatusnopeuteen vaikuttavia tekijöitä. Vastemuuttuja: y: suodatusnopeus (filtration rate gal/h) Faktorit: A: Lämpötila (temperature) B: Paine (pressure) C: Formalehydikonsentraatio (concentration of formaldehyde) D: Sekoitusnopeus? (stirring rate) 31

32 Havainnot: ================ A B C D y ================ 32

33 Regressiokerroinestimaatit: ========================== Parameter Estimate Intercept A B A*B C A*C B*C A*B*C D A*D B*D A*B*D C*D A*C*D B*C*D A*B*C*D ========================== 33

34 Kerroinestimaattien Normal probability plot: 3 2 Standardized Normla Variate AC C D AD A Effect estimate Suoralla olevat kertoimet ovat tilastollisesti merkityksettömiä. Estimoidaan malli, jossa on tekijöiden A, C ja D päävaikutukset sekä yhdysvaikututermit AC ja AD. 34

35 Erityisesti, koska B eikä mitkään siihen liittyvät yhdysvaikutustermit osoittaudu tilastollisesti merkittäviksi, jää B kokonaisuudessaan pois. Tällöin koetilanne voidaan itse asiassa ajatella 2 3 asetelmana, jossa muodostuu kaksi toistoa (n = 2) (hidden replication) jokaiseen soluun. Alla on tulokset näin syntyneen 2 3 saturoidusta mallista. Tulokset vahvistavat edelleen, etteivät myöskään CD ja ACD ole tilastollisesti merkitseviä, joten ne voidaan poistaa myös lopullisesta mallista. 35

36 Saturoidun mallin variannsitaulu: Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected R-Square Coeff Var Root MSE y Mean Source DF Type III SS Mean Square F Value Pr > F A <.0001 C A*C <.0001 D A*D C*D A*C*D

37 Lopullisen mallin estimaatit: The GLM Procedure Dependent Variable: y Filtration rate (gal/h) Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected R-Square Coeff Var Root MSE y Mean Source DF Type III SS Mean Square F Value Pr > F A <.0001 C D <.0001 A*C <.0001 A*D <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 A <.0001 C D <.0001 A*C <.0001 A*D <

38 Residuaalien normaalisuuskuvion (Normal probability plot) perusteella ei esiinny merkittäviä poikkeamia, joten malli näiltä osin näyttäisi olevan riittävä. 38

39 Estimoitu regressiomalli on siis muotoa: (2) ˆy = A C D 9.06 AC AD Havaitaan jälleen, että tuotannon maksimin määrittämisessä yhdysvaikutustekijät ovat avainasemassa. Jos tarkastellaan vain päävaikutuksia, maksimi saavutettaisiin, kun A = C = D = 1, jolloin läpäisy päävaikutuksilla ennustettuna olisi , (täyden mallin ennuste , eli liki sama, johtuen siitä, että ja 8.32 käytännöllisesti katsoen kumoavat toisensa). Kuitenkin AC:n kerroin on negatiivinen, jolloin valitsemalla A tai C negatiiviseksi, muuttuu vaikutus positiiviseksi. Tässä kannattaa valita C negatiiviseksi. Maksimi löytyy tekijöiden ääriarvoista (±1) valitsemalla A = 1, C = 1, D = 1, jolloin ˆy =

40 Huom. 6.4: Kun faktorit ovat kvantitatiivisa, voidaan vali [ 1, 1] ajatella ääripäiksi, jossa skaalaamalla uudestaan alaraja ilmaisee %-osuuden faktorin maksimiarvosta ja yläraja 100%. 40

41 Esimerkki 6.5: Data transformation in Factorial Design. Tarkastella jälleen 2 4 koetta, jossa on vain yksi toisto. Vastemuuttuja (Response): y: Advance rate of a dill Faktorit: A: Drill load B: Flow rate C: Rotational speed D: Drilling mud used 41

42 Saturoidun mallin faktoreiden estimaatit: ========================== Parameter Estimate A B A*B C A*C B*C A*B*C D A*D B*D A*B*D C*D A*C*D B*C*D A*B*C*D ========================== 42

43 Normaalisuuskuvio: Normal Probability Plot of Effect Coefficients 3 2 C B Standard normal deviate BD BC D Estimate Kuvion mukaan merkittäviä tekijöitä ovat B, C, D, BC ja BD. 43

44 Estimoitaessa vastaava malli, jäännöskuviot ovat seuraavat: Kuvioiden perusteella virhtemin varianssi ei näytä olevan vakio eikä normaalisuus toteudu. Koska vastemuuttuja on nopeus (rate), log-muunnos y = log y, jossa log on luonnollinen logaritmi, on yleisesti järkevä vaihtoehto. 44

45 Muunnetun mallin kertoimien normaalikuvion perusteella vain B, C ja D päävaikutukset ovat merkityksellisiä. Normal Probability Plot of Factor Effects 3 B 2 C D Normal variable value Factor effect 45

46 Estimointitulokset: Dependent Variable: yl log dill rate Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected R-Square Coeff Var Root MSE yl Mean Source DF Type III SS Mean Square F Value Pr > F B <.0001 C <.0001 D Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 B <.0001 C <.0001 D

47 Jäännöstarkastelut (mallin riittävyys) Kuvioiden perusteella kaikki malli on näiltä osin ok. Lopputuloksena on, että vain faktoreiden Flow, Speed ja Mud päävaikutuksilla on merkitystä. Yhdysvaikutuksen puuttuessa, niitä voidaan säädellä toisistaan riippumatta poraustulosta optimoitaessa. 47

48 Keskipistearvon lisääminen 2 k koeasetelmaan 2 k faktorikokeissa implisiittisenä oletuksena on, että faktoreiden vaikutus on lineaarista. Osittain yhdysvaikutustermin kautta voidaan huomioida mahdollista epälineaarisuutta. Toteuttamalla kokeet myös faktorin 1 ja +1 arvojen lisäksi myös nolla -arvolla saadaan tutkittua mahdollista epälineaarista vaikutusta vastemuuttujaan. Huom. 6.5: Oletuksena tässä lähestymistavassa on, että faktorit ovat kvantitatiivisia. Estimoitava malli ajatellaan olevan muotoa: (3) k y = β 0 + β i x i + k βij x i x j + β jj x 2 j + ε j=1 i<j i=1 Testatttava hypoteesi (4) H 0 : β 11 = = β kk = 0. 48

49 Teknisesti tämä onnistuu lisäämällä yksi faktoritaso lisää. Keskipistetasolla (kaikki faktorit nolla-tasolla) toistoja tehdään n c kappaletta, jotka satunnaistetaan kokeen suunnitteluvaiheessa tavanomaiseen tapaan. 49

50 Esimerkki 6.6: Oletetaan, että suodatusesimerkissä (Esim. 6.4) keskipistetasolla (0, 0, 0, 0) on tehty neljä toistoa, joista on saatu arvot 73, 75, 66 ja 69. Määritellään uusi muuttuja cp = 1, kun center point havainto ja cp = 0 muuten. SAS-toteutus on seuraava: proc glm:ssä analyysi totetutetaan regressioestimoinnilla (kvantitatiiviset faktorit). 50

51 options ls = 80; data filtration; input A B C D cp y; label y = "Filtration rate (gal/h)" A = "Temperature" B = "Pressure" C = "Concentration of formaldehyde" D = "Stirring rate" cp = "Center point"; datalines; ; run; Title "Filtration example with center point"; Proc glm data = filtration; model y = A B C D cp /ss3; run; 51

52 Saturoidun mallin tulokset: The GLM Procedure Dependent Variable: y Filtration rate (gal/h) Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected R-Square Coeff Var Root MSE y Mean Source DF Type III SS Mean Square F Value Pr > F A B A*B C A*C B*C A*B*C D A*D B*D A*B*D C*D A*C*D B*C*D A*B*C*D cp

53 Center point taso ei ole tilastolliseti merkitsevä (p-arvo 0.78), joten tekijöillä ei ole epälineaarisuutta (kvadraattisia tekijöitä), eli nollahypoteesia ei hylätä. H 0 : β 11 = = β 44 = 0 Havaitaan jälleen, että vain tekijät A, C, D, AC ja AD ovat tilastolliseti merkitseviä. 53