Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). tulee katettua (complete replicate). Havaintojen

Samankaltaiset tiedostot
6. 2 k faktorikokeet. Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). määrä per faktoritasokombinaatio (balansoidussa)kokeessa.

6. 2 k faktorikokeet. Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). määrä per faktoritasokombinaatio (balansoidussa)kokeessa.

Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista.

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

Faktorikokeilla tarkoitetaan koesuunnitelmaa, jossa koe toistetaan kaikilla faktoreiden tasojen kombninaatioilla.

5. Johdatus faktorikokeisiin. Tekijän omaa vaikutusta vastemuuttujaan sanotaan. 5.1 Taustaa

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

5. Johdatus faktorikokeisiin. Tekijän omaa vaikutusta vastemuuttujaan sanotaan. 5.1 Taustaa

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

9.1 Hierarkiset asetelmat (Nested Designs)

nopeasti täydessä toteutuksessa (complete replicate).

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs)

8. Osittaiset 2 k faktorikokeet. Niinpä, jos voidaan olettaa, että korekeamman

Tavoite on eliminoida sen vaikutus koetuloksista. 4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Eliminointimenetelmiä:

Osafaktorikokeet. Heliövaara 1

A250A0050 Ekonometrian perusteet Tentti

9. Muita koeasetelmia. Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9.1 Hierarkiset asetelmat (Nested Designs)

Koesuunnittelu 2 k -faktorikokeet. TKK (c) Ilkka Mellin (2005) 1

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Osafaktorikokeet. Kurssipalautetta voi antaa Oodissa Kuusinen/Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1


4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Kiusatekijä on taustatekijä, joka voi vaikuttaa

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Toimittaja Erä

Kertausluento. Vilkkumaa / Kuusinen 1

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Koesuunnittelu Vastepintamenetelmä. TKK (c) Ilkka Mellin (2005) 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

2. Keskiarvojen vartailua

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Regressioanalyysi. Kuusinen/Heliövaara 1

4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Tavoite on eliminoida sen vaikutus koetuloksista. Eliminointimenetelmiä:

Lohkoasetelmat. Heliövaara 1

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

1. Tutkitaan tavallista kahden selittäjän regressiomallia

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Vastepintamenetelmä. Heliövaara 1

Perusnäkymä yksisuuntaiseen ANOVAaan

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Sovellettu todennäköisyyslaskenta B

Yleistetyistä lineaarisista malleista

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Hierarkkiset koeasetelmat. Heliövaara 1

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Lohkoasetelmat. Kuusinen/Heliövaara 1

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Altistusaika 1 kk 2 kk 3 kk

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Kemometriasta. Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi

Harjoitus 9: Excel - Tilastollinen analyysi

Simuloinnin strategisia kysymyksiä

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Opiskelija viipymisaika pistemäärä

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Viherseinien efekti Tilastoanalyysi

Dynaamiset regressiomallit

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

1. KAKSISUUNTAINEN VARIANSSIANALYYSI: TULOSTEN TULKINTA

, Määrälliset tutkimusmenetelmät 2 4 op

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Kvantitatiiviset menetelmät

Harha mallin arvioinnissa

Mat Tilastollisen analyysin perusteet, kevät 2007

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

Harjoitukset 4 : Paneelidata (Palautus )

Johdatus regressioanalyysiin. Heliövaara 1

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

pitkittäisaineistoissa

Simuloinnin strategisia kysymyksiä

pitkittäisaineistoissa

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

Teema 10: Regressio- ja varianssianalyysi

Monitasomallit koulututkimuksessa

2 2 -faktorikokeen määritelmä

SEM1, työpaja 2 ( )

Transkriptio:

6. 2 k faktorikokeet Lähtökohta: k faktoria, kullakin kaksi tasoa ("high", "low"). Vähintään 2 k havaintoa, jotta kaikki vaihtoehdot tulee katettua (complete replicate). Havaintojen kokonaismäärä N = 2 k n, jossa n toistojen määrä per faktoritasokombinaatio (balansoidussa)kokeessa. Oletukset: (1) faktorit kiinteitä (fixed factors), (2) asetelma on täysin satunnaistettu (completely randomized design) (3) virhetermi N(0, σ 2 )-jakautunut. Yleisessä tarkastelussa vastemuuttujaa (response variable) merkitään y:llä ja faktoreita A, B, C,... 1

Esimerkki 6.1: Tarkastellaan seoksen väkevyysasteen (A, prosennteina) ja katalyytin määrän (B, kilogrammoina) vaikutusta kemiallisessa prosessissa saatavan tuotoksen määrään (y, mitattu sopivassa yksikössä). A: 15% ( low = 1 ), 25% ( high = + 1 ) B: 0.5kg ( low = 1 ), 1kg ( high = + 1 ). Toistoja: n = 3, Data: ============================================================= Toisto Kasittely- ----------------------------- A B kombinaatio I II III Total ------------------------------------------------------------- -1-1 A low, B low 28 25 27 80 +1-1 A high, B low 36 32 32 100-1 +1 A low, B high 18 19 23 60 +1 +1 A high, B high 31 30 29 90 ============================================================= 2

Koe on satunnaistettu siten, että jokaisella toistolla permutoidaan ensin rivit satunnaisesti ja tehdään käsittelyt (runs). Matriisia sanotaan designmatriisiksi. Factor Run A B 1 1 1 2 +1 1 3 1 +1 4 +1 +1 Analyysi toteutetaan kuten edellisessä kappaleessa. 3

SAS-ajo: options ls = 80; data chemicalprocess; input A B y @@; label A = "Reactant concentration (15% = low, 25% = high)" B = "Catalyst (0.5kg = low, 1kg = high)" y = "Yield"; datalines; 15 0.5 28 15 0.5 25 15 0.5 27 25 0.5 36 25 0.5 32 25 0.5 32 15 1 18 15 1 19 15 1 23 25 1 31 25 1 30 25 1 29 ; run; Title "2ˆ2 factorial example"; proc glm data = chemicalprocess; class A B; model y = A B A*B; run; 4

Tulokset The GLM Procedure Class Level Information Class Levels Values A 2 15 25 B 2 0.5 1 Number of Observations Read 12 Number of Observations Used 12 2ˆ2 factorial example The GLM Procedure Dependent Variable: y Yield Sum of Source DF Squares Mean Square F Value Pr > F Model 3 291.6666667 97.2222222 24.82 0.0002 Error 8 31.3333333 3.9166667 Total 11 323.0000000 R-Square Coeff Var Root MSE y Mean 0.902993 7.196571 1.979057 27.50000 Source DF Type III SS Mean Square F Value Pr > F A 1 208.3333333 208.3333333 53.19 <.0001 B 1 75.0000000 75.0000000 19.15 0.0024 A*B 1 8.3333333 8.3333333 2.13 0.1828 Yhdysvaikutus ei ole tilastollisesti merkitsevä, joten se voidaan jättää pois mallista. 5

Kun faktorit ovat kvantitatiivisia, voidaan käyttää myös regressioanalyysia. Tulokseksi saadaan n.s. vastepinta (response surface), jota voidaan käyttää ennustamaan y:n arvoja millä tahansa väkevöitysasteella ja katalyytin määrällä. Jättämällä yhdysvaikutustekijä pois, on estimoitava regressiomlli muotoa (1) y = β 0 + β A A + β B B + ε. proc glm data = chemicalprocess; model y = A B; run; R-Square Coeff Var Root MSE y Mean 0.877193 7.634119 2.099383 27.50000 Parameter Estimate Error t Value Pr > t Intercept 18.33333333 3.09020755 5.93 0.0002 A 0.83333333 0.12120791 6.88 <.0001 B -10.00000000 2.42415825-4.13 0.0026 6

Huom. 6.1: Edellä esitetty designmatriisi on ortogonaalinen (A:n ja B:n sisätulo on nolla). Tällaista koeasetelmaa sanotaan ortogonaaliseksi (toistoja n kappaletta kaikilla faktoritasojen kombinaatioilla). Huom. 6.2: Regressioanalyysi voidaan toteuttaa myös käyttämällä designmatriisin sarakkeita sellaisenaan selittävinä muuttujina. Yhdysvaikutustekijää vastaava selittävä muuttuja on tällöin A B = 1 1 1 1 Laadullisesti kaikki vaihtoehdot (ANOVA, response surface, regression) johtavat samaan tulokseen. 7

Esim. 6.2: Määritellään { 1, jos A = 15 x 1 = 1, jos A = 25 jolloin regressiomalli on x 2 = { 1, jos B = 0.5 1, jos B = 1 y = β 0 + β 1 x 1 + β 2 x 2 + β 12 x 1 x 2 + ε. data cp2; * Muodostetaan uusi tiedosto; set chemicalprocess; if (a = 15) then x1 = -1; else x1 = 1; if (b = 1) then x2 = -1; else x2 = 1; run; Title "2ˆ2 factorial as a regression model"; proc glm; model y = x1 x2 x1*x2; run; 8

Dependent Variable: y Yield Sum of Source DF Squares Mean Square F Value Pr > F Model 3 291.6666667 97.2222222 24.82 0.0002 Error 8 31.3333333 3.9166667 Corrected 11 323.0000000 R-Square Coeff Var Root MSE y Mean 0.902993 7.196571 1.979057 27.50000 Source DF Type III SS Mean Square F Value Pr > F x1 1 208.3333333 208.3333333 53.19 <.0001 x2 1 75.0000000 75.0000000 19.15 0.0024 x1*x2 1 8.3333333 8.3333333 2.13 0.1828 Standard Parameter Estimate Error t Value Pr > t Intercept 27.50000000 0.57130455 48.14 <.0001 x1 4.16666667 0.57130455 7.29 <.0001 x2 2.50000000 0.57130455 4.38 0.0024 x1*x2-0.83333333 0.57130455-1.46 0.1828 9

Yleinen 2 k malli Yleisessä 2 k faktorikokeen asetelmassa (factorial design) on k päävaikutusta, k 3 k 2 ) ) toisen asteen yhdysvaikutustermiä, kolmannen asteen yhdysvaikutustermiä, yksi k:n tekijän yhdysvaikutustermi. Yhteensä termejä on 2 k 1 (yleiskeskiarvon lisäksi). Yhdelläkin toistolla kokeita on tehtävä 2 k kappaletta, jotta kaikki vaihtoehdot tulee testatuksi. 10

Kokeen toteuttamiseksi laaditaan ensin standardi designmatriisi (standard design matrix), joka saadaan lisäämällä faktori kerrallaan ja yhdistämällä se muihin faktoreihin. Esimerkki 6.2: 2 4 faktorikokeen standardi designmatriisi ============================ Factor -------------- Row A B C D ============================ 1-1 -1-1 -1 2 +1-1 -1-1 3-1 +1-1 -1 4 +1 +1-1 -1 5-1 -1 +1-1 6 +1-1 +1-1 7-1 +1 +1-1 8 +1 +1 +1-1 9-1 -1-1 +1 10 +1-1 -1 +1 11-1 +1-1 +1 12 +1 +1-1 +1 13-1 -1 +1 +1 14 +1-1 +1 +1 15-1 +1 +1 +1 16 +1 +1 +1 +1 ============================ Satunnaistaminen toteutetaan permutoimalla rivit satunnaiseen järjestykseen. 11

Varianssitaulu (toistoja n): Source SS df MS F Main effect A SS A 1 MS A MS A MS err Main effect B SS B 1 MS B MS B MS err Main effect C SS C 1 MS C MS C MS err Main effect D SS D 1 MS D MS D MS err Interaction AB SS AB 1 MS AB MS AB MS err Interaction AC SS AC 1 MS AC MS AC MS err Interaction AD SS AD 1 MS AD MS AD MS err Interaction BC SS BC 1 MS BC MS BC MS err Interaction BD SS BD 1 MS BD MS BD MS err Interaction CD SS CD 1 MS CD MS CD MS err Interaction ABC SS ABC 1 MS ABC MS ABC MS err Interaction ABD SS ABD 1 MS ABD MS ABD MS err Interaction ACD SS ACD 1 MS ACD MS ACD MS err Interaction BCD SS BCD 1 MS BCD MS BCD MS err Interaction ABCD SS ABCD 1 MS ABCD MS ABCD MS err Error SS err 2 k (n 1) MS err Total SS tot 2 4 n 1 12

Huom. 6.3: Koska pää- ja yhdysvaikutustermien vapausasteet ovat 1, SS ja MS ovat samat. MS err = SS err /[16(n 1)] (2 4 = 16). 13

2 k kokeen toteutus: 1. Estimoidaan faktoriefektit 2. Muodostetaan perusmalli a) jos toistoja, estimoidaan täysi malli b) jos ei toistoja, valitaan tekijät normaalijakaumatestillä 3. Testataan tekijöiden tilastolliset merkitsevyydet 4. Poistetaan tarpeettomat tekijät ja estimoidaan lopullinen malli 5. Analysoidaan residuaalit 6. Tulkitaan mallin tulokset 14

Esimerkki 6.3: Nikkelin ja titaniumin seoksesta valmistetun metallin (mm. lentokoneen moottoreissa) murtumat. Taustatekijöitä: A pouring temperature, B titanium content, C heat treatment method ja D amount of grain refiner used. Vastemuuttuja y the length of crack in mm 10 2 induced in a sample coupon subject to a standard test. Toistoja n = 2 jokaisella käsittelykombinaatiolla. Kysymyksessä on 2 4 täysin satunnaistettu faktorikoe. 15

Design matriisi, käsittelyjärjestykset ja mittaukset: ==================================================== Run order Replicate --------------- -------------------- A B C D Repl I Repl II I II ---------------------------------------------------- -1-1 -1-1 16 13 7.309 6.376 +1-1 -1-1 12 14 14.707 15.219-1 +1-1 -1 11 9 11.635 12.089 +1 +1-1 -1 13 10 17.273 17.815-1 -1 +1-1 4 12 10.403 10.151 +1-1 +1-1 9 11 4.368 4.098-1 +1 +1-1 5 8 9.360 9.253 +1 +1 +1-1 6 4 13.440 12.923-1 -1-1 +1 3 7 8.561 8.951 +1-1 -1 +1 2 6 16.867 17.052-1 +1-1 +1 14 3 13.876 13.658 +1 +1-1 +1 8 16 19.824 19.639-1 -1 +1 +1 7 1 11.846 12.337 +1-1 +1 +1 15 2 6.125 5.904-1 +1 +1 +1 1 5 11.190 10.935 +1 +1 +1 +1 10 15 15.653 15.053 ===================================================== 16

SAS-analyysi options ls = 80; data titanium; input y @@; /* muodostetaan design matriisi*/ if (mod(int((_n_+1)/2),2)=0) then A = 1; else A = -1; if (mod(int((_n_+1)/2),4)=0) (mod(int((_n_+1)/2)+1,4)=0) then B = 1; else B = -1; if (mod(int((_n_+1)/2),8)=0) (mod(int((_n_+1)/2)+1,8)=0) (mod(int((_n_+1)/2)+2,8)=0) (mod(int((_n_+1)/2)+3,8)=0) then C = 1; else C = -1; if (int((_n_+1)/2) < 9) then D = -1; else D = 1; label y = "Crack length (mm x 10e-2)" A = "Pouring temperature" B = "Titanium content" C = "Heat treatment method" D = "Grain refiner used"; datalines; 7.037 6.376 14.707 15.219 11.635 12.089 17.273 17.815 10.403 10.151 4.368 4.098 9.360 9.253 13.440 12.923 8.561 8.951 16.867 17.052 13.876 13.658 19.824 19.639 11.846 12.337 6.125 5.904 11.190 10.935 15.653 15.053 ; run; 17

Title "Nickel-titan alloy cracks data (2ˆ4 faktorial design)"; proc glm data = titanium; class A B C D; model y = A B C D; run; 18

Nickel-titan alloy cracks data (2ˆ4 faktorial design) The GLM Procedure Class Level Information Class Levels Values A 2-1 1 B 2-1 1 C 2-1 1 D 2-1 1 Number of Observations Read 32 Number of Observations Used 32 The GLM Procedure Dependent Variable: y Crack length (mm x 10e-2) Sum of Source DF Squares Mean Square F Value Pr > F Model 15 570.9475379 38.0631692 468.99 <.0001 Error 16 1.2985540 0.0811596 Corrected 31 572.2460919 R-Square Coeff Var Root MSE y Mean 0.997731 2.376408 0.284885 11.98806 Source DF Type III SS Mean Square F Value Pr > F A 1 72.9088501 72.9088501 898.34 <.0001 B 1 126.4606561 126.4606561 1558.17 <.0001 A*B 1 29.9267161 29.9267161 368.74 <.0001 C 1 103.4641125 103.4641125 1274.82 <.0001 A*C 1 128.4964805 128.4964805 1583.26 <.0001 B*C 1 0.0737280 0.0737280 0.91 0.3547 A*B*C 1 78.7512500 78.7512500 970.33 <.0001 D 1 30.6622805 30.6622805 377.80 <.0001 A*D 1 0.0468180 0.0468180 0.58 0.4586 B*D 1 0.0178605 0.0178605 0.22 0.6453 A*B*D 1 0.0768320 0.0768320 0.95 0.3450 C*D 1 0.0472781 0.0472781 0.58 0.4564 A*C*D 1 0.0029261 0.0029261 0.04 0.8518 B*C*D 1 0.0101531 0.0101531 0.13 0.7282 A*B*C*D 1 0.0015961 0.0015961 0.02 0.8902 19

Mikään interaktiotekijä, jossa D on mukana, ei ole tilastollisesti merkitsevä. Kolmannen asteen tekijöistä ABC on tilastollisesti merkitsevä. Yleinen tapa on, että pysytelään hierarkisissa malleissa, jolloin korkeinta astetta olevan termin kaikki alemmat termit säilytetään lopullisessa mallissa. Poistamalla muut tilastollisesti ei-merkitsevät tekijät estimoidaan seuraavaksi malli, jossa on ABC ja kaikki alemman asteen termit sekä D:n päävaikutus (main effect). Regressioestimoinnilla saadaan myös kertoimet. 20

Nickel-titan alloy cracks data (2ˆ4 faktorial design) The GLM Procedure Dependent Variable: y Crack length (mm x 10e-2) Sum of Source DF Squares Mean Square F Value Pr > F Model 8 570.7440739 71.3430092 1092.46 <.0001 Error 23 1.5020180 0.0653051 Corrected 31 572.2460919 R-Square Coeff Var Root MSE y Mean 0.997375 2.131693 0.255549 11.98806 Source DF Type III SS Mean Square F Value Pr > F A 1 72.9088501 72.9088501 1116.43 <.0001 B 1 126.4606561 126.4606561 1936.46 <.0001 A*B 1 29.9267161 29.9267161 458.26 <.0001 C 1 103.4641125 103.4641125 1584.32 <.0001 A*C 1 128.4964805 128.4964805 1967.63 <.0001 B*C 1 0.0737280 0.0737280 1.13 0.2990 A*B*C 1 78.7512500 78.7512500 1205.90 <.0001 D 1 30.6622805 30.6622805 469.52 <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept 11.98806250 0.04517505 265.37 <.0001 A 1.50943750 0.04517505 33.41 <.0001 B 1.98793750 0.04517505 44.01 <.0001 A*B 0.96706250 0.04517505 21.41 <.0001 C -1.79812500 0.04517505-39.80 <.0001 A*C -2.00387500 0.04517505-44.36 <.0001 B*C 0.04800000 0.04517505 1.06 0.2990 A*B*C 1.56875000 0.04517505 34.73 <.0001 D 0.97887500 0.04517505 21.67 <.0001 21

Tekijän C, heat treatment method, vaikutus on negatiivinen samoin kuin AC interactioterimin. Tarkastellaan seuraavaksi mallin riittävyyttä. Normaalisuus on jokseenkin ok, eikä heteroskedastisuutta ole havaittavissa. 22

Jos tavoitteena on saada seos, jossa murtumat (cracks) ovat mahdollisimman pieniä, löytyy kombinaatio suoraan etsimällä vaihtoehto, jossa keskiarvo on pienin. Yleisessä tapauksessa tämä ja muut vaihtoehdot saadaan ennustettua regressiomallia, jonka kerroinestimaatit on tulostuksen alimmassa taulukossa. Alla on ennusteet eri kombinaatioilla. Minimi löytyy tekijäntasoilla A = 1, B = -1, C = 1, D = -1 y 2121. = 4.2 ja ˆy 2121 = 4.1. Ero (pieni) keskiarvon ja regressioennusteen välillä johtuu siitä, että malli ei ole saturoitu (saturoitu malli = malli, jossa kaikki päävaikutus ja yhdysvaikutustermit) 23

===================================== A B C D mean(y) pred (y) ------------------------------------- -1-1 -1-1 6.7 6.8 1-1 -1-1 15.0 15.0-1 1-1 -1 11.9 11.8 1 1-1 -1 17.5 17.7-1 -1 1-1 10.3 10.2 1-1 1-1 4.2 4.1-1 1 1-1 9.3 9.2 1 1 1-1 13.2 13.3-1 -1-1 1 8.8 8.7 1-1 -1 1 17.0 16.9-1 1-1 1 13.8 13.8 1 1-1 1 19.7 19.6-1 -1 1 1 12.1 12.2 1-1 1 1 6.0 6.1-1 1 1 1 11.1 11.2 1 1 1 1 15.4 15.2 ==================================== 24

Jos yhdysvaikutstekijöitä ei huomioitaisi, päävaikutusten ( yksi tekijä kerrallaan asetelma) johtaisi, tilanteeseen, jossa malli ennustaisi parhaan tuloksen käsittelykombinaatiolla A = -1, B = -1, C = 1, D = -1, y pred = 5.7, kun tilastollisesti merkitsevät yhdysvaikutusterimit sisältävä malli ennustaa y pred = 10.2! 25

Tarkastellaan vielä yhdysvaikutustermejä hieman lähemmin. Tarkastellaan AB, AC, BC ja ABC yhdysvaikutuksia. Erityisesti BC ei ole tilastollisesti merkitsevä. Jos yhdysvaikutusta ei ole, niin kyseisten tekijöiden vaikutus vastemuuttujaan on samansuuntaista (parallel) siiryttäessä käsittelyn tasolta toiselle. Yhdysvaikutuksen tapauksessa profiilien suunnat poikkeavat toisistaan. Profiels of A class means given B treatment Profiels of A class mean profiles given C treatment Profiels of B class mean profiles given C treatment 20 20 20 15 15 15 Class mean Class mean Class mean 10 10 10 5 A- A+ B- 9.5 10.5 B+ 11.5 16.5 5 A- A+ C- 10.3 17.3 C+ 10.7 9.7 5 B- B+ C- 11.8 15.7 C+ 8.2 12.2 B:n ja C:n välillä ei siis ole yhdysvaikutusta. 26

Tarkastellaan seuraavkasi ABC yhdysvaikutusta. BC for A = -1 BC for A = +1 BC for A combined 15.0 20.0 20.0 15.0 15.0 Class mean 10.0 Class mean Class mean 10.0 10.0 5.0 B- B+ C=-1 7.7 12.8 C = +1 11.2 10.2 5.0 B- B+ C=-1 16.0 18.6 C = +1 5.1 14.3 5.0 B- B+ C=-1 11.8 15.7 C = +1 8.2 12.2 A:n luokissa B:n keskiarvoprofiilit eivät ole saman suuntaisia, kun taas aggregoitaessa A:n yli, profiilit ovat samansuuntaisest (viimeinen kuvio oikealla, joka on sama kuin BC-kuvio edellä). Tämä on osoitus kolmannen asteen iteraktiosta (ABC). 27

Jos kaikki yllä olevat profiilit olisivat saman samanlaisia, se olisi osoitus ABC yhdysvaikutuksen puuttumisesta. Jos kaikki ovat samansuuntaisia, puuttuuvat kaikki yhdysvaikututekijät. D:ltä puuttuu kaikki interaktiotermit. Kuviona tämä näyttää seuraavalta. (esimerkiksi BD ja ABD). BD for A = -1 BD for A = +1 BD for A combined 15.0 20.0 20.0 15.0 15.0 Class mean 10.0 Class mean Class mean 10.0 10.0 5.0 B- B+ D=-1 8.5 10.6 D = +1 10.4 12.4 5.0 B- B+ D=-1 9.6 15.4 D = +1 11.5 17.5 5.0 B- B+ D=-1 9.0 13.0 D = +1 11.0 15.0 28

2 k asetelma: yksi toisto (n = 1) Faktoreiden lukumäärän k kasvaessa, kasvaa käsittelyykombinaatioiden määrä nopeasti. Esimerkiksi, jos k = 5, niin 2 5 = 32 kombinaatiota, jos k = 6, niin 2 6 = 64 kombinaatiota. Tällaisissa tapauksissa turvaudutaan usien vain yhteen toistoon (n = 1). Täyden mallin (saturated) yhdysvaikutusten testausta ei tällöin voida toteuttaa, koska residuaalivarianssin estimoimiseksi ei riitä vapausasteita. 29

Kuitenkin, jos korkeimpien asteiden yhdysvaikutuksia ei esiinny voidaan niiden vapausasteet käyttää residuaalivarianssin estimointiin. Normaalijakauman todennäköisyyskuviota (normal probability plot) voidaan käyttää päättämään minkä termien estimaatit ovat katsottavissa pelkästään satunnaisvaihteluksi (satunnaiskohinaksi). 30

Esimerkki 6.4: Kemiallista tuotetta valmistetaan paineastiassa suodattamalla. Tavoiteena on parantaa suodatusnopeutta nykyisestä n. 75 gal/h. Faktorikokeella tutkitaan suodatusnopeuteen vaikuttavia tekijöitä. Vastemuuttuja: y: suodatusnopeus (filtration rate gal/h) Faktorit: A: Lämpötila (temperature) B: Paine (pressure) C: Formalehydikonsentraatio (concentration of formaldehyde) D: Sekoitusnopeus? (stirring rate) 31

Havainnot: ================ A B C D y ---------------- -1-1 -1-1 45 +1-1 -1-1 71-1 +1-1 -1 48 +1 +1-1 -1 65-1 -1 +1-1 68 +1-1 +1-1 60-1 +1 +1-1 80 +1 +1 +1-1 65-1 -1-1 +1 43 +1-1 -1 +1 100-1 +1-1 +1 45 +1 +1-1 +1 104-1 -1 +1 +1 75 +1-1 +1 +1 86-1 +1 +1 +1 70 +1 +1 +1 +1 96 ================ 32

Regressiokerroinestimaatit: ========================== Parameter Estimate -------------------------- Intercept 70.06250000 A 10.81250000 B 1.56250000 A*B 0.06250000 C 4.93750000 A*C -9.06250000 B*C 1.18750000 A*B*C 0.93750000 D 7.31250000 A*D 8.31250000 B*D -0.18750000 A*B*D 2.06250000 C*D -0.56250000 A*C*D -0.81250000 B*C*D -1.31250000 A*B*C*D 0.68750000 ========================== 33

Kerroinestimaattien Normal probability plot: 3 2 Standardized Normla Variate 1 0-1 -2 AC C D AD A -3-15 -10-5 0 5 10 15 Effect estimate Suoralla olevat kertoimet ovat tilastollisesti merkityksettömiä. Estimoidaan malli, jossa on tekijöiden A, C ja D päävaikutukset sekä yhdysvaikututermit AC ja AD. 34

Erityisesti, koska B eikä mitkään siihen liittyvät yhdysvaikutustermit osoittaudu tilastollisesti merkittäviksi, jää B kokonaisuudessaan pois. Tällöin koetilanne voidaan itse asiassa ajatella 2 3 asetelmana, jossa muodostuu kaksi toistoa (n = 2) (hidden replication) jokaiseen soluun. Alla on tulokset näin syntyneen 2 3 saturoidusta mallista. Tulokset vahvistavat edelleen, etteivät myöskään CD ja ACD ole tilastollisesti merkitseviä, joten ne voidaan poistaa myös lopullisesta mallista. 35

Saturoidun mallin variannsitaulu: Source DF Squares Mean Square F Value Pr > F Model 7 5551.437500 793.062500 35.35 <.0001 Error 8 179.500000 22.437500 Corrected 15 5730.937500 R-Square Coeff Var Root MSE y Mean 0.968679 6.760855 4.736824 70.06250 Source DF Type III SS Mean Square F Value Pr > F A 1 1870.562500 1870.562500 83.37 <.0001 C 1 390.062500 390.062500 17.38 0.0031 A*C 1 1314.062500 1314.062500 58.57 <.0001 D 1 855.562500 855.562500 38.13 0.0003 A*D 1 1105.562500 1105.562500 49.27 0.0001 C*D 1 5.062500 5.062500 0.23 0.6475 A*C*D 1 10.562500 10.562500 0.47 0.5120 36

Lopullisen mallin estimaatit: The GLM Procedure Dependent Variable: y Filtration rate (gal/h) Sum of Source DF Squares Mean Square F Value Pr > F Model 5 5535.812500 1107.162500 56.74 <.0001 Error 10 195.125000 19.512500 Corrected 15 5730.937500 R-Square Coeff Var Root MSE y Mean 0.965952 6.304793 4.417296 70.06250 Source DF Type III SS Mean Square F Value Pr > F A 1 1870.562500 1870.562500 95.86 <.0001 C 1 390.062500 390.062500 19.99 0.0012 D 1 855.562500 855.562500 43.85 <.0001 A*C 1 1314.062500 1314.062500 67.34 <.0001 A*D 1 1105.562500 1105.562500 56.66 <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept 70.06250000 1.10432389 63.44 <.0001 A 10.81250000 1.10432389 9.79 <.0001 C 4.93750000 1.10432389 4.47 0.0012 D 7.31250000 1.10432389 6.62 <.0001 A*C -9.06250000 1.10432389-8.21 <.0001 A*D 8.31250000 1.10432389 7.53 <.0001 37

Residuaalien normaalisuuskuvion (Normal probability plot) perusteella ei esiinny merkittäviä poikkeamia, joten malli näiltä osin näyttäisi olevan riittävä. 38

Estimoitu regressiomalli on siis muotoa: (2) ˆy = 70.06 + 10.81 A + 4.94 C + 7.31 D 9.06 AC + 8.32 AD Havaitaan jälleen, että tuotannon maksimin määrittämisessä yhdysvaikutustekijät ovat avainasemassa. Jos tarkastellaan vain päävaikutuksia, maksimi saavutettaisiin, kun A = C = D = 1, jolloin läpäisy päävaikutuksilla ennustettuna olisi 70.06 + 10.81 + 4.94 + 7.31 93, (täyden mallin ennuste 70.06 + 10.81 + 4.94 + 7.31 9.06 + 8.32 92, eli liki sama, johtuen siitä, että -9.06 ja 8.32 käytännöllisesti katsoen kumoavat toisensa). Kuitenkin AC:n kerroin on negatiivinen, jolloin valitsemalla A tai C negatiiviseksi, muuttuu vaikutus positiiviseksi. Tässä kannattaa valita C negatiiviseksi. Maksimi löytyy tekijöiden ääriarvoista (±1) valitsemalla A = 1, C = 1, D = 1, jolloin ˆy = 70.06 + 10.81 4.94 + 7.31 + 9.06 + 8.31 100. 39

Huom. 6.4: Kun faktorit ovat kvantitatiivisa, voidaan vali [ 1, 1] ajatella ääripäiksi, jossa skaalaamalla uudestaan alaraja ilmaisee %-osuuden faktorin maksimiarvosta ja yläraja 100%. 40

Esimerkki 6.5: Data transformation in Factorial Design. Tarkastella jälleen 2 4 koetta, jossa on vain yksi toisto. Vastemuuttuja (Response): y: Advance rate of a dill Faktorit: A: Drill load B: Flow rate C: Rotational speed D: Drilling mud used 41

Saturoidun mallin faktoreiden estimaatit: ========================== Parameter Estimate -------------------------- A 0.458750000 B 3.218750000 A*B 0.295000000 C 1.646250000 A*C 0.077500000 B*C 0.755000000 A*B*C 0.081250000 D 1.145000000 A*D 0.418750000 B*D 0.796250000 A*B*D 0.380000000 C*D 0.223750000 A*C*D 0.292500000 B*C*D 0.087500000 A*B*C*D 0.271250000 ========================== 42

Normaalisuuskuvio: Normal Probability Plot of Effect Coefficients 3 2 C B Standard normal deviate 1 0-1 BD BC D -2-3 0 1 2 3 4 Estimate Kuvion mukaan merkittäviä tekijöitä ovat B, C, D, BC ja BD. 43

Estimoitaessa vastaava malli, jäännöskuviot ovat seuraavat: Kuvioiden perusteella virhtemin varianssi ei näytä olevan vakio eikä normaalisuus toteudu. Koska vastemuuttuja on nopeus (rate), log-muunnos y = log y, jossa log on luonnollinen logaritmi, on yleisesti järkevä vaihtoehto. 44

Muunnetun mallin kertoimien normaalikuvion perusteella vain B, C ja D päävaikutukset ovat merkityksellisiä. Normal Probability Plot of Factor Effects 3 B 2 C D Normal variable value 1 0-1 -2-3 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 Factor effect 45

Estimointitulokset: Dependent Variable: yl log dill rate Sum of Source DF Squares Mean Square F Value Pr > F Model 3 7.11461861 2.37153954 164.82 <.0001 Error 12 0.17266157 0.01438846 Corrected 15 7.28728019 R-Square Coeff Var Root MSE yl Mean 0.976306 7.511260 0.119952 1.596961 Source DF Type III SS Mean Square F Value Pr > F B 1 5.34521052 5.34521052 371.49 <.0001 C 1 1.33887075 1.33887075 93.05 <.0001 D 1 0.43053735 0.43053735 29.92 0.0001 Standard Parameter Estimate Error t Value Pr > t Intercept 1.596961407 0.02998798 53.25 <.0001 B 0.577992783 0.02998798 19.27 <.0001 C 0.289273956 0.02998798 9.65 <.0001 D 0.164038363 0.02998798 5.47 0.0001 46

Jäännöstarkastelut (mallin riittävyys) Kuvioiden perusteella kaikki malli on näiltä osin ok. Lopputuloksena on, että vain faktoreiden Flow, Speed ja Mud päävaikutuksilla on merkitystä. Yhdysvaikutuksen puuttuessa, niitä voidaan säädellä toisistaan riippumatta poraustulosta optimoitaessa. 47

Keskipistearvon lisääminen 2 k koeasetelmaan 2 k faktorikokeissa implisiittisenä oletuksena on, että faktoreiden vaikutus on lineaarista. Osittain yhdysvaikutustermin kautta voidaan huomioida mahdollista epälineaarisuutta. Toteuttamalla kokeet myös faktorin 1 ja +1 arvojen lisäksi myös nolla -arvolla saadaan tutkittua mahdollista epälineaarista vaikutusta vastemuuttujaan. Huom. 6.5: Oletuksena tässä lähestymistavassa on, että faktorit ovat kvantitatiivisia. Estimoitava malli ajatellaan olevan muotoa: (3) k y = β 0 + β i x i + k βij x i x j + β jj x 2 j + ε j=1 i<j i=1 Testatttava hypoteesi (4) H 0 : β 11 = = β kk = 0. 48

Teknisesti tämä onnistuu lisäämällä yksi faktoritaso lisää. Keskipistetasolla (kaikki faktorit nolla-tasolla) toistoja tehdään n c kappaletta, jotka satunnaistetaan kokeen suunnitteluvaiheessa tavanomaiseen tapaan. 49

Esimerkki 6.6: Oletetaan, että suodatusesimerkissä (Esim. 6.4) keskipistetasolla (0, 0, 0, 0) on tehty neljä toistoa, joista on saatu arvot 73, 75, 66 ja 69. Määritellään uusi muuttuja cp = 1, kun center point havainto ja cp = 0 muuten. SAS-toteutus on seuraava: proc glm:ssä analyysi totetutetaan regressioestimoinnilla (kvantitatiiviset faktorit). 50

options ls = 80; data filtration; input A B C D cp y; label y = "Filtration rate (gal/h)" A = "Temperature" B = "Pressure" C = "Concentration of formaldehyde" D = "Stirring rate" cp = "Center point"; datalines; -1-1 -1-1 0 45 +1-1 -1-1 0 71-1 +1-1 -1 0 48 +1 +1-1 -1 0 65-1 -1 +1-1 0 68 +1-1 +1-1 0 60-1 +1 +1-1 0 80 +1 +1 +1-1 0 65-1 -1-1 +1 0 43 +1-1 -1 +1 0 100-1 +1-1 +1 0 45 +1 +1-1 +1 0 104-1 -1 +1 +1 0 75 +1-1 +1 +1 0 86-1 +1 +1 +1 0 70 +1 +1 +1 +1 0 96 0 0 0 0 1 73 0 0 0 0 1 75 0 0 0 0 1 66 0 0 0 0 1 69 ; run; Title "Filtration example with center point"; Proc glm data = filtration; model y = A B C D cp /ss3; run; 51

Saturoidun mallin tulokset: The GLM Procedure Dependent Variable: y Filtration rate (gal/h) Sum of Source DF Squares Mean Square F Value Pr > F Model 16 5732.450000 358.278125 22.05 0.0133 Error 3 48.750000 16.250000 Corrected 19 5781.200000 R-Square Coeff Var Root MSE y Mean 0.991567 5.742349 4.031129 70.20000 Source DF Type III SS Mean Square F Value Pr > F A 1 1870.562500 1870.562500 115.11 0.0017 B 1 39.062500 39.062500 2.40 0.2188 A*B 1 0.062500 0.062500 0.00 0.9544 C 1 390.062500 390.062500 24.00 0.0163 A*C 1 1314.062500 1314.062500 80.87 0.0029 B*C 1 22.562500 22.562500 1.39 0.3236 A*B*C 1 14.062500 14.062500 0.87 0.4209 D 1 855.562500 855.562500 52.65 0.0054 A*D 1 1105.562500 1105.562500 68.03 0.0037 B*D 1 0.562500 0.562500 0.03 0.8643 A*B*D 1 68.062500 68.062500 4.19 0.1332 C*D 1 5.062500 5.062500 0.31 0.6157 A*C*D 1 10.562500 10.562500 0.65 0.4791 B*C*D 1 27.562500 27.562500 1.70 0.2838 A*B*C*D 1 7.562500 7.562500 0.47 0.5441 cp 1 1.512500 1.512500 0.09 0.7802 52

Center point taso ei ole tilastolliseti merkitsevä (p-arvo 0.78), joten tekijöillä ei ole epälineaarisuutta (kvadraattisia tekijöitä), eli nollahypoteesia ei hylätä. H 0 : β 11 = = β 44 = 0 Havaitaan jälleen, että vain tekijät A, C, D, AC ja AD ovat tilastolliseti merkitseviä. 53