1 Kaikki tässä annetut harjoitustehtävät on muokattu vanhoista tenttitehtävistä. Kaikissa niissä tehtävissä, joissa koetulokset on annettu, kannattaa tehdä tilastolliset analyysit myös itse Excelillä tai R:llä. Osa, varsinkin ryhmän IV tehtävistä vastaavat laajuudeltaan kahta normaalia viiden tehtävän tenttitehtävää. I. Perusteisiin liittyviä tehtäviä, joihin tentissä vastataan ilman apuvälineitä. Kaikissa tämän ryhmän tehtävissä on vastattava seuraavan kysymykseen sen ohjeita noudattaen. Mitä tarkoitetaan seuraavilla käsitteillä ja mitä merkitystä niillä on kokeiden suunnittelussa (mihin/milloin/miten niitä käytetään ja miten ne lasketaan/määritetään/arvioidaan)? Vastaa omin sanoin; lisäksi voit antaa esimerkkejä, piirroksia tai laskukaavoja käsitteen selventämiseksi. Vastaa vain kysymykseen, sillä tentissä asian vierestä kirjoittaminen vähentäisi pisteitä. 1. a) Empiirisellä mallilla? b) Yhdysvaikutuksella? c) Ylisovitetulla mallilla? d) 2 4-1 -osakoesuunnitelmalla? e) Vastemuuttujalla? f) Miksi koesuunnitelmaan kannattaa yleensä lisätä ns. keskipiste? 2. a) Mitä tarkoitetaan satunnaistamisella? b) Miten ns. koevirhettä voidaan estimoida? c) Eräässä empiirisessä mallissa keskimääräiseksi koevirheeksi oli estimoitu 1,27 g/l ja residuaalien keskivirheeksi saatiin 0,13 g/l. Oliko malli yhteensopimaton vai ylisovitettu? Perustele! d) Minkälaisissa tilanteissa on järkevää käyttää ns. osakoesuunnitelmia? e) Mikä on tehtävän 4 vastemuuttuja? f) Voidaanko 2 2 -koesuunnitelman pohjalta tehdä kvadraattinen malli, jos koesuunnitelma sisältää keskipisteen? Perustele! g) Mainitse järkeviä koesuunnitelmavaihtoehtoja tilanteessa, jossa etsitään fermentorin optimaalista tuottoa kolmen eri muuttujan suhteen? 3. a) Miksi kokeiden suorittaminen satunnaisessa järjestyksessä on tärkeää b) Mitkä on tehtävän 4 suunnittelu- ja vastemuuttujat (lue myös lopussa oleva abstrakti)? c) Mitä kvadraattinen malli edellyttää koesuunnitelmalta? Perustele! d) Olisiko 3 3 -koesuunnitelma periaatteessa ok tilanteessa, jossa etsitään fermentorin optimaalista tuottoa kolmen eri muuttujan suhteen? Perustele? e) Nettikäsikirja Handbook of Engineering Statistics antaa eräästä 2 N osakoesuunnitelmasta seuraavia tietoja FACTOR DEFINITION CONFOUNDING STRUCTURE 1 1 1 + 235 + 456 + 12346 2 2 2 + 135 + 346 + 12456 3 3 3 + 125 + 246 + 13456 4 4 4 + 156 + 236 + 12345 5 123 5 + 123 + 146 + 23456 6 234 6 + 145 + 234 + 12356................................... 12 12 + 35 + 1346 + 2456 13 13 + 25 + 1246 + 3456 14 14 + 56 + 1236 + 2345 15 15 + 23 + 46 + 123456 16 16 + 45 + 1234 + 2356 23 23 + 15 + 46 + 123456 24 24 + 36 + 1256 + 1345 25 25 + 13 + 1246 + 3456 26 26 + 34 + 1245 + 1356 34 34 + 26 + 1245 + 1356 35 35 + 12 + 1346 + 2456 36 36 + 24 + 1256 + 1345 45 45 + 16 + 1234 + 2356 46 46 + 15 + 23 + 123456 56 56 + 14 + 1236 + 2345...................................
2 Mikä osakoesuunnitelma on kyseessä ja mikä on sen resoluutio? 4. a) Milloin koesuunnitelman ei tarvitse sisältää toistoja? b) Eräässä koesuunnitelmassa oli muuttujina lämpötila (30 C, 40 C ja 50 C), alku-ph (6,5; 7,0 ja 7,5) sekä kahden eri prosessivaiheen kestoaikojen suhde (1:2 ja 2:1). Mitkä muuttujista ovat kvalitatiivisia ja mitkä kvantitatiivisia? c) Miten parittaisia yhdysvaikutuksia voi havainnollistaa graafisesti? Anna esimerkki! d) Miksi malleihin ei yleensä oteta mukaan korkeamman asteen yhdysvaikutuksia? e) Kysyttäessä, millainen koesuunnitelma tarvitaan tilanteessa, jossa arvellaan, että optimialue on suunnilleen tiedossa, eräs opiskelija vastasi tarvitaan kvadraattista mallia. Mikä vastauksessa on väärin? f) Millaisissa tilanteissa on tarpeen käyttää resoluution IV -osakoesuunnitelmia? 5. a) Miksi koesuunnitelmat sisältävät lähes aina toistokokeita? b) Eräässä koesuunnitelmassa oli muuttujina lämpötila (30 C, 40 C ja 50 C), alku-ph (6,5; 7,0 ja 7,5) sekä entsyymi (entsyymit A ja B). Mitkä muuttujista ovat kvalitatiivisia ja mitkä kvantitatiivisia? c) Eräässä koesuunnitelmassa vertailtiin kolmea eri tärkkelystä sokeriksi pilkkovaa entsyymiä. Koesarja sisälsi kolme koetta kullakin entsyymillä ja kaikista yhdeksästä kokeesta määritettiin sokeripitoisuus kolmella toistomittauksella. Montako koetoistoa tässä koejärjestelyssä oli. Miten kokeet tulisi toteuttaa. d) Havainnollista graafisesti, mitä tarkoitetaan parittaisella yhdysvaikutuksella? e) Millaisissa tilanteissa on tarpeen käyttää CC-koesuunnitelmia? 6. Mitä tarkoitetaan ja miksi se on tärkeätä (lyhyet ja ytimekkäät vastaukset; esimerkit sallittuja) a) yhdysvaikutuksella? b) lohkottamisella? c) empiirisellä mallilla? d) mekanistisella mallilla? e) kvalitatiivisella muuttujalla? f) gradientilla? 7. a) Miten koesuunnittelussa pyritään varmistamaan koetulosten tilastollinen riippumattomuus, joka on edellytyksenä luotettaville koetulosten analyyseille? b) Mitä koesuunnittelussa tarkoitetaan häiriötekijällä, ja miten sellainen tyypillisesti otetaan huomioon? c) Millaisiin koesuunnittelutilanteisiin soveltuvat -koesuunnitelmat? d) Millaisia matemaattisia malleja voidaan tehdä CC-koesuunnitelmien pohjalta?
3 II. Kvalitatiivisten muuttujien koesuunnitelmien tulosten analysointiin liittyviä tehtäviä 1. Eräässä yrityksessä haluttiin selvittää, ovatko kolmen eri raaka-ainetoimittajan tuotteet (A, B ja C) yhtä puhtaita. Kunkin toimittajan neljästä eri tuote-erästä tehtiin kolme rinnakkaisanalyysiä puhtaudelle. a) Mitkä ovat tekijät eli faktorit tässä ongelmassa? b) Luokittele tekijät (kiinteä vs. satunnainen ja ristikkäinen vs. sisäkkäinen) ja perustele luokittelusi (voit käyttää apuna myös alla annettua taulukkoa). c) Eräässä koesuunnittelun oppikirjassa tämä tehtävä on analysoitu ANOVAlla siten, että alkuperäisen puhtausprosentin sijasta on käytetty lukua puhtausprosentti!93%. Tee taulukon tietojen avulla johtopäätöksiä ja tulkintoja. Kirja käyttää toimittajien vaikutuksille symbolia ja tuoteerien aiheuttamalle varianssille symbolia käyttää alla annettua kirjassakin esitettyä taulukkoa. sekä ANOVAn testisuureelle symbolia F 0. Voit Source of Variation Sum of Squares Degrees of Freedom Mean Square Expected Mean Square F 0 Suppliers 15.06 2 7.53 0.97 Batches (within suppliers) 69.92 9 7.77 2.94 a Error 63.33 24 2.64 Total 148.31 35 a Significant at 5 percent. 2. Eräässä julkaisussa (The Internet Journal of Alternative Medicine. 2008. Volume 5 Number 2.) tutkittiin soijaproteiinin vaikutusta seerumin kolesterolitasoon. Vertailtavana oli 5 eri dieettiä: A: 20 % soijaproteiinia ja 0 % kolesterolia, B: 20 % soijaproteiinia ja 5 % kolesterolia, C: 20 % soijaproteiinia ja 10 % kolesterolia, D: 0 % soijaproteiinia ja 20 % kolesterolia ja E: 5 % soijaproteiinia ja 20 % kolesterolia. Kussakin ryhmässä oli viisi rottaa, joista seurattiin seerumin lipidiprofiilia kuuden viikon ajan. a) Julkaisussa tuloksia (seerumin eri lipidipitoisuuksia) analysoitiin yksisuuntaisella ANOVAlla kunkin viikon tuloksista erikseen (siis 6 eri varianssianalyysiä erikseen kullekin lipidille). Mikä on analyysien tekijä (faktori)? Onko se kiinteä vai satunnainen? b) Mikä on nollahypoteesi tässä ANOVAssa? c) Olisiko ANOVAN sijasta voitu käyttää regressioanalyysiä? Perustele! Jos vastauksesi on myönteinen, selitä mitkä ovat regressioanalyysin muuttujat, ja onko suunnitelma hyvä regressiota silmällä pitäen. d) LDL-kolesterolin osalta pitoisuuskeskiarvot alussa ja 6 viikon jälkeen olivat ryhmä A B C D E LDL alussa 197 193 198 197 197 LDL 6 vko 129 122 127 172 168 Julkaisun mukaan 6 viikon jälkeen saaduille tuloksille ANOVAn p-arvo oli alle 0,05. Selitä mahdollisimman ymmärrettävästi, mitä yo. tulokset tämän perusteella kertovat. 3. Tiina Suninmäki tutki insinöörityössään piikiekkojen laadunvaihteluun vaikuttavia tekijöitä. Eräässä työhön liittyvässä koesuunnitelmassa tutkittiin kiekkokoon ja eri injektorien vaikutusta kiekkojen piikerroksen paksuuteen pesuprosessin jälkeen. Alla on työssä eräästä suunnitellusta koesarjasta tehdyt johtopäätökset ja Excelillä tehty ANOVA-taulukko:
4 SPC-koe 3500 Å:n tuloksista saadaan selville, että A- ja B-injektorisettien välillä ei ole tilastollisesti merkitsevää eroa. Eri kiekkokokojen välillä ei ole myöskään tilastollisesti merkitsevää eroa. Tuloksia on esitelty taulukossa 40. Taulukko 40. SPC-seuranta 3500 Å ANOVA Source of Variation SS df MS F P-value F crit kiekkokoko 949,56 2 474,78 0,10 0,90 3,32 injektorit 4946,78 1 4946,78 1,04 0,31 4,17 Interaction 353,56 2 176,78 0,04 0,96 3,32 Within 142100,7 30 4736,69 Total 148350,6 35 a) Päättele vapausasteista, kuinka monta eri kiekkokokoa, injektoria ja toistoa koesuunnitelmassa on ollut. b) Onko tekijä on tulkinnut koesuunnitelman faktorit sisäkkäisiksi vai ristikkäisiksi, entä kiinteiksi vai satunnaisiksi (perustele yllä olevan ANOVA-taulukon avulla)? c) Ovatko insinöörityössä esitetyt johtopäätökset sopusoinnussa tulostaulukon valossa? Perustele! d) Koesarjan kiekkojen piikerroksen paksuuksien keskiarvo oli n. 3690 Å. Laske yllä olevan taulukon tulosten ja keskiarvon perusteella piikerroksen paksuudelle 95 % ennusteväli normaalijakauman nyrkkisääntöjen avulla (vapausasteita on riittävästi normaalijakaumaan perustuvan luottamusvälin laskemiseen). e) Tehtaan laadunvalvonta tekee säännöllisin välein tarkistusmittauksia piikerroksen paksuudesta. Eräässä tarkistuksessa piikerroksen paksuudeksi saatiin 3950 Å. Onko tuloksen perusteella syytä epäillä häiriötä prosessissa. Perustele ennustevälin avulla! 4. Eräässä valimossa (Foundry) haluttiin tutkia jätteen kuparipitoisuuden vaihteluun vaikuttavia tekijöitä. Tekijöiksi valittiin erä (Batch), jolla oli kolme arvoa (Baghouse dust, Core butts ja System sand) sekä näyte siten, että kustakin erästä otettiin 4 näytettä (Specimen). Jokaisesta näytteestä tehtiin kaksi kuparipitoisuusmääritystä. Data on annettu liitteessä kysymysten jälkeen, joskaan sitä ei tarvita kysymyksissä, mutta jos haluat harjoitella analyysin tekemistä itse, niin luonnollisesti tarvitset datan. Alla on aineistosta julkaistu varianssianalyysi. a) Analyysin tekijä on olettanut tekijät sisäkkäisiksi ja yhdistänyt sen vuoksi asianmukaisesti yhdysvaikutustermin ja näytetermin neliösummat ja vapausasteet, joka on taulukossa rivillä Specimens. Miten tuon rivin MS- ja F-arvot on laskettu? b) Yleensä erän tai näytteen kaltaiset faktorit luokitellaan satunnaiseksi. Laske tämän oletuksen (siis oleta sekä erä että näyte satunnaisiksi tekijöiksi) mukaiset F-arvot. c) Vertaa yllä olevaa ANOVA-taulukkoa EMS-taulukoihin. Mitä tekijöiden luokittelua ANOVAtaulukko vastaa?
5 d) Laske perustoistettavuutta, eriä ja näytteitä vastaavat varianssikomponentit. Tässä siis tekijät oletetaan satunnaisiksi riippumatta aiemmista vastauksistasi. Päättele varianssikomponenttien avulla, kumman toistojen lisäämisellä on suurempi vaikutus kokonaisepävarmuuteen, analyysitoistojen vai näytetoistojen? Liite tehtävään II.4 5. Eräässä yrityksessä haluttiin selvittää missä määrin valmistukseen käytettävien laitteiden (Machine 1-5) yksilöerot ja laitteiden käyttäjät eri vuoroissa (Operator Day/Night) vaikuttavat tuotteen halkaisijaan. Esimerkki on otettu lähteestä NIST/SEMATECH e-handbook of Statistical Methods. Mittausdata ja sen pohjalta tehty ANOVA on annettu alla olevissa taulukoissa. Eri koneilla operaattori on vaihdellut satunnaisesti.
6 a) Luokittele tekijät (kiinteä vs. satunnainen ja sisäkkäinen vs. ristikkäinen). Käytä apuna EMStaulukoita. b) Kirjoita datataulukko R:n, tai vaihtoehtoisesti Excelin edellyttämässä muodossa. c) Tee annettujen tulosten perusteella mahdollisimman monta mielekästä ja ymmärrettävää johtopäätöstä. d) Millä edellytyksillä tai oletuksilla tekijät olisi voitu luokitella satunnaisuuden suhteen toisin ja mitä lisälaskuja tämä olisi edellyttänyt? 6. Kuumasinkityksessä tutkittiin teräksen piipitoisuuden vaikutusta pinnoituksen paksuuteen. Kokeessa käytettiin kolmea eri piipitoisuutta (A, B ja C). Kummallakin pitoisuudella tehtiin 5 sinkitystä. Tuloksiksi saatiin (yksikkönä on μm): A 105 108 104 106 105 B 107 110 109 107 109 C 110 111 108 110 109 Alla ote tälle aineistolle Excelillä tehdystä tilastollisesta analyysistä
7 a) Mikä koesuunnitelma ja mikä analyysimenetelmä on kyseessä? b) Olisiko tulosten analysointiin voinut käyttää regressioanalyysiä ja mitä mahdollisia lisätietoja se olisi edellyttänyt? Perustele! c) Asettaako analyysi joitakin edellytyksiä sille, miten kokeet on tehty? Mitä? d) Tee Excel-tulostuksen perusteella analyysistä mahdollisimman monta johtopäätöstä ja havainnollista tuloksia sopivalla graafisella esityksellä. 7. Eräässä tutkimuksessa vertailtiin eri pesujauheen punnituslaiteyksilöitä (6 eri laiteyksilöä, R:ssä on käytetty nimeä Kone ). Tavoitteena oli selvittää, onko keskimääräisissä punnituspainoissa eroja. Tätä varteen kullakin laitteella punnittiin pesujauhe 20:een pakkaukseen, joiden asetuspaino oli hiukan yli 900 g. Alla tuloksista R:llä tehdyn varianssianalyysin tulokset. Df Sum Sq Mean Sq F value Pr(>F) Kone 5 1840.0 368.00 14.784 3.636e-11 *** Residuals 114 2837.6 24.89 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 a) Mikä tässä on suunnittelumuuttuja ja mikä vastemuuttuja? Miten suunnittelumuuttuja on luokiteltu tässä analyysissä (kvalitatiivinen vs. kvantitatiivinen ja kiinteä vs. satunnainen)? b) Miten data tulisi järjestää Excelissä? Vaihtoehtoisesti voit kertoa, miten data tulisi järjestää R:ssä. Selitä riittävän yksityiskohtaisesti esim. kirjoittamalla taulukko vaaditussa muodossa niin, että lukujen paikalla on pelkät pisteet. c) Tulkitse annettujen tietojen avulla tuloksia mahdollisimman monipuolisesti. Voit käyttää hyväksesi myös alla olevaa taulukkoa, jossa on annettu punnitusten keskiarvot kullakin laiteyksilöllä.
8 Kone Paino 1 909.2837 2 912.6007 3 920.2410 4 917.5619 5 910.7437 6 911.4950 d) Havainnollista tuloksia graafisesti siten, että kuvassa näkyy keskimääräisen koevirheen avulla laskettu 20 punnituksen keskiarvon epävarmuus eli ns. keskiarvon keskivirhe. 8. Eräs yritys ostaa raaka-aineensa erissä kolmelta eri toimittajalta. Raaka-aineen puhtaus vaihtelee melko paljon aiheuttaen yritykselle ongelmia lopputuotteen laadun suhteen. Yritys halusi selvittää onko toimittajien välillä eroja puhtauden tasossa tai sen vaihtelussa. Sitä varten analysoitiin kultakin toimittajalta neljä satunnaisesti valittua erä, joista kustakin tehtiin puhtausmääritykset kolmesta satunnaisesti poimitusta näytteestä. Tulokset näkyvät alla: erä 1 erä 2 erä 3 erä 4 toimittaja 1 94 91 91 94 92 90 93 97 93 89 94 93 toimittaja 2 94 93 92 93 91 97 93 96 90 95 91 95 toimittaja 3 95 91 94 96 97 93 92 95 93 95 95 94 a) Mikä koesuunnitelma on kyseessä? b) Nimeä ja luokittele suunnitelman muuttujat. c) Kirjoita taulukko Excelin tai R:n varianssianalyysin edellyttämässä muodossa. Sinun ei tarvitse kirjoittaa koko taulukkoa; riittää, että siitä käy rakenne yksiselitteisesti ilmi. Alla on tuloksista Excelillä tehdyn regressioanalyysin tulostus (loput kysymykset liittyvät siihen): Anova: Two-Factor With Replication SUMMARY erä 1 erä 2 erä 3 erä 4 Total toimittaja 1 Count 3 3 3 3 12 Sum 279 270 278 284 1111 Average 93 90 92.7 94.7 92.6 Variance 1 1 2.3 4.3 4.6 toimittaja 2 Count 3 3 3 3 12 Sum 275 285 276 284 1120 Average 91.7 95 92 94.7 93.3 Variance 4.3 4 1 2.3 4.6
9 toimittaja 3 Count 3 3 3 3 12 Sum 285 279 281 285 1130 Average 95 93 93.7 95 94.2 Variance 4 4 2.3 1 2.9 Total Count 9 9 9 9 Sum 839 834 835 853 Average 93.2 92.7 92.8 94.8 Variance 4.4 7.0 1.9 1.9 ANOVA Source of Variation SS df MS F P-value F crit Sample 15.1 2 7.53 2.85 0.077 3.40 Columns 25.6 3 8.55 3.24 0.040 3.01 Interaction 44.3 6 7.38 2.80 0.033 2.51 Within 63.3 24 2.64 Total 148.3 35 d) Selitä, miten tässä analyysissä tarvittavat alla näkyvät korjaukset on laskettu. Source of Variation SS df MS F P-value Toimittaja 15.1 2.0 7.53 0.97 0.416 Erä 69.9 9.0 7.77 2.94 0.017 Määritys 63.3 24.0 2.64 e) Tulkitse yllä olevan taulukon tulokset. f) Estimoi EMS-taulukoiden avulla varianssikomponentit, ja sekä niitä vastaavat keskihajonnat, ja. 9. Eräässä insinöörityössä tutkittiin kasvatusalustan ja kasvatusajan vaikutusta kasvunopeuteen. Alustoja oli kaksi (A ja B) ja kasvatusaikoja samoin kaksi (12 h ja 18 h). Koetulokset on annettu liitteessä. a) Nimeä ja luokittele tehtävän muuttujat. b) Mikä koesuunnitelma on kyseessä? c) Alla on R:n varianssianalyysin tulostus (tässä aika on tulkittu kvalitatiiviseksi): Df Sum Sq Mean Sq F value Pr(>F) aika 1 590.0 590.0 115.506 9.29e-10 *** alusta 1 9.4 9.4 1.835 0.190617 aika:alusta 1 92.0 92.0 18.018 0.000397 *** Residuals 20 102.2 5.1 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 d) Tulkitse analyysituloksia mahdollisimman monipuolisesti. e) Havainnollista keskiarvotuloksia tavalla, josta näkyy, mitä merkitsevä yhdysvaikutus merkitsee käytännössä. R:llä lasketut keskiarvot on annettu alla (näet myös käskyn, jolla keskiarvot saa lasketuksi): > aggregate(lkm~aika+alusta,data=data,fun=mean) aika alusta lkm 1 12 A 23.33333 2 18 A 37.16667 3 12 B 26.00000 4 18 B 32.00000
10 Liite tehtävään II.9 Suoritusjärjestys aika alusta viruksia/alusta 4 12 A 21 11 12 A 23 8 12 A 20 2 12 A 22 13 12 A 28 5 12 A 26 17 12 B 25 22 12 B 24 7 12 B 29 3 12 B 26 16 12 B 25 24 12 B 27 19 18 A 37 14 18 A 38 9 18 A 35 20 18 A 39 1 18 A 38 10 18 A 36 18 18 B 31 21 18 B 29 12 18 B 30 15 18 B 34 6 18 B 33 23 18 B 35
11 III. Tehtäviä, joissa kysytään annettuun tilanteeseen sopivaa koesuunnitelmaa 1. Kuvittele itsesi tilanteessa, jossa olet töissä yrityksessä, joka tuottaa orgaanisia hienokemikaaleja. Yrityksen synteetikko sai tehtäväkseen kehittää optimaalinen synteesin 2-trimetyylisiloksi-1,3- butadieenille. Synteetikon ideana oli kokeilla kolmea eri kemikaalia eri moolisuhteissa metyylivinyyliketonin (MVK) kanssa. Kemikaalit olivat kloorimetyylisilaani (TMSCl), trietyyliamiini (TEA) ja litiumbromidi tetrahydrofuraanissa (LiBr). Muuttujat ovat siis TMSCl/MVK, TEA/MVK ja LiBr/MVK (mol/mol). Tavoitteena on löytää koostumus, jolla synteesi tuottaa optimaalisen saannon vakio-olosuhteissa. Millaista koesuunnitelmaa sinä ehdottaisit? Anna suunnitelmasi koodatuissa yksiköissä (synteetikko päättää fysikaalisista yksiköistä). Anna myös koesuunnittelun keskeisistä periaatteista nousevat käytännön ohjeet kokeiden tekijälle. 2. Saat tehtäväksesi suunnitella koesarjan, jonka tavoitteena on selvittää, mikä olisi paras kuivausaika, kuivauslämpötila ja sokeripitoisuus kuivattujen sokeroitujen mansikkalastujen maun kannalta. Millainen koesuunnitelma ja koetulosten analysointimenetelmä sopisivat tähän tilanteeseen? Anna myös ehdotus koesuunnitelmaksi koodatuissa yksiköissä. 3. Sokerin valmistuksen linkouksessa saantoon vaikuttavat 1) kierrosnopeus (rpm), 2) ns. kateveden määrä (l) ja 3) linkousaika (s). a) Millainen koesuunnitelma ja koetulosten analysointimenetelmä sopisivat saannon optimointiin? b) Anna ehdotus koesuunnitelmaksi koodatuissa yksiköissä c) Anna ehdotuksesi myös fysikaalisissa yksiköissä ja kerro, mitä käytännön ohjeita tulee antaa kokeiden tekijöille. Fysikaalisten yksiköiden valitsemisessa käytä hyväksesi tietoa, että muuttujien koesuunnitelmassa käytettävät koodattuja arvoja!1 ja +1 vastaavat fysikaaliset arvot ovat 1) 500 rpm ja 700 rpm, 2) 5 l ja 9 l sekä 3) 50 s ja 70 s. Jos ehdottamassasi koesuunnitelmassasi tarvitaan ns. aksiaalikokeita, niin käytä poikkeuksellisesti :n arvoa 2. 4. Saat tehtäväksesi suunnitella koesarjan, jonka tavoitteena on selvittää optimaalinen ph, lämpötila ja hapen syöttönopeus erään tuotteen panosfermentaatiossa? Anna koesuunnitelmaehdotuksesi koodatuissa yksiköissä. Mainitse myös tarvittavia lisäohjeita kokeiden tekijöille. (6p) 5. Eräästä prosessista seurataan keskimääräistä partikkelikokoa ottamalla näyte lopputuotteesta ennen pakkausta. Ennen varsinaista hiukkaskokoanalyysiä näytteelle tehdään melko mutkikkaita käsittelyjä. a) Suunnittele koesarja tilanteeseen, jossa halutaan selvittää, missä määrin partikkelikokomäärityksen vaihtelu (varianssi) riippuu näytteen otosta, missä määrin näytteen käsittelystä ja missä määrin itse mittalaitteen mittausepävarmuudesta. Partikkelikokomäärityksen tulos on tässä keskikoko mikrometreissä. Anna koesuunnitelmataulukkosi olettaen, että olet valinnut 5 näytettä, joista kustakin on tehty tarvittavat käsittely rinnakkaisina ja kusta käsitellystä näytteestä on tehty rinnakkaiset analyysit. b) Mitkä ovat koesuunnitelman faktorit ja vastemuuttuja? c) Luokittele faktorit. d) Selitä, millä tilastollisella menetelmällä koetulokset tulisi analysoida. 6. Joudut suunnittelemaan koesarjan puolipanossaostuksen optimoimiseksi. Tavoitteena on mahdollisimman hyvä saanto, mahdollisimman suuri sedimentaationopeus sekä mahdollisimman suuri hiukkasten ominaispinta-ala. Tärkeimmiksi vaikuttaviksi muuttujiksi tiedettiin lämpötila, kahden reagenssin konsentraatiot (kalsiumkloridi, CaCl 2, ja diammoniumvetyfosfaatti, (NH 4 ) 2 HPO 4 ) sekä diammoniumvetyfosfaatin lisäysnopeus. Muuttujien arveltiin voivan vaihdella seuraavissa rajoissa : Lämpötila: 20-35 C; [CaCl 2 ]: 0,75-1,75 mol/l; [(NH 4 ) 2 HPO 4 ]: 0,75-1,75 mol/l ja lisäysnopeus: 80-280 mol/h
12 Suunnittele koesarja, jonka perusteella voitaisiin arvioida, millä alueella mahdollinen optimi sijaitsee. Kokemusperäisen tiedon perusteella oltiin melko varmoja, että optimi sijaitsee muuttujien arvioidun vaihtelualueen sisällä. Anna koesuunnitelma, joka mahdollistaa myös yhteensopimattomuuden arvioinnin, koodatuissa ja fysikaalisissa yksiköissä sekä kokeiden suoritusjärjestys. 7. Olet saanut tehtäväksesi selvittää, mitkä seuraavista muuttujista vaikuttavat voimakkaimmin tuotteen puhtauteen. Muuttujat ovat raaka-aine (3 vaihtoehtoa), ioninvaihtohartsin laatu (2 vaihtoehtoa) ja suodatintyyppi (3 vaihtoehtoa). a) Luokittele muuttujat b) Suunnittele sopiva koesarja ja anna se käyttäen itse keksimiäsi nimiä vaihtoehdoille. 8. Kuvittele, että olet töissä piikiekkoja valmistavassa yrityksessä. Saat tehtäväksesi selvittää, mikä on piikiekon piikerroksen paksuuteen eniten vaikuttava tekijä. Mahdollisina tekijöinä pidetään a) mittalaitetta, b) mittaajaa, c) itse mittaustapahtumaa. Käytettävissäsi on kolme samanlaista mittalaitetta ja 10 mittauksiin koulutettua henkilöä. a) Millaisen koesuunnitelman tekisit? Anna suunnitelmasi taulukkomuodossa. b) Millä tilastollisella menetelmällä analysoisit koetulokset? 9. Eräässä yrityksessä kehitettiin uutta synteesiä tetrahydrofuraanin valmistamiseksi katalyyttisellä hydrauksella. Tavoitteena oli maksimaalinen saanto ja koesuunnitelman muuttujiksi oli valittu seuraavat muuttujat muuttuja alaraja yläraja katalyytti/substraattisuhde (g/mol) 0,7 1,0 vedyn paine (bar) 45 55 reaktiolämpötila ( C) 75 100 sekoittimen kierrosluku (rpm) 340 475 Suunnittele koesarja, jonka perusteella voitaisiin päätellä, mihin suuntaan koeolosuhteita tulisi muuttaa saannon parantamiseksi. Anna koesuunnitelmasi sekä koodatuissa että fysikaalisissa yksiköissä. Anna myös ohjeet kokeiden suoritusjärjestyksestä.
13 IV. Kvantitatiivisten muuttujien koesuunnitelmien tulosten analysointiin liittyviä tehtäviä 1. Eräässä tieteellisessä artikkelissa R. B. Almeida & al. tutkivat neljän muuttujan vaikutusta mm. oluenvalmistuksen tuottavuuteen (y). Muuttujat olivat (nimet ovat alkuperäisestä tutkimuksesta) min max C Kantavierrevahvuus ( P) 15 20 S Tärkkelyssiirappipitoisuus (%) 0 30 T Lämpötila C 15 25 P alku-ph 4,5 5,5 Heidän koesuunnitelmansa oli seuraavan taulukon mukainen (mukana tulos y) C S T P y 15 0 15 4,5 0,093 20 0 15 4,5 0,111 15 30 15 4,5 0,084 20 30 15 4,5 0,096 15 0 25 4,5 0,122 20 0 25 4,5 0,128 15 30 25 4,5 0,113 20 30 25 4,5 0,132 15 0 15 5,5 0,093 20 0 15 5,5 0,127 15 30 15 5,5 0,078 20 30 15 5,5 0,093 15 0 25 5,5 0,124 20 0 25 5,5 0,143 15 30 25 5,5 0,113 20 30 25 5,5 0,15 17,5 30 15 5 0,088 17,5 30 15 5 0,095 17,5 30 15 5 0,093 Kolmesta viimeisestä kokeesta laskettu vastemuuttujan keskihajonta on n. 0,0036. Alla on kopio artikkelissa annetusta regressioanalyysin tulostuksesta. Tämä poikkeaa normaalista sikäli, että termillä Effect tarkoitetaan regressiokerrointa kerrottuna kahdella. Termin logiikka on se, että effect on vaikutus, kun siirrytään -1-tasolta +1-tasolle eli kaksi koodattua yksikköä. Regressiokertoimet ja niiden keskivirheet saa helposti, kun jakaa sarakkeiden Estimate ja Standard error luvut kahdella leikkauspistettä ( Average ) lukuun ottamatta. Luvut on ilmoitettu niin vähillä merkitsevillä numeroilla, että kahdella kertominen onnistuu päässälaskuna! p-arvojen sijasta taulukkoon on merkitty *:llä kertoimet, joiden p-arvo on alle 0,05.
14 a) Anna koesuunnitelma koodatuissa yksiköissä ja kerro, mikä koesuunnitelma on kyseessä. Onko koesuunnitelmassa mitään tavanomaisesta poikkeavaa? (2p) b) Arvioi mittaustuloksiin perustuvan sopivan graafisen esityksen avulla lämpötilan vaikutusta tuottavuuteen siten, että kuvasta käy myös ilmi yhdysvaikutus tärkkelyssiirappipitoisuuden kanssa, kun kantavierrevahvuus on 20 P ja alku-ph on 5,5. Kuvassasi siis muuttuvat vain vaste, lämpötila ja tärkkelyssiirappipitoisuus, niin että lämpötila on x-akselilla ja vaste y- akselilla. c) Onko mallin leikkauspiste merkitsevä, vaikkei siinä olekaan tähteä? Perustele! d) Kirjoita malli, jossa on vain tilastollisesti merkitsevät ( =0,05) termit mukana. Laske sillä yksi residuaali (voit itse valita, mistä kokeesta sen lasket). Laskemalla kaikki residuaalit saadaan niiden avulla tämän mallin selitysasteeksi 91% ja residuaalien keskivirheeksi 0,007. Arvioi mallin hyvyyttä mahdollisimman monipuolisesti selitysasteen, mutta myös muiden tunnuslukujen avulla. Huom! Koska koesuunnitelma ortogonaalinen, kertoimien lukuarvot eivät muutu, vaikka merkityksettömät termit jätetään pois mallista. e) Määritä kaksi uutta koepistettä d-kohdan mallin gradientin suunnassa koealueen keskipisteestä. Voit halutessasi tehdä Excel kaavion, josta näkyy soluihin tulevat laskukaavat. Voit käyttää laskenta-askelta 1. 2. R.M.Teixeira, D.Cavalheiro, J.L.Ninow ja A.Furigo Jr. tutkivat 3-hydroksi-2-butanonin (engl. acetoin) tuotannon optimointia Hanseniaspora guilliermondiin aerobisessa fermentoinnissa. Hanseniaspora guilliermondii on hiiva, joka luokitellaan muodoltaan teräväkärkisiin (engl. apiculate) hiivoihin ja 3- hydroksi-2-butanonia käytetään mm. maku- ja tuoksuaineena. He käyttivät tutkimuksessaan alla olevan taulukon mukaista koesuunnitelmaa Muuttujat ja niiden koodauksessa käytetyt arvot olivat (taulukon alla näkyy lähdeviite)
15 a) Kirjoita koesuunnitelma alkuperäisissä fysikaalisissa yksiköissä (voit sopivissa kohdissa kirjoittaa taulukkoon jne. eli jokaista lukua ei tarvitse kirjoittaa, kunhan logiikka käy yksikäsitteisesti ilmi). (1p) b) Julkaisussa kerrotaan seuraavaa Onko tämä järkevä malli R:n regressioanalyysien perusteella (tulostukset sekä tälle että täydelle kvadraattiselle mallille ovat liitteessä tehtävän jälkeen; pienehköt pyöristyksistä johtuvat erot kertoimissa eivät vaikuta asiaan)? c) Mitä tarkoitetaan yo. lainauksessa termillä dimensionless variables? d) Montako koetoistoa suunnitelma sisältää? Onko niitä riittävästi? d) Arvioi likimäärin mallin (4) yhteensopivuutta regressiotulostuksen ja mittaustoistojen perusteella. Toistoista laskettu vasteen keskihajonta on n. 26,2. e) Määritä mallin (4) stationäärinen piste sekä koodatuissa että fysikaalisissa yksiköissä. Laskujen yksinkertaistamiseksi voit pyöristää kertoimet kokonaisluvuiksi. Onko kyseessä minimi, maksimi vai satulapiste? Perustele! Liite tehtävään IV.2 R-tulostus täydelle kvadraattiselle mallille (huomaa, että tässä yhdysvaikutuksia on merkitty pisteellä, siis esim. X1.X2 tarkoittaa X1:n ja X2:n välistä yhdysvaikutusta ja esim. X1.X1 tarkoittaa X1:n kvadraattista termiä): Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 339.967 28.674 11.856 2.18e-05 *** X1 70.480 11.012 6.400 0.000686 *** X2-26.073 11.012-2.368 0.055703. X3-4.597 11.012-0.417 0.690907 X1.X1-51.062 13.381-3.816 0.008802 ** X1.X2-5.000 14.382-0.348 0.739970 X1.X3-6.250 14.382-0.435 0.679069 X2.X2-26.438 13.381-1.976 0.095585. X2.X3-23.000 14.382-1.599 0.160889 X3.X3-4.471 13.381-0.334 0.749676 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1
16 Residual standard error: 40.68 on 6 degrees of freedom Multiple R-squared: 0.9177, Adjusted R-squared: 0.7941 F-statistic: 7.43 on 9 and 6 DF, p-value: 0.01199 R-tulostus julkaisussa ehdotetulle mallille: Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 332.95 17.81 18.690 1.10e-09 *** X1 70.48 10.05 7.016 2.22e-05 *** X1.X1-49.18 11.08-4.440 0.000995 *** X2-26.07 10.05-2.596 0.024893 * X2.X2-24.56 11.08-2.217 0.048612 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 37.11 on 11 degrees of freedom Multiple R-squared: 0.8744, Adjusted R-squared: 0.8287 F-statistic: 19.14 on 4 and 11 DF, p-value: 6.439e-05 3. Julkaisussa Braz. J. Chem. Eng. vol.23 no.2 São Paulo Apr./June 2006" tutkittiin inuliinin, sukroosin ja ph:n vaikutusta entsyymin aktiivisuuteen. Eräästä heidän koesuunnitelmastaan annetaan tutkimuksessa seuraavat tiedot: The variables ph and temperature were chosen for the next two complete factorial design (22 trials plus star configuration and 3 central points). One experimental design was carried out using sucrose (2% w/v) as substrate and other using inulin (2% w/v). The Table 2 shows the of coded levels used in the third and fourth factorial design. a) Mikä koesuunnitelma on kyseessä (vaikka suunnitelmaa ei olekaan kerrottu tekstiotteessa, voit päätellä sen muuttujien koodatuista arvoista)? b) Kirjoita tietojen pohjalta koesuunnitelma fysikaalisissa yksiköissä. Analysoituaan tämän inuliinilla tehdyn koesarjan, tutkijat raportoivat seuraavaa. Huomaa, että mallista on annettu korrelaatiokerroin eikä selitysastetta. Saat selitysasteen korottamalla korrelaatio kertoimen toiseen potenssiin. Tekstissä on myös kieli- yms. virheitä, mutta niiden ei pitäisi haitata kysymyksiin vastaamista; esim. first derived of this function tulisi olla the root of the first derivative of this function. Table 9 shows the analysis of variance (ANOVA) for the inulinase activity using inulin as substrate. The correlation coefficient is 0.93 and the F value around six times higher than the listed value for 95% of confidence. When effects, which are not statistically significant, are ignored the activity becames a function only of the temperature (equation 2). The first derived of this function indicates an optimum for activity when the temperature is around 50 C.
17 Huom! Annetussa kaavassa Temp2 tarkoittaa lämpötilan toista potenssia ja Pure error koevirhettä. Koevirheestä on taulukossa annettu vain neliösumma, joten joudut itse laskemaan keskineliösumman. c) Miksi mallissa ei ole lainkaan ph:ta (perustele annetun tekstiotteen perusteella!)? d) Laske F-testisuure yhteensopimattomuuden testaamiseksi annettujen tietojen pohjalta. e) Oikein lasketun testisuureen p-arvo on n. 0,26. Onko yhteensopimattomuus tilastollisesti merkitsevää? Entä montako koetoistoa koesuunnitelma on sisältänyt? a) Mikä on tehtävän 4 mallin perusteella suurimman entsyymiaktiivisuuden antava lämpötila? b) Piirrä kuvaaja, josta näkyy kuinka aktiivisuus riippuu lämpötilasta annetun mallin mukaan. 4. Eräässä tutkimuksessa tutkittiin neljän eri vehnälaadun vaikutusta, kun niistä tehtyä seosta käytetään taikinan valmistukseen (muut taikinaan vaikuttavat muuttujat pidettiin vakioina). Tukijat käyttivät alla olevan taulukon mukaista koesuunnitelmaa. Vehnälajit ovat W1-W4 ja luvut ovat painoprosentteja. Ensimmäinen sarake kertoo kokeen tunnuksen. Eräs seoksen laatua kuvaava muuttuja on ns. sakoluku (falling number). Kokeista mitatut sakoluvut (yllä olevan taulukon mukaisessa järjestyksessä) olivat 358 352 358 352 345 358 343 355 341 345 a) Anna taulukko koodatuissa yksiköissä. Käytä koodauksessa kunkin muuttujan suurinta ja pienintä arvoa, siis -1 vastaa pienintä ja +1 suurinta arvoa ja muut arvot samassa suhteessa käyttäen kurssilla annettua koodauskaavaa. b) Onko kyseessä jokin opintojaksossa opetettu koesuunnitelmatyyppi? Perustele koodattujen arvojen avulla! c) Laske yllä olevassa taulukossa kunkin rivin lukujen summa. Mitä huomaat? d) Tuloksista muodostettiin lineaarinen malli ilman leikkauspistettä, koska se, mitä havaitsit c- kohdassa, estää leikkauspisteen mukaan ottamisen. Samasta syystä kokeet on mielekkäämpää koodata paino-osuuksiksi eli siis välille [0, 1] (kukin taulukon luku siis vain jaetaan 100:lla). Tällä tavalla koodatuista koetuloksista muodostettiin empiirinen malli, jonka R:llä tehdyn regressioanalyysin tulokset on annettu alla olevassa taulukossa. Koska R laskee selitysasteen malleille ilman leikkauspistettä tavallisesta poikkeavalla tavalla, taulukon alla on tavanomaisen selitysasteen lasku (tavanomainen R 2 on siis n. 99,85 %). Call: lm(formula = y ~. - 1, data = Data)
18 Residuals: Min 1Q Median 3Q Max -8.493-2.044-0.353 1.432 8.393 Coefficients: Estimate Std. Error t value Pr(> t ) W1 357.222 4.114 86.834 1.57e-10 *** W2 342.374 8.563 39.985 1.64e-08 *** W3 356.074 39.627 8.986 0.000106 *** W4 281.074 39.627 7.093 0.000394 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 6.101 on 6 degrees of freedom Multiple R-squared: 0.9998, Adjusted R-squared: 0.9997 F-statistic: 8262 on 4 and 6 DF, p-value: 2.392e-11 [1] "selitysaste" [1] 0.998605 d) Laske annetun mallin avulla residuaali ainakin yhdelle kokeelle. e) Arvioi annettujen tietojen perusteella mallin hyvyyttä mahdollisimman monipuolisesti. f) Millä vehnälajikkeella saadaan mallin mukaan suurin sakoluku ja millä pienin? Perustele! 5. Virvoitusjuomatehdas Pore Oy:n tuore insinööri Kalle Kupla sai tehtäväkseen selvittää miten pullotuksen täyttökorkeus saataisiin pysymään asetusarvossaan mahdollisimman tarkasti. Niinpä hän suunnitteli jäljempänä annetun koesarjan. Taulukkoon on lisätty myös regressiomallin y = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 3 + b 12 x 1 x 2 + b 13 x 1 x 3 + b 23 x 2 x 3 + b 33 x 3 2 antamat arvot ja mitatun ja mallin antaman arvon erotus. Taulukon jälkeen on annettu Excelin regressiomakron tulostus yllä olevan mallin sovituksesta. a) Anna koesuunnitelma koodatuissa yksiköissä ja kerro mikä koesuunnitelma on kyseessä ja miksi yo. mallissa vain muuttujasta x 3 on mukana toinen potenssi. b) Mitä muuttujia käyttäisit lopullisessa mallissa (perustele regressiotulostuksen avulla)? Kirjoita tämä malli myös laskukaavana (tarvitset sitä f-kohdassa). c) Selitä miten tämän koesuunnitelman tuloksista estimoitaisiin keskimääräinen koevirhe. d) Oikein laskettu koevirheen estimaatti on n. 0,84. Mitä voit tämän perusteella kertoa mallin sopivuudesta? f) Laske b-kohdassa ehdottomasi mallingradienttivektori pisteessä (0, 0, 0). Voit käyttää malliin jääville muuttujille regressiotulostuksen mukaisia kertoimia. Selitä gradienttivektorin avulla, muhin suuntaan muuttujia pitäisi muuttaa keskipisteestä lähtien, jotta poikkeamat asetusarvosta pienenisivät mahdollisimman paljon. Excel-tulostus on alla olevan taulukon jälkeen. täyttöpaine psi x 1 linjanopeus pulloa/min x 2 hiilihappo-pitoisuus % x 3 poikkeama asetusarvosta mallin antama arvo erotus 25 200 10-3 -1.9-1.1 25 200 10-1 -1.9 0.9 25 250 10-1 -0.7-0.3 25 250 10 0-0.7 0.7 30 200 10-1 -0.7-0.3 30 200 10 0-0.7 0.7 30 250 10 1 1.3-0.3 30 250 10 1 1.3-0.3 25 200 12 0 0.4-0.4 25 200 12 1 0.4 0.6
19 25 250 12 2 1.9 0.1 25 250 12 1 1.9-0.9 30 200 12 2 2.7-0.7 30 200 12 3 2.7 0.3 30 250 12 6 5.0 1.0 30 250 12 5 5.0 0.0 25 200 14 5 4.5 0.5 25 200 14 4 4.5-0.5 25 250 14 7 6.4 0.6 25 250 14 6 6.4-0.4 30 200 14 7 8.0-1.0 30 200 14 9 8.0 1.0 30 250 14 10 10.7-0.7 30 250 14 11 10.7 0.3
20 6. Tämä tehtävä julkaisusta Solid State Technology. Kyseessä on koesarja piinitridin plasmasyövytyksestä. Käytettävissäsi ovat seuraavat taulukoiden tiedot (otsikko malli viittaa mallin avulla laskettuihin, pyöristettyihin arvoihin): koe A [cm] B [mtorr] C [SCCM] D [W] suoritusjärjestys syövytysnopeus [Å/min] malli 1 13-1 -1-1 -1 550 554 2 8 1-1 -1-1 669 639 3 12-1 1-1 -1 604 605 4 9 1 1-1 -1 650 674 5 4-1 -1 1-1 633 633 6 15 1-1 1-1 642 668 7 16-1 1 1-1 601 596 8 3 1 1 1-1 635 615 9 1-1 -1-1 1 1037 1017 10 14 1-1 -1 1 749 794 11 5-1 1-1 1 1052 1066 12 10 1 1-1 1 868 828 13 11-1 -1 1 1 1075 1091 14 2 1-1 1 1 860 819 15 7-1 1 1 1 1063 1053 16 6 1 1 1 1 729 765 Muuttujat ovat: A = anodi-katodirako, B = kammiopaine, C = C 2 F 6 -kaasun virtausnopeus ja D = katoditeho. Muuttujien ala- ja ylärajat ovat A: 0.80, 1.20 cm; B: 4.5, 550 mtorr; C: 125, 200 SCCM; D: 275, 325 W. Alla on R:llä tehdyn regressioanalyysin tulostus (muista, että R:ssä esim. A:B tarkoittaa A:n ja B:n välistä yhdysvaikutusta): Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 776.0625 11.2843 68.774 1.23e-08 *** A -50.8125 11.2843-4.503 0.00638 ** B -0.8125 11.2843-0.072 0.94539 C 3.6875 11.2843 0.327 0.75707 D 153.0625 11.2843 13.564 3.90e-05 *** A:B -3.9375 11.2843-0.349 0.74135 A:C -12.4375 11.2843-1.102 0.32058 A:D -76.8125 11.2843-6.807 0.00104 ** B:C -21.9375 11.2843-1.944 0.10950 B:D -0.3125 11.2843-0.028 0.97898 C:D -1.0625 11.2843-0.094 0.92864 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 45.14 on 5 degrees of freedom Multiple R-squared: 0.9808, Adjusted R-squared: 0.9425 F-statistic: 25.58 on 10 and 5 DF, p-value: 0.00113 a) Mikä koesuunnitelma on kyseessä? b) Onko koesuunnitelmassa puutteita? (jos, niin mitä?) c) Arvioi mallin hyvyyttä annettujen tulosten perusteella mahdollisimman monipuolisesti. d) Piirrä kuva, jossa x-akselilla on mallin avulla lasketut (ns. sovitetut arvot) ja y-akselilla mitatut nopeudet. Miten tämä kuva liittyy selitysasteeseen? e) Käyttäisitkö itse kaikkia yllä olevan mallin termejä? Jos et, niin kirjoita malli, jota käyttäisit.
21 f) Laske gradientin avulla ainakin yksi uusi koe lähtien keskipisteestä niin, että syövytysnopeus kasvaisi mahdollisimman paljon. Voit käyttää laskenta-askelta 1. 7. Seuraavalla sivulla olevissa taulukoissa eräästä biodieselin valmistuksen optimointia käsittelevästä tutkimuksesta kopioitu koesuunnitelma. a) Mikä koesuunnitelma on kyseessä? b) Mitkä ovat suunnitelman suunnittelumuuttujat ja mitkä ovat sen vastemuuttujat? Voit käyttää taulukossa esiintyviä lyhenteitä eikä sinun tarvitse kääntää niiden selityksiä suomeksi. c) Arvioi alla olevan R:n regressioanalyysin tulostuksen perusteella muuttujalle MY tehdyn kvadraattisen mallin hyvyyttä (tilastollisesti vähiten merkitsevä muuttuja X MR on jätetty pois tästä regressioanalyysistä, jotta alla pyydetyt laskut olisivat riittävän helppoja). Toistokokeista laskettu MY:n keskihajonta on n. 0,51. Malli on tehty koodatuissa yksiköissä. Muista, että R:ssä esim. Xt:Xc tarkoittaa Xt:n ja Xc:n välistä yhdysvaikutusta ja esim. Xt:Xt tarkoittaa Xt:n kvadraattista termiä. Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 97.7362 0.4642 210.527 < 2e-16 *** Xt -1.3823 0.3164-4.368 0.000915 *** Xc -2.0888 0.3164-6.601 2.53e-05 *** Xt:Xt -0.9615 0.3219-2.987 0.011340 * Xt:Xc -1.9075 0.4132-4.616 0.000594 *** Xc:Xc -0.9544 0.3219-2.965 0.011813 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 1.169 on 12 degrees of freedom Multiple R-squared: 0.892, Adjusted R-squared: 0.8469
22 F-statistic: 19.81 on 5 and 12 DF, p-value: 2.015e-05 d) Laske mallin stationäärinen piste ja mallin antama ennustus MY:lle stationäärisessä pisteessä ja arvioi sen luotettavuutta sillä perusteella, onko se kaukana koealueesta vai ei. e) Laske gradientti koealueen keskipisteessä ja ainakin yksi sen suuntainen uusi koepiste. Voit käyttää laskenta-askelta 1. f) Miten tässä tilanteessa ja tämän mallin perusteella tulisi suunnitella uusia kokeita (gradientin suunnassa vai stationäärisessä pisteessä)? 8. Alumiinin painesintrauksen optimoimiseksi tehtiin oheinen koesarja, jonka regressioanalyysin tulokset on annettu kysmysten jälkeen. nro paine lämpötila aika tiheys 1 1970 1300 26 2.17 2 1970 1600 14 3.69 3 1600 1450 20 2.92 4 1230 1600 26 3.53 5 1230 1300 14 1.77 6 1600 1450 20 2.92 7 1230 1300 26 1.77 8 1600 1450 20 2.88 9 1230 1600 14 3.37 10 1600 1450 20 2.91 11 1970 1600 26 3.83 12 1970 1300 14 2.1 13 2200 1450 20 3.05 14 1600 1450 20 2.92 15 1000 1450 20 2.35 16 1600 1450 29.8 3.04 17 1600 1205 20 1.66 18 1600 1450 20 2.87 19 1600 1695 20 3.86 20 1600 1450 10.2 2.61 a) Anna koesuunnitelma koodatuissa yksiköissä. Koodaa niin, että!1 -arvoja vastaavat paineen, lämpötilan ja ajan arvot 1230, 1300 ja14 sekä +1 -arvoja vastaavasti arvot 1970, 1600 ja 26. Mistä koesuunnitelmasta on kysymys? Tavoitteena oli optimoida sintratun alumiinin tiheys (teoreettinen maksimi on 3.98). b) Arvioi mallin (malli 1) hyvyyttä mahdollisimman monipuolisesti. c) Mitä termejä poistaisit mallista? Kirjoita ehdottamasi malli laskukaavana. d) Onko ehdottamallasi mallilla optimiarvoa kaikkien muuttujien suhteen? e) Jos käytettäisiin mallin 1 sijasta mallia 2, niin millä paineen arvolla mallin 2 mukaan saataisiin suurin tiheys, kun lämpötila ja aika saisivat koodatun arvon 1? Anna näin saatu paine myös fysikaalisissa yksiköissä. R-tulostus: # Malli 1 Call: y ~ paine + lämpötila + aika + I(paine^2) + I(paine * lämpötila) + I(lämpötila^2) + I(paine * aika) + I(lämpötila * aika) + I(aika^2) Residuals: Min 1Q Median 3Q Max -0.16942-0.04932 0.01315 0.03554 0.12998 Coefficients:
23 Estimate Std. Error t value Pr(> t ) (Intercept) 2.90105 0.04310 67.307 1.28e-14 *** paine 0.18743 0.02911 6.437 7.47e-05 *** lämpötila 0.76512 0.02903 26.355 1.43e-10 *** aika 0.08041 0.02903 2.770 0.0198 * I(paine^2) -0.06885 0.02949-2.335 0.0417 * I(paine * lämpötila) -0.01375 0.03748-0.367 0.7214 I(lämpötila^2) -0.04548 0.02916-1.560 0.1498 I(paine * aika) 0.00625 0.03748 0.167 0.8709 I(lämpötila * aika) 0.02875 0.03748 0.767 0.4608 I(aika^2) -0.02112 0.02916-0.724 0.4855 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.106 on 10 degrees of freedom Multiple R-squared: 0.9869, Adjusted R-squared: 0.9751 F-statistic: 83.57 on 9 and 10 DF, p-value: 3.199e-08 # Malli 2 y ~ paine + lämpötila + aika + I(paine^2) Residuals: Min 1Q Median 3Q Max -0.24350-0.03036 0.02741 0.06307 0.08347 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 2.85380 0.02917 97.848 < 2e-16 *** paine 0.18743 0.02768 6.770 6.30e-06 *** lämpötila 0.76512 0.02760 27.717 2.67e-14 *** aika 0.08041 0.02760 2.913 0.0107 * I(paine^2) -0.06456 0.02792-2.312 0.0354 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.1008 on 15 degrees of freedom Multiple R-squared: 0.9822, Adjusted R-squared: 0.9775 F-statistic: 207 on 4 and 15 DF, p-value: 6.309e-13 9. Bromimetyyliketonin synteesi tapahtuu kahdessa vaiheessa: 1) bromaus ja 2) hydrolyysi. Saannon maksimoinniksi suunniteltiin seuraavat kokeet (taulukossa on myös koetulokset): koe C Br t Br t h y 1 0.25 5 5 42.2 2 0.25 2 5 45.0 3 0.50 5 5 43.0 4 0.25 2 30 72.2 5 0.50 5 30 63.0 6 0.25 5 30 66.0 7 0.50 2 30 66.0 8 0.50 2 5 46.0 Koemuuttujina olivat bromiinikonsentraatio (C Br ), bromausaika (t Br ) ja hydrolysointiaika (t h ) ja vasteena saantoprosentti (y). Alla olevat regressioanalyysit on tehty koodatuissa yksiköissä. a) Anna koesuunnitelma koodatuissa yksiköissä. Mikä koesuunnitelma on kyseessä? b) Onko suunnitelma mielestäsi hyvä (perustele ja luettele mahdolliset puutteet)? c) Arvioi koetulosten perusteella saatua ensimmäistä regressiomallia (tulokset alla) d) Arvioi koetulosten perusteella saatua toista regressiomallia. Kumpi on parempi? Perustele! e) Suunnittele mielestäsi paremman mallin avulla ainakin yksi uusi koe gradientin suunnassa?
24 Malli 1 Regression Statistics Multiple R 0.999 R Square 0.999 Adjusted R Square 0.991 Standard Error 1.202 Observations 8 ANOVA df SS MS F Significance F Regression 6 1087.790 181.298 125.466 0.068 Residual 1 1.445 1.445 Total 7 1089.235 Coefficients Standard Error t Stat P-value Intercept 55.425 0.425 130.412 0.005 CBr -0.925 0.425-2.176 0.274 tbr -1.875 0.425-4.412 0.142 th 11.375 0.425 26.765 0.024 CBr_tBR 0.375 0.425 0.882 0.540 CBr_th -1.375 0.425-3.235 0.191 tbr_th -0.425 0.425-1.000 0.500 Malli 2 Regression Statistics Multiple R 0.975 R Square 0.950 Adjusted R 0.942 Standard Er- 3.003 Observations 8 ANOVA df SS MS F Significance F Regression 1 1035.125 1035.125 114.780 3.9E-05 Residual 6 54.11 9.018 Total 7 1089.235 Coefficients Standard Er- t Stat P-value Intercept 55.425 1.0617 52.202 3.32E-09 th 11.375 1.0617 10.713 3.9E-05 10. Eräs yritys tutki semikarbatsonin synteesiä lähtien fenyyliglyoksaalihaposta. Kyseinen synteesi on välivaihe erään leukemian hoitoon käytetyn sytostaatin valmistuksessa. Koesuunnitelman muuttujiksi oli valittu seuraavat muuttujat
25 muuttuja alaraja yläraja : glyoksaalihapon lisäysaika (h) 1,0 2,0 : sekoitusaika hapon lisäyksen jälkeen (h) 0,4 2,0 : reaktiolämpötila ( C) 20 60 : lisätyn veden määrä (ml/mol) 75 200 Kokeiden jälkeen mitattiin seuraavat ominaisuudet: : gravimetrisesti määritetty semikarbatsonin saanto (%) : tuotteen titraamalla määritetty puhtaus : subjektiivisesti arvioitu suodatettavuus asteikolla -5...5 (-5 vaikea, 5 helppo) Yrityksen insinöörit päätyivät seuraavan koesuunnitelmaan (koodatuissa yksiköissä ja tulokset mukana) koe nro 1-1 -1-1 -1 88,7 94,8-5 2 1-1 -1 1 88,8 95,7 0 3-1 1-1 1 88,2 96,7-5 4 1 1-1 -1 88,6 94,8-5 5-1 -1 1 1 86,1 98,2 5 6 1-1 1-1 89,4 97,9 5 7-1 1 1-1 86,5 97,8 5 8 1 1 1 1 88,6 98,3 5 a) Mikä koesuunnitelma on kyseessä? b) Kirjoita koesuunnitelma fysikaalisissa yksiköissä c) Millaisia matemaattisia malleja voidaan laatia tämän koesuunnitelman pohjalta? d) Näetkö koesuunnitelmassa mitään puutteita? Koesuunnitelma analysoitiin Excelillä, jossa regressioanalyysin avulla haettiin mallia saannolle Regressioanalyysin tulokset ovat liitteessä. e) Millainen Excel-taulukko täytyy tehdä, jotta saadaan liitteen mukainen tulostus? f) Miksi Excel-tulostuksessa kertoimien keskihajonnat ja residuaalit ovat nollia? g) Miksi malliin on otettu mukaan parittaisista yhdysvaikutuksista ne, joissa toinen muuttuja glyoksaalihapon lisäysaika? h) Luettele mallin kertoimet tärkeysjärjestyksessä; siis ensin eniten saantoon vaikuttavat termi ja viimeisenä vähiten vaikuttava termi. i) Määritä gradientti parhaassa pisteessä ja suunnittele yksi uusi koe gradientin suunnassa. Anna uuden kokeen olosuhteet sekä koodatuissa että fysikaalisissa yksiköissä..