TILASTOLLINEN KOKEIDEN SUUNNITTELU JA OTANTA. Keijo Ruohonen

Transkriptio

1 TILASTOLLINEN KOKEIDEN SUUNNITTELU JA OTANTA Keijo Ruohonen 2000

2 Sisältö I REGRESSIO Regressiomalli 2 2 Mallin estimointi ja käyttö 7 3 Varianssianalyysi (ANOVA) 2 4 Mallin epäsopivuuden testaus toistokokein 6 5 Datan affiinimuunnokset Ortogonaalisuus ja kiertosymmetrisyys 22 6 Esimerkki ortogonaalisesta kertaluvun suunnittelusta: Simplex-koe, Plackett Burman-koe k -kokeet: Katsaus 27 8 Toisen kertaluvun regressiomalli 3 9 Ortogonalisoituvia toisen kertaluvun malleja: 3 k -kokeet, CCD-kokeet 34 II VASTEEN OPTIMOINTI 34 2 Yleistä Regressiomenetelmä Nelder Mead-algoritmi 40 III KVALITATIIVISET FAKTORIT 40 3 Yksisuuntainen ANOVA 44 3 Parametrien estimointi Hypoteesien testaus Kontrastit Yhdistettyjä testejä 5 34 Mallin riittävyys Monisuuntainen ANOVA Satunnaistetut lohkot Roomalaiset neliöt 7 IV MONEN MUUTTUJAN PIENOTANTA 7 4 Satunnaisotanta Ositettu otanta Yksiasteinen otanta Systemaattinen otanta 87 LIITE A: Matriisilaskentaa 9 LIITE B: Multinormaalijakauma 92 Kirjallisuutta 93 Hakemisto i

3 ii Esipuhe Tämä moniste on tarkoitettu TTKK:n kurssin 7364 Tilastollinen kokeiden suunnittelu perusmateriaaliksi Pääsisältönään se esittelee kvantitatiivisen kokeiden suunnittelun perusteet modernin vastepintaformalismin avulla käsiteltynä Esityksen pohjana on paljolti kirja KHURI & CORNELL Myös useita suunnittelukaavioita on esillä esimerkinomaisesti (Lisää niitä löytyy mainitusta kirjasta ja muusta kirjallisuudesta) Monisteessa käsitellään myös kvalitatiivista kokeiden suunnittelua, pohjana paljolti kirja MONTGOMERY Koska tämän aihepiirin merkitys on nähdäkseni vähenemässä, varsinkin tekniikassa, on kyseessä lähinnä vain katsaus Niin teoria kuin menetelmätkin esitetään kauttaaltaan matriisiformalismin avulla, jolloin ne ovat suoraan kokeiltavissa ja sovellettavissa esimerkiksi Matlab-ohjelmistoa käyttäen (Koeajot menetelmistä esitetään monisteessa kuitenkin Systat-ohjelmistolla tehtyinä ja Matlab-ajot jäävät esimerkkeihin ja harjoituksiin) Esityksen esikuvana on ollut ekonometrian klassikon JOHNSTONin tyylikäs matriisimuotoinen esitys Todettakoon, että matriisi- ja lineaarialgebraformalismi on ollut tilastollisten monimuuttujamenetelmien pelastus Ilman sitä asian esitys on huomattavan kankeaa, kuten alan vanhemmista oppikirjoistakin voi havaita (esimerkkinä vaikka GUENTHER) Monisteen lopussa on tiivis esitys monen muuttujan pienotantamenetelmistä matriisimuodossa Sitä ei ehdittäne käymään kurssilla läpi Alan kirjallisuudessa ei tällaista esitystä juuri ole (erinäisiä artikkeleita ja raportteja lukuunottamatta), vaikka otanta nykyisin on usein moniulotteista Vanhat klassikotkin (kuten esimerkiksi COCHRAN) käsittelevät vain yhden muuttujan otantaa Liitteinä on annettu eräitä matriisilaskentaa ja multinormaalijakaumaa koskevia tuloksia Esitietona tilastomatematiikan peruskurssit sekä insinöörimatematiikan suorittaneille myös kurssi 7309 Matriisilaskenta ovat kuitenkin tarpeen Keijo Ruohonen

4 Luku REGRESSIO Regressiomalli (Kertaa kurssilta Tilastomatematiikka tai Laaja matematiikka 4) Mallinnustilanteessa suure y riippuu suureista x,,x k tunnetun tai tuntemattoman funktion Φ kautta, ts y =Φ(x,,x k ) y on tällöin ns vaste eli selitettävä muuttuja ja x,,x k ovat ns faktoreita eli selittäviä muuttujia Faktoreiden arvoja kutsutaan tasoiksi Φ on ns todellinen vastefunktio Φ on yleensä tuntematon tai sitten niin mutkikas, ettei sitä voida sellaisenaan käyttää Niinpä Φ:n tilalle otetaan sitä approksimoiva funktio, jossa esiintyy parametrejä, esimerkiksi monen muuttujan polynomi, jonka kertoimet ovat parametrejä Approksimoitaessa malli ei enää ole tarkka Lisäksi käytännössä esiintyy mittaus- ym virheitä Jos Φ:tä approksimoiva funktio on f, niin malli on muotoa y = f(x,,x k )+ɛ, missä ɛ on virhetermi Tilastollisessa regressiossa ɛ katsotaan satunnaismuuttujaksi, jolla on N(0,σ 2 )-jakauma (Odotusarvo on 0, sillä systemaattinen virhe voidaan sisällyttää funktioon f(x,,x k )) Jos siis esimerkiksi f on ensimmäisen asteen polynomi, on malli muotoa y = β 0 + β x + + β k x k + ɛ missä β 0,β,,β k ovat parametrit Kyseessä on ensimmäisen kertaluvun regressiomalli Jos merkitään β 0 x β x = x k ja β = voidaan tällainen kertaluvun regressiomalli kirjoittaa muotoon y = x T β + ɛ Yleisesti d:nnen kertaluvun regressiomalli on muotoa y = p(x,,x k )+ɛ oleva malli, missä p on muuttujien x,,x k d:nnen asteen polynomi, jonka kertoimet ovat parametrejä Polynomin p ei tarvitse sisältää kaikkia mahdollisia termejä Itse asiassa polynomiaalinen regressio voidaan palauttaa kertaluvun regressioksi seuraavalla tempulla: β k,

5 LUKU REGRESSIO 2 Otetaan kutakin polynomissa p esiintyvää korkeampaa kuin ensimmäisen asteen termiä, esimerkiksi termiä β 33 x x 2 3,kohti uusi muuttuja z 33 2 Kirjoitetaan z 33 :n arvoksi x x 2 3:n arvo 3 Valitaan z 33 :n kertoimeksi eli parametriksi β 33 Tällainen malli on lineaarinen, ts parametriensä lineaariyhdelmä + virhetermi 2 Mallin estimointi ja käyttö (Kertaa kurssilta Tilastomatematiikka tai Laaja matematiikka 4) Malli saadaan käyttöön, kun ensin on saatu kokeiden tuloksena tietty määrä faktorien arvoyhdelmiä ja niitä vastaavat vasteen arvot Tällaisen kerätyn datan avulla voidaan mallia käyttää a) vasteen arvon ennustamiseen sellaisille faktorien arvoyhdelmille, joita vastaavia kokeita ei ole tehty Tätä varten estimoidaan datan avulla mallin parametrit b) erilaisten faktoreita koskevien hypoteesien testaamiseen Esimerkiksi kertaluvun regressiossa hypoteesi β =0tarkoittaisi sitä, että faktorilla x ei ole vaikutusta vasteeseen c) virheen ɛ varianssin estimointiin d) antamaan tietoa siitä minkälaista uutta dataa on kerättävä, esimerkiksi vasteen maksimiarvon löytämiseksi Jne Jos data on jo kerätty tai siihen ei muuten voida vaikuttaa, ei kokeiden suunnittelua tarvita Muussa tapauksessa, erityisesti jos datan keruu on kallista, vaarallista tai muuten hankalaa, tarvitaan kokeiden suunnittelua Kokeiden suunnittelun tarkoituksena on mahdollisimman pienen datan avulla saada sovelletuksi mallia halutulla tavalla Katsotaan lähemmin parametrien estimointiin, ennustamiseen ja σ 2 :n estimointiin liittyviä käsitteitä Tarkastellaan tässä kertaluvun mallia, joihin siis polynomiaalisetkin mallit voidaan palauttaa Tavallisin estimointitapa on pienimmän neliösumman keino Se on kätevintä esittää matriisiformalismin avulla Datana on kerätty N kappaletta faktorien arvoyhdelmiä sekä niitä vastaavat vasteen arvot: faktorit vaste x,,x k y x 2,,x 2k y 2 x N,,x Nk y N Näistä muodostetaan ns datamatriisi X sekä vastevektori y: x x 2 x k x 2 x 22 x 2k X =, y = x N x N2 x Nk Pienimmän neliösumman keinossa valitaan parametrit β siten, että y Xβ 2 =(y Xβ) T (y Xβ) y y 2 y N

6 LUKU REGRESSIO 3 minimoituu Gradientti β:n suhteen on 2X T (y Xβ) ja merkitsemällä se nollavektoriksi saadaan lineaarinen yhtälöryhmä X T Xβ = X T y, josta ratkaistaan β: β =(X T X) X T y = merk b = Tällöin tietysti oletetaan, että X T X on ei-singuläärinen ja erityisesti että N k + X T X ja (X T X) ovat symmetrisiä matriiseja Koska kertaluvun malli on muotoa y = x T β + ɛ, liittyvät vastevektori ja datamatriisi toisiinsa yhtälöllä y = Xβ + ɛ, ɛ = missä ɛ on satunnaisvektori Satunnaismuuttujat ɛ,ɛ 2,,ɛ N ovat riippumattomia (sillä kokeet suoritetaan toisistaan riippumattomasti) ja niillä on kullakin N(0,σ 2 )-jakauma Satunnaisvektorilla ɛ on siis N(0,σ 2 I N )-multinormaalijakauma Koska ɛ on satunnaisvektori, niin samoin on y = Xβ + ɛ sekä edelleen ɛ ɛ 2 ɛ N b 0 b b k, b =(X T X) X T y =(X T X) X T (Xβ + ɛ) =β +(X T X) X T ɛ Huomautus Vaikka ɛ:n komponentit ovat riippumattomia satunnaismuuttujia, eivät b:n komponentit sitä yleisesti ole Välittömästi todetaan nimittäin, että ja E(b) =E(β +(X T X) X T ɛ)=β +(X T X) X T E(ɛ) =β V (b) =V (β +(X T X) X T ɛ)=(x T X) X T V (ɛ)x(x T X) = σ 2 (X T X) Siispä b:llä on N(β,σ 2 (X T X) )-multinormaalijakauma ja sen komponentit ovat riippumattomat tarkalleen silloin, kun X T X on lävistäjämatriisi (jolloin myös (X T X) on lävistäjämatriisi) Kun b on saatu, voidaan muita faktorien tasoja x vastaava vasteen arvo ennustaa : ŷ =(x ) T b b on satunnaisvektori, joten ŷ on satunnaismuuttuja Edelleen E(ŷ) =(x ) T E(b) =(x ) T β ja V (ŷ) =(x ) T V (b)x = σ 2 (x ) T (X T X) x Ennustuksessa on usein mukana myös N(0,σ 2 )-jakautunut virhetermi ɛ, jolloin ŷ =(x ) T b + ɛ ja V (ŷ) = σ 2 (+(x ) T (X T X) x )

7 LUKU REGRESSIO 4 Erityisesti voidaan ennustaa datamatriisissa esiintyviä faktorien arvoyhdelmiä vastaavat vasteet: ŷ = Xb = X(X T X) X T y Erotus y ŷ = merk r on ns residuaalivektori, datan avulla lausuttuna r = y ŷ =(I N X(X T X) X T )y Ideaalisesti r:ssä on vain kohinaa eli ɛ:n vaikutus Residuaalivektorin pituuden neliö r 2 = r T r =(y Xb) T (y Xb) = merk SSE on ns residuaalin neliösumma Sen avulla saadaan σ 2 :n estimaatti (olettaen, että N>k+): s 2 SSE = N k Jos merkitään c 00 c 0 c 0k (X T X) c 0 c c k =, c k0 c k c kk niin V (b i )=σ 2 c ii Näin ollen V (b i ):n estimaatiksi käy s 2 c ii Käytetyin normaalisuusoletuksin suureilla b i β i s2 c ii = merk t i on t-jakaumat N k vapausasteella (jälleen oletetaan, että N > k + ) Tätä käyttäen voidaan testata parametriä β i koskeva hypoteesi H 0 : β i =0tai H 0 : β i 0 tai H 0 : β i 0 Kaksipuolisen testin tapauksessa vastahypoteesi on H : β i 0, yksipuoliselle testille se on H : β i < 0 tai H : β i > 0 H : β i 0 t-jakauman tiheysfunktio -t α/2 t α/2 H : β i < 0 t-jakauman tiheysfunktio -t α H : β i > 0 t-jakauman tiheysfunktio t α

8 LUKU REGRESSIO 5 Kun testin merkitsevyys (eli I tyypin virheen todennäköisyys) α = P (t i osuu varjostetulle alueelle, kun H 0 on tosi) on valittu ja etsitty vastaava taulukkopiste t α/2 tai t α,hyväksytään H 0, jos t i ei osu varjostetulle alueelle, muuten ei (ks edellisellä sivulla oleva kuva) Jos X T X ei ole lävistäjämatriisi, ovat b:n komponentit riippuvia ja yllä olevat testit ovat myös riippuvia Tällöin halutun yhtaikaisen merkitsevyyden saamiseksi voidaan käyttää esimerkiksi Bonferronin epäyhtälöä Jos taas X T X on lävistäjämatriisi, ovat b i :t riippumattomia ja samoin niitä koskevat testit Kaiken yllä olevan ja paljon muutakin tekevät nykyiset kehittyneemmät tilasto-ohjelmistot (esimerkiksi Systat, JMP, SAS, SPlus, Statistica ja SPSS) automaattisesti Myös Matlabia on helppo käyttää Ajetaan data x x 2 y Systatilla Huomaa, että samaa faktorien tasoyhdelmää on aina käytetty kahdesti Tätä voidaan käyttää mallin sopivuuden testauksessa, josta lisää myöhemmin Malli on toista kertalukua: Käskyillä >USE rottasys VARIABLES IN SYSTAT FILE ARE: X X2 Y >model y=constant+x+x2+x*x2+x2*x2 >estimate saadaan tulostus y = β 0 + β x + β 2 x 2 + β 2 x x 2 + β 22 x ɛ DEP VAR: Y N: 2 MULTIPLE R: 989 SQUARED MULTIPLE R: 977 ADJUSTED SQUARED MULTIPLE R: 965 STANDARD ERROR OF ESTIMATE: 0769 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT X X X* X X2* X

9 LUKU REGRESSIO 6 ANALYSIS OF VARIANCE SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P REGRESSION RESIDUAL Lisäämällä listaan käsky >print long saadaan täydellisempi tulostus EIGENVALUES OF UNIT SCALED X X CONDITION INDICES VARIANCE PROPORTIONS CONSTANT X X X X DEP VAR: Y N: 2 MULTIPLE R: 989 SQUARED MULTIPLE R: 977 ADJUSTED SQUARED MULTIPLE R: 965 STANDARD ERROR OF ESTIMATE: 0769 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT X X X* X X2* X CORRELATION MATRIX OF REGRESSION COEFFICIENTS CONSTANT X X2 X X2 CONSTANT 000 X X X X ANALYSIS OF VARIANCE SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P REGRESSION RESIDUAL Huomautus Tarkasti laskettaessa kannattaa käyttää datamatriisin singulääriarvohajotelmaa (SVD) X = Q ΣQ T 2, sillä sen lasku on usein numeerisesti stabiilimpi kuin yhtälöryhmän ratkaisu tai käänteismatriisin (X T X) lasku (ks kurssi Matriisilaskenta ) Onhan nimittäin (X T X) = Q 2 (Σ T Σ) Q T 2 ja b = Q 2 Σ + Q T y = X + y SVD:n saa Matlabissa käyttöönsä komennolla [Q,S,Q2]=svd(X)Huomaa myös operaatio pinv

10 LUKU REGRESSIO 7 3 Varianssianalyysi (ANOVA) Varianssianalyysiä käyttäen voidaan testata ns lineaarisia hypoteeseja, ts muotoa H 0 : Aβ = d olevia hypoteeseja, missä A on q (k +)-matriisi, jonka rivirangi on täysi, ts sen rivit ovat lineaarisesti riippumattomat, ja d on q-vektori Vielä oletetaan, että q<k+ Valitsemalla A ja d sopivasti saadaan hyvinkin monenlaisia testejä Vastahypoteesi on H : Aβ d Hypoteesintestauksen perustulos on Lause Jos H 0 on tosi, niin (aiemmin mainituin normaalisuusoletuksin) suureella 2 (Ab d) T (A(X T X) A T ) (Ab d)(n k ) qsse on F-jakauma vapausastein q ja N k (taas kerran olettaen, että N>k+) Todistus (Tämä vaatii kurssin Laaja tilastomatematiikka tietoja) Ensinnäkin b ja r ovat riippumattomia Näin ollen ovat myös (Ab d) T (A(X T X) A T ) (Ab d) ja SSE = r T r riippumattomat Edelleen suureella SSE on χ 2 -jakauma N k vapausasteella Vielä pitää σ 2 näyttää, että (Ab d) T (A(X T X) A T ) (Ab d):llä on χ 2 -jakauma q vapausasteella, σ 2 kun H 0 on tosi Koska b:llä on N(β,σ 2 (X T X) )-jakauma, on Ab d:llä N(Aβ d,σ 2 A(X T X) A T )- jakauma eli N(0 q,σ 2 A(X T X) A T )-jakauma Selvästi A(X T X) A T on symmetrinen ja positiivisemidefiniitti Koska A:lla on täysi rivirangi ja X T X on ei-singuläärinen, on myös A(X T X) A T ei-singuläärinen ja siis positiividefiniitti Schurin lauseen mukaan se voidaan kirjoittaa muotoon A(X T X) A T = QΛQ T, missä Q on ortogonaalimatriisi ja Λ on lävistäjämatriisi, jonka lävistäjällä ovat A(X T X) A T :n (positiiviset) ominaisarvot Näin ollen on (A(X T X) A T ) :llä neliöjuuri Q Λ Q T = merk B,missä lävistäjämatriisi Λ saadaan Λ :stä ottamalla sen lävistäjäalkioista neliöjuuret Ilmeisesti B on symmetrinen ei-singuläärinen matriisi Nyt B(Ab d) on N(0 q,σ 2 BB 2 B T )-jakautunut eli N(0 q,σ 2 I q )-jakautunut Suureella σ (Ab 2 d)t (A(X T X) A T ) (Ab d) = σ (B(Ab 2 d))t B(Ab d) on näin ollen χ 2 (q)-jakauma Hypoteesin testaaminen sujuu tavalliseen tapaan Merkitsevyys α kiinnitetään Jos testisuure osuu varjostetulle häntäalueelle (ks alla oleva kuva), hylätään H 0 Mitä huonommin H 0 pitää paikkansa, sitä suurempi pyrkii Ab d ja F-testisuure olemaan F-jakauman tiheysfunktio F α 2 Jos q =,voidaan muodostaa vastaava t-testisuure ja testi voisi olla toispuolinenkin

11 LUKU REGRESSIO 8 Testataan edellä olleelle datalle muutamia hypoteesejä Systatilla Käytetään vaihteen vuoksi uutta 3 kertaluvun mallia Käskyillä y = β 0 + β x + β 2 x 2 + β 2 x x 2 + β 22 x β 22 x x ɛ >model y=constant+x+x2+x*x2+x2*x2+x*x2*x2 >estimate >hypothesis >effect x*x2*x2 >test saadaan tulostus DEP VAR: Y N: 2 MULTIPLE R: 996 SQUARED MULTIPLE R: 992 ADJUSTED SQUARED MULTIPLE R: 985 STANDARD ERROR OF ESTIMATE: 0504 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT X X X* X X2* X X* X2* X ANALYSIS OF VARIANCE SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P REGRESSION RESIDUAL TEST FOR EFFECT CALLED: BY BY X X2 X2 TEST OF HYPOTHESIS SOURCE SS DF MS F P HYPOTHESIS ERROR Sama tulos saadaan syöttämällä A =(0, 0, 0, 0, 0, ) d:tä ei tarvitse syöttää, sillä sen oletusarvo on 0 Lisätään jonoon käskyt >hypothesis >amatrix > >test jolloin saadaan tulostus

12 LUKU REGRESSIO 9 HYPOTHESIS A MATRIX TEST OF HYPOTHESIS SOURCE SS DF MS F P HYPOTHESIS ERROR Komento print long antaa vähän enemmän tulostusta: HYPOTHESIS A MATRIX NULL HYPOTHESIS CONTRAST AB INVERSE CONTRAST A(X X) A TEST OF HYPOTHESIS 0037 SOURCE SS DF MS F P HYPOTHESIS ERROR Hypoteesi H 0 hylätään merkitsevyystasolla α =002, mutta ei aivan tasolla α =00 Selittäjä x x 2 2 saa olla mukana Katsotaan vielä hypoteesia H 0 : β = 2,β 2 =2sivun 6 mallille, jolloin Käskyt >hypothesis >amatrix > > >dmatrix >-2 >2 >test A = ( ) ja d = ( 2 2 ) antavat tulostuksen

13 LUKU REGRESSIO 0 HYPOTHESIS A MATRIX D MATRIX TEST OF HYPOTHESIS SOURCE SS DF MS F P HYPOTHESIS ERROR Hypoteesia H 0 ei tässä voi hylätä Yksinkertaisin valinta A-matriisiksi on (0,,0,, 0,,0), missä on i:s alkio Hypoteesi H 0 : Aβ = β i =0testaa silloin faktorin x i tarpeellisuutta mallissa Tällöin ja testisuure on b i (A(X T X) A T ) b i = b 2 i c ii b 2 i (N k ) c ii SSE = b2 i s 2 c ii eli sivulla 4 olevan t-testisuureen t i neliö Testi on siis sama kuin mainittu t-testi kaksipuolisena! Yleensäkin, jos q =,onh 0 muotoa a T β = d ja testisuureeksi voidaan ottaa N k vapausasteella t-jakautunut suure a T b d s2 a T (X T X) a Tällöin voi myös tehdä kaksipuolisia testejä (H 0 : a T β d tai H 0 : a T β d) Koko mallin käyttökelpoisuutta puolestaan testaa hypoteesi H 0 : β = = β k =0 Jos tätä H 0 :aa ei hylätä, ovat käytetyt faktorit huonoja selittäjiä, ts koko malli voitaisiin yhtä hyvin korvata vakiolla + kohinalla (eli mallilla y = β 0 +ɛ) Vastaava A-matriisi on ( ) 0 k I k ja d = 0 k Tehdään datamatriisissa ja b-vektorissa samanlainen ositus: X = ( N D ) ( ) b0 ja b = b (Matriisi D on muuten ns suunnittelumatriisi 3, jota tarvitaan vielä jatkossa) Tässä N N-vektori, jonka kaikki alkiot ovat ykkösiä Silloin Ab = b ja ( ) X T T X = N ( D T N D ) ( ) N T = N D D T N D T D on 3 Toisinaan käytetään kuitenkin matriisista X nimeä suunnittelumatriisi!

14 LUKU REGRESSIO Edelleen tällöin (Ab d) T (A(X T X) A T ) (Ab d) =(b ) T (A(X T X) A T ) b = merk SSR, ns regression neliösumma Tunnetun lohkomatriisien kääntökaavan 4 mukaan (X T X) :n oikea alalohko eli siis A(X T X) A T on ( ) D T D D T N N T ND =(D T M N D) Matriisi M N = I N J N N on ns keskitysmatriisi Sillä kertominen vähentää datavektorista sen keskiarvon (Matriisi J N = N T N taas on N N-matriisi, jonka kaikki alkiot ovat ykkösiä) Koska ilmiselvästi M N N = 0 N,niin SSR =(b ) T D T M N Db =(b 0 N + Db ) T M N (b 0 N + Db )=(Xb) T M N Xb = ŷ T M N ŷ Koska edelleen X T r = X T (y Xb) =X T y X T X(X T X) X T y = 0 k+, niin T N r =0(tarkastellaan vain X:n ensimmäistä saraketta) ja ŷt r = b T X T r =0 Näin ollen r T M N ŷ = r (I T N ) N N T N ŷ = r T ŷ N rt N T Nŷ =0 ja r T M N r = r T (I N N N T N ) r = r T r N rt N T Nr T = r T r = SSE Ns kokonaisneliösumma y T M N y = merk SST on näin hajotettavissa residuaalin neliösumman ja regression neliösumman summaksi: SST = y T M N y =(r + ŷ) T M N (r + ŷ) =r T M N r + ŷ T M N ŷ = SSE + SSR Neliösummiin liittyvät ns vapausasteet on annettu alla olevassa taulukossa SSX vapausasteet SSE N k SSR k SST N ), missä U ja Z ovat ei-singuläärisiä neliömatriise- ( U V 4 Kääntökaava on seuraavanlainen Jos matriisi W Z ja, on ei-singuläärinen, niin sen käänteismatriisi on ( U + U VYWU U VY YWU Y ( missä Y =(Z ) WU V) Kaava johdetaan kirjoittamalla käänteismatriisi määräämättömään lohkomuotoon R S ja ratkaisemalla lohkot Matriisin Z WU V ei-singuläärisyys vastaa muuten 2 2-matriisin T Y kääntyvyyden tuttua determinanttiehtoa ),

15 LUKU REGRESSIO 2 Jakamalla neliösumma vapausasteellaan saadaan aina vastaava keskineliö: MSE = SSE N k, MSR = SSR k, MST = SST N (residuaalin keskineliö, regression keskineliö ja kokonaiskeskineliö) Hypoteesin H 0 : β = = β k = 0 testisuure on näin ollen MSR/MSE ja sillä on Lauseen mukaan F-jakauma vapausastein k ja N k Vastahypoteesi on H : ainakin yksi parametreistä β,,β k on 0 H 0 :n hylkääminen merkitsee, että ainakin yhdellä faktorilla on merkittävää vaikutusta vasteeseen Varianssianalyysitaulu (jollaisen ohjelmistot yleensä tulostavat) sisältää kaiken tämän: variaation lähde vapausasteet neliösummat keskineliöt F merkitsevyys regressio residuaali kokonaisvariaatio k N k N SSR SSE SST MSR MSE MST Neliösummista saadaan myös ns determinaatiokerroin eli selitysaste MSR MSE pienin α:n arvo, jolla H 0 hylätään SSR SST = merk R 2 Tulkinta: R 2 ilmoittaa kuinka suuren suhteellisen osan vastevektorin otosvarianssista regressio selittää R 2 :n neliöjuuri SSR SST = merk R on ns yhteiskorrelaatiokerroin Jotkut käyttävät mieluummin ns korjattua determinaatiokerrointa MSE MST = merk RA 2 = ( R 2 N ) N k Tulkinta: RA 2 ilmoittaa kuinka paljon suhteellisesti V (ɛ):n estimoidusta arvosta voidaan poistaa sovittamalla jokin muu kuin H 0 :n mukainen malli y = β 0 + ɛ verrattuna siihen V (ɛ):n estimoituun arvoon (= MST), joka ko mallin avulla saadaan Tilasto-ohjelmistot tulostavat yleensä myös nämä kertoimet 4 Mallin epäsopivuuden testaus toistokokein Regressiomallin epäsopivuus tarkoittaa sitä, että lisäämällä uusia faktoreita tai entisistä faktoreista muodostettuja uusia (korkeampiasteisia) faktoreita residuaalia voidaan pienentää Huomautus Mallin riittävyys, johon palataan yksisuuntaisen ANOVAn yhteydessä myöhemmin, puolestaan tarkoittaa sitä, että mallin yhteydessä sovitut oletukset (riippumattomuudet, normaalisuus, varianssien samuus, jne) pitävät paikkansa Jos siis malli y = x T β + ɛ on epäsopiva, tarkoittaa se sitä, että jokin laajennettu malli y = x T β + z T γ + ɛ,

16 LUKU REGRESSIO 3 missä z =(z,,z l ) T on uusien tai entisistä kertomalla tai muuten saatujen faktorien muodostama vektori ja γ =(γ,,γ l ) T on uusi parametrivektori, on parempi Huomaa, että sovitettaessa jälkimmäinen malli pienimmän neliösumman keinolla vastevektoriin y ja datamatriisiin ( X Z ), missä X on aikaisempi datamatriisi ja Z uusia faktoreita vastaavista sarakkeista muodostettu jatke, eivät parametrit β saa (välttämättä) samoja arvoja kuin sovitettaessa alkuperäistä mallia Tämä johtuu siitä, että uudet selittävät faktorit voivat selittää samoja tekijöitä kuin vanhat faktorit Se mitä uudet faktorit selittävät ja vanhat eivät, on erotusdatassa Z Ẑ, missä Ẑ saadaan ennustamalla Z:n sarakkeet vanhaa mallia käyttäen Ennusteen laskukaavaa käyttäen 5 Ẑ = X(X T X) X T Z Hypoteesi, jonka mukaan malli ei ole tarkasteltujen uusien faktorien kannalta epäsopiva, on näin ollen H 0 :(Z Ẑ)γ = 0 N Vastahypoteesi on tietysti H :(Z Ẑ)γ 0 N Yllä olevan hypoteesin testaus, jossa tarkastellaan mallin sopivuutta tiettyjen kiinteiden uusien faktorien kannalta, voidaan ajatella toteutettavaksi A-matriisilla ( O Z X(X T X) X T Z ) Sillä ei tosin ole täyttä rivirangia ja rivejäkin on liikaa, mutta sen sarakerangi on l, muutenhan matriisissa ( X Z ) on lineaarisesti riippuvia sarakkeita Testi on näin ollen sama kuin hypoteesille H 0 : γ = 0 l ja helppo toteuttaa Jos halutaan testata, kuten alun perin haluttiin, onko mallia yleensä ottaen mahdollista parantaa, pitää verrata virhetermin aiheuttamaa varianssia vasteen selittämättä jääneen osan aiheuttamaan varianssiin Jos jälkimmäinen on huomattavasti suurempi, on mahdollista uusia faktoreita käyttäen parantaa mallin sopivuutta Testisuure tällaiselle testaukselle saadaan, jos mukana on toistokokeita, ts datamatriisissa on samoja rivejä Oletetaan, että datamatriisissa X on erilaisia rivejä m kappaletta Huomaa, että m k +, muuten X T X on singuläärinen Kootaan mainitut erilaiset rivit m (k +)- matriisiksi X Silloin voidaan kirjoittaa X = TX sopivasti valitulle N m-matriisille T Huomaa, että T:llä on täysi sarakerangi, ts sen sarakkeet ovat lineaarisesti riippumattomat, ja että T m = N Itse asiassa T saadaan identiteettimatriisista I m toistamalla sen rivejä sopivasti Laajin mahdollinen malli, joksi alkuperäinen malli voidaan täydentää, saadaan, kun lisätään X:ään suurin mahdollinen määrä aikaisemmista lineaarisesti riippumattomia sarakkeita säilyttäen toistetut rivit Tällaiseen malliin ei nimittäin voida lisätä yhtäkään uutta selittäjää, joka ei, toistokokeiden puitteissa, riippuisi lineaarisesti aikaisemmista Täydennetään X ensin m m- matriisiksi lisäämällä siihen m k aikaisemmista lineaarisesti riippumatonta saraketta: ( X Z ) =merk X 2 5 Matriisia (X T X) X T Z kutsutaan ns aliasmatriisiksi

17 LUKU REGRESSIO 4 X:n täydennys on sen jälkeen N m-matriisi missä Z = TZ Alkuperäisestä datamallista (Malli I) TX 2 = ( TX TZ ) = ( X Z ) =merk X 3, y = Xβ + ɛ saadaan näin laajennettu datamalli (Malli II) ( ) β y = X 3 + ɛ = Xβ + Zγ + ɛ γ Mallista II saatu ennustevektori on ŷ II = X 3 (X T 3 X 3 ) X T 3 y = TX 2 (X T 2 T T TX 2 ) X T 2 T T y = T(T T T) T T y, joka ei riipu Z :stä, ts siitä, miten X täydennetään! Näin ollen saatava testi ei myöskään riipu mallin laajennustavasta, kunhan toistojen rakenne (eli T) säilytetään Mallista II saatava residuaali on r II =(I N T(T T T) T T )y ja tämän residuaalin neliösumma on ns puhtaan virheen neliösumma Yritetään selittää Mallin I residuaalivektori r T IIr II = merk SSPE, r =(I N X(X T X) X T )y Mallin II avulla Jos tämä onnistuu tarpeeksi hyvin, ei Malli I ole sopiva, vaan se voidaan täydentää sopivammaksi Merkitään lyhyyden vuoksi P = I N X(X T X) X T ja R = I N T(T T T) T T Silloin todetaan helpolla laskulla, että P ja R ovat symmetrisiä idempotentteja matriiseja ja että RP = PR = R, PX = O, RX = O, RZ = O, rank(p) =trace(p) =N k, rank(r) =trace(r) =N m (ks kurssit Laaja matematiikka 4 ja Matriisilaskenta ) Selitettäessä Mallin II avulla Mallin I residuaalia r on selittämättä jäävä residuaali Rr = RPy = Ry, jonka neliösumma on nimenomaan SSPE Kokonaisneliösumma on puolestaan r T r eli Mallin I residuaalin neliösumma SSE Edelleen regression neliösumma tässä selitysyrityksessä on SSE SSPE = merk SSLOF, ns epäsopivuuden neliösumma Matriisimuodossa SSLOF = y T (P R)y

18 LUKU REGRESSIO 5 Matriisi P R on symmetrinen idempotentti matriisi, jonka rangi on trace(p R) =trace(p) trace(r) =m k, kuten helposti voidaan todeta SSPE vastaa sitä osaa residuaalivarianssista, joka johtuu virhetermistä Siihen ei voida vaikuttaa mallilla, olipa tämä kuinka hyvä tahansa SSLOF vastaa taas sitä osaa residuaalivarianssista, joka johtuu mallin huonosta selittävyydestä eli epäsopivuudesta Mutta: Residuaali r ei ole oikeaa vasteen tyyppiä, sillä sillä on singuläärinen normaalijakauma (ts P on singuläärinen) Näin ollen saatujen neliösummien jakaumat ja vapausasteet sekä niihin perustuva ANOVA katsotaan erikseen Huomaa kuitenkin, että SSPE on Mallin II residuaalin neliösumma, joten sillä on χ 2 -jakauma N m vapausasteella Lause 2 Jos hypoteesi H 0 : PZγ = 0 N on tosi Mallille II, niin suureella SSLOF(N m) SSPE(m k ) on F-jakauma vapausastein m k ja N m (olettaen tietysti, että m>k+) Todistus (Tässä tarvitaan kurssin Laaja tilastomatematiikka tietoja) Pitää näyttää, että SSLOF ja SSPE ovat riippumattomasti χ 2 -jakautuneet vapausastein m k ja N m, vastaavasti Hypoteesin H 0 voimassaollessa (P R)y =(P R)(Xβ + Zγ + ɛ) =(P R)ɛ ja Ry = R(Xβ + Zγ + ɛ) =Rɛ Koska P R ja R ovat symmetrisiä idempotentteja matriiseja, R(P R) =O N ja ɛ:lla on N(0 N,σ 2 I N )-multinormaalijakauma, on lause oikea Lauseessa esiintyvä Z on tietysti se laajin mahdollinen, jolla alkuperäistä datamatriisia X täydennetään Vastahypoteesi on H : PZγ 0 N SSPE:llä on siis vapausasteita N m ja SSLOF:llä m k Vastaavat keskineliöt ovat näin ollen SSPE N m = SSLOF merk MSPE ja m k = merk MSLOF (puhtaan virheen keskineliö ja epäsopivuuden keskineliö) Varianssianalyysitaulu on siten variaation lähde vapausasteet neliösummat keskineliöt F merkitsevyys epäsopivuus puhdas virhe residuaali m k N m N k SSLOF SSPE SSE MSLOF MSPE MSE MSLOF MSPE pienin α:n arvo, jolla H 0 hylätään Jos hypoteesia H 0 ei hyväksytä, voidaan mallia parantaa täydentämällä sitä sopivilla faktoreilla Huomaa, että jos erityisesti täydentävät faktorit ovat entisistä laskien saatuja korkean asteen faktoreita, niin edellä esitetty toistettujen rivien säilyminen täydennettäessä on automaattista Näin ollen esitetty testi on erityisen sopiva juuri tällaista täydennystä ajatellen Jos mallia päätetään täydentää, ei tietystikään mukaan välttämättä kannata ottaa kaikkia mahdollisia lisäselittäjiä, vaan vain sopivasti valitut lisäfaktorit Ohjelmistot tarjoavatkin korkeampiasteisten faktorien osalta monia (puoli)automaattisia lisäys- ja valintamenetelmiä (ns askeltava regressio)

19 LUKU REGRESSIO 6 Huomautus Eräät ohjelmistot suorittavat epäsopivuustestin automaattisesti, jos toistokokeita esiintyy Matlabia käytettäessä matriisin T kokoaminen on helppoa, varsinkin jos toistoja on kullekin toistetulle tasoyhdelmälle yhtä monta (kuten esimerkiksi sivulla 5 olevalle datalle) Huomautus Epäsopivuustesti voidaan tehdä muutenkin kuin toistokokeita käyttäen Matriisista T:kin käytettiin nimittäin vain sen ominaisuuksia (i) T:llä on täysi sarakerangi (jotta T T T olisi ei-singuläärinen) ja (ii) hajotelmassa X = TX on X :llä täysi sarakerangi k +(jotta se voidaan täydentää ei-singulääriseksi m m-matriisiksi X 2 ) Mikä tahansa matriisi, joka toteuttaa nämä ehdot, kelpaisi periaatteessa T:n tilalle Tällöin ei kyseessä olisi välttämättä enää koetoistoihin perustuva testi Itse asiassa, jos käytetäänkin hajotelmaa X =(TS)(S X ),missä S on ei-singuläärinen m m-matriisi, niin I N TS(S T T T TS) S T T T = I N T(T T T) T T = R Siis esitetty epäsopivuustesti riippuu T:stä vain sen sarakeavaruuden S kautta! Valitsemalla S eri tavoin saadaan erilaisia epäsopivuustestejä, tosin näin saadut testit ovat yleensä heikompia kuin toistoihin perustuvat Ks myös CHRISTENSEN ja artikkeliviite JOGLEKAR, G& SCHUENMEYER, JH & LARICCIA, V: Lack-of-Fit Testing When Replicates Are Not Available The American Statistician 43 ( 89), Datan affiinimuunnokset Ortogonaalisuus ja kiertosymmetrisyys Jos X on N (k +)-datamatriisi ja L on ei-singuläärinen (k +) (k +)-matriisi, jonka ensimmäinen sarake on (, 0,,0) T, niin XL on myös N (k +)-datamatriisi, joka sisältää saman informaation kuin X Tällainen muunnos on datan affiinimuunnos L on siis muotoa ( ) l T L = 0 k K missä l on k-vektori ja K on ei-singuläärinen k k-matriisi Koska y = Xβ + ɛ = XLL β + ɛ, on uutta datamatriisia XL vastaava parametrivektori L β = merk γ Edelleen pienimmän neliösumman keinon antama parametrivektorin γ estimaatti on g =((XL) T XL) (XL) T y = L (X T X) (L T ) L T X T y = L b ja uusi ennustevektori on XLg = Xb = ŷ eli sama kuin vanha Näin ollen myöskin residuaali pysyy datan affiinimuunnoksessa samana ja itse asiassa kaikki neliösummat SSE, SST ja SSR sekä vastaavat keskineliöt Mallin merkitsevyys ei siis muutu Myöskin lineaarisen hypoteesin ALγ = d testaus antaa saman tuloksen kuin hypoteesin Aβ = d testaus, sillä (Ab d) T (A(X T X) A T ) (Ab d) =(ALg d) T (AL((XL) T XL) (AL) T ) (ALg d)

20 LUKU REGRESSIO 7 Koko ANOVA tuottaa näin ollen aina saman tuloksen, riippumatta siitä tehdäänkö dataan jokin affiinimuunnos vai ei Toisaalta V (g) =σ 2 ((XL) T XL) = σ 2 L (X T X) (L T ) voi hyvinkin olla edullisempaa muotoa kuin V (b), ts g:n komponenttien välillä voi olla vähemmän korrelaatiota kuin b:n komponenttien välillä ja niiden varianssit voivat olla pienempiä kuin b:n komponenttien varianssit Huomautus Jos mallissa on mukana ensimmäisen asteen faktoreista muodostettuja korkeampiasteisia faktoreita, tehdään usein affiinimuunnos vain datan ensimmäisen asteen osaan ja lasketaan näin saaduista uusista faktoreista malliin mukaan korkeampiasteisia faktoreita Affiinimuunnokset nimittäin useimmiten liittyvät vain perusfaktorien arvojen muuntamiseen Toisaalta, jos malli sisältää kaikki korkeampiasteiset termit haluttuun astelukuun asti, voidaan myös vastaava uusi malli saada aikaisemmasta affiinimuunnoksella, kuten on helposti todettavissa Tavallinen ensimmäisen kertaluvun mallin datan affiinimuunnos on skaalaus, jota vastaava matriisi K on lävistäjämatriisi, missä lävistäjäalkiot p,,p k ovat nollasta eroavia Tällaista lävistäjämatriisia merkitään p :llä, missä p =(p,,p k ) T Selittäjä x i korvautuu skaalauksessa selittäjällä p i x i + l i, missä l i on l:n i:s alkio Skaalauksen tarkoituksena on, paitsi vaihtaa selittävien muuttujien asteikot sopivammiksi, muuntaa keinotekoisesti selittävät muuttujat tyypillisten arvojensa suhteen samaan asemaan Tyypillisten arvojen kokoero saattaa nimittäin alunperin olla monia dekadeja, mikä aiheuttaa mm numeerista epätarkkuutta laskuissa Tällöin suoritetaan ensin skaalaus ja vasta sitten mallin sovitus Skaalausmatriisi on helposti koottavissa Matlabin operaatioilla:»p=[ ] p = »l=[ ] l = »L=[ l;zeros(5,) diag(p)] L = Erityinen skaalauksen muoto on datan standardointi, jossa valitaan p i = ja l i = x i p i, N (x ji x i ) 2 N j= ts p i on x i :n otoshajonnan inverssi ja l i on x i :n otosvariaatiokertoimen vastaluku (x i on tietysti x i :n otoskeskiarvo) Jälleen p ja l saadaan koottua helposti Matlabilla:

21 LUKU REGRESSIO 8»p= /std(d);»l=-p*mean(d); D on siis suunnittelumatriisi, joka saadaan X:stä: X = ( N D ) Jos data on kunkin faktorin osalta tasavälistä, käytetään usein koodausta, joka myös on eräs skaalauksen muoto Tällöin p i = 2 max(x i,,x Ni ) min(x i,,x Ni ) ja l i = x i p i, ts erona standardointiin on, että p i on nyt x i :n otosvaihteluvälin puolikkaan eikä x i :n otoshajonnan inverssi Myös koodaus on helposti tehtävissä Matlabilla:»p=2 /(max(d)-min(d));»l=-p*mean(d); Lähinnä koodausta käytetään tilanteessa, missä kullakin faktorilla on kaksi tasoa tai kolme tasavälistä tasoa, jotka esiintyvät tasapainoisesti eli siten, että kunkin faktorin x i otoskeskiarvo on sen tasojen vaihtelukeskipisteessä min(x i,,x Ni )+max(x i,,x Ni ), 2 sillä tällöin koodatut arvot ovat 0, ± Jos tasoja on enemmän tai data ei ole tasapainoista, on koodaus korvattava mutkikkaammalla operaatiolla Edellä sivulla 5 oleva tasavälinen ja tasapainoinen data standardoituna ja koodattuna on annettu alla olevassa taulussa standardointi x x koodaus x x Ajetaan vielä sekä standardoitu että koodattu data Systatilla muodostaen korkeamman asteen faktorit muunnetusta datasta Käskyt >USE rottasys SYSTAT FILE VARIABLES AVAILABLE TO YOU ARE: X X2 Y >save rottastdsys >standardize x,x2 >run standardoivat ja käskyt

22 LUKU REGRESSIO 9 >EDIT Tilastomatematiikka:TKS data:rottasys >LET x=2*(x-05)/04 >LET x2=2*(x2-5)/8 >SAVE Tilastomatematiikka:TKS data:rottakoodsys koodaavat datan uudeksi dataksi Malli on sama kuin sivulla 5 oleva Käytetään pitkää tulostusta, jotta saadaan mukaan parametrien korrelaatiot Ajetaan ensin standardoitu data: EIGENVALUES OF UNIT SCALED X X CONDITION INDICES VARIANCE PROPORTIONS CONSTANT X X X X DEP VAR: Y N: 2 MULTIPLE R: 989 SQUARED MULTIPLE R: 977 ADJUSTED SQUARED MULTIPLE R: 965 STANDARD ERROR OF ESTIMATE: 0769 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT X E X E X* X E X2* X E CORRELATION MATRIX OF REGRESSION COEFFICIENTS CONSTANT X X2 X X2 CONSTANT 000 X X X X ANALYSIS OF VARIANCE SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P REGRESSION RESIDUAL Verrattaessa aikaisempaan sivulla 6 olevaan tulostukseen havaitaan nyt X T X:n ominaisarvojen tasaisempi rakenne ja parametrien suurempi korreloimattomuus ANOVA tuottaa saman tuloksen kuin aikaisemminkin Ajetaan sitten koodattu data Tulokset ovat paljolti samantapaiset kuin standardoidulle datalle: EIGENVALUES OF UNIT SCALED X X

23 LUKU REGRESSIO 20 CONDITION INDICES VARIANCE PROPORTIONS CONSTANT X X X X DEP VAR: Y N: 2 MULTIPLE R: 989 SQUARED MULTIPLE R: 977 ADJUSTED SQUARED MULTIPLE R: 965 STANDARD ERROR OF ESTIMATE: 0769 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT X E X E X* X E X2* X E CORRELATION MATRIX OF REGRESSION COEFFICIENTS CONSTANT X X2 X X2 CONSTANT 000 X X X X ANALYSIS OF VARIANCE SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P REGRESSION RESIDUAL Suunnittelun sanotaan olevan ortogonaalinen, jos X T X on lävistäjämatriisi, ts silloin kun faktoreita vastaavat sarakkeet ovat kohtisuorassa toisiaan vastaan (ja myös vektoria N vastaan) Lause 3 Suunnittelu on ortogonaalinen täsmälleen silloin, kun (i) D:n sarakesummat ovat nollia, ts T N D = 0T k ja (ii) D T D on lävistäjämatriisi (Tässä D on jälleen suunnittelumatriisi, X = ( N D ) ) Todistus Ilmeisesti X T X = ( T N D T ) ( T N D ) ( N T = N D D T N D T D ) on lävistäjämatriisi tarkalleen silloin, kun (i) ja (ii) toteutuvat Ortogonaalista suunnittelua käytettäessä V (b) =σ 2 (X T X) on lävistäjämatriisi, ts parametriestimaatit b 0,,b k ovat riippumattomat Edelleen tällöin käänteismatriisin (X T X) laskeminen on helppoa ja tarkkaa

24 LUKU REGRESSIO 2 Suunnittelun sanotaan olevan kiertosymmetrinen, jos matriisi X T X säilyy samana, kun dataan tehdään mielivaltainen ortogonaalinen muunnos, ts X T X on koordinaatistosta riippumaton Ortogonaalinen muunnos on sama kuin muotoa ( ) 0 T Q = k 0 k K oleva affiinimuunnos, missä K on k k-ortogonaalimatriisi Lause 4 Suunnittelu on kiertosymmetrinen täsmälleen silloin, kun (i) D:n sarakesummat ovat nollia, ts T N D = 0T k ja (ii) D T D on muotoa λi k, missä λ on vakio Todistus (Tässä tarvittaneen kurssin Matriisilaskenta tietoja) Oletetaan, että suunnittelu on kiertosymmetrinen Sovelletaan mielivaltaista ortogonaalimuunnosta: ( )( ) 0 (XQ) T XQ = Q T X T T XQ = k T N ( 0 k K T D T N D ) ( ) 0 T k 0 k K ( )( )( ) 0 T = k N T N D 0 T k 0 k K T D T N D T D 0 k K ( N = T N D )( ) 0 T k K T D T N K T D T D 0 k K ( N = T N DK ) K T D T N K T D T DK Jotta tämä olisi ( ) N X T T X = N D D T N D T, D on oltava K T D T N = D T N ja K T D T DK = D T D, olipa K mikä tahansa ortogonaalimatriisi Mutta, jotta kaikki ortogonaalimuunnokset pitäisivät D T N :n samana, pitää sen olla = 0 k,ts (i) pätee Toisaalta D T D on symmetrinen matriisi, joten se on diagonalisoitavissa ortogonaalimuunnoksella Näin ollen D T D:n on oltava valmiiksi lävistäjämatriisi Silloin taas D T D:n lävistäjäalkiot voidaan permutoida mielivaltaiseen järjestykseen ortogonaalimuunnoksella Näin ollen lävistäjäalkioiden on oltava samoja Siispä myös (ii) pätee Selvästi suunnittelu on kiertosymmetrinen, jos (i) ja (ii) pätevät Kiertosymmetrisessä suunnittelussa ei ole mahdollista parantaa mallia siirtymällä uusiin koordinaatteihin, ts esimerkiksi V (b) pysyy samana Malli ei voi tällöin myöskään huonontuakaan Erityisesti ennusteen varianssi ( V (ŷ) =σ 2 (x ) T (X T X) x = σ 2 N + ( (x λ ) 2 + (x k) 2)) riippuu vain datavektorin x =(,x,,x k )T pituudesta 6 Lauseista 3 ja 4 seuraa, että jokainen kiertosymmetrinen suunnittelu on myös ortogonaalinen, mutta ei kääntäen Tärkeä ortogonaalisten/kiertosymmetristen suunnittelujen ominaisuus on se, että niistä faktoreita poistamalla eli typistämällä saadut suunnittelut ovat myös ortogonaalisia/kiertosymmetrisiä (Tämä seuraa varsin suoraan yo lauseista) 6 Tästä itse asiassa tulee nimi kiertosymmetrinen, datan rotaatio ei muuta ennusteen varianssia

25 LUKU REGRESSIO 22 6 Esimerkki ortogonaalisesta kertaluvun suunnittelusta: Simplex-koe, Plackett Burman-koe Simplex-koe on ortogonaalinen kertaluvun malliin perustuva koe, jonka datamatriisi X = ( k+ D ) on (k +) (k +)-matriisi ja suunnittelumatriisi muodostuu säännöllisen origokeskisen k+-simpleksin kärkien koordinaateista R k :ssa Esimerkiksi R 2 :ssa tällainen simpleksi on tasasivuinen origokeskinen kolmio (ks alla oleva kuvio) (Yleisesti R k :n simpleksi on sen k +-kärkinen monitahokas) y z z a a a x x a a a y x a a a y keskipiste Sama tasasivuinen kolmio syntyy R 3 :een leikattaessa ensimmäistä oktanttia tasolla x + y + z = a 2 Rotaatiolla saadaan kolmio yz-tason suuntaiseksi, jolloin sen kärkien ensimmäiset koordinaatit ovat samat Kolmion kärjet origoon yhdistävät janat ovat edelleen kohtisuorassa toisiaan vastaan (ortogonaalisuus) Kolmion keskipiste on x-akselilla Lause 3 ja yllä oleva päättely antavat seuraavan idean kahden faktorin simplex-kokeen suunnitteluun: Etsitään ortogonaalinen 3 3-matriisi V, jonka ensimmäisen sarakkeen alkiot ovat samoja (= / 3) 2 Valitaan X = 3V V löytyy esimerkiksi muodostamalla matriisin 0 0 W = 0 0 QR-hajotelma W = QR, missä Q on ortogonaalimatriisi ja R on yläkolmiomatriisi (ks kurssi Matriisilaskenta ) Valitaan V = ±Q Sama idea toimii yleisestikin: Muodostetaan (k +) (k +)-matriisin W = 0 0 QR-hajotelma W = QR

26 LUKU REGRESSIO 23 2 Valitaan X = ± k +Q (W:n tilalle kelpaavat tietysti muutkin ei-singulääriset matriisit, joiden ensimmäinen sarake on k+ ) Käytännössä laskenta sujuu vaikkapa Matlabilla Otetaan esimerkkinä tapaus k =3:»I=eye(4);W=[ones(4,) I(:,2:4)] W = »[Q,R]=qr(W) Q = R = »X=2*(-Q) X = Tällä tavoin saatu suunnittelu on lisäksi myös kiertosymmetrinen, sillä X T X =(k +)I k+ (Lause 4) Koska N = k +,eivät simplex-kokeille tule suoraan käyttöön σ 2, t-testit eikä myöskään ANOVA Esimerkiksi Systatin tulostus yo datalla tehdylle kokeelle on seuraava: käskyt >USE simplexsys VARIABLES IN SYSTAT FILE ARE: X X2 X3 Y >model y=constant+x+x2+x3 >estimate ja tulostus DEP VAR: Y N: 4 MULTIPLE R: 000 SQUARED MULTIPLE R: 000 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT X E+0 X E+0 X E+0 ANOVA ei tulostu ja mallin sopivuus on täydellinen Tulostuksen antina ovat saadut parametriestimaatit Mutta tietysti suunnittelua voidaan tarvittaessa typistää, ts ottaa mukaan vain tarvittava määrä faktoreita Kuten edellä todettiin, tämä ei poista ortogonaalisuutta eikä kiertosymmetrisyyttä

27 LUKU REGRESSIO 24 Huomautus Jos simplex-data ei ole reaalimaailman koetta ajatellen oikeantyyppistä, voidaan se muuntaa sopivalle asteikolle skaalauksella Koe suoritetaan skaalatulla datalla, mutta mallina käytetään (typistetyn) simplex-datan mallia, josta haluttaessa voidaan päästä skaalauksella reaalimaailmaan Erikoistapaus simplex-kokeesta on ns Plackett Burman-koe Datamatriisi on tällöin (mahdollisen koodauksen jälkeen) alkioista ± koostuva (k +) (k +)-matriisi X, joka toteuttaa ehdon X T X =(k +)I k+ Tällaista ±-matriisia X kutsutaan yleisesti Hadamardin matriisiksi 7 Hadamardin m m- matriisilla H on seuraavat ominaisuudet: (i) H:n sarakesummat ensimmäistä saraketta lukuunottamatta ovat =0, ts sarakkeissa on yhtä monta +:tä ja :tä (ii) Joko m =2tai sitten m on neljällä jaollinen luku (iii) H:n kahden rivin välinen etäisyys on aina 2mTästä ja kohdasta (i) seuraa, että Plackett Burman-koe on simplex-koe, koska rivin ensimmäinen alkio on Nämä ominaisuudet ovat kutakuinkin helposti todettavissa (jätetään lukijalle) Hadamardin matriisien konstruktio tapahtuu käyttäen ns äärellisiä kuntia (ks kurssi Algebra tai Koodausteoria) JOHN selostaa konstruktiota lähemmin Jo saaduista Hadamardin matriiseista saa uusia isompia ns Kronecker-tuloa käyttämällä Yleisesti n m -matriisin A = a a m a n a n m ja n 2 m 2 -matriisin B Kronecker-tulo on n n 2 m m 2 -matriisi a B a m B A = = merk A B a n B a n m B (lohkomuoto) Lohkomatriisien kertolaskukaavasta seuraa melko välittömästi, että mikäli matriisitulot AC ja BD ovat määritellyt, niin (A B)(C D) =(AC) (BD), ja lohkomatriisin transponointikaavasta puolestaan, että (A B) T = A T B T Jos nyt m m -matriisi H ja m 2 m 2 -matriisi H 2 ovat Hadamardin matriiseja, niin samoin on niiden Kronecker-tulo H H 2, sillä (H H 2 ) T (H H 2 )=(H T H T 2 )(H H 2 )=(H T H ) (H T 2 H 2 ) =(m I m ) (m 2 I m2 )=m m 2 I m m 2 ja H H 2 :n ensimmäinen sarake on I m m 2 Matlabilla tällainen konstruktio sujuu helposti: 7 Varsinaisesti Hadamardin matriisi määritellään niin, että sen ensimmäisen sarakkeen ei tarvitse olla Toisaalta jokainen Hadamardin matriisi voidaan saattaa tällaiseksi kertomalla sen rivejä sopivasti :llä Tämä säilyttää Hadamard-ominaisuuden, kuten voi helposti todeta Tällaiselle yleiselle Hadamardin matriisille ominaisuus (i) ei välttämättä pidä paikkaansa Hadamardin matriisi on standardimuodossa, jos sen ensimmäinen sarake on ja ensimmäinen rivi T

28 LUKU REGRESSIO 25»H=[ ; -] H = -»H2=kron(H,H) H2 = »H=kron(H,H2) H = k -kokeet: Katsaus 2 k -kokeella tarkoitetaan koetta, jossa (k +) N-datamatriisin X sarakkeissa (ensimmäistä saraketta lukuunottamatta) esiintyy vain kahta eri tason arvoa Koodauksen jälkeen ne ovat ja Jatkossa oletetaankin koodaus valmiiksi suoritetuksi Plackett Burman-kokeet ovat siis 2 k -kokeita Malli on tällöin y = β 0 + k β i x i + β ij x i x j + + x i x il i= i<j k i < <i l k tai tästä joitakin faktoreita pois jättämällä saatu malli Huomaa, miten faktorien korkeammat potenssit puuttuvat, sillä x 2n+ i = x i ja x 2n i = Jos mallissa on kaikki mahdolliset faktorit mukana, kyseessä on täydellinen 2 k -koe Täydellisessä 2 k -kokeessa on mukana ( ) ( ) ( ) k k k =(+) k =2 k 2 k selittäjää Mahdollisia erilaisia datamatriisin rivejä on toisaalta myös 2 k kappaletta Jos toistettuja rivejä ei ole mukana, voidaan rivit järjestää siten, että 2 sarakkeessa on ensin 2 k kappaletta :stä ja sitten 2 k kappaletta :stä, 3 sarakkeessa on ensin 2 k 2 kappaletta :stä, sitten 2 k 2 kappaletta :stä, sitten 2 k 2 kappaletta :stä ja lopuksi 2 k 2 kappaletta :stä, jne, k +:nnessä sarakkeessa :t ja :t vuorottelevat Esimerkiksi ensimmäisen kertaluvun 2 3 -kokeen tällä tavoin esitetty datamatriisi on

29 LUKU REGRESSIO 26 X = Ensimmäisen kertaluvun täydellinen 2 k -koe on näin ollen aina kiertosymmetrinen, sillä ilmeisesti X T X =2 k I k+ (Lause 4) Täydellisessä 2 k -kokeessa on useinkin käytännön kannalta liian monta faktoria Ns osittaisissa 2 k -kokeissa faktorien määrää karsitaan (ja datamatriisin rivilukua pienennetään) aivan omalla tavallaan kieltämällä tietyt faktorit Faktorin kielto tarkoittaa sitä, että sen arvo kiinnitetään ±:ksi Jos kielletään faktorit z,,z m,onkiellettävä myös kaikki näistä keskenään kertomalla saadut faktorit, sillä näiden arvot tulevat myös kiinnitetyksi Kiellettyjen termien sanotaan sekoittuvan vakiotermiin (Vakiotermiä itseään ei toki voida kieltää!) Kielletyt faktorit ovat yleensä korkeampaa kertalukua ja selittävät ensimmäisen kertaluvun faktorien ns yhdysvaikutuksia Kiellettäessä faktoreita päätetään samalla, etteivät tietyt yhdysvaikutukset ole tarkastelun kannalta tärkeitä Jos siis tapauksessa k =5päätetään kieltää faktorit x x 2, x 3 x 4 ja x 2 x 3 x 5, on myös kiellettävä x x 2 x 3 x 4 = x x 2 x 3 x 4, x x 2 x 2 x 3 x 5 = x x 3 x 5, x 3 x 4 x 2 x 3 x 5 = x 2 x 4 x 5, x x 2 x 3 x 4 x 2 x 3 x 5 = x x 4 x 5 Alinta kertalukua olevan kielletyn termin aste on ns kokeen resoluutio Kun faktorit z,,z m on kielletty, ts niiden arvot kiinnitetty, jätetään datamatriisiin vain ne rivit, jotka toteuttavat nämä kiinnitykset Itse malliin ei oteta mukaan kiellettyjä faktoreita Toisaalta kiinnitykset samaistavat tiettyjä faktoreita merkkiä vaille ja näistä otetaan mukaan malliin vain yksi, jottei datamatriisiin tule lineaarisesti riippuvia sarakkeita Tällaisia faktoreita kutsutaan toistensa aliaksiksi Esimerkiksi yo kiinnitysten puitteissa malliin ei saa ottaa mukaan molempia faktoreita x ja x 2,sillä x =(±x x 2 )x = ±x 2, missä merkki ± valitaan siten, että ±x x 2 = Sitä kiellettyjen faktoreiden arvojen kiinnitystä, joka antaa kullekin niistä arvon, kutsutaan pääositukseksi Jos esimerkiksi tapauksessa k =5kielletään faktorit x x 2 x 3, x 3 x 4 x 5 ja x x 2 x 4 x 5 pääosituksessa, saadaan seuraava ns aliastaulu

30 LUKU REGRESSIO 27 mallin faktori x x 2 x 3 x 4 x 5 x x 4 x x 5 sekoittuvat aliakset x x 2 x 3 x 3 x 4 x 5 x x 2 x 4 x 5 x 2 x 3 x x 3 x 4 x 5 x 2 x 4 x 5 x x 3 x 2 x 3 x 4 x 5 x x 4 x 5 x x 2 x 4 x 5 x x 2 x 3 x 4 x 5 x x 2 x 3 x 4 x 3 x 5 x x 2 x 5 x x 2 x 3 x 5 x 3 x 4 x x 2 x 4 x 2 x 3 x 4 x x 3 x 5 x 2 x 5 x 2 x 3 x 5 x x 3 x 4 x 2 x 4 Ks JOHN ja KHURI &CORNELL ja MYERS &MONTGOMERY 8 Toisen kertaluvun regressiomalli Täydellinen toisen kertaluvun malli on muotoa y = β 0 + k β i x i + β ij x i x j + ɛ i= i j k Faktoreita on +2k + ( k 2) kappaletta Sovitaan faktoreiden järjestykseksi,x,,x k,x 2,,x 2 k,x x 2,,x x k,x 2 x 3,,x k x k ja muodostetaan datamatriisin X sarakkeet tässä järjestyksessä Merkitään (kuten aikaisemminkin) X = ( N D ),missä D on suunnittelumatriisi, ja ( ) x = d Merkitään edelleen (yläkolmiomatriisi) ja β β 2 β k B 0 β 22 β 2k = 0 0 β kk B = 2 (B +(B ) T ) Silloin d T B d = trace(d T B d)=trace(b dd T )= β ij x i x j ja vastaavasti d T (B ) T d = β ij x i x j i j k Siispä myös d T Bd = β ij x i x j i j k ja malli voidaan kirjoittaa matriisimuotoon y = x T β + d T Bd + ɛ i j k

31 LUKU REGRESSIO 28 Myöskin ennuste ŷ = b 0 + k b i x i + b ij x ix j i= i j k voidaan kirjoittaa samalla tavoin matriisimuotoon: matriisit E ja E saadaan ottamalla B :ssa ja B:ssä β ij :n paikalle b ij, kirjoitetaan ( ) x = d ja ŷ =(x ) T b +(d ) T Ed Täydellinen toisen kertaluvun malli ei sellaisenaan käy ortogonaaliseen kokeeseen, sillä (Lause 3) neliöfaktorien sarakesummat ovat positiivisia Toisaalta mainitut neliöfaktorit voidaan korvata uusilla muotoa x 2 i + p i x i + q i = merk P i (x i ) olevilla faktoreilla, missä kertoimet p i ja q i valitaan siten, että N P i (x ji )=0 j= ja N P i (x ji )x ji =0, j= ts polynomit, x ja P i (x) ovat (käytetyn datan suhteen) ortogonaaliset Tätä varten oletetaan ensin, että faktorit x,,x k ovat valmiiksi standardoituja niin, että N x ji =0 j= ja N x 2 ji = N j= Huomaa, että tämä ei ole aivan sama kuin edellä oleva standardointi, vaan tässä käytetty hajonta on N (x ji x i ) N 2 Muodostetaan kertoimille p i ja q i yhtälöt { 0= N j= (x2 ji + p i x ji + q i )=N + Nq i 0= N j= (x3 ji + p i x 2 ji + q i x ji )= N j= x3 ji + Np i j= ja ratkaistaan ne: { p i = N N j= x3 ji q i = Merkitään nyt matriisissa N DT D faktoreita vastaavien D:n sarakkeiden pistetuloista saatavia alkioita seuraavasti: x i faktorit x j x m x i x j x i x j x m x n alkio [ij] =[ji]= [ijm] =[jim]= [ijmn] =[imjn] =

Näytä lisää