Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi ja vasteen optimointi

Transkriptio

1 Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi ja vasteen optimointi Robert Piché ja Keijo Ruohonen Tampereen teknillinen yliopisto 200

2 Sisältö REGRESSIO Matriisilaskentaa ja multinormaalijakauma 2 2 Lineaarinen regressiomalli 6 3 Hypoteesien testaaminen 2 4 Mallin epäsopivuuden testaus toistokokein 23 5 Mallin riittävyys 30 2 KOKEIDEN SUUNNITTELU 35 2 Datan muunnokset Ortogonaalisuus ja kiertosymmetrisyys 4 23 Simplex-koe Kahden tason kokeet Toisen kertaluvun regressiomalli CCD-kokeet 6 27 Optimaaliset kokeet 65 3 VASTEEN OPTIMOINTI 69 3 Gradienttimenetelmä Ääriarvotarkastelu Harjuanalyysi 80 Kirjallisuus 85 ii

3 Luku REGRESSIO Mallinnustilanteessa suure y riippuu suureista x,,x k tunnetun tai tuntemattoman funktion φ kautta, ts y = φ(x,, x k Suure y on tällöin ns vaste eli selitettävä muuttuja ja muuttujat x,,x k ovat ns response faktoreita eli selittäviä muuttujia Faktoreiden arvoja kutsutaan tasoiksi Funktio levels φ on ns todellinen vastefunktio ja se sisältää systeemin kaikki fysiikan ilmiöt, mittausprosessin mukaan lukien Funktio φ on yleensä tuntematon tai sitten niin mutkikas, ettei sitä voida sellaisenaan käyttää Otamme käyttöön muotoa y = f(x,,x k + ǫ, olevan empirisen mallin, missä funktio f on olettamamme funktion φ approksimaatio, ja virhetermi ǫ on satunnaismuuttuja Malli saadaan käyttöön, kun ensin on saatu kokeiden tuloksena tietty määrä faktorien arvoyhdelmiä ja niitä vastaavat vasteen arvot Datana on kerätty N kappaletta faktorien arvoyhdelmiä sekä niitä vastaavat vasteen arvot: koe faktorien tasot vaste x,,x k y 2 x 2,,x 2k y 2 N x N,,x Nk y N Regressioanalyysi on mallin f parametrien estimointi Mallia voidaan käyttää arvioimaan erilaisten faktoreiden vaikutusta vasteeseen tai

4 2 LUKU REGRESSIO ennustamaan vasteen arvon sellaisille faktorien arvoyhdelmille, joille vastaavia kokeita ei ole tehty, mm vasteen optimoinnin yhteydessä Jos datan keruu on kallista, vaarallista tai muuten hankalaa, kannattaa valita faktorien arvoyhdelmät etukäteen niin, että saatu malli olisi mahdollisimman käyttökelpoinen mahdollisimman pienellä arvoyhdelmien lukumäärällä Tällainen valinta on tilastollinen kokeiden suunnittelu Jos data on jo kerätty tai jos faktoreiden tasot eivät ole tiedossa tai niihin ei voida vaikuttaa, ei kokeiden suunnittelua tarvita Tässä luvussa kerrataan tilastomatematiikan peruskurssien opettamia tietoja regressiomallin rakentamisesta, mallia koskevien hypoteesien testaamisesta ja mallin sopivuuden arvioinnista Keskitymme lineaarisen regressiomenetelmän osiin, joita tarvitaan vastepintamallinnuksessa design of experiments Matriisilaskentaa ja multinormaalijakauma Tässä kerrataan ja käsitellään lyhyesti eräitä tilastollisten monimuuttujamenetelmien tarvitsemia matriisilaskennan ja normaalijakauman käsitteitä Matriisilaskentaa eigenvalues diagonal elements Aluksi eräitä määritelmiä Neliömatriisi A on symmetrinen, jos A T = A, ja idempotentti, jos A 2 = A Idempotentin matriisin ainoat mahdolliset ominaisarvot ovat 0 ja, sillä jos Ax = λx, niin myös A 2 x = λx ja toisaalta A 2 x = λax = λ 2 x, joten λ 2 = λ Jos symmetrinen matriisi on ei-singulaarinen, niin sen käänteismatriisi on myös symmetrinen Matriisin rivirangi (vast sarakerangi on sen suurin lineaarisesti riippumattomien rivien (vast sarakkeiden lukumäärä Tunnetusti matriisin A rivi- ja sarakerangit ovat samat, tätä yhteistä arvoa kutsutaan matriisin asteeksi eli rangiksi, merkitään rank(a Edelleen neliömatriisin rangi on sen nollasta eroavien ominaisarvojen lukumäärä (moninkertaiset ominaisarvot otetaan mukaan kertalukunsa osoittama määrä Näin ollen idempotentin matriisin rangi on sen -ominaisarvojen lukumäärä Neliömatriisin A jälki, merkitään trace(a, on sen lävistäjäalkioiden summa Jäljellä on seuraavat ominaisuudet: trace(a + B = trace(a + trace(b; 2 trace(ca = c trace(a (c on skalaari; 3 trace(a T = trace(a;

5 MATRIISILASKENTAA JA MULTINORMAALIJAKAUMA 3 4 trace(b T A = trace(ab T = matriiseja; n m a ij b ij, kun A ja B ovat n m- i= j= 5 trace(a on A:n ominaisarvojen summa neliömatriisille A Ominaisuudesta 5 johtuen idempotentin matriisin rangi on sen jälki Merkitään 0 n :llä n-vektoria, jonka kaikki alkiot ovat nollia (nollavektori, n :llä n-vektoria, jonka kaikki alkiot ovat ykkösiä (ykkösvektori, O n :llä n n- matriisia, jonka kaikki alkiot ovat nollia (nollamatriisi, ja vielä I n :llä n n-identiteettimatriisia Seuraavia erikoismatriiseja tarvitaan usein: J n = n T n, K n = J n I n, M n = I n n J n J n on n n-matriisi, jonka kaikki alkiot ovat ykkösiä Matriisit J n, K n ja M n ovat symmetrisiä Seuraavat ominaisuudet ovat todettavissa suoralla laskulla: (i T n n = n (ii J n n = n n (iii K n n = (n n (iv M n n = 0 n (v J 2 n = nj n (vii M 2 n = M n (eli M n on idempotentti (viii J n K n = (n J n (ix J n M n = O n (x K n M n = M n (xi n(k n + M n = (n J n (vi K 2 n = (n J n K n Matriiseja on usein edullista käsitellä jaettuina lohkoihin: A A 2 A k A 2 A 22 A 2k A = A l A l2 A lk Lohkomuodossa olevien matriisien transpoosi ja tulo saadaan suoraan lohkojen avulla: A A 2 A k A 2 A 22 A 2k T A T A T 2 A T l = A T 2 A T 22 A T l2 A l A l2 A lk A T k A T 2k A T lk

6 4 LUKU REGRESSIO ja A A 2 A k A 2 A 22 A 2k B B 2 B m B 2 B 22 B 2m = C C 2 C m C 2 C 22 C 2m, A l A l2 A lk B k B k2 B km C l C l2 C lm missä C ij = k A it B tj t= (huomaa kertojärjestys, olettaen, että kaikki esiintyvät matriisikertolaskut ovat määriteltyjä Lohkokertosääntö muistuttaa tavallista matriisien kertosääntöä c ij = k t= a itb tj, ja voidaan sitä käyttäen todistaa helposti Eräs erikoistapaus on ns toinen matriisikertosääntö ( a a 2 a k b T b T 2 = k a t b T t t= b T k Summalausekkeet ja matriisit liittyvät toisiinsa seuraavilla kaavoilla, jotka ovat helposti todettavissa Merkitään A = ( a a 2 a k ja B = b T b T 2 b T k Silloin column mean row mean 2 k A k = k k T k B = k k a t (ns A:n sarakekeskiarvo, merkitään ā; t= k b T t (ns B:n rivikeskiarvo, merkitään b T ; t= 3 AJ k B = k k a t b T s ; t= s=

7 MATRIISILASKENTAA JA MULTINORMAALIJAKAUMA 5 4 AK k B = k t= k a t b T s ; s= s t 5 AM k = A ā T k (vähennetään A:n sarakkeista sen sarakekeskiarvo eli keskitetään sarakkeet; 6 M k B = B k bt (vähennetään B:n riveistä sen rivikeskiarvo eli keskitetään rivit; 7 AM k B = AM 2 k B = (A āt k (B k b T Kohdan 7 seurauksena erikoisesti Multinormaalijakauma AM k A T = (A ā T k (A ā T k T Satunnaisvektorilla x (n-vektori on ns multinormaalijakauma N(µ, Σ, jos sen multinormal tiheysfunktio on distribution ( f(x = (2π n/2 det(σ exp 2 (x µt Σ (x µ Tässä µ = E(x (odotusarvo(vektori ja Σ = V (x = E((x µ(x µ T expectation (varianssi(matriisi Mikäli µ = 0 n ja Σ = I n, on kyseessä ns standardimultinormaalijakauma Todetaan seuraavat multinormaalijakauman ominaisuudet: Jos x:llä on n-ulotteinen N(µ, Σ-jakauma, C on m n-matriisi, jonka rivirangi on täysi (eli m, ja b on m-vektori, niin satunnaisvektorilla Cx+b on m-ulotteinen N(Cµ + b,cσc T -jakauma 2 Jos x:llä on n-ulotteinen N(µ,Σ-jakauma, C on m n-matriisi, C 2 on m 2 n-matriisi, b on m -vektori ja b 2 on m 2 -vektori, niin satunnaisvektorit C x + b ja C 2 x + b 2 ovat riippumattomat tarkalleen silloin, kun independent C ΣC T 2 = O 3 Jos x:llä on n-ulotteinen N(µ n, σ 2 I n -jakauma ja s 2 = n xt M n x (otosvarianssi niin satunnaismuuttujalla sample variance s 2 (n σ 2 on χ 2 -jakauma n vapausasteella Yleisesti, jos A on symmetrinen idem- degrees of freedom

8 6 LUKU REGRESSIO potentti n n matriisi, niin satunnaismuuttujalla σ 2(x µ n T A(x µ n on χ 2 -jakauma rank(a vapausasteella 4 Josx:llä on n-ulotteinen N(µ n, σ 2 I n -jakauma, x = n T n x (otoskeskiarvo sample mean ja s 2 = n xt M n x (otosvarianssi niin satunnaismuuttujalla ( x µ n s on t-jakauma n vapausasteella (Huomaa, että ( x µ n/σ on standardinormaalisti jakautunut ja s 2 (n /σ 2 on χ 2 -jakautunut n vapausasteella ja että nämä satunnaismuuttujat ovat riippumattomat Yleisesti, jos u on standardinormaalisti jakautunut, v on χ 2 -jakautunut m vapausasteella ja u ja v ovat riippumattomat, niin u m/ v on t-jakautunut m vapausasteella 5 Jos x :llä on n -ulotteinen N(µ, σ 2 I n -jakauma, x 2 :llä on n 2 -ulotteinen N(µ 2, σ 2 I n2 -jakauma sekä x ja x 2 ovat riippumattomat, niin satunnaismuuttujalla x T M n x /(n x T 2 M n 2 x 2 (n 2 on F-jakauma vapausastein n ja n 2 (Huomaa, että x T M n x /σ 2 ja x T 2 M n 2 x 2 /σ 2 ovat riippumattomat χ 2 -jakautuneet satunnaismuuttujat vapausastein n ja n 2, vastaavasti Yleisesti riippumattomien, vapausastein m ja m 2 χ 2 -jakautuneiden vapausasteillaan jaettujen satunnaismuuttujien osamäärä on F-jakautunut vapausastein m ja m 2 2 Lineaarinen regressiomalli Ensimmäisen kertaluvun regressiomalli on muotoa y = β 0 + β x + + β k x k + ǫ missä kertoimet β 0, β,,β k ovat mallin parametrit Jos merkitään β 0 x β x = x k ja β = β k,

9 2 LINEAARINEN REGRESSIOMALLI 7 voidaan tällainen kertaluvun regressiomalli kirjoittaa muotoon y = x T β + ǫ Yleisesti d:nnen kertaluvun regressiomalli on muotoa y = p(x,,x k + ǫ oleva malli, missä p on muuttujien x,,x k d:nnen asteen polynomi, jonka kertoimet ovat parametrejä Polynomin p ei tarvitse sisältää kaikkia mahdollisia termejä Itse asiassa polynomiaalinen regressio voidaan palauttaa kertaluvun regressioksi ottamalla uusia faktoreita käyttöön Esimerkiksi toisen kertaluvun regressiomallissa y = β 0 + β x + β 2 x 2 + β 2 x x 2 + ǫ ainoa korkeamman kuin ensimmäisen asteen termi on β 2 x x 2 Otetaan uusi muuttuja x 3, kirjoitetaan sen arvoksi suureen x x 2 arvo, ja valitaan parametri β 2 sen kertoimeksi Näin saadaan kertaluvun regressiomalli y = β 0 + β x + β 2 x 2 + β 2 x 3 + ǫ Polynomimallit ovat lineaarisia regressiomalleja, ts ne ovat parametriensä lineaariyhdelmä + virhetermi Regressiomallien parametrit voidaan estimoida pienimmän neliösumman keinolla Muodostetaan koedatasta ns datamatriisi X sekä vastevektori y: x x 2 x k y x 2 x 22 x 2k X =, y = y 2 x N x N2 x Nk y N linear combination method of least squares Valitaan parametrien β estimaatti b siten, että neliösumma y Xb 2 = (y Xb T (y Xb minimoituu Neliösumman gradientti b:n suhteen on 2X T (y Xb ja merkitsemällä se nollavektoriksi saadaan lineaarinen yhtälöryhmä X T Xb = X T y, josta ratkaistaan b: b 0 b b k = b = (XT X X T y

10 8 LUKU REGRESSIO Tällöin tietysti oletetaan, että X T X on ei-singulaarinen ja erityisesti, että N k + Matriisit X T X ja (X T X ovat symmetrisiä Koska kertaluvun malli on muotoa y = x T β + ǫ, liittyvät vastevektori ja datamatriisi toisiinsa yhtälöllä y = Xβ + ǫ, ǫ = ǫ ǫ 2 ǫ N, missä ǫ on satunnaisvektori Satunnaismuuttujat ǫ, ǫ 2,,ǫ N ovat riippumattomia (sillä kokeet suoritetaan toisistaan riippumattomasti ja niillä on kullakin N(0, σ 2 -jakauma (Odotusarvo on 0, sillä systemaattinen virhe voidaan sisällyttää parametriin β 0 Satunnaisvektorilla ǫ on siis N(0, σ 2 I N -multinormaalijakauma Koska ǫ on satunnaisvektori, niin samoin on y = Xβ + ǫ sekä edelleen b = (X T X X T y = (X T X X T (Xβ + ǫ = β + (X T X X T ǫ Vaikka ǫ:n komponentit ovat riippumattomia satunnaismuuttujia, eivät b:n komponentit sitä yleisesti ole Välittömästi todetaan nimittäin, että ja E(b = E(β + (X T X X T ǫ = β + (X T X X T E(ǫ = β V (b = V (β+(x T X X T ǫ = (X T X X T V (ǫx(x T X = σ 2 (X T X Siispä b:llä on N(β, σ 2 (X T X -multinormaalijakauma ja sen komponentit ovat riippumattomat tarkalleen silloin, kun X T X on lävistäjämatriisi (jolloin myös (X T X on lävistäjämatriisi Kun mallin parametrien estimaatti b on saatu, voidaan muita faktorien tasoja ξ vastaava vasteen arvo ennustaa: ŷ = ξ T b Tässä b on satunnaisvektori, joten ennustus ŷ on satunnaismuuttuja Edelleen ja E(ŷ = ξ T E(b = ξ T β V (ŷ = ξ T V (bξ = σ 2 ξ T (X T X ξ Erityisesti voidaan ennustaa datamatriisissa esiintyviä faktorien arvoyhdelmiä vastaavat vasteet: ŷ = Xb = X(X T X X T y

11 2 LINEAARINEN REGRESSIOMALLI 9 Erotus y ŷ =: r on ns residuaalivektori, datan avulla lausuttuna r = y ŷ = (I N X(X T X X T y Ideaalisesti residuaalissa r on vain kohinaa eli virhetermin ǫ vaikutus Residuaalivektorin pituuden neliö r 2 = r T r = (y Xb T (y Xb =: SSE on ns residuaalin neliösumma Koska E(SSE = (N k σ 2, niin (olettaen, sum of squares of että N > k + residuals (errors s 2 SSE = N k on virhetermin varianssin σ 2 estimaatti Jos merkitään c 00 c 0 c 0k (X T X c 0 c c k =: C =, c k0 c k c kk niin V (b i = σ 2 c ii Näin ollen V (b i :n estimaatiksi käy s 2 c ii Standardivirhe se(b i := s 2 c ii on parametrin estimoitu keskihajonta Vastaavasti se(ŷ := s 2 ξ T (X T X ξ on vasteen ennustuksen estimoitu keskihajonta Esimerkki Määritä ensimmäisen kertaluvun regressiomalli datalle: x x 2 y y x 2 ja estimoi parametrien standardivirheet Ennusta mallin avulla vasteen y arvo tasoilla x = 05, x 2 = 4 x =03 x =07 standard error standard deviation

12 0 LUKU REGRESSIO Ratkaisu Malli on siis muotoa y = β 0 + β x + β 2 x 2 + ǫ Datamatriisi ja vastevektori ovat: X = , y = Pienimmän neliösumman menetelmällä saadaan tarkkojen parametrien β estimaatti b: 04 b = (X T X X T y = 335, 083 josta varianssianalyysissa käytetty matriisi C: C = (X T X = Regressiomalli on siis ŷ = x + 083x 2 Vastepinta on taso: 5 0 y x 2 03 x 5 07

13 2 LINEAARINEN REGRESSIOMALLI Ennustamme datan vasteet ja laskemme residuaalivektorin: ŷ = Xb = Residuaalin neliösumma: Virhetermin varianssin σ 2 estimaatti s 2 : s 2 =, r = y ŷ = SSE = r 2 = r T r = 930 SSE N k = SSE 2 2 = 03 Estimoidut parametrien keskihajonnat eli standardivirheet: se(b 0 = s 2 c 00 = = 09, se(b = s 2 c = = 47, se(b 2 = s 2 c 22 = = 009 Nyt voidaan ennustaa mallia käyttäen vasteen arvo, kun x = 05 ja x 2 = 4: ξ = 05 4, ŷ = ξ T b = ( 05 4 Ennusteen keskihajonta estimoidaan: se(ŷ = s 2 ξ T Cξ = 03 = = 679

14 2 LUKU REGRESSIO Harjoitustehtävät Muodosta satunnainen datamatriisi X, jossa on N = 0 koetta ja k = 5 faktoria Valitse jokin parametrivektori β ja generoi simuloitu vastevektori y = Xβ + ǫ, missä ǫ on N(0, 00I Estimoi nyt β eli etsi b pienimmän neliösumman keinolla Laske myös parametrien estimoidut standardivirheet se(b i Kokeile miten käy, kun vaihdat matriisin X 3 sarakkeeksi sen 2 sarakkeen lisättynä pienellä luvulla δ Käy läpi arvot δ = 0, 00, 0000, ja seuraa mitä tapahtuu estimaatille b 2 Mitkä ovat faktorit, parametrit ja vasteet ja miten saadaan datamatriisit, kun mallit muunnetaan kertaluvun lineaarisiksi malleiksi, ja kun ǫ on N(0, σ 2 -normaalijakautunut virhetermi? (a y = β 0 + β 2 x 2 + β x 2 + β 23x 2 x 3 + ǫ (b y = β 0 +β sin(ω t+φ +β 2 sin(ω 2 t+φ 2 +ǫ (c y = Cλt k 3 Johda kaavat (t on aikamuuttuja (t on aikamuuttuja ja λ = e ǫ on lognormaali virhetermi (a r = (I N X(X T X X T ǫ (b X T r = 0 (c E(br T = O (d E(SSE = (N k σ 2 3 Hypoteesien testaaminen Varianssianalyysiä käyttäen voidaan testata ns lineaarisia hypoteeseja, ts muotoa H 0 : Aβ = d olevia hypoteeseja, missä A on q (k + -matriisi, jonka rivirangi on täysi, ts sen rivit ovat lineaarisesti riippumattomat, ja d on q-vektori Vielä oletetaan, että q < k + Valitsemalla A ja d sopivasti saadaan hyvinkin monenlaisia testejä Vastahypoteesi on H : Aβ d Regressiomallin hypoteesintestauksen perustulos on Lause Jos H 0 : Aβ = d on tosi, niin (aiemmin mainituin normaalisuusoletuksin suureella (Ab d T (A(X T X A T (Ab d/q SSE/(N k

15 3 HYPOTEESIEN TESTAAMINEN 3 on F-jakauma vapausastein q ja N k (taas kerran olettaen, että N > k + Todistus Ensinnäkin (kts kohdan 2 harjoitustehtävä 3c satunnaisvektorit b ja r ovat riippumattomia Näin ollen ovat myös suureet (Ab d T (A(X T X A T (Ab d ja SSE = r T r riippumattomat Edelleen suureella SSE on χ 2 -jakauma N σ 2 k vapausasteella Vielä pitää näyttää, että suureella σ 2(Ab dt (A(X T X A T (Ab d on χ 2 -jakauma q vapausasteella, kun H 0 on tosi Koska vektorilla b on N(β, σ 2 (X T X -jakauma, on vektorilla Ab d jakauma N(Aβ d, σ 2 A(X T X A T = N(0 q, σ 2 A(X T X A T Selvästi A(X T X A T on symmetrinen ja positiivisemidefiniitti Koska A:lla on täysi rivirangi ja X T X on ei-singulaarinen, on myös A(X T X A T ei-singulaarinen ja siis positiividefiniitti Schurin lauseen mukaan se voidaan kirjoittaa muotoon A(X T X A T = QΛQ T, missä Q on ortogonaalimatriisi ja Λ on lävistäjämatriisi, jonka lävistäjällä ovat A(X T X A T :n (positiiviset ominaisarvot Näin ollen on matriisilla (A(X T X A T neliöjuuri Q Λ Q T =: B, missä lävistäjämatriisi Λ saadaan matriisista Λ ottamalla sen lävistäjäalkioista neliöjuuret Ilmeisesti B on symmetrinen ei-singulaarinen matriisi Nyt vektorin B(Ab d jakauma on N(0 q, σ 2 BB 2 B T = N(0 q, σ 2 I q Suureella σ 2(Ab dt (A(X T X A T (Ab d = σ 2(B(Ab dt B(Ab d on näin ollen χ 2 (q-jakauma Hypoteesin testaaminen sujuu tavalliseen tapaan Merkitsevyystaso α kiinni- level of significance tetään Jos testisuure osuu varjostetulle häntäalueelle kuvassa, hylätään H 0 Mitä huonommin H 0 pitää paikkansa, sitä suurempi pyrkii Ab d ja F-testisuure olemaan F q,n k ala = α

16 4 LUKU REGRESSIO Jos q =, on hypoteesi H 0 muotoa a T β = d, ja F-testin suure on N k SSE (a T b d 2 a T (X T X a = (a T b d 2 s 2 a T Ca Hypoteesin testaamiseen voidaan yhtä hyvin ottaa N k vapausasteella t- jakautunut suure t i = at b d s2 a T Ca eli F-testisuureen neliöjuuri Hypoteesi H 0 : a T β = d hylätään, jos suure t i osuu varjostetulle alueelle kuvassa Tätä t-suuretta käyttäen voidaan myös tehdä yksipuolisia testejä t N k Valinta a T = (0,,0,, 0,, 0, missä on i:s alkio, antaa hypoteesin H 0 : β i = 0, joka testaa faktorin x i tarpeellisuutta mallissa Tällöin F-testisuure on b 2 i s 2 c ii ja t-testisuure on sen neliöjuuri Koko mallin käyttökelpoisuutta puolestaan testaa hypoteesi H 0 : β = = β k = 0 design matrix Jos tätä H 0 :aa ei hylätä, ovat käytetyt faktorit huonoja selittäjiä, ts koko malli voitaisiin yhtä hyvin korvata vakiolla + kohinalla (eli mallilla y = β 0 +ǫ Vastaava A-matriisi on ( 0 k I k ja d = 0k Tehdään datamatriisissa ja b-vektorissa samanlainen ositus: X = ( N D ( b0 ja b = (Matriisi D on muuten ns suunnittelumatriisi, jota tarvitaan vielä jatkossa Tässä N on N-vektori, jonka kaikki alkiot ovat ykkösiä Silloin Ab = b ja ( X T T X = N ( N D ( N T = N D D T D T N D T D b Edelleen tällöin (Ab d T (A(X T X A T (Ab d = b T (A(XT X A T b =: SSR,

17 3 HYPOTEESIEN TESTAAMINEN 5 ns regression neliösumma Tunnetun lohkomatriisien kääntökaavan mukaan (X T X :n oikea alalohko eli siis A(X T X A T on ( D T D D T N N T ND = (D T M N D Matriisi M N = I N N N T N on ns keskitysmatriisi Sillä kertominen vähentää vektorista sen keskiarvon Koska M N N = 0 N, niin SSR = b T DT M N Db = (b 0 N + Db T M N (b 0 N + Db = (Xb T M N Xb = ŷ T M N ŷ Koska edelleen X T r = 0 k+ (kohdan 2 harjoitustehtävä 3b, niin T N r = 0 (tarkastellaan vain X:n ensimmäistä saraketta ja ŷ T r = b T X T r = 0 Näin ollen r T M N ŷ = r (I T N N N T N ŷ = r T ŷ N rt N T Nŷ = 0 ja r T M N r = r T (I N N N T N r = r T r N rt N T N r = rt r = SSE Ns kokonaisneliösumma SST := (M N y T (M N y total sum of squares on näin hajotettavissa residuaalin neliösumman ja regression neliösumman summaksi: SST = (M N y T (M N y = y T M N y = (r + ŷ T M N (r + ŷ = r T M N r + ŷ T M N ŷ = SSE + SSR Jakamalla neliösumma vapausasteellaan saadaan aina vastaava keskineliö: ( U V Jos neliömatriisin neliölohko U on ei-singulaarinen, niin neliömatriisi on eisingulaarinen jos ja vain jos Z WU V on ei-singulaarinen Sen käänteismatriisi on W Z ( U + U V(Z WU V WU U V(Z WU V (Z WU V WU (Z WU V mean square

18 6 LUKU REGRESSIO ANalysis Of VAriance coefficient of determination adjusted R 2 MSE := SSE N k = s2, MSR := SSR k, MST := SST N (residuaalin keskineliö, regression keskineliö ja kokonaiskeskineliö Hypoteesin H 0 : β = = β k = 0 testisuure on näin ollen MSR/MSE ja sillä on Lauseen mukaan F-jakauma vapausastein k ja N k Vastahypoteesi on H : ainakin yksi parametreistä β,,β k on 0 H 0 :n hylkääminen merkitsee, että ainakin yhdellä faktorilla on merkittävää vaikutusta vasteeseen Varianssianalyysitaulu eli ANOVA-taulu sisältää kaiken tämän: variaation lähde vapausasteet neliösummat keskineliöt F merkitsevyys regressio residuaali kokonaisvariaatio k N k N SSR SSE SST MSR MSE MST MSR MSE Neliösummista saadaan myös ns determinaatiokerroin eli selitysaste SSR SST =: R2 pienin α:n arvo, jolla H 0 hylätään R 2 ilmoittaa kuinka suuren suhteellisen osan vastevektorin otosvarianssista regressio selittää R 2 :n neliöjuuri R on ns yhteiskorrelaatiokerroin Jotkut käyttävät mieluummin ns korjattua determinaatiokerrointa MSE MST =: R2 A = ( R 2 N N k RA 2 ilmoittaa kuinka paljon suhteellisesti V (ǫ:n estimoidusta arvosta voidaan poistaa sovittamalla jokin muu kuin H 0 :n mukainen malli y = β 0 + ǫ verrattuna siihen V (ǫ:n estimoituun arvoon (= MST, joka ko mallin avulla saadaan Esimerkki Kohdan 2 esimerkin vasteen kuvaaja (sivulla 9 näyttää neliölliseltä x 2 :n suhteen, varsinkin kun x = 03, joten tuntuu järkevältä lisätä termin β 22 x 2 2 malliin Koska koejärjestelyissä ei ole testattu kuin kahdella x :n arvolla, ei voida ottaa mukaan x :n toisen asteen termejä Yhteisvaikutukset saadaan kertomalla lineaariset ja neliölliset x 2 faktorit ja lineaariset x faktorit keskenään Määritä siis kolmannen kertaluvun malli y = β 0 + β x + β 2 x 2 + β 2 x x 2 + β 22 x β 22 x x ǫ kohdan 2 esimerkin datalle Testaa faktorin x x 2 2 tarpeellisuus ja koko mallin käyttökelpoisuus Laske mallin determinaatiokertoimet R 2 ja RA 2

19 3 HYPOTEESIEN TESTAAMINEN 7 Ratkaisu Nyt siis β = β 0 β β 2 β 2 β 22 β 22, b = b 0 b b 2 b 2 b 22 b 22 Datamatriisi ja vastevektori ovat: X = , y = Mallin kertoimet ovat: b = (X T X X T y = Varianssianalyysin matriisi C: C = (X T X = Malli on siis ŷ = x +333 x x x x x x 2 2 Vastepinta on lievästi kaareva:

20 8 LUKU REGRESSIO 5 y x 2 Ennustetut vasteet ja residuaali: ŷ = Xb = 87 52, r = y ŷ = Residuaalin neliösumma: Varianssin estimaatti: s 2 = 03 SSE = r T r = 52 SSE N k = Estimoidut parametrien keskihajonnat: 07 x SSE 2 5 = 025 se(b 0 = s 2 c 00 = = 03, se(b = s 2 c = = 92, se(b 2 = s 2 c 22 = = 053, se(b 2 = s 2 c 33 = = 099, se(b 22 = s 2 c 44 = = 005, se(b 22 = s 2 c 55 = = 00

21 3 HYPOTEESIEN TESTAAMINEN 9 Testataan kolmannen asteen faktorin x x 2 2 tarpeellisuus Hypoteesit siis ovat: eli matriiseina: kun F-testisuure on: H 0 : β 22 = 0, H : β 22 0, H 0 : a T β = d, H : a T β d, a T = A = ( , d = 0 F = (a T b d 2 = 032, s 2 a T Ca jolla siis on F-jakauma vapausastein q = ja N k = 2 5 = 6 Testin voi myös tehdä t-testinä jolloin suureeksi saadaan: t = at b d s2 a T Ca = 32, vapausastein N k = 6 Taulokoista tai ohjelmistoista nähdään, että molemmilla testeillä pienin merkitsevyystaso α, jolla H 0 hylätään on 008 Koko mallin käyttökelpoisuus testataan hypoteesein H 0 : β = = β k = 0, H : β i 0 jollakin termilläi {, 2, 2, 22, 22}, eli matriiseina: kun Testisuure on F = A = H 0 : Aβ = d, H : Aβ d, , d = (N k q SSE (Ab dt (A(X T X A T (Ab d (2 5 = 5 SSE (Ab dt (ACA T (Ab d = 4333 Pienin merkitsevyys α, jolla H 0 hylätään, on Malli siis toimii Lasketaan F-suure uudestaan, nyt ANOVA-taulun kautta Otetaan käyttöön matriisi M 2 = I T 2

22 20 LUKU REGRESSIO Nyt voimme laskea regression neliösumman: ja edelleen kokonaisneliösumman: SSR = ŷ T M 2 ŷ = 89, SST = SSE + SSR = = 8344 Neliösummia vastaavat keskineliöt: ja F-testisuure: MSE = SSE N k = = 025, MSR = SSR k Tulokset kootaan ANOVA-tauluksi = 89 5 = 3638, MST = SST N = = 668 F = MSR MSE = = 4333 variaation lähde vapausasteet neliösummat keskineliöt F merkitsevyys regressio residuaali kokonaisvariaatio Lopuksi lasketaan vielä determinaatiokerroin ja korjattu determinaatiokerroin: R 2 = SSR SST = 0997, R2 A = MSE MST = Harjoitustehtävät Taulussa on annettu mittaustulokset eräälle transistorien valmistukseen liittyvälle koesarjalle Faktori x on käsittelyaika ja faktori x 2 ionikonsentraatio, kumpikin koodattuna välille [, ] (Datan koodauksesta lisää luvun 2 kohdassa Koodaus on tässä tarpeen kertalukueroista johtuen, sillä tyypillinen käsittelyaika on luokkaa 200 min ja ionikonsentraatio Vaste

23 3 HYPOTEESIEN TESTAAMINEN 2 y on vahvistuskerroin x x 2 y (a Estimoi mallin y = β 0 +β x +β 2 x 2 +ǫ parametrit sekä ǫ:n varianssi (b Testaa parametrien merkitsevyys H 0 : β i = 0 (i = 0,, 2 kaksipuolisella t-testillä Ilmoita kunkin parametrin kohdalla pienin riski, jolla se otetaan mukaan malliin (c Ennusta vasteen arvo suurimmalla kokeissa olleella käsittelyajalla ja ionikonsentraatiolla (d Testaa vielä hypoteesi H 0 : β = 350 F-testillä Ilmoita pienin riski, jolla H 0 voidaan hylätä 2 Minkälainen matriisi A ja vektori d tarvitaan seuraavissa lineaarisissa hypoteesin testauksissa? Malli on y = β 0 + β x + + β k x k + ǫ (a Testataan, onko kaikkien faktorien vaikutus sama, ts onko H 0 : β = = β k (b Malli on aikanaan estimoitu suurella koesarjalla ja sitä käytetään myöhemmin harvoin Kun sitä käytetään, testataan ensin varmuuden vuoksi mallin toimivuus suorittamalla uudet kokeet kahdella tyypillisellä faktoriyhdelmällä: x x 2 x k y x x 2 x k y x x 2 x k y Saatujen tulosten perusteella testataan hypoteesi H 0 : malli toimii ko kokeiden perusteella

24 22 LUKU REGRESSIO 3 Taulussa on annettu mittaustulokset erääseen kemialliseen prosessiin liittyvälle koesarjalle x on lämpötila ja x 2 reaktantin väkevyys, koodattuna ns CCD-kokeen muotoon (CCD-kokeista lisää myöhemmin Vaste y on tuotosprosentti x x 2 y Malli on neliöllinen eli 2 kertalukua: y = β 0 + β x + β 2 x 2 + β x 2 + β 2x x 2 + β 22 x ǫ (a Testaa mallin merkitsevyys, ts laadi ANOVA-taulu (b Laske myös kertoimet R 2, R, R 2 A ja R A 4 Mallin merkitsevyystestin F-testisuure esitetään usein muodossa (a Totea, että kaava on oikein F = R2 (N k ( R 2 k (b N-vektoriny ns otosvarianssi eli alkioiden varianssi on V y = N yt M N y Toisaalta kahden N-vektorin y ja y 2 ns otoskovarianssi eli alkioittainen kovarianssi on cov y y 2 = N yt M Ny 2 ja otoskorrelaatiokerroin on ρ y y 2 = cov y y 2 Vy Vy2 Totea, että R = ρ yŷ, ts yhteiskorrelaatiokerroin on vastevektorin ja ennustetun vastevektorin otoskorrelaatiokerroin (tästä sen nimi

25 5 MALLIN EPÄSOPIVUUDEN TESTAUS TOISTOKOKEIN 23 4 Mallin epäsopivuuden testaus toistokokein Regressiomallin epäsopivuus tarkoittaa sitä, että lisäämällä uusia faktoreita tai en- lack of fit tisistä faktoreista muodostettuja uusia (korkeampiasteisia faktoreita, residuaalia voidaan pienentää Jos siis malli y = x T β + ǫ on epäsopiva, tarkoittaa se sitä, että jokin laajennettu malli y = x T β + z T γ + ǫ, missä z = (z,,z l T on uusien tai entisistä kertomalla tai muuten saatujen faktorien muodostama vektori ja γ = (γ,,γ l T on uusi parametrivektori, on parempi Huomaa, että sovitettaessa jälkimmäinen malli pienimmän neliösumman keinolla vastevektoriin y ja datamatriisiin ( X Z, missä X on aikaisempi datamatriisi ja Z uusia faktoreita vastaavista sarakkeista muodostettu jatke, eivät parametrit β saa (välttämättä samoja arvoja kuin sovitettaessa alkuperäistä mallia Tämä johtuu siitä, että uudet selittävät faktorit voivat osittain selittää samoja tekijöitä, kuin vanhat faktorit Uusien faktorien osuutta voidaan erotella kirjoittamalla Z = Ẑ + (Z Ẑ, missä matriisiẑ saadaan ennustamalla matriisinzsarakkeet vanhaa mallia käyttäen ja matriisissa (Z Ẑ on se, mitä uudet faktorit selittävät ja vanhat eivät Matriisin Ẑ sarakkeet ovat siis vanhan mallin datamatriisin sarakkeiden lineaariyhdelmiä, Ẑ = XE, ja matriisin (Z Ẑ sarakkeet ja vanhan mallin datamatriisin sarakkeet ovat ortogonaalisia, X T (Z Ẑ = O, joten E = (X T X X T Z (ns aliasmatriisi Hypoteesi, jonka mukaan malli ei ole tarkasteltujen uusien faktorien kannalta epäsopiva, on näin ollen H 0 : (Z Ẑγ = 0 N Vastahypoteesi on tietysti H : (Z Ẑγ 0 N Jos halutaan testata, onko mallia yleensä ottaen mahdollista parantaa, pitää verrata virhetermin aiheuttamaa varianssia vasteen selittämättä jääneen osan aiheuttamaan varianssiin Jos

26 24 LUKU REGRESSIO jälkimmäinen on huomattavasti suurempi, on mallin sopivuutta mahdollista parantaa uusia faktoreita käyttäen Testisuure tällaiselle testaukselle saadaan, jos mukana on toistokokeita, ts datamatriisissa on samoja rivejä Oletetaan, että datamatriisissa X on erilaisia rivejä m kappaletta Huomaa, että m k +, muuten X T X on singulaarinen Kootaan mainitut erilaiset rivit m (k + -matriisiksi X Silloin voidaan kirjoittaa replicate observations X = TX sopivasti valitulle N m-matriisille T Huomaa, että T:llä on täysi sarakerangi, ts sen sarakkeet ovat lineaarisesti riippumattomat, ja että T m = N Itse asiassa T saadaan identiteettimatriisista I m toistamalla sen rivejä sopivasti Laajin mahdollinen malli, joksi alkuperäinen malli voidaan täydentää, saadaan, kun lisätään datamatriisiin X suurin mahdollinen määrä sarakkeita, jotka ovat aikaisemmista sarakkeista lineaarisesti riippumattomia, samalla säilyttäen toistetut rivit Tällaiseen malliin ei nimittäin voida lisätä yhtäkään uutta selittäjää, joka ei, toistokokeiden puitteissa, riippuisi lineaarisesti aikaisemmista Täydennetään X ensin m m-matriisiksi lisäämällä siihen m k aikaisemmista lineaarisesti riippumatonta saraketta: ( X Z =: X2 Matriisin X täydennys on sen jälkeen N m-matriisi TX 2 = ( TX TZ = ( X Z =: X3, missä Z = TZ Alkuperäisestä datamallista (Malli I y = Xβ + ǫ saadaan näin laajennettu datamalli (Malli II ( β y = X 3 + ǫ = Xβ + Zγ + ǫ γ Mallista II saatu ennustevektori on ŷ II = X 3 (X T 3 X 3 X T 3 y = TX 2(X T 2 TT TX 2 X T 2 TT y = T(T T T T T y, joka ei riipu Z :stä, ts siitä, miten X täydennetään! Näin ollen saatava testi ei myöskään riipu mallin laajennustavasta, kunhan toistojen rakenne (eli T säilytetään Mallista II saatava residuaali on r II = (I N T(T T T T T y

27 5 MALLIN EPÄSOPIVUUDEN TESTAUS TOISTOKOKEIN 25 ja tämän residuaalin neliösumma on r T II r II =: SSPE, ns puhtaan virheen neliösumma Yritetään selittää Mallin I residuaalivektori sum of squares for pure error r = (I N X(X T X X T y Mallin II avulla Jos tämä onnistuu tarpeeksi hyvin, ei Malli I ole sopiva, vaan se voidaan täydentää sopivammaksi Merkitään lyhyyden vuoksi P = I N X(X T X X T ja R = I N T(T T T T T Silloin todetaan helpolla laskulla, että P ja R ovat symmetrisiä idempotentteja matriiseja ja että RX = O, RZ = O, RP = PR = R, PX = O, rank(p = trace(p = N k, rank(r = trace(r = N m Selitettäessä Mallin II avulla Mallin I residuaalia r on selittämättä jäävä residuaali r II = Ry = RPy = Rr, jonka neliösumma on nimenomaan SSPE Kokonaisneliösumma on puolestaan r T r eli Mallin I residuaalin neliösumma SSE Edelleen regression neliösumma tässä selitysyrityksessä on SSE SSPE =: SSLOF, ns epäsopivuuden neliösumma Matriisimuodossa SSLOF = y T (P Ry sum of squares due to lack of fit Matriisi P R on symmetrinen idempotentti matriisi, jonka rangi on trace(p R = trace(p trace(r = m k Neliösumma SSPE vastaa sitä osaa residuaalivarianssista, joka johtuu virhetermistä Siihen ei voida vaikuttaa mallilla, olipa tämä kuinka hyvä tahansa SSLOF vastaa taas sitä osaa residuaalivarianssista, joka johtuu mallin huonosta selittävyydestä eli epäsopivuudesta Mutta: Residuaali r ei ole oikeaa vasteen tyyppiä, sillä sillä on singulaarinen normaalijakauma (ts P on singulaarinen Näin ollen saatujen neliösummien jakaumat ja vapausasteet sekä niihin perustuva ANOVA katsotaan erikseen Huomaa kuitenkin, että SSPE on Mallin II residuaalin neliösumma, joten sillä on χ 2 - jakauma N m vapausasteella

28 26 LUKU REGRESSIO Lause 2 Jos hypoteesi H 0 : PZγ = 0 N on tosi Mallille II, niin suureella SSLOF/(m k SSPE/(N m on F-jakauma vapausastein m k ja N m (olettaen tietysti, että m > k+ Todistus Pitää näyttää, että SSLOF ja SSPE ovat riippumattomasti χ 2 -jakautuneet vapausastein m k ja N m, vastaavasti Hypoteesin H 0 voimassaollessa (P Ry = (P R(Xβ + Zγ + ǫ = (P Rǫ ja Ry = R(Xβ + Zγ + ǫ = Rǫ Koska P R ja R ovat symmetrisiä idempotentteja matriiseja, R(P R = O N ja satunnaisvektorilla ǫ on N(0 N, σ 2 I N -multinormaalijakauma, on lause oikea Lauseessa esiintyvä Z on tietysti se laajin mahdollinen, jolla alkuperäistä datamatriisia X täydennetään Vastahypoteesi on H : PZγ 0 N SSPE:llä on siis vapausasteita N m ja SSLOF:llä m k Vastaavat keskineliöt ovat näin ollen SSPE N m =: MSPE ja SSLOF m k =: MSLOF (puhtaan virheen keskineliö ja epäsopivuuden keskineliö Varianssianalyysitaulu on siten variaation lähde vapausasteet neliösummat keskineliöt F merkitsevyys epäsopivuus puhdas virhe residuaali m k N m N k SSLOF SSPE SSE MSLOF MSPE MSE MSLOF MSPE pienin α:n arvo, jolla H 0 hylätään Jos hypoteesia H 0 ei hyväksytä, voidaan mallia parantaa täydentämällä sitä sopivilla faktoreilla Huomaa, että jos erityisesti täydentävät faktorit ovat entisistä laskien saatuja korkean asteen faktoreita, niin edellä esitetty toistettujen rivien säilyminen täydennettäessä on automaattista Näin ollen esitetty testi on erityisen sopiva juuri tällaista täydennystä ajatellen Jos mallia päätetään täydentää, ei tietystikään mukaan välttämättä kannata ottaa kaikkia mahdollisia lisäselittäjiä, vaan vain sopivasti valitut lisäfaktorit Tilastolliset ohjelmistot tarjoavatkin korkeampiasteisten faktorien osalta monia (puoliautomaattisia lisäys- ja valintamenetelmiä (ns askeltava regressio Epäsopivuustesti voidaan tehdä muutenkin kuin toistokokeita käyttäen Matriisista T:kin käytettiin nimittäin vain sen ominaisuuksia

29 5 MALLIN EPÄSOPIVUUDEN TESTAUS TOISTOKOKEIN 27 (i T:llä on täysi sarakerangi (jotta T T T olisi ei-singulaarinen ja (ii hajotelmassa X = TX on X :llä täysi sarakerangi k + (jotta se voidaan täydentää ei-singulaariseksi m m-matriisiksi X 2 Mikä tahansa matriisi, joka toteuttaa nämä ehdot, kelpaisi periaatteessa T:n tilalle Tällöin ei kyseessä olisi välttämättä enää koetoistoihin perustuva testi Valitsemalla T eri tavoin saadaan erilaisia epäsopivuustestejä, tosin näin saadut testit ovat yleensä heikompia kuin toistoihin perustuvat Ks myös CHRISTENSEN ja artikkeli JOGLEKAR, G & SCHUENMEYER, JH & LARICCIA, V: Lack-of-Fit Testing When Replicates Are Not Available, The American Statistician 43 (989, Esimerkki Testaame kohdan 2 mallin sopivuuden toistokokein Datamatriisi X on X = , jossa on 6 erilaista riviä, eli m = 6 Erilaisten rivien matriisi X : X =

30 28 LUKU REGRESSIO Matriisi T, joka toteuttaa yhtälön X = TX on selvästi: T = Käyttöön otetaan matriisit P ja R, jotka siis määriteltiin: P = I N X(X T X X T, R = I N T(T T T T T Nyt saadaan mallin II residuaali: puhtaan virheen neliösumma: r II = Ry = ja edelleen epäsopivuuden neliösumma: Vastaavat keskineliöt: SSPE = r T II r II = 52,, SSLOF = SSE SSPE = = 778 MSPE = SSPE N m = = 025,

31 5 MALLIN RIITTÄVYYS 29 MSLOF = Hypoteesit epäsopivuuden testaukseen ovat SSLOF m k = = 259 H 0 : Malli on sopiva, H : Malli on epäsopiva, eli matriiseina: H 0 : PZγ = 0 N, H : PZγ 0 N ja niitä vastaava F-testisuure: F = MSLOF MSPE = = 02 Pienin merkitsevyys, jolla H 0 hylätään, on 0009 Mallia voi siis parantaa, joka onkin todettu luvun 3 esimerkissä Kootaan tulokset varianssianalyysitauluksi variaation lähde vapausasteet neliösummat keskineliöt F merkitsevyys epäsopivuus puhdas virhe residuaali Harjoitustehtävät Tehtävän 3-3 mittaustuloksissa on toistoja, ns keskustoistoja Testaa näitä käyttäen mallin sopivuus 2 Minkälainen on epäsopivuustestin matriisi T seuraavissa tilanteissa, liittyen siihen, miten kokeet on järjestetty datamatriisissa? Matriisi T T T on aina m m-lävistäjämatriisi, millainen? (a Kokeet tehdään toistoineen järjestyksessä, ts ensin ensimmäisen yhdelmän kokeet toistoineen (t kpl, sitten toisen yhdelmän kokeet toistoineen (t 2 kpl, jne (b Toistot tehdään sarjassa, ts tehdään ensin kokeet kaikilla eri faktoriyhdelmillä ja sitten toistetaan samaa koesarjaa t kertaa (c Ensin tehdään kokeet kaikilla eri faktoriyhdelmillä ja sitten vasta toistot yhdelmä kerrallaan järjestyksessä, ts ensin tehdään ensimmäisen yhdelmän (mahdolliset toistot (s toistettua kertaa, sitten toisen yhdelmän (mahdolliset toistot (s 2 toistettua kertaa, jne

32 30 LUKU REGRESSIO 5 Mallin riittävyys Mallin riittävyys tarkoittaa sitä, että mallin yhteydessä sovitut oletukset (riippu- mattomuudet, normaalisuus, varianssien samuus, jne pitävät paikkansa Koska ANOVA saattaa olla hyvinkin herkkä poikkeamille näistä oletuksista, testataan usein oletusten voimassaoloa Testauksessa käytetään residuaalia r Jos malli on riittävä, ei residuaalissa ole juurikaan muuta virhettä kuin N(0 N, σ 2 I N -jakautuneen satunnaismuuttujan ǫ aiheuttamaa kohinaa Ellei näin ole, on mahdollisia syitä useita model adequacy Epänormaalisuus Jos virhetermin ǫ jakauma ei olekaan multinormaali, vaan jotakin muuta, ei ANO- VAn tuloksiin ole paljoakaan luottamista Epänormaalisuuden toteamiseksi voidaan residuaalivektorin r komponenttien olettaa olevan otos ja tutkia, voiko tämän otoksen katsoa olevan peräisin normaalijakautuneesta satunnaismuuttujasta, esimerkiksi piirtämällä vastaava pylväsdiagrammi Parempi menettely on järjestää residuaalit suuruusjärjestykseen r ( r (2 r (N normal probability ja piirtää ns normaalitodennäköisyyskuvion pisteet plot, Q-Q plot ( ( j r (j, Φ, j =,,N, N + missä Φ on käänteinen standardinormaalikertymä Kuvion pisteiden pitäisi olla kutakuinkin samalla suoralla Usein kertymän argumentti j/(n + korvataan jollain muulla kaavalla, esimerkiksi j 2 N, j 3 N +, tai 3 j 3 8 N + 4 outliers Jakaumatestausta varten on olemassa omia tilastollisiakin testejä, mm Kolmogorovin ja Smirnovin testi ja Cramerin ja von Misesin testi Toisinaan sattuu, että yksi tai useampikin r:n komponenteista on itseisarvoltaan muita huomattavasti suurempi Tällaisia komponentteja kutsutaan ulkolaisiksi Ne ovat merkkejä joko siitä, että vastaava koe on virheellinen tai sitten siitä, että muut kokeet onkin tehty tilanteen kannalta huonolla alueella Ulkolaisten esiintyessä on aina selvitettävä, mistä ne johtuvat, sillä ANOVA on osoittautunut herkäksi ulkolaisten esiintymiselle Useinkaan ei ole selvää, onko poikkeava komponentti ulkolainen vai sattuman oikusta syntynyt poikkeava arvo Ulkolaisten tunnistamiseksi on erityisiä testejäkin Koska residuaalin i:nnen komponentin

33 5 MALLIN RIITTÄVYYS 3 varianssi on V (r i = σ 2 ( h ii, missä h ii on matriisin H := X(X T X X T i:s lävistäjäalkio, eräs tällainen testi on laskea ns studentoitu residuaali s2 ( h ii r i =: e i Satunnaismuuttuja e i on likimain standardinormaalisesti jakautunut, joten nyrkkisääntö on: jos e i on itseisarvoltaan 3, on syytä epäillä sitä ulkolaiseksi Korrelointi Vaikka ǫ:n komponentit olisivatkin normaalijakautuneita, voi niiden välillä olla korrelaatiota, ts ne eivät ole riippumattomia Asia paljastuu usein piirrettäessä r:n komponentit kokeiden fysikaalisen suoritusjärjestyksen funktiona Siksi järjestys on syytä olla satunnaistettu ja tallennettu Korrelointi näkyy tällaisesta kuvaajasta usein selvästi seuraavan kuvion tapaan, sillä se johtuu tällöin ajallisesta yhteydestä Residuaali ei saa korreloida muidenkaan muuttujien kanssa eikä erityisesti vasteen kanssa (tehtävä 4-3 Piirtämällä residuaali vs ennustettu vaste paljastuu usein mallin tämänkaltainen riittämättömyys Eo kuvio olisi nytkin hälyttävä Heterogeeninen varianssi Vaikkei epänormaalisuutta tai korrelaatiota esiinnykään, voi malli osoittautua riittämättömäksi vielä sen vuoksi, että ǫ:n komponenttien varianssit eivät ole samat Usein tämä näkyy piirrettäessä r:n komponentit suoritusjärjestyksen funktiona kuten edellä: hajonta on jossakin suurempaa kuin muualla Alla on neljä hälyttävää kuviota

34 32 LUKU REGRESSIO Esimerkki Tarkistamme kohdan 2 esimerkin lineaarisen mallin riittävyyden Kokeet tehtiin järjestyksessä (2, 9, 3, 0, 4, 7, 2,, 8, 6,, 5 Mallinnuksen tulokset ovat x x 2 y ŷ r h ii e Taulukon viimeisessä sarakkeessa olevat arvot ovat kaikki itseisarvoltaan reilusti alle 3, joten ulkolaisia ei näytä olevan Normaalitodennäköisyyskuvio on

35 5 MALLIN RIITTÄVYYS P r Residuaalin kuvaaja ennustetun vasteen funktiona on 2 r ŷ Mitään sen kummempaa merkkiä epänormaalisuudesta tai korrelaatiosta näistä kuvista ei paljastu Piirretään vielä residuaalin kuvaaja koejärjestyksen funktiona: 2 r järjestys Tiettyä huolta virheen varianssin kasvamisesta ajan kuluessa voisi tämän kuvan perusteella tuntea

36 34 LUKU REGRESSIO Harjoitustehtävät Tarkista tehtävän 3- mallin riittävyys 2 Tarkista tehtävän 3-3 mallin riittävyys 3 Todista residuaalin ja ennustetun vasteen riippumattomuus 4 Johda kaava V (r i = σ 2 ( h ii ja todista, että 0 h ii

37 Luku 2 KOKEIDEN SUUNNITTELU 2 Datan muunnokset Jos X = ( N D on N (k + -datamatriisi (jossa matriisi D on suunnittelumatriisi ja L on ei-singulaarinen (k + (k + -matriisi, jonka ensimmäinen sarake on (, 0,, 0 T, niin XL on myös N (k + -datamatriisi, joka sisältää saman informaation kuin X Tällainen muunnos on datan affiinimuunnos Matriisi affine L on siis muotoa ( l T L = 0 k K missä l on k-vektori ja K on ei-singulaarinen k k-matriisi, ja uusi datamatriisi on oikean muotoinen Koska, XL = ( N N l T + DK y = Xβ + ǫ = XLL β + ǫ, on uutta datamatriisia XL vastaava parametrivektori L β =: γ Edelleen pienimmän neliösumman keinon antama parametrivektorin γ estimaatti on g = ((XL T XL (XL T y = L (X T X (L T L T X T y = L b ja uusi ennustevektori on XLg = Xb = ŷ eli sama kuin vanha Näin ollen myöskin residuaali pysyy datan affiinimuunnoksessa samana ja itse asiassa kaikki neliösummat SSE, SST ja SSR sekä vastaavat keskineliöt pysyvät samana Mallin merkitsevyys ei siis muutu Toisaalta V (g = σ 2 ((XL T XL = σ 2 L (X T X (L T 35 transformation

38 36 LUKU 2 KOESUUNNITTELUT voi hyvinkin olla edullisempaa muotoa kuin V (b, ts g:n komponenttien välillä voi olla vähemmän korrelaatiota kuin b:n komponenttien välillä ja niiden varianssit voivat olla pienempiä kuin b:n komponenttien varianssit Tavallinen ensimmäisen kertaluvun mallin datan affiinimuunnos on skaalaus, jota vastaava matriisi K on lävistäjämatriisi, K = /p /p k jonka lävistäjäalkiot ovat nollasta eroavia Selittäjä x i korvautuu skaalauksessa selittäjällä x i p i + l i, missä l i on vektorin l i:s alkio Skaalaus ei vaikuta mallin ensimmäisen kertaluvun termien merkitsevyyteen, sillä yhtälöstä γ i = p i β i ( i k seuraa, että hypoteesi H 0 : β i = 0 on yhtä kuin hypoteesi H 0 : γ i = 0 Skaalauksen tarkoituksena on, paitsi vaihtaa selittävien muuttujien asteikot sopivammiksi, muuntaa keinotekoisesti selittävät muuttujat tyypillisten arvojensa suhteen samaan asemaan Tyypillisten arvojen kokoero saattaa nimittäin alunperin olla monia dekadeja, mikä aiheuttaa mm numeerista epätarkkuutta laskuissa Tällöin suoritetaan ensin skaalaus ja vasta sitten mallin sovitus Erityinen skaalauksen muoto on datan standardointi, jossa p i on x i :n otoshajonta ja l i on x i :n otosvariaatiokertoimen vastaluku, ts valitaan, p i = N (x ji x i 2 ja l i = x i /p i, N j= missä x i on x i :n otoskeskiarvo Matriisimuodossa: p i = (D T M N D ii, l T = N T N DK Jos data on kunkin faktorin osalta tasavälistä, käytetään usein koodausta, joka myös on eräs skaalauksen muoto Tällöin p i = max(x i,,x Ni min(x i,, x Ni 2 l i = min(x i,,x Ni + max(x i,, x Ni p i 2 Lähinnä koodausta käytetään tilanteessa, missä kullakin faktorilla on kaksi tasoa tai kolme tasavälistä tasoa, sillä tällöin koodatut arvot ovat {, } tai {0,, }

39 2 DATAN MUUNNOKSET 37 Esimerkki Suorita standardointi ja koodaus kohdan 2 esimerkin datalle ja sovita malli ensin standardoituun ja sitten koodattuun dataan Ratkaisu Standardointia varten lasketaan aluksi ensimmäisen asteen faktorien keskiarvot: x = N x 2 = N N i= N i= x i = ( = 050, 2 x i2 = ( = ja otoshajonnat: p s = p s2 = N ( (07 05 (x j x N 2 = 2 = 02, 2 j= N ( (9 5 (x j2 x 2 N 2 = 2 = 34 2 j= Vektorin l s komponentit: K s -matriisi ja l s -vektori: l s = x 2 /p s2 = 500/34 = 47 ( /ps 0 K s = 0 /p s2 = ( / /34 = ( ( 240, l s = 47 Saadaan matriisi L s : L s = ( l T s 0 2 K s =

40 38 LUKU 2 KOESUUNNITTELUT Standardoidaan datamatriisi: X s = XL s = = Matriisi C s on harvempi kuin alkuperäisellä datalla: C s = (X T s X s = Lasketaan parametrien estimaatit: b s = C s X T s y = Virhetermin varianssin σ 2 estimaatti: SSE s = (y X s b s T (y X s b s = 930, s 2 s = SSE s N k = 03 Estimoidut parametrien keskihajonnat: se(b s0 = s 2 sc s00 = = 029, se(b s = s 2 s c s = = 030, se(b s2 = s 2 s c s22 = = 030 Koodaus: p c = max(x,,x N min(x,,x N 2 = = 02,

41 2 DATAN MUUNNOKSET 39 p c2 = max(x 2,,x N2 min(x 2,,x N2 2 l c = p min(x,,x N + max(x,, x N 2 l c2 = p 2 min(x 2,,x N2 + max(x 2,,x N2 2 K c -matriisi ja l c -vektori: ( /pc 0 K c = = 0 /p c ( / /4 = ( = 9 = 4, 2 = = 25, = + 9 = ( 25, l c = 25 Saadaan matriisi L c : L c = ( l T c 0 2 K c = Koodataan datamatriisi: X c = XL c = = Matriisi C c on harvempi kuin alkuperäisellä datalla: C c = (X T c X c = Lasketaan parametrien estimaatit: b c = C c X T c y =

42 40 LUKU 2 KOESUUNNITTELUT Virhetermin varianssin σ 2 estimaatti: SSE c = (y X c b c T (y X c b c = 930, s 2 c = SSE c N k = 03 Estimoidut parametrien keskihajonnat: se(b c0 = s 2 cc c00 = = 029, se(b c = s 2 c c c = = 029, se(b c2 = s 2 cc c22 = = 036 Esitetään vielä alkuperäinen, standardoitu ja koodattu data vierekkäin: Harjoitustehtävät alkuperäinen standardoitu koodattu x x 2 x x 2 x x Kohdan 3 esimerkissä JMP ohjelma vaihtaa automaattisesti mallin y = β 0 + β x + β 2 x 2 + β 2 x x 2 + β 22 x β 22x x ǫ muotoon y = γ 0 + γ x + γ 2 x 2 + γ 2 (x x (x 2 x 2 + γ 22 (x 2 x γ 22 (x x (x 2 x ǫ Muodosta käytetty affiinimuunnoksen matriisi L ja tarkista, että hypoteesien H 0 : γ 22 = 0 ja H 0 : β 22 = 0 testisuureet ovat samat 2 Tehtävässa 3 oli annettu mittaustulokset eräälle transistorien valmistukseen liittyvälle koesarjalle Data oli koodattu Ensimmäisen alkuperäisen faktorin vaihtelukeskipiste on 225 ja toisen , vastaavat vaihteluvälit ovat 60 sekä

43 22 ORTOGONAALISUUS JA KIERTOSYMMETRISYYS 4 (a Muodosta käytetty skaalausmatriisi L ja etsi sitä käyttäen alkuperäinen datamatriisi X (b Laske (X T X ja vertaa sitä koodatun datan vastaavaan matriisiin (c Laske alkuperäisen mallin parametrit 22 Ortogonaalisuus ja kiertosymmetrisyys Suunnittelun sanotaan olevan ortogonaalinen, jos X T X on lävistäjämatriisi Lause 2 Suunnittelu on ortogonaalinen täsmälleen silloin, kun i D T D on lävistäjämatriisi ja ii T N D = 0T k, eli D:n sarakesummat ovat nollia Toisin sanoen, suunnittelu on ortogonaalinen täsmälleen silloin, kun faktoreita vastaavat sarakkeet ovat kohtisuorassa toisiaan vastaan ja myös vektoria N vastaan Todistus Koska X T X = ( T N D T ( T N D = ( N T N D D T N D T D, niin ilmeisesti X T X on lävistäjämatriisi tarkalleen silloin, kun ehdot (i ja (ii toteutuvat Ortogonaalista suunnittelua käytettäessä V (b = σ 2 (X T X on lävistäjämatriisi, ts parametriestimaatit b 0,,b k ovat riippumattomat Edelleen tällöin käänteismatriisin C = (X T X laskeminen on helppoa ja tarkkaa Ortogonaalinen suunnittelu on optimaalinen seuraavassa mielessä Koodatun datamatriisin sarakkeet x i toteuttavat epäyhtälön x i 2 N (0 i k Voidaan näyttää (kts harjoitustehtävä, että c ii x i 2 (0 i k, ja tätä epäyhtälöä käyttäen saadaan alaraja regressiomallin parametrien varianssien summalle: V (b i = σ 2 trace(c = c ii x i 2 k + N i i i

44 42 LUKU 2 KOESUUNNITTELUT Tämä alaraja saavutetaan, kun suunnittelu on ortogonaalinen ja kaikki data-arvot ovat tai Ensimmäisen kertaluvun mallin suunnittelun sanotaan olevan kiertosymmetrinen, jos matriisi X T X säilyy samana, kun dataan tehdään mielivaltainen ortogonaalinen muunnos, ts X T X on koordinaatistosta riippumaton Ortogonaalinen muunnos on sama, kuin muotoa ( 0 T Q = k 0 k K rotatable oleva affiinimuunnos, missä K on k k-ortogonaalimatriisi Lause 22 Suunnittelu on kiertosymmetrinen täsmälleen silloin, kun (i D:n sarakesummat ovat nollia, ts T N D = 0T k ja (ii D T D on muotoa λi k, missä λ on vakio Todistus Oletetaan, että suunnittelu on kiertosymmetrinen Sovelletaan mielivaltaista ortogonaalimuunnosta: ( ( 0 (XQ T XQ = Q T X T T XQ = k T N ( N D ( 0 T k 0 k K T D T 0 k K ( ( 0 T = k N T ( N D 0 T k 0 k K T D T N D T D 0 k K ( N T N = D ( 0 T k K T D T N K T D T D 0 k K ( N T N = DK K T D T N K T D T DK Jotta tämä olisi on oltava X T X = ( N T N D D T N D T D K T D T N = D T N ja K T D T DK = D T D, olipa K mikä tahansa ortogonaalimatriisi Mutta, jotta kaikki ortogonaalimuunnokset pitäisivät D T N :n samana, pitää sen olla = 0 k, ts (i pätee Toisaalta D T D on symmetrinen matriisi, joten se on diagonalisoitavissa ortogonaalimuunnoksella Näin ollen D T D:n on oltava valmiiksi lävistäjämatriisi,

45 22 ORTOGONAALISUUS JA KIERTOSYMMETRISYYS 43 Silloin taas D T D:n lävistäjäalkiot voidaan permutoida mielivaltaiseen järjestykseen ortogonaalimuunnoksella Näin ollen lävistäjäalkioiden on oltava samoja Siispä myös (ii pätee Selvästi suunnittelu on kiertosymmetrinen, jos (i ja (ii pätevät Kiertosymmetrisessä suunnittelussa ei ole mahdollista parantaa mallia siirtymällä uusiin koordinaatteihin, ts esimerkiksi V (b pysyy samana Malli ei voi tällöin myöskään huonontua Erityisesti ennusteen varianssi ( V (ŷ = σ 2 ξ T (X T X ξ = σ 2 N + ξ2 + + ξk 2 λ riippuu vain datavektorin ξ pituudesta Tästä itse asiassa tulee nimi kiertosymmetrinen : ennusteen varianssi ei riipu suunnasta Lauseista 2 ja 22 seuraa, että jokainen kiertosymmetrinen suunnittelu on myös ortogonaalinen, mutta ei kääntäen Tärkeä ortogonaalisten/kiertosymmetristen suunnittelujen ominaisuus on se, että niistä faktoreita poistamalla eli typistämällä saadut suunnittelut ovat myös ortogonaalisia/kiertosymmetrisiä (Tämä seuraa varsin suoraan yo lauseista Esimerkki Selvitä, ovatko edellisessä esimerkissä lasketut datat ortogonaalisia tai kiertosymmetrisiä Ratkaisu Suunnittelumatriisit ovat D = , D s = , D c =

46 44 LUKU 2 KOESUUNNITTELUT Data on ortogonaalista mikäli X T X on lävistäjämatriisi Lasketaan nämä matriisit: X T X = , X T s X s = , X T c X c = Nähdään, että standardoitu ja koodattu data ovat ortogonaalisia, mutta alkuperäinen ei Kiertosymmetrisyyden ensimmäinen ehto on T N D = 0T k : T ND = ( , T N D s = ( , T N D c = ( Alkuperäinen data ei siis ole kiertosymmetristä, muiden osalta on tarkistettava toinen ehto D T D = λi k : D T s D s = ( , D T c D c = ( Vain standardoitu data on tässä tapauksessa kiertosymmetristä Tarkastellaan asiaa vielä kuvista, joissa on piirretty V (ŷ:n tasa-arvo käyrät:

47 22 ORTOGONAALISUUS JA KIERTOSYMMETRISYYS 45 9 Alkuperainen Standardoitu Koodattu x 2 5 x 2 0 x x 0 x 0 x Kiertosymmetrisessä standardoidussa datassa käyrät ovat origokeskeisiä ympyröitä, eli varianssi riippuu vain datavektorin ξ pituudesta Alkuperäisellä ja koodatulla datalla suunnallakin on merkitystä Harjoitustehtävät (a Olkoot x ja y k + -vektoreita ja C symmetrinen positiividefiniitti matriisi Johda epäyhtälö (x T Cx(y T C y x T y 2 (Vihje: matriisilla on symmetrinen positiividefiniitti neliöjuuri C /2, ja Cauchyn epäyhtälö on x T y x y (b Todista tekstin epäyhtälö c ii x i 2 (Vihje: edellisen kohdan erikoistapaus on e T i (XT X e i Xe i 2, missä e i on identiteettimatriisin I k+ i:s sarake (c Todista Nh ii, missä h ii on matriisin H := X(X T X X T i:s lävistäjäalkio 2 Paljon käytetty kahden faktorin koetyyppi on ns monikulmiokoe Vastaavia equiradial design ns monitahokaskokeita on myös suuremmille faktorimäärille Valitettavasti vain säännöllisiä monitahokkaita on äärellinen määrä R 3 :ssa viisi, R 4 :ssä kuusi ja muissa vain kolme joten idea on yleiskäyttöinen vain dimensiossa 2 Monikulmiokokeen datamatriisi on N 3-matriisi, missä 2 ja 3 sarake muodostuvat sellaisen origokeskisen säännöllisen R-säteisen N-kulmion (N 3 kärkien koordinaateista R 2 :ssa, jonka yksi kärki on positiivisel-

48 46 LUKU 2 KOESUUNNITTELUT la x -akselilla: x l = R cos 2πl N ja x l2 = R sin 2πl N (l = 0,,N, kompleksitasossa x l + ix l2 = Re l N 2πi (l = 0,,N (i on imaginääriyksikkö Tietysti data viedään jälleen käytännön mittauksia varten sopivalla käänteisellä skaalauksella L reaalimaailmaan Näytä, että monikulmiokoe on kiertosymmetrinen (Vihje: Laske summat N l=0 Re l N 2πi sekä N (Re l N 2πi 2 l=0 ja tarkastele reaali- ja imaginääriosia Usein monikulmiokokeeseen lisätään keskustoistoja origossa epäsopivuustestiä varten Ne parantavat tilannetta myös muuten, jos mukana on toisen kertaluvun faktoreita, kuten usein on toistoja pitää olla silloin nimenomaan N kappaletta Keskustoistot eivät hävitä kiertosymmetrisyyttä 23 Simplex-koe saturated design Suunnittelua, missä kokeiden lukumäärä N on sama kuin lineaarisen mallin parametrien lukumäärä k+, kutsutaan kyllästetyksi Silloin kyseessä on interpolaatio, ja mallin sopivuus on täydellinen Ensimmäsen kertaluvun mallin kiertosymmetrinen kyllästetty suunnittelu, joka toteuttaa ehdon X T X = (k + I k+, kutsutaan simplex-kokeeksi Se voidaan muodostaa seuraavasti: Valitse ei-singulaarinen (k + (k + matriisi W, jonka ensimmäinen sarake on k+ 2 Laske sen QR-hajotelma W = QR, missä Q on ortogonaalimatriisi ja R on yläkolmiomatriisi 3 Valitse X = ± k + Q, missä merkki valitaan niin, että datamatriisin ensimmäinen sarake on k+

49 23 SIMPLEX-KOE 47 Simplex-kokeen suunnittelumatriisi muodostuu origokeskisen k + -kärkisen monitahokkaan eli simpleksin koordinaateista R k :ssa Esimerkiksi R 2 :ssa tällainen simpleksi on tasasivuinen origokeskinen kolmio Sama tasasivuinen kolmio syntyy R 3 :een leikattaessa ensimmäistä oktanttia tasolla x 2 x + y + z = a 2 a a a x Rotaatiolla saadaan kolmio x x 2 -tason suuntaiseksi, jolloin sen kärkien ensimmäiset koordinaatit ovat samat: x 2 x 0 a a x x 0 a Kolmion kärjet origoon yhdistävät janat ( ( a 6, 0, a a 3, 6, a 2, a, 2 ( a 6, a 2, a 2 ovat edelleen kohtisuorassa toisiaan vastaan (ortogonaalisuus Asettamalla a = 6 saadaan datamatriisi X = 0 2/ 2 3/2 / 2 3/2 / 2, joka toteuttaa X T X = 3I 3 Käytännössä simplex-data muunnetaan sopivalle asteikolle skaalauksella Koe suoritetaan skaalatulla datalla, mutta mallina käytetään simplex-datan mallia, josta haluttaessa voidaan päästä skaalauksella reaalimaailmaan Suunnittelua voidaan haluttaessa typistää, ts ottaa mukaan pienempi määrä faktoreita Kuten edellä todettiin, tämä ei poista ortogonaalisuutta eikä kiertosymmetrisyyttä Typistetty simplex-koe ei ole kyllästetty, joten voidaan tehdä t-testejä ja ANOVAa Erikoistapaus simplex-kokeesta on ns Plackettin ja Burmanin koe Datamatriisi on tällöin (mahdollisen koodauksen jälkeen alkioista ± koostuva (k + (k + -matriisi X, joka toteuttaa ehdon X T X = (k + I k+

50 48 LUKU 2 KOESUUNNITTELUT Tällaista ±-matriisia X kutsutaan Hadamardin matriisiksi Hadamardin matriisi on standardimuodossa, jos sen ensimmäinen sarake on ja ensimmäinen rivi T (Jokainen Hadamardin matriisi voidaan saattaa tällaiseksi kertomalla sen rivejä ja sarakkeita sopivasti :llä Tämä säilyttää Hadamardin ominaisuuden, kuten voi todeta Hadamardin m m-matriisilla H on seuraavat ominaisuudet: (i Standardimuotoisen Hadamardin matriisin sarakesummat ensimmäistä saraketta lukuunottamatta ovat = 0, ts sarakkeissa on yhtä monta +:tä ja :tä (ii Joko m = 2 tai sitten m on neljällä jaollinen luku (iii H:n kahden rivin välinen etäisyys on aina 2m Tästä ja kohdasta (i seuraa, että Plackettin ja Burmanin koe on simplex-koe, koska rivin ensimmäinen alkio on Nämä ominaisuudet ovat kutakuinkin helposti todettavissa (harjoitustehtävä 2 2 Hadamardin matriisi on ( 2 2 ja Hadamardin matriisit ovat ja, missä musta ruutu tarkoittaa ja valkoinen ruutu Jo saaduista Hadamardin matriiseista saa uusia isompia Hadamardin matriiseja ns Kroneckerin tuloa käyttämällä Yleisesti n m -matriisin A = a a m a n a n m ja n 2 m 2 -matriisin B Kroneckerin tulo on n n 2 m m 2 -matriisi a B a m B A = =: A B a n B a n m B

Näytä lisää