TILASTOLLINEN KOKEIDEN SUUNNITTELU JA OTANTA. Keijo Ruohonen



Samankaltaiset tiedostot
Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi ja vasteen optimointi

Regressioanalyysi. Kuusinen/Heliövaara 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

1 Matriisit ja lineaariset yhtälöryhmät

Ratkaisuehdotukset LH 7 / vko 47

Inversio-ongelmien laskennallinen peruskurssi Luento 2

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

Mat Tilastollisen analyysin perusteet, kevät 2007

Kohdeyleisö: toisen vuoden teekkari

Harjoitusten 5 vastaukset

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Ortogonaalinen ja ortonormaali kanta

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

Ortogonaalisen kannan etsiminen

Moniulotteisia todennäköisyysjakaumia

MS-A0004/A0006 Matriisilaskenta

Sovellettu todennäköisyyslaskenta B

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

Neliömatriisi A on ortogonaalinen (eli ortogonaalimatriisi), jos sen alkiot ovat reaalisia ja

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

MS-A0003/A Matriisilaskenta Laskuharjoitus 6

Ominaisarvoon 4 liittyvät ominaisvektorit ovat yhtälön Ax = 4x eli yhtälöryhmän x 1 + 2x 2 + x 3 = 4x 1 3x 2 + x 3 = 4x 2 5x 2 x 3 = 4x 3.

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Luento 8: Epälineaarinen optimointi

Vektorien pistetulo on aina reaaliluku. Esimerkiksi vektorien v = (3, 2, 0) ja w = (1, 2, 3) pistetulo on

2. Teoriaharjoitukset

Vastepintamenetelmä. Kuusinen/Heliövaara 1

1 Rajoittamaton optimointi

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Vastepintamenetelmä. Heliövaara 1

Matriisi-vektori-kertolasku, lineaariset yhtälöryhmät

Talousmatematiikan perusteet: Luento 13. Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu

9 Matriisit. 9.1 Matriisien laskutoimituksia

MS-C1340 Lineaarialgebra ja

Vapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0.

Matematiikka B2 - Avoin yliopisto

Matriisilaskenta Laskuharjoitus 5 - Ratkaisut / vko 41

Numeeriset menetelmät TIEA381. Luento 6. Kirsi Valjus. Jyväskylän yliopisto. Luento 6 () Numeeriset menetelmät / 33

Inversio-ongelmien laskennallinen peruskurssi Luento 3

Harjoitusten 4 vastaukset

Paikannuksen matematiikka MAT

Insinöörimatematiikka D

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Harjoitus 9: Excel - Tilastollinen analyysi

Testejä suhdeasteikollisille muuttujille

Johdatus regressioanalyysiin. Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Lineaariset mollit, kl 2017, Harjoitus 1

MS-A0003/A0005 Matriisilaskenta Malliratkaisut 5 / vko 48

MS-C1340 Lineaarialgebra ja

Talousmatematiikan perusteet: Luento 11. Lineaarikuvaus Matriisin aste Käänteismatriisi

Johdatus tekoälyn taustalla olevaan matematiikkaan

7 Vapaus. 7.1 Vapauden määritelmä

Kurssin loppuosassa tutustutaan matriiseihin ja niiden käyttöön yhtälöryhmien ratkaisemisessa.

Käänteismatriisin ominaisuuksia

Yleistetyistä lineaarisista malleista

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

1 Ominaisarvot ja ominaisvektorit

Insinöörimatematiikka D

Lineaarialgebra ja matriisilaskenta II. LM2, Kesä /141

Similaarisuus. Määritelmä. Huom.

Ominaisarvo ja ominaisvektori

Yhtälön oikealla puolella on säteen neliö, joten r. = 5 eli r = ± 5. Koska säde on positiivinen, niin r = 5.

Matriisihajotelmat. MS-A0007 Matriisilaskenta. 5.1 Diagonalisointi. 5.1 Diagonalisointi

6 MATRIISIN DIAGONALISOINTI

Matematiikka B2 - TUDI

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

Talousmatematiikan perusteet: Luento 10. Lineaarikuvaus Matriisin aste Determinantti Käänteismatriisi

Inversio-ongelmien laskennallinen peruskurssi Luento 4

Todennäköisyyden ominaisuuksia

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

BM20A0700, Matematiikka KoTiB2

4.0.2 Kuinka hyvä ennuste on?

3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Dynaamiset regressiomallit

Vektoreiden virittämä aliavaruus

Numeeriset menetelmät

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Numeeriset menetelmät TIEA381. Luento 5. Kirsi Valjus. Jyväskylän yliopisto. Luento 5 () Numeeriset menetelmät / 28

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Luento 8: Epälineaarinen optimointi

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Matriisien tulo. Matriisit ja lineaarinen yhtälöryhmä

Ennakkotehtävän ratkaisu

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Lohkoasetelmat. Heliövaara 1

Transkriptio:

TILASTOLLINEN KOKEIDEN SUUNNITTELU JA OTANTA Keijo Ruohonen 2000

Sisältö I REGRESSIO Regressiomalli 2 2 Mallin estimointi ja käyttö 7 3 Varianssianalyysi (ANOVA) 2 4 Mallin epäsopivuuden testaus toistokokein 6 5 Datan affiinimuunnokset Ortogonaalisuus ja kiertosymmetrisyys 22 6 Esimerkki ortogonaalisesta kertaluvun suunnittelusta: Simplex-koe, Plackett Burman-koe 25 7 2 k -kokeet: Katsaus 27 8 Toisen kertaluvun regressiomalli 3 9 Ortogonalisoituvia toisen kertaluvun malleja: 3 k -kokeet, CCD-kokeet 34 II VASTEEN OPTIMOINTI 34 2 Yleistä 34 22 Regressiomenetelmä 39 23 Nelder Mead-algoritmi 40 III KVALITATIIVISET FAKTORIT 40 3 Yksisuuntainen ANOVA 44 3 Parametrien estimointi 45 32 Hypoteesien testaus Kontrastit 47 33 Yhdistettyjä testejä 5 34 Mallin riittävyys 55 32 Monisuuntainen ANOVA 55 32 Satunnaistetut lohkot 63 322 Roomalaiset neliöt 7 IV MONEN MUUTTUJAN PIENOTANTA 7 4 Satunnaisotanta 75 42 Ositettu otanta 83 43 Yksiasteinen otanta Systemaattinen otanta 87 LIITE A: Matriisilaskentaa 9 LIITE B: Multinormaalijakauma 92 Kirjallisuutta 93 Hakemisto i

ii Esipuhe Tämä moniste on tarkoitettu TTKK:n kurssin 7364 Tilastollinen kokeiden suunnittelu perusmateriaaliksi Pääsisältönään se esittelee kvantitatiivisen kokeiden suunnittelun perusteet modernin vastepintaformalismin avulla käsiteltynä Esityksen pohjana on paljolti kirja KHURI & CORNELL Myös useita suunnittelukaavioita on esillä esimerkinomaisesti (Lisää niitä löytyy mainitusta kirjasta ja muusta kirjallisuudesta) Monisteessa käsitellään myös kvalitatiivista kokeiden suunnittelua, pohjana paljolti kirja MONTGOMERY Koska tämän aihepiirin merkitys on nähdäkseni vähenemässä, varsinkin tekniikassa, on kyseessä lähinnä vain katsaus Niin teoria kuin menetelmätkin esitetään kauttaaltaan matriisiformalismin avulla, jolloin ne ovat suoraan kokeiltavissa ja sovellettavissa esimerkiksi Matlab-ohjelmistoa käyttäen (Koeajot menetelmistä esitetään monisteessa kuitenkin Systat-ohjelmistolla tehtyinä ja Matlab-ajot jäävät esimerkkeihin ja harjoituksiin) Esityksen esikuvana on ollut ekonometrian klassikon JOHNSTONin tyylikäs matriisimuotoinen esitys Todettakoon, että matriisi- ja lineaarialgebraformalismi on ollut tilastollisten monimuuttujamenetelmien pelastus Ilman sitä asian esitys on huomattavan kankeaa, kuten alan vanhemmista oppikirjoistakin voi havaita (esimerkkinä vaikka GUENTHER) Monisteen lopussa on tiivis esitys monen muuttujan pienotantamenetelmistä matriisimuodossa Sitä ei ehdittäne käymään kurssilla läpi Alan kirjallisuudessa ei tällaista esitystä juuri ole (erinäisiä artikkeleita ja raportteja lukuunottamatta), vaikka otanta nykyisin on usein moniulotteista Vanhat klassikotkin (kuten esimerkiksi COCHRAN) käsittelevät vain yhden muuttujan otantaa Liitteinä on annettu eräitä matriisilaskentaa ja multinormaalijakaumaa koskevia tuloksia Esitietona tilastomatematiikan peruskurssit sekä insinöörimatematiikan suorittaneille myös kurssi 7309 Matriisilaskenta ovat kuitenkin tarpeen Keijo Ruohonen

Luku REGRESSIO Regressiomalli (Kertaa kurssilta Tilastomatematiikka tai Laaja matematiikka 4) Mallinnustilanteessa suure y riippuu suureista x,,x k tunnetun tai tuntemattoman funktion Φ kautta, ts y =Φ(x,,x k ) y on tällöin ns vaste eli selitettävä muuttuja ja x,,x k ovat ns faktoreita eli selittäviä muuttujia Faktoreiden arvoja kutsutaan tasoiksi Φ on ns todellinen vastefunktio Φ on yleensä tuntematon tai sitten niin mutkikas, ettei sitä voida sellaisenaan käyttää Niinpä Φ:n tilalle otetaan sitä approksimoiva funktio, jossa esiintyy parametrejä, esimerkiksi monen muuttujan polynomi, jonka kertoimet ovat parametrejä Approksimoitaessa malli ei enää ole tarkka Lisäksi käytännössä esiintyy mittaus- ym virheitä Jos Φ:tä approksimoiva funktio on f, niin malli on muotoa y = f(x,,x k )+ɛ, missä ɛ on virhetermi Tilastollisessa regressiossa ɛ katsotaan satunnaismuuttujaksi, jolla on N(0,σ 2 )-jakauma (Odotusarvo on 0, sillä systemaattinen virhe voidaan sisällyttää funktioon f(x,,x k )) Jos siis esimerkiksi f on ensimmäisen asteen polynomi, on malli muotoa y = β 0 + β x + + β k x k + ɛ missä β 0,β,,β k ovat parametrit Kyseessä on ensimmäisen kertaluvun regressiomalli Jos merkitään β 0 x β x = x k ja β = voidaan tällainen kertaluvun regressiomalli kirjoittaa muotoon y = x T β + ɛ Yleisesti d:nnen kertaluvun regressiomalli on muotoa y = p(x,,x k )+ɛ oleva malli, missä p on muuttujien x,,x k d:nnen asteen polynomi, jonka kertoimet ovat parametrejä Polynomin p ei tarvitse sisältää kaikkia mahdollisia termejä Itse asiassa polynomiaalinen regressio voidaan palauttaa kertaluvun regressioksi seuraavalla tempulla: β k,

LUKU REGRESSIO 2 Otetaan kutakin polynomissa p esiintyvää korkeampaa kuin ensimmäisen asteen termiä, esimerkiksi termiä β 33 x x 2 3,kohti uusi muuttuja z 33 2 Kirjoitetaan z 33 :n arvoksi x x 2 3:n arvo 3 Valitaan z 33 :n kertoimeksi eli parametriksi β 33 Tällainen malli on lineaarinen, ts parametriensä lineaariyhdelmä + virhetermi 2 Mallin estimointi ja käyttö (Kertaa kurssilta Tilastomatematiikka tai Laaja matematiikka 4) Malli saadaan käyttöön, kun ensin on saatu kokeiden tuloksena tietty määrä faktorien arvoyhdelmiä ja niitä vastaavat vasteen arvot Tällaisen kerätyn datan avulla voidaan mallia käyttää a) vasteen arvon ennustamiseen sellaisille faktorien arvoyhdelmille, joita vastaavia kokeita ei ole tehty Tätä varten estimoidaan datan avulla mallin parametrit b) erilaisten faktoreita koskevien hypoteesien testaamiseen Esimerkiksi kertaluvun regressiossa hypoteesi β =0tarkoittaisi sitä, että faktorilla x ei ole vaikutusta vasteeseen c) virheen ɛ varianssin estimointiin d) antamaan tietoa siitä minkälaista uutta dataa on kerättävä, esimerkiksi vasteen maksimiarvon löytämiseksi Jne Jos data on jo kerätty tai siihen ei muuten voida vaikuttaa, ei kokeiden suunnittelua tarvita Muussa tapauksessa, erityisesti jos datan keruu on kallista, vaarallista tai muuten hankalaa, tarvitaan kokeiden suunnittelua Kokeiden suunnittelun tarkoituksena on mahdollisimman pienen datan avulla saada sovelletuksi mallia halutulla tavalla Katsotaan lähemmin parametrien estimointiin, ennustamiseen ja σ 2 :n estimointiin liittyviä käsitteitä Tarkastellaan tässä kertaluvun mallia, joihin siis polynomiaalisetkin mallit voidaan palauttaa Tavallisin estimointitapa on pienimmän neliösumman keino Se on kätevintä esittää matriisiformalismin avulla Datana on kerätty N kappaletta faktorien arvoyhdelmiä sekä niitä vastaavat vasteen arvot: faktorit vaste x,,x k y x 2,,x 2k y 2 x N,,x Nk y N Näistä muodostetaan ns datamatriisi X sekä vastevektori y: x x 2 x k x 2 x 22 x 2k X =, y = x N x N2 x Nk Pienimmän neliösumman keinossa valitaan parametrit β siten, että y Xβ 2 =(y Xβ) T (y Xβ) y y 2 y N

LUKU REGRESSIO 3 minimoituu Gradientti β:n suhteen on 2X T (y Xβ) ja merkitsemällä se nollavektoriksi saadaan lineaarinen yhtälöryhmä X T Xβ = X T y, josta ratkaistaan β: β =(X T X) X T y = merk b = Tällöin tietysti oletetaan, että X T X on ei-singuläärinen ja erityisesti että N k + X T X ja (X T X) ovat symmetrisiä matriiseja Koska kertaluvun malli on muotoa y = x T β + ɛ, liittyvät vastevektori ja datamatriisi toisiinsa yhtälöllä y = Xβ + ɛ, ɛ = missä ɛ on satunnaisvektori Satunnaismuuttujat ɛ,ɛ 2,,ɛ N ovat riippumattomia (sillä kokeet suoritetaan toisistaan riippumattomasti) ja niillä on kullakin N(0,σ 2 )-jakauma Satunnaisvektorilla ɛ on siis N(0,σ 2 I N )-multinormaalijakauma Koska ɛ on satunnaisvektori, niin samoin on y = Xβ + ɛ sekä edelleen ɛ ɛ 2 ɛ N b 0 b b k, b =(X T X) X T y =(X T X) X T (Xβ + ɛ) =β +(X T X) X T ɛ Huomautus Vaikka ɛ:n komponentit ovat riippumattomia satunnaismuuttujia, eivät b:n komponentit sitä yleisesti ole Välittömästi todetaan nimittäin, että ja E(b) =E(β +(X T X) X T ɛ)=β +(X T X) X T E(ɛ) =β V (b) =V (β +(X T X) X T ɛ)=(x T X) X T V (ɛ)x(x T X) = σ 2 (X T X) Siispä b:llä on N(β,σ 2 (X T X) )-multinormaalijakauma ja sen komponentit ovat riippumattomat tarkalleen silloin, kun X T X on lävistäjämatriisi (jolloin myös (X T X) on lävistäjämatriisi) Kun b on saatu, voidaan muita faktorien tasoja x vastaava vasteen arvo ennustaa : ŷ =(x ) T b b on satunnaisvektori, joten ŷ on satunnaismuuttuja Edelleen E(ŷ) =(x ) T E(b) =(x ) T β ja V (ŷ) =(x ) T V (b)x = σ 2 (x ) T (X T X) x Ennustuksessa on usein mukana myös N(0,σ 2 )-jakautunut virhetermi ɛ, jolloin ŷ =(x ) T b + ɛ ja V (ŷ) = σ 2 (+(x ) T (X T X) x )

LUKU REGRESSIO 4 Erityisesti voidaan ennustaa datamatriisissa esiintyviä faktorien arvoyhdelmiä vastaavat vasteet: ŷ = Xb = X(X T X) X T y Erotus y ŷ = merk r on ns residuaalivektori, datan avulla lausuttuna r = y ŷ =(I N X(X T X) X T )y Ideaalisesti r:ssä on vain kohinaa eli ɛ:n vaikutus Residuaalivektorin pituuden neliö r 2 = r T r =(y Xb) T (y Xb) = merk SSE on ns residuaalin neliösumma Sen avulla saadaan σ 2 :n estimaatti (olettaen, että N>k+): s 2 SSE = N k Jos merkitään c 00 c 0 c 0k (X T X) c 0 c c k =, c k0 c k c kk niin V (b i )=σ 2 c ii Näin ollen V (b i ):n estimaatiksi käy s 2 c ii Käytetyin normaalisuusoletuksin suureilla b i β i s2 c ii = merk t i on t-jakaumat N k vapausasteella (jälleen oletetaan, että N > k + ) Tätä käyttäen voidaan testata parametriä β i koskeva hypoteesi H 0 : β i =0tai H 0 : β i 0 tai H 0 : β i 0 Kaksipuolisen testin tapauksessa vastahypoteesi on H : β i 0, yksipuoliselle testille se on H : β i < 0 tai H : β i > 0 H : β i 0 t-jakauman tiheysfunktio -t α/2 t α/2 H : β i < 0 t-jakauman tiheysfunktio -t α H : β i > 0 t-jakauman tiheysfunktio t α

LUKU REGRESSIO 5 Kun testin merkitsevyys (eli I tyypin virheen todennäköisyys) α = P (t i osuu varjostetulle alueelle, kun H 0 on tosi) on valittu ja etsitty vastaava taulukkopiste t α/2 tai t α,hyväksytään H 0, jos t i ei osu varjostetulle alueelle, muuten ei (ks edellisellä sivulla oleva kuva) Jos X T X ei ole lävistäjämatriisi, ovat b:n komponentit riippuvia ja yllä olevat testit ovat myös riippuvia Tällöin halutun yhtaikaisen merkitsevyyden saamiseksi voidaan käyttää esimerkiksi Bonferronin epäyhtälöä Jos taas X T X on lävistäjämatriisi, ovat b i :t riippumattomia ja samoin niitä koskevat testit Kaiken yllä olevan ja paljon muutakin tekevät nykyiset kehittyneemmät tilasto-ohjelmistot (esimerkiksi Systat, JMP, SAS, SPlus, Statistica ja SPSS) automaattisesti Myös Matlabia on helppo käyttää Ajetaan data x x 2 y 03 563 03 642 07 38 07 94 03 5 57 03 5 26 07 5 572 07 5 469 03 9 268 03 9 33 07 9 828 07 9 773 Systatilla Huomaa, että samaa faktorien tasoyhdelmää on aina käytetty kahdesti Tätä voidaan käyttää mallin sopivuuden testauksessa, josta lisää myöhemmin Malli on toista kertalukua: Käskyillä >USE rottasys VARIABLES IN SYSTAT FILE ARE: X X2 Y >model y=constant+x+x2+x*x2+x2*x2 >estimate saadaan tulostus y = β 0 + β x + β 2 x 2 + β 2 x x 2 + β 22 x 2 2 + ɛ DEP VAR: Y N: 2 MULTIPLE R: 989 SQUARED MULTIPLE R: 977 ADJUSTED SQUARED MULTIPLE R: 965 STANDARD ERROR OF ESTIMATE: 0769 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT 8428 72 0000 790 0000 X -2369 203-0633 02990654-6092 0000 X2 782 0347 489 0038465 540 000 X* X2-095 0340-00 0042345-0574 0584 X2* X2-0085 0029-073 00506329-2895 0023

LUKU REGRESSIO 6 ANALYSIS OF VARIANCE SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P REGRESSION 79293 4 44823 75729 0000 RESIDUAL 443 7 0592 Lisäämällä listaan käsky >print long saadaan täydellisempi tulostus EIGENVALUES OF UNIT SCALED X X 2 3 4 5 CONDITION INDICES 4352 0477 045 009 0007 2 3 4 5 000 302 5478 4967 25093 VARIANCE PROPORTIONS 2 3 4 5 CONSTANT 0002 008 0076 0239 0665 X 0002 0029 0037 0626 0306 X2 000 0002 0006 0020 097 X 0002 0003 027 0533 0335 X2 000 004 0007 0355 0623 DEP VAR: Y N: 2 MULTIPLE R: 989 SQUARED MULTIPLE R: 977 ADJUSTED SQUARED MULTIPLE R: 965 STANDARD ERROR OF ESTIMATE: 0769 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT 8428 72 0000 790 0000 X -2369 203-0633 02990654-6092 0000 X2 782 0347 489 0038465 540 000 X* X2-095 0340-00 0042345-0574 0584 X2* X2-0085 0029-073 00506329-2895 0023 CORRELATION MATRIX OF REGRESSION COEFFICIENTS CONSTANT X X2 X X2 CONSTANT 000 X -0866 000 X2-078 040 000 X 0725-0837 -0490 000 X2 0360 0000-0849 -0000 000 ANALYSIS OF VARIANCE SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P REGRESSION 79293 4 44823 75729 0000 RESIDUAL 443 7 0592 Huomautus Tarkasti laskettaessa kannattaa käyttää datamatriisin singulääriarvohajotelmaa (SVD) X = Q ΣQ T 2, sillä sen lasku on usein numeerisesti stabiilimpi kuin yhtälöryhmän ratkaisu tai käänteismatriisin (X T X) lasku (ks kurssi Matriisilaskenta ) Onhan nimittäin (X T X) = Q 2 (Σ T Σ) Q T 2 ja b = Q 2 Σ + Q T y = X + y SVD:n saa Matlabissa käyttöönsä komennolla [Q,S,Q2]=svd(X)Huomaa myös operaatio pinv

LUKU REGRESSIO 7 3 Varianssianalyysi (ANOVA) Varianssianalyysiä käyttäen voidaan testata ns lineaarisia hypoteeseja, ts muotoa H 0 : Aβ = d olevia hypoteeseja, missä A on q (k +)-matriisi, jonka rivirangi on täysi, ts sen rivit ovat lineaarisesti riippumattomat, ja d on q-vektori Vielä oletetaan, että q<k+ Valitsemalla A ja d sopivasti saadaan hyvinkin monenlaisia testejä Vastahypoteesi on H : Aβ d Hypoteesintestauksen perustulos on Lause Jos H 0 on tosi, niin (aiemmin mainituin normaalisuusoletuksin) suureella 2 (Ab d) T (A(X T X) A T ) (Ab d)(n k ) qsse on F-jakauma vapausastein q ja N k (taas kerran olettaen, että N>k+) Todistus (Tämä vaatii kurssin Laaja tilastomatematiikka tietoja) Ensinnäkin b ja r ovat riippumattomia Näin ollen ovat myös (Ab d) T (A(X T X) A T ) (Ab d) ja SSE = r T r riippumattomat Edelleen suureella SSE on χ 2 -jakauma N k vapausasteella Vielä pitää σ 2 näyttää, että (Ab d) T (A(X T X) A T ) (Ab d):llä on χ 2 -jakauma q vapausasteella, σ 2 kun H 0 on tosi Koska b:llä on N(β,σ 2 (X T X) )-jakauma, on Ab d:llä N(Aβ d,σ 2 A(X T X) A T )- jakauma eli N(0 q,σ 2 A(X T X) A T )-jakauma Selvästi A(X T X) A T on symmetrinen ja positiivisemidefiniitti Koska A:lla on täysi rivirangi ja X T X on ei-singuläärinen, on myös A(X T X) A T ei-singuläärinen ja siis positiividefiniitti Schurin lauseen mukaan se voidaan kirjoittaa muotoon A(X T X) A T = QΛQ T, missä Q on ortogonaalimatriisi ja Λ on lävistäjämatriisi, jonka lävistäjällä ovat A(X T X) A T :n (positiiviset) ominaisarvot Näin ollen on (A(X T X) A T ) :llä neliöjuuri Q Λ Q T = merk B,missä lävistäjämatriisi Λ saadaan Λ :stä ottamalla sen lävistäjäalkioista neliöjuuret Ilmeisesti B on symmetrinen ei-singuläärinen matriisi Nyt B(Ab d) on N(0 q,σ 2 BB 2 B T )-jakautunut eli N(0 q,σ 2 I q )-jakautunut Suureella σ (Ab 2 d)t (A(X T X) A T ) (Ab d) = σ (B(Ab 2 d))t B(Ab d) on näin ollen χ 2 (q)-jakauma Hypoteesin testaaminen sujuu tavalliseen tapaan Merkitsevyys α kiinnitetään Jos testisuure osuu varjostetulle häntäalueelle (ks alla oleva kuva), hylätään H 0 Mitä huonommin H 0 pitää paikkansa, sitä suurempi pyrkii Ab d ja F-testisuure olemaan F-jakauman tiheysfunktio F α 2 Jos q =,voidaan muodostaa vastaava t-testisuure ja testi voisi olla toispuolinenkin

LUKU REGRESSIO 8 Testataan edellä olleelle datalle muutamia hypoteesejä Systatilla Käytetään vaihteen vuoksi uutta 3 kertaluvun mallia Käskyillä y = β 0 + β x + β 2 x 2 + β 2 x x 2 + β 22 x 2 2 + β 22 x x 2 2 + ɛ >model y=constant+x+x2+x*x2+x2*x2+x*x2*x2 >estimate >hypothesis >effect x*x2*x2 >test saadaan tulostus DEP VAR: Y N: 2 MULTIPLE R: 996 SQUARED MULTIPLE R: 992 ADJUSTED SQUARED MULTIPLE R: 985 STANDARD ERROR OF ESTIMATE: 0504 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT 6208 033 0000 60 000 X -7929 98-0406 0437798-434 0006 X2 333 0533 2783 00069838 625 000 X* X2-3293 0990-704 00052777-3328 006 X2* X2-0240 0052-2059 00069838-4625 0004 X* X2* X2 030 0096 538 00060405 323 008 ANALYSIS OF VARIANCE SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P REGRESSION 893 5 36383 43328 0000 RESIDUAL 523 6 0254 TEST FOR EFFECT CALLED: BY BY X X2 X2 TEST OF HYPOTHESIS SOURCE SS DF MS F P HYPOTHESIS 2620 2620 0322 008 ERROR 523 6 0254 Sama tulos saadaan syöttämällä A =(0, 0, 0, 0, 0, ) d:tä ei tarvitse syöttää, sillä sen oletusarvo on 0 Lisätään jonoon käskyt >hypothesis >amatrix >0 0 0 0 0 >test jolloin saadaan tulostus

LUKU REGRESSIO 9 HYPOTHESIS A MATRIX TEST OF HYPOTHESIS 2 3 4 5 0000 0000 0000 0000 0000 6 000 SOURCE SS DF MS F P HYPOTHESIS 2620 2620 0322 008 ERROR 523 6 0254 Komento print long antaa vähän enemmän tulostusta: HYPOTHESIS A MATRIX 2 3 4 5 0000 0000 0000 0000 0000 6 000 NULL HYPOTHESIS CONTRAST AB 030 - INVERSE CONTRAST A(X X) A TEST OF HYPOTHESIS 0037 SOURCE SS DF MS F P HYPOTHESIS 2620 2620 0322 008 ERROR 523 6 0254 Hypoteesi H 0 hylätään merkitsevyystasolla α =002, mutta ei aivan tasolla α =00 Selittäjä x x 2 2 saa olla mukana Katsotaan vielä hypoteesia H 0 : β = 2,β 2 =2sivun 6 mallille, jolloin Käskyt >hypothesis >amatrix >0 0 0 0 >0 0 0 0 >dmatrix >-2 >2 >test A = ( 0 0 0 0 0 0 0 0 ) ja d = ( 2 2 ) antavat tulostuksen

LUKU REGRESSIO 0 HYPOTHESIS A MATRIX 2 3 4 5 0000 000 0000 0000 0000 2 0000 0000 000 0000 0000 D MATRIX TEST OF HYPOTHESIS -2000 2 2000 SOURCE SS DF MS F P HYPOTHESIS 0238 2 09 020 0823 ERROR 443 7 0592 Hypoteesia H 0 ei tässä voi hylätä Yksinkertaisin valinta A-matriisiksi on (0,,0,, 0,,0), missä on i:s alkio Hypoteesi H 0 : Aβ = β i =0testaa silloin faktorin x i tarpeellisuutta mallissa Tällöin ja testisuure on b i (A(X T X) A T ) b i = b 2 i c ii b 2 i (N k ) c ii SSE = b2 i s 2 c ii eli sivulla 4 olevan t-testisuureen t i neliö Testi on siis sama kuin mainittu t-testi kaksipuolisena! Yleensäkin, jos q =,onh 0 muotoa a T β = d ja testisuureeksi voidaan ottaa N k vapausasteella t-jakautunut suure a T b d s2 a T (X T X) a Tällöin voi myös tehdä kaksipuolisia testejä (H 0 : a T β d tai H 0 : a T β d) Koko mallin käyttökelpoisuutta puolestaan testaa hypoteesi H 0 : β = = β k =0 Jos tätä H 0 :aa ei hylätä, ovat käytetyt faktorit huonoja selittäjiä, ts koko malli voitaisiin yhtä hyvin korvata vakiolla + kohinalla (eli mallilla y = β 0 +ɛ) Vastaava A-matriisi on ( ) 0 k I k ja d = 0 k Tehdään datamatriisissa ja b-vektorissa samanlainen ositus: X = ( N D ) ( ) b0 ja b = b (Matriisi D on muuten ns suunnittelumatriisi 3, jota tarvitaan vielä jatkossa) Tässä N N-vektori, jonka kaikki alkiot ovat ykkösiä Silloin Ab = b ja ( ) X T T X = N ( D T N D ) ( ) N T = N D D T N D T D on 3 Toisinaan käytetään kuitenkin matriisista X nimeä suunnittelumatriisi!

LUKU REGRESSIO Edelleen tällöin (Ab d) T (A(X T X) A T ) (Ab d) =(b ) T (A(X T X) A T ) b = merk SSR, ns regression neliösumma Tunnetun lohkomatriisien kääntökaavan 4 mukaan (X T X) :n oikea alalohko eli siis A(X T X) A T on ( ) D T D D T N N T ND =(D T M N D) Matriisi M N = I N J N N on ns keskitysmatriisi Sillä kertominen vähentää datavektorista sen keskiarvon (Matriisi J N = N T N taas on N N-matriisi, jonka kaikki alkiot ovat ykkösiä) Koska ilmiselvästi M N N = 0 N,niin SSR =(b ) T D T M N Db =(b 0 N + Db ) T M N (b 0 N + Db )=(Xb) T M N Xb = ŷ T M N ŷ Koska edelleen X T r = X T (y Xb) =X T y X T X(X T X) X T y = 0 k+, niin T N r =0(tarkastellaan vain X:n ensimmäistä saraketta) ja ŷt r = b T X T r =0 Näin ollen r T M N ŷ = r (I T N ) N N T N ŷ = r T ŷ N rt N T Nŷ =0 ja r T M N r = r T (I N N N T N ) r = r T r N rt N T Nr T = r T r = SSE Ns kokonaisneliösumma y T M N y = merk SST on näin hajotettavissa residuaalin neliösumman ja regression neliösumman summaksi: SST = y T M N y =(r + ŷ) T M N (r + ŷ) =r T M N r + ŷ T M N ŷ = SSE + SSR Neliösummiin liittyvät ns vapausasteet on annettu alla olevassa taulukossa SSX vapausasteet SSE N k SSR k SST N ), missä U ja Z ovat ei-singuläärisiä neliömatriise- ( U V 4 Kääntökaava on seuraavanlainen Jos matriisi W Z ja, on ei-singuläärinen, niin sen käänteismatriisi on ( U + U VYWU U VY YWU Y ( missä Y =(Z ) WU V) Kaava johdetaan kirjoittamalla käänteismatriisi määräämättömään lohkomuotoon R S ja ratkaisemalla lohkot Matriisin Z WU V ei-singuläärisyys vastaa muuten 2 2-matriisin T Y kääntyvyyden tuttua determinanttiehtoa ),

LUKU REGRESSIO 2 Jakamalla neliösumma vapausasteellaan saadaan aina vastaava keskineliö: MSE = SSE N k, MSR = SSR k, MST = SST N (residuaalin keskineliö, regression keskineliö ja kokonaiskeskineliö) Hypoteesin H 0 : β = = β k = 0 testisuure on näin ollen MSR/MSE ja sillä on Lauseen mukaan F-jakauma vapausastein k ja N k Vastahypoteesi on H : ainakin yksi parametreistä β,,β k on 0 H 0 :n hylkääminen merkitsee, että ainakin yhdellä faktorilla on merkittävää vaikutusta vasteeseen Varianssianalyysitaulu (jollaisen ohjelmistot yleensä tulostavat) sisältää kaiken tämän: variaation lähde vapausasteet neliösummat keskineliöt F merkitsevyys regressio residuaali kokonaisvariaatio k N k N SSR SSE SST MSR MSE MST Neliösummista saadaan myös ns determinaatiokerroin eli selitysaste MSR MSE pienin α:n arvo, jolla H 0 hylätään SSR SST = merk R 2 Tulkinta: R 2 ilmoittaa kuinka suuren suhteellisen osan vastevektorin otosvarianssista regressio selittää R 2 :n neliöjuuri SSR SST = merk R on ns yhteiskorrelaatiokerroin Jotkut käyttävät mieluummin ns korjattua determinaatiokerrointa MSE MST = merk RA 2 = ( R 2 N ) N k Tulkinta: RA 2 ilmoittaa kuinka paljon suhteellisesti V (ɛ):n estimoidusta arvosta voidaan poistaa sovittamalla jokin muu kuin H 0 :n mukainen malli y = β 0 + ɛ verrattuna siihen V (ɛ):n estimoituun arvoon (= MST), joka ko mallin avulla saadaan Tilasto-ohjelmistot tulostavat yleensä myös nämä kertoimet 4 Mallin epäsopivuuden testaus toistokokein Regressiomallin epäsopivuus tarkoittaa sitä, että lisäämällä uusia faktoreita tai entisistä faktoreista muodostettuja uusia (korkeampiasteisia) faktoreita residuaalia voidaan pienentää Huomautus Mallin riittävyys, johon palataan yksisuuntaisen ANOVAn yhteydessä myöhemmin, puolestaan tarkoittaa sitä, että mallin yhteydessä sovitut oletukset (riippumattomuudet, normaalisuus, varianssien samuus, jne) pitävät paikkansa Jos siis malli y = x T β + ɛ on epäsopiva, tarkoittaa se sitä, että jokin laajennettu malli y = x T β + z T γ + ɛ,

LUKU REGRESSIO 3 missä z =(z,,z l ) T on uusien tai entisistä kertomalla tai muuten saatujen faktorien muodostama vektori ja γ =(γ,,γ l ) T on uusi parametrivektori, on parempi Huomaa, että sovitettaessa jälkimmäinen malli pienimmän neliösumman keinolla vastevektoriin y ja datamatriisiin ( X Z ), missä X on aikaisempi datamatriisi ja Z uusia faktoreita vastaavista sarakkeista muodostettu jatke, eivät parametrit β saa (välttämättä) samoja arvoja kuin sovitettaessa alkuperäistä mallia Tämä johtuu siitä, että uudet selittävät faktorit voivat selittää samoja tekijöitä kuin vanhat faktorit Se mitä uudet faktorit selittävät ja vanhat eivät, on erotusdatassa Z Ẑ, missä Ẑ saadaan ennustamalla Z:n sarakkeet vanhaa mallia käyttäen Ennusteen laskukaavaa käyttäen 5 Ẑ = X(X T X) X T Z Hypoteesi, jonka mukaan malli ei ole tarkasteltujen uusien faktorien kannalta epäsopiva, on näin ollen H 0 :(Z Ẑ)γ = 0 N Vastahypoteesi on tietysti H :(Z Ẑ)γ 0 N Yllä olevan hypoteesin testaus, jossa tarkastellaan mallin sopivuutta tiettyjen kiinteiden uusien faktorien kannalta, voidaan ajatella toteutettavaksi A-matriisilla ( O Z X(X T X) X T Z ) Sillä ei tosin ole täyttä rivirangia ja rivejäkin on liikaa, mutta sen sarakerangi on l, muutenhan matriisissa ( X Z ) on lineaarisesti riippuvia sarakkeita Testi on näin ollen sama kuin hypoteesille H 0 : γ = 0 l ja helppo toteuttaa Jos halutaan testata, kuten alun perin haluttiin, onko mallia yleensä ottaen mahdollista parantaa, pitää verrata virhetermin aiheuttamaa varianssia vasteen selittämättä jääneen osan aiheuttamaan varianssiin Jos jälkimmäinen on huomattavasti suurempi, on mahdollista uusia faktoreita käyttäen parantaa mallin sopivuutta Testisuure tällaiselle testaukselle saadaan, jos mukana on toistokokeita, ts datamatriisissa on samoja rivejä Oletetaan, että datamatriisissa X on erilaisia rivejä m kappaletta Huomaa, että m k +, muuten X T X on singuläärinen Kootaan mainitut erilaiset rivit m (k +)- matriisiksi X Silloin voidaan kirjoittaa X = TX sopivasti valitulle N m-matriisille T Huomaa, että T:llä on täysi sarakerangi, ts sen sarakkeet ovat lineaarisesti riippumattomat, ja että T m = N Itse asiassa T saadaan identiteettimatriisista I m toistamalla sen rivejä sopivasti Laajin mahdollinen malli, joksi alkuperäinen malli voidaan täydentää, saadaan, kun lisätään X:ään suurin mahdollinen määrä aikaisemmista lineaarisesti riippumattomia sarakkeita säilyttäen toistetut rivit Tällaiseen malliin ei nimittäin voida lisätä yhtäkään uutta selittäjää, joka ei, toistokokeiden puitteissa, riippuisi lineaarisesti aikaisemmista Täydennetään X ensin m m- matriisiksi lisäämällä siihen m k aikaisemmista lineaarisesti riippumatonta saraketta: ( X Z ) =merk X 2 5 Matriisia (X T X) X T Z kutsutaan ns aliasmatriisiksi

LUKU REGRESSIO 4 X:n täydennys on sen jälkeen N m-matriisi missä Z = TZ Alkuperäisestä datamallista (Malli I) TX 2 = ( TX TZ ) = ( X Z ) =merk X 3, y = Xβ + ɛ saadaan näin laajennettu datamalli (Malli II) ( ) β y = X 3 + ɛ = Xβ + Zγ + ɛ γ Mallista II saatu ennustevektori on ŷ II = X 3 (X T 3 X 3 ) X T 3 y = TX 2 (X T 2 T T TX 2 ) X T 2 T T y = T(T T T) T T y, joka ei riipu Z :stä, ts siitä, miten X täydennetään! Näin ollen saatava testi ei myöskään riipu mallin laajennustavasta, kunhan toistojen rakenne (eli T) säilytetään Mallista II saatava residuaali on r II =(I N T(T T T) T T )y ja tämän residuaalin neliösumma on ns puhtaan virheen neliösumma Yritetään selittää Mallin I residuaalivektori r T IIr II = merk SSPE, r =(I N X(X T X) X T )y Mallin II avulla Jos tämä onnistuu tarpeeksi hyvin, ei Malli I ole sopiva, vaan se voidaan täydentää sopivammaksi Merkitään lyhyyden vuoksi P = I N X(X T X) X T ja R = I N T(T T T) T T Silloin todetaan helpolla laskulla, että P ja R ovat symmetrisiä idempotentteja matriiseja ja että RP = PR = R, PX = O, RX = O, RZ = O, rank(p) =trace(p) =N k, rank(r) =trace(r) =N m (ks kurssit Laaja matematiikka 4 ja Matriisilaskenta ) Selitettäessä Mallin II avulla Mallin I residuaalia r on selittämättä jäävä residuaali Rr = RPy = Ry, jonka neliösumma on nimenomaan SSPE Kokonaisneliösumma on puolestaan r T r eli Mallin I residuaalin neliösumma SSE Edelleen regression neliösumma tässä selitysyrityksessä on SSE SSPE = merk SSLOF, ns epäsopivuuden neliösumma Matriisimuodossa SSLOF = y T (P R)y

LUKU REGRESSIO 5 Matriisi P R on symmetrinen idempotentti matriisi, jonka rangi on trace(p R) =trace(p) trace(r) =m k, kuten helposti voidaan todeta SSPE vastaa sitä osaa residuaalivarianssista, joka johtuu virhetermistä Siihen ei voida vaikuttaa mallilla, olipa tämä kuinka hyvä tahansa SSLOF vastaa taas sitä osaa residuaalivarianssista, joka johtuu mallin huonosta selittävyydestä eli epäsopivuudesta Mutta: Residuaali r ei ole oikeaa vasteen tyyppiä, sillä sillä on singuläärinen normaalijakauma (ts P on singuläärinen) Näin ollen saatujen neliösummien jakaumat ja vapausasteet sekä niihin perustuva ANOVA katsotaan erikseen Huomaa kuitenkin, että SSPE on Mallin II residuaalin neliösumma, joten sillä on χ 2 -jakauma N m vapausasteella Lause 2 Jos hypoteesi H 0 : PZγ = 0 N on tosi Mallille II, niin suureella SSLOF(N m) SSPE(m k ) on F-jakauma vapausastein m k ja N m (olettaen tietysti, että m>k+) Todistus (Tässä tarvitaan kurssin Laaja tilastomatematiikka tietoja) Pitää näyttää, että SSLOF ja SSPE ovat riippumattomasti χ 2 -jakautuneet vapausastein m k ja N m, vastaavasti Hypoteesin H 0 voimassaollessa (P R)y =(P R)(Xβ + Zγ + ɛ) =(P R)ɛ ja Ry = R(Xβ + Zγ + ɛ) =Rɛ Koska P R ja R ovat symmetrisiä idempotentteja matriiseja, R(P R) =O N ja ɛ:lla on N(0 N,σ 2 I N )-multinormaalijakauma, on lause oikea Lauseessa esiintyvä Z on tietysti se laajin mahdollinen, jolla alkuperäistä datamatriisia X täydennetään Vastahypoteesi on H : PZγ 0 N SSPE:llä on siis vapausasteita N m ja SSLOF:llä m k Vastaavat keskineliöt ovat näin ollen SSPE N m = SSLOF merk MSPE ja m k = merk MSLOF (puhtaan virheen keskineliö ja epäsopivuuden keskineliö) Varianssianalyysitaulu on siten variaation lähde vapausasteet neliösummat keskineliöt F merkitsevyys epäsopivuus puhdas virhe residuaali m k N m N k SSLOF SSPE SSE MSLOF MSPE MSE MSLOF MSPE pienin α:n arvo, jolla H 0 hylätään Jos hypoteesia H 0 ei hyväksytä, voidaan mallia parantaa täydentämällä sitä sopivilla faktoreilla Huomaa, että jos erityisesti täydentävät faktorit ovat entisistä laskien saatuja korkean asteen faktoreita, niin edellä esitetty toistettujen rivien säilyminen täydennettäessä on automaattista Näin ollen esitetty testi on erityisen sopiva juuri tällaista täydennystä ajatellen Jos mallia päätetään täydentää, ei tietystikään mukaan välttämättä kannata ottaa kaikkia mahdollisia lisäselittäjiä, vaan vain sopivasti valitut lisäfaktorit Ohjelmistot tarjoavatkin korkeampiasteisten faktorien osalta monia (puoli)automaattisia lisäys- ja valintamenetelmiä (ns askeltava regressio)

LUKU REGRESSIO 6 Huomautus Eräät ohjelmistot suorittavat epäsopivuustestin automaattisesti, jos toistokokeita esiintyy Matlabia käytettäessä matriisin T kokoaminen on helppoa, varsinkin jos toistoja on kullekin toistetulle tasoyhdelmälle yhtä monta (kuten esimerkiksi sivulla 5 olevalle datalle) Huomautus Epäsopivuustesti voidaan tehdä muutenkin kuin toistokokeita käyttäen Matriisista T:kin käytettiin nimittäin vain sen ominaisuuksia (i) T:llä on täysi sarakerangi (jotta T T T olisi ei-singuläärinen) ja (ii) hajotelmassa X = TX on X :llä täysi sarakerangi k +(jotta se voidaan täydentää ei-singulääriseksi m m-matriisiksi X 2 ) Mikä tahansa matriisi, joka toteuttaa nämä ehdot, kelpaisi periaatteessa T:n tilalle Tällöin ei kyseessä olisi välttämättä enää koetoistoihin perustuva testi Itse asiassa, jos käytetäänkin hajotelmaa X =(TS)(S X ),missä S on ei-singuläärinen m m-matriisi, niin I N TS(S T T T TS) S T T T = I N T(T T T) T T = R Siis esitetty epäsopivuustesti riippuu T:stä vain sen sarakeavaruuden S kautta! Valitsemalla S eri tavoin saadaan erilaisia epäsopivuustestejä, tosin näin saadut testit ovat yleensä heikompia kuin toistoihin perustuvat Ks myös CHRISTENSEN ja artikkeliviite JOGLEKAR, G& SCHUENMEYER, JH & LARICCIA, V: Lack-of-Fit Testing When Replicates Are Not Available The American Statistician 43 ( 89), 35 43 5 Datan affiinimuunnokset Ortogonaalisuus ja kiertosymmetrisyys Jos X on N (k +)-datamatriisi ja L on ei-singuläärinen (k +) (k +)-matriisi, jonka ensimmäinen sarake on (, 0,,0) T, niin XL on myös N (k +)-datamatriisi, joka sisältää saman informaation kuin X Tällainen muunnos on datan affiinimuunnos L on siis muotoa ( ) l T L = 0 k K missä l on k-vektori ja K on ei-singuläärinen k k-matriisi Koska y = Xβ + ɛ = XLL β + ɛ, on uutta datamatriisia XL vastaava parametrivektori L β = merk γ Edelleen pienimmän neliösumman keinon antama parametrivektorin γ estimaatti on g =((XL) T XL) (XL) T y = L (X T X) (L T ) L T X T y = L b ja uusi ennustevektori on XLg = Xb = ŷ eli sama kuin vanha Näin ollen myöskin residuaali pysyy datan affiinimuunnoksessa samana ja itse asiassa kaikki neliösummat SSE, SST ja SSR sekä vastaavat keskineliöt Mallin merkitsevyys ei siis muutu Myöskin lineaarisen hypoteesin ALγ = d testaus antaa saman tuloksen kuin hypoteesin Aβ = d testaus, sillä (Ab d) T (A(X T X) A T ) (Ab d) =(ALg d) T (AL((XL) T XL) (AL) T ) (ALg d)

LUKU REGRESSIO 7 Koko ANOVA tuottaa näin ollen aina saman tuloksen, riippumatta siitä tehdäänkö dataan jokin affiinimuunnos vai ei Toisaalta V (g) =σ 2 ((XL) T XL) = σ 2 L (X T X) (L T ) voi hyvinkin olla edullisempaa muotoa kuin V (b), ts g:n komponenttien välillä voi olla vähemmän korrelaatiota kuin b:n komponenttien välillä ja niiden varianssit voivat olla pienempiä kuin b:n komponenttien varianssit Huomautus Jos mallissa on mukana ensimmäisen asteen faktoreista muodostettuja korkeampiasteisia faktoreita, tehdään usein affiinimuunnos vain datan ensimmäisen asteen osaan ja lasketaan näin saaduista uusista faktoreista malliin mukaan korkeampiasteisia faktoreita Affiinimuunnokset nimittäin useimmiten liittyvät vain perusfaktorien arvojen muuntamiseen Toisaalta, jos malli sisältää kaikki korkeampiasteiset termit haluttuun astelukuun asti, voidaan myös vastaava uusi malli saada aikaisemmasta affiinimuunnoksella, kuten on helposti todettavissa Tavallinen ensimmäisen kertaluvun mallin datan affiinimuunnos on skaalaus, jota vastaava matriisi K on lävistäjämatriisi, missä lävistäjäalkiot p,,p k ovat nollasta eroavia Tällaista lävistäjämatriisia merkitään p :llä, missä p =(p,,p k ) T Selittäjä x i korvautuu skaalauksessa selittäjällä p i x i + l i, missä l i on l:n i:s alkio Skaalauksen tarkoituksena on, paitsi vaihtaa selittävien muuttujien asteikot sopivammiksi, muuntaa keinotekoisesti selittävät muuttujat tyypillisten arvojensa suhteen samaan asemaan Tyypillisten arvojen kokoero saattaa nimittäin alunperin olla monia dekadeja, mikä aiheuttaa mm numeerista epätarkkuutta laskuissa Tällöin suoritetaan ensin skaalaus ja vasta sitten mallin sovitus Skaalausmatriisi on helposti koottavissa Matlabin operaatioilla:»p=[03 29 000-34 08] p = 03000 29000 0000-34000 08000»l=[-2 30-45 340 0] l = -2000 30000-45000 340000 0»L=[ l;zeros(5,) diag(p)] L = 0000-2000 30000-45000 340000 0 0 03000 0 0 0 0 0 0 29000 0 0 0 0 0 0 0000 0 0 0 0 0 0 34000 0 0 0 0 0 0 08000 Erityinen skaalauksen muoto on datan standardointi, jossa valitaan p i = ja l i = x i p i, N (x ji x i ) 2 N j= ts p i on x i :n otoshajonnan inverssi ja l i on x i :n otosvariaatiokertoimen vastaluku (x i on tietysti x i :n otoskeskiarvo) Jälleen p ja l saadaan koottua helposti Matlabilla:

LUKU REGRESSIO 8»p= /std(d);»l=-p*mean(d); D on siis suunnittelumatriisi, joka saadaan X:stä: X = ( N D ) Jos data on kunkin faktorin osalta tasavälistä, käytetään usein koodausta, joka myös on eräs skaalauksen muoto Tällöin p i = 2 max(x i,,x Ni ) min(x i,,x Ni ) ja l i = x i p i, ts erona standardointiin on, että p i on nyt x i :n otosvaihteluvälin puolikkaan eikä x i :n otoshajonnan inverssi Myös koodaus on helposti tehtävissä Matlabilla:»p=2 /(max(d)-min(d));»l=-p*mean(d); Lähinnä koodausta käytetään tilanteessa, missä kullakin faktorilla on kaksi tasoa tai kolme tasavälistä tasoa, jotka esiintyvät tasapainoisesti eli siten, että kunkin faktorin x i otoskeskiarvo on sen tasojen vaihtelukeskipisteessä min(x i,,x Ni )+max(x i,,x Ni ), 2 sillä tällöin koodatut arvot ovat 0, ± Jos tasoja on enemmän tai data ei ole tasapainoista, on koodaus korvattava mutkikkaammalla operaatiolla Edellä sivulla 5 oleva tasavälinen ja tasapainoinen data standardoituna ja koodattuna on annettu alla olevassa taulussa standardointi x x 2 0957 73 0957 73 0957 73 0957 73 0957 0 0957 0 0957 0 0957 0 0957 73 0957 73 0957 73 0957 73 koodaus x x 2 0 0 0 0 Ajetaan vielä sekä standardoitu että koodattu data Systatilla muodostaen korkeamman asteen faktorit muunnetusta datasta Käskyt >USE rottasys SYSTAT FILE VARIABLES AVAILABLE TO YOU ARE: X X2 Y >save rottastdsys >standardize x,x2 >run standardoivat ja käskyt

LUKU REGRESSIO 9 >EDIT Tilastomatematiikka:TKS data:rottasys >LET x=2*(x-05)/04 >LET x2=2*(x2-5)/8 >SAVE Tilastomatematiikka:TKS data:rottakoodsys koodaavat datan uudeksi dataksi Malli on sama kuin sivulla 5 oleva Käytetään pitkää tulostusta, jotta saadaan mukaan parametrien korrelaatiot Ajetaan ensin standardoitu data: EIGENVALUES OF UNIT SCALED X X 2 3 4 5 CONDITION INDICES 86 000 000 000 084 2 3 4 5 000 348 348 348 346 VARIANCE PROPORTIONS 2 3 4 5 CONSTANT 0092 0000 0000 0000 0908 X 0000 000 024 0785 0000 X2 0000 0999 0000 000 0000 X 0000 0000 0786 024 0000 X2 0092 0000 0000 0000 0908 DEP VAR: Y N: 2 MULTIPLE R: 989 SQUARED MULTIPLE R: 977 ADJUSTED SQUARED MULTIPLE R: 965 STANDARD ERROR OF ESTIMATE: 0769 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT 8535 0385 0000 2288 0000 X -2788 0232-0683 00E+0-208 0000 X2 2839 0232 0695 00E+0 2238 0000 X* X2-039 0242-0033 00E+0-0574 0584 X2* X2-0992 0343-064 00E+0-2895 0023 CORRELATION MATRIX OF REGRESSION COEFFICIENTS CONSTANT X X2 X X2 CONSTANT 000 X 0000 000 X2 0000 0000 000 X 0000 0000 0000 000 X2-086 0000-0000 -0000 000 ANALYSIS OF VARIANCE SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P REGRESSION 79293 4 44823 75729 0000 RESIDUAL 443 7 0592 Verrattaessa aikaisempaan sivulla 6 olevaan tulostukseen havaitaan nyt X T X:n ominaisarvojen tasaisempi rakenne ja parametrien suurempi korreloimattomuus ANOVA tuottaa saman tuloksen kuin aikaisemminkin Ajetaan sitten koodattu data Tulokset ovat paljolti samantapaiset kuin standardoidulle datalle: EIGENVALUES OF UNIT SCALED X X 2 3 4 5 86 000 000 000 084

LUKU REGRESSIO 20 CONDITION INDICES VARIANCE PROPORTIONS 2 3 4 5 000 348 348 348 346 2 3 4 5 CONSTANT 0092 0000 0000 0000 0908 X 0000 0770 0030 0200 0000 X2 0000 0038 0962 0000 0000 X 0000 092 0008 0800 0000 X2 0092 0000 0000 0000 0908 DEP VAR: Y N: 2 MULTIPLE R: 989 SQUARED MULTIPLE R: 977 ADJUSTED SQUARED MULTIPLE R: 965 STANDARD ERROR OF ESTIMATE: 0769 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT 8535 0385 0000 2288 0000 X -2669 0222-0683 00E+0-208 0000 X2 3329 0272 0695 00E+0 2238 0000 X* X2-056 0272-0033 00E+0-0574 0584 X2* X2-364 047-064 00E+0-2895 0023 CORRELATION MATRIX OF REGRESSION COEFFICIENTS CONSTANT X X2 X X2 CONSTANT 000 X 0000 000 X2 0000-0000 000 X 0000-0000 0000 000 X2-086 -0000 0000-0000 000 ANALYSIS OF VARIANCE SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P REGRESSION 79293 4 44823 75729 0000 RESIDUAL 443 7 0592 Suunnittelun sanotaan olevan ortogonaalinen, jos X T X on lävistäjämatriisi, ts silloin kun faktoreita vastaavat sarakkeet ovat kohtisuorassa toisiaan vastaan (ja myös vektoria N vastaan) Lause 3 Suunnittelu on ortogonaalinen täsmälleen silloin, kun (i) D:n sarakesummat ovat nollia, ts T N D = 0T k ja (ii) D T D on lävistäjämatriisi (Tässä D on jälleen suunnittelumatriisi, X = ( N D ) ) Todistus Ilmeisesti X T X = ( T N D T ) ( T N D ) ( N T = N D D T N D T D ) on lävistäjämatriisi tarkalleen silloin, kun (i) ja (ii) toteutuvat Ortogonaalista suunnittelua käytettäessä V (b) =σ 2 (X T X) on lävistäjämatriisi, ts parametriestimaatit b 0,,b k ovat riippumattomat Edelleen tällöin käänteismatriisin (X T X) laskeminen on helppoa ja tarkkaa

LUKU REGRESSIO 2 Suunnittelun sanotaan olevan kiertosymmetrinen, jos matriisi X T X säilyy samana, kun dataan tehdään mielivaltainen ortogonaalinen muunnos, ts X T X on koordinaatistosta riippumaton Ortogonaalinen muunnos on sama kuin muotoa ( ) 0 T Q = k 0 k K oleva affiinimuunnos, missä K on k k-ortogonaalimatriisi Lause 4 Suunnittelu on kiertosymmetrinen täsmälleen silloin, kun (i) D:n sarakesummat ovat nollia, ts T N D = 0T k ja (ii) D T D on muotoa λi k, missä λ on vakio Todistus (Tässä tarvittaneen kurssin Matriisilaskenta tietoja) Oletetaan, että suunnittelu on kiertosymmetrinen Sovelletaan mielivaltaista ortogonaalimuunnosta: ( )( ) 0 (XQ) T XQ = Q T X T T XQ = k T N ( 0 k K T D T N D ) ( ) 0 T k 0 k K ( )( )( ) 0 T = k N T N D 0 T k 0 k K T D T N D T D 0 k K ( N = T N D )( ) 0 T k K T D T N K T D T D 0 k K ( N = T N DK ) K T D T N K T D T DK Jotta tämä olisi ( ) N X T T X = N D D T N D T, D on oltava K T D T N = D T N ja K T D T DK = D T D, olipa K mikä tahansa ortogonaalimatriisi Mutta, jotta kaikki ortogonaalimuunnokset pitäisivät D T N :n samana, pitää sen olla = 0 k,ts (i) pätee Toisaalta D T D on symmetrinen matriisi, joten se on diagonalisoitavissa ortogonaalimuunnoksella Näin ollen D T D:n on oltava valmiiksi lävistäjämatriisi Silloin taas D T D:n lävistäjäalkiot voidaan permutoida mielivaltaiseen järjestykseen ortogonaalimuunnoksella Näin ollen lävistäjäalkioiden on oltava samoja Siispä myös (ii) pätee Selvästi suunnittelu on kiertosymmetrinen, jos (i) ja (ii) pätevät Kiertosymmetrisessä suunnittelussa ei ole mahdollista parantaa mallia siirtymällä uusiin koordinaatteihin, ts esimerkiksi V (b) pysyy samana Malli ei voi tällöin myöskään huonontuakaan Erityisesti ennusteen varianssi ( V (ŷ) =σ 2 (x ) T (X T X) x = σ 2 N + ( (x λ ) 2 + (x k) 2)) riippuu vain datavektorin x =(,x,,x k )T pituudesta 6 Lauseista 3 ja 4 seuraa, että jokainen kiertosymmetrinen suunnittelu on myös ortogonaalinen, mutta ei kääntäen Tärkeä ortogonaalisten/kiertosymmetristen suunnittelujen ominaisuus on se, että niistä faktoreita poistamalla eli typistämällä saadut suunnittelut ovat myös ortogonaalisia/kiertosymmetrisiä (Tämä seuraa varsin suoraan yo lauseista) 6 Tästä itse asiassa tulee nimi kiertosymmetrinen, datan rotaatio ei muuta ennusteen varianssia

LUKU REGRESSIO 22 6 Esimerkki ortogonaalisesta kertaluvun suunnittelusta: Simplex-koe, Plackett Burman-koe Simplex-koe on ortogonaalinen kertaluvun malliin perustuva koe, jonka datamatriisi X = ( k+ D ) on (k +) (k +)-matriisi ja suunnittelumatriisi muodostuu säännöllisen origokeskisen k+-simpleksin kärkien koordinaateista R k :ssa Esimerkiksi R 2 :ssa tällainen simpleksi on tasasivuinen origokeskinen kolmio (ks alla oleva kuvio) (Yleisesti R k :n simpleksi on sen k +-kärkinen monitahokas) y z z a a a x x a a a y x a a a y keskipiste Sama tasasivuinen kolmio syntyy R 3 :een leikattaessa ensimmäistä oktanttia tasolla x + y + z = a 2 Rotaatiolla saadaan kolmio yz-tason suuntaiseksi, jolloin sen kärkien ensimmäiset koordinaatit ovat samat Kolmion kärjet origoon yhdistävät janat ovat edelleen kohtisuorassa toisiaan vastaan (ortogonaalisuus) Kolmion keskipiste on x-akselilla Lause 3 ja yllä oleva päättely antavat seuraavan idean kahden faktorin simplex-kokeen suunnitteluun: Etsitään ortogonaalinen 3 3-matriisi V, jonka ensimmäisen sarakkeen alkiot ovat samoja (= / 3) 2 Valitaan X = 3V V löytyy esimerkiksi muodostamalla matriisin 0 0 W = 0 0 QR-hajotelma W = QR, missä Q on ortogonaalimatriisi ja R on yläkolmiomatriisi (ks kurssi Matriisilaskenta ) Valitaan V = ±Q Sama idea toimii yleisestikin: Muodostetaan (k +) (k +)-matriisin 0 0 0 0 0 W = 0 0 QR-hajotelma W = QR

LUKU REGRESSIO 23 2 Valitaan X = ± k +Q (W:n tilalle kelpaavat tietysti muutkin ei-singulääriset matriisit, joiden ensimmäinen sarake on k+ ) Käytännössä laskenta sujuu vaikkapa Matlabilla Otetaan esimerkkinä tapaus k =3:»I=eye(4);W=[ones(4,) I(:,2:4)] W = 0 0 0 0 0 0 0 0 0»[Q,R]=qr(W) Q = -05000 02887 04082-0707 -05000-08660 0 00000-05000 02887-0865 0-05000 02887 04082 0707 R = -20000-05000 -05000-05000 0-08660 02887 02887 0 0-0865 04082 0 0 0 0707»X=2*(-Q) X = 0000-05774 -0865 442 0000 732 0-00000 0000-05774 6330 0 0000-05774 -0865-442 Tällä tavoin saatu suunnittelu on lisäksi myös kiertosymmetrinen, sillä X T X =(k +)I k+ (Lause 4) Koska N = k +,eivät simplex-kokeille tule suoraan käyttöön σ 2, t-testit eikä myöskään ANOVA Esimerkiksi Systatin tulostus yo datalla tehdylle kokeelle on seuraava: käskyt >USE simplexsys VARIABLES IN SYSTAT FILE ARE: X X2 X3 Y >model y=constant+x+x2+x3 >estimate ja tulostus DEP VAR: Y N: 4 MULTIPLE R: 000 SQUARED MULTIPLE R: 000 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT 068 0000 X 0538 0000 00E+0 X2-0420 0000 00E+0 X3 007 0000 00E+0 ANOVA ei tulostu ja mallin sopivuus on täydellinen Tulostuksen antina ovat saadut parametriestimaatit Mutta tietysti suunnittelua voidaan tarvittaessa typistää, ts ottaa mukaan vain tarvittava määrä faktoreita Kuten edellä todettiin, tämä ei poista ortogonaalisuutta eikä kiertosymmetrisyyttä

LUKU REGRESSIO 24 Huomautus Jos simplex-data ei ole reaalimaailman koetta ajatellen oikeantyyppistä, voidaan se muuntaa sopivalle asteikolle skaalauksella Koe suoritetaan skaalatulla datalla, mutta mallina käytetään (typistetyn) simplex-datan mallia, josta haluttaessa voidaan päästä skaalauksella reaalimaailmaan Erikoistapaus simplex-kokeesta on ns Plackett Burman-koe Datamatriisi on tällöin (mahdollisen koodauksen jälkeen) alkioista ± koostuva (k +) (k +)-matriisi X, joka toteuttaa ehdon X T X =(k +)I k+ Tällaista ±-matriisia X kutsutaan yleisesti Hadamardin matriisiksi 7 Hadamardin m m- matriisilla H on seuraavat ominaisuudet: (i) H:n sarakesummat ensimmäistä saraketta lukuunottamatta ovat =0, ts sarakkeissa on yhtä monta +:tä ja :tä (ii) Joko m =2tai sitten m on neljällä jaollinen luku (iii) H:n kahden rivin välinen etäisyys on aina 2mTästä ja kohdasta (i) seuraa, että Plackett Burman-koe on simplex-koe, koska rivin ensimmäinen alkio on Nämä ominaisuudet ovat kutakuinkin helposti todettavissa (jätetään lukijalle) Hadamardin matriisien konstruktio tapahtuu käyttäen ns äärellisiä kuntia (ks kurssi Algebra tai Koodausteoria) JOHN selostaa konstruktiota lähemmin Jo saaduista Hadamardin matriiseista saa uusia isompia ns Kronecker-tuloa käyttämällä Yleisesti n m -matriisin A = a a m a n a n m ja n 2 m 2 -matriisin B Kronecker-tulo on n n 2 m m 2 -matriisi a B a m B A = = merk A B a n B a n m B (lohkomuoto) Lohkomatriisien kertolaskukaavasta seuraa melko välittömästi, että mikäli matriisitulot AC ja BD ovat määritellyt, niin (A B)(C D) =(AC) (BD), ja lohkomatriisin transponointikaavasta puolestaan, että (A B) T = A T B T Jos nyt m m -matriisi H ja m 2 m 2 -matriisi H 2 ovat Hadamardin matriiseja, niin samoin on niiden Kronecker-tulo H H 2, sillä (H H 2 ) T (H H 2 )=(H T H T 2 )(H H 2 )=(H T H ) (H T 2 H 2 ) =(m I m ) (m 2 I m2 )=m m 2 I m m 2 ja H H 2 :n ensimmäinen sarake on I m m 2 Matlabilla tällainen konstruktio sujuu helposti: 7 Varsinaisesti Hadamardin matriisi määritellään niin, että sen ensimmäisen sarakkeen ei tarvitse olla Toisaalta jokainen Hadamardin matriisi voidaan saattaa tällaiseksi kertomalla sen rivejä sopivasti :llä Tämä säilyttää Hadamard-ominaisuuden, kuten voi helposti todeta Tällaiselle yleiselle Hadamardin matriisille ominaisuus (i) ei välttämättä pidä paikkaansa Hadamardin matriisi on standardimuodossa, jos sen ensimmäinen sarake on ja ensimmäinen rivi T

LUKU REGRESSIO 25»H=[ ; -] H = -»H2=kron(H,H) H2 = - - - - - -»H=kron(H,H2) H = - - - - - - - - - - - - - - - - - - - - - - - - - - - - 7 2 k -kokeet: Katsaus 2 k -kokeella tarkoitetaan koetta, jossa (k +) N-datamatriisin X sarakkeissa (ensimmäistä saraketta lukuunottamatta) esiintyy vain kahta eri tason arvoa Koodauksen jälkeen ne ovat ja Jatkossa oletetaankin koodaus valmiiksi suoritetuksi Plackett Burman-kokeet ovat siis 2 k -kokeita Malli on tällöin y = β 0 + k β i x i + β ij x i x j + + x i x il i= i<j k i < <i l k tai tästä joitakin faktoreita pois jättämällä saatu malli Huomaa, miten faktorien korkeammat potenssit puuttuvat, sillä x 2n+ i = x i ja x 2n i = Jos mallissa on kaikki mahdolliset faktorit mukana, kyseessä on täydellinen 2 k -koe Täydellisessä 2 k -kokeessa on mukana ( ) ( ) ( ) k k k + + + + =(+) k =2 k 2 k selittäjää Mahdollisia erilaisia datamatriisin rivejä on toisaalta myös 2 k kappaletta Jos toistettuja rivejä ei ole mukana, voidaan rivit järjestää siten, että 2 sarakkeessa on ensin 2 k kappaletta :stä ja sitten 2 k kappaletta :stä, 3 sarakkeessa on ensin 2 k 2 kappaletta :stä, sitten 2 k 2 kappaletta :stä, sitten 2 k 2 kappaletta :stä ja lopuksi 2 k 2 kappaletta :stä, jne, k +:nnessä sarakkeessa :t ja :t vuorottelevat Esimerkiksi ensimmäisen kertaluvun 2 3 -kokeen tällä tavoin esitetty datamatriisi on

LUKU REGRESSIO 26 X = Ensimmäisen kertaluvun täydellinen 2 k -koe on näin ollen aina kiertosymmetrinen, sillä ilmeisesti X T X =2 k I k+ (Lause 4) Täydellisessä 2 k -kokeessa on useinkin käytännön kannalta liian monta faktoria Ns osittaisissa 2 k -kokeissa faktorien määrää karsitaan (ja datamatriisin rivilukua pienennetään) aivan omalla tavallaan kieltämällä tietyt faktorit Faktorin kielto tarkoittaa sitä, että sen arvo kiinnitetään ±:ksi Jos kielletään faktorit z,,z m,onkiellettävä myös kaikki näistä keskenään kertomalla saadut faktorit, sillä näiden arvot tulevat myös kiinnitetyksi Kiellettyjen termien sanotaan sekoittuvan vakiotermiin (Vakiotermiä itseään ei toki voida kieltää!) Kielletyt faktorit ovat yleensä korkeampaa kertalukua ja selittävät ensimmäisen kertaluvun faktorien ns yhdysvaikutuksia Kiellettäessä faktoreita päätetään samalla, etteivät tietyt yhdysvaikutukset ole tarkastelun kannalta tärkeitä Jos siis tapauksessa k =5päätetään kieltää faktorit x x 2, x 3 x 4 ja x 2 x 3 x 5, on myös kiellettävä x x 2 x 3 x 4 = x x 2 x 3 x 4, x x 2 x 2 x 3 x 5 = x x 3 x 5, x 3 x 4 x 2 x 3 x 5 = x 2 x 4 x 5, x x 2 x 3 x 4 x 2 x 3 x 5 = x x 4 x 5 Alinta kertalukua olevan kielletyn termin aste on ns kokeen resoluutio Kun faktorit z,,z m on kielletty, ts niiden arvot kiinnitetty, jätetään datamatriisiin vain ne rivit, jotka toteuttavat nämä kiinnitykset Itse malliin ei oteta mukaan kiellettyjä faktoreita Toisaalta kiinnitykset samaistavat tiettyjä faktoreita merkkiä vaille ja näistä otetaan mukaan malliin vain yksi, jottei datamatriisiin tule lineaarisesti riippuvia sarakkeita Tällaisia faktoreita kutsutaan toistensa aliaksiksi Esimerkiksi yo kiinnitysten puitteissa malliin ei saa ottaa mukaan molempia faktoreita x ja x 2,sillä x =(±x x 2 )x = ±x 2, missä merkki ± valitaan siten, että ±x x 2 = Sitä kiellettyjen faktoreiden arvojen kiinnitystä, joka antaa kullekin niistä arvon, kutsutaan pääositukseksi Jos esimerkiksi tapauksessa k =5kielletään faktorit x x 2 x 3, x 3 x 4 x 5 ja x x 2 x 4 x 5 pääosituksessa, saadaan seuraava ns aliastaulu

LUKU REGRESSIO 27 mallin faktori x x 2 x 3 x 4 x 5 x x 4 x x 5 sekoittuvat aliakset x x 2 x 3 x 3 x 4 x 5 x x 2 x 4 x 5 x 2 x 3 x x 3 x 4 x 5 x 2 x 4 x 5 x x 3 x 2 x 3 x 4 x 5 x x 4 x 5 x x 2 x 4 x 5 x x 2 x 3 x 4 x 5 x x 2 x 3 x 4 x 3 x 5 x x 2 x 5 x x 2 x 3 x 5 x 3 x 4 x x 2 x 4 x 2 x 3 x 4 x x 3 x 5 x 2 x 5 x 2 x 3 x 5 x x 3 x 4 x 2 x 4 Ks JOHN ja KHURI &CORNELL ja MYERS &MONTGOMERY 8 Toisen kertaluvun regressiomalli Täydellinen toisen kertaluvun malli on muotoa y = β 0 + k β i x i + β ij x i x j + ɛ i= i j k Faktoreita on +2k + ( k 2) kappaletta Sovitaan faktoreiden järjestykseksi,x,,x k,x 2,,x 2 k,x x 2,,x x k,x 2 x 3,,x k x k ja muodostetaan datamatriisin X sarakkeet tässä järjestyksessä Merkitään (kuten aikaisemminkin) X = ( N D ),missä D on suunnittelumatriisi, ja ( ) x = d Merkitään edelleen (yläkolmiomatriisi) ja β β 2 β k B 0 β 22 β 2k = 0 0 β kk B = 2 (B +(B ) T ) Silloin d T B d = trace(d T B d)=trace(b dd T )= β ij x i x j ja vastaavasti d T (B ) T d = β ij x i x j i j k Siispä myös d T Bd = β ij x i x j i j k ja malli voidaan kirjoittaa matriisimuotoon y = x T β + d T Bd + ɛ i j k

LUKU REGRESSIO 28 Myöskin ennuste ŷ = b 0 + k b i x i + b ij x ix j i= i j k voidaan kirjoittaa samalla tavoin matriisimuotoon: matriisit E ja E saadaan ottamalla B :ssa ja B:ssä β ij :n paikalle b ij, kirjoitetaan ( ) x = d ja ŷ =(x ) T b +(d ) T Ed Täydellinen toisen kertaluvun malli ei sellaisenaan käy ortogonaaliseen kokeeseen, sillä (Lause 3) neliöfaktorien sarakesummat ovat positiivisia Toisaalta mainitut neliöfaktorit voidaan korvata uusilla muotoa x 2 i + p i x i + q i = merk P i (x i ) olevilla faktoreilla, missä kertoimet p i ja q i valitaan siten, että N P i (x ji )=0 j= ja N P i (x ji )x ji =0, j= ts polynomit, x ja P i (x) ovat (käytetyn datan suhteen) ortogonaaliset Tätä varten oletetaan ensin, että faktorit x,,x k ovat valmiiksi standardoituja niin, että N x ji =0 j= ja N x 2 ji = N j= Huomaa, että tämä ei ole aivan sama kuin edellä oleva standardointi, vaan tässä käytetty hajonta on N (x ji x i ) N 2 Muodostetaan kertoimille p i ja q i yhtälöt { 0= N j= (x2 ji + p i x ji + q i )=N + Nq i 0= N j= (x3 ji + p i x 2 ji + q i x ji )= N j= x3 ji + Np i j= ja ratkaistaan ne: { p i = N N j= x3 ji q i = Merkitään nyt matriisissa N DT D faktoreita vastaavien D:n sarakkeiden pistetuloista saatavia alkioita seuraavasti: x i faktorit x j x m x i x j x i x j x m x n alkio [ij] =[ji]= [ijm] =[jim]= [ijmn] =[imjn] =