Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi ja vasteen optimointi

Koko: px
Aloita esitys sivulta:

Download "Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi ja vasteen optimointi"

Transkriptio

1 Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi ja vasteen optimointi Robert Piché ja Keijo Ruohonen Tampereen teknillinen yliopisto 200

2 Sisältö REGRESSIO Matriisilaskentaa ja multinormaalijakauma 2 2 Lineaarinen regressiomalli 6 3 Hypoteesien testaaminen 2 4 Mallin epäsopivuuden testaus toistokokein 23 5 Mallin riittävyys 30 2 KOKEIDEN SUUNNITTELU 35 2 Datan muunnokset Ortogonaalisuus ja kiertosymmetrisyys 4 23 Simplex-koe Kahden tason kokeet Toisen kertaluvun regressiomalli CCD-kokeet 6 27 Optimaaliset kokeet 65 3 VASTEEN OPTIMOINTI 69 3 Gradienttimenetelmä Ääriarvotarkastelu Harjuanalyysi 80 Kirjallisuus 85 ii

3 Luku REGRESSIO Mallinnustilanteessa suure y riippuu suureista x,,x k tunnetun tai tuntemattoman funktion φ kautta, ts y = φ(x,, x k Suure y on tällöin ns vaste eli selitettävä muuttuja ja muuttujat x,,x k ovat ns response faktoreita eli selittäviä muuttujia Faktoreiden arvoja kutsutaan tasoiksi Funktio levels φ on ns todellinen vastefunktio ja se sisältää systeemin kaikki fysiikan ilmiöt, mittausprosessin mukaan lukien Funktio φ on yleensä tuntematon tai sitten niin mutkikas, ettei sitä voida sellaisenaan käyttää Otamme käyttöön muotoa y = f(x,,x k + ǫ, olevan empirisen mallin, missä funktio f on olettamamme funktion φ approksimaatio, ja virhetermi ǫ on satunnaismuuttuja Malli saadaan käyttöön, kun ensin on saatu kokeiden tuloksena tietty määrä faktorien arvoyhdelmiä ja niitä vastaavat vasteen arvot Datana on kerätty N kappaletta faktorien arvoyhdelmiä sekä niitä vastaavat vasteen arvot: koe faktorien tasot vaste x,,x k y 2 x 2,,x 2k y 2 N x N,,x Nk y N Regressioanalyysi on mallin f parametrien estimointi Mallia voidaan käyttää arvioimaan erilaisten faktoreiden vaikutusta vasteeseen tai

4 2 LUKU REGRESSIO ennustamaan vasteen arvon sellaisille faktorien arvoyhdelmille, joille vastaavia kokeita ei ole tehty, mm vasteen optimoinnin yhteydessä Jos datan keruu on kallista, vaarallista tai muuten hankalaa, kannattaa valita faktorien arvoyhdelmät etukäteen niin, että saatu malli olisi mahdollisimman käyttökelpoinen mahdollisimman pienellä arvoyhdelmien lukumäärällä Tällainen valinta on tilastollinen kokeiden suunnittelu Jos data on jo kerätty tai jos faktorei- den tasot eivät ole tiedossa tai niihin ei voida vaikuttaa, ei kokeiden suunnittelua tarvita Tässä luvussa kerrataan tilastomatematiikan peruskurssien opettamia tietoja regressiomallin rakentamisesta, mallia koskevien hypoteesien testaamisesta ja mallin sopivuuden arvioinnista Keskitymme lineaarisen regressiomenetelmän osiin, joita tarvitaan vastepintamallinnuksessa design of experiments Matriisilaskentaa ja multinormaalijakauma Tässä kerrataan ja käsitellään lyhyesti eräitä tilastollisten monimuuttujamenetelmien tarvitsemia matriisilaskennan ja normaalijakauman käsitteitä Matriisilaskentaa eigenvalues diagonal elements Aluksi eräitä määritelmiä Neliömatriisi A on symmetrinen, jos A T = A, ja idempotentti, jos A 2 = A Idempotentin matriisin ainoat mahdolliset ominaisarvot ovat 0 ja, sillä jos Ax = λx, niin myös A 2 x = λx ja toisaalta A 2 x = λax = λ 2 x, joten λ 2 = λ Jos symmetrinen matriisi on ei-singulaarinen, niin sen käänteismatriisi on myös symmetrinen Matriisin rivirangi (vast sarakerangi on sen suurin lineaarisesti riippumattomien rivien (vast sarakkeiden lukumäärä Tunnetusti matriisin A rivi- ja sarakerangit ovat samat, tätä yhteistä arvoa kutsutaan matriisin asteeksi eli rangiksi, merkitään rank(a Edelleen neliömatriisin rangi on sen nollasta eroavien ominaisarvojen lukumäärä (moninkertaiset ominaisarvot otetaan mukaan kertalukunsa osoittama määrä Näin ollen idempotentin matriisin rangi on sen -ominaisarvojen lukumäärä Neliömatriisin A jälki, merkitään trace(a, on sen lävistäjäalkioiden summa Jäljellä on seuraavat ominaisuudet: trace(a + B = trace(a + trace(b; 2 trace(ca = c trace(a (c on skalaari; 3 trace(a T = trace(a;

5 MATRIISILASKENTAA JA MULTINORMAALIJAKAUMA 3 4 trace(b T A = trace(ab T = matriiseja; n m a ij b ij, kun A ja B ovat n m- i= j= 5 trace(a on A:n ominaisarvojen summa neliömatriisille A Ominaisuudesta 5 johtuen idempotentin matriisin rangi on sen jälki Merkitään 0 n :llä n-vektoria, jonka kaikki alkiot ovat nollia (nollavektori, n :llä n-vektoria, jonka kaikki alkiot ovat ykkösiä (ykkösvektori, O n :llä n n- matriisia, jonka kaikki alkiot ovat nollia (nollamatriisi, ja vielä I n :llä n n-identiteettimatriisia Seuraavia erikoismatriiseja tarvitaan usein: J n = n T n, K n = J n I n, M n = I n n J n J n on n n-matriisi, jonka kaikki alkiot ovat ykkösiä Matriisit J n, K n ja M n ovat symmetrisiä Seuraavat ominaisuudet ovat todettavissa suoralla laskulla: (i T n n = n (ii J n n = n n (iii K n n = (n n (iv M n n = 0 n (v J 2 n = nj n (vii M 2 n = M n (eli M n on idempotentti (viii J n K n = (n J n (ix J n M n = O n (x K n M n = M n (xi n(k n + M n = (n J n (vi K 2 n = (n J n K n Matriiseja on usein edullista käsitellä jaettuina lohkoihin: A A 2 A k A 2 A 22 A 2k A = A l A l2 A lk Lohkomuodossa olevien matriisien transpoosi ja tulo saadaan suoraan lohkojen avulla: A A 2 A k A 2 A 22 A 2k T A T A T 2 A T l = A T 2 A T 22 A T l2 A l A l2 A lk A T k A T 2k A T lk

6 4 LUKU REGRESSIO ja A A 2 A k A 2 A 22 A 2k B B 2 B m B 2 B 22 B 2m = C C 2 C m C 2 C 22 C 2m, A l A l2 A lk B k B k2 B km C l C l2 C lm missä C ij = k A it B tj t= (huomaa kertojärjestys, olettaen, että kaikki esiintyvät matriisikertolaskut ovat määriteltyjä Lohkokertosääntö muistuttaa tavallista matriisien kertosääntöä c ij = k t= a itb tj, ja voidaan sitä käyttäen todistaa helposti Eräs erikoistapaus on ns toinen matriisikertosääntö ( a a 2 a k b T b T 2 = k a t b T t t= b T k Summalausekkeet ja matriisit liittyvät toisiinsa seuraavilla kaavoilla, jotka ovat helposti todettavissa Merkitään A = ( a a 2 a k ja B = b T b T 2 b T k Silloin column mean row mean 2 k A k = k k T k B = k k a t (ns A:n sarakekeskiarvo, merkitään ā; t= k b T t (ns B:n rivikeskiarvo, merkitään b T ; t= 3 AJ k B = k k a t b T s ; t= s=

7 MATRIISILASKENTAA JA MULTINORMAALIJAKAUMA 5 4 AK k B = k t= k a t b T s ; s= s t 5 AM k = A ā T k (vähennetään A:n sarakkeista sen sarakekeskiarvo eli keskitetään sarakkeet; 6 M k B = B k bt (vähennetään B:n riveistä sen rivikeskiarvo eli keskitetään rivit; 7 AM k B = AM 2 k B = (A āt k (B k b T Kohdan 7 seurauksena erikoisesti Multinormaalijakauma AM k A T = (A ā T k (A ā T k T Satunnaisvektorilla x (n-vektori on ns multinormaalijakauma N(µ, Σ, jos sen multinormal tiheysfunktio on distribution ( f(x = (2π n/2 det(σ exp 2 (x µt Σ (x µ Tässä µ = E(x (odotusarvo(vektori ja Σ = V (x = E((x µ(x µ T expectation (varianssi(matriisi Mikäli µ = 0 n ja Σ = I n, on kyseessä ns standardimultinormaalijakauma Todetaan seuraavat multinormaalijakauman ominaisuudet: Jos x:llä on n-ulotteinen N(µ, Σ-jakauma, C on m n-matriisi, jonka rivirangi on täysi (eli m, ja b on m-vektori, niin satunnaisvektorilla Cx+b on m-ulotteinen N(Cµ + b,cσc T -jakauma 2 Jos x:llä on n-ulotteinen N(µ,Σ-jakauma, C on m n-matriisi, C 2 on m 2 n-matriisi, b on m -vektori ja b 2 on m 2 -vektori, niin satunnaisvektorit C x + b ja C 2 x + b 2 ovat riippumattomat tarkalleen silloin, kun independent C ΣC T 2 = O 3 Jos x:llä on n-ulotteinen N(µ n, σ 2 I n -jakauma ja s 2 = n xt M n x (otosvarianssi niin satunnaismuuttujalla sample variance s 2 (n σ 2 on χ 2 -jakauma n vapausasteella Yleisesti, jos A on symmetrinen idem- degrees of freedom

8 6 LUKU REGRESSIO potentti n n matriisi, niin satunnaismuuttujalla σ 2(x µ n T A(x µ n on χ 2 -jakauma rank(a vapausasteella 4 Josx:llä on n-ulotteinen N(µ n, σ 2 I n -jakauma, x = n T n x (otoskeskiarvo sample mean ja s 2 = n xt M n x (otosvarianssi niin satunnaismuuttujalla ( x µ n s on t-jakauma n vapausasteella (Huomaa, että ( x µ n/σ on standardinormaalisti jakautunut ja s 2 (n /σ 2 on χ 2 -jakautunut n vapausasteella ja että nämä satunnaismuuttujat ovat riippumattomat Yleisesti, jos u on standardinormaalisti jakautunut, v on χ 2 -jakautunut m vapausasteella ja u ja v ovat riippumattomat, niin u m/ v on t-jakautunut m vapausasteella 5 Jos x :llä on n -ulotteinen N(µ, σ 2 I n -jakauma, x 2 :llä on n 2 -ulotteinen N(µ 2, σ 2 I n2 -jakauma sekä x ja x 2 ovat riippumattomat, niin satunnaismuuttujalla x T M n x /(n x T 2 M n 2 x 2 (n 2 on F-jakauma vapausastein n ja n 2 (Huomaa, että x T M n x /σ 2 ja x T 2 M n 2 x 2 /σ 2 ovat riippumattomat χ 2 -jakautuneet satunnaismuuttujat vapausastein n ja n 2, vastaavasti Yleisesti riippumattomien, vapausastein m ja m 2 χ 2 -jakautuneiden vapausasteillaan jaettujen satunnaismuuttujien osamäärä on F-jakautunut vapausastein m ja m 2 2 Lineaarinen regressiomalli Ensimmäisen kertaluvun regressiomalli on muotoa y = β 0 + β x + + β k x k + ǫ missä kertoimet β 0, β,,β k ovat mallin parametrit Jos merkitään β 0 x β x = x k ja β = β k,

9 2 LINEAARINEN REGRESSIOMALLI 7 voidaan tällainen kertaluvun regressiomalli kirjoittaa muotoon y = x T β + ǫ Yleisesti d:nnen kertaluvun regressiomalli on muotoa y = p(x,,x k + ǫ oleva malli, missä p on muuttujien x,,x k d:nnen asteen polynomi, jonka kertoimet ovat parametrejä Polynomin p ei tarvitse sisältää kaikkia mahdollisia termejä Itse asiassa polynomiaalinen regressio voidaan palauttaa kertaluvun regressioksi ottamalla uusia faktoreita käyttöön Esimerkiksi toisen kertaluvun regressiomallissa y = β 0 + β x + β 2 x 2 + β 2 x x 2 + ǫ ainoa korkeamman kuin ensimmäisen asteen termi on β 2 x x 2 Otetaan uusi muuttuja x 3, kirjoitetaan sen arvoksi suureen x x 2 arvo, ja valitaan parametri β 2 sen kertoimeksi Näin saadaan kertaluvun regressiomalli y = β 0 + β x + β 2 x 2 + β 2 x 3 + ǫ Polynomimallit ovat lineaarisia regressiomalleja, ts ne ovat parametriensä lineaariyhdelmä + virhetermi Regressiomallien parametrit voidaan estimoida pienimmän neliösumman keinolla Muodostetaan koedatasta ns datamatriisi X sekä vastevektori y: x x 2 x k y x 2 x 22 x 2k X =, y = y 2 x N x N2 x Nk y N linear combination method of least squares Valitaan parametrien β estimaatti b siten, että neliösumma y Xb 2 = (y Xb T (y Xb minimoituu Neliösumman gradientti b:n suhteen on 2X T (y Xb ja merkitsemällä se nollavektoriksi saadaan lineaarinen yhtälöryhmä X T Xb = X T y, josta ratkaistaan b: b 0 b b k = b = (XT X X T y

10 8 LUKU REGRESSIO Tällöin tietysti oletetaan, että X T X on ei-singulaarinen ja erityisesti, että N k + Matriisit X T X ja (X T X ovat symmetrisiä Koska kertaluvun malli on muotoa y = x T β + ǫ, liittyvät vastevektori ja datamatriisi toisiinsa yhtälöllä y = Xβ + ǫ, ǫ = ǫ ǫ 2 ǫ N, missä ǫ on satunnaisvektori Satunnaismuuttujat ǫ, ǫ 2,,ǫ N ovat riippumattomia (sillä kokeet suoritetaan toisistaan riippumattomasti ja niillä on kullakin N(0, σ 2 -jakauma (Odotusarvo on 0, sillä systemaattinen virhe voidaan sisällyttää parametriin β 0 Satunnaisvektorilla ǫ on siis N(0, σ 2 I N -multinormaalijakauma Koska ǫ on satunnaisvektori, niin samoin on y = Xβ + ǫ sekä edelleen b = (X T X X T y = (X T X X T (Xβ + ǫ = β + (X T X X T ǫ Vaikka ǫ:n komponentit ovat riippumattomia satunnaismuuttujia, eivät b:n komponentit sitä yleisesti ole Välittömästi todetaan nimittäin, että ja E(b = E(β + (X T X X T ǫ = β + (X T X X T E(ǫ = β V (b = V (β+(x T X X T ǫ = (X T X X T V (ǫx(x T X = σ 2 (X T X Siispä b:llä on N(β, σ 2 (X T X -multinormaalijakauma ja sen komponentit ovat riippumattomat tarkalleen silloin, kun X T X on lävistäjämatriisi (jolloin myös (X T X on lävistäjämatriisi Kun mallin parametrien estimaatti b on saatu, voidaan muita faktorien tasoja ξ vastaava vasteen arvo ennustaa: ŷ = ξ T b Tässä b on satunnaisvektori, joten ennustus ŷ on satunnaismuuttuja Edelleen ja E(ŷ = ξ T E(b = ξ T β V (ŷ = ξ T V (bξ = σ 2 ξ T (X T X ξ Erityisesti voidaan ennustaa datamatriisissa esiintyviä faktorien arvoyhdelmiä vastaavat vasteet: ŷ = Xb = X(X T X X T y

11 2 LINEAARINEN REGRESSIOMALLI 9 Erotus y ŷ =: r on ns residuaalivektori, datan avulla lausuttuna r = y ŷ = (I N X(X T X X T y Ideaalisesti residuaalissa r on vain kohinaa eli virhetermin ǫ vaikutus Residuaalivektorin pituuden neliö r 2 = r T r = (y Xb T (y Xb =: SSE on ns residuaalin neliösumma Koska E(SSE = (N k σ 2, niin (olettaen, sum of squares of että N > k + residuals (errors s 2 SSE = N k on virhetermin varianssin σ 2 estimaatti Jos merkitään c 00 c 0 c 0k (X T X c 0 c c k =: C =, c k0 c k c kk niin V (b i = σ 2 c ii Näin ollen V (b i :n estimaatiksi käy s 2 c ii Standardivirhe se(b i := s 2 c ii on parametrin estimoitu keskihajonta Vastaavasti se(ŷ := s 2 ξ T (X T X ξ on vasteen ennustuksen estimoitu keskihajonta Esimerkki Määritä ensimmäisen kertaluvun regressiomalli datalle: x x 2 y y x 2 ja estimoi parametrien standardivirheet Ennusta mallin avulla vasteen y arvo tasoilla x = 05, x 2 = 4 x =03 x =07 standard error standard deviation

12 0 LUKU REGRESSIO Ratkaisu Malli on siis muotoa y = β 0 + β x + β 2 x 2 + ǫ Datamatriisi ja vastevektori ovat: X = , y = Pienimmän neliösumman menetelmällä saadaan tarkkojen parametrien β estimaatti b: 04 b = (X T X X T y = 335, 083 josta varianssianalyysissa käytetty matriisi C: C = (X T X = Regressiomalli on siis ŷ = x + 083x 2 Vastepinta on taso: 5 0 y x 2 03 x 5 07

13 2 LINEAARINEN REGRESSIOMALLI Ennustamme datan vasteet ja laskemme residuaalivektorin: ŷ = Xb = Residuaalin neliösumma: Virhetermin varianssin σ 2 estimaatti s 2 : s 2 =, r = y ŷ = SSE = r 2 = r T r = 930 SSE N k = SSE 2 2 = 03 Estimoidut parametrien keskihajonnat eli standardivirheet: se(b 0 = s 2 c 00 = = 09, se(b = s 2 c = = 47, se(b 2 = s 2 c 22 = = 009 Nyt voidaan ennustaa mallia käyttäen vasteen arvo, kun x = 05 ja x 2 = 4: ξ = 05 4, ŷ = ξ T b = ( 05 4 Ennusteen keskihajonta estimoidaan: se(ŷ = s 2 ξ T Cξ = 03 = = 679

14 2 LUKU REGRESSIO Harjoitustehtävät Muodosta satunnainen datamatriisi X, jossa on N = 0 koetta ja k = 5 faktoria Valitse jokin parametrivektori β ja generoi simuloitu vastevektori y = Xβ + ǫ, missä ǫ on N(0, 00I Estimoi nyt β eli etsi b pienimmän neliösumman keinolla Laske myös parametrien estimoidut standardivirheet se(b i Kokeile miten käy, kun vaihdat matriisin X 3 sarakkeeksi sen 2 sarakkeen lisättynä pienellä luvulla δ Käy läpi arvot δ = 0, 00, 0000, ja seuraa mitä tapahtuu estimaatille b 2 Mitkä ovat faktorit, parametrit ja vasteet ja miten saadaan datamatriisit, kun mallit muunnetaan kertaluvun lineaarisiksi malleiksi, ja kun ǫ on N(0, σ 2 -normaalijakautunut virhetermi? (a y = β 0 + β 2 x 2 + β x 2 + β 23x 2 x 3 + ǫ (b y = β 0 +β sin(ω t+φ +β 2 sin(ω 2 t+φ 2 +ǫ (c y = Cλt k 3 Johda kaavat (t on aikamuuttuja (t on aikamuuttuja ja λ = e ǫ on lognormaali virhetermi (a r = (I N X(X T X X T ǫ (b X T r = 0 (c E(br T = O (d E(SSE = (N k σ 2 3 Hypoteesien testaaminen Varianssianalyysiä käyttäen voidaan testata ns lineaarisia hypoteeseja, ts muotoa H 0 : Aβ = d olevia hypoteeseja, missä A on q (k + -matriisi, jonka rivirangi on täysi, ts sen rivit ovat lineaarisesti riippumattomat, ja d on q-vektori Vielä oletetaan, että q < k + Valitsemalla A ja d sopivasti saadaan hyvinkin monenlaisia testejä Vastahypoteesi on H : Aβ d Regressiomallin hypoteesintestauksen perustulos on Lause Jos H 0 : Aβ = d on tosi, niin (aiemmin mainituin normaalisuusoletuksin suureella (Ab d T (A(X T X A T (Ab d/q SSE/(N k

15 3 HYPOTEESIEN TESTAAMINEN 3 on F-jakauma vapausastein q ja N k (taas kerran olettaen, että N > k + Todistus Ensinnäkin (kts kohdan 2 harjoitustehtävä 3c satunnaisvektorit b ja r ovat riippumattomia Näin ollen ovat myös suureet (Ab d T (A(X T X A T (Ab d ja SSE = r T r riippumattomat Edelleen suureella SSE on χ 2 -jakauma N σ 2 k vapausasteella Vielä pitää näyttää, että suureella σ 2(Ab dt (A(X T X A T (Ab d on χ 2 -jakauma q vapausasteella, kun H 0 on tosi Koska vektorilla b on N(β, σ 2 (X T X -jakauma, on vektorilla Ab d jakauma N(Aβ d, σ 2 A(X T X A T = N(0 q, σ 2 A(X T X A T Selvästi A(X T X A T on symmetrinen ja positiivisemidefiniitti Koska A:lla on täysi rivirangi ja X T X on ei-singulaarinen, on myös A(X T X A T ei-singulaarinen ja siis positiividefiniitti Schurin lauseen mukaan se voidaan kirjoittaa muotoon A(X T X A T = QΛQ T, missä Q on ortogonaalimatriisi ja Λ on lävistäjämatriisi, jonka lävistäjällä ovat A(X T X A T :n (positiiviset ominaisarvot Näin ollen on matriisilla (A(X T X A T neliöjuuri Q Λ Q T =: B, missä lävistäjämatriisi Λ saadaan matriisista Λ ottamalla sen lävistäjäalkioista neliöjuuret Ilmeisesti B on symmetrinen ei-singulaarinen matriisi Nyt vektorin B(Ab d jakauma on N(0 q, σ 2 BB 2 B T = N(0 q, σ 2 I q Suureella σ 2(Ab dt (A(X T X A T (Ab d = σ 2(B(Ab dt B(Ab d on näin ollen χ 2 (q-jakauma Hypoteesin testaaminen sujuu tavalliseen tapaan Merkitsevyystaso α kiinni- level of significance tetään Jos testisuure osuu varjostetulle häntäalueelle kuvassa, hylätään H 0 Mitä huonommin H 0 pitää paikkansa, sitä suurempi pyrkii Ab d ja F-testisuure olemaan F q,n k ala = α

16 4 LUKU REGRESSIO Jos q =, on hypoteesi H 0 muotoa a T β = d, ja F-testin suure on N k SSE (a T b d 2 a T (X T X a = (a T b d 2 s 2 a T Ca Hypoteesin testaamiseen voidaan yhtä hyvin ottaa N k vapausasteella t- jakautunut suure t i = at b d s2 a T Ca eli F-testisuureen neliöjuuri Hypoteesi H 0 : a T β = d hylätään, jos suure t i osuu varjostetulle alueelle kuvassa Tätä t-suuretta käyttäen voidaan myös tehdä yksipuolisia testejä t N k Valinta a T = (0,,0,, 0,, 0, missä on i:s alkio, antaa hypoteesin H 0 : β i = 0, joka testaa faktorin x i tarpeellisuutta mallissa Tällöin F-testisuure on b 2 i s 2 c ii ja t-testisuure on sen neliöjuuri Koko mallin käyttökelpoisuutta puolestaan testaa hypoteesi H 0 : β = = β k = 0 design matrix Jos tätä H 0 :aa ei hylätä, ovat käytetyt faktorit huonoja selittäjiä, ts koko malli voitaisiin yhtä hyvin korvata vakiolla + kohinalla (eli mallilla y = β 0 +ǫ Vastaava A-matriisi on ( 0 k I k ja d = 0k Tehdään datamatriisissa ja b-vektorissa samanlainen ositus: X = ( N D ( b0 ja b = (Matriisi D on muuten ns suunnittelumatriisi, jota tarvitaan vielä jatkossa Tässä N on N-vektori, jonka kaikki alkiot ovat ykkösiä Silloin Ab = b ja ( X T T X = N ( N D ( N T = N D D T D T N D T D b Edelleen tällöin (Ab d T (A(X T X A T (Ab d = b T (A(XT X A T b =: SSR,

17 3 HYPOTEESIEN TESTAAMINEN 5 ns regression neliösumma Tunnetun lohkomatriisien kääntökaavan mukaan (X T X :n oikea alalohko eli siis A(X T X A T on ( D T D D T N N T ND = (D T M N D Matriisi M N = I N N N T N on ns keskitysmatriisi Sillä kertominen vähentää vektorista sen keskiarvon Koska M N N = 0 N, niin SSR = b T DT M N Db = (b 0 N + Db T M N (b 0 N + Db = (Xb T M N Xb = ŷ T M N ŷ Koska edelleen X T r = 0 k+ (kohdan 2 harjoitustehtävä 3b, niin T N r = 0 (tarkastellaan vain X:n ensimmäistä saraketta ja ŷ T r = b T X T r = 0 Näin ollen r T M N ŷ = r (I T N N N T N ŷ = r T ŷ N rt N T Nŷ = 0 ja r T M N r = r T (I N N N T N r = r T r N rt N T N r = rt r = SSE Ns kokonaisneliösumma SST := (M N y T (M N y total sum of squares on näin hajotettavissa residuaalin neliösumman ja regression neliösumman summaksi: SST = (M N y T (M N y = y T M N y = (r + ŷ T M N (r + ŷ = r T M N r + ŷ T M N ŷ = SSE + SSR Jakamalla neliösumma vapausasteellaan saadaan aina vastaava keskineliö: ( U V Jos neliömatriisin neliölohko U on ei-singulaarinen, niin neliömatriisi on eisingulaarinen jos ja vain jos Z WU V on ei-singulaarinen Sen käänteismatriisi on W Z ( U + U V(Z WU V WU U V(Z WU V (Z WU V WU (Z WU V mean square

18 6 LUKU REGRESSIO ANalysis Of VAriance coefficient of determination adjusted R 2 MSE := SSE N k = s2, MSR := SSR k, MST := SST N (residuaalin keskineliö, regression keskineliö ja kokonaiskeskineliö Hypoteesin H 0 : β = = β k = 0 testisuure on näin ollen MSR/MSE ja sillä on Lauseen mukaan F-jakauma vapausastein k ja N k Vastahypoteesi on H : ainakin yksi parametreistä β,,β k on 0 H 0 :n hylkääminen merkitsee, että ainakin yhdellä faktorilla on merkittävää vaikutusta vasteeseen Varianssianalyysitaulu eli ANOVA-taulu sisältää kaiken tämän: variaation lähde vapausasteet neliösummat keskineliöt F merkitsevyys regressio residuaali kokonaisvariaatio k N k N SSR SSE SST MSR MSE MST MSR MSE Neliösummista saadaan myös ns determinaatiokerroin eli selitysaste SSR SST =: R2 pienin α:n arvo, jolla H 0 hylätään R 2 ilmoittaa kuinka suuren suhteellisen osan vastevektorin otosvarianssista regressio selittää R 2 :n neliöjuuri R on ns yhteiskorrelaatiokerroin Jotkut käyttävät mieluummin ns korjattua determinaatiokerrointa MSE MST =: R2 A = ( R 2 N N k RA 2 ilmoittaa kuinka paljon suhteellisesti V (ǫ:n estimoidusta arvosta voidaan poistaa sovittamalla jokin muu kuin H 0 :n mukainen malli y = β 0 + ǫ verrattuna siihen V (ǫ:n estimoituun arvoon (= MST, joka ko mallin avulla saadaan Esimerkki Kohdan 2 esimerkin vasteen kuvaaja (sivulla 9 näyttää neliölliseltä x 2 :n suhteen, varsinkin kun x = 03, joten tuntuu järkevältä lisätä termin β 22 x 2 2 malliin Koska koejärjestelyissä ei ole testattu kuin kahdella x :n arvolla, ei voida ottaa mukaan x :n toisen asteen termejä Yhteisvaikutukset saadaan kertomalla lineaariset ja neliölliset x 2 faktorit ja lineaariset x faktorit keskenään Määritä siis kolmannen kertaluvun malli y = β 0 + β x + β 2 x 2 + β 2 x x 2 + β 22 x β 22 x x ǫ kohdan 2 esimerkin datalle Testaa faktorin x x 2 2 tarpeellisuus ja koko mallin käyttökelpoisuus Laske mallin determinaatiokertoimet R 2 ja RA 2

19 3 HYPOTEESIEN TESTAAMINEN 7 Ratkaisu Nyt siis β = β 0 β β 2 β 2 β 22 β 22, b = b 0 b b 2 b 2 b 22 b 22 Datamatriisi ja vastevektori ovat: X = , y = Mallin kertoimet ovat: b = (X T X X T y = Varianssianalyysin matriisi C: C = (X T X = Malli on siis ŷ = x +333 x x x x x x 2 2 Vastepinta on lievästi kaareva:

20 8 LUKU REGRESSIO 5 y x 2 Ennustetut vasteet ja residuaali: ŷ = Xb = 87 52, r = y ŷ = Residuaalin neliösumma: Varianssin estimaatti: s 2 = 03 SSE = r T r = 52 SSE N k = Estimoidut parametrien keskihajonnat: 07 x SSE 2 5 = 025 se(b 0 = s 2 c 00 = = 03, se(b = s 2 c = = 92, se(b 2 = s 2 c 22 = = 053, se(b 2 = s 2 c 33 = = 099, se(b 22 = s 2 c 44 = = 005, se(b 22 = s 2 c 55 = = 00

21 3 HYPOTEESIEN TESTAAMINEN 9 Testataan kolmannen asteen faktorin x x 2 2 tarpeellisuus Hypoteesit siis ovat: eli matriiseina: kun F-testisuure on: H 0 : β 22 = 0, H : β 22 0, H 0 : a T β = d, H : a T β d, a T = A = ( , d = 0 F = (a T b d 2 = 032, s 2 a T Ca jolla siis on F-jakauma vapausastein q = ja N k = 2 5 = 6 Testin voi myös tehdä t-testinä jolloin suureeksi saadaan: t = at b d s2 a T Ca = 32, vapausastein N k = 6 Taulokoista tai ohjelmistoista nähdään, että molemmilla testeillä pienin merkitsevyystaso α, jolla H 0 hylätään on 008 Koko mallin käyttökelpoisuus testataan hypoteesein H 0 : β = = β k = 0, H : β i 0 jollakin termilläi {, 2, 2, 22, 22}, eli matriiseina: kun Testisuure on F = A = H 0 : Aβ = d, H : Aβ d, , d = (N k q SSE (Ab dt (A(X T X A T (Ab d (2 5 = 5 SSE (Ab dt (ACA T (Ab d = 4333 Pienin merkitsevyys α, jolla H 0 hylätään, on Malli siis toimii Lasketaan F-suure uudestaan, nyt ANOVA-taulun kautta Otetaan käyttöön matriisi M 2 = I T 2

22 20 LUKU REGRESSIO Nyt voimme laskea regression neliösumman: ja edelleen kokonaisneliösumman: SSR = ŷ T M 2 ŷ = 89, SST = SSE + SSR = = 8344 Neliösummia vastaavat keskineliöt: ja F-testisuure: MSE = SSE N k = = 025, MSR = SSR k Tulokset kootaan ANOVA-tauluksi = 89 5 = 3638, MST = SST N = = 668 F = MSR MSE = = 4333 variaation lähde vapausasteet neliösummat keskineliöt F merkitsevyys regressio residuaali kokonaisvariaatio Lopuksi lasketaan vielä determinaatiokerroin ja korjattu determinaatiokerroin: R 2 = SSR SST = 0997, R2 A = MSE MST = Harjoitustehtävät Taulussa on annettu mittaustulokset eräälle transistorien valmistukseen liittyvälle koesarjalle Faktori x on käsittelyaika ja faktori x 2 ionikonsentraatio, kumpikin koodattuna välille [, ] (Datan koodauksesta lisää luvun 2 kohdassa Koodaus on tässä tarpeen kertalukueroista johtuen, sillä tyypillinen käsittelyaika on luokkaa 200 min ja ionikonsentraatio Vaste

23 3 HYPOTEESIEN TESTAAMINEN 2 y on vahvistuskerroin x x 2 y (a Estimoi mallin y = β 0 +β x +β 2 x 2 +ǫ parametrit sekä ǫ:n varianssi (b Testaa parametrien merkitsevyys H 0 : β i = 0 (i = 0,, 2 kaksipuolisella t-testillä Ilmoita kunkin parametrin kohdalla pienin riski, jolla se otetaan mukaan malliin (c Ennusta vasteen arvo suurimmalla kokeissa olleella käsittelyajalla ja ionikonsentraatiolla (d Testaa vielä hypoteesi H 0 : β = 350 F-testillä Ilmoita pienin riski, jolla H 0 voidaan hylätä 2 Minkälainen matriisi A ja vektori d tarvitaan seuraavissa lineaarisissa hypoteesin testauksissa? Malli on y = β 0 + β x + + β k x k + ǫ (a Testataan, onko kaikkien faktorien vaikutus sama, ts onko H 0 : β = = β k (b Malli on aikanaan estimoitu suurella koesarjalla ja sitä käytetään myöhemmin harvoin Kun sitä käytetään, testataan ensin varmuuden vuoksi mallin toimivuus suorittamalla uudet kokeet kahdella tyypillisellä faktoriyhdelmällä: x x 2 x k y x x 2 x k y x x 2 x k y Saatujen tulosten perusteella testataan hypoteesi H 0 : malli toimii ko kokeiden perusteella

24 22 LUKU REGRESSIO 3 Taulussa on annettu mittaustulokset erääseen kemialliseen prosessiin liittyvälle koesarjalle x on lämpötila ja x 2 reaktantin väkevyys, koodattuna ns CCD-kokeen muotoon (CCD-kokeista lisää myöhemmin Vaste y on tuotosprosentti x x 2 y Malli on neliöllinen eli 2 kertalukua: y = β 0 + β x + β 2 x 2 + β x 2 + β 2x x 2 + β 22 x ǫ (a Testaa mallin merkitsevyys, ts laadi ANOVA-taulu (b Laske myös kertoimet R 2, R, R 2 A ja R A 4 Mallin merkitsevyystestin F-testisuure esitetään usein muodossa (a Totea, että kaava on oikein F = R2 (N k ( R 2 k (b N-vektoriny ns otosvarianssi eli alkioiden varianssi on V y = N yt M N y Toisaalta kahden N-vektorin y ja y 2 ns otoskovarianssi eli alkioittainen kovarianssi on cov y y 2 = N yt M Ny 2 ja otoskorrelaatiokerroin on ρ y y 2 = cov y y 2 Vy Vy2 Totea, että R = ρ yŷ, ts yhteiskorrelaatiokerroin on vastevektorin ja ennustetun vastevektorin otoskorrelaatiokerroin (tästä sen nimi

25 5 MALLIN EPÄSOPIVUUDEN TESTAUS TOISTOKOKEIN 23 4 Mallin epäsopivuuden testaus toistokokein Regressiomallin epäsopivuus tarkoittaa sitä, että lisäämällä uusia faktoreita tai en- lack of fit tisistä faktoreista muodostettuja uusia (korkeampiasteisia faktoreita, residuaalia voidaan pienentää Jos siis malli y = x T β + ǫ on epäsopiva, tarkoittaa se sitä, että jokin laajennettu malli y = x T β + z T γ + ǫ, missä z = (z,,z l T on uusien tai entisistä kertomalla tai muuten saatujen faktorien muodostama vektori ja γ = (γ,,γ l T on uusi parametrivektori, on parempi Huomaa, että sovitettaessa jälkimmäinen malli pienimmän neliösumman keinolla vastevektoriin y ja datamatriisiin ( X Z, missä X on aikaisempi datamatriisi ja Z uusia faktoreita vastaavista sarakkeista muodostettu jatke, eivät parametrit β saa (välttämättä samoja arvoja kuin sovitettaessa alkuperäistä mallia Tämä johtuu siitä, että uudet selittävät faktorit voivat osittain selittää samoja tekijöitä, kuin vanhat faktorit Uusien faktorien osuutta voidaan erotella kirjoittamalla Z = Ẑ + (Z Ẑ, missä matriisiẑ saadaan ennustamalla matriisinzsarakkeet vanhaa mallia käyttäen ja matriisissa (Z Ẑ on se, mitä uudet faktorit selittävät ja vanhat eivät Matriisin Ẑ sarakkeet ovat siis vanhan mallin datamatriisin sarakkeiden lineaariyhdelmiä, Ẑ = XE, ja matriisin (Z Ẑ sarakkeet ja vanhan mallin datamatriisin sarakkeet ovat ortogonaalisia, X T (Z Ẑ = O, joten E = (X T X X T Z (ns aliasmatriisi Hypoteesi, jonka mukaan malli ei ole tarkasteltujen uusien faktorien kannalta epäsopiva, on näin ollen H 0 : (Z Ẑγ = 0 N Vastahypoteesi on tietysti H : (Z Ẑγ 0 N Jos halutaan testata, onko mallia yleensä ottaen mahdollista parantaa, pitää verrata virhetermin aiheuttamaa varianssia vasteen selittämättä jääneen osan aiheuttamaan varianssiin Jos

26 24 LUKU REGRESSIO jälkimmäinen on huomattavasti suurempi, on mallin sopivuutta mahdollista parantaa uusia faktoreita käyttäen Testisuure tällaiselle testaukselle saadaan, jos mukana on toistokokeita, ts da- tamatriisissa on samoja rivejä Oletetaan, että datamatriisissa X on erilaisia rivejä m kappaletta Huomaa, että m k +, muuten X T X on singulaarinen Kootaan mainitut erilaiset rivit m (k + -matriisiksi X Silloin voidaan kirjoittaa replicate observations X = TX sopivasti valitulle N m-matriisille T Huomaa, että T:llä on täysi sarakerangi, ts sen sarakkeet ovat lineaarisesti riippumattomat, ja että T m = N Itse asiassa T saadaan identiteettimatriisista I m toistamalla sen rivejä sopivasti Laajin mahdollinen malli, joksi alkuperäinen malli voidaan täydentää, saadaan, kun lisätään datamatriisiin X suurin mahdollinen määrä sarakkeita, jotka ovat aikaisemmista sarakkeista lineaarisesti riippumattomia, samalla säilyttäen toistetut rivit Tällaiseen malliin ei nimittäin voida lisätä yhtäkään uutta selittäjää, joka ei, toistokokeiden puitteissa, riippuisi lineaarisesti aikaisemmista Täydennetään X ensin m m-matriisiksi lisäämällä siihen m k aikaisemmista lineaarisesti riippumatonta saraketta: ( X Z =: X2 Matriisin X täydennys on sen jälkeen N m-matriisi TX 2 = ( TX TZ = ( X Z =: X3, missä Z = TZ Alkuperäisestä datamallista (Malli I y = Xβ + ǫ saadaan näin laajennettu datamalli (Malli II ( β y = X 3 + ǫ = Xβ + Zγ + ǫ γ Mallista II saatu ennustevektori on ŷ II = X 3 (X T 3 X 3 X T 3 y = TX 2(X T 2 TT TX 2 X T 2 TT y = T(T T T T T y, joka ei riipu Z :stä, ts siitä, miten X täydennetään! Näin ollen saatava testi ei myöskään riipu mallin laajennustavasta, kunhan toistojen rakenne (eli T säilytetään Mallista II saatava residuaali on r II = (I N T(T T T T T y

27 5 MALLIN EPÄSOPIVUUDEN TESTAUS TOISTOKOKEIN 25 ja tämän residuaalin neliösumma on r T II r II =: SSPE, ns puhtaan virheen neliösumma Yritetään selittää Mallin I residuaalivektori sum of squares for pure error r = (I N X(X T X X T y Mallin II avulla Jos tämä onnistuu tarpeeksi hyvin, ei Malli I ole sopiva, vaan se voidaan täydentää sopivammaksi Merkitään lyhyyden vuoksi P = I N X(X T X X T ja R = I N T(T T T T T Silloin todetaan helpolla laskulla, että P ja R ovat symmetrisiä idempotentteja matriiseja ja että RX = O, RZ = O, RP = PR = R, PX = O, rank(p = trace(p = N k, rank(r = trace(r = N m Selitettäessä Mallin II avulla Mallin I residuaalia r on selittämättä jäävä residuaali r II = Ry = RPy = Rr, jonka neliösumma on nimenomaan SSPE Kokonaisneliösumma on puolestaan r T r eli Mallin I residuaalin neliösumma SSE Edelleen regression neliösumma tässä selitysyrityksessä on SSE SSPE =: SSLOF, ns epäsopivuuden neliösumma Matriisimuodossa SSLOF = y T (P Ry sum of squares due to lack of fit Matriisi P R on symmetrinen idempotentti matriisi, jonka rangi on trace(p R = trace(p trace(r = m k Neliösumma SSPE vastaa sitä osaa residuaalivarianssista, joka johtuu virhetermistä Siihen ei voida vaikuttaa mallilla, olipa tämä kuinka hyvä tahansa SSLOF vastaa taas sitä osaa residuaalivarianssista, joka johtuu mallin huonosta selittävyydestä eli epäsopivuudesta Mutta: Residuaali r ei ole oikeaa vasteen tyyppiä, sillä sillä on singulaarinen normaalijakauma (ts P on singulaarinen Näin ollen saatujen neliösummien jakaumat ja vapausasteet sekä niihin perustuva ANOVA katsotaan erikseen Huomaa kuitenkin, että SSPE on Mallin II residuaalin neliösumma, joten sillä on χ 2 - jakauma N m vapausasteella

28 26 LUKU REGRESSIO Lause 2 Jos hypoteesi H 0 : PZγ = 0 N on tosi Mallille II, niin suureella SSLOF/(m k SSPE/(N m on F-jakauma vapausastein m k ja N m (olettaen tietysti, että m > k+ Todistus Pitää näyttää, että SSLOF ja SSPE ovat riippumattomasti χ 2 -jakautuneet vapausastein m k ja N m, vastaavasti Hypoteesin H 0 voimassaollessa (P Ry = (P R(Xβ + Zγ + ǫ = (P Rǫ ja Ry = R(Xβ + Zγ + ǫ = Rǫ Koska P R ja R ovat symmetrisiä idempotentteja matriiseja, R(P R = O N ja satunnaisvektorilla ǫ on N(0 N, σ 2 I N -multinormaalijakauma, on lause oikea Lauseessa esiintyvä Z on tietysti se laajin mahdollinen, jolla alkuperäistä datamatriisia X täydennetään Vastahypoteesi on H : PZγ 0 N SSPE:llä on siis vapausasteita N m ja SSLOF:llä m k Vastaavat keskineliöt ovat näin ollen SSPE N m =: MSPE ja SSLOF m k =: MSLOF (puhtaan virheen keskineliö ja epäsopivuuden keskineliö Varianssianalyysitaulu on siten variaation lähde vapausasteet neliösummat keskineliöt F merkitsevyys epäsopivuus puhdas virhe residuaali m k N m N k SSLOF SSPE SSE MSLOF MSPE MSE MSLOF MSPE pienin α:n arvo, jolla H 0 hylätään Jos hypoteesia H 0 ei hyväksytä, voidaan mallia parantaa täydentämällä sitä sopivilla faktoreilla Huomaa, että jos erityisesti täydentävät faktorit ovat entisistä laskien saatuja korkean asteen faktoreita, niin edellä esitetty toistettujen rivien säilyminen täydennettäessä on automaattista Näin ollen esitetty testi on erityisen sopiva juuri tällaista täydennystä ajatellen Jos mallia päätetään täydentää, ei tietystikään mukaan välttämättä kannata ottaa kaikkia mahdollisia lisäselittäjiä, vaan vain sopivasti valitut lisäfaktorit Tilastolliset ohjelmistot tarjoavatkin korkeampiasteisten faktorien osalta monia (puoliautomaattisia lisäys- ja valintamenetelmiä (ns askeltava regressio Epäsopivuustesti voidaan tehdä muutenkin kuin toistokokeita käyttäen Matriisista T:kin käytettiin nimittäin vain sen ominaisuuksia

29 5 MALLIN EPÄSOPIVUUDEN TESTAUS TOISTOKOKEIN 27 (i T:llä on täysi sarakerangi (jotta T T T olisi ei-singulaarinen ja (ii hajotelmassa X = TX on X :llä täysi sarakerangi k + (jotta se voidaan täydentää ei-singulaariseksi m m-matriisiksi X 2 Mikä tahansa matriisi, joka toteuttaa nämä ehdot, kelpaisi periaatteessa T:n tilalle Tällöin ei kyseessä olisi välttämättä enää koetoistoihin perustuva testi Valitsemalla T eri tavoin saadaan erilaisia epäsopivuustestejä, tosin näin saadut testit ovat yleensä heikompia kuin toistoihin perustuvat Ks myös CHRISTENSEN ja artikkeli JOGLEKAR, G & SCHUENMEYER, JH & LARICCIA, V: Lack-of-Fit Testing When Replicates Are Not Available, The American Statistician 43 (989, Esimerkki Testaame kohdan 2 mallin sopivuuden toistokokein Datamatriisi X on X = , jossa on 6 erilaista riviä, eli m = 6 Erilaisten rivien matriisi X : X =

30 28 LUKU REGRESSIO Matriisi T, joka toteuttaa yhtälön X = TX on selvästi: T = Käyttöön otetaan matriisit P ja R, jotka siis määriteltiin: P = I N X(X T X X T, R = I N T(T T T T T Nyt saadaan mallin II residuaali: puhtaan virheen neliösumma: r II = Ry = ja edelleen epäsopivuuden neliösumma: Vastaavat keskineliöt: SSPE = r T II r II = 52,, SSLOF = SSE SSPE = = 778 MSPE = SSPE N m = = 025,

31 5 MALLIN RIITTÄVYYS 29 MSLOF = Hypoteesit epäsopivuuden testaukseen ovat SSLOF m k = = 259 H 0 : Malli on sopiva, H : Malli on epäsopiva, eli matriiseina: H 0 : PZγ = 0 N, H : PZγ 0 N ja niitä vastaava F-testisuure: F = MSLOF MSPE = = 02 Pienin merkitsevyys, jolla H 0 hylätään, on 0009 Mallia voi siis parantaa, joka onkin todettu luvun 3 esimerkissä Kootaan tulokset varianssianalyysitauluksi variaation lähde vapausasteet neliösummat keskineliöt F merkitsevyys epäsopivuus puhdas virhe residuaali Harjoitustehtävät Tehtävän 3-3 mittaustuloksissa on toistoja, ns keskustoistoja Testaa näitä käyttäen mallin sopivuus 2 Minkälainen on epäsopivuustestin matriisi T seuraavissa tilanteissa, liittyen siihen, miten kokeet on järjestetty datamatriisissa? Matriisi T T T on aina m m-lävistäjämatriisi, millainen? (a Kokeet tehdään toistoineen järjestyksessä, ts ensin ensimmäisen yhdelmän kokeet toistoineen (t kpl, sitten toisen yhdelmän kokeet toistoineen (t 2 kpl, jne (b Toistot tehdään sarjassa, ts tehdään ensin kokeet kaikilla eri faktoriyhdelmillä ja sitten toistetaan samaa koesarjaa t kertaa (c Ensin tehdään kokeet kaikilla eri faktoriyhdelmillä ja sitten vasta toistot yhdelmä kerrallaan järjestyksessä, ts ensin tehdään ensimmäisen yhdelmän (mahdolliset toistot (s toistettua kertaa, sitten toisen yhdelmän (mahdolliset toistot (s 2 toistettua kertaa, jne

32 30 LUKU REGRESSIO 5 Mallin riittävyys Mallin riittävyys tarkoittaa sitä, että mallin yhteydessä sovitut oletukset (riippu- mattomuudet, normaalisuus, varianssien samuus, jne pitävät paikkansa Koska ANOVA saattaa olla hyvinkin herkkä poikkeamille näistä oletuksista, testataan usein oletusten voimassaoloa Testauksessa käytetään residuaalia r Jos malli on riittävä, ei residuaalissa ole juurikaan muuta virhettä kuin N(0 N, σ 2 I N -jakautuneen satunnaismuuttujan ǫ aiheuttamaa kohinaa Ellei näin ole, on mahdollisia syitä useita model adequacy Epänormaalisuus Jos virhetermin ǫ jakauma ei olekaan multinormaali, vaan jotakin muuta, ei ANO- VAn tuloksiin ole paljoakaan luottamista Epänormaalisuuden toteamiseksi voidaan residuaalivektorin r komponenttien olettaa olevan otos ja tutkia, voiko tämän otoksen katsoa olevan peräisin normaalijakautuneesta satunnaismuuttujasta, esimerkiksi piirtämällä vastaava pylväsdiagrammi Parempi menettely on järjestää residuaalit suuruusjärjestykseen r ( r (2 r (N normal probability ja piirtää ns normaalitodennäköisyyskuvion pisteet plot, Q-Q plot ( ( j r (j, Φ, j =,,N, N + missä Φ on käänteinen standardinormaalikertymä Kuvion pisteiden pitäisi olla kutakuinkin samalla suoralla Usein kertymän argumentti j/(n + korvataan jollain muulla kaavalla, esimerkiksi j 2 N, j 3 N +, tai 3 j 3 8 N + 4 outliers Jakaumatestausta varten on olemassa omia tilastollisiakin testejä, mm Kolmogorovin ja Smirnovin testi ja Cramerin ja von Misesin testi Toisinaan sattuu, että yksi tai useampikin r:n komponenteista on itseisarvoltaan muita huomattavasti suurempi Tällaisia komponentteja kutsutaan ulkolaisiksi Ne ovat merkkejä joko siitä, että vastaava koe on virheellinen tai sitten siitä, että muut kokeet onkin tehty tilanteen kannalta huonolla alueella Ulkolaisten esiintyessä on aina selvitettävä, mistä ne johtuvat, sillä ANOVA on osoittautunut herkäksi ulkolaisten esiintymiselle Useinkaan ei ole selvää, onko poikkeava komponentti ulkolainen vai sattuman oikusta syntynyt poikkeava arvo Ulkolaisten tunnistamiseksi on erityisiä testejäkin Koska residuaalin i:nnen komponentin

33 5 MALLIN RIITTÄVYYS 3 varianssi on V (r i = σ 2 ( h ii, missä h ii on matriisin H := X(X T X X T i:s lävistäjäalkio, eräs tällainen testi on laskea ns studentoitu residuaali s2 ( h ii r i =: e i Satunnaismuuttuja e i on likimain standardinormaalisesti jakautunut, joten nyrkkisääntö on: jos e i on itseisarvoltaan 3, on syytä epäillä sitä ulkolaiseksi Korrelointi Vaikka ǫ:n komponentit olisivatkin normaalijakautuneita, voi niiden välillä olla korrelaatiota, ts ne eivät ole riippumattomia Asia paljastuu usein piirrettäessä r:n komponentit kokeiden fysikaalisen suoritusjärjestyksen funktiona Siksi järjestys on syytä olla satunnaistettu ja tallennettu Korrelointi näkyy tällaisesta kuvaajasta usein selvästi seuraavan kuvion tapaan, sillä se johtuu tällöin ajallisesta yhteydestä Residuaali ei saa korreloida muidenkaan muuttujien kanssa eikä erityisesti vasteen kanssa (tehtävä 4-3 Piirtämällä residuaali vs ennustettu vaste paljastuu usein mallin tämänkaltainen riittämättömyys Eo kuvio olisi nytkin hälyttävä Heterogeeninen varianssi Vaikkei epänormaalisuutta tai korrelaatiota esiinnykään, voi malli osoittautua riittämättömäksi vielä sen vuoksi, että ǫ:n komponenttien varianssit eivät ole samat Usein tämä näkyy piirrettäessä r:n komponentit suoritusjärjestyksen funktiona kuten edellä: hajonta on jossakin suurempaa kuin muualla Alla on neljä hälyttävää kuviota

34 32 LUKU REGRESSIO Esimerkki Tarkistamme kohdan 2 esimerkin lineaarisen mallin riittävyyden Kokeet tehtiin järjestyksessä (2, 9, 3, 0, 4, 7, 2,, 8, 6,, 5 Mallinnuksen tulokset ovat x x 2 y ŷ r h ii e Taulukon viimeisessä sarakkeessa olevat arvot ovat kaikki itseisarvoltaan reilusti alle 3, joten ulkolaisia ei näytä olevan Normaalitodennäköisyyskuvio on

35 5 MALLIN RIITTÄVYYS P r Residuaalin kuvaaja ennustetun vasteen funktiona on 2 r ŷ Mitään sen kummempaa merkkiä epänormaalisuudesta tai korrelaatiosta näistä kuvista ei paljastu Piirretään vielä residuaalin kuvaaja koejärjestyksen funktiona: 2 r järjestys Tiettyä huolta virheen varianssin kasvamisesta ajan kuluessa voisi tämän kuvan perusteella tuntea

36 34 LUKU REGRESSIO Harjoitustehtävät Tarkista tehtävän 3- mallin riittävyys 2 Tarkista tehtävän 3-3 mallin riittävyys 3 Todista residuaalin ja ennustetun vasteen riippumattomuus 4 Johda kaava V (r i = σ 2 ( h ii ja todista, että 0 h ii

37 Luku 2 KOKEIDEN SUUNNITTELU 2 Datan muunnokset Jos X = ( N D on N (k + -datamatriisi (jossa matriisi D on suunnittelumatriisi ja L on ei-singulaarinen (k + (k + -matriisi, jonka ensimmäinen sarake on (, 0,, 0 T, niin XL on myös N (k + -datamatriisi, joka sisältää saman informaation kuin X Tällainen muunnos on datan affiinimuunnos Matriisi affine L on siis muotoa ( l T L = 0 k K missä l on k-vektori ja K on ei-singulaarinen k k-matriisi, ja uusi datamatriisi on oikean muotoinen Koska, XL = ( N N l T + DK y = Xβ + ǫ = XLL β + ǫ, on uutta datamatriisia XL vastaava parametrivektori L β =: γ Edelleen pienimmän neliösumman keinon antama parametrivektorin γ estimaatti on g = ((XL T XL (XL T y = L (X T X (L T L T X T y = L b ja uusi ennustevektori on XLg = Xb = ŷ eli sama kuin vanha Näin ollen myöskin residuaali pysyy datan affiinimuunnoksessa samana ja itse asiassa kaikki neliösummat SSE, SST ja SSR sekä vastaavat keskineliöt pysyvät samana Mallin merkitsevyys ei siis muutu Toisaalta V (g = σ 2 ((XL T XL = σ 2 L (X T X (L T 35 transformation

38 36 LUKU 2 KOESUUNNITTELUT voi hyvinkin olla edullisempaa muotoa kuin V (b, ts g:n komponenttien välillä voi olla vähemmän korrelaatiota kuin b:n komponenttien välillä ja niiden varianssit voivat olla pienempiä kuin b:n komponenttien varianssit Tavallinen ensimmäisen kertaluvun mallin datan affiinimuunnos on skaalaus, jota vastaava matriisi K on lävistäjämatriisi, K = /p /p k jonka lävistäjäalkiot ovat nollasta eroavia Selittäjä x i korvautuu skaalauksessa selittäjällä x i p i + l i, missä l i on vektorin l i:s alkio Skaalaus ei vaikuta mallin ensimmäisen kertaluvun termien merkitsevyyteen, sillä yhtälöstä γ i = p i β i ( i k seuraa, että hypoteesi H 0 : β i = 0 on yhtä kuin hypoteesi H 0 : γ i = 0 Skaalauksen tarkoituksena on, paitsi vaihtaa selittävien muuttujien asteikot sopivammiksi, muuntaa keinotekoisesti selittävät muuttujat tyypillisten arvojensa suhteen samaan asemaan Tyypillisten arvojen kokoero saattaa nimittäin alunperin olla monia dekadeja, mikä aiheuttaa mm numeerista epätarkkuutta laskuissa Tällöin suoritetaan ensin skaalaus ja vasta sitten mallin sovitus Erityinen skaalauksen muoto on datan standardointi, jossa p i on x i :n otoshajonta ja l i on x i :n otosvariaatiokertoimen vastaluku, ts valitaan, p i = N (x ji x i 2 ja l i = x i /p i, N j= missä x i on x i :n otoskeskiarvo Matriisimuodossa: p i = (D T M N D ii, l T = N T N DK Jos data on kunkin faktorin osalta tasavälistä, käytetään usein koodausta, joka myös on eräs skaalauksen muoto Tällöin p i = max(x i,,x Ni min(x i,, x Ni 2 l i = min(x i,,x Ni + max(x i,, x Ni p i 2 Lähinnä koodausta käytetään tilanteessa, missä kullakin faktorilla on kaksi tasoa tai kolme tasavälistä tasoa, sillä tällöin koodatut arvot ovat {, } tai {0,, }

39 2 DATAN MUUNNOKSET 37 Esimerkki Suorita standardointi ja koodaus kohdan 2 esimerkin datalle ja sovita malli ensin standardoituun ja sitten koodattuun dataan Ratkaisu Standardointia varten lasketaan aluksi ensimmäisen asteen faktorien keskiarvot: x = N x 2 = N N i= N i= x i = ( = 050, 2 x i2 = ( = ja otoshajonnat: p s = p s2 = N ( (07 05 (x j x N 2 = 2 = 02, 2 j= N ( (9 5 (x j2 x 2 N 2 = 2 = 34 2 j= Vektorin l s komponentit: K s -matriisi ja l s -vektori: l s = x 2 /p s2 = 500/34 = 47 ( /ps 0 K s = 0 /p s2 = ( / /34 = ( ( 240, l s = 47 Saadaan matriisi L s : L s = ( l T s 0 2 K s =

40 38 LUKU 2 KOESUUNNITTELUT Standardoidaan datamatriisi: X s = XL s = = Matriisi C s on harvempi kuin alkuperäisellä datalla: C s = (X T s X s = Lasketaan parametrien estimaatit: b s = C s X T s y = Virhetermin varianssin σ 2 estimaatti: SSE s = (y X s b s T (y X s b s = 930, s 2 s = SSE s N k = 03 Estimoidut parametrien keskihajonnat: se(b s0 = s 2 sc s00 = = 029, se(b s = s 2 s c s = = 030, se(b s2 = s 2 s c s22 = = 030 Koodaus: p c = max(x,,x N min(x,,x N 2 = = 02,

41 2 DATAN MUUNNOKSET 39 p c2 = max(x 2,,x N2 min(x 2,,x N2 2 l c = p min(x,,x N + max(x,, x N 2 l c2 = p 2 min(x 2,,x N2 + max(x 2,,x N2 2 K c -matriisi ja l c -vektori: ( /pc 0 K c = = 0 /p c ( / /4 = ( = 9 = 4, 2 = = 25, = + 9 = ( 25, l c = 25 Saadaan matriisi L c : L c = ( l T c 0 2 K c = Koodataan datamatriisi: X c = XL c = = Matriisi C c on harvempi kuin alkuperäisellä datalla: C c = (X T c X c = Lasketaan parametrien estimaatit: b c = C c X T c y =

42 40 LUKU 2 KOESUUNNITTELUT Virhetermin varianssin σ 2 estimaatti: SSE c = (y X c b c T (y X c b c = 930, s 2 c = SSE c N k = 03 Estimoidut parametrien keskihajonnat: se(b c0 = s 2 cc c00 = = 029, se(b c = s 2 c c c = = 029, se(b c2 = s 2 cc c22 = = 036 Esitetään vielä alkuperäinen, standardoitu ja koodattu data vierekkäin: Harjoitustehtävät alkuperäinen standardoitu koodattu x x 2 x x 2 x x Kohdan 3 esimerkissä JMP ohjelma vaihtaa automaattisesti mallin y = β 0 + β x + β 2 x 2 + β 2 x x 2 + β 22 x β 22x x ǫ muotoon y = γ 0 + γ x + γ 2 x 2 + γ 2 (x x (x 2 x 2 + γ 22 (x 2 x γ 22 (x x (x 2 x ǫ Muodosta käytetty affiinimuunnoksen matriisi L ja tarkista, että hypoteesien H 0 : γ 22 = 0 ja H 0 : β 22 = 0 testisuureet ovat samat 2 Tehtävässa 3 oli annettu mittaustulokset eräälle transistorien valmistukseen liittyvälle koesarjalle Data oli koodattu Ensimmäisen alkuperäisen faktorin vaihtelukeskipiste on 225 ja toisen , vastaavat vaihteluvälit ovat 60 sekä

43 22 ORTOGONAALISUUS JA KIERTOSYMMETRISYYS 4 (a Muodosta käytetty skaalausmatriisi L ja etsi sitä käyttäen alkuperäinen datamatriisi X (b Laske (X T X ja vertaa sitä koodatun datan vastaavaan matriisiin (c Laske alkuperäisen mallin parametrit 22 Ortogonaalisuus ja kiertosymmetrisyys Suunnittelun sanotaan olevan ortogonaalinen, jos X T X on lävistäjämatriisi Lause 2 Suunnittelu on ortogonaalinen täsmälleen silloin, kun i D T D on lävistäjämatriisi ja ii T N D = 0T k, eli D:n sarakesummat ovat nollia Toisin sanoen, suunnittelu on ortogonaalinen täsmälleen silloin, kun faktoreita vastaavat sarakkeet ovat kohtisuorassa toisiaan vastaan ja myös vektoria N vastaan Todistus Koska X T X = ( T N D T ( T N D = ( N T N D D T N D T D, niin ilmeisesti X T X on lävistäjämatriisi tarkalleen silloin, kun ehdot (i ja (ii toteutuvat Ortogonaalista suunnittelua käytettäessä V (b = σ 2 (X T X on lävistäjämatriisi, ts parametriestimaatit b 0,,b k ovat riippumattomat Edelleen tällöin käänteismatriisin C = (X T X laskeminen on helppoa ja tarkkaa Ortogonaalinen suunnittelu on optimaalinen seuraavassa mielessä Koodatun datamatriisin sarakkeet x i toteuttavat epäyhtälön x i 2 N (0 i k Voidaan näyttää (kts harjoitustehtävä, että c ii x i 2 (0 i k, ja tätä epäyhtälöä käyttäen saadaan alaraja regressiomallin parametrien varianssien summalle: V (b i = σ 2 trace(c = c ii x i 2 k + N i i i

44 42 LUKU 2 KOESUUNNITTELUT Tämä alaraja saavutetaan, kun suunnittelu on ortogonaalinen ja kaikki data-arvot ovat tai Ensimmäisen kertaluvun mallin suunnittelun sanotaan olevan kiertosymmetrinen, jos matriisi X T X säilyy samana, kun dataan tehdään mielivaltainen ortogo- naalinen muunnos, ts X T X on koordinaatistosta riippumaton Ortogonaalinen muunnos on sama, kuin muotoa ( 0 T Q = k 0 k K rotatable oleva affiinimuunnos, missä K on k k-ortogonaalimatriisi Lause 22 Suunnittelu on kiertosymmetrinen täsmälleen silloin, kun (i D:n sarakesummat ovat nollia, ts T N D = 0T k ja (ii D T D on muotoa λi k, missä λ on vakio Todistus Oletetaan, että suunnittelu on kiertosymmetrinen Sovelletaan mielivaltaista ortogonaalimuunnosta: ( ( 0 (XQ T XQ = Q T X T T XQ = k T N ( N D ( 0 T k 0 k K T D T 0 k K ( ( 0 T = k N T ( N D 0 T k 0 k K T D T N D T D 0 k K ( N T N = D ( 0 T k K T D T N K T D T D 0 k K ( N T N = DK K T D T N K T D T DK Jotta tämä olisi on oltava X T X = ( N T N D D T N D T D K T D T N = D T N ja K T D T DK = D T D, olipa K mikä tahansa ortogonaalimatriisi Mutta, jotta kaikki ortogonaalimuunnokset pitäisivät D T N :n samana, pitää sen olla = 0 k, ts (i pätee Toisaalta D T D on symmetrinen matriisi, joten se on diagonalisoitavissa ortogonaalimuunnoksella Näin ollen D T D:n on oltava valmiiksi lävistäjämatriisi,

45 22 ORTOGONAALISUUS JA KIERTOSYMMETRISYYS 43 Silloin taas D T D:n lävistäjäalkiot voidaan permutoida mielivaltaiseen järjestykseen ortogonaalimuunnoksella Näin ollen lävistäjäalkioiden on oltava samoja Siispä myös (ii pätee Selvästi suunnittelu on kiertosymmetrinen, jos (i ja (ii pätevät Kiertosymmetrisessä suunnittelussa ei ole mahdollista parantaa mallia siirtymällä uusiin koordinaatteihin, ts esimerkiksi V (b pysyy samana Malli ei voi tällöin myöskään huonontua Erityisesti ennusteen varianssi ( V (ŷ = σ 2 ξ T (X T X ξ = σ 2 N + ξ2 + + ξk 2 λ riippuu vain datavektorin ξ pituudesta Tästä itse asiassa tulee nimi kiertosymmetrinen : ennusteen varianssi ei riipu suunnasta Lauseista 2 ja 22 seuraa, että jokainen kiertosymmetrinen suunnittelu on myös ortogonaalinen, mutta ei kääntäen Tärkeä ortogonaalisten/kiertosymmetristen suunnittelujen ominaisuus on se, että niistä faktoreita poistamalla eli typistämällä saadut suunnittelut ovat myös ortogonaalisia/kiertosymmetrisiä (Tämä seuraa varsin suoraan yo lauseista Esimerkki Selvitä, ovatko edellisessä esimerkissä lasketut datat ortogonaalisia tai kiertosymmetrisiä Ratkaisu Suunnittelumatriisit ovat D = , D s = , D c =

46 44 LUKU 2 KOESUUNNITTELUT Data on ortogonaalista mikäli X T X on lävistäjämatriisi Lasketaan nämä matriisit: X T X = , X T s X s = , X T c X c = Nähdään, että standardoitu ja koodattu data ovat ortogonaalisia, mutta alkuperäinen ei Kiertosymmetrisyyden ensimmäinen ehto on T N D = 0T k : T ND = ( , T N D s = ( , T N D c = ( Alkuperäinen data ei siis ole kiertosymmetristä, muiden osalta on tarkistettava toinen ehto D T D = λi k : D T s D s = ( , D T c D c = ( Vain standardoitu data on tässä tapauksessa kiertosymmetristä Tarkastellaan asiaa vielä kuvista, joissa on piirretty V (ŷ:n tasa-arvo käyrät:

47 22 ORTOGONAALISUUS JA KIERTOSYMMETRISYYS 45 9 Alkuperainen Standardoitu Koodattu x 2 5 x 2 0 x x 0 x 0 x Kiertosymmetrisessä standardoidussa datassa käyrät ovat origokeskeisiä ympyröitä, eli varianssi riippuu vain datavektorin ξ pituudesta Alkuperäisellä ja koodatulla datalla suunnallakin on merkitystä Harjoitustehtävät (a Olkoot x ja y k + -vektoreita ja C symmetrinen positiividefiniitti matriisi Johda epäyhtälö (x T Cx(y T C y x T y 2 (Vihje: matriisilla on symmetrinen positiividefiniitti neliöjuuri C /2, ja Cauchyn epäyhtälö on x T y x y (b Todista tekstin epäyhtälö c ii x i 2 (Vihje: edellisen kohdan erikoistapaus on e T i (XT X e i Xe i 2, missä e i on identiteettimatriisin I k+ i:s sarake (c Todista Nh ii, missä h ii on matriisin H := X(X T X X T i:s lävistäjäalkio 2 Paljon käytetty kahden faktorin koetyyppi on ns monikulmiokoe Vastaavia equiradial design ns monitahokaskokeita on myös suuremmille faktorimäärille Valitettavasti vain säännöllisiä monitahokkaita on äärellinen määrä R 3 :ssa viisi, R 4 :ssä kuusi ja muissa vain kolme joten idea on yleiskäyttöinen vain dimensiossa 2 Monikulmiokokeen datamatriisi on N 3-matriisi, missä 2 ja 3 sarake muodostuvat sellaisen origokeskisen säännöllisen R-säteisen N-kulmion (N 3 kärkien koordinaateista R 2 :ssa, jonka yksi kärki on positiivisel-

48 46 LUKU 2 KOESUUNNITTELUT la x -akselilla: x l = R cos 2πl N ja x l2 = R sin 2πl N (l = 0,,N, kompleksitasossa x l + ix l2 = Re l N 2πi (l = 0,,N (i on imaginääriyksikkö Tietysti data viedään jälleen käytännön mittauksia varten sopivalla käänteisellä skaalauksella L reaalimaailmaan Näytä, että monikulmiokoe on kiertosymmetrinen (Vihje: Laske summat N l=0 Re l N 2πi sekä N (Re l N 2πi 2 l=0 ja tarkastele reaali- ja imaginääriosia Usein monikulmiokokeeseen lisätään keskustoistoja origossa epäsopivuustestiä varten Ne parantavat tilannetta myös muuten, jos mukana on toisen kertaluvun faktoreita, kuten usein on toistoja pitää olla silloin nimenomaan N kappaletta Keskustoistot eivät hävitä kiertosymmetrisyyttä 23 Simplex-koe saturated design Suunnittelua, missä kokeiden lukumäärä N on sama kuin lineaarisen mallin parametrien lukumäärä k+, kutsutaan kyllästetyksi Silloin kyseessä on interpolaatio, ja mallin sopivuus on täydellinen Ensimmäsen kertaluvun mallin kiertosymmetrinen kyllästetty suunnittelu, joka toteuttaa ehdon X T X = (k + I k+, kutsutaan simplex-kokeeksi Se voidaan muodostaa seuraavasti: Valitse ei-singulaarinen (k + (k + matriisi W, jonka ensimmäinen sarake on k+ 2 Laske sen QR-hajotelma W = QR, missä Q on ortogonaalimatriisi ja R on yläkolmiomatriisi 3 Valitse X = ± k + Q, missä merkki valitaan niin, että datamatriisin ensimmäinen sarake on k+

49 23 SIMPLEX-KOE 47 Simplex-kokeen suunnittelumatriisi muodostuu origokeskisen k + -kärkisen monitahokkaan eli simpleksin koordinaateista R k :ssa Esimerkiksi R 2 :ssa tällainen simpleksi on tasasivuinen origokeskinen kolmio Sama tasasivuinen kolmio syntyy R 3 :een leikattaessa ensimmäistä oktanttia tasolla x 2 x + y + z = a 2 a a a x Rotaatiolla saadaan kolmio x x 2 -tason suuntaiseksi, jolloin sen kärkien ensimmäiset koordinaatit ovat samat: x 2 x 0 a a x x 0 a Kolmion kärjet origoon yhdistävät janat ( ( a 6, 0, a a 3, 6, a 2, a, 2 ( a 6, a 2, a 2 ovat edelleen kohtisuorassa toisiaan vastaan (ortogonaalisuus Asettamalla a = 6 saadaan datamatriisi X = 0 2/ 2 3/2 / 2 3/2 / 2, joka toteuttaa X T X = 3I 3 Käytännössä simplex-data muunnetaan sopivalle asteikolle skaalauksella Koe suoritetaan skaalatulla datalla, mutta mallina käytetään simplex-datan mallia, josta haluttaessa voidaan päästä skaalauksella reaalimaailmaan Suunnittelua voidaan haluttaessa typistää, ts ottaa mukaan pienempi määrä faktoreita Kuten edellä todettiin, tämä ei poista ortogonaalisuutta eikä kiertosymmetrisyyttä Typistetty simplex-koe ei ole kyllästetty, joten voidaan tehdä t-testejä ja ANOVAa Erikoistapaus simplex-kokeesta on ns Plackettin ja Burmanin koe Datamatriisi on tällöin (mahdollisen koodauksen jälkeen alkioista ± koostuva (k + (k + -matriisi X, joka toteuttaa ehdon X T X = (k + I k+

50 48 LUKU 2 KOESUUNNITTELUT Tällaista ±-matriisia X kutsutaan Hadamardin matriisiksi Hadamardin matriisi on standardimuodossa, jos sen ensimmäinen sarake on ja ensimmäinen rivi T (Jokainen Hadamardin matriisi voidaan saattaa tällaiseksi kertomalla sen rivejä ja sarakkeita sopivasti :llä Tämä säilyttää Hadamardin ominaisuuden, kuten voi todeta Hadamardin m m-matriisilla H on seuraavat ominaisuudet: (i Standardimuotoisen Hadamardin matriisin sarakesummat ensimmäistä saraketta lukuunottamatta ovat = 0, ts sarakkeissa on yhtä monta +:tä ja :tä (ii Joko m = 2 tai sitten m on neljällä jaollinen luku (iii H:n kahden rivin välinen etäisyys on aina 2m Tästä ja kohdasta (i seuraa, että Plackettin ja Burmanin koe on simplex-koe, koska rivin ensimmäinen alkio on Nämä ominaisuudet ovat kutakuinkin helposti todettavissa (harjoitustehtävä 2 2 Hadamardin matriisi on ( 2 2 ja Hadamardin matriisit ovat ja, missä musta ruutu tarkoittaa ja valkoinen ruutu Jo saaduista Hadamardin matriiseista saa uusia isompia Hadamardin matriiseja ns Kroneckerin tuloa käyttämällä Yleisesti n m -matriisin A = a a m a n a n m ja n 2 m 2 -matriisin B Kroneckerin tulo on n n 2 m m 2 -matriisi a B a m B A = =: A B a n B a n m B

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi Esimerkit laskettu JMP:llä Antti Hyttinen Tampereen teknillinen yliopisto 29.12.2003 ii Ohjelmien

Lisätiedot

TILASTOLLINEN KOKEIDEN SUUNNITTELU JA OTANTA. Keijo Ruohonen

TILASTOLLINEN KOKEIDEN SUUNNITTELU JA OTANTA. Keijo Ruohonen TILASTOLLINEN KOKEIDEN SUUNNITTELU JA OTANTA Keijo Ruohonen 2000 Sisältö I REGRESSIO Regressiomalli 2 2 Mallin estimointi ja käyttö 7 3 Varianssianalyysi (ANOVA) 2 4 Mallin epäsopivuuden testaus toistokokein

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin

Lisätiedot

Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

VARIANSSIANALYYSI ANALYSIS OF VARIANCE VARIANSSIANALYYSI ANALYSIS OF VARIANCE 1 Suomalaisten aikuisten pituusjakauma:.8.7.6.5.4.3.2.1 14 15 16 17 18 19 2 21 Jakauma ei ole normaali, sen olettaminen sellaiseksi johtaa virheellisiin päätelmiin.

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

1 Matriisit ja lineaariset yhtälöryhmät

1 Matriisit ja lineaariset yhtälöryhmät 1 Matriisit ja lineaariset yhtälöryhmät 11 Yhtälöryhmä matriisimuodossa m n-matriisi sisältää mn kpl reaali- tai kompleksilukuja, jotka on asetetettu suorakaiteen muotoiseksi kaavioksi: a 11 a 12 a 1n

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Inversio-ongelmien laskennallinen peruskurssi Luento 2 Inversio-ongelmien laskennallinen peruskurssi Luento 2 Kevät 2012 1 Lineaarinen inversio-ongelma Määritelmä 1.1. Yleinen (reaaliarvoinen) lineaarinen inversio-ongelma voidaan esittää muodossa m = Ax +

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1 Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n

Lisätiedot

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (005) 1 Moniulotteisia todennäköisyysjakaumia Multinomijakauma Kaksiulotteinen normaalijakauma TKK (c) Ilkka

Lisätiedot

2. Teoriaharjoitukset

2. Teoriaharjoitukset 2. Teoriaharjoitukset Demotehtävät 2.1 Todista Gauss-Markovin lause. Ratkaisu. Oletetaan että luentokalvojen standardioletukset (i)-(v) ovat voimassa. Huomaa että Gauss-Markovin lause ei vaadi virhetermien

Lisätiedot

Paikannuksen matematiikka MAT

Paikannuksen matematiikka MAT TA M P E R E U N I V E R S I T Y O F T E C H N O L O G Y M a t h e m a t i c s Paikannuksen matematiikka MAT-45800 4..008. p.1/4 Käytännön järjestelyt Kotisivu: http://math.tut.fi/courses/mat-45800/ Luennot:

Lisätiedot

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6) Mat-.3 Koesuunnittelu ja tilastolliset mallit kevät Keskipisteen lisääminen k -faktorikokeeseen (ks. Montgomery 9-6) Esim (Montg. ex. 9-, 6-): Tutkitaan kemiallisen prosessin saannon Y riippuvuutta faktoreista

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

Matematiikka B2 - Avoin yliopisto

Matematiikka B2 - Avoin yliopisto 6. elokuuta 2012 Opetusjärjestelyt Luennot 9:15-11:30 Harjoitukset 12:30-15:00 Tentti Kurssin sisältö (1/2) Matriisit Laskutoimitukset Lineaariset yhtälöryhmät Gaussin eliminointi Lineaarinen riippumattomuus

Lisätiedot

1 Ominaisarvot ja ominaisvektorit

1 Ominaisarvot ja ominaisvektorit 1 Ominaisarvot ja ominaisvektorit Olkoon A = [a jk ] n n matriisi. Tarkastellaan vektoriyhtälöä Ax = λx, (1) 1 missä λ on luku. Sellaista λ:n arvoa, jolla yhtälöllä on ratkaisu x 0, kutsutaan matriisin

Lisätiedot

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme? TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä

Lisätiedot

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä 1 3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä Lineaarinen m:n yhtälön yhtälöryhmä, jossa on n tuntematonta x 1,, x n on joukko yhtälöitä, jotka ovat muotoa a 11 x 1 + + a 1n x n = b 1 a

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. marraskuuta 2007 Antti Rasila () TodB 30. marraskuuta 2007 1 / 19 1 Lineaarinen regressiomalli ja suurimman uskottavuuden menetelmä Minimin löytäminen

Lisätiedot

Lineaariset mollit, kl 2017, Harjoitus 1

Lineaariset mollit, kl 2017, Harjoitus 1 Lineaariset mollit, kl 07, Harjoitus Heikki Korpela 7 huhtikuuta 07 Tehtävä Symmetristä matriisia A(n n) sanotaan positiivisesti definiitiksi (merkitään A > 0), jos x T Ax > 0 kaikilla x 0, x R n (ks monisteen

Lisätiedot

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä 3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä Lineaarinen m:n yhtälön yhtälöryhmä, jossa on n tuntematonta x 1,, x n on joukko yhtälöitä, jotka ovat muotoa a 11 x 1 + + a 1n x n = b 1 a 21

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Johdatus regressioanalyysiin Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla.

Lisätiedot

Korrelaatiokertoinen määrittely 165

Korrelaatiokertoinen määrittely 165 kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x

Lisätiedot

4.0.2 Kuinka hyvä ennuste on?

4.0.2 Kuinka hyvä ennuste on? Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki

Lisätiedot

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt TKK (c) Ilkka Mellin (005) Koesuunnittelu TKK (c) Ilkka Mellin (005) : Mitä opimme? Tarkastelemme tässä luvussa seuraavaa kysymystä: Miten varianssianalyysissa tutkitaan yhden tekijän vaikutusta vastemuuttujaan,

Lisätiedot

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1 Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,

Lisätiedot

5 Ominaisarvot ja ominaisvektorit

5 Ominaisarvot ja ominaisvektorit 5 Ominaisarvot ja ominaisvektorit Olkoon A = [a jk ] n n matriisi. Tarkastellaan vektoriyhtälöä Ax = λx, (1) missä λ on luku. Sellaista λ:n arvoa, jolla yhtälöllä on ratkaisu x 0, kutsutaan matriisin A

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Matematiikka B2 - TUDI

Matematiikka B2 - TUDI Matematiikka B2 - TUDI Miika Tolonen 3. syyskuuta 2012 Miika Tolonen Matematiikka B2 - TUDI 1 Kurssin sisältö (1/2) Matriisit Laskutoimitukset Lineaariset yhtälöryhmät Gaussin eliminointi Lineaarinen riippumattomuus

Lisätiedot

Ortogonaalinen ja ortonormaali kanta

Ortogonaalinen ja ortonormaali kanta Ortogonaalinen ja ortonormaali kanta Määritelmä Kantaa ( w 1,..., w k ) kutsutaan ortogonaaliseksi, jos sen vektorit ovat kohtisuorassa toisiaan vastaan eli w i w j = 0 kaikilla i, j {1, 2,..., k}, missä

Lisätiedot

10 Moniulotteinen normaalijakauma

10 Moniulotteinen normaalijakauma 10 Moniulotteinen normaalijakauma Tässä luvussa tarkastellaan normaalijakauman moniulotteista yleistystä eli moniulotteista (eli monimuuttujaista) normaalijakaumaa (engl. multivariate normal distribution).

Lisätiedot

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut). KÄSITTEITÄ POPULAATIO Joukko, jota tutkitaan (äärellinen, ääretön). Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut). Näiden välillä ei aina tehdä eroa, kun puhutaan

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

Identifiointiprosessi

Identifiointiprosessi Alustavia kokeita Identifiointiprosessi Koesuunnittelu, identifiointikoe Mittaustulosten / datan esikäsittely Ei-parametriset menetelmät: - Transientti-, korrelaatio-, taajuus-, Fourier- ja spektraalianalyysi

Lisätiedot

Harjoitusten 5 vastaukset

Harjoitusten 5 vastaukset Harjoitusten 5 vastaukset 1. a) Regressiossa (1 ) selitettävänä on y jaselittäjinävakiojax matriisin muuttujat. Regressiossa (1*) selitettävänä on y:n poikkeamat keskiarvostaan ja selittäjinä X matriisin

Lisätiedot

Käänteismatriisin ominaisuuksia

Käänteismatriisin ominaisuuksia Käänteismatriisin ominaisuuksia Lause 1.4. Jos A ja B ovat säännöllisiä ja luku λ 0, niin 1) (A 1 ) 1 = A 2) (λa) 1 = 1 λ A 1 3) (AB) 1 = B 1 A 1 4) (A T ) 1 = (A 1 ) T. Tod.... Ortogonaaliset matriisit

Lisätiedot

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1 Lohkoasetelmat Vilkkumaa / Kuusinen 1 Motivointi 1/3 Kaksisuuntaisella varianssianalyysilla voidaan tutkia kahden tekijän A ja B vaikutusta sekä niiden yhdysvaikutusta tutkimuksen kohteeseen Kaksisuuntaisessa

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Neliömatriisi A on ortogonaalinen (eli ortogonaalimatriisi), jos sen alkiot ovat reaalisia ja

Neliömatriisi A on ortogonaalinen (eli ortogonaalimatriisi), jos sen alkiot ovat reaalisia ja 7 NELIÖMATRIISIN DIAGONALISOINTI. Ortogonaaliset matriisit Neliömatriisi A on ortogonaalinen (eli ortogonaalimatriisi), jos sen alkiot ovat reaalisia ja A - = A T () Muistutus: Kokoa n olevien vektorien

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

Luento 8: Epälineaarinen optimointi

Luento 8: Epälineaarinen optimointi Luento 8: Epälineaarinen optimointi Vektoriavaruus R n R n on kaikkien n-jonojen x := (x,..., x n ) joukko. Siis R n := Määritellään nollavektori 0 = (0,..., 0). Reaalisten m n-matriisien joukkoa merkitään

Lisätiedot

Harjoitusten 4 vastaukset

Harjoitusten 4 vastaukset Harjoitusten 4 vastaukset 4.1. Prosessi on = 1 +, jossa»iid( 2 )ja =1 2. PNS estimaattori :lle on (" P P 2 ") = +( X X 2 ) 1 1. =1 Suluissa oleva termi on deterministinen ja suppenee vihjeen mukaan 2 6:teen.

Lisätiedot

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾ ËØÙ ÓØÓ Ø Mitta-asteikot Nominaali- eli laatueroasteikko Ordinaali- eli järjestysasteikko Intervalli- eli välimatka-asteikko ( nolla mielivaltainen ) Suhdeasteikko ( nolla ei ole mielivaltainen ) Otos

Lisätiedot

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016

Lisätiedot

Talousmatematiikan perusteet: Luento 13. Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu

Talousmatematiikan perusteet: Luento 13. Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu Talousmatematiikan perusteet: Luento 13 Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu Viime luennolla Aloimme tarkastella yleisiä, usean muuttujan funktioita

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo? MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo

Lisätiedot

Matriisi-vektori-kertolasku, lineaariset yhtälöryhmät

Matriisi-vektori-kertolasku, lineaariset yhtälöryhmät Matematiikan peruskurssi K3/P3, syksy 25 Kenrick Bingham 825 Toisen välikokeen alueen ydinasioita Alla on lueteltu joitakin koealueen ydinkäsitteitä, joiden on hyvä olla ensiksi selvillä kokeeseen valmistauduttaessa

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Lohkoasetelmat. Heliövaara 1

Lohkoasetelmat. Heliövaara 1 Lohkoasetelmat Heliövaara 1 Kiusatekijä Kaikissa kokeissa, kokeen tuloksiin voi vaikuttaa vaihtelu joka johtuu kiusatekijästä. Kiusatekijä on tekijä, jolla mahdollisesti on vaikutusta vastemuuttujan arvoon,

Lisätiedot

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus 1 / 51 Lineaarikombinaatio Johdattelua seuraavaan asiaan (ei tarkkoja määritelmiä): Millaisen kuvan muodostaa joukko {λv λ R, v R 3 }? Millaisen

Lisätiedot

Lohkoasetelmat. Kuusinen/Heliövaara 1

Lohkoasetelmat. Kuusinen/Heliövaara 1 Lohkoasetelmat Kuusinen/Heliövaara 1 Kiusatekijä Kaikissa kokeissa kokeen tuloksiin voi vaikuttaa vaihtelu, joka johtuu kiusatekijästä. Kiusatekijä on tekijä, jolla on mahdollisesti vaikutusta vastemuuttujan

Lisätiedot

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Sisältö Riippumattomuus Jos P(A B) = P(A)P(B), niin tapahtumat A ja B ovat toisistaan riippumattomia. (Keskustelimme

Lisätiedot

5.7 Uskottavuusfunktioon perustuvia testejä II

5.7 Uskottavuusfunktioon perustuvia testejä II 5.7 Uskottavuusfunktioon perustuvia testejä II Tässä pykälässä pohditaan edellä tarkasteltujen kolmen testisuureen yleistystä malleihin, joiden parametri on useampiulotteinen, ja testausasetelmiin, joissa

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2007) 1 Yleinen lineaarinen malli >> Usean selittäjän lineaarinen regressiomalli

Lisätiedot

Ominaisarvo-hajoitelma ja diagonalisointi

Ominaisarvo-hajoitelma ja diagonalisointi Ominaisarvo-hajoitelma ja a 1 Lause 1: Jos reaalisella n n matriisilla A on n eri suurta reaalista ominaisarvoa λ 1,λ 2,...,λ n, λ i λ j, kun i j, niin vastaavat ominaisvektorit x 1, x 2,..., x n muodostavat

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

Ennakkotehtävän ratkaisu

Ennakkotehtävän ratkaisu Ennakkotehtävän ratkaisu Ratkaisu [ ] [ ] 1 3 4 3 A = ja B =. 1 4 1 1 [ ] [ ] 4 3 12 12 1 0 a) BA = =. 1 + 1 3 + 4 0 1 [ ] [ ] [ ] 1 0 x1 x1 b) (BA)x = =. 0 1 x 2 x [ ] [ ] [ 2 ] [ ] 4 3 1 4 9 5 c) Bb

Lisätiedot

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1 Vastepintamenetelmä Vilkkumaa / Kuusinen 1 Motivointi Varianssianalyysissa tutkitaan tekijöiden vaikutusta vasteeseen siten, että tekijöiden tasot on ennalta valittu. - Esim. tutkitaan kemiallisen prosessin

Lisätiedot

MS-A0004/A0006 Matriisilaskenta

MS-A0004/A0006 Matriisilaskenta 4. MS-A4/A6 Matriisilaskenta 4. Nuutti Hyvönen, c Riikka Kangaslampi Matematiikan ja systeemianalyysin laitos Aalto-yliopisto..25 Tarkastellaan neliömatriiseja. Kun matriisilla kerrotaan vektoria, vektorin

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio Ilkka Mellin Todennäköisyyslaskenta Osa : Satunnaismuuttujat ja todennäköisyysjakaumat Momenttiemäfunktio ja karakteristinen funktio TKK (c) Ilkka Mellin (7) 1 Momenttiemäfunktio ja karakteristinen funktio

Lisätiedot

Matriisilaskenta, LH4, 2004, ratkaisut 1. Hae seuraavien R 4 :n aliavaruuksien dimensiot, jotka sisältävät vain

Matriisilaskenta, LH4, 2004, ratkaisut 1. Hae seuraavien R 4 :n aliavaruuksien dimensiot, jotka sisältävät vain Matriisilaskenta LH4 24 ratkaisut 1 Hae seuraavien R 4 :n aliavaruuksien dimensiot jotka sisältävät vain a) Kaikki muotoa (a b c d) olevat vektorit joilla d a + b b) Kaikki muotoa (a b c d) olevat vektorit

Lisätiedot

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1 Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen

Lisätiedot

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2004) 1 Yleinen lineaarinen malli Usean selittäjän lineaarinen regressiomalli Yleisen lineaarisen mallin matriisisesitys Yleisen

Lisätiedot

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio TKK (c) Ilkka Mellin (5) 1 Momenttiemäfunktio ja karakteristinen funktio Momenttiemäfunktio Diskreettien jakaumien momenttiemäfunktioita

Lisätiedot

6 MATRIISIN DIAGONALISOINTI

6 MATRIISIN DIAGONALISOINTI 6 MATRIISIN DIAGONALISOINTI Ortogonaaliset matriisit Neliömatriisi A on ortogonaalinen (eli ortogonaalimatriisi), jos sen alkiot ovat reaalisia ja A - = A T Muistutus: vektorien a ja b pistetulo (skalaaritulo,

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

Luento 8: Epälineaarinen optimointi

Luento 8: Epälineaarinen optimointi Luento 8: Epälineaarinen optimointi Vektoriavaruus R n R n on kaikkien n-jonojen x := (x,..., x n ) joukko. Siis R n := Määritellään nollavektori = (,..., ). Reaalisten m n-matriisien joukkoa merkitään

Lisätiedot

Kohdeyleisö: toisen vuoden teekkari

Kohdeyleisö: toisen vuoden teekkari Julkinen opetusnäyte Yliopisto-opettajan tehtävä, matematiikka Klo 8:55-9:15 TkT Simo Ali-Löytty Aihe: Lineaarisen yhtälöryhmän pienimmän neliösumman ratkaisu Kohdeyleisö: toisen vuoden teekkari 1 y y

Lisätiedot

MS-C1340 Lineaarialgebra ja

MS-C1340 Lineaarialgebra ja MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt Matriisinormi, häiriöalttius Riikka Kangaslampi Kevät 2017 Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Matriisinormi Matriisinormi Matriiseille

Lisätiedot

Identifiointiprosessi

Identifiointiprosessi Alustavia kokeita Identifiointiprosessi Koesuunnittelu, identifiointikoe Mittaustulosten / datan esikäsittely Ei-parametriset menetelmät: - Transientti-, korrelaatio-, taajuus-, Fourier- ja spektraalianalyysi

Lisätiedot

Ortogonaaliset matriisit, määritelmä 1

Ortogonaaliset matriisit, määritelmä 1 , määritelmä 1 Määritelmä (a). Neliömatriisi Q on ortogonaalinen, jos Q T Q = I. Määritelmästä voidaan antaa samaa tarkoittavat, mutta erilaiselta näyttävät muodot: Määritelmä (b). n n neliömatriisi Q,

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Insinöörimatematiikka D

Insinöörimatematiikka D Insinöörimatematiikka D M Hirvensalo mikhirve@utufi V Junnila viljun@utufi Matematiikan ja tilastotieteen laitos Turun yliopisto 2015 M Hirvensalo mikhirve@utufi V Junnila viljun@utufi Luentokalvot 5 1

Lisätiedot

3.6 Su-estimaattorien asymptotiikka

3.6 Su-estimaattorien asymptotiikka 3.6 Su-estimaattorien asymptotiikka su-estimaattorit ovat usein olleet puutteellisia : ne ovat usein harhaisia ja eikä ne välttämättä ole täystehokkaita asymptoottisilta ominaisuuksiltaan ne ovat yleensä

Lisätiedot

MS-A0003/A Matriisilaskenta Laskuharjoitus 6

MS-A0003/A Matriisilaskenta Laskuharjoitus 6 MS-A3/A - Matriisilaskenta Laskuharjoitus 6 Ratkaisuehdotelmia. Diagonalisointi on hajotelma A SΛS, jossa diagonaalimatriisi Λ sisältää matriisin A ominaisarvot ja matriisin S sarakkeet ovat näitä ominaisarvoja

Lisätiedot

Ominaisarvo ja ominaisvektori

Ominaisarvo ja ominaisvektori Ominaisarvo ja ominaisvektori Määritelmä Oletetaan, että A on n n -neliömatriisi. Reaaliluku λ on matriisin ominaisarvo, jos on olemassa sellainen vektori v R n, että v 0 ja A v = λ v. Vektoria v, joka

Lisätiedot

(1.1) Ae j = a k,j e k.

(1.1) Ae j = a k,j e k. Lineaarikuvauksen determinantti ja jälki 1. Lineaarikuvauksen matriisi. Palautetaan mieleen, mikä lineaarikuvauksen matriisi annetun kannan suhteen on. Olkoot V äärellisulotteinen vektoriavaruus, n = dim

Lisätiedot

Vastepintamenetelmä. Heliövaara 1

Vastepintamenetelmä. Heliövaara 1 Vastepintamenetelmä Kurssipalautteen antamisesta saa hyvityksenä yhden tenttipisteen. Palautelomakkeeseen tulee lähiaikoina linkki kurssin kotisivuille. Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä

Lisätiedot

Numeeriset menetelmät

Numeeriset menetelmät Numeeriset menetelmät Luento 6 To 22.9.2011 Timo Männikkö Numeeriset menetelmät Syksy 2011 Luento 6 To 22.9.2011 p. 1/38 p. 1/38 Ominaisarvotehtävät Monet sovellukset johtavat ominaisarvotehtäviin Yksi

Lisätiedot

Insinöörimatematiikka D

Insinöörimatematiikka D Insinöörimatematiikka D M. Hirvensalo mikhirve@utu.fi V. Junnila viljun@utu.fi Matematiikan ja tilastotieteen laitos Turun yliopisto 2015 M. Hirvensalo mikhirve@utu.fi V. Junnila viljun@utu.fi Luentokalvot

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan 17.11.2006 1. Kahdesta kohteesta (A ja K) kerättiin maanäytteitä ja näistä mitattiin SiO -pitoisuus. Tulokset (otoskoot ja otosten tunnusluvut): A K 10 16 Ü 64.94 57.06 9.0 7.29 Oletetaan mittaustulosten

Lisätiedot

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja

Lisätiedot

Lineaarikuvauksen R n R m matriisi

Lineaarikuvauksen R n R m matriisi Lineaarikuvauksen R n R m matriisi Lauseessa 21 osoitettiin, että jokaista m n -matriisia A vastaa lineaarikuvaus L A : R n R m, jolla L A ( v) = A v kaikilla v R n. Osoitetaan seuraavaksi käänteinen tulos:

Lisätiedot

Lineaarialgebra ja matriisilaskenta I

Lineaarialgebra ja matriisilaskenta I Lineaarialgebra ja matriisilaskenta I 6.6.2013 HY / Avoin yliopisto Jokke Häsä, 1/22 Kertausta: Kääntyvien matriisien lause Lause 1 Oletetaan, että A on n n -neliömatriisi. Seuraavat ehdot ovat yhtäpitäviä.

Lisätiedot

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B Tilastollinen päättömyys, kevät 7 Harjoitus 6B Heikki Korpela 8. helmikuuta 7 Tehtävä. Monisteen teht. 6... Olkoot Y,..., Y 5 Nµ, σ, ja merkitään S 5 i Y i Y /4. Näytä, että S/σ on saranasuure eli sen

Lisätiedot