TILASTOLLINEN KOKEIDEN SUUNNITTELU JA OTANTA. Keijo Ruohonen

Koko: px
Aloita esitys sivulta:

Download "TILASTOLLINEN KOKEIDEN SUUNNITTELU JA OTANTA. Keijo Ruohonen"

Transkriptio

1 TILASTOLLINEN KOKEIDEN SUUNNITTELU JA OTANTA Keijo Ruohonen 2000

2 Sisältö I REGRESSIO Regressiomalli 2 2 Mallin estimointi ja käyttö 7 3 Varianssianalyysi (ANOVA) 2 4 Mallin epäsopivuuden testaus toistokokein 6 5 Datan affiinimuunnokset Ortogonaalisuus ja kiertosymmetrisyys 22 6 Esimerkki ortogonaalisesta kertaluvun suunnittelusta: Simplex-koe, Plackett Burman-koe k -kokeet: Katsaus 27 8 Toisen kertaluvun regressiomalli 3 9 Ortogonalisoituvia toisen kertaluvun malleja: 3 k -kokeet, CCD-kokeet 34 II VASTEEN OPTIMOINTI 34 2 Yleistä Regressiomenetelmä Nelder Mead-algoritmi 40 III KVALITATIIVISET FAKTORIT 40 3 Yksisuuntainen ANOVA 44 3 Parametrien estimointi Hypoteesien testaus Kontrastit Yhdistettyjä testejä 5 34 Mallin riittävyys Monisuuntainen ANOVA Satunnaistetut lohkot Roomalaiset neliöt 7 IV MONEN MUUTTUJAN PIENOTANTA 7 4 Satunnaisotanta Ositettu otanta Yksiasteinen otanta Systemaattinen otanta 87 LIITE A: Matriisilaskentaa 9 LIITE B: Multinormaalijakauma 92 Kirjallisuutta 93 Hakemisto i

3 ii Esipuhe Tämä moniste on tarkoitettu TTKK:n kurssin 7364 Tilastollinen kokeiden suunnittelu perusmateriaaliksi Pääsisältönään se esittelee kvantitatiivisen kokeiden suunnittelun perusteet modernin vastepintaformalismin avulla käsiteltynä Esityksen pohjana on paljolti kirja KHURI & CORNELL Myös useita suunnittelukaavioita on esillä esimerkinomaisesti (Lisää niitä löytyy mainitusta kirjasta ja muusta kirjallisuudesta) Monisteessa käsitellään myös kvalitatiivista kokeiden suunnittelua, pohjana paljolti kirja MONTGOMERY Koska tämän aihepiirin merkitys on nähdäkseni vähenemässä, varsinkin tekniikassa, on kyseessä lähinnä vain katsaus Niin teoria kuin menetelmätkin esitetään kauttaaltaan matriisiformalismin avulla, jolloin ne ovat suoraan kokeiltavissa ja sovellettavissa esimerkiksi Matlab-ohjelmistoa käyttäen (Koeajot menetelmistä esitetään monisteessa kuitenkin Systat-ohjelmistolla tehtyinä ja Matlab-ajot jäävät esimerkkeihin ja harjoituksiin) Esityksen esikuvana on ollut ekonometrian klassikon JOHNSTONin tyylikäs matriisimuotoinen esitys Todettakoon, että matriisi- ja lineaarialgebraformalismi on ollut tilastollisten monimuuttujamenetelmien pelastus Ilman sitä asian esitys on huomattavan kankeaa, kuten alan vanhemmista oppikirjoistakin voi havaita (esimerkkinä vaikka GUENTHER) Monisteen lopussa on tiivis esitys monen muuttujan pienotantamenetelmistä matriisimuodossa Sitä ei ehdittäne käymään kurssilla läpi Alan kirjallisuudessa ei tällaista esitystä juuri ole (erinäisiä artikkeleita ja raportteja lukuunottamatta), vaikka otanta nykyisin on usein moniulotteista Vanhat klassikotkin (kuten esimerkiksi COCHRAN) käsittelevät vain yhden muuttujan otantaa Liitteinä on annettu eräitä matriisilaskentaa ja multinormaalijakaumaa koskevia tuloksia Esitietona tilastomatematiikan peruskurssit sekä insinöörimatematiikan suorittaneille myös kurssi 7309 Matriisilaskenta ovat kuitenkin tarpeen Keijo Ruohonen

4 Luku REGRESSIO Regressiomalli (Kertaa kurssilta Tilastomatematiikka tai Laaja matematiikka 4) Mallinnustilanteessa suure y riippuu suureista x,,x k tunnetun tai tuntemattoman funktion Φ kautta, ts y =Φ(x,,x k ) y on tällöin ns vaste eli selitettävä muuttuja ja x,,x k ovat ns faktoreita eli selittäviä muuttujia Faktoreiden arvoja kutsutaan tasoiksi Φ on ns todellinen vastefunktio Φ on yleensä tuntematon tai sitten niin mutkikas, ettei sitä voida sellaisenaan käyttää Niinpä Φ:n tilalle otetaan sitä approksimoiva funktio, jossa esiintyy parametrejä, esimerkiksi monen muuttujan polynomi, jonka kertoimet ovat parametrejä Approksimoitaessa malli ei enää ole tarkka Lisäksi käytännössä esiintyy mittaus- ym virheitä Jos Φ:tä approksimoiva funktio on f, niin malli on muotoa y = f(x,,x k )+ɛ, missä ɛ on virhetermi Tilastollisessa regressiossa ɛ katsotaan satunnaismuuttujaksi, jolla on N(0,σ 2 )-jakauma (Odotusarvo on 0, sillä systemaattinen virhe voidaan sisällyttää funktioon f(x,,x k )) Jos siis esimerkiksi f on ensimmäisen asteen polynomi, on malli muotoa y = β 0 + β x + + β k x k + ɛ missä β 0,β,,β k ovat parametrit Kyseessä on ensimmäisen kertaluvun regressiomalli Jos merkitään β 0 x β x = x k ja β = voidaan tällainen kertaluvun regressiomalli kirjoittaa muotoon y = x T β + ɛ Yleisesti d:nnen kertaluvun regressiomalli on muotoa y = p(x,,x k )+ɛ oleva malli, missä p on muuttujien x,,x k d:nnen asteen polynomi, jonka kertoimet ovat parametrejä Polynomin p ei tarvitse sisältää kaikkia mahdollisia termejä Itse asiassa polynomiaalinen regressio voidaan palauttaa kertaluvun regressioksi seuraavalla tempulla: β k,

5 LUKU REGRESSIO 2 Otetaan kutakin polynomissa p esiintyvää korkeampaa kuin ensimmäisen asteen termiä, esimerkiksi termiä β 33 x x 2 3,kohti uusi muuttuja z 33 2 Kirjoitetaan z 33 :n arvoksi x x 2 3:n arvo 3 Valitaan z 33 :n kertoimeksi eli parametriksi β 33 Tällainen malli on lineaarinen, ts parametriensä lineaariyhdelmä + virhetermi 2 Mallin estimointi ja käyttö (Kertaa kurssilta Tilastomatematiikka tai Laaja matematiikka 4) Malli saadaan käyttöön, kun ensin on saatu kokeiden tuloksena tietty määrä faktorien arvoyhdelmiä ja niitä vastaavat vasteen arvot Tällaisen kerätyn datan avulla voidaan mallia käyttää a) vasteen arvon ennustamiseen sellaisille faktorien arvoyhdelmille, joita vastaavia kokeita ei ole tehty Tätä varten estimoidaan datan avulla mallin parametrit b) erilaisten faktoreita koskevien hypoteesien testaamiseen Esimerkiksi kertaluvun regressiossa hypoteesi β =0tarkoittaisi sitä, että faktorilla x ei ole vaikutusta vasteeseen c) virheen ɛ varianssin estimointiin d) antamaan tietoa siitä minkälaista uutta dataa on kerättävä, esimerkiksi vasteen maksimiarvon löytämiseksi Jne Jos data on jo kerätty tai siihen ei muuten voida vaikuttaa, ei kokeiden suunnittelua tarvita Muussa tapauksessa, erityisesti jos datan keruu on kallista, vaarallista tai muuten hankalaa, tarvitaan kokeiden suunnittelua Kokeiden suunnittelun tarkoituksena on mahdollisimman pienen datan avulla saada sovelletuksi mallia halutulla tavalla Katsotaan lähemmin parametrien estimointiin, ennustamiseen ja σ 2 :n estimointiin liittyviä käsitteitä Tarkastellaan tässä kertaluvun mallia, joihin siis polynomiaalisetkin mallit voidaan palauttaa Tavallisin estimointitapa on pienimmän neliösumman keino Se on kätevintä esittää matriisiformalismin avulla Datana on kerätty N kappaletta faktorien arvoyhdelmiä sekä niitä vastaavat vasteen arvot: faktorit vaste x,,x k y x 2,,x 2k y 2 x N,,x Nk y N Näistä muodostetaan ns datamatriisi X sekä vastevektori y: x x 2 x k x 2 x 22 x 2k X =, y = x N x N2 x Nk Pienimmän neliösumman keinossa valitaan parametrit β siten, että y Xβ 2 =(y Xβ) T (y Xβ) y y 2 y N

6 LUKU REGRESSIO 3 minimoituu Gradientti β:n suhteen on 2X T (y Xβ) ja merkitsemällä se nollavektoriksi saadaan lineaarinen yhtälöryhmä X T Xβ = X T y, josta ratkaistaan β: β =(X T X) X T y = merk b = Tällöin tietysti oletetaan, että X T X on ei-singuläärinen ja erityisesti että N k + X T X ja (X T X) ovat symmetrisiä matriiseja Koska kertaluvun malli on muotoa y = x T β + ɛ, liittyvät vastevektori ja datamatriisi toisiinsa yhtälöllä y = Xβ + ɛ, ɛ = missä ɛ on satunnaisvektori Satunnaismuuttujat ɛ,ɛ 2,,ɛ N ovat riippumattomia (sillä kokeet suoritetaan toisistaan riippumattomasti) ja niillä on kullakin N(0,σ 2 )-jakauma Satunnaisvektorilla ɛ on siis N(0,σ 2 I N )-multinormaalijakauma Koska ɛ on satunnaisvektori, niin samoin on y = Xβ + ɛ sekä edelleen ɛ ɛ 2 ɛ N b 0 b b k, b =(X T X) X T y =(X T X) X T (Xβ + ɛ) =β +(X T X) X T ɛ Huomautus Vaikka ɛ:n komponentit ovat riippumattomia satunnaismuuttujia, eivät b:n komponentit sitä yleisesti ole Välittömästi todetaan nimittäin, että ja E(b) =E(β +(X T X) X T ɛ)=β +(X T X) X T E(ɛ) =β V (b) =V (β +(X T X) X T ɛ)=(x T X) X T V (ɛ)x(x T X) = σ 2 (X T X) Siispä b:llä on N(β,σ 2 (X T X) )-multinormaalijakauma ja sen komponentit ovat riippumattomat tarkalleen silloin, kun X T X on lävistäjämatriisi (jolloin myös (X T X) on lävistäjämatriisi) Kun b on saatu, voidaan muita faktorien tasoja x vastaava vasteen arvo ennustaa : ŷ =(x ) T b b on satunnaisvektori, joten ŷ on satunnaismuuttuja Edelleen E(ŷ) =(x ) T E(b) =(x ) T β ja V (ŷ) =(x ) T V (b)x = σ 2 (x ) T (X T X) x Ennustuksessa on usein mukana myös N(0,σ 2 )-jakautunut virhetermi ɛ, jolloin ŷ =(x ) T b + ɛ ja V (ŷ) = σ 2 (+(x ) T (X T X) x )

7 LUKU REGRESSIO 4 Erityisesti voidaan ennustaa datamatriisissa esiintyviä faktorien arvoyhdelmiä vastaavat vasteet: ŷ = Xb = X(X T X) X T y Erotus y ŷ = merk r on ns residuaalivektori, datan avulla lausuttuna r = y ŷ =(I N X(X T X) X T )y Ideaalisesti r:ssä on vain kohinaa eli ɛ:n vaikutus Residuaalivektorin pituuden neliö r 2 = r T r =(y Xb) T (y Xb) = merk SSE on ns residuaalin neliösumma Sen avulla saadaan σ 2 :n estimaatti (olettaen, että N>k+): s 2 SSE = N k Jos merkitään c 00 c 0 c 0k (X T X) c 0 c c k =, c k0 c k c kk niin V (b i )=σ 2 c ii Näin ollen V (b i ):n estimaatiksi käy s 2 c ii Käytetyin normaalisuusoletuksin suureilla b i β i s2 c ii = merk t i on t-jakaumat N k vapausasteella (jälleen oletetaan, että N > k + ) Tätä käyttäen voidaan testata parametriä β i koskeva hypoteesi H 0 : β i =0tai H 0 : β i 0 tai H 0 : β i 0 Kaksipuolisen testin tapauksessa vastahypoteesi on H : β i 0, yksipuoliselle testille se on H : β i < 0 tai H : β i > 0 H : β i 0 t-jakauman tiheysfunktio -t α/2 t α/2 H : β i < 0 t-jakauman tiheysfunktio -t α H : β i > 0 t-jakauman tiheysfunktio t α

8 LUKU REGRESSIO 5 Kun testin merkitsevyys (eli I tyypin virheen todennäköisyys) α = P (t i osuu varjostetulle alueelle, kun H 0 on tosi) on valittu ja etsitty vastaava taulukkopiste t α/2 tai t α,hyväksytään H 0, jos t i ei osu varjostetulle alueelle, muuten ei (ks edellisellä sivulla oleva kuva) Jos X T X ei ole lävistäjämatriisi, ovat b:n komponentit riippuvia ja yllä olevat testit ovat myös riippuvia Tällöin halutun yhtaikaisen merkitsevyyden saamiseksi voidaan käyttää esimerkiksi Bonferronin epäyhtälöä Jos taas X T X on lävistäjämatriisi, ovat b i :t riippumattomia ja samoin niitä koskevat testit Kaiken yllä olevan ja paljon muutakin tekevät nykyiset kehittyneemmät tilasto-ohjelmistot (esimerkiksi Systat, JMP, SAS, SPlus, Statistica ja SPSS) automaattisesti Myös Matlabia on helppo käyttää Ajetaan data x x 2 y Systatilla Huomaa, että samaa faktorien tasoyhdelmää on aina käytetty kahdesti Tätä voidaan käyttää mallin sopivuuden testauksessa, josta lisää myöhemmin Malli on toista kertalukua: Käskyillä >USE rottasys VARIABLES IN SYSTAT FILE ARE: X X2 Y >model y=constant+x+x2+x*x2+x2*x2 >estimate saadaan tulostus y = β 0 + β x + β 2 x 2 + β 2 x x 2 + β 22 x ɛ DEP VAR: Y N: 2 MULTIPLE R: 989 SQUARED MULTIPLE R: 977 ADJUSTED SQUARED MULTIPLE R: 965 STANDARD ERROR OF ESTIMATE: 0769 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT X X X* X X2* X

9 LUKU REGRESSIO 6 ANALYSIS OF VARIANCE SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P REGRESSION RESIDUAL Lisäämällä listaan käsky >print long saadaan täydellisempi tulostus EIGENVALUES OF UNIT SCALED X X CONDITION INDICES VARIANCE PROPORTIONS CONSTANT X X X X DEP VAR: Y N: 2 MULTIPLE R: 989 SQUARED MULTIPLE R: 977 ADJUSTED SQUARED MULTIPLE R: 965 STANDARD ERROR OF ESTIMATE: 0769 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT X X X* X X2* X CORRELATION MATRIX OF REGRESSION COEFFICIENTS CONSTANT X X2 X X2 CONSTANT 000 X X X X ANALYSIS OF VARIANCE SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P REGRESSION RESIDUAL Huomautus Tarkasti laskettaessa kannattaa käyttää datamatriisin singulääriarvohajotelmaa (SVD) X = Q ΣQ T 2, sillä sen lasku on usein numeerisesti stabiilimpi kuin yhtälöryhmän ratkaisu tai käänteismatriisin (X T X) lasku (ks kurssi Matriisilaskenta ) Onhan nimittäin (X T X) = Q 2 (Σ T Σ) Q T 2 ja b = Q 2 Σ + Q T y = X + y SVD:n saa Matlabissa käyttöönsä komennolla [Q,S,Q2]=svd(X)Huomaa myös operaatio pinv

10 LUKU REGRESSIO 7 3 Varianssianalyysi (ANOVA) Varianssianalyysiä käyttäen voidaan testata ns lineaarisia hypoteeseja, ts muotoa H 0 : Aβ = d olevia hypoteeseja, missä A on q (k +)-matriisi, jonka rivirangi on täysi, ts sen rivit ovat lineaarisesti riippumattomat, ja d on q-vektori Vielä oletetaan, että q<k+ Valitsemalla A ja d sopivasti saadaan hyvinkin monenlaisia testejä Vastahypoteesi on H : Aβ d Hypoteesintestauksen perustulos on Lause Jos H 0 on tosi, niin (aiemmin mainituin normaalisuusoletuksin) suureella 2 (Ab d) T (A(X T X) A T ) (Ab d)(n k ) qsse on F-jakauma vapausastein q ja N k (taas kerran olettaen, että N>k+) Todistus (Tämä vaatii kurssin Laaja tilastomatematiikka tietoja) Ensinnäkin b ja r ovat riippumattomia Näin ollen ovat myös (Ab d) T (A(X T X) A T ) (Ab d) ja SSE = r T r riippumattomat Edelleen suureella SSE on χ 2 -jakauma N k vapausasteella Vielä pitää σ 2 näyttää, että (Ab d) T (A(X T X) A T ) (Ab d):llä on χ 2 -jakauma q vapausasteella, σ 2 kun H 0 on tosi Koska b:llä on N(β,σ 2 (X T X) )-jakauma, on Ab d:llä N(Aβ d,σ 2 A(X T X) A T )- jakauma eli N(0 q,σ 2 A(X T X) A T )-jakauma Selvästi A(X T X) A T on symmetrinen ja positiivisemidefiniitti Koska A:lla on täysi rivirangi ja X T X on ei-singuläärinen, on myös A(X T X) A T ei-singuläärinen ja siis positiividefiniitti Schurin lauseen mukaan se voidaan kirjoittaa muotoon A(X T X) A T = QΛQ T, missä Q on ortogonaalimatriisi ja Λ on lävistäjämatriisi, jonka lävistäjällä ovat A(X T X) A T :n (positiiviset) ominaisarvot Näin ollen on (A(X T X) A T ) :llä neliöjuuri Q Λ Q T = merk B,missä lävistäjämatriisi Λ saadaan Λ :stä ottamalla sen lävistäjäalkioista neliöjuuret Ilmeisesti B on symmetrinen ei-singuläärinen matriisi Nyt B(Ab d) on N(0 q,σ 2 BB 2 B T )-jakautunut eli N(0 q,σ 2 I q )-jakautunut Suureella σ (Ab 2 d)t (A(X T X) A T ) (Ab d) = σ (B(Ab 2 d))t B(Ab d) on näin ollen χ 2 (q)-jakauma Hypoteesin testaaminen sujuu tavalliseen tapaan Merkitsevyys α kiinnitetään Jos testisuure osuu varjostetulle häntäalueelle (ks alla oleva kuva), hylätään H 0 Mitä huonommin H 0 pitää paikkansa, sitä suurempi pyrkii Ab d ja F-testisuure olemaan F-jakauman tiheysfunktio F α 2 Jos q =,voidaan muodostaa vastaava t-testisuure ja testi voisi olla toispuolinenkin

11 LUKU REGRESSIO 8 Testataan edellä olleelle datalle muutamia hypoteesejä Systatilla Käytetään vaihteen vuoksi uutta 3 kertaluvun mallia Käskyillä y = β 0 + β x + β 2 x 2 + β 2 x x 2 + β 22 x β 22 x x ɛ >model y=constant+x+x2+x*x2+x2*x2+x*x2*x2 >estimate >hypothesis >effect x*x2*x2 >test saadaan tulostus DEP VAR: Y N: 2 MULTIPLE R: 996 SQUARED MULTIPLE R: 992 ADJUSTED SQUARED MULTIPLE R: 985 STANDARD ERROR OF ESTIMATE: 0504 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT X X X* X X2* X X* X2* X ANALYSIS OF VARIANCE SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P REGRESSION RESIDUAL TEST FOR EFFECT CALLED: BY BY X X2 X2 TEST OF HYPOTHESIS SOURCE SS DF MS F P HYPOTHESIS ERROR Sama tulos saadaan syöttämällä A =(0, 0, 0, 0, 0, ) d:tä ei tarvitse syöttää, sillä sen oletusarvo on 0 Lisätään jonoon käskyt >hypothesis >amatrix > >test jolloin saadaan tulostus

12 LUKU REGRESSIO 9 HYPOTHESIS A MATRIX TEST OF HYPOTHESIS SOURCE SS DF MS F P HYPOTHESIS ERROR Komento print long antaa vähän enemmän tulostusta: HYPOTHESIS A MATRIX NULL HYPOTHESIS CONTRAST AB INVERSE CONTRAST A(X X) A TEST OF HYPOTHESIS 0037 SOURCE SS DF MS F P HYPOTHESIS ERROR Hypoteesi H 0 hylätään merkitsevyystasolla α =002, mutta ei aivan tasolla α =00 Selittäjä x x 2 2 saa olla mukana Katsotaan vielä hypoteesia H 0 : β = 2,β 2 =2sivun 6 mallille, jolloin Käskyt >hypothesis >amatrix > > >dmatrix >-2 >2 >test A = ( ) ja d = ( 2 2 ) antavat tulostuksen

13 LUKU REGRESSIO 0 HYPOTHESIS A MATRIX D MATRIX TEST OF HYPOTHESIS SOURCE SS DF MS F P HYPOTHESIS ERROR Hypoteesia H 0 ei tässä voi hylätä Yksinkertaisin valinta A-matriisiksi on (0,,0,, 0,,0), missä on i:s alkio Hypoteesi H 0 : Aβ = β i =0testaa silloin faktorin x i tarpeellisuutta mallissa Tällöin ja testisuure on b i (A(X T X) A T ) b i = b 2 i c ii b 2 i (N k ) c ii SSE = b2 i s 2 c ii eli sivulla 4 olevan t-testisuureen t i neliö Testi on siis sama kuin mainittu t-testi kaksipuolisena! Yleensäkin, jos q =,onh 0 muotoa a T β = d ja testisuureeksi voidaan ottaa N k vapausasteella t-jakautunut suure a T b d s2 a T (X T X) a Tällöin voi myös tehdä kaksipuolisia testejä (H 0 : a T β d tai H 0 : a T β d) Koko mallin käyttökelpoisuutta puolestaan testaa hypoteesi H 0 : β = = β k =0 Jos tätä H 0 :aa ei hylätä, ovat käytetyt faktorit huonoja selittäjiä, ts koko malli voitaisiin yhtä hyvin korvata vakiolla + kohinalla (eli mallilla y = β 0 +ɛ) Vastaava A-matriisi on ( ) 0 k I k ja d = 0 k Tehdään datamatriisissa ja b-vektorissa samanlainen ositus: X = ( N D ) ( ) b0 ja b = b (Matriisi D on muuten ns suunnittelumatriisi 3, jota tarvitaan vielä jatkossa) Tässä N N-vektori, jonka kaikki alkiot ovat ykkösiä Silloin Ab = b ja ( ) X T T X = N ( D T N D ) ( ) N T = N D D T N D T D on 3 Toisinaan käytetään kuitenkin matriisista X nimeä suunnittelumatriisi!

14 LUKU REGRESSIO Edelleen tällöin (Ab d) T (A(X T X) A T ) (Ab d) =(b ) T (A(X T X) A T ) b = merk SSR, ns regression neliösumma Tunnetun lohkomatriisien kääntökaavan 4 mukaan (X T X) :n oikea alalohko eli siis A(X T X) A T on ( ) D T D D T N N T ND =(D T M N D) Matriisi M N = I N J N N on ns keskitysmatriisi Sillä kertominen vähentää datavektorista sen keskiarvon (Matriisi J N = N T N taas on N N-matriisi, jonka kaikki alkiot ovat ykkösiä) Koska ilmiselvästi M N N = 0 N,niin SSR =(b ) T D T M N Db =(b 0 N + Db ) T M N (b 0 N + Db )=(Xb) T M N Xb = ŷ T M N ŷ Koska edelleen X T r = X T (y Xb) =X T y X T X(X T X) X T y = 0 k+, niin T N r =0(tarkastellaan vain X:n ensimmäistä saraketta) ja ŷt r = b T X T r =0 Näin ollen r T M N ŷ = r (I T N ) N N T N ŷ = r T ŷ N rt N T Nŷ =0 ja r T M N r = r T (I N N N T N ) r = r T r N rt N T Nr T = r T r = SSE Ns kokonaisneliösumma y T M N y = merk SST on näin hajotettavissa residuaalin neliösumman ja regression neliösumman summaksi: SST = y T M N y =(r + ŷ) T M N (r + ŷ) =r T M N r + ŷ T M N ŷ = SSE + SSR Neliösummiin liittyvät ns vapausasteet on annettu alla olevassa taulukossa SSX vapausasteet SSE N k SSR k SST N ), missä U ja Z ovat ei-singuläärisiä neliömatriise- ( U V 4 Kääntökaava on seuraavanlainen Jos matriisi W Z ja, on ei-singuläärinen, niin sen käänteismatriisi on ( U + U VYWU U VY YWU Y ( missä Y =(Z ) WU V) Kaava johdetaan kirjoittamalla käänteismatriisi määräämättömään lohkomuotoon R S ja ratkaisemalla lohkot Matriisin Z WU V ei-singuläärisyys vastaa muuten 2 2-matriisin T Y kääntyvyyden tuttua determinanttiehtoa ),

15 LUKU REGRESSIO 2 Jakamalla neliösumma vapausasteellaan saadaan aina vastaava keskineliö: MSE = SSE N k, MSR = SSR k, MST = SST N (residuaalin keskineliö, regression keskineliö ja kokonaiskeskineliö) Hypoteesin H 0 : β = = β k = 0 testisuure on näin ollen MSR/MSE ja sillä on Lauseen mukaan F-jakauma vapausastein k ja N k Vastahypoteesi on H : ainakin yksi parametreistä β,,β k on 0 H 0 :n hylkääminen merkitsee, että ainakin yhdellä faktorilla on merkittävää vaikutusta vasteeseen Varianssianalyysitaulu (jollaisen ohjelmistot yleensä tulostavat) sisältää kaiken tämän: variaation lähde vapausasteet neliösummat keskineliöt F merkitsevyys regressio residuaali kokonaisvariaatio k N k N SSR SSE SST MSR MSE MST Neliösummista saadaan myös ns determinaatiokerroin eli selitysaste MSR MSE pienin α:n arvo, jolla H 0 hylätään SSR SST = merk R 2 Tulkinta: R 2 ilmoittaa kuinka suuren suhteellisen osan vastevektorin otosvarianssista regressio selittää R 2 :n neliöjuuri SSR SST = merk R on ns yhteiskorrelaatiokerroin Jotkut käyttävät mieluummin ns korjattua determinaatiokerrointa MSE MST = merk RA 2 = ( R 2 N ) N k Tulkinta: RA 2 ilmoittaa kuinka paljon suhteellisesti V (ɛ):n estimoidusta arvosta voidaan poistaa sovittamalla jokin muu kuin H 0 :n mukainen malli y = β 0 + ɛ verrattuna siihen V (ɛ):n estimoituun arvoon (= MST), joka ko mallin avulla saadaan Tilasto-ohjelmistot tulostavat yleensä myös nämä kertoimet 4 Mallin epäsopivuuden testaus toistokokein Regressiomallin epäsopivuus tarkoittaa sitä, että lisäämällä uusia faktoreita tai entisistä faktoreista muodostettuja uusia (korkeampiasteisia) faktoreita residuaalia voidaan pienentää Huomautus Mallin riittävyys, johon palataan yksisuuntaisen ANOVAn yhteydessä myöhemmin, puolestaan tarkoittaa sitä, että mallin yhteydessä sovitut oletukset (riippumattomuudet, normaalisuus, varianssien samuus, jne) pitävät paikkansa Jos siis malli y = x T β + ɛ on epäsopiva, tarkoittaa se sitä, että jokin laajennettu malli y = x T β + z T γ + ɛ,

16 LUKU REGRESSIO 3 missä z =(z,,z l ) T on uusien tai entisistä kertomalla tai muuten saatujen faktorien muodostama vektori ja γ =(γ,,γ l ) T on uusi parametrivektori, on parempi Huomaa, että sovitettaessa jälkimmäinen malli pienimmän neliösumman keinolla vastevektoriin y ja datamatriisiin ( X Z ), missä X on aikaisempi datamatriisi ja Z uusia faktoreita vastaavista sarakkeista muodostettu jatke, eivät parametrit β saa (välttämättä) samoja arvoja kuin sovitettaessa alkuperäistä mallia Tämä johtuu siitä, että uudet selittävät faktorit voivat selittää samoja tekijöitä kuin vanhat faktorit Se mitä uudet faktorit selittävät ja vanhat eivät, on erotusdatassa Z Ẑ, missä Ẑ saadaan ennustamalla Z:n sarakkeet vanhaa mallia käyttäen Ennusteen laskukaavaa käyttäen 5 Ẑ = X(X T X) X T Z Hypoteesi, jonka mukaan malli ei ole tarkasteltujen uusien faktorien kannalta epäsopiva, on näin ollen H 0 :(Z Ẑ)γ = 0 N Vastahypoteesi on tietysti H :(Z Ẑ)γ 0 N Yllä olevan hypoteesin testaus, jossa tarkastellaan mallin sopivuutta tiettyjen kiinteiden uusien faktorien kannalta, voidaan ajatella toteutettavaksi A-matriisilla ( O Z X(X T X) X T Z ) Sillä ei tosin ole täyttä rivirangia ja rivejäkin on liikaa, mutta sen sarakerangi on l, muutenhan matriisissa ( X Z ) on lineaarisesti riippuvia sarakkeita Testi on näin ollen sama kuin hypoteesille H 0 : γ = 0 l ja helppo toteuttaa Jos halutaan testata, kuten alun perin haluttiin, onko mallia yleensä ottaen mahdollista parantaa, pitää verrata virhetermin aiheuttamaa varianssia vasteen selittämättä jääneen osan aiheuttamaan varianssiin Jos jälkimmäinen on huomattavasti suurempi, on mahdollista uusia faktoreita käyttäen parantaa mallin sopivuutta Testisuure tällaiselle testaukselle saadaan, jos mukana on toistokokeita, ts datamatriisissa on samoja rivejä Oletetaan, että datamatriisissa X on erilaisia rivejä m kappaletta Huomaa, että m k +, muuten X T X on singuläärinen Kootaan mainitut erilaiset rivit m (k +)- matriisiksi X Silloin voidaan kirjoittaa X = TX sopivasti valitulle N m-matriisille T Huomaa, että T:llä on täysi sarakerangi, ts sen sarakkeet ovat lineaarisesti riippumattomat, ja että T m = N Itse asiassa T saadaan identiteettimatriisista I m toistamalla sen rivejä sopivasti Laajin mahdollinen malli, joksi alkuperäinen malli voidaan täydentää, saadaan, kun lisätään X:ään suurin mahdollinen määrä aikaisemmista lineaarisesti riippumattomia sarakkeita säilyttäen toistetut rivit Tällaiseen malliin ei nimittäin voida lisätä yhtäkään uutta selittäjää, joka ei, toistokokeiden puitteissa, riippuisi lineaarisesti aikaisemmista Täydennetään X ensin m m- matriisiksi lisäämällä siihen m k aikaisemmista lineaarisesti riippumatonta saraketta: ( X Z ) =merk X 2 5 Matriisia (X T X) X T Z kutsutaan ns aliasmatriisiksi

17 LUKU REGRESSIO 4 X:n täydennys on sen jälkeen N m-matriisi missä Z = TZ Alkuperäisestä datamallista (Malli I) TX 2 = ( TX TZ ) = ( X Z ) =merk X 3, y = Xβ + ɛ saadaan näin laajennettu datamalli (Malli II) ( ) β y = X 3 + ɛ = Xβ + Zγ + ɛ γ Mallista II saatu ennustevektori on ŷ II = X 3 (X T 3 X 3 ) X T 3 y = TX 2 (X T 2 T T TX 2 ) X T 2 T T y = T(T T T) T T y, joka ei riipu Z :stä, ts siitä, miten X täydennetään! Näin ollen saatava testi ei myöskään riipu mallin laajennustavasta, kunhan toistojen rakenne (eli T) säilytetään Mallista II saatava residuaali on r II =(I N T(T T T) T T )y ja tämän residuaalin neliösumma on ns puhtaan virheen neliösumma Yritetään selittää Mallin I residuaalivektori r T IIr II = merk SSPE, r =(I N X(X T X) X T )y Mallin II avulla Jos tämä onnistuu tarpeeksi hyvin, ei Malli I ole sopiva, vaan se voidaan täydentää sopivammaksi Merkitään lyhyyden vuoksi P = I N X(X T X) X T ja R = I N T(T T T) T T Silloin todetaan helpolla laskulla, että P ja R ovat symmetrisiä idempotentteja matriiseja ja että RP = PR = R, PX = O, RX = O, RZ = O, rank(p) =trace(p) =N k, rank(r) =trace(r) =N m (ks kurssit Laaja matematiikka 4 ja Matriisilaskenta ) Selitettäessä Mallin II avulla Mallin I residuaalia r on selittämättä jäävä residuaali Rr = RPy = Ry, jonka neliösumma on nimenomaan SSPE Kokonaisneliösumma on puolestaan r T r eli Mallin I residuaalin neliösumma SSE Edelleen regression neliösumma tässä selitysyrityksessä on SSE SSPE = merk SSLOF, ns epäsopivuuden neliösumma Matriisimuodossa SSLOF = y T (P R)y

18 LUKU REGRESSIO 5 Matriisi P R on symmetrinen idempotentti matriisi, jonka rangi on trace(p R) =trace(p) trace(r) =m k, kuten helposti voidaan todeta SSPE vastaa sitä osaa residuaalivarianssista, joka johtuu virhetermistä Siihen ei voida vaikuttaa mallilla, olipa tämä kuinka hyvä tahansa SSLOF vastaa taas sitä osaa residuaalivarianssista, joka johtuu mallin huonosta selittävyydestä eli epäsopivuudesta Mutta: Residuaali r ei ole oikeaa vasteen tyyppiä, sillä sillä on singuläärinen normaalijakauma (ts P on singuläärinen) Näin ollen saatujen neliösummien jakaumat ja vapausasteet sekä niihin perustuva ANOVA katsotaan erikseen Huomaa kuitenkin, että SSPE on Mallin II residuaalin neliösumma, joten sillä on χ 2 -jakauma N m vapausasteella Lause 2 Jos hypoteesi H 0 : PZγ = 0 N on tosi Mallille II, niin suureella SSLOF(N m) SSPE(m k ) on F-jakauma vapausastein m k ja N m (olettaen tietysti, että m>k+) Todistus (Tässä tarvitaan kurssin Laaja tilastomatematiikka tietoja) Pitää näyttää, että SSLOF ja SSPE ovat riippumattomasti χ 2 -jakautuneet vapausastein m k ja N m, vastaavasti Hypoteesin H 0 voimassaollessa (P R)y =(P R)(Xβ + Zγ + ɛ) =(P R)ɛ ja Ry = R(Xβ + Zγ + ɛ) =Rɛ Koska P R ja R ovat symmetrisiä idempotentteja matriiseja, R(P R) =O N ja ɛ:lla on N(0 N,σ 2 I N )-multinormaalijakauma, on lause oikea Lauseessa esiintyvä Z on tietysti se laajin mahdollinen, jolla alkuperäistä datamatriisia X täydennetään Vastahypoteesi on H : PZγ 0 N SSPE:llä on siis vapausasteita N m ja SSLOF:llä m k Vastaavat keskineliöt ovat näin ollen SSPE N m = SSLOF merk MSPE ja m k = merk MSLOF (puhtaan virheen keskineliö ja epäsopivuuden keskineliö) Varianssianalyysitaulu on siten variaation lähde vapausasteet neliösummat keskineliöt F merkitsevyys epäsopivuus puhdas virhe residuaali m k N m N k SSLOF SSPE SSE MSLOF MSPE MSE MSLOF MSPE pienin α:n arvo, jolla H 0 hylätään Jos hypoteesia H 0 ei hyväksytä, voidaan mallia parantaa täydentämällä sitä sopivilla faktoreilla Huomaa, että jos erityisesti täydentävät faktorit ovat entisistä laskien saatuja korkean asteen faktoreita, niin edellä esitetty toistettujen rivien säilyminen täydennettäessä on automaattista Näin ollen esitetty testi on erityisen sopiva juuri tällaista täydennystä ajatellen Jos mallia päätetään täydentää, ei tietystikään mukaan välttämättä kannata ottaa kaikkia mahdollisia lisäselittäjiä, vaan vain sopivasti valitut lisäfaktorit Ohjelmistot tarjoavatkin korkeampiasteisten faktorien osalta monia (puoli)automaattisia lisäys- ja valintamenetelmiä (ns askeltava regressio)

19 LUKU REGRESSIO 6 Huomautus Eräät ohjelmistot suorittavat epäsopivuustestin automaattisesti, jos toistokokeita esiintyy Matlabia käytettäessä matriisin T kokoaminen on helppoa, varsinkin jos toistoja on kullekin toistetulle tasoyhdelmälle yhtä monta (kuten esimerkiksi sivulla 5 olevalle datalle) Huomautus Epäsopivuustesti voidaan tehdä muutenkin kuin toistokokeita käyttäen Matriisista T:kin käytettiin nimittäin vain sen ominaisuuksia (i) T:llä on täysi sarakerangi (jotta T T T olisi ei-singuläärinen) ja (ii) hajotelmassa X = TX on X :llä täysi sarakerangi k +(jotta se voidaan täydentää ei-singulääriseksi m m-matriisiksi X 2 ) Mikä tahansa matriisi, joka toteuttaa nämä ehdot, kelpaisi periaatteessa T:n tilalle Tällöin ei kyseessä olisi välttämättä enää koetoistoihin perustuva testi Itse asiassa, jos käytetäänkin hajotelmaa X =(TS)(S X ),missä S on ei-singuläärinen m m-matriisi, niin I N TS(S T T T TS) S T T T = I N T(T T T) T T = R Siis esitetty epäsopivuustesti riippuu T:stä vain sen sarakeavaruuden S kautta! Valitsemalla S eri tavoin saadaan erilaisia epäsopivuustestejä, tosin näin saadut testit ovat yleensä heikompia kuin toistoihin perustuvat Ks myös CHRISTENSEN ja artikkeliviite JOGLEKAR, G& SCHUENMEYER, JH & LARICCIA, V: Lack-of-Fit Testing When Replicates Are Not Available The American Statistician 43 ( 89), Datan affiinimuunnokset Ortogonaalisuus ja kiertosymmetrisyys Jos X on N (k +)-datamatriisi ja L on ei-singuläärinen (k +) (k +)-matriisi, jonka ensimmäinen sarake on (, 0,,0) T, niin XL on myös N (k +)-datamatriisi, joka sisältää saman informaation kuin X Tällainen muunnos on datan affiinimuunnos L on siis muotoa ( ) l T L = 0 k K missä l on k-vektori ja K on ei-singuläärinen k k-matriisi Koska y = Xβ + ɛ = XLL β + ɛ, on uutta datamatriisia XL vastaava parametrivektori L β = merk γ Edelleen pienimmän neliösumman keinon antama parametrivektorin γ estimaatti on g =((XL) T XL) (XL) T y = L (X T X) (L T ) L T X T y = L b ja uusi ennustevektori on XLg = Xb = ŷ eli sama kuin vanha Näin ollen myöskin residuaali pysyy datan affiinimuunnoksessa samana ja itse asiassa kaikki neliösummat SSE, SST ja SSR sekä vastaavat keskineliöt Mallin merkitsevyys ei siis muutu Myöskin lineaarisen hypoteesin ALγ = d testaus antaa saman tuloksen kuin hypoteesin Aβ = d testaus, sillä (Ab d) T (A(X T X) A T ) (Ab d) =(ALg d) T (AL((XL) T XL) (AL) T ) (ALg d)

20 LUKU REGRESSIO 7 Koko ANOVA tuottaa näin ollen aina saman tuloksen, riippumatta siitä tehdäänkö dataan jokin affiinimuunnos vai ei Toisaalta V (g) =σ 2 ((XL) T XL) = σ 2 L (X T X) (L T ) voi hyvinkin olla edullisempaa muotoa kuin V (b), ts g:n komponenttien välillä voi olla vähemmän korrelaatiota kuin b:n komponenttien välillä ja niiden varianssit voivat olla pienempiä kuin b:n komponenttien varianssit Huomautus Jos mallissa on mukana ensimmäisen asteen faktoreista muodostettuja korkeampiasteisia faktoreita, tehdään usein affiinimuunnos vain datan ensimmäisen asteen osaan ja lasketaan näin saaduista uusista faktoreista malliin mukaan korkeampiasteisia faktoreita Affiinimuunnokset nimittäin useimmiten liittyvät vain perusfaktorien arvojen muuntamiseen Toisaalta, jos malli sisältää kaikki korkeampiasteiset termit haluttuun astelukuun asti, voidaan myös vastaava uusi malli saada aikaisemmasta affiinimuunnoksella, kuten on helposti todettavissa Tavallinen ensimmäisen kertaluvun mallin datan affiinimuunnos on skaalaus, jota vastaava matriisi K on lävistäjämatriisi, missä lävistäjäalkiot p,,p k ovat nollasta eroavia Tällaista lävistäjämatriisia merkitään p :llä, missä p =(p,,p k ) T Selittäjä x i korvautuu skaalauksessa selittäjällä p i x i + l i, missä l i on l:n i:s alkio Skaalauksen tarkoituksena on, paitsi vaihtaa selittävien muuttujien asteikot sopivammiksi, muuntaa keinotekoisesti selittävät muuttujat tyypillisten arvojensa suhteen samaan asemaan Tyypillisten arvojen kokoero saattaa nimittäin alunperin olla monia dekadeja, mikä aiheuttaa mm numeerista epätarkkuutta laskuissa Tällöin suoritetaan ensin skaalaus ja vasta sitten mallin sovitus Skaalausmatriisi on helposti koottavissa Matlabin operaatioilla:»p=[ ] p = »l=[ ] l = »L=[ l;zeros(5,) diag(p)] L = Erityinen skaalauksen muoto on datan standardointi, jossa valitaan p i = ja l i = x i p i, N (x ji x i ) 2 N j= ts p i on x i :n otoshajonnan inverssi ja l i on x i :n otosvariaatiokertoimen vastaluku (x i on tietysti x i :n otoskeskiarvo) Jälleen p ja l saadaan koottua helposti Matlabilla:

21 LUKU REGRESSIO 8»p= /std(d);»l=-p*mean(d); D on siis suunnittelumatriisi, joka saadaan X:stä: X = ( N D ) Jos data on kunkin faktorin osalta tasavälistä, käytetään usein koodausta, joka myös on eräs skaalauksen muoto Tällöin p i = 2 max(x i,,x Ni ) min(x i,,x Ni ) ja l i = x i p i, ts erona standardointiin on, että p i on nyt x i :n otosvaihteluvälin puolikkaan eikä x i :n otoshajonnan inverssi Myös koodaus on helposti tehtävissä Matlabilla:»p=2 /(max(d)-min(d));»l=-p*mean(d); Lähinnä koodausta käytetään tilanteessa, missä kullakin faktorilla on kaksi tasoa tai kolme tasavälistä tasoa, jotka esiintyvät tasapainoisesti eli siten, että kunkin faktorin x i otoskeskiarvo on sen tasojen vaihtelukeskipisteessä min(x i,,x Ni )+max(x i,,x Ni ), 2 sillä tällöin koodatut arvot ovat 0, ± Jos tasoja on enemmän tai data ei ole tasapainoista, on koodaus korvattava mutkikkaammalla operaatiolla Edellä sivulla 5 oleva tasavälinen ja tasapainoinen data standardoituna ja koodattuna on annettu alla olevassa taulussa standardointi x x koodaus x x Ajetaan vielä sekä standardoitu että koodattu data Systatilla muodostaen korkeamman asteen faktorit muunnetusta datasta Käskyt >USE rottasys SYSTAT FILE VARIABLES AVAILABLE TO YOU ARE: X X2 Y >save rottastdsys >standardize x,x2 >run standardoivat ja käskyt

22 LUKU REGRESSIO 9 >EDIT Tilastomatematiikka:TKS data:rottasys >LET x=2*(x-05)/04 >LET x2=2*(x2-5)/8 >SAVE Tilastomatematiikka:TKS data:rottakoodsys koodaavat datan uudeksi dataksi Malli on sama kuin sivulla 5 oleva Käytetään pitkää tulostusta, jotta saadaan mukaan parametrien korrelaatiot Ajetaan ensin standardoitu data: EIGENVALUES OF UNIT SCALED X X CONDITION INDICES VARIANCE PROPORTIONS CONSTANT X X X X DEP VAR: Y N: 2 MULTIPLE R: 989 SQUARED MULTIPLE R: 977 ADJUSTED SQUARED MULTIPLE R: 965 STANDARD ERROR OF ESTIMATE: 0769 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT X E X E X* X E X2* X E CORRELATION MATRIX OF REGRESSION COEFFICIENTS CONSTANT X X2 X X2 CONSTANT 000 X X X X ANALYSIS OF VARIANCE SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P REGRESSION RESIDUAL Verrattaessa aikaisempaan sivulla 6 olevaan tulostukseen havaitaan nyt X T X:n ominaisarvojen tasaisempi rakenne ja parametrien suurempi korreloimattomuus ANOVA tuottaa saman tuloksen kuin aikaisemminkin Ajetaan sitten koodattu data Tulokset ovat paljolti samantapaiset kuin standardoidulle datalle: EIGENVALUES OF UNIT SCALED X X

23 LUKU REGRESSIO 20 CONDITION INDICES VARIANCE PROPORTIONS CONSTANT X X X X DEP VAR: Y N: 2 MULTIPLE R: 989 SQUARED MULTIPLE R: 977 ADJUSTED SQUARED MULTIPLE R: 965 STANDARD ERROR OF ESTIMATE: 0769 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT X E X E X* X E X2* X E CORRELATION MATRIX OF REGRESSION COEFFICIENTS CONSTANT X X2 X X2 CONSTANT 000 X X X X ANALYSIS OF VARIANCE SOURCE SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO P REGRESSION RESIDUAL Suunnittelun sanotaan olevan ortogonaalinen, jos X T X on lävistäjämatriisi, ts silloin kun faktoreita vastaavat sarakkeet ovat kohtisuorassa toisiaan vastaan (ja myös vektoria N vastaan) Lause 3 Suunnittelu on ortogonaalinen täsmälleen silloin, kun (i) D:n sarakesummat ovat nollia, ts T N D = 0T k ja (ii) D T D on lävistäjämatriisi (Tässä D on jälleen suunnittelumatriisi, X = ( N D ) ) Todistus Ilmeisesti X T X = ( T N D T ) ( T N D ) ( N T = N D D T N D T D ) on lävistäjämatriisi tarkalleen silloin, kun (i) ja (ii) toteutuvat Ortogonaalista suunnittelua käytettäessä V (b) =σ 2 (X T X) on lävistäjämatriisi, ts parametriestimaatit b 0,,b k ovat riippumattomat Edelleen tällöin käänteismatriisin (X T X) laskeminen on helppoa ja tarkkaa

24 LUKU REGRESSIO 2 Suunnittelun sanotaan olevan kiertosymmetrinen, jos matriisi X T X säilyy samana, kun dataan tehdään mielivaltainen ortogonaalinen muunnos, ts X T X on koordinaatistosta riippumaton Ortogonaalinen muunnos on sama kuin muotoa ( ) 0 T Q = k 0 k K oleva affiinimuunnos, missä K on k k-ortogonaalimatriisi Lause 4 Suunnittelu on kiertosymmetrinen täsmälleen silloin, kun (i) D:n sarakesummat ovat nollia, ts T N D = 0T k ja (ii) D T D on muotoa λi k, missä λ on vakio Todistus (Tässä tarvittaneen kurssin Matriisilaskenta tietoja) Oletetaan, että suunnittelu on kiertosymmetrinen Sovelletaan mielivaltaista ortogonaalimuunnosta: ( )( ) 0 (XQ) T XQ = Q T X T T XQ = k T N ( 0 k K T D T N D ) ( ) 0 T k 0 k K ( )( )( ) 0 T = k N T N D 0 T k 0 k K T D T N D T D 0 k K ( N = T N D )( ) 0 T k K T D T N K T D T D 0 k K ( N = T N DK ) K T D T N K T D T DK Jotta tämä olisi ( ) N X T T X = N D D T N D T, D on oltava K T D T N = D T N ja K T D T DK = D T D, olipa K mikä tahansa ortogonaalimatriisi Mutta, jotta kaikki ortogonaalimuunnokset pitäisivät D T N :n samana, pitää sen olla = 0 k,ts (i) pätee Toisaalta D T D on symmetrinen matriisi, joten se on diagonalisoitavissa ortogonaalimuunnoksella Näin ollen D T D:n on oltava valmiiksi lävistäjämatriisi Silloin taas D T D:n lävistäjäalkiot voidaan permutoida mielivaltaiseen järjestykseen ortogonaalimuunnoksella Näin ollen lävistäjäalkioiden on oltava samoja Siispä myös (ii) pätee Selvästi suunnittelu on kiertosymmetrinen, jos (i) ja (ii) pätevät Kiertosymmetrisessä suunnittelussa ei ole mahdollista parantaa mallia siirtymällä uusiin koordinaatteihin, ts esimerkiksi V (b) pysyy samana Malli ei voi tällöin myöskään huonontuakaan Erityisesti ennusteen varianssi ( V (ŷ) =σ 2 (x ) T (X T X) x = σ 2 N + ( (x λ ) 2 + (x k) 2)) riippuu vain datavektorin x =(,x,,x k )T pituudesta 6 Lauseista 3 ja 4 seuraa, että jokainen kiertosymmetrinen suunnittelu on myös ortogonaalinen, mutta ei kääntäen Tärkeä ortogonaalisten/kiertosymmetristen suunnittelujen ominaisuus on se, että niistä faktoreita poistamalla eli typistämällä saadut suunnittelut ovat myös ortogonaalisia/kiertosymmetrisiä (Tämä seuraa varsin suoraan yo lauseista) 6 Tästä itse asiassa tulee nimi kiertosymmetrinen, datan rotaatio ei muuta ennusteen varianssia

25 LUKU REGRESSIO 22 6 Esimerkki ortogonaalisesta kertaluvun suunnittelusta: Simplex-koe, Plackett Burman-koe Simplex-koe on ortogonaalinen kertaluvun malliin perustuva koe, jonka datamatriisi X = ( k+ D ) on (k +) (k +)-matriisi ja suunnittelumatriisi muodostuu säännöllisen origokeskisen k+-simpleksin kärkien koordinaateista R k :ssa Esimerkiksi R 2 :ssa tällainen simpleksi on tasasivuinen origokeskinen kolmio (ks alla oleva kuvio) (Yleisesti R k :n simpleksi on sen k +-kärkinen monitahokas) y z z a a a x x a a a y x a a a y keskipiste Sama tasasivuinen kolmio syntyy R 3 :een leikattaessa ensimmäistä oktanttia tasolla x + y + z = a 2 Rotaatiolla saadaan kolmio yz-tason suuntaiseksi, jolloin sen kärkien ensimmäiset koordinaatit ovat samat Kolmion kärjet origoon yhdistävät janat ovat edelleen kohtisuorassa toisiaan vastaan (ortogonaalisuus) Kolmion keskipiste on x-akselilla Lause 3 ja yllä oleva päättely antavat seuraavan idean kahden faktorin simplex-kokeen suunnitteluun: Etsitään ortogonaalinen 3 3-matriisi V, jonka ensimmäisen sarakkeen alkiot ovat samoja (= / 3) 2 Valitaan X = 3V V löytyy esimerkiksi muodostamalla matriisin 0 0 W = 0 0 QR-hajotelma W = QR, missä Q on ortogonaalimatriisi ja R on yläkolmiomatriisi (ks kurssi Matriisilaskenta ) Valitaan V = ±Q Sama idea toimii yleisestikin: Muodostetaan (k +) (k +)-matriisin W = 0 0 QR-hajotelma W = QR

26 LUKU REGRESSIO 23 2 Valitaan X = ± k +Q (W:n tilalle kelpaavat tietysti muutkin ei-singulääriset matriisit, joiden ensimmäinen sarake on k+ ) Käytännössä laskenta sujuu vaikkapa Matlabilla Otetaan esimerkkinä tapaus k =3:»I=eye(4);W=[ones(4,) I(:,2:4)] W = »[Q,R]=qr(W) Q = R = »X=2*(-Q) X = Tällä tavoin saatu suunnittelu on lisäksi myös kiertosymmetrinen, sillä X T X =(k +)I k+ (Lause 4) Koska N = k +,eivät simplex-kokeille tule suoraan käyttöön σ 2, t-testit eikä myöskään ANOVA Esimerkiksi Systatin tulostus yo datalla tehdylle kokeelle on seuraava: käskyt >USE simplexsys VARIABLES IN SYSTAT FILE ARE: X X2 X3 Y >model y=constant+x+x2+x3 >estimate ja tulostus DEP VAR: Y N: 4 MULTIPLE R: 000 SQUARED MULTIPLE R: 000 VARIABLE COEFFICIENT STD ERROR STD COEF TOLERANCE T P(2 TAIL) CONSTANT X E+0 X E+0 X E+0 ANOVA ei tulostu ja mallin sopivuus on täydellinen Tulostuksen antina ovat saadut parametriestimaatit Mutta tietysti suunnittelua voidaan tarvittaessa typistää, ts ottaa mukaan vain tarvittava määrä faktoreita Kuten edellä todettiin, tämä ei poista ortogonaalisuutta eikä kiertosymmetrisyyttä

27 LUKU REGRESSIO 24 Huomautus Jos simplex-data ei ole reaalimaailman koetta ajatellen oikeantyyppistä, voidaan se muuntaa sopivalle asteikolle skaalauksella Koe suoritetaan skaalatulla datalla, mutta mallina käytetään (typistetyn) simplex-datan mallia, josta haluttaessa voidaan päästä skaalauksella reaalimaailmaan Erikoistapaus simplex-kokeesta on ns Plackett Burman-koe Datamatriisi on tällöin (mahdollisen koodauksen jälkeen) alkioista ± koostuva (k +) (k +)-matriisi X, joka toteuttaa ehdon X T X =(k +)I k+ Tällaista ±-matriisia X kutsutaan yleisesti Hadamardin matriisiksi 7 Hadamardin m m- matriisilla H on seuraavat ominaisuudet: (i) H:n sarakesummat ensimmäistä saraketta lukuunottamatta ovat =0, ts sarakkeissa on yhtä monta +:tä ja :tä (ii) Joko m =2tai sitten m on neljällä jaollinen luku (iii) H:n kahden rivin välinen etäisyys on aina 2mTästä ja kohdasta (i) seuraa, että Plackett Burman-koe on simplex-koe, koska rivin ensimmäinen alkio on Nämä ominaisuudet ovat kutakuinkin helposti todettavissa (jätetään lukijalle) Hadamardin matriisien konstruktio tapahtuu käyttäen ns äärellisiä kuntia (ks kurssi Algebra tai Koodausteoria) JOHN selostaa konstruktiota lähemmin Jo saaduista Hadamardin matriiseista saa uusia isompia ns Kronecker-tuloa käyttämällä Yleisesti n m -matriisin A = a a m a n a n m ja n 2 m 2 -matriisin B Kronecker-tulo on n n 2 m m 2 -matriisi a B a m B A = = merk A B a n B a n m B (lohkomuoto) Lohkomatriisien kertolaskukaavasta seuraa melko välittömästi, että mikäli matriisitulot AC ja BD ovat määritellyt, niin (A B)(C D) =(AC) (BD), ja lohkomatriisin transponointikaavasta puolestaan, että (A B) T = A T B T Jos nyt m m -matriisi H ja m 2 m 2 -matriisi H 2 ovat Hadamardin matriiseja, niin samoin on niiden Kronecker-tulo H H 2, sillä (H H 2 ) T (H H 2 )=(H T H T 2 )(H H 2 )=(H T H ) (H T 2 H 2 ) =(m I m ) (m 2 I m2 )=m m 2 I m m 2 ja H H 2 :n ensimmäinen sarake on I m m 2 Matlabilla tällainen konstruktio sujuu helposti: 7 Varsinaisesti Hadamardin matriisi määritellään niin, että sen ensimmäisen sarakkeen ei tarvitse olla Toisaalta jokainen Hadamardin matriisi voidaan saattaa tällaiseksi kertomalla sen rivejä sopivasti :llä Tämä säilyttää Hadamard-ominaisuuden, kuten voi helposti todeta Tällaiselle yleiselle Hadamardin matriisille ominaisuus (i) ei välttämättä pidä paikkaansa Hadamardin matriisi on standardimuodossa, jos sen ensimmäinen sarake on ja ensimmäinen rivi T

28 LUKU REGRESSIO 25»H=[ ; -] H = -»H2=kron(H,H) H2 = »H=kron(H,H2) H = k -kokeet: Katsaus 2 k -kokeella tarkoitetaan koetta, jossa (k +) N-datamatriisin X sarakkeissa (ensimmäistä saraketta lukuunottamatta) esiintyy vain kahta eri tason arvoa Koodauksen jälkeen ne ovat ja Jatkossa oletetaankin koodaus valmiiksi suoritetuksi Plackett Burman-kokeet ovat siis 2 k -kokeita Malli on tällöin y = β 0 + k β i x i + β ij x i x j + + x i x il i= i<j k i < <i l k tai tästä joitakin faktoreita pois jättämällä saatu malli Huomaa, miten faktorien korkeammat potenssit puuttuvat, sillä x 2n+ i = x i ja x 2n i = Jos mallissa on kaikki mahdolliset faktorit mukana, kyseessä on täydellinen 2 k -koe Täydellisessä 2 k -kokeessa on mukana ( ) ( ) ( ) k k k =(+) k =2 k 2 k selittäjää Mahdollisia erilaisia datamatriisin rivejä on toisaalta myös 2 k kappaletta Jos toistettuja rivejä ei ole mukana, voidaan rivit järjestää siten, että 2 sarakkeessa on ensin 2 k kappaletta :stä ja sitten 2 k kappaletta :stä, 3 sarakkeessa on ensin 2 k 2 kappaletta :stä, sitten 2 k 2 kappaletta :stä, sitten 2 k 2 kappaletta :stä ja lopuksi 2 k 2 kappaletta :stä, jne, k +:nnessä sarakkeessa :t ja :t vuorottelevat Esimerkiksi ensimmäisen kertaluvun 2 3 -kokeen tällä tavoin esitetty datamatriisi on

29 LUKU REGRESSIO 26 X = Ensimmäisen kertaluvun täydellinen 2 k -koe on näin ollen aina kiertosymmetrinen, sillä ilmeisesti X T X =2 k I k+ (Lause 4) Täydellisessä 2 k -kokeessa on useinkin käytännön kannalta liian monta faktoria Ns osittaisissa 2 k -kokeissa faktorien määrää karsitaan (ja datamatriisin rivilukua pienennetään) aivan omalla tavallaan kieltämällä tietyt faktorit Faktorin kielto tarkoittaa sitä, että sen arvo kiinnitetään ±:ksi Jos kielletään faktorit z,,z m,onkiellettävä myös kaikki näistä keskenään kertomalla saadut faktorit, sillä näiden arvot tulevat myös kiinnitetyksi Kiellettyjen termien sanotaan sekoittuvan vakiotermiin (Vakiotermiä itseään ei toki voida kieltää!) Kielletyt faktorit ovat yleensä korkeampaa kertalukua ja selittävät ensimmäisen kertaluvun faktorien ns yhdysvaikutuksia Kiellettäessä faktoreita päätetään samalla, etteivät tietyt yhdysvaikutukset ole tarkastelun kannalta tärkeitä Jos siis tapauksessa k =5päätetään kieltää faktorit x x 2, x 3 x 4 ja x 2 x 3 x 5, on myös kiellettävä x x 2 x 3 x 4 = x x 2 x 3 x 4, x x 2 x 2 x 3 x 5 = x x 3 x 5, x 3 x 4 x 2 x 3 x 5 = x 2 x 4 x 5, x x 2 x 3 x 4 x 2 x 3 x 5 = x x 4 x 5 Alinta kertalukua olevan kielletyn termin aste on ns kokeen resoluutio Kun faktorit z,,z m on kielletty, ts niiden arvot kiinnitetty, jätetään datamatriisiin vain ne rivit, jotka toteuttavat nämä kiinnitykset Itse malliin ei oteta mukaan kiellettyjä faktoreita Toisaalta kiinnitykset samaistavat tiettyjä faktoreita merkkiä vaille ja näistä otetaan mukaan malliin vain yksi, jottei datamatriisiin tule lineaarisesti riippuvia sarakkeita Tällaisia faktoreita kutsutaan toistensa aliaksiksi Esimerkiksi yo kiinnitysten puitteissa malliin ei saa ottaa mukaan molempia faktoreita x ja x 2,sillä x =(±x x 2 )x = ±x 2, missä merkki ± valitaan siten, että ±x x 2 = Sitä kiellettyjen faktoreiden arvojen kiinnitystä, joka antaa kullekin niistä arvon, kutsutaan pääositukseksi Jos esimerkiksi tapauksessa k =5kielletään faktorit x x 2 x 3, x 3 x 4 x 5 ja x x 2 x 4 x 5 pääosituksessa, saadaan seuraava ns aliastaulu

30 LUKU REGRESSIO 27 mallin faktori x x 2 x 3 x 4 x 5 x x 4 x x 5 sekoittuvat aliakset x x 2 x 3 x 3 x 4 x 5 x x 2 x 4 x 5 x 2 x 3 x x 3 x 4 x 5 x 2 x 4 x 5 x x 3 x 2 x 3 x 4 x 5 x x 4 x 5 x x 2 x 4 x 5 x x 2 x 3 x 4 x 5 x x 2 x 3 x 4 x 3 x 5 x x 2 x 5 x x 2 x 3 x 5 x 3 x 4 x x 2 x 4 x 2 x 3 x 4 x x 3 x 5 x 2 x 5 x 2 x 3 x 5 x x 3 x 4 x 2 x 4 Ks JOHN ja KHURI &CORNELL ja MYERS &MONTGOMERY 8 Toisen kertaluvun regressiomalli Täydellinen toisen kertaluvun malli on muotoa y = β 0 + k β i x i + β ij x i x j + ɛ i= i j k Faktoreita on +2k + ( k 2) kappaletta Sovitaan faktoreiden järjestykseksi,x,,x k,x 2,,x 2 k,x x 2,,x x k,x 2 x 3,,x k x k ja muodostetaan datamatriisin X sarakkeet tässä järjestyksessä Merkitään (kuten aikaisemminkin) X = ( N D ),missä D on suunnittelumatriisi, ja ( ) x = d Merkitään edelleen (yläkolmiomatriisi) ja β β 2 β k B 0 β 22 β 2k = 0 0 β kk B = 2 (B +(B ) T ) Silloin d T B d = trace(d T B d)=trace(b dd T )= β ij x i x j ja vastaavasti d T (B ) T d = β ij x i x j i j k Siispä myös d T Bd = β ij x i x j i j k ja malli voidaan kirjoittaa matriisimuotoon y = x T β + d T Bd + ɛ i j k

31 LUKU REGRESSIO 28 Myöskin ennuste ŷ = b 0 + k b i x i + b ij x ix j i= i j k voidaan kirjoittaa samalla tavoin matriisimuotoon: matriisit E ja E saadaan ottamalla B :ssa ja B:ssä β ij :n paikalle b ij, kirjoitetaan ( ) x = d ja ŷ =(x ) T b +(d ) T Ed Täydellinen toisen kertaluvun malli ei sellaisenaan käy ortogonaaliseen kokeeseen, sillä (Lause 3) neliöfaktorien sarakesummat ovat positiivisia Toisaalta mainitut neliöfaktorit voidaan korvata uusilla muotoa x 2 i + p i x i + q i = merk P i (x i ) olevilla faktoreilla, missä kertoimet p i ja q i valitaan siten, että N P i (x ji )=0 j= ja N P i (x ji )x ji =0, j= ts polynomit, x ja P i (x) ovat (käytetyn datan suhteen) ortogonaaliset Tätä varten oletetaan ensin, että faktorit x,,x k ovat valmiiksi standardoituja niin, että N x ji =0 j= ja N x 2 ji = N j= Huomaa, että tämä ei ole aivan sama kuin edellä oleva standardointi, vaan tässä käytetty hajonta on N (x ji x i ) N 2 Muodostetaan kertoimille p i ja q i yhtälöt { 0= N j= (x2 ji + p i x ji + q i )=N + Nq i 0= N j= (x3 ji + p i x 2 ji + q i x ji )= N j= x3 ji + Np i j= ja ratkaistaan ne: { p i = N N j= x3 ji q i = Merkitään nyt matriisissa N DT D faktoreita vastaavien D:n sarakkeiden pistetuloista saatavia alkioita seuraavasti: x i faktorit x j x m x i x j x i x j x m x n alkio [ij] =[ji]= [ijm] =[jim]= [ijmn] =[imjn] =

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi Esimerkit laskettu JMP:llä Antti Hyttinen Tampereen teknillinen yliopisto 29.12.2003 ii Ohjelmien

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi ja vasteen optimointi

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi ja vasteen optimointi Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi ja vasteen optimointi Robert Piché ja Keijo Ruohonen Tampereen teknillinen yliopisto 200 Sisältö REGRESSIO Matriisilaskentaa

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n

Lisätiedot

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

VARIANSSIANALYYSI ANALYSIS OF VARIANCE VARIANSSIANALYYSI ANALYSIS OF VARIANCE 1 Suomalaisten aikuisten pituusjakauma:.8.7.6.5.4.3.2.1 14 15 16 17 18 19 2 21 Jakauma ei ole normaali, sen olettaminen sellaiseksi johtaa virheellisiin päätelmiin.

Lisätiedot

1 Matriisit ja lineaariset yhtälöryhmät

1 Matriisit ja lineaariset yhtälöryhmät 1 Matriisit ja lineaariset yhtälöryhmät 11 Yhtälöryhmä matriisimuodossa m n-matriisi sisältää mn kpl reaali- tai kompleksilukuja, jotka on asetetettu suorakaiteen muotoiseksi kaavioksi: a 11 a 12 a 1n

Lisätiedot

Ratkaisuehdotukset LH 7 / vko 47

Ratkaisuehdotukset LH 7 / vko 47 MS-C34 Lineaarialgebra, II/7 Ratkaisuehdotukset LH 7 / vko 47 Tehtävä : Olkoot M R symmetrinen ja positiividefiniitti matriisi (i) Näytä, että m > ja m > (ii) Etsi Eliminaatiomatriisi E R siten, että [

Lisätiedot

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Inversio-ongelmien laskennallinen peruskurssi Luento 2 Inversio-ongelmien laskennallinen peruskurssi Luento 2 Kevät 2012 1 Lineaarinen inversio-ongelma Määritelmä 1.1. Yleinen (reaaliarvoinen) lineaarinen inversio-ongelma voidaan esittää muodossa m = Ax +

Lisätiedot

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä 3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä Lineaarinen m:n yhtälön yhtälöryhmä, jossa on n tuntematonta x 1,, x n on joukko yhtälöitä, jotka ovat muotoa a 11 x 1 + + a 1n x n = b 1 a 21

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

Kohdeyleisö: toisen vuoden teekkari

Kohdeyleisö: toisen vuoden teekkari Julkinen opetusnäyte Yliopisto-opettajan tehtävä, matematiikka Klo 8:55-9:15 TkT Simo Ali-Löytty Aihe: Lineaarisen yhtälöryhmän pienimmän neliösumman ratkaisu Kohdeyleisö: toisen vuoden teekkari 1 y y

Lisätiedot

Harjoitusten 5 vastaukset

Harjoitusten 5 vastaukset Harjoitusten 5 vastaukset 1. a) Regressiossa (1 ) selitettävänä on y jaselittäjinävakiojax matriisin muuttujat. Regressiossa (1*) selitettävänä on y:n poikkeamat keskiarvostaan ja selittäjinä X matriisin

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

Ortogonaalinen ja ortonormaali kanta

Ortogonaalinen ja ortonormaali kanta Ortogonaalinen ja ortonormaali kanta Määritelmä Kantaa ( w 1,..., w k ) kutsutaan ortogonaaliseksi, jos sen vektorit ovat kohtisuorassa toisiaan vastaan eli w i w j = 0 kaikilla i, j {1, 2,..., k}, missä

Lisätiedot

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1 2 k -faktorikokeet Vilkkumaa / Kuusinen 1 Motivointi 2 k -faktorikoe on k-suuntaisen varianssianalyysin erikoistapaus, jossa kaikilla tekijöillä on vain kaksi tasoa, matala (-) ja korkea (+). 2 k -faktorikoetta

Lisätiedot

Ortogonaalisen kannan etsiminen

Ortogonaalisen kannan etsiminen Ortogonaalisen kannan etsiminen Lause 94 (Gramin-Schmidtin menetelmä) Oletetaan, että B = ( v 1,..., v n ) on sisätuloavaruuden V kanta. Merkitään V k = span( v 1,..., v k ) ja w 1 = v 1 w 2 = v 2 v 2,

Lisätiedot

Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

MS-A0004/A0006 Matriisilaskenta

MS-A0004/A0006 Matriisilaskenta 4. MS-A4/A6 Matriisilaskenta 4. Nuutti Hyvönen, c Riikka Kangaslampi Matematiikan ja systeemianalyysin laitos Aalto-yliopisto..25 Tarkastellaan neliömatriiseja. Kun matriisilla kerrotaan vektoria, vektorin

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt ja pienimmän neliösumman menetelmä Riikka Kangaslampi Matematiikan ja systeemianalyysin laitos Aalto-yliopisto 2015 1 / 18 R. Kangaslampi QR ja PNS PNS-ongelma

Lisätiedot

Neliömatriisi A on ortogonaalinen (eli ortogonaalimatriisi), jos sen alkiot ovat reaalisia ja

Neliömatriisi A on ortogonaalinen (eli ortogonaalimatriisi), jos sen alkiot ovat reaalisia ja 7 NELIÖMATRIISIN DIAGONALISOINTI. Ortogonaaliset matriisit Neliömatriisi A on ortogonaalinen (eli ortogonaalimatriisi), jos sen alkiot ovat reaalisia ja A - = A T () Muistutus: Kokoa n olevien vektorien

Lisätiedot

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (005) 1 Moniulotteisia todennäköisyysjakaumia Multinomijakauma Kaksiulotteinen normaalijakauma TKK (c) Ilkka

Lisätiedot

MS-A0003/A Matriisilaskenta Laskuharjoitus 6

MS-A0003/A Matriisilaskenta Laskuharjoitus 6 MS-A3/A - Matriisilaskenta Laskuharjoitus 6 Ratkaisuehdotelmia. Diagonalisointi on hajotelma A SΛS, jossa diagonaalimatriisi Λ sisältää matriisin A ominaisarvot ja matriisin S sarakkeet ovat näitä ominaisarvoja

Lisätiedot

Ominaisarvoon 4 liittyvät ominaisvektorit ovat yhtälön Ax = 4x eli yhtälöryhmän x 1 + 2x 2 + x 3 = 4x 1 3x 2 + x 3 = 4x 2 5x 2 x 3 = 4x 3.

Ominaisarvoon 4 liittyvät ominaisvektorit ovat yhtälön Ax = 4x eli yhtälöryhmän x 1 + 2x 2 + x 3 = 4x 1 3x 2 + x 3 = 4x 2 5x 2 x 3 = 4x 3. Matematiikan ja tilastotieteen laitos Lineaarialgebra ja matriisilaskenta II Ylimääräinen harjoitus 6 Ratkaisut A:n karakteristinen funktio p A on λ p A (λ) det(a λi ) 0 λ ( λ) 0 5 λ λ 5 λ ( λ) (( λ) (

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1 Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme? TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä

Lisätiedot

Luento 8: Epälineaarinen optimointi

Luento 8: Epälineaarinen optimointi Luento 8: Epälineaarinen optimointi Vektoriavaruus R n R n on kaikkien n-jonojen x := (x,..., x n ) joukko. Siis R n := Määritellään nollavektori 0 = (0,..., 0). Reaalisten m n-matriisien joukkoa merkitään

Lisätiedot

Vektorien pistetulo on aina reaaliluku. Esimerkiksi vektorien v = (3, 2, 0) ja w = (1, 2, 3) pistetulo on

Vektorien pistetulo on aina reaaliluku. Esimerkiksi vektorien v = (3, 2, 0) ja w = (1, 2, 3) pistetulo on 13 Pistetulo Avaruuksissa R 2 ja R 3 on totuttu puhumaan vektorien pituuksista ja vektoreiden välisistä kulmista. Kuten tavallista, näiden käsitteiden yleistäminen korkeampiulotteisiin avaruuksiin ei onnistu

Lisätiedot

2. Teoriaharjoitukset

2. Teoriaharjoitukset 2. Teoriaharjoitukset Demotehtävät 2.1 Todista Gauss-Markovin lause. Ratkaisu. Oletetaan että luentokalvojen standardioletukset (i)-(v) ovat voimassa. Huomaa että Gauss-Markovin lause ei vaadi virhetermien

Lisätiedot

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1 Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,

Lisätiedot

1 Rajoittamaton optimointi

1 Rajoittamaton optimointi Taloustieteen matemaattiset menetelmät 7 materiaali 5 Rajoittamaton optimointi Yhden muuttujan tapaus f R! R Muistutetaan mieleen maksimin määritelmä. Funktiolla f on maksimi pisteessä x jos kaikille y

Lisätiedot

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä 1 3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä Lineaarinen m:n yhtälön yhtälöryhmä, jossa on n tuntematonta x 1,, x n on joukko yhtälöitä, jotka ovat muotoa a 11 x 1 + + a 1n x n = b 1 a

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Vastepintamenetelmä. Heliövaara 1

Vastepintamenetelmä. Heliövaara 1 Vastepintamenetelmä Kurssipalautteen antamisesta saa hyvityksenä yhden tenttipisteen. Palautelomakkeeseen tulee lähiaikoina linkki kurssin kotisivuille. Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä

Lisätiedot

Matriisi-vektori-kertolasku, lineaariset yhtälöryhmät

Matriisi-vektori-kertolasku, lineaariset yhtälöryhmät Matematiikan peruskurssi K3/P3, syksy 25 Kenrick Bingham 825 Toisen välikokeen alueen ydinasioita Alla on lueteltu joitakin koealueen ydinkäsitteitä, joiden on hyvä olla ensiksi selvillä kokeeseen valmistauduttaessa

Lisätiedot

Talousmatematiikan perusteet: Luento 13. Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu

Talousmatematiikan perusteet: Luento 13. Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu Talousmatematiikan perusteet: Luento 13 Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu Viime luennolla Aloimme tarkastella yleisiä, usean muuttujan funktioita

Lisätiedot

9 Matriisit. 9.1 Matriisien laskutoimituksia

9 Matriisit. 9.1 Matriisien laskutoimituksia 9 Matriisit Aiemmissa luvuissa matriiseja on käsitelty siinä määrin kuin on ollut tarpeellista yhtälönratkaisun kannalta. Matriiseja käytetään kuitenkin myös muihin tarkoituksiin, ja siksi on hyödyllistä

Lisätiedot

MS-C1340 Lineaarialgebra ja

MS-C1340 Lineaarialgebra ja MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt QR-hajotelma ja pienimmän neliösumman menetelmä Riikka Kangaslampi Kevät 2017 Matematiikan ja systeemianalyysin laitos Aalto-yliopisto PNS-ongelma PNS-ongelma

Lisätiedot

Vapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0.

Vapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0. Vapaus Määritelmä Oletetaan, että v 1, v 2,..., v k R n, missä n {1, 2,... }. Vektorijono ( v 1, v 2,..., v k ) on vapaa eli lineaarisesti riippumaton, jos seuraava ehto pätee: jos c 1 v 1 + c 2 v 2 +

Lisätiedot

Matematiikka B2 - Avoin yliopisto

Matematiikka B2 - Avoin yliopisto 6. elokuuta 2012 Opetusjärjestelyt Luennot 9:15-11:30 Harjoitukset 12:30-15:00 Tentti Kurssin sisältö (1/2) Matriisit Laskutoimitukset Lineaariset yhtälöryhmät Gaussin eliminointi Lineaarinen riippumattomuus

Lisätiedot

Matriisilaskenta Laskuharjoitus 5 - Ratkaisut / vko 41

Matriisilaskenta Laskuharjoitus 5 - Ratkaisut / vko 41 MS-A0004/MS-A0006 Matriisilaskenta, I/06 Matriisilaskenta Laskuharjoitus 5 - Ratkaisut / vko 4 Tehtävä 5 (L): a) Oletetaan, että λ 0 on kääntyvän matriisin A ominaisarvo. Osoita, että /λ on matriisin A

Lisätiedot

Numeeriset menetelmät TIEA381. Luento 6. Kirsi Valjus. Jyväskylän yliopisto. Luento 6 () Numeeriset menetelmät / 33

Numeeriset menetelmät TIEA381. Luento 6. Kirsi Valjus. Jyväskylän yliopisto. Luento 6 () Numeeriset menetelmät / 33 Numeeriset menetelmät TIEA381 Luento 6 Kirsi Valjus Jyväskylän yliopisto Luento 6 () Numeeriset menetelmät 4.4.2013 1 / 33 Luennon 6 sisältö Interpolointi ja approksimointi Polynomi-interpolaatio: Vandermonden

Lisätiedot

Inversio-ongelmien laskennallinen peruskurssi Luento 3

Inversio-ongelmien laskennallinen peruskurssi Luento 3 Inversio-ongelmien laskennallinen peruskurssi Luento 3 Kevät 2011 1 Singulaariarvohajotelma (Singular Value Decomposition, SVD) Olkoon A R m n matriisi 1. Tällöin A voidaan esittää muodossa A = UΣV T,

Lisätiedot

Harjoitusten 4 vastaukset

Harjoitusten 4 vastaukset Harjoitusten 4 vastaukset 4.1. Prosessi on = 1 +, jossa»iid( 2 )ja =1 2. PNS estimaattori :lle on (" P P 2 ") = +( X X 2 ) 1 1. =1 Suluissa oleva termi on deterministinen ja suppenee vihjeen mukaan 2 6:teen.

Lisätiedot

Paikannuksen matematiikka MAT

Paikannuksen matematiikka MAT TA M P E R E U N I V E R S I T Y O F T E C H N O L O G Y M a t h e m a t i c s Paikannuksen matematiikka MAT-45800 4..008. p.1/4 Käytännön järjestelyt Kotisivu: http://math.tut.fi/courses/mat-45800/ Luennot:

Lisätiedot

Insinöörimatematiikka D

Insinöörimatematiikka D Insinöörimatematiikka D M Hirvensalo mikhirve@utufi V Junnila viljun@utufi Matematiikan ja tilastotieteen laitos Turun yliopisto 2015 M Hirvensalo mikhirve@utufi V Junnila viljun@utufi Luentokalvot 5 1

Lisätiedot

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt TKK (c) Ilkka Mellin (005) Koesuunnittelu TKK (c) Ilkka Mellin (005) : Mitä opimme? Tarkastelemme tässä luvussa seuraavaa kysymystä: Miten varianssianalyysissa tutkitaan yhden tekijän vaikutusta vastemuuttujaan,

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI TEORIA USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI Regressiomalleilla kuvataan tilanteita, jossa suureen y arvot riippuvat joukosta ns selittäviä muuttujia x 1, x 2,..., x p oletetun funktiomuotoisen

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Lineaariset mollit, kl 2017, Harjoitus 1

Lineaariset mollit, kl 2017, Harjoitus 1 Lineaariset mollit, kl 07, Harjoitus Heikki Korpela 7 huhtikuuta 07 Tehtävä Symmetristä matriisia A(n n) sanotaan positiivisesti definiitiksi (merkitään A > 0), jos x T Ax > 0 kaikilla x 0, x R n (ks monisteen

Lisätiedot

MS-A0003/A0005 Matriisilaskenta Malliratkaisut 5 / vko 48

MS-A0003/A0005 Matriisilaskenta Malliratkaisut 5 / vko 48 MS-A3/A5 Matriisilaskenta Malliratkaisut 5 / vko 48 Tehtävä (L): a) Onko 4 3 sitä vastaava ominaisarvo? b) Onko λ = 3 matriisin matriisin 2 2 3 2 3 7 9 4 5 2 4 4 ominaisvektori? Jos on, mikä on ominaisarvo?

Lisätiedot

MS-C1340 Lineaarialgebra ja

MS-C1340 Lineaarialgebra ja MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt Matriisinormi, häiriöalttius Riikka Kangaslampi Kevät 2017 Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Matriisinormi Matriisinormi Matriiseille

Lisätiedot

Talousmatematiikan perusteet: Luento 11. Lineaarikuvaus Matriisin aste Käänteismatriisi

Talousmatematiikan perusteet: Luento 11. Lineaarikuvaus Matriisin aste Käänteismatriisi Talousmatematiikan perusteet: Luento 11 Lineaarikuvaus Matriisin aste Käänteismatriisi Viime luennolla Käsittelimme matriisien peruskäsitteitä ja laskutoimituksia Vakiolla kertominen, yhteenlasku ja vähennyslasku

Lisätiedot

Johdatus tekoälyn taustalla olevaan matematiikkaan

Johdatus tekoälyn taustalla olevaan matematiikkaan Johdatus tekoälyn taustalla olevaan matematiikkaan Informaatioteknologian tiedekunta Jyväskylän yliopisto 5. luento.2.27 Lineaarialgebraa - Miksi? Neuroverkon parametreihin liittyvät kaavat annetaan monesti

Lisätiedot

7 Vapaus. 7.1 Vapauden määritelmä

7 Vapaus. 7.1 Vapauden määritelmä 7 Vapaus Kuten edellisen luvun lopussa mainittiin, seuraavaksi pyritään ratkaisemaan, onko annetussa aliavaruuden virittäjäjoukossa tarpeettomia vektoreita Jos tällaisia ei ole, virittäjäjoukkoa kutsutaan

Lisätiedot

Kurssin loppuosassa tutustutaan matriiseihin ja niiden käyttöön yhtälöryhmien ratkaisemisessa.

Kurssin loppuosassa tutustutaan matriiseihin ja niiden käyttöön yhtälöryhmien ratkaisemisessa. 7 Matriisilaskenta Kurssin loppuosassa tutustutaan matriiseihin ja niiden käyttöön yhtälöryhmien ratkaisemisessa. 7.1 Lineaariset yhtälöryhmät Yhtälöryhmät liittyvät tilanteisiin, joissa on monta tuntematonta

Lisätiedot

Käänteismatriisin ominaisuuksia

Käänteismatriisin ominaisuuksia Käänteismatriisin ominaisuuksia Lause 1.4. Jos A ja B ovat säännöllisiä ja luku λ 0, niin 1) (A 1 ) 1 = A 2) (λa) 1 = 1 λ A 1 3) (AB) 1 = B 1 A 1 4) (A T ) 1 = (A 1 ) T. Tod.... Ortogonaaliset matriisit

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin

Lisätiedot

1 Ominaisarvot ja ominaisvektorit

1 Ominaisarvot ja ominaisvektorit 1 Ominaisarvot ja ominaisvektorit Olkoon A = [a jk ] n n matriisi. Tarkastellaan vektoriyhtälöä Ax = λx, (1) 1 missä λ on luku. Sellaista λ:n arvoa, jolla yhtälöllä on ratkaisu x 0, kutsutaan matriisin

Lisätiedot

Insinöörimatematiikka D

Insinöörimatematiikka D Insinöörimatematiikka D M. Hirvensalo mikhirve@utu.fi V. Junnila viljun@utu.fi Matematiikan ja tilastotieteen laitos Turun yliopisto 2015 M. Hirvensalo mikhirve@utu.fi V. Junnila viljun@utu.fi Luentokalvot

Lisätiedot

Lineaarialgebra ja matriisilaskenta II. LM2, Kesä /141

Lineaarialgebra ja matriisilaskenta II. LM2, Kesä /141 Lineaarialgebra ja matriisilaskenta II LM2, Kesä 2012 1/141 Kertausta: avaruuden R n vektorit Määritelmä Oletetaan, että n {1, 2, 3,...}. Avaruuden R n alkiot ovat jonoja, joissa on n kappaletta reaalilukuja.

Lisätiedot

Similaarisuus. Määritelmä. Huom.

Similaarisuus. Määritelmä. Huom. Similaarisuus Määritelmä Neliömatriisi A M n n on similaarinen neliömatriisin B M n n kanssa, jos on olemassa kääntyvä matriisi P M n n, jolle pätee Tällöin merkitään A B. Huom. Havaitaan, että P 1 AP

Lisätiedot

Ominaisarvo ja ominaisvektori

Ominaisarvo ja ominaisvektori Ominaisarvo ja ominaisvektori Määritelmä Oletetaan, että A on n n -neliömatriisi. Reaaliluku λ on matriisin ominaisarvo, jos on olemassa sellainen vektori v R n, että v 0 ja A v = λ v. Vektoria v, joka

Lisätiedot

Yhtälön oikealla puolella on säteen neliö, joten r. = 5 eli r = ± 5. Koska säde on positiivinen, niin r = 5.

Yhtälön oikealla puolella on säteen neliö, joten r. = 5 eli r = ± 5. Koska säde on positiivinen, niin r = 5. Tekijä Pitkä matematiikka 5 7..017 31 Kirjoitetaan yhtälö keskipistemuotoon ( x x ) + ( y y ) = r. 0 0 a) ( x 4) + ( y 1) = 49 Yhtälön vasemmalta puolelta nähdään, että x 0 = 4 ja y 0 = 1, joten ympyrän

Lisätiedot

Matriisihajotelmat. MS-A0007 Matriisilaskenta. 5.1 Diagonalisointi. 5.1 Diagonalisointi

Matriisihajotelmat. MS-A0007 Matriisilaskenta. 5.1 Diagonalisointi. 5.1 Diagonalisointi MS-A0007 Matriisilaskenta 5. Nuutti Hyvönen, c Riikka Kangaslampi Matematiikan ja systeemianalyysin laitos Aalto-yliopisto 25.11.2015 Laskentaongelmissa käsiteltävät matriisit ovat tyypillisesti valtavia.

Lisätiedot

6 MATRIISIN DIAGONALISOINTI

6 MATRIISIN DIAGONALISOINTI 6 MATRIISIN DIAGONALISOINTI Ortogonaaliset matriisit Neliömatriisi A on ortogonaalinen (eli ortogonaalimatriisi), jos sen alkiot ovat reaalisia ja A - = A T Muistutus: vektorien a ja b pistetulo (skalaaritulo,

Lisätiedot

Matematiikka B2 - TUDI

Matematiikka B2 - TUDI Matematiikka B2 - TUDI Miika Tolonen 3. syyskuuta 2012 Miika Tolonen Matematiikka B2 - TUDI 1 Kurssin sisältö (1/2) Matriisit Laskutoimitukset Lineaariset yhtälöryhmät Gaussin eliminointi Lineaarinen riippumattomuus

Lisätiedot

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot) R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n

Lisätiedot

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt Matriisinormi, häiriöalttius Riikka Kangaslampi Matematiikan ja systeemianalyysin laitos Aalto-yliopisto 2015 1 / 14 R. Kangaslampi matriisiteoriaa Matriisinormi

Lisätiedot

Talousmatematiikan perusteet: Luento 10. Lineaarikuvaus Matriisin aste Determinantti Käänteismatriisi

Talousmatematiikan perusteet: Luento 10. Lineaarikuvaus Matriisin aste Determinantti Käänteismatriisi Talousmatematiikan perusteet: Luento 10 Lineaarikuvaus Matriisin aste Determinantti Käänteismatriisi Lineaarikuvaus Esim. Yritys tekee elintarviketeollisuuden käyttämää puolivalmistetta, jossa käytetään

Lisätiedot

Inversio-ongelmien laskennallinen peruskurssi Luento 4

Inversio-ongelmien laskennallinen peruskurssi Luento 4 Inversio-ongelmien laskennallinen peruskurssi Luento 4 Kevät 20 Regularisointi Eräs keino yrittää ratkaista (likimääräisesti) huonosti asetettuja ongelmia on regularisaatio. Regularisoinnissa ongelmaa

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1 Lohkoasetelmat Vilkkumaa / Kuusinen 1 Motivointi 1/3 Kaksisuuntaisella varianssianalyysilla voidaan tutkia kahden tekijän A ja B vaikutusta sekä niiden yhdysvaikutusta tutkimuksen kohteeseen Kaksisuuntaisessa

Lisätiedot

BM20A0700, Matematiikka KoTiB2

BM20A0700, Matematiikka KoTiB2 BM20A0700, Matematiikka KoTiB2 Luennot: Matti Alatalo, Harjoitukset: Oppikirja: Kreyszig, E.: Advanced Engineering Mathematics, 8th Edition, John Wiley & Sons, 1999, luku 7. 1 Kurssin sisältö Matriiseihin

Lisätiedot

4.0.2 Kuinka hyvä ennuste on?

4.0.2 Kuinka hyvä ennuste on? Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki

Lisätiedot

3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset

3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset 32 Idea: Lineaarikuvausten laskutoimitusten avulla määritellään vastaavat matriisien laskutoimitukset Vakiolla kertominen ja summa Olkoon t R ja A, B R n m Silloin ta, A + B R n m ja määritellään ta ta

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

Vektoreiden virittämä aliavaruus

Vektoreiden virittämä aliavaruus Vektoreiden virittämä aliavaruus Määritelmä Oletetaan, että v 1, v 2,... v k R n. Näiden vektoreiden virittämä aliavaruus span( v 1, v 2,... v k ) tarkoittaa kyseisten vektoreiden kaikkien lineaarikombinaatioiden

Lisätiedot

Numeeriset menetelmät

Numeeriset menetelmät Numeeriset menetelmät Luento 4 To 15.9.2011 Timo Männikkö Numeeriset menetelmät Syksy 2011 Luento 4 To 15.9.2011 p. 1/38 p. 1/38 Lineaarinen yhtälöryhmä Lineaarinen yhtälöryhmä matriisimuodossa Ax = b

Lisätiedot

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6) Mat-.3 Koesuunnittelu ja tilastolliset mallit kevät Keskipisteen lisääminen k -faktorikokeeseen (ks. Montgomery 9-6) Esim (Montg. ex. 9-, 6-): Tutkitaan kemiallisen prosessin saannon Y riippuvuutta faktoreista

Lisätiedot

Numeeriset menetelmät TIEA381. Luento 5. Kirsi Valjus. Jyväskylän yliopisto. Luento 5 () Numeeriset menetelmät / 28

Numeeriset menetelmät TIEA381. Luento 5. Kirsi Valjus. Jyväskylän yliopisto. Luento 5 () Numeeriset menetelmät / 28 Numeeriset menetelmät TIEA381 Luento 5 Kirsi Valjus Jyväskylän yliopisto Luento 5 () Numeeriset menetelmät 3.4.2013 1 / 28 Luennon 5 sisältö Luku 4: Ominaisarvotehtävistä Potenssiinkorotusmenetelmä QR-menetelmä

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

Luento 8: Epälineaarinen optimointi

Luento 8: Epälineaarinen optimointi Luento 8: Epälineaarinen optimointi Vektoriavaruus R n R n on kaikkien n-jonojen x := (x,..., x n ) joukko. Siis R n := Määritellään nollavektori = (,..., ). Reaalisten m n-matriisien joukkoa merkitään

Lisätiedot

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Johdatus regressioanalyysiin Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla.

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

Matriisien tulo. Matriisit ja lineaarinen yhtälöryhmä

Matriisien tulo. Matriisit ja lineaarinen yhtälöryhmä Matriisien tulo Lause Olkoot A, B ja C matriiseja ja R Tällöin (a) A(B + C) =AB + AC, (b) (A + B)C = AC + BC, (c) A(BC) =(AB)C, (d) ( A)B = A( B) = (AB), aina, kun kyseiset laskutoimitukset on määritelty

Lisätiedot

Ennakkotehtävän ratkaisu

Ennakkotehtävän ratkaisu Ennakkotehtävän ratkaisu Ratkaisu [ ] [ ] 1 3 4 3 A = ja B =. 1 4 1 1 [ ] [ ] 4 3 12 12 1 0 a) BA = =. 1 + 1 3 + 4 0 1 [ ] [ ] [ ] 1 0 x1 x1 b) (BA)x = =. 0 1 x 2 x [ ] [ ] [ 2 ] [ ] 4 3 1 4 9 5 c) Bb

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo? MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo

Lisätiedot

Lohkoasetelmat. Heliövaara 1

Lohkoasetelmat. Heliövaara 1 Lohkoasetelmat Heliövaara 1 Kiusatekijä Kaikissa kokeissa, kokeen tuloksiin voi vaikuttaa vaihtelu joka johtuu kiusatekijästä. Kiusatekijä on tekijä, jolla mahdollisesti on vaikutusta vastemuuttujan arvoon,

Lisätiedot