Lineaariset mollit, kl 07, Harjoitus Heikki Korpela 7 huhtikuuta 07 Tehtävä Symmetristä matriisia A(n n) sanotaan positiivisesti definiitiksi (merkitään A > 0), jos x T Ax > 0 kaikilla x 0, x R n (ks monisteen Liite B) Osoita, että matriisi A(n n) on positiivisesti definiitti jos ja vain jos sen ominaisarvot ovat positiivisia Osoita edelleen, että positiivisesti definiitti matriisi on epäsingulaarinen (eli sillä on käänteismatriisi) (Vihjeet: (i) Voit käyttää symmetrisen matriisin pääakselihajotelmaa, ks monisteen Liite B6 (ii) Yksi tapa on olettaa A singulaariseksi ja todeta, ettei se voi tällöin olla positiivisesti definiitti) Vastaus: Jaetaan ensimmäisen väitteen todistus kahteen osaan : Oletetaan, että A on ponitiivisesti delfiini n n-matriisi, ja osoitetaan, että tällöin sen ominaisarvot ovat aidosti positiivisia Koska matriisi on symmetrinen, sen ominaisarvot ovat reaalisia Olkoot λ jokin ominaisarvo ja x sitä vastaava mielivaltainen ominaisvektori Ominaisvektorin määritelmän nojalla x ei voi olla nollavektori Tällöin täytyy päteä Ax λx x T Ax x T λx λx T x λ x, }{{} >0 ominaisarvon ja -vektorin määritelmä c R cxy XcY kaikille matriiseille X, Y missä x x, x on luonnollinen normi Normin (ja sisätulon) ominaisuuksien mukaan x > 0 kaikilla x 0, ja koska x ei ollut nollavektori, normin neliö on siis positiivinen luku Toisaalta positiivisen definiittisyyden määritelmän nojalla jokaisella x täytyy päteä x T Ax > 0, joten tämän ehdon täytyy päteä myös ominaisvektoreille Siis täytyy päteä λ x > 0 λ > 0 Koska λ oli mielivaltainen ominaisarvo, ominaisarvot ovat kaikki positiivisia : Oletetaan sitten, että A on symmetrinen n n-matriisi, jonka ominaisarvot λ,, λ n ovat (aidosti) positiivisia Halutaan osoittaa, että tällöin x T Ax > 0 aina, kun x 0 Matriisilla on symmetrisena olemassa pääakseliesitys (eli se voidaan diagonalisoida seuraavaan muotoon) A UΛU T, jossa U on ortogonaalinen (itse asiassa jopa ortonormaali) matriisi eli sen transpoosi on sen käänteismatriisi, ja Λ on diagonaalimatriisi, jonka lävistäjällä ovat ominaisarvot λ,, λ n Oletetaan, että x R n \ {0} Tarkastellaan sitten trepanoinnin avulla seuraavaa tuloa x T Ax x T U ( U T x ) T (XY)T Y T X T
Huomataan, että n n-matriisin ja vektorin eli n -matriisin tulona U T x on jokin n -matriisi (jokin vektori) Merkitään sitä w [ w w n ] T:llä, jolloin saadaan x T Ax w T Λw w T λ λ i wi, λ n w ja koska ominaisarvot λ i oletettiin positiivisiksi, tämä on suurempaa kuin nolla, kunhan jokin luvuista w i oli nolla, eli yhtäpitävästi kunhan w ei ole nollavektori Välissä tehty lasku olisi siis pidemmin λ 0 [ ] w w n 0 λ n w w n [ ] λ w λ n w n w w n λ i wi w voidaan todeta ei-nollavektoriksi useammallakin tavalla Yksinkertaisin lienee seuraava päättely: ortogonaalisina U ja sen transpoosi U T ovat molemmat kääntyviä Tästä seuraa, että yhtälöllä U T x 0 on vain triviaaliratkaisu x 0 Koska oletuksen mukaan x ei ollut nollavektori, ei w U T x:kään ole Siten oletuksesta λ,, λ n > 0 seurasi x T Ax > 0 ja ensimmäisen osoitettavan väitteen molemmat suunnat on todistettu Vaihtoehtoisia tapoja: tapa (Vielä) eräs tapa merkitä tuloa x T Ax olisi ollut x T U Λ, missä pitää ymmärtää λ 0 Λ Λ T Λ, Λ Λ, 0 λn missä käytetään laajennettua neliöjuuren määritelmää, jolloin juuri on kompleksinen eli λ i C Tällöin, kun U T merk u T u T n, ( x T U T Λ) ΛUx ( Λ T Ux ) T ΛUx ( ΛUx ) T ΛUx ΛUx u, x λ u, x Λ u n, x λn u n, x λi ui, x λ i u i, x Tästä muodosta voidaan tehdä samat päätelmät kuin aiemmin: pistetulon neliö on varmasti einegatiivinen Oletuksen mukaan x ei ole nollavektori Koska U on ortogonaalinen R n :n kanta ja siten myös U T on kanta, mikään x R n ei voi olla ortogonaalinen jokaista sen vektoria vastaan (Muutenhan jono u,, u n, x, jonka pituus on n+, olisi ortogonaalisena vapaa ja siitä saataisiin R n :n n+ vektoria pitkä kanta mahdollisesti lisäämällä siihen vektoreita, mikä on ristiriita) Siis jokin pistetulojen neliöistä on myös eri suuri kuin nolla Jos λ i > 0 kaikilla i, saatu summalauseke on aina positiivinen ja matriisi on positiivisesti definiitti Toisaalta, jos λ q 0 jollain q, voidaan aina valita sellainen x (tarkalleen: on jopa pakko valita tätä ominaisarvoa vastaava ominaisvektori u q tai jokin sen monikerta), että se on kohtisuorassa
kaikkia muita U:n vektoreita vastaan Saatu summalauseke suppenee tällöin: λ i u i, x 0 + + 0 + λ q u q, x + 0 + + 0 0, }{{}}{{} 0 >0 joten tällöin matriisi ei voi olla positiivisesti definiitti Vaihtoehtoisia tapoja: tapa 3 Tämä lähestymistapa perustuu olennaisesti samaan tietoon kuin yllä on käytetty, mutta se on hieman geometrisempi Oletetaan, että A on symmetrinen n n-matriisi Koska U voidaan skaalata jopa ortonormaaliksi n n-matriisiksi (tämä osoitetaan esim Honkasalon Lineaarialgebra I -opetusmonisteessa), se muodostaa R n :n ortonormaalin kannan Sama pätee tietenkin välittömästi myös U T :lle Siten jokainen R n :n vektori, myös x, voidaan esittää matriisin U T merk [ ] u u n sarakkeiden lineaarikombinaationa c u + + c n u n joillain c,, c n R Tämä huomioimalla voidaan kirjoittaa x T Ax x T U ( U T x ) T ([ ] u u n (c u + + c n u n ) ) T T u, u u n, u c + + c n u, u n u, u n T 0 c + + c n 0 [ ] c c n Λ c i λ i, c c n missä sisätulot löpsähtivät nolliksi ja ykköksiksi: nimittäin siitä, että U [ u ] u n on ortonormaali, seuraa määritelmän nojalla, että u i, u j { u i, i j 0, i j (u i, u j ovat ortogonaalisia eli kohtisuorassa toisiaan vasten aina, kun i j, ja kunkin vektorin pituus on normeerattu ykköseksi) Nyt, jos A:n ominaisarvot λ i ovat positiivisia, niin n c i λ i on myös positiivinen (koska U T muodosti kannan, sen vektoreille x pätee x c u + + c n u n 0 c c n 0) Toisaalta, jos A on positiivisesti definiitti, täytyy päteä x T Ax n c i λ i > 0 kaikilla x Tehdään vastaoletus, että A on positiivisesti definiitti, mutta sen k:s ominaisarvo λ k 0 Valitaan vektori x u k (eli vektorin koordinaatit kannassa U ovat nollaa muutoin, mutta k:s koordinaatti on ykkönen) Tällöin x T Ax n c i λ i 0 + + c k λ k + + 0 λ k 0 Koska vastaoletuksesta seurasi ristiriita, k:n ominaisarvot ovat positiivisia Näin väitteen molemmat suunnat on saatu näytettyä Väitteistä toinen eli epäsingulaarisuus voidaan todistaa esimerkiksi äskeisen väitteen nojalla Oletetaan, että A on positiivisesti definiitti, eli sen ominaisarvot ovat kaikki positiivisia Matriisin determinantti voidaan laskea ominaisarvojen tulona, eli det A λ λ n Koska nämä olivat aidosti positiivisia, on matriisi determinanttiehdon (det A 0) nojalla kääntyvä Toinen vaihtoehto olisi käyttää vihjettä ja epäsuoraa todistusta Tehdään siis vastaoletus, että A on singulaarinen, positiivisesti definiitti n n matriisi 3
Tunnetusti yhtälöllä Ax 0 on muitakin kuin triviaaliratkaisu, jos ja vain jos A on kääntyvä Koska A on singulaarinen, on olemassa jokin sellainen x R n \ {0}, että Ax 0 x T Ax 0 0 Mutta A oli positiivisesti definiitti (määritelmä: x T Ax > 0 kaikilla x 0) Vastaoletuksesta seurasi ristiriita, joten se on epätosi ja väite tosi Tehtävä Olkoon A(n n) positiivisesti definiitti ja B(n k) astetta k oleva matriisi (eli B:n sarakkeet ovat lineaarisesti riippumattomat; ks monisteen Liite B9) Osoita, että B T AB(k k) on positiivisesti definiitti ja siten epäsingulaarinen Vastaus: Osoitetaan väite suoralla todistuksella käyttämällä hyväksi B:n astetta Oletetaan, että x R k \ {0} Halutaan osoittaa, että ( x T B T) A(Bx) (Bx) T A(Bx) > 0, missä Bx merk w on n k-matriisin ja k -vektorin tulona jokin n -vektori Koska A oli positiivisesti definiitti, niin w T Aw > 0, kunhan w 0 Riittää siis osoittaa, että w ei ole nollavektori Tunnetusti n k -matriisin B (sen määräämän lineaarikuvauksen R n :stä R k :hon) ytimen dimensio saadaan kaavasta dim Ker B k Rank(B) Koska Rank(B) k, niin dim Ker B 0, eli B:n ytimen dimensio on nolla (Yhtäpitävästi: B on injektio ja vie nollavektorille ainoastaan nollavektorin) Koska x ei ollut nollavektori, ei w Bx:kään ole, ja väite seuraa Tehtävä 3 (i) Olkoon neliömatriisi A(n n) idempotentti eli A AA (merkitään AA A ; ks monisteen Liite B0) Osoita, että I n A on myös idempotentti ja että A:n ominaisarvot ovat nollia ja ykkösiä (Vihje: Ominaisvektorit määrittävä yhtälö, ks monisteen Liite B6) (ii) Olkoon X on astetta p oleva n p matriisi ja R(X) {z R n : z Xb jollain b R p } X:n sarakevektoreiden virittämä R n :n p-ulotteinen aliavaruus (eli X:n sarakeavaruus) 3 Vastaus: Osoita, että matriisi P X(X T X) X T on symmetrinen ja idempotentti eli ns (ortogonaalinen) projektio(matriisi) Totea myös, että matriisin P määritelmässä esiintyvä matriisi X T X on epäsingulaarinen ja että yhtälö Px x pätee kaikilla x R(X) (kuten nimityksen projektiomatriisi perusteella odottaisikin) (i) Todetaan ensimmäinen väite suoralla laskulla Merkitään B I n A BB B(I n A) BI n BA matriisitulon ja yhteenlaskun osittelulaki B (I n A)A I nx X B (I n A AA) B (A A) B AA A 4
Osoitetaan toinen väite käyttämällä ominaisarvon määritelmää Oletetaan, että reaaliluku λ on A:n jokin ominaisarvo Määritelmän mukaan tämä tarkoittaa, että on olemassa jokin nollasta poikkeava vektori se Ax λx AAx A(λx) λ(ax) Ax λ(λx) λ x λx λ x λ λ λ 0 tai λ a R aab A(aB) AA A; Ax λx; a, b R a(ba) (ab)a (ii) Osoitetaan jälleen ensimmäiset väitteet suorilla laskuilla Symmetria: otetaan käyttöön apumuuttuja C (X T X) P T (XC X T ) T (X T ) T (C ) T X T (ABC) T C T B T A T X(C ) T X T (X T ) T X X(C T ) X ) T (A T ) X(X T X) X X T X Idempotenssi: PP (XC X T )(XC X T ) (XC )(X T XC )(X T ) (XC )(CC )(X T ) (XC )I n (X T ) XC X T P matriisitulon liitännäisyys C XT X käänteismatriisin määritelmä: CC I n Toista, epäsingulaarisuutta koskevaa väitettä varten todetaan, että yleisesti Rank(X T X) Rank(X) Koska tämä yleinen tulos oli annettu Möttösen monisteessa ilman todistusta, todistetaan se yleisessä tapauksessa Tutkitaan mielivaltaista n k-reaalimatriisia Z ja joukkoa Ker Z {x R k : Zx 0} Oletetaan, että Z:n aste on q Palautetaan jälleen mieleen perustietoja lineaarialgebrasta: A : V U dim V dim Ker A + dim Im A A R n k k Null A + Rank A Z R n k k Null Z + Rank Z Z T Z R k k k Null Z T Z + Rank Z T Z dimensiolause dimensiolause matriisimuodossa Koska Null(Z T Z) dim Ker Z T Z, riittää osoittaa, että Ker Z Ker Z T Z, niin Rank Z Rank Z T Z 5
Todistetaan tämä osoittamalla, että jälkimmäisen joukon määräävää yhtälö on ekvivalentti edellisen joukon määräävän ehdon kanssa Todetaan ensin, että nollavektori kuuluu aina mihin tahansa ytimeen, eli 0 Ker Z Ker Z T Z Oletetaan sitten, että x Ker Z T Z \ {0} Siis ytimen määritelmän mukaan Z T Zx 0 x T Z T Zx x T 0 0 (Zx) T (Zx) 0 Zx 0 Zx 0, missä viimeinen ekvivalenssi perustui normin määritelmään (vektorin normin neliö eli sen pistetulo itsensä kanssa on nolla joss vektori on nollavektori) Siis ehdot Z T Zx 0 ja Zx 0 ovat ekvivalentit ja määräävät siis samat joukot Tunnetusti mille tahansa p p-matriisille Y pätee: Y on kääntyvä Rank(Y) p Koska oletuksen mukaan Rank X p, väite seuraa Jäljellä on todistus sille, että Px x kaikilla x R(X) Oletetaan tätä varten, että x on jokin R(X):n vektori, ja osoitetaan sitten laskemalla, että Px x Nyt joukon R(X) määrityksen perusteella pätee, että on olemassa sellainen vektori b R p, että x Xb Lasketaan sitten Px: Px ( XC X T) x ( XC X T) (Xb) XC ( X T X ) b X C } {{ C } b I Xb x C XT X Vaihtoehtoisesti oltaisiin voitu todeta suoraan seuraava Olkoon x R p \ {0} Nyt x T X T Xx (Xx) T (Xx) Xx 0, kunhan Xx ei ole nollavektori Koska X:n sarakeaste oli p ja x oli R p :n nollasta eroava vektori, tämä seuraa Tehtävä 4 Tarkastellaan aineistosta y,, y n otosvarianssia s y (n ) n (y i y) laskettua otoskeskiarvoa y n n y i ja Osoita, että (n )s y y T (I n J)y, jossa ja y [ y y n ] T J n ( T n n ) T n ( n [ ] T, n ) on (edellisen tehtävän perusteella) projektiomatriisi 4 Vastaus: Tuloksen geometrinen perustelu lienee se, että jos J on projektiomatriisi, joka projisoi astetta p (tässä selvästi p ) vastaavaa dimensiota olevan aliavaruuden vektorit (identtisesti) itselleen, I n J projisoi vastaavasti tämän aliavaruuden ortokomplementin (dimensio n p n ) vektorit (identtisesti) itselleen (Olkoon x R n :n vektori Olkoon W R n :n aliavaruus, jonka dimensio on p Tällöin x proj W x+ proj W x Olkoon P se astetta p oleva projektiomatriisi, joka projisoi R n :stä x:ään Tällöin siis 6
x Px + Zx Zx x Px (I n P)x) Tästä seuraa, että I n J eliminoi y:n dimensioista p kappaletta (yhden vapausasteen) Osoitetaan väite jälleen laskemalla Yksinkertaisinta lienee hyödyntää sitä, että projektiomatriisina J on symmetrinen ja idempotentti Edellisen tehtävän perusteella myös I n J on idempotentti Merkitään K (I n J) KK Lasketaan paloissa ensin apulaskuna J: T n n merk L n, n n (L) n J n (L) T n n n T n n n T n n [ ] n T n n T n y T (K)y (y T K)(Ky) [K T y] T [Ky] [(I n J) T y] T [(I n J)y] [(I T n J T )y] T [(I n J)y] [(I n J)y] T (I n J)y I n J)y y Jy y T n n n y y y i T n n n y y ny n i ny y y y y n (y i y) (n )s, y n y (AB)T B T A T (A ± B)T A T ± B T IT I, ms J symm Suora laskukaan hyödyntämättä idempotenssia ei ole vaikea Jaetaan se paloihin Todetaan ensin, että hajotelma n (y i y) n y i ny saadaan sovelluksena tutusta säännöstä n (y i a) n (y i y) + n(y a) valinnalla a 0 Tarvittaessa tämän tuloksen voi myös laskea (huomioiden y /n n y ny n y): (y i y) (yi y i y + y ) yi y y i + ny yi yny + ny yi ny Siis yhtälön vasen puoli on (n )s y n n n (y i y) n y i ny Yhtälön oikealla puolella on y T (I n J)y y T I n y y T Jy y T y y T Jy Näistä ensimmäinen termi on y T y y, y n y i suoraan pistetulon tai normin neliön määritelmästä 7
Riittää siis osoittaa, että y T Jy ny Projektio-ominaisuutta (Px x kaikilla x R(P)) ei nyt voi itsessään käyttää, koska y on R n :n vektori ja J:n aste (eli sen sarakeavaruuden dimensio) on selvästi, joka on pienempi kuin n kaikissa mielenkiintoisissa tapauksissa Suora lasku osoittaa sen sijaan (uudelleen) väitteen: y T Jy y T n T n T n y T n n, y n yt y i n yt ny T n n, y y n yt i ny ny n yt n y y, n yny ny Tehtävä 5 (Yksisuuntainen varianssianalyysimalli) Olkoon Y,, Y n, Y,, Y n,, Y p,, Y pnp riippumattomia ja Y ji N(µ j R, σ ) µ j R, σ > 0) Esitä tilanne lineaarisen mallin erikoistapauksena käyttäen lineaarisen mallin matriisiesitystä Mikä on matriisin X aste? 5 Vastaus: Merkitään Y j [ ] T Y j Y jnj R n j (huom nämä vektorit voivat olla eripituisia!) Havaitaan, että tällä satunnaisvektorilla on suoraan odotusarvovektorin ja kovarianssimatriisin määritelmien mukaan EY j nj µ j ja, riippumattomuuden nojalla, Cov Y j I n σ (Ristitermit nollautuvat, koska riippumattomuudesta seuraa korreloimattomuus) Kun mielletään pidempi satunnaisvektori Y [ ] T Y Y n Y p Y pnp matriisina [ ] Y T Y T T p R n t, missä n t p j n j (eli koko aineiston koko), saadaan suoraan kaksi sopivaa, vaihtoehtoista esitystä: tai vastaavasti n 0 n µ + 0 np } {{ np µ p }}{{} R n t p R p Y Y p }{{} R n t Y Xβ + ε, n 0 n X 0 np np, β ε ε nt }{{} R n t µ µ p Y N(Xβ, I n σ ), ε N(0, I n σ ), Matriisin X aste on sen lineaarisesti riippumattomien rivien, tai ekvivalentisti sen lineaarisesti riippumattomien sarakkeiden, määrä Lohkoesityksestä nähdään välittömästi, että matriisin riveistä voidaan muodostaa R p -avaruuden luonnollinen kanta poistamalla identtisinä esiintyvät rivit Riveillä on vektorit (tässä käytetty rivivektorin ja vektorin samaistusta) [ 0 ],, [ 0 ] e,, e p siten, että kukin vektori e j esiintyy identtisenä n j kertaa (eli esiintyy lineaarisesti toisesta rivivektorista e j riippuvana n j kertaa, ja on kaikkiin muihin riveihin nähden ortogonaalinen) Siis matriisin riveistä p kappaletta on lineaarisesti riippumattomia, eli Rank(X) p 8