2. Teoriaharjoitukset Demotehtävät 2.1 Todista Gauss-Markovin lause. Ratkaisu. Oletetaan että luentokalvojen standardioletukset (i)-(v) ovat voimassa. Huomaa että Gauss-Markovin lause ei vaadi virhetermien normaalisuusoletusta. Gauss- Markovin lauseen perusteella regressiokertoimien PNS-estimaattori b = (X T X) 1 X T y, on paras lineaarinen estimaattori, harhattomien estimaattoreiden joukossa. Kansainvälisessä kirjallisuudessa esiintyy usein termi BLUE (Best Linear Unbiased Estimator). Tässä asiayhteydessä parhaalla estimaattorilla tarkoitetaan pienimmän varianssin omaava estimaattoria. Olkoon b jokin lineaarinen regressiokertoimien harhaton estimaattori. Tällöin Gauss-Markovin lauseen todistamiseksi tulee näyttää Cov(b ) Cov(b) olevan positiivisesti semidefiniitti kaikille lineaarisille regressiokertoimien harhattomille estimaattoreille b. Harjoitustehtävän 1.3 perusteella b on harhaton estimaattori ja Merkitään Cov(b) = σ 2 (X T X) 1. b = Cy = (D + (X T X) 1 X T )y, missä C = D + (X T X) 1 X T on ei-satunnainen matriisi kokoa (k + 1) n ja D on jokin ei-satunnainen matriisi. Estimaattorin b harhattomuudesta saadaan E(b ) = E ( D + (X T X) 1 X T )y ) = E (( D + (X T X) 1 X T ) (Xβ + ε) ) = E(D(Xβ + ε)) + E(β) = DXβ + β = (DX + I)β, mistä nähdään että DX = 0. Huomaa että Cov(y) = σ 2 I (harjoitustehtävä 1.1), missä σ 2 on virhetermien varianssi. Kovarianssimatriisiksi saadaan ( ) Cov(b ) = E (b E(b )) (b E(b )) T = E ((Cy ) E(Cy)) (Cy E(Cy)) T ) = E (C (y E(y)) (y E(y)) T C T = CCov(y)C T = σ 2 CC T = σ 2 ( D + (X T X) 1 X T ) ( D + (X T X) 1 X T ) T = σ 2 ( DD T + DX(X T X) 1 + (X T X) 1 X T D T + (X T X) 1) = σ 2 DD T + σ 2 (X T X) 1 = σ 2 DD T + Cov(b). Kovarianssimatriisien erotukseksi saadaan Cov(b ) Cov(b) = σ 2 DD T, 1 / 6
joka on positiivisesti semidefiniitti matriisi, sillä DD T on symmetrinen ja a T (DD T )a = b T b = b 2 2 0, missä b = D T a ja 2 on tavanomainen l 2 -vektorinormi. 2.2 Olkoon y = Xβ + ε, X R n (k+1) tavanomaiset oletukset toteuttava yleinen lineaarinen malli, jonka regressiokertoimien vektoria β sitoo lineaarinen rajoitus Rβ = r, jossa R on täysiasteinen m (k + 1)-matriisi, m < k + 1. Johda regressiokertoimien vektorin β rajoitettu PNS-estimaattori ja näytä että se on parempi kuin tavanomainen PNS-estimaattiori Gauss-Markovin lauseen mielessä. Vihje: Käytä Lagrangen menetelmää minimin määräämiseen ja huomaa, että k + 1 m n = muutujien lkm = rajoitteiden lkm = havaintojen lkm Ratkaisu. Oletetaan, että y = Xβ + ε, X R n (k+1) on standardioletukset toteuttava yleinen lineaarinen malli, jonka regressiokertoimien vektoria β sitoo lineaarinen rajoitus Rβ = r, missä R on täysiasteinen m (k+1)-matriisi, m < k+1. Oletetaan lisäksi että k+1 < n, eli toisin sanoen että havaintoja on enemmän kuin muuttujia. Minimoidaan neliösumma ε T ε = (y Xβ) T (y Xβ) ehdolla Muodostetaan minimoitava funktio Rβ = r. f(β, λ) = (y Xβ) T (y Xβ) + 2λ T (Rβ r) = y T y 2y T Xβ + β T X T Xβ + 2λ T Rβ 2λ T r, 2 / 6
missä 2λ on Lagrangen kertoimien muodostama (k + 1)-vektori (kerroin 2 on mukana mukavuussyistä). Huomaa että, β T X T y ja y T Xβ ovat skalaareja, jolloin pätee y T Xβ = β T X T y. Derivoidaan funktio f(β, λ) sekä muuttujan β että kerroinvektorin λ suhteen ja merkitään derivaatat nolliksi (tarvittaessa kertaa viikon 1 teoriaharjoituksista matriisien derivoiminen): f(β, λ) = 2y T X + 2β T X T X + 2λ T R = 0, β (1) f(β, λ) = 2β T R T 2r T = 0. λ (2) Yhtälöt (1) ja (2) muodostavat yhtälösysteemin, jossa tuntemattomia ovat vektorit β ja λ. Huomaa että yhtälöt ovat vaakavektori-muodossa ja voidaan halutessa transponoida. Kerrotaan yhtälöä (1) oikealta matriisilla (X T X) 1 R T (ja luvulla -1/2), jolloin saadaan: y T X(X T X) 1 R T β T R T = λ T R(X T X) 1 R T. (3) Matriisin R(X T X) 1 R T voidaan näyttää olevan täysiasteinen m m -matriisi seuraavien teoreemien avulla, jotka löytyvät esimerkiksi Matrix Analysis (Horn & Johnson, 1985) kirjasta sivulta 13. (i) Jos A R m n, niin rank(a T A) = rank(a). (ii) Jos A R m k ja B R k n, niin rank(a) + rank(b) k rank(ab) min (rank(a), rank(b)). Huomaa lisäksi että kääntyvän matriisin A asteluku on sama kuin A 1 asteluku. Oletuksesta m < k + 1 < n ja teoreemasta (i) seuraa että rank((x T X) 1 ) = k + 1 ja rank(r) = rank(r T ) = m. Merkitään X = (X T X) 1 ja käytetään teoreemaa (ii) kahdesti ja saadaan seuraavat epäyhtälöt rank(r) + rank( X) (k 1) rank(r X) min(rank( X), rank(r)) m rank(r X) m ja rank(r X) + rank(r T ) m rank(r XR T ) min(rank(r X), rank(r T )) m rank(r XR T ) m, joista seuraa että R(X T X) 1 R T on täysiasteinen (astetta m) eli kääntyvä matriisi. Käytetään yhtälöä 2 ja ratkaistaan vektori λ yhtälöstä 3: λ T = (y T X(X T X) 1 R T β T R T )(R(X T X) 1 R T ) 1 = (b T R T r T )(R(X T X) 1 R T ) 1, missä b = (X T X) 1 X T y 3 / 6
on tavanomainen PNS-estimaattori vektorille β. Sijoitetaan ratkaistu vektori λ T yhtälöön (1), jolloin saadaan yhtälö y T X + β T X T X + (b T R T r T )(R(X T X) 1 R T ) 1 R = 0 Ratkaisemalla β tästä yhtälöstä saadaan regressiokertimien vektorin β rajoitettu PNSestimaattori: b T R = y T X(X T X) 1 (b T R T r T )(R(X T X) 1 R T ) 1 R(X T X) 1 = b T (b T R T r T )(R(X T X) 1 R T ) 1 R(X T X) 1 b R = b (X T X) 1 R T (R(X T X) 1 R T ) 1 (Rb r) Rajoitetulla PNS-estimaattorilla b R on seuraavat ominaisuudet: i) Rajoitettu PNS-estimaattori b R on rajoitusten Rβ = r pätiessä regressiokertoimien β harhaton estimaattori: E(b R ) = E ( b (X T X) 1 R T (R(X T X) 1 R T ) 1 (Rb r) ) = E(b) (X T X) 1 R T (R(X T X) 1 R T ) 1 (RE(b) r) = β (X T X) 1 R T (R(X T X) 1 R T ) 1 (Rβ r) = β Huomaa, että kaava (ABC) 1 = C 1 B 1 A 1 ei päde yhtälöön (R(X T X) 1 R T ) 1, sillä R ei ole neliömatriisi! ii) Johdetaan rajoitetun PNS-estimaattorin b R kovarianssimatriisi, kun virhetermin ε varianssi on σ 2. Huomataan että b = (X T X) 1 X T y = (X T X) 1 X T (Xβ + ε) = β + (X T X) 1 X T ε, ja että r = Rβ, jolloin saadaan b R = β + (X T X) 1 X T ε (X T X) 1 R T (R(X T X) 1 R T ) 1 (R(β + (X T X) 1 X T ε) Rβ) = β + (X T X) 1 X T ε (X T X) 1 R T (R(X T X) 1 R T ) 1 R(X T X) 1 X T ε b r β = ( (X T X) 1 (X T X) 1 R T (R(X T X) 1 R T ) 1 R(X T X) 1) X T ε = ( (X T X) 1 C(C T X T XC) 1 C T ) X T ε, missä C = (X T X) 1 R T. 4 / 6
Cov(b R ) = E ( (b R E(b R ))(b R E(b R )) T ) = E ( (b R β)(b R β) T ) = (X T X) 1 X T E(εε T )X(X T X) 1 (X T X) 1 X T E(εε T )XC(C T X T XC) 1 C T C(C T X T XC) 1 C T X T E(εε T )X(X T X) 1 + C(C T X T XC) 1 C T X T E(εε T )XC(C T X T XC) 1 C = σ 2 ( (X T X) 1 C(C T X T XC) 1 C T ) = σ 2 ( (X T X) 1 (X T X) 1 R T (R(X T X) 1 R T ) 1 R(X T X) 1) Tällöin Cov(b) Cov(b R ) = σ 2 C(C T X T XC) 1 C T = σ 2 (X T X) 1 R T (R(X T X) 1 R T ) 1 R(X T X) 1, on positiivisesti semidefiniitti matriisi. Huomaa että positiivisesti semidefiniittisyyden osoittaminen tässä tilanteessa ei ole triviaalia. Todistus löytyy esimerkiksi lähteestä http://www.ssc.wisc.edu/ bhansen/econometrics/econometrics.pdf, sivulta 181. Kotitehtävät 2.4 Oletetaan seuraava aineisto: x 1 = {1, 2} x 2 = {3, 4} x 3 = {5, 6} a) Muodosta aineiston kaikki mahdolliset eri permutaatiot siten että permutoit toista alkiota ensimmäisen alkion suhteen (vihje: 6 erilaista permutaatiota). b) Ota aineistosta 5 bootstrap-otosta käyttäen apunasi arpakuutiota. 2.5 Tarkastellaan seuraavia regressioyhtälöitä, y = α 0 + α 1 x + ε, (4) y = β 0 + β 1 x + β 2 z + ν, (5) missä z, y ja x sisältävät n havaintoa. Ratkaistaan regressiokertoimien estimaatit pienimmän neliösumman menetelmällä ja merkitään estimaatteja hatulla. Missä tilanteissa seuraavat väitteet ovat totta (tarkastele jokaista kohtaa erikseen): a. ˆα 1 = ˆβ 1 b. n i=1 ˆε2 i n i=1 ˆν2 i (ˆε ja ˆν ovat estimoituja residuaaleja). 5 / 6
c. ˆα 1 on tilastollisesti merkitsevä (5% merkitsevyystasolla), mutta ˆβ 1 ei ole. d. ˆα 1 ei ole tilastollisesti merkitsevä (5% merkitsevyystasolla), mutta ˆβ 1 on. e. Mallin (4) selitysaste on suurempi kuin mallin (5). f. Mallin (5) varianssin inflaatio-tekijä on suurempi kuin mallin (4) varianssin inflaatiotekijä. 6 / 6