4. Poikkeamat regressio-oletuksista Y i = + 1 X i1 + + p X ip + u i Oletukset: (1) E(u i )=0 (2) Var(u i )= u 2 i (3) Cov(u i,u j )=0 i = j (4) X-muuttujat eiväat saa olla toistensa lineaarikombinaatioita (5) Cov(X ij,u i )=0 i, j 4.1 Heteroskedastisuus Heteroskedastinen: Var(u i )= i 2 kaikilla i. ei ole sama Homoskedastinen: Var(u i )= 2 kaikilla i. Esimerkki. Kotitalouksien kulutus C i = + X i + u i, jossa C i on kotitalouden i kulutus ja X i tulot. On ilmeistäa, ettäa rikkaammissa kotitalouksissa kulutuksen vaihtelu on suurempaa kuin väahäavaraisemmissa kotitalouksissa. TÄallÄoin tilanne on seuraavan kaltainen. 126 127 Heteroskedastisuuden seurauksia 450 1. Tehottomuus: Estimaattoritovatedelleen harhattomia ja tarkentuvia, mutta ne eiväat ole enäaäa tehokkaita 400 Y 350 300 250 2. Testit epäavalideja: s2^ ja ovat harhaisia s2^ 2^ :n ja :n estimaattoreita. TÄamÄan seurauksena :aa ja :aa koskevat hypoteesien 2^ testit eiväat ole enäaäa valideja 200 150 100 10 15 20 25 30 X 3. Ennusteiden tehottomuus: Koska estimaattorit ovat tehottomia ovat myäos ennusteet tehottomia. Toisin sanoen epäatarkempia kuin, jos käaytetäaäan tehokkaita estimaattoreita. Kuvio. Esimerkki heteroskedastisuudesta. 128 129
Heteroskedastisuuden testaus Heteroskedastisuuden testaamiseksi on esitetty monenlaisia testejäa. YhteisellÄa nimelläa näamäa tunnetaan ns Lagrangen kerroin testeinäa (Lagrange Multiplier tests, LM-tests). Aineisto on homoskedastinen eli varianssi on vakio, jos 1 = 2 =...= k = 0. Testattavana nollahypoteesina siis on (3) H 0 : 1 = 2 = = k =0. Tarkastellaan yleisesti regressiomallia (1) Y i = 0 + 1 X i1 + + p X ip + u i, jossa i 2 =var(u i)=e[u 2 i ]. Heteroskedastisuuden testaamiseksi käaytetyimpiäa mallivaihtoehtoja ovat Breuch and Pagan (1979) (2a) Glesjer (1969) (2b) 2 i = 0 + 1 Z i1 + + k Z ik i = 0 + 1 Z i1 + + k Z ik Harvey (1976), Godfrey (1978) (2c) ln( i 2)= 0 + 1 Z i1 + + k Z ik, jossa muuttujat Z j ovat annettuja muuttujia (voivat olla X:iÄa tai joitakin muita, joiden suhteen varianssi vaihtelee). 130 131 Testin vaiheet: Esim. Excel example. 1. Estimoidaan regressiomalli (1) OLS:llÄa ja lasketaan residuaalit ^u i = Y i ^ 0 ^ 1 X i1 ^ p X ip. ^u 2 i on virhevarianssin 2 i :n esimaatti, joten esimerkiksi ylläa mallin (2a) estimoimiseksi käaytetäaäan regressiota (4) ^u 2 i = 0 + 1 Z i1 + + k Z ik + v i. Huom. Mallin (2b) tapauksessa i :n estimaattina käaytetäaäan ^u i -arvoja. 2. Testisuureena on LM testi, LM = n R 2, jossa n on havaintojen lukumäaäaräa, ja R 2 on regression (4) selitysaste. H 0 :n vallitessa päatee LM 2 vapausasteilla k. TÄaten H 0 hyläatäaäan esim. viiden prosentin merkitsevyystasolla, jos LM > 2 k (0.05). KÄaytÄannÄossÄa kuitenkin lasketaan p-arvo p = P ( 2 k > LM) ja hyläatäaäan H 0 5%:n merkitsevyystasolla, jos p<0.05. 132 133
15 10 5 0-5 -10-15 Time Estimointi Jos Var(u i )= 2 i, silloin Y i = 1 X + i1 X ip 1 + + p + u i i i i i i on homoskedastinen, silläa Var(u i / i ) = 1 kaikilla i. on jäalleen homoskedastinen, silläa Var(u i /Z i )= 1 Z 2 i Var(u i )= 1 Z 2Z2 2 = 2. TÄaten OLS-vaatimimus on voimassa joten OLS-estimaattorit yhtäaläostäa (7)ovat BLUE. Esim. (Distance data, Expenditure data.) Ongelmana on, ettäa i :t ovat tuntemattomia. Kuitenkin, jos tunnetaan heteroskedastisuuden tyyppi, niin heteroskedastisuuden vaikutus voidaan eliminoida. Proportionaalinen heteroskedastisuus 2 i = 2 Z 2 i tai i = Z i (Z i > 0). TÄallÄoin (7) Y i Z = 1 X i Z + i1 X i 1 Z + + ip p i Z + u i i Z i 134 135 Auto Regressive Conditional Heteroscedasticity (ARCH) Aikasarja-aineisto! Seuraukset: Huipukas ja "paksuhäantäainen" jakauma Jo kauan on havaittu, ettäa spekulatiivisille hintasarjoille on ominaista volatilisuuden keskittymäat peräakkäaisiin ajanjaksoihin. Outlierit yleisiäa ARCH-malli: Olkoon t aikasarjajaª t käaytettäavissäa oleva informaatio hetkelläa t. Silloin sanotaan, ettäa t ARCH(p), jos Daily Returns of Nokia's Ordinary Share [7.1.1987-7.1.1994] E( t ª t 1 ) = 0 Var( t ª t 1 ) = h t = 0 + 1 2 t 1 + + p 2 t p Returns 0 > 0, 1 0,..., p 0 Huom. TÄassÄa informaatiojoukko ª t 1 = { t 1,..., t p }. 136 137
ARCH-residuaalit regressiomallissa Tarkastellaan yhden selittäajäan regressiomalia Muistettakoon: Jos E(u t ) = 0 jossa y t = 0 + 1 x t + u t, Var(u t ) = 2 < ja Cov(u t,u s ) = 0 t = s h t = 0 + 1 u 2 t 1 ARCH(1) silloin Gauss-Markov tuloksen perusteella :n OLS-estimaattori ^ LS on BLUE. Miten vaikuttaa -parametrien estimointiin? EntÄa :aa koskevaan tilastolliseen päaäattelyyn? 138 139 Nyt, jos u t ARCH(1), jossa 0 < 1 < 1, niin (i) E(u t )=0 (ii) Var(u t )= 0 /(1 1 ) (iii) Cov(u t,u s )=0, t = s (i) {(iii) ^ LS on BLUE! Kuitenkin, koska esimerkiksi 1 0 ^ = 1 (xt ¹x) 2 1 1 LisÄaksi vaikka Cov(u t,u s )=0 (t = s) niin u t ja u s eiväat ole riippumattomia. Samoin vaikka u t ª t 1 N(0,h t ), niin kuitenkaan u t ei ole normaalinen. SiispÄa myäoskäaäan t-jakaumaan perustuva tilstollinen päaäattely ei ole käayttäokelpoista. niin ^ 1, kun 1 1. SiispÄa: OLS-estimaattori käay hyvin epäastabiiliksi, jos shokin vaikutus on pitkäaaikaista ( 1 1). 140 141
NÄaistÄa syistäa estimointimenetelmäanäa onkin syytäa käayttäaäa Maximum Likelihood (ML) menetelmäaäa. Esim. Simuloitu aineisto: TÄassÄa joudutaan kuitenkin käayttäamäaäan numeerisia menetelmiäa! jossa y t =5+1.5x t + u t Testitunnuslukujen jakaumat ovat asymptoottisia. u t ª N(0,h t ) h t =4+0.9u 2 t 1, t =1,...,150 SAS-ohjelma data a; et = 0; do time = -10 to 150; ht = 4 + 0.9*et**2; et = sqrt(ht)*rannor(12346); x = 10 + 2*rannor(12367); y = 5 + 1.5*x + et; if time > 0 then output; end; proc autoreg; model y = x / garch=(q=1) maxit = 50; run; 142 143 Y :n aikasarjakuvio ja X:n ja Y :n korrelaatiodiagrammi 45 40 35 30 25 Estimointitulokset Autoreg Procedure Dependent Variable = Y Ordinary Least Squares Estimates SSE 3588.972 DFE 148 MSE 24.24981 Root MSE 4.92441 SBC 911.9507 AIC 905.9294 Reg Rsq 0.2075 Total Rsq 0.2075 Durbin-Watson 1.6556 Variable DF B Value Std Error t Ratio Approx Prob Intercept 1 7.82234501 2.0260 3.861 0.0002 X 1 1.21595912 0.1953 6.226 0.0001 Y 20 15 10 5 0 GARCH Estimates SSE 3604.52 OBS 150 MSE 24.03013 UVAR 34.2137 Log L -408.514 Total Rsq 0.2041 SBC 837.0697 AIC 825.0272 Normality Test 2.6203 Prob>Chi-Sq 0.2698 Y 45 40 35 30 25 20 Variable DF B Value Std Error t Ratio Approx Prob Intercept 1 6.20547590 1.0928 5.679 0.0001 X 1 1.37125510 0.1067 12.851 0.0001 ARCH0 1 4.76048828 0.9348 5.092 0.0001 ARCH1 1 0.86086018 0.1776 4.848 0.0001 15 10 5 0 0 2 4 6 8 10 12 14 16 18 X 144 145
ARCH-residuaalien testaus Testauksen vaiheet: Olkoon y t = 0 + 1 x t + u t. Kysymys: u t ARCH(p)? Hypoteesit: H 0 : 1 = = p =0 H 1 : jokin j =0,j =1,...,p 1. Lasketaan OLS-residuaalit e 1,e 2,...,e T, jossa e t = y t ^ 0 ^ 1 x t. 2. Korotetaan toiseen potenssiin: e 2 1,...,e2 T. 3. Estimoidaan regressiomalli e 2 t = c 0+c 1 e 2 t 1 + + c p e 2 t p + v t ja sen selitysaste R 2. 4. Testisuure 2 = TR 2, joka on likimain 2 p jakautunut, jos H 0 on tosi. 5. H 0 hyläatäaäan, jos testisuure ylittäaäa valittua merkitsevyystasoa vastaavan 2 -jakauman kriittisen arvon. 146 147 Esim. Unitaksen A-osake Unitas A Returns [2.1.1992-11.1.1994] 30 20 10 /* Muodostetaan data */ options ls = 72 ps = 72; data econex; infile d:\statist\data\unsas.dat firstobs = 3; input dd ddmmyy8. fox hex20 hex unsas; rfox = 100 * log(fox / lag(fox)); rhex20 = 100 * log(hex20 / lag(hex20)); rhex = 100 * log(hex / lag(hex)); runsas = 100 * log(unsas / lag(unsas)); run; Returns 0-10 -20-30 -40 30 20 /* Estimoidaan Unitaksen Beta */ Title Testataan ARCH-prosessin olemassaoloa ja ; Title2 Estimoidaan GARCH(1,1)-prosessi ; proc autoreg; model runsas = rhex / ARCHTest; model runsas = rhex / GARCH=(q=1,p=1); run; 10 Unsas 0-6 -4-2 0 2 4 6-10 -20-30 -40 Hex 148 149
Dependent Variable = RUNSAS Testataan ARCH-prosessin olemassaoloa ja Estimoidaan GARCH(1,1)-prosessi Autoreg Procedure Ordinary Least Squares Estimates SSE 12994.83 DFE 504 MSE 25.7834 Root MSE 5.077736 SBC 3090.779 AIC 3082.326 Reg Rsq 0.2510 Total Rsq 0.2510 Durbin-Watson 2.1324 Q and LM Tests for ARCH Disturbances Order Q Prob>Q LM Prob>LM 1 48.5177 0.0001 48.2852 0.0001 2 56.9519 0.0001 48.9104 0.0001 3 83.3929 0.0001 66.6951 0.0001 4 89.9400 0.0001 66.7611 0.0001 5 90.8371 0.0001 66.7968 0.0001 6 91.8578 0.0001 66.8205 0.0001 7 92.3005 0.0001 66.8206 0.0001 8 92.4362 0.0001 66.8314 0.0001 9 92.4919 0.0001 66.8315 0.0001 10 98.2492 0.0001 72.5352 0.0001 11 99.8828 0.0001 72.5559 0.0001 12 100.589 0.0001 72.7285 0.0001 Variable DF B Value Std Error t Ratio Approx Prob Intercept 1-0.29161539 0.22731-1.283 0.2001 RHEX 1 2.18997906 0.16852 12.995 0.0001 SSE 12994.83 DFE 504 MSE 25.7834 Root MSE 5.077736 SBC 3090.779 AIC 3082.326 Reg Rsq 0.2510 Total Rsq 0.2510 Durbin-Watson 2.1324 Variable DF B Value Std Error t Ratio Approx Prob Intercept 1-0.29161539 0.22731-1.283 0.2001 RHEX 1 2.18997906 0.16852 12.995 0.0001 GARCH Estimates SSE 13302.02 OBS 506 MSE 26.28858 UVAR. Log L -1417.03 Total Rsq 0.2333 SBC 2865.192 AIC 2844.059 Normality Test 148.6310 Prob>Chi-Sq 0.0001 Variable DF B Value Std Error t Ratio Approx Prob Intercept 1-0.22565642 0.13108-1.722 0.0852 RHEX 1 1.60862102 0.11409 14.100 0.0001 ARCH0 1 0.33417361 0.04560 7.328 0.0001 ARCH1 1 0.22808361 0.03026 7.537 0.0001 GARCH1 1 0.79904095 0.14973 5.337 0.0001 150 151 ARCH-mallin laajennuksia ARCH-mallissta on tehty useita erilaisia laajennuksia. Esimerkiksi GARCH(q, p): h t = 0 + 1 u 2 t 1 + + pu 2 t p + 1 h t 1 + + q h t q Etuna täalläa on,ettäa siinäa tarvitaan usein vain muutama viive. Esim. (jatkoa) GARCH(q, p)-m GARCH in mean malli. y t = a + bx t + g(h t )+u t, jossa u t GARCH(q, p) jag on jokin sopiva funktio, yleensäa log tai neliäojuurifunktio. 4.2 Autokorrelaatio Aikasarja-aineisto! Y t = + 1 X t1 + + p X tp + u t,, t =1,...,T. Oletuksen (3) mukaan residuaalien pitäaisi olla korreloimattomia. Jos u t ajanhetkeläa t on korreloitunut virhetermien u t+1,u t+2,... ja u t 1,u t 2,... kanssa, niin sanotaan, ettäa jäaäannäokset ovat autokorreloituneita. Autokorrelaatiokerroin mäaäaritelläaäan k = Cov(u t,u t+k ) u 2, jonka empiirinen vastine on muotoa (et ¹e)(e r k = t+k ¹e) (et ¹e) 2, jossa e t = Y t ^Y t. Huom. OLS-estimoinnissa ¹e =0. 152 153
Autokorrelaation vaikutuksia OLS-estimointiin HeikentÄaÄa estimaattoreiden tehokkuutta. Estimaattorit eiväat ole enäaäa BLUE Ovat edelleen harhattomia ja tarkentuvia Jos autokorrelaatio on positiivista, niin estimaattoreiden ja residuaalien virhevarianssit aliestimoivat todellisia variansseja. TÄaten tulokset näayttäaväat paremmilta mitäa ne todellisuudessa ovat. t-arvot ovat suurempia ja selitysaste nousee. Autokorrelaation testaus Yksinkertaisin ja käaytetyin testi on Durbin- Watsonin DW-testisuure, joka on muotoa Tt=2 (e t e d = t 1 ) 2 Tt=1 e 2. t Voidaan kirjoittaa e 2 d = t + e 2 t 1 2 e t e t 1. e 2 t Koska e 2 t e 2 t 1, kun otoskoko on suuri, saadaan d 2(1 r 1 ). TÄaten, jos r 1 =+1, niin d =0ja,josr 1 = 1, niin d =4. Jos r 1 = 0, niin d =2. Siis pieni d:n arvo viittaa positiiviseen autokorrelaatioon, lahelläa kakkosta oleva d:n arvo, ettei autokorrelaatiota ole ja suuret, yli kakkosen olevat d:n arovot, ettäa autokorrelaatio on negatiivista. 154 155 Huom. muotoa Taustalla on ajatus, ettäa malli on Esim. Gobb-Douglas production function estimation (USA) Y t = 0 + 1 X t1 + + p X tp + u t u t = u t 1 + v t, jossa v t WN (White Noise, eli E(v t ) = 0, var(v t ) = v 2 ja Cov(u t,u t+k ) = 0, kun k = 0). Testauksessa käaytetäaäan taulukkoja hyväaksi. Hypoteesina on H 0 : 1 =0 Josd <d L,niinhylÄatÄaÄan H 0. Jos d>d U,niinhyvÄaksytÄaÄan H 0. Jos d L <d<d U, niin testi on inkonklusivinen! Taulukkoarvot DW-testille on annettu, kun > 0. Jos d > 2, niin silloin viitteitäa on negatiivisesta autokorrelaatiosta ( < 0). TÄallÄoin d:n sijaan tarkastellaan suuretta 4 d. USA production USA prduction Source: Maddala (1992) Indtroduction to Econometrics, Second Edition, p100 X = index of gross national product in constant dollars L1 = Labour input index (number of persons adjusted for hours of work and educational level L2 = person engaged K1 = capital input index (capital stock adjusted for rates of utilization) K2 = capital stock in constant dollars Year X L1 L2 K1 K2 189.8 173.3 44.151 87.8 888.9 1929 1930 172.1 165.4 41.898 87.8 904.0 1931 159.1 158.2 36.948 84.0 900.2 1932 135.6 141.7 35.686 78.3 883.6 1933 132.0 141.6 35.533 76.6 851.4 1934 141.8 148.0 37.854 76.0 823.7 1935 153.9 154.4 39.014 77.7 805.3 1936 171.5 163.5 40.765 79.1 800.4 1937 183.0 172.0 42.484 80.0 805.5 1938 173.2 161.5 40.039 77.6 817.6 1939 188.5 168.6 41.443 81.4 809.8 1940 205.5 176.5 43.149 87.0 814.1 1941 236.0 192.4 46.576 96.2 830.3 1942 257.8 205.1 49.010 104.4 857.9 1943 277.5 210.1 49.695 110.0 851.4 1944 291.1 208.8 48.668 107.8 834.6 1945 284.5 202.1 47.136 102.1 819.3 1946 274.0 213.4 49.950 97.2 812.3 1947 279.9 223.6 52.350 105.9 851.3 1948 297.6 228.2 53.336 113.0 888.3 1949 297.7 221.3 51.469 114.9 934.6 1950 328.9 228.8 52.972 124.1 964.6 1951 351.4 239.0 55.101 134.5 1021.4 1952 360.4 241.7 55.385 139.7 1068.5 1953 378.9 245.2 56.226 147.4 1100.3 1954 375.8 237.4 54.387 148.9 1134.6 1955 406.7 245.9 55.718 158.6 1163.2 1956 416.3 251.6 56.770 167.1 1213.9 1957 422.8 251.5 56.809 171.9 1255.5 1958 418.4 245.1 55.023 173.1 1287.9 1959 445.7 254.9 56.215 182.5 1305.8 1960 457.3 259.6 56.743 189.0 1341.4 1961 466.3 258.1 56.211 194.1 1373.9 1962 495.3 264.6 57.078 202.3 1399.1 1963 515.5 268.5 57.540 205.4 1436.7 1964 544.1 275.4 58.508 215.9 1477.8 1965 579.2 285.3 60.055 225.0 1524.4 1966 615.6 297.4 62.130 236.2 1582.2 1967 631.1 305.0 63.162 247.9 1645.3 156 157
Regression results of USA prod Huom. SUMMARY OUTPUT ANOVA df SS MS F Significance F 8.030983 4.015492 3332.181 1.39212E-41 Regression Statistics Regression 2 Multiple R 0.99731 Residual 36 0.043382 0.001205 R Square 0.994627 Total 38 8.074365 Adjusted R 0.994329 Standard E 0.034714 Coefficientstandard Err t Stat P-value Observatio 39-3.93771 0.236999-16.6149 1.83E-18 Intercept LnL1 1.450786 0.083228 17.43137 3.93E-19 LnK1 0.383808 0.048018 7.993035 1.71E-09 DW = 0.858 RESIDUAL OUTPUT Year Pred LnX Residuals Res Diff 1929 5.259-0.013 1930 5.191-0.043-0.030 1931 5.109-0.040 0.003 1932 4.923-0.013 0.027 Residual plot 1933 4.913-0.030-0.017 1934 4.974-0.020 0.011 1935 5.044-0.008 0.012 0.15 1936 5.134 0.010 0.018 0.10 1937 5.212-0.003-0.013 0.05 1938 5.109 0.045 0.048 0.00 1939 5.190 0.049 0.0041929-0.05 1934 1939 1944 1949 1954 1959 1964 1969-0.006 1940 5.282 0.044-0.10 1941 5.445 0.018-0.025 Time 1942 5.570-0.017-0.036 1943 5.625 0.001 0.019 1944 5.608 0.066 0.065 1945 5.540 0.111 0.045 1946 5.600 0.013-0.098 1947 5.700-0.066-0.079 1948 5.755-0.059 0.007 1949 5.717-0.021 0.038 1950 5.795 0.001 0.022 1951 5.889-0.027-0.028 1952 5.920-0.032-0.006 1953 5.961-0.024 0.009 1954 5.918 0.011 0.035 1955 5.993 0.015 0.004 1956 6.047-0.015-0.030 1957 6.057-0.010 0.005 1958 6.022 0.014 0.024 1959 6.099 0.000-0.014 1960 6.139-0.014-0.014 1961 6.141 0.004 0.018 1962 6.193 0.012 0.008 1963 6.220 0.025 0.013 1964 6.276 0.023-0.002 1965 6.343 0.019-0.005 1966 6.422 0.001-0.018 1967 6.477-0.030-0.030 Resid 1. DW-testi testaa vain ensimmäaistäa autokorrelaatiota 2. TestiÄa ei voida käayttäaäa tapauksessa, jossa on selittäavinäa muuttujina selitettäaväan muuttujan viipeitäa! 158 159 Estimonti Jos DW-testi osoittaa autokorrelaatiota, niin autokorrelaatio voidaan estimoida havaintoaineistosta. Tarkastellaan esimerkkinäa yhden selittäajäan regressiota, Y t = + X t + u t, jossa u t = u t 1 + v t, v t WN(0, 2 v ). Nyt Y t 1 = + X t 1 + u t 1. VÄahentÄamÄallÄa saadaan Aiemmin käaytetyin menetelmäa oli ns. Cochrane- Orcutt iteratiivista proseduuria (ks. Daughert). Nykyisin estimointi voidaan toteuttaa helposti epäalineaarisilla menetelmilläa. Esimerkiksi EViews:ssÄa voidaan kirjoittaa identi oimalla parametrit c(1) =, c(2) =, c(3) = suoraan estimoitavana yhtäaläonäa y = c(1)*(1-c(2)) + c(2)*y(-1) + c(3)*x - c(2)*c(3)x(-1) Toinen tapa on ilmoittaa ohjelmalle, ettäa residuaalitermi mallinnetaan AR(1)-prosessina. EViews:ssÄa täamäa käay lisäaäamäalläa AR(1) muuttujaluetteloon. Y t Y t 1 =(1 ) + X t X t 1 + v t josta edelleen Y t =(1 ) + y t 1 + X t X t 1 + v t jossa v t :t siis nyt (auto)korreloimattomia. 160 161
Esim. Gobb-Douglass (jatkoa). log(gdp) = 0 + L log(l 1 )+ K log(k 1 )+u t, ************************************************** 1. Tavallinen OLS: Ilman autokrrelaatiorakennetta ************************************************** Dependent Variable: LOG(GDP) Method: Least Squares Date: 11/08/05 Time: 00:18 Sample: 1929 1967 Included observations: 39 ================================================== Variable Coefficient Std. Error t-statistic Prob. -------------------------------------------------- C -3.937714 0.236999-16.61488 0.0000 LOG(L1) 1.450786 0.083228 17.43137 0.0000 LOG(K1) 0.383808 0.048018 7.99303 0.0000 ================================================== R-squared 0.994627 Mean dependent var 5.687449 Adjusted R-squared 0.994329 S.D. dependent var 0.460959 S.E. of regression 0.034714 Akaike info criterion -3.809542 Sum squared resid 0.043382 Schwarz criterion -3.681576 Log likelihood 77.28607 F-statistic 3332.181 Durbin-Watson stat 0.858080 Prob(F-statistic) 0.000000 DW = 0.858 < 1.20 = d L (0.01), joten residuaaleissa on autokorrelaatiota. Mallinnetaan seuraavaksi residuaalit AR(1)-prosessina u t = u t 1 + v t, v t WN(0, v 2 ). Estimoitava epäalineaarinen malli: log(gdp t ) = 0 (1 )+ log(gdp t 1 ) + L log(l 1,t )+ K log(k 1,t ) L log(l 1,t 1 ) K log(k 1,t 1 )+v t, jossa v t = u t u t 1. EViews:ssa c(1) = 0, c(2) =, c(3) = L ja c(4) = K. 162 163 *********************************** 2. Estimoidaan ep\"alineaarinen malli *********************************** Dependent Variable: LOG(GDP) Method: Least Squares Sample (adjusted): 1930 1967 Included observations: 38 after adjustments Convergence achieved after 36 iterations LOG(GDP) = C(1)*(1-C(2)) + C(2)*LOG(GDP(-1)) + C(3)*LOG(L1) + C(4) *LOG(K1) - C(2)*C(3)* LOG(L1(-1)) - C(2)*C(4)* LOG(K1(-1)) ================================================ Coefficient Std. Error t-statistic Prob. ----------------------------------------------- C(1) -2.473271 0.655366-3.773879 0.0006 C(2) 0.846255 0.117185 7.221517 0.0000 C(3) 1.031249 0.175205 5.885962 0.0000 C(4) 0.548258 0.105711 5.186365 0.0000 ================================================ R-squared 0.996698 Mean dependent var 5.699067 Adjusted R-squared 0.996407 S.D. dependent var 0.461324 S.E. of regression 0.027653 Akaike info criterion -4.238863 Sum squared resid 0.025999 Schwarz criterion -4.066486 Log likelihood 84.53840 Durbin-Watson stat 1.171439 Suoraviivaisempi tapa EView:slla on estimoida suoraan mallispesi kaatio log(gdp) = 0 + L log(l 1 )+ K log(k 1 )+u t, jossa u t = u t 1 + v t. ***************************************************** 3. Residuaalien AR(1)-prosessi: u = rho*u(-1) + v ***************************************************** Dependent Variable: LOG(GDP) Method: Least Squares Sample (adjusted): 1930 1967 Included observations: 38 after adjustments Convergence achieved after 9 iterations ====================================================== Variable Coefficient Std. Error t-statistic Prob. ------------------------------------------------------ C -2.473308 0.655350-3.774028 0.0006 LOG(L1) 1.031249 0.175206 5.885930 0.0000 LOG(K1) 0.548258 0.105712 5.186332 0.0000 AR(1) 0.846255 0.117186 7.221450 0.0000 ===================================================== R-squared 0.996698 Mean dependent var 5.699067 Adjusted R-squared 0.996407 S.D. dependent var 0.461324 S.E. of regression 0.027653 Akaike info criterion -4.238863 Sum squared resid 0.025999 Schwarz criterion -4.066486 Log likelihood 84.53840 F-statistic 3421.142 Durbin-Watson stat 1.171438 Prob(F-statistic) 0.000000 164 165
Autokorrelaation syyt 1. PoisjÄatetyt selittäajäat 2. VÄaÄarin spesi oitu dynamiikka 3. Havaintojen interpolointi ja tasoitus 4. "Oikea autokorrelaatio"?? 1. PoisjÄatetyt selittäajäat: Oletetaan esimerkiksi, ettäa Y t = + 1 X t + 2 Z t + u t. Kuitenkin estimoidaan malli 2. VÄaÄarin spesi oitu dynamiikka Olkoon Y t = + X t + u t u t = u t 1 + t, jossa t WN. VÄahentÄamÄallÄa molemmilta puolin Y t 1, saadaan Y t =(1 ) + Y t 1 + X t X t 1 + t. Tarkastellaan seuraavaksi mallia Y t = 0 + 1 Y t 1 + 2 X t + 3 X t 1 + t Jos 1 2 + 3 = 0, niin näamäa mallit ovat samoja. Hypoteesi =0onsamakuinhypoteesi 1 = 3 = 0. Kutenkin, jos 1 2 + 3 = 0, niin kysymyksessäa ei ole autokorrelaatio vaan väaäarin spesi oitu mallin dynamiikka! Y t = + 1 X t + v t, jossa v t = 2 Z t +u t. Silloin jos Z t on autokorreloitunut, niin v t on myäos autokorreloitunut. 166 167 4.3. Multikollineaarisuus NiinpÄa itse asiassa ennen kuin testataan autokorrelaatiota pitäaisi ensin testata hypoteesia H 0 : 1 2 + 3 =0. JostÄamÄa hyläatäaäan, niin autokorrelaatiota ei ole syytäa testata. Huom. Kuitenkaan hypoteesi 1 2 + 3 =0ei ole lineaarinen, joten sen testaaminen ei onnistu perinteiselläa t-testilläa, vaan on käaytettäaväa esim. LM-tetiÄa tai Likelihood Ratio (LR) testiäa (epäalineaaristen hypoteesien testausta ei kuitenkaan käasitelläa täalläa kurssilla). LR testi on muotoa SSR0 LR = T log, SSR 1 joka on asymptoottisesti 2 jakautunut, jos H 0 on tosi.ssr 1 on regressioneliäosumma rajoittamattomassa tapauksessa ja SSR 0 on regressioneliäosumma H 0 :n vallitessa. SelittÄavÄan muuttujan lisäaäamisestäa malliin voi olla useita seurauksia. Yksi on, ettäa selitysaste R 2 kasvaa. Kuitenkin menetetäaäan vapausasteita, minkäa seurauksena testien voimakkuus heikkenee. Toisin sanoen testin kyky havaita todellisen poikkeman nollahypoteesista huonontuu. Jos mallissa on useita selittäaviäa muuttujia, saattaa jotkin niistäa olla läahes lineaarisesti riippuvia keskenäaäan. TÄallÄaista ominaisuutta sanotaan multikollineaarisuudeksi. Esim. Olkoon E t (expenditure) auton (Toyota Mark II) ylläapitokulut yhteensäa hetkelläat,m t (milage) ajetut mailit ja A t (age) ikäa. Tarkastellaan malleja Malli A: E t = 0 + 1 A t + u 1t Malli B: Malli C: E t = 0 + 1 M t + u 2t E t = 0 + 1 M t + 2 A t + u 3t 168 169
Estimontituloksina saatiin (t-arvot suluissa) Muuttujat Malli A Malli B Malli C VAKIO -626.24-796.07 7.29 (-5.98) (-5.91) (0.06) IKÄA (x 1 ) 7.35 27.58 (22.16) (9.58) MAILIT (x 2 ) 53.45-151.15 (18.27) (-7.06) df 55 55 54 ¹R 2 0.897 0.856 0.946 ^ 368.6 437.0 268.3 Havaitaan: Ennakko-oletusten mukaan kertoimien ( 1, 2, 1 ja 2 pitäaisi olla positiivisia. Kuitenkin ^ 2 = 151.15 (!!?), mutta ^ 1 =53.45. Nyt r x1,x2 =0.996! Multikollineaarisuutta on eri asteista. Se on täaydellistäa, jos x 2 = ax 1 + b. TÄallÄoin r 12 = ±1 ja regressiokertoimia ei voida estimoida. Tavallisesti kuitenkin riippuvuus ei ole täaydellistäa. Kahden selittäajäan tapauksessa riippuvuuden aste näahdäaäan suoraan korrelaatiokertoimesta. Useamman selttäajäan tapauksessa yleensäa myäos korrelaatiot ovat suuria. Paremmin kuitenkin se havaitaan tarkastelemalla selitysasteita, jotka saadaan regressoimalla kukin selittäaväa muuttuja vuorollaan muita selittäaviäa muuttujia vastaan. 170 171 Tarkastellaan kahden selittäajäan mallia Y i = + 1 X i1 + 2 X i2 + u i i =1,...,n. sillon var (^ j )= j =1, 2. 2 u (1 r 2 12 ) n i=1 (X ji ¹X j ) 2, TÄaten var (^ ),kun r 12 1. Toisin sanoen estimaatit käayväat erittäain epäastabiileiksi. Multikollineaarisuuden seurauksia (OLS:ssa) 1. Jos täaydellistäa, niin parametreja ei voida estimoida. 2. Osittaisessa tapauksessa estimaattorit ovat edelleen BLUE. 3. Estimaattoreiden keskivirheet kasvavat ja t-arvot pieneneväat. 4. Estimointitulokset ovat epäastabiileja, minkäa seurauksena kertoimien tulkinta usein vaikeutuu. 5. Ei kovin suurta haittaa ennustamisessa. 172 173
Multikollineaarisuuden havaitseminen Korkea R 2, mutta pienet t-arvot. SelittÄajien korrelaatiot ovat korkeita. Kerroinestimaatit muuttuvat paljon eri mallivaihtoehdoissa. Kuntoisuusluku ja VIF saadaan tulostettua useimmissa regressio-ohjelmissa. ErÄas peukalosäaäantäo on, ettäa jos kuntoisuusluku ylittäaäa 30, niin multikollineaarisuus on vakavaa. Se mikäa muuttuja on eniten kollineaarinen muiden kanssa voidaan havaita VIF-lukujen avulla (suurin). Esim. Ks. Housing Starts. Ratkaisuja R 2 j :t ovat suuria j =1,...,p,jossaR2 j on selitysaste mallista X j = 0 + k =j k X k + v. Formaalit testit, kuntoisuusluku (condition coe±cient) tai VIF (= Variance In- ation Factor), jossa VIF(^ j )= 1 1 Rj 2. 174 Poistetaan selittäajiäa tai muodostetaan kollineaarisista muuttujista lineaarikombinaatio. LisÄatÄaÄan otoskokoa. Tilastotekninen ratkaisu: Harjaestimointi tms. KÄaytetÄaÄan muuta lisäainformaatiota. (MitÄa?) 175 Esim. Housing Starts options ls = 72 nodate; Title ESIMERKKI: Multikollineaarisuus ; Title2 Data ; data housings; infile d:\rawdata\housings.dat firstobs=5; input year housing pop gnp unemp intrate; lhousing = log(housing); lpop = log(pop); lgnp = log(gnp); lunemp = log(unemp); lintrate = log(intrate); run; Title2 Regressiomalli ; proc reg data=housings corr; model lhousing = lpop lgnp lunemp lintrate / tol vif collin; run; Title2 Redusoitu malli ; model lhousing = lgnp lintrate; run; ESIMERKKI: Multikollineaarisuus Regressiomalli Correlation CORR LPOP LGNP LUNEMP LINTRATE LHOUSING LPOP 1.0000 0.9882 0.7705 0.9457 0.0150 LGNP 0.9882 1.0000 0.6831 0.9185 0.0669 LUNEMP 0.7705 0.6831 1.0000 0.7632-0.0678 LINTRATE 0.9457 0.9185 0.7632 1.0000-0.2001 LHOUSING 0.0150 0.0669-0.0678-0.2001 1.0000 Model: MODEL1 Dependent Variable: LHOUSING Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model 4 0.48750 0.12188 4.100 0.0156 Error 18 0.53511 0.02973 C Total 22 1.02261 Root MSE 0.17242 R-square 0.4767 Dep Mean 7.35629 Adj R-sq 0.3604 C.V. 2.34383 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP 1 2.999295 21.51826143 0.139 0.8907 LPOP 1-2.807854 7.45284917-0.377 0.7108 LGNP 1 2.759486 2.31179125 1.194 0.2481 LUNEMP 1 0.293866 0.32399173 0.907 0.3764 LINTRATE 1-1.325856 0.41364218-3.205 0.0049 176 177
Variance Variable DF Tolerance Inflation INTERCEP 1. 0.00000000 LPOP 1 0.00477116 209.59256967 LGNP 1 0.00743333 134.52925075 LUNEMP 1 0.14034936 7.12507707 LINTRATE 1 0.09180316 10.89287087 Collinearity Diagnostics Condition Var Prop Var Prop Var Prop Var Prop Number Eigenvalue Index INTERCEP LPOP LGNP LUNEMP 1 4.97356 1.00000 0.0000 0.0000 0.0000 0.0002 2 0.02166 15.15479 0.0000 0.0000 0.0000 0.0916 3 0.00474 32.39011 0.0000 0.0000 0.0000 0.2440 4 0.0000467 326.17934 0.0243 0.0000 0.0478 0.0021 5 5.45737E-7 3019 0.9756 1.0000 0.9522 0.6621 Number Var Prop LINTRATE 1 0.0001 2 0.0085 3 0.2197 4 0.5259 5 0.2459 Model: MODEL2 Dependent Variable: LHOUSING ESIMERKKI: Multikollineaarisuus 3 Redusoitu malli Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model 2 0.45156 0.22578 7.907 0.0029 Error 20 0.57105 0.02855 C Total 22 1.02261 Root MSE 0.16898 R-square 0.4416 Dep Mean 7.35629 Adj R-sq 0.3857 C.V. 2.29702 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP 1-4.759474 3.29044975-1.446 0.1635 LGNP 1 1.873031 0.49390485 3.792 0.0011 LINTRATE 1-1.228801 0.31056798-3.957 0.0008 178 179 4.4 Poikkeavat havainnot (Outliers) Joskus regressioestimaatteihin vaikuttaa voimakkaasti vain muutama poikkeava havainto. Residuaalien tarkastelulla voidaan yleensäa paikantaa näamäa poikkeamat. Poikkeavalla havainnolla tarkoitetaan havaintoa, joka on "kaukana" muusta joukosta. [Painovirhe, poikkeava olosuhde (Äoljykriisi, sota, lakko)]. Kuitenkaan kaikki muusta joukosta erilläaäan olevat havainnot eiväat ole outliereita. Havaintoa sanotaan vaikuttavaksi In uential, jos pieni muutos siinäa aiheuttaa merkittäaväan muutksen regressioestimaateissa. Outliereita ja vaikuttavia havaintoja voidaan paikantaa graa sesti tai sopivilla tunnusluvuilla. X-muuttujien havainnoissa olevia outliereita mitataan usein vipu- (leverage) tunnusluvuilla. TÄallainen on esimerkiksi ns. hattu matriisin (hat matrix) H diagonaalialkio. Tarkstellaan regressiomallia matriisimuodossa y = X + u, jolloin -vektorin OLS-estimaattori on ja ^ =(X X) 1 X y ^y = X^ = X(X X) 1 X y = Hy. 180 181
Matriisia H = X(X X) 1 X =(h ij ) sanotaan hattumatriisksi. Diagonaalialkiolla h ii = x i (X X) 1 x i sanotaan vivuksi (leverage). Suuri h ii :n arvo tarkoittaa, ettäa kyseiselläa havainnolla on potentiaalisesti suuri vaikutus yksittäaisenäa havaintona estimointituloksiin. TÄallaiset tapaukset on syytäa tutkia tarkemmin. Y -muuttujan havaintojen outliereita voidaan paikantaa tarkastelemalla residuaaleja. KÄayttÄokelpoisia ovat studentisoidut residuaalit e ~e i = i ^ (i), 1 h ii jossa ^ (i) on residuaalien keskihajonta estimoituna ilman havaintoa i. Jos ~e i > 2, on kysymyksessäa potentiaalinen outlier, jota on syytäa tarkstellaläahemmin. Huom. n i=1 h ii = p + 1 (estimoitujen kertoimien lukumäaäaräa) ja 1/n < h ii < 1. PeukalosÄaÄantÄonÄa on,ettäa h ii :n arvot > 2(p +1)/n, jossa n on havaintojen lukumäaäaräa ja p selittäavien muuttujien lukumäaäaräa regressiomallissa, on syytäa tutkiatarkemmin. 182 183 DFFITS i tunnusluku mittaa kunkin yksittäaisen havainnon vaikutusta ^y i :hin DFFITS i = ^y i ^y(i) ^ (i), h ii jossa ^y(i) on estimoitu ilman havaintoa i. DFBETAS j -luku mittaa puolestaan havainnon i vaikutusta regressiokertoimen j estimaattiin. DFBETAS j = ^ j ^ j (i) ^ (i), c jj jossa ^ j (i) on j :n estimaatti kun havainto i on poistettu (j =1,...,p, i =1,...,n)jac jj on matriisin (X X) 1 j:s diagonaalialkio. Molemmissa tapauksissa itseisarvoltaan kakkosta suurempia arvoja vastaavat havainnot on syytäa tutkia tarkemmin. Belsley, Kuh ja Welsh (1980) (Regresion Diagnostics, Wiley: New York) ehdottavat kuitenkin huomattavasti tiukempia rajoja siten, ettäa tapaukset joissa ja/tai DFFITS i > 2 (p +1)/n DFBETAS j > 2/ n olisi syytäa tarkastella läahemmin (size adjusted cuto s). 184 185
Y Y Yleinen tapa on, ettäa poikkeava havinto poistetaan. Kuitenkin, jos läoytyy luonnollinen selitys poikkeamalle, niin se voidaan korjata tai muuten huomioida mallissa (esim dummy muuttujan avulla). Esim. Simuloitu aineisto Y = 0 + 1 X + u. Estimointitulokset ilman poikkeavaa havaintoa X Y SUMMARY OUTPUT 17.0 8.1 11.5 19.0 Regression Statistics 14.6 22.8 Multiple R 0.982348 15.8 24.4 R Square 0.965007 10.3 18.8 Adjusted R 0.963063 13.1 20.3 Standard E 0.759448 10.1 19.7 Observatio 20 7.1 15.3 10.9 19.8 ANOVA 2.7 13.2 df SS MS F 5.3 13.4 286.2967 286.2967 496.3868 Regression 1 15.3 24.2 Residual 18 10.3817 0.576761 9.2 18.1 Total 19 296.6784 5.1 15.0 6.5 15.7 Coefficientstandard Err t Stat P-value 7.1 16.6 9.623402 0.457941 21.01448 4.09E-14 Intercept 7.6 15.3 X 0.908745 0.040788 22.27974 1.48E-14 17.8 26.0 16.6 24.7 13.6 22.7 RESIDUAL OUTPUT ObservationPredicted YResiduals 1 17.0 0.0 2 20.1-1.1 3 22.9-0.1 4 24.0 0.4 5 19.0-0.2 6 21.5-1.3 7 18.8 0.9 8 16.1-0.8 9 19.5 0.3 10 12.1 1.1 11 14.5-1.1 12 23.6 0.6 13 17.9 0.2 14 14.3 0.8 15 15.6 0.1 16 16.1 0.6 17 16.6-1.3 18 25.8 0.2 19 24.7 0.0 20 22.0 0.7 X Line Fit Plot 30 25 20 15 10 5 0 0 5 10 15 20 X X Residual Plot 2.0 Residuals 1.0 0.0-1.0 0 5 10 15 20-2.0 X 186 187 Estimointitulokset, kun aineistossa poikkeava havainto. X Y SUMMARY OUTPUT 8 17 12 19 Regression Statistics 15 23 Multiple R 0.601043 16 24 R Square 0.361253 10 19 Adjusted R 0.325767 13 20 Standard E 3.335594 10 20 Observatio 20 7 15 11 20 ANOVA 3 13 df SS MS F p-val 5 13 113.2665 113.2665 10.18017 0.005066 Regression 1 15 24 Residual 18 200.2714 11.12619 9 18 Total 19 313.5379 5 15 7 16 Coefficientstandard Err t Stat P-value 7 17 12.79482 1.921846 6.657565 3.02E-06 Intercept 8 15 X 0.533476 0.1672 3.190638 0.005066 18 26 20 12 14 23 RESIDUAL OUTPUT ObservationPredicted YResiduals 1 17.1-0.1 X Line Fit Plot 2 18.9 0.0 3 20.6 2.2 30 4 21.2 3.2 5 18.3 0.5 25 6 19.8 0.5 7 18.2 1.5 8 16.6-1.3 20 9 18.6 1.2 10 14.2-1.0 15 11 15.6-2.2 12 21.0 3.2 10 13 17.7 0.4 14 15.5-0.5 15 16.3-0.6 5 16 16.6 0.1 17 16.9-1.6 0 18 22.3 3.7 0 5 10 15 20 19 23.4-11.8 X 20 20.0 2.7 Residuals X Residual Plot 5.0 0.0-5.0 0 5 10 15 20-10.0-15.0 X proc reg; TITLE Poikkeavien havaintojen diagnostiikkaa ; model y = x / influence; run; TULOKSET: DFFITS ja DFFBETAS: Poikkeavien havaintojen diagnostiikkaa Model: MODEL1 Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model 1 113.32607 113.32607 10.180 0.0051 Error 18 200.38659 11.13259 C Total 19 313.71265 Root MSE 3.33655 R-square 0.3612 Dep Mean 18.44650 Adj R-sq 0.3258 C.V. 18.08773 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP 1 12.792987 1.92261206 6.654 0.0001 X 1 0.533677 0.16726769 3.191 0.0051 188 189
Hat Diag Cov INTERCEP X Obs Residual Rstudent H Ratio Dffits Dfbetas Dfbetas Esim. (Housing data) 1-0.0811-0.0244 0.0655 1.1996-0.0065-0.0051 0.0031 2 0.0290 0.0087 0.0522 1.1828 0.0020 0.0004 0.0004 3 2.2246 0.6890 0.0907 1.1669 0.2177-0.0717 0.1458 4 3.1849 1.0175 0.1181 1.1295 0.3724-0.1666 0.2828 5 0.5195 0.1554 0.0502 1.1770 0.0357 0.0158-0.0022 6 0.4712 0.1421 0.0657 1.1971 0.0377-0.0042 0.0184 7 1.5155 0.4558 0.0505 1.1524 0.1051 0.0504-0.0106 8-1.3081-0.3991 0.0801 1.1963-0.1178-0.1027 0.0723 9 1.1953 0.3586 0.0502 1.1627 0.0825 0.0269 0.0055 10-1.0399-0.3410 0.2054 1.3918-0.1734-0.1722 0.1508 11-2.2275-0.7014 0.1196 1.2028-0.2586-0.2467 0.1973 12 3.1851 1.0107 0.1069 1.1170 0.3496-0.1422 0.2550 13 0.4139 0.1241 0.0552 1.1845 0.0300 0.0196-0.0092 14-0.4808-0.1498 0.1250 1.2779-0.0566-0.0543 0.0439 15-0.6186-0.1892 0.0911 1.2283-0.0599-0.0543 0.0402 16 0.0486 0.0148 0.0810 1.2199 0.0044 0.0038-0.0027 17-1.5703-0.4779 0.0719 1.1762-0.1331-0.1107 0.0735 18 3.6769 1.2356 0.1812 1.1529 0.5813-0.3374 0.4947 19-11.8025-17.6088 0.2667 0.0041-10.6204 7.0389-9.5734 20 2.6643 0.8217 0.0726 1.1182 0.2298-0.0441 0.1282 Sum of Residuals 0 Sum of Squared Residuals 200.3866 Predicted Resid SS (Press) 337.8962 Malli PRICE PRICE = 0 + 1 log(sqf) + u 300 250 200 150 100 7.0 7.2 7.4 7.6 7.8 8.0 LSQF 190 191 Regressiotulokset Poikkeavien havaintojen tarkastelua asuntojen pinta-ala/hinta aineistossa Model: MODEL1 Dependent Variable: PRICE Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model 1 22404.72947 22404.72947 16.620 0.0015 Error 12 16176.27981 1348.02332 C Total 13 38581.00929 Root MSE 36.71544 R-square 0.5807 Dep Mean 202.49286 Adj R-sq 0.5458 C.V. 18.13172 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T Hat Diag Cov INTERCEP LSQF Obs Residual Rstudent H Ratio Dffits Dfbetas Dfbetas 1-2.0544-0.0642 0.3024 1.7047-0.0422-0.0375 0.0369 2 10.1972 0.3217 0.3105 1.6940 0.2159 0.1926-0.1895 3-14.4365-0.4182 0.1767 1.4006-0.1937-0.1533 0.1495 4-19.7132-0.5532 0.1124 1.2691-0.1968-0.1236 0.1188 5-47.6442-1.3995 0.0716 0.9236-0.3886-0.0301 0.0179 6-59.9703-1.9770 0.1520 0.7640-0.8369 0.5909-0.6092 7 8.3558 0.2267 0.0716 1.2699 0.0629 0.0049-0.0029 8 10.3558 0.2813 0.0716 1.2636 0.0781 0.0061-0.0036 9-23.7821-0.6775 0.1270 1.2562-0.2584 0.1648-0.1709 10-6.5620-0.1818 0.1118 1.3318-0.0645 0.0371-0.0388 11 12.2179 0.3428 0.1270 1.3346 0.1308-0.0834 0.0865 12 30.2680 0.8606 0.1022 1.1635 0.2903-0.1515 0.1592 13 16.2208 0.4743 0.1884 1.4081 0.2285-0.1755 0.1800 14 86.5471 3.3206 0.0750 0.3209 0.9456-0.1776 0.2067 Sum of Residuals 0 Sum of Squared Residuals 16176.2798 Predicted Resid SS (Press) 20150.8236 INTERCEP 1-1069.577189 312.17960403-3.426 0.0050 LSQF 1 168.894977 41.42815417 4.077 0.0015 192 193
4.5 Spesi kaatiotestit Outlierit kertovat aina, ettäa mallissa on jotain puutteellisuuksia. EpÄalineaarisuus, poisjäatetyt selittäajäat, tms. Jos poisjäatetyistäa muuttujista on havaintoja, niin ongelmaa ei ole merkitsevyyden testaamisessa. Joskus voidaan myäos käayttäaäa korvikemuuttujia, jos selittäajäastäa ei saada havaintoja. EpÄalineaarisuutta voidaan testata esimerkiksi ns. RESET-testillÄa (Ramsey, 1969). 1. Laske y:n regressio x:n suhteen 2. Regressoi y x:n, ^y 2 :n, ^y 3 :n ja ^y 4 :n suhteen ja testaa ovatko ^y:n potenssien regressiokertoimet nollia (F -testi). Esim. Hinta/Pinta-ala. SAS Kaskyjono: TITLE Testataan RESET-testill mahdollista epalineaarisuutta ; TITLE2 Testaamisessa voidaan kytt SAS AUTOREG proceduuria ; Proc Autoreg; model Price = LSQF / RESET; run; TULOKSET: Testataan RESET-testill mahdollista epalineaarisuutta Testaamisessa voidaan kayttaa SAS AUTOREG proceduuria Dependent Variable = PRICE Autoreg Procedure Ordinary Least Squares Estimates SSE 16176.28 DFE 12 MSE 1348.023 Root MSE 36.71544 SBC 143.7398 AIC 142.4617 Reg Rsq 0.5807 Total Rsq 0.5807 Durbin-Watson 0.8452 Ramsey s RESET Test Power RESET Prob>F 2 0.1148 0.7411 3 0.5383 0.5997 4 0.4445 0.7271 Variable DF B Value Std Error t Ratio Approx Prob Intercept 1-1069.577189 312.2-3.426 0.0050 LSQF 1 168.894977 41.4282 4.077 0.0015 194 195