4. Poikkeamat regressio-oletuksista. 4.1 Heteroskedastisuus. ei ole sama. Heteroskedastinen: Var(u i )= i kaikilla i. Y i = + 1 X i1 + + p X ip + u i

Transkriptio

1 4. Poikkeamat regressio-oletuksista 4.1 Heteroskedastisuus Y i = + 1 X i1 + + p X ip + u i Heteroskedastinen: Var(u i )= i 2 kaikilla i. ei ole sama Oletukset: (1) E(u i )=0 (2) Var(u i )= u 2 i (3) Cov(u i,u j )=0 i = j (4) X-muuttujat eiväat saa olla toistensa lineaarikombinaatioita (5) Cov(X ij,u i )=0 i, j Homoskedastinen: Var(u i )= 2 kaikilla i. Esimerkki. Kotitalouksien kulutus C i = + X i + u i, jossa C i on kotitalouden i kulutus ja X i tulot. On ilmeistäa, ettäa rikkaammissa kotitalouksissa kulutuksen vaihtelu on suurempaa kuin väahäavaraisemmissa kotitalouksissa. TÄallÄoin tilanne on seuraavan kaltainen

2 Heteroskedastisuuden seurauksia Tehottomuus: Estimaattoritovatedelleen harhattomia ja tarkentuvia, mutta ne eiväat ole enäaäa tehokkaita 400 Y Testit epäavalideja: s2^ ja ovat harhaisia s2^ 2^ :n ja :n estimaattoreita. TÄamÄan seurauksena :aa ja :aa koskevat hypoteesien 2^ testit eiväat ole enäaäa valideja X 3. Ennusteiden tehottomuus: Koska estimaattorit ovat tehottomia ovat myäos ennusteet tehottomia. Toisin sanoen epäatarkempia kuin, jos käaytetäaäan tehokkaita estimaattoreita. Kuvio. Esimerkki heteroskedastisuudesta

3 Heteroskedastisuuden testaus Heteroskedastisuuden testaamiseksi on esitetty monenlaisia testejäa. YhteisellÄa nimelläa näamäa tunnetaan ns Lagrangen kerroin testeinäa (Lagrange Multiplier tests, LM-tests). Aineisto on homoskedastinen eli varianssi on vakio, jos 1 = 2 =...= k = 0. Testattavana nollahypoteesina siis on (3) H 0 : 1 = 2 = = k =0. Tarkastellaan yleisesti regressiomallia (1) Y i = X i1 + + p X ip + u i, jossa i 2 =var(u i)=e[u 2 i ]. Heteroskedastisuuden testaamiseksi käaytetyimpiäa mallivaihtoehtoja ovat Breuch and Pagan (1979) (2a) Glesjer (1969) (2b) 2 i = Z i1 + + k Z ik i = Z i1 + + k Z ik Harvey (1976), Godfrey (1978) (2c) ln( i 2)= Z i1 + + k Z ik, jossa muuttujat Z j ovat annettuja muuttujia (voivat olla X:iÄa tai joitakin muita, joiden suhteen varianssi vaihtelee)

4 Testin vaiheet: Esim. Excel example. 1. Estimoidaan regressiomalli (1) OLS:llÄa ja lasketaan residuaalit û i = Y i ^ 0 ^ 1 X i1 ^ p X ip. û 2 i on virhevarianssin 2 i :n esimaatti, joten esimerkiksi ylläa mallin (2a) estimoimiseksi käaytetäaäan regressiota (4) û 2 i = Z i1 + + k Z ik + v i. Huom. Mallin (2b) tapauksessa i :n estimaattina käaytetäaäan û i -arvoja. 2. Testisuureena on LM testi, LM = n R 2, jossa n on havaintojen lukumäaäaräa, ja R 2 on regression (4) selitysaste. H 0 :n vallitessa päatee LM 2 vapausasteilla k. TÄaten H 0 hyläatäaäan esim. viiden prosentin merkitsevyystasolla, jos LM > 2 k (0.05). KÄaytÄannÄossÄa kuitenkin lasketaan p-arvo p = P ( 2 k > LM) ja hyläatäaäan H 0 5%:n merkitsevyystasolla, jos p<

5 Estimointi Jos Var(u i )= 2 i, silloin Y i = 1 X + i1 X ip p + u i i i i i i on homoskedastinen, silläa Var(u i / i ) = 1 kaikilla i. on jäalleen homoskedastinen, silläa Var(u i /Z i )= 1 Z 2 i Var(u i )= 1 Z 2Z2 2 = 2. TÄaten OLS-vaatimimus on voimassa joten OLS-estimaattorit yhtäaläostäa (7)ovat BLUE. Esim. (Distance data, Expenditure data.) Ongelmana on, ettäa i :t ovat tuntemattomia. Kuitenkin, jos tunnetaan heteroskedastisuuden tyyppi, niin heteroskedastisuuden vaikutus voidaan eliminoida. Proportionaalinen heteroskedastisuus 2 i = 2 Z 2 i tai i = Z i (Z i > 0). TÄallÄoin (7) Y i Z = 1 X i Z + i1 X i 1 Z + + ip p i Z + u i i Z i

6 Auto Regressive Conditional Heteroscedasticity (ARCH) Aikasarja-aineisto! Seuraukset: Huipukas ja "paksuhäantäainen" jakauma Jo kauan on havaittu, ettäa spekulatiivisille hintasarjoille on ominaista volatilisuuden keskittymäat peräakkäaisiin ajanjaksoihin. Outlierit yleisiäa ARCH-malli: Olkoon t aikasarjajaª t käaytettäavissäa oleva informaatio hetkelläa t. Silloin sanotaan, ettäa t ARCH(p), jos Daily Returns of Nokia's Ordinary Share [ ] E( t ª t 1 ) = 0 5 Var( t ª t 1 ) = h t = t p 2 t p Returns > 0, 1 0,..., p Time Huom. TÄassÄa informaatiojoukko ª t 1 = { t 1,..., t p }

7 ARCH-residuaalit regressiomallissa Tarkastellaan yhden selittäajäan regressiomalia y t = x t + u t, jossa Muistettakoon: Jos E(u t ) = 0 Var(u t ) = 2 < ja Cov(u t,u s ) = 0 t = s h t = u 2 t 1 ARCH(1) silloin Gauss-Markov tuloksen perusteella :n OLS-estimaattori ^ LS on BLUE. Miten vaikuttaa -parametrien estimointiin? EntÄa :aa koskevaan tilastolliseen päaäattelyyn?

8 Nyt, jos u t ARCH(1), jossa 0 < 1 < 1, niin (i) E(u t )=0 (ii) Var(u t )= 0 /(1 1 ) (iii) Cov(u t,u s )=0, t = s (i) {(iii) ^ LS on BLUE! Kuitenkin, koska esimerkiksi 1 0 ^ = 1 (xt ¹x) LisÄaksi vaikka Cov(u t,u s )=0 (t = s) niin u t ja u s eiväat ole riippumattomia. Samoin vaikka u t ª t 1 N(0,h t ), niin kuitenkaan u t ei ole normaalinen. SiispÄa myäoskäaäan t-jakaumaan perustuva tilstollinen päaäattely ei ole käayttäokelpoista. niin ^ 1, kun 1 1. SiispÄa: OLS-estimaattori käay hyvin epäastabiiliksi, jos shokin vaikutus on pitkäaaikaista ( 1 1)

9 NÄaistÄa syistäa estimointimenetelmäanäa onkin syytäa käayttäaäa Maximum Likelihood (ML) menetelmäaäa. Esim. Simuloitu aineisto: TÄassÄa joudutaan kuitenkin käayttäamäaäan numeerisia menetelmiäa! Testitunnuslukujen jakaumat ovat asymptoottisia. jossa y t =5+1.5x t + u t u t ª N(0,h t ) h t =4+0.9u 2 t 1, t =1,...,150 SAS-ohjelma data a; et = 0; do time = -10 to 150; ht = *et**2; et = sqrt(ht)*rannor(12346); x = *rannor(12367); y = *x + et; if time > 0 then output; end; proc autoreg; model y = x / garch=(q=1) maxit = 50; run;

10 Y :n aikasarjakuvio ja X:n ja Y :n korrelaatiodiagrammi Estimointitulokset Autoreg Procedure Dependent Variable = Y Ordinary Least Squares Estimates SSE DFE 148 MSE Root MSE SBC AIC Reg Rsq Total Rsq Durbin-Watson Variable DF B Value Std Error t Ratio Approx Prob Intercept X Y GARCH Estimates SSE OBS 150 MSE UVAR Log L Total Rsq SBC AIC Normality Test Prob>Chi-Sq Y Variable DF B Value Std Error t Ratio Approx Prob Intercept X ARCH ARCH X

11 ARCH-residuaalien testaus Testauksen vaiheet: Olkoon y t = x t + u t. Kysymys: u t ARCH(p)? Hypoteesit: H 0 : 1 = = p =0 H 1 : jokin j =0,j =1,...,p 1. Lasketaan OLS-residuaalit e 1,e 2,...,e T, jossa e t = y t ^ 0 ^ 1 x t. 2. Korotetaan toiseen potenssiin: e 2 1,...,e2 T. 3. Estimoidaan regressiomalli e 2 t = c 0+c 1 e 2 t c p e 2 t p + v t ja sen selitysaste R Testisuure 2 = TR 2, joka on likimain 2 p jakautunut, jos H 0 on tosi. 5. H 0 hyläatäaäan, jos testisuure ylittäaäa valittua merkitsevyystasoa vastaavan 2 -jakauman kriittisen arvon

12 Esim. Unitaksen A-osake Unitas A Returns [ ] /* Muodostetaan data */ options ls = 72 ps = 72; data econex; infile d:\statist\data\unsas.dat firstobs = 3; input dd ddmmyy8. fox hex20 hex unsas; rfox = 100 * log(fox / lag(fox)); rhex20 = 100 * log(hex20 / lag(hex20)); rhex = 100 * log(hex / lag(hex)); runsas = 100 * log(unsas / lag(unsas)); run; Returns /* Estimoidaan Unitaksen Beta */ Title Testataan ARCH-prosessin olemassaoloa ja ; Title2 Estimoidaan GARCH(1,1)-prosessi ; proc autoreg; model runsas = rhex / ARCHTest; model runsas = rhex / GARCH=(q=1,p=1); run; 10 Unsas Hex

13 Dependent Variable = RUNSAS Testataan ARCH-prosessin olemassaoloa ja Estimoidaan GARCH(1,1)-prosessi Autoreg Procedure Ordinary Least Squares Estimates SSE DFE 504 MSE Root MSE SBC AIC Reg Rsq Total Rsq Durbin-Watson Q and LM Tests for ARCH Disturbances Order Q Prob>Q LM Prob>LM Variable DF B Value Std Error t Ratio Approx Prob Intercept RHEX SSE DFE 504 MSE Root MSE SBC AIC Reg Rsq Total Rsq Durbin-Watson Variable DF B Value Std Error t Ratio Approx Prob Intercept RHEX GARCH Estimates SSE OBS 506 MSE UVAR. Log L Total Rsq SBC AIC Normality Test Prob>Chi-Sq Variable DF B Value Std Error t Ratio Approx Prob Intercept RHEX ARCH ARCH GARCH

14 ARCH-mallin laajennuksia 4.2 Autokorrelaatio ARCH-mallissta on tehty useita erilaisia laajennuksia. Esimerkiksi GARCH(q, p): h t = u 2 t pu 2 t p + 1 h t q h t q Etuna täalläa on,ettäa siinäa tarvitaan usein vain muutama viive. Esim. (jatkoa) GARCH(q, p)-m GARCH in mean malli. y t = a + bx t + g(h t )+u t, jossa u t GARCH(q, p) jag on jokin sopiva funktio, yleensäa log tai neliäojuurifunktio. Aikasarja-aineisto! Y t = + 1 X t1 + + p X tp + u t,, t =1,...,T. Oletuksen (3) mukaan residuaalien pitäaisi olla korreloimattomia. Jos u t ajanhetkeläa t on korreloitunut virhetermien u t+1,u t+2,... ja u t 1,u t 2,... kanssa, niin sanotaan, ettäa jäaäannäokset ovat autokorreloituneita. Autokorrelaatiokerroin mäaäaritelläaäan k = Cov(u t,u t+k ) u 2, jonka empiirinen vastine on muotoa (et ¹e)(e r k = t+k ¹e) (et ¹e) 2, jossa e t = Y t ^Y t. Huom. OLS-estimoinnissa ¹e =

15 Autokorrelaation vaikutuksia OLS-estimointiin Autokorrelaation testaus HeikentÄaÄa estimaattoreiden tehokkuutta. Estimaattorit eiväat ole enäaäa BLUE Ovat edelleen harhattomia ja tarkentuvia Jos autokorrelaatio on positiivista, niin estimaattoreiden ja residuaalien virhevarianssit aliestimoivat todellisia variansseja. TÄaten tulokset näayttäaväat paremmilta mitäa ne todellisuudessa ovat. t-arvot ovat suurempia ja selitysaste nousee. Yksinkertaisin ja käaytetyin testi on Durbin- Watsonin DW-testisuure, joka on muotoa Tt=2 (e t e d = t 1 ) 2. Tt=1 e 2 t Voidaan kirjoittaa e 2 d = t + e 2 t 1 2 e t e t 1. e 2 t Koska e 2 t e 2 t 1, kun otoskoko on suuri, saadaan d 2(1 r 1 ). TÄaten, jos r 1 =+1, niin d =0ja,josr 1 = 1, niin d =4. Jos r 1 = 0, niin d =2. Siis pieni d:n arvo viittaa positiiviseen autokorrelaatioon, lahelläa kakkosta oleva d:n arvo, ettei autokorrelaatiota ole ja suuret, yli kakkosen olevat d:n arovot, ettäa autokorrelaatio on negatiivista

16 Huom. muotoa Taustalla on ajatus, ettäa malli on Esim. Gobb-Douglas production function estimation (USA) Y t = X t1 + + p X tp + u t u t = u t 1 + v t, jossa v t WN (White Noise, eli E(v t ) = 0, var(v t ) = v 2 ja Cov(u t,u t+k ) = 0, kun k = 0). Testauksessa käaytetäaäan taulukkoja hyväaksi. Hypoteesina on H 0 : 1 =0 Josd <d L,niinhylÄatÄaÄan H 0. Jos d>d U,niinhyvÄaksytÄaÄan H 0. Jos d L <d<d U, niin testi on inkonklusivinen! Taulukkoarvot DW-testille on annettu, kun > 0. Jos d > 2, niin silloin viitteitäa on negatiivisesta autokorrelaatiosta ( < 0). TÄallÄoin d:n sijaan tarkastellaan suuretta 4 d. USA production USA prduction Source: Maddala (1992) Indtroduction to Econometrics, Second Edition, p100 X = index of gross national product in constant dollars L1 = Labour input index (number of persons adjusted for hours of work and educational level L2 = person engaged K1 = capital input index (capital stock adjusted for rates of utilization) K2 = capital stock in constant dollars Year X L1 L2 K1 K

17 Huom. Regression results of USA prod SUMMARY OUTPUT ANOVA df SS MS F Significance F Regression Statistics Regression E-41 Multiple R Residual R Square Total Adjusted R Standard E Coefficientstandard Err t Stat P-value Observatio 39 Intercept E-18 LnL E-19 LnK E-09 DW = RESIDUAL OUTPUT Year Pred LnX Residuals Res Diff Residual plot Time Resid 1. DW-testi testaa vain ensimmäaistäa autokorrelaatiota 2. TestiÄa ei voida käayttäaäa tapauksessa, jossa on selittäavinäa muuttujina selitettäaväan muuttujan viipeitäa!

18 Estimonti Jos DW-testi osoittaa autokorrelaatiota, niin autokorrelaatio voidaan estimoida havaintoaineistosta. Tarkastellaan esimerkkinäa yhden selittäajäan regressiota, Y t = + X t + u t, jossa u t = u t 1 + v t, v t WN(0, 2 v ). Nyt Y t 1 = + X t 1 + u t 1. VÄahentÄamÄallÄa saadaan Aiemmin käaytetyin menetelmäa oli ns. Cochrane- Orcutt iteratiivista proseduuria (ks. Daughert). Nykyisin estimointi voidaan toteuttaa helposti epäalineaarisilla menetelmilläa. Esimerkiksi EViews:ssÄa voidaan kirjoittaa identi oimalla parametrit c(1) =, c(2) =, c(3) = suoraan estimoitavana yhtäaläonäa y = c(1)*(1-c(2)) + c(2)*y(-1) + c(3)*x - c(2)*c(3)x(-1) Toinen tapa on ilmoittaa ohjelmalle, ettäa residuaalitermi mallinnetaan AR(1)-prosessina. EViews:ssÄa täamäa käay lisäaäamäalläa AR(1) muuttujaluetteloon. Y t Y t 1 =(1 ) + X t X t 1 + v t josta edelleen Y t =(1 ) + y t 1 + X t X t 1 + v t jossa v t :t siis nyt (auto)korreloimattomia

19 Esim. Gobb-Douglass (jatkoa). log(gdp) = 0 + L log(l 1 )+ K log(k 1 )+u t, ************************************************** 1. Tavallinen OLS: Ilman autokrrelaatiorakennetta ************************************************** Dependent Variable: LOG(GDP) Method: Least Squares Date: 11/08/05 Time: 00:18 Sample: Included observations: 39 ================================================== Variable Coefficient Std. Error t-statistic Prob C LOG(L1) LOG(K1) ================================================== R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood F-statistic Durbin-Watson stat Prob(F-statistic) DW = < 1.20 = d L (0.01), joten residuaaleissa on autokorrelaatiota. Mallinnetaan seuraavaksi residuaalit AR(1)-prosessina u t = u t 1 + v t, v t WN(0, v 2 ). Estimoitava epäalineaarinen malli: log(gdp t ) = 0 (1 )+ log(gdp t 1 ) + L log(l 1,t )+ K log(k 1,t ) L log(l 1,t 1 ) K log(k 1,t 1 )+v t, jossa v t = u t u t 1. EViews:ssa c(1) = 0, c(2) =, c(3) = L ja c(4) = K

20 *********************************** 2. Estimoidaan ep\"alineaarinen malli *********************************** Dependent Variable: LOG(GDP) Method: Least Squares Sample (adjusted): Included observations: 38 after adjustments Convergence achieved after 36 iterations LOG(GDP) = C(1)*(1-C(2)) + C(2)*LOG(GDP(-1)) + C(3)*LOG(L1) + C(4) *LOG(K1) - C(2)*C(3)* LOG(L1(-1)) - C(2)*C(4)* LOG(K1(-1)) ================================================ Coefficient Std. Error t-statistic Prob C(1) C(2) C(3) C(4) ================================================ R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood Durbin-Watson stat Suoraviivaisempi tapa EView:slla on estimoida suoraan mallispesi kaatio log(gdp) = 0 + L log(l 1 )+ K log(k 1 )+u t, jossa u t = u t 1 + v t. ***************************************************** 3. Residuaalien AR(1)-prosessi: u = rho*u(-1) + v ***************************************************** Dependent Variable: LOG(GDP) Method: Least Squares Sample (adjusted): Included observations: 38 after adjustments Convergence achieved after 9 iterations ====================================================== Variable Coefficient Std. Error t-statistic Prob C LOG(L1) LOG(K1) AR(1) ===================================================== R-squared Mean dependent var Adjusted R-squared S.D. dependent var S.E. of regression Akaike info criterion Sum squared resid Schwarz criterion Log likelihood F-statistic Durbin-Watson stat Prob(F-statistic)

21 Autokorrelaation syyt 2. VÄaÄarin spesi oitu dynamiikka 1. PoisjÄatetyt selittäajäat 2. VÄaÄarin spesi oitu dynamiikka 3. Havaintojen interpolointi ja tasoitus 4. "Oikea autokorrelaatio"?? 1. PoisjÄatetyt selittäajäat: Oletetaan esimerkiksi, ettäa Y t = + 1 X t + 2 Z t + u t. Kuitenkin estimoidaan malli Olkoon Y t = + X t + u t u t = u t 1 + t, jossa t WN. VÄahentÄamÄallÄa molemmilta puolin Y t 1, saadaan Y t =(1 ) + Y t 1 + X t X t 1 + t. Tarkastellaan seuraavaksi mallia Y t = Y t X t + 3 X t 1 + t Jos = 0, niin näamäa mallit ovat samoja. Hypoteesi =0onsamakuinhypoteesi 1 = 3 = 0. Kutenkin, jos = 0, niin kysymyksessäa ei ole autokorrelaatio vaan väaäarin spesi oitu mallin dynamiikka! Y t = + 1 X t + v t, jossa v t = 2 Z t +u t. Silloin jos Z t on autokorreloitunut, niin v t on myäos autokorreloitunut

22 4.3. Multikollineaarisuus NiinpÄa itse asiassa ennen kuin testataan autokorrelaatiota pitäaisi ensin testata hypoteesia H 0 : =0. JostÄamÄa hyläatäaäan, niin autokorrelaatiota ei ole syytäa testata. Huom. Kuitenkaan hypoteesi =0ei ole lineaarinen, joten sen testaaminen ei onnistu perinteiselläa t-testilläa, vaan on käaytettäaväa esim. LM-tetiÄa tai Likelihood Ratio (LR) testiäa (epäalineaaristen hypoteesien testausta ei kuitenkaan käasitelläa täalläa kurssilla). LR testi on muotoa SSR0 LR = T log, SSR 1 joka on asymptoottisesti 2 jakautunut, jos H 0 on tosi.ssr 1 on regressioneliäosumma rajoittamattomassa tapauksessa ja SSR 0 on regressioneliäosumma H 0 :n vallitessa. SelittÄavÄan muuttujan lisäaäamisestäa malliin voi olla useita seurauksia. Yksi on, ettäa selitysaste R 2 kasvaa. Kuitenkin menetetäaäan vapausasteita, minkäa seurauksena testien voimakkuus heikkenee. Toisin sanoen testin kyky havaita todellisen poikkeman nollahypoteesista huonontuu. Jos mallissa on useita selittäaviäa muuttujia, saattaa jotkin niistäa olla läahes lineaarisesti riippuvia keskenäaäan. TÄallÄaista ominaisuutta sanotaan multikollineaarisuudeksi. Esim. Olkoon E t (expenditure) auton (Toyota Mark II) ylläapitokulut yhteensäa hetkelläat,m t (milage) ajetut mailit ja A t (age) ikäa. Tarkastellaan malleja Malli A: Malli B: Malli C: E t = A t + u 1t E t = M t + u 2t E t = M t + 2 A t + u 3t

23 Estimontituloksina saatiin (t-arvot suluissa) Muuttujat Malli A Malli B Malli C VAKIO (-5.98) (-5.91) (0.06) IKÄA (x 1 ) (22.16) (9.58) MAILIT (x 2 ) (18.27) (-7.06) df ¹R ^ Havaitaan: Ennakko-oletusten mukaan kertoimien ( 1, 2, 1 ja 2 pitäaisi olla positiivisia. Kuitenkin ^ 2 = (!!?), mutta ^ 1 = Nyt r x1,x 2 =0.996! Multikollineaarisuutta on eri asteista. Se on täaydellistäa, jos x 2 = ax 1 + b. TÄallÄoin r 12 = ±1 ja regressiokertoimia ei voida estimoida. Tavallisesti kuitenkin riippuvuus ei ole täaydellistäa. Kahden selittäajäan tapauksessa riippuvuuden aste näahdäaäan suoraan korrelaatiokertoimesta. Useamman selttäajäan tapauksessa yleensäa myäos korrelaatiot ovat suuria. Paremmin kuitenkin se havaitaan tarkastelemalla selitysasteita, jotka saadaan regressoimalla kukin selittäaväa muuttuja vuorollaan muita selittäaviäa muuttujia vastaan

24 Tarkastellaan kahden selittäajäan mallia Y i = + 1 X i1 + 2 X i2 + u i i =1,...,n. sillon var (^ j )= j =1, 2. 2 u (1 r 2 12 ) n i=1 (X ji ¹X j ) 2, TÄaten var (^ ),kun r Toisin sanoen estimaatit käayväat erittäain epäastabiileiksi. Multikollineaarisuuden seurauksia (OLS:ssa) 1. Jos täaydellistäa, niin parametreja ei voida estimoida. 2. Osittaisessa tapauksessa estimaattorit ovat edelleen BLUE. 3. Estimaattoreiden keskivirheet kasvavat ja t-arvot pieneneväat. 4. Estimointitulokset ovat epäastabiileja, minkäa seurauksena kertoimien tulkinta usein vaikeutuu. 5. Ei kovin suurta haittaa ennustamisessa

25 Multikollineaarisuuden havaitseminen Korkea R 2, mutta pienet t-arvot. SelittÄajien korrelaatiot ovat korkeita. Kerroinestimaatit muuttuvat paljon eri mallivaihtoehdoissa. Kuntoisuusluku ja VIF saadaan tulostettua useimmissa regressio-ohjelmissa. ErÄas peukalosäaäantäo on, ettäa jos kuntoisuusluku ylittäaäa 30, niin multikollineaarisuus on vakavaa. Se mikäa muuttuja on eniten kollineaarinen muiden kanssa voidaan havaita VIF-lukujen avulla (suurin). Esim. Ks. Housing Starts. Ratkaisuja R 2 j :t ovat suuria j =1,...,p,jossaR2 j on selitysaste mallista X j = 0 + k =j k X k + v. Poistetaan selittäajiäa tai muodostetaan kollineaarisista muuttujista lineaarikombinaatio. Formaalit testit, kuntoisuusluku (condition coe±cient) tai VIF (= Variance In- ation Factor), jossa VIF(^ j )= 1 1 Rj 2. LisÄatÄaÄan otoskokoa. Tilastotekninen ratkaisu: Harjaestimointi tms. KÄaytetÄaÄan muuta lisäainformaatiota. (MitÄa?)

26 Esim. Housing Starts options ls = 72 nodate; Title ESIMERKKI: Multikollineaarisuus ; Title2 Data ; data housings; infile d:\rawdata\housings.dat firstobs=5; input year housing pop gnp unemp intrate; lhousing = log(housing); lpop = log(pop); lgnp = log(gnp); lunemp = log(unemp); lintrate = log(intrate); run; Title2 Regressiomalli ; proc reg data=housings corr; model lhousing = lpop lgnp lunemp lintrate / tol vif collin; run; Title2 Redusoitu malli ; model lhousing = lgnp lintrate; run; ESIMERKKI: Multikollineaarisuus Regressiomalli Correlation CORR LPOP LGNP LUNEMP LINTRATE LHOUSING LPOP LGNP LUNEMP LINTRATE LHOUSING Model: MODEL1 Dependent Variable: LHOUSING Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP LPOP LGNP LUNEMP LINTRATE

27 Variance Variable DF Tolerance Inflation INTERCEP LPOP LGNP LUNEMP LINTRATE Collinearity Diagnostics Condition Var Prop Var Prop Var Prop Var Prop Number Eigenvalue Index INTERCEP LPOP LGNP LUNEMP E Number Var Prop LINTRATE Model: MODEL2 Dependent Variable: LHOUSING ESIMERKKI: Multikollineaarisuus 3 Redusoitu malli Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP LGNP LINTRATE

28 4.4 Poikkeavat havainnot (Outliers) Joskus regressioestimaatteihin vaikuttaa voimakkaasti vain muutama poikkeava havainto. Residuaalien tarkastelulla voidaan yleensäa paikantaa näamäa poikkeamat. Poikkeavalla havainnolla tarkoitetaan havaintoa, joka on "kaukana" muusta joukosta. [Painovirhe, poikkeava olosuhde (Äoljykriisi, sota, lakko)]. Kuitenkaan kaikki muusta joukosta erilläaäan olevat havainnot eiväat ole outliereita. Havaintoa sanotaan vaikuttavaksi In uential, jos pieni muutos siinäa aiheuttaa merkittäaväan muutksen regressioestimaateissa. Outliereita ja vaikuttavia havaintoja voidaan paikantaa graa sesti tai sopivilla tunnusluvuilla. X-muuttujien havainnoissa olevia outliereita mitataan usein vipu- (leverage) tunnusluvuilla. TÄallainen on esimerkiksi ns. hattu matriisin (hat matrix) H diagonaalialkio. Tarkstellaan regressiomallia matriisimuodossa y = X + u, jolloin -vektorin OLS-estimaattori on ja ^ =(X X) 1 X y ^y = X^ = X(X X) 1 X y = Hy

29 Matriisia H = X(X X) 1 X =(h ij ) sanotaan hattumatriisksi. Diagonaalialkiolla h ii = x i (X X) 1 x i sanotaan vivuksi (leverage). Suuri h ii :n arvo tarkoittaa, ettäa kyseiselläa havainnolla on potentiaalisesti suuri vaikutus yksittäaisenäa havaintona estimointituloksiin. TÄallaiset tapaukset on syytäa tutkia tarkemmin. Y -muuttujan havaintojen outliereita voidaan paikantaa tarkastelemalla residuaaleja. KÄayttÄokelpoisia ovat studentisoidut residuaalit e ~e i = i ^ (i), 1 h ii jossa ^ (i) on residuaalien keskihajonta estimoituna ilman havaintoa i. Jos ~e i > 2, on kysymyksessäa potentiaalinen outlier, jota on syytäa tarkstellaläahemmin. Huom. n i=1 h ii = p + 1 (estimoitujen kertoimien lukumäaäaräa) ja 1/n < h ii < 1. PeukalosÄaÄantÄonÄa on,ettäa h ii :n arvot > 2(p +1)/n, jossa n on havaintojen lukumäaäaräa ja p selittäavien muuttujien lukumäaäaräa regressiomallissa, on syytäa tutkiatarkemmin

30 DFFITS i tunnusluku mittaa kunkin yksittäaisen havainnon vaikutusta ^y i :hin DFFITS i = ^y i ^y(i) ^ (i), h ii jossa ^y(i) on estimoitu ilman havaintoa i. DFBETAS j -luku mittaa puolestaan havainnon i vaikutusta regressiokertoimen j estimaattiin. DFBETAS j = ^ j ^ j (i) ^ (i), c jj jossa ^ j (i) on j :n estimaatti kun havainto i on poistettu (j =1,...,p, i =1,...,n)jac jj on matriisin (X X) 1 j:s diagonaalialkio. Molemmissa tapauksissa itseisarvoltaan kakkosta suurempia arvoja vastaavat havainnot on syytäa tutkia tarkemmin. Belsley, Kuh ja Welsh (1980) (Regresion Diagnostics, Wiley: New York) ehdottavat kuitenkin huomattavasti tiukempia rajoja siten, ettäa tapaukset joissa ja/tai DFFITS i > 2 (p +1)/n DFBETAS j > 2/ n olisi syytäa tarkastella läahemmin (size adjusted cuto s)

31 Yleinen tapa on, ettäa poikkeava havinto poistetaan. Kuitenkin, jos läoytyy luonnollinen selitys poikkeamalle, niin se voidaan korjata tai muuten huomioida mallissa (esim dummy muuttujan avulla). Esim. Simuloitu aineisto Y = X + u. Estimointitulokset ilman poikkeavaa havaintoa X Y SUMMARY OUTPUT Regression Statistics Multiple R R Square Adjusted R Standard E Observatio ANOVA df SS MS F Regression Residual Total Coefficientstandard Err t Stat P-value Intercept E X E RESIDUAL OUTPUT ObservationPredicted YResiduals Y X Line Fit Plot X X Residual Plot 2.0 Residuals X

32 Estimointitulokset, kun aineistossa poikkeava havainto. X Y SUMMARY OUTPUT Regression Statistics Multiple R R Square Adjusted R Standard E Observatio ANOVA 3 13 df SS MS F p-val 5 13 Regression Residual Total Coefficientstandard Err t Stat P-value 7 17 Intercept E X RESIDUAL OUTPUT ObservationPredicted YResiduals X Line Fit Plot X Y Residuals X Residual Plot X proc reg; TITLE Poikkeavien havaintojen diagnostiikkaa ; model y = x / influence; run; TULOKSET: DFFITS ja DFFBETAS: Poikkeavien havaintojen diagnostiikkaa Model: MODEL1 Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP X

33 Hat Diag Cov INTERCEP X Obs Residual Rstudent H Ratio Dffits Dfbetas Dfbetas Esim. (Housing data) Sum of Residuals 0 Sum of Squared Residuals Predicted Resid SS (Press) Malli PRICE PRICE = log(sqf) + u LSQF

34 Regressiotulokset Poikkeavien havaintojen tarkastelua asuntojen pinta-ala/hinta aineistossa Model: MODEL1 Dependent Variable: PRICE Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T Hat Diag Cov INTERCEP LSQF Obs Residual Rstudent H Ratio Dffits Dfbetas Dfbetas Sum of Residuals 0 Sum of Squared Residuals Predicted Resid SS (Press) INTERCEP LSQF

35 4.5 Spesi kaatiotestit Outlierit kertovat aina, ettäa mallissa on jotain puutteellisuuksia. EpÄalineaarisuus, poisjäatetyt selittäajäat, tms. Jos poisjäatetyistäa muuttujista on havaintoja, niin ongelmaa ei ole merkitsevyyden testaamisessa. Joskus voidaan myäos käayttäaäa korvikemuuttujia, jos selittäajäastäa ei saada havaintoja. EpÄalineaarisuutta voidaan testata esimerkiksi ns. RESET-testillÄa (Ramsey, 1969). 1. Laske y:n regressio x:n suhteen 2. Regressoi y x:n, ^y 2 :n, ^y 3 :n ja ^y 4 :n suhteen ja testaa ovatko ^y:n potenssien regressiokertoimet nollia (F -testi). Esim. Hinta/Pinta-ala. SAS Kaskyjono: TITLE Testataan RESET-testill mahdollista epalineaarisuutta ; TITLE2 Testaamisessa voidaan kytt SAS AUTOREG proceduuria ; Proc Autoreg; model Price = LSQF / RESET; run; TULOKSET: Testataan RESET-testill mahdollista epalineaarisuutta Testaamisessa voidaan kayttaa SAS AUTOREG proceduuria Dependent Variable = PRICE Autoreg Procedure Ordinary Least Squares Estimates SSE DFE 12 MSE Root MSE SBC AIC Reg Rsq Total Rsq Durbin-Watson Ramsey s RESET Test Power RESET Prob>F Variable DF B Value Std Error t Ratio Approx Prob Intercept LSQF