3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa

3. Useamman selittäajäan regressiomalli p-selittäaväaäa muuttujaa Y i = + 1 X i1 +...+ p X ip + u i i = 1,...,n (> p), missäa n = havaintojen lukumäaäaräa otoksessa. Oletukset kuten aiemmin: (1) E(u i )=0, i (2) Var(u i )=u, 2 i (3) Cov(u i,u j )=0, i = j (4) Cov(X ij,u i )=0, i, j (5) X-muuttujat eiväat saa olla lineaarisesti riippuvia Derivoimalla yhtäaläo X ij :n suhteen saadaan Y i = j, X ij j =1,...,p,joten j :n tulkinta on: Y i muuttuu j :n verran X ij :n muuttuessa yhdelläa yksikäolläa ja muiden muuttujien arvojen pysyessäa ennallaan. Example. In June 1978, California voters approved what is known as Proposition 13 limiting property taxes. This led to substantial and di erential reduction in property taxes, which led to an increase in housing prices. Rosen (1982) (Journal of Political Economy, pp. 191{200) studied the impact of reduction in property taxes on housing prices in San Francisco Bay Area. Besides property taxes, there are other factors that determine housing prices and these have to be taken into account in the study. Rosen therefore included other characteristics of the house. The variables determining the housing prices were speci ed as x 1 = change (decrease) in post-proposition 13 mean house taxes x 2 = (mean) square footage of house x 3 = median income of families in the area x 4 = mean age of house x 5 = transportation time to San Francisco x 6 = housing-quality index as computed by real estate appraisers The dependent variable was y = change in the post-proportion 13 mean house prices n = 64. The estimated model was ^y =0.171 +7.275x 1 +0.547x 2 +0.00073x 3 + 0.0638x 4 (2.97) (2.32) (1.34) (3.26) 0.0043x 5 +0.857x 6 (2.24) (1.80) R 2 =0.897, tvalues in parentheses. 85 86

All the coe±cients have the expected signs. The coe±cient of x 1 indicates that each $1 decrease in property taxes increases property values of $7. The question is whether this is about the right magnitude. Assuming that the property tax reduction is expected to be at the same level in the future years, the present value of a $1 return per year is 1/r, wherer is the rate of interest (also expected to remain the same). This is equalto $7ifr = 14.29%. The interest rates at that time were around this level and Rosen concludes: The capitalization rate implied by this equation is about 7 which is precisely the magnitude that one would expect with an interest rate of 12{15%. Esimointi tapahtuu OLS:llÄa, jossa minimoidaan residuaalien neliäosumma SSE = n i=1 ^e 2 i = n i=1 kertoimien ^, ^ 1,...,^ p suhteen. (Y i ^^ 1 X i1 ^ p X ip ) 2 Asettamalla osittaisderivaatat nolliksi ja ratkaisemalla saadaan normaaliyhtäaläot. Yi = n^ + ^ 1 Xi1 + + ^ p Xip Yi X i1 = ^ X i1 + ^ 1 X 2 i1 + + ^ p Xi1 X ip. Yi X ip = ^ X ip + ^ 1 Xi1 X ip + + ^ p X 2 ip jossa on p +1 yhtäaläoäa jap + 1 tuntematonta (regressiokertoimet). 87 88

Esitys saadaan huomattavasti kompaktimpaan muotoon kun otetaan käayttäoäon matriisilaskennan merkinnäat Y 1 = + 1 X 11 + + p X 1p + u 1 Y 2 = + 1 X 21 + + p X 2p + u 2. Y n = + 1 X n1 + + p X np + u n, joka voidaan koota matriisiesitykseksi eli Y 1 Y 2. Y n = 1 X 11 X 12... X 1p 1. X 21. X 22.... X 2p. 1 X n1 X n2... X np 1. p + u 1 u 2. u n NormaaliyhtÄalÄot: X y =(X X)ˆ josta :n OLS-estimaattoriksi saadaan jossa ˆ =(X X) 1 X y, ^ = ^ ^ 1 ^ 2. ^ p on p + 1 komponentin vektori. y = X + u. 89 90

3.1 Standardoidut regressiokertoimet RegressioyhtÄalÄossÄa Y i = + 1 X i1 + + p X ip + u i kerroin j edustaa muuttujan X j marginaaliefektiäa. YleensÄa muuttujat ovat erilaisissa mittayksikäoissäa, joten regressiokertoimet eiväat ole suoraan vertailukelpoisia keskenäaäan. Jotta vertailua voitaisiin tehdäa, on kertoimet standardoitava. Standardoimalla muuttujat ensin y i = Y i ¹Y s y x ij = X ij ¹X j, s j jossa s y on Y :n keskihajonta ja s j on X j :n keskihajonta (j = 1,...,p). Estimoimalla kertoimet standardoitujen muuttujien yhtäaläostäa y i = 1 x i1 + 2 x i2 + + px ip + u i, jossa siis j = s j s y j saadaan standardodut kertoimet joita kutsutaan beeta-kertoimiksi. NÄamÄa ovat vertailukelpoisia keskenäaäan. 91 92

Esim. Price ($ 1 000) SQFT BEDRMS BATHS i (Y ) (X 1 ) (X 2 ) (X 3 ) 1 128.5 1219 3 2 2 139.5 1210 4 2.5 3 139.5 1400 4 2 4 152.5 1560 4 2 5 153.0 1846 5 2 6 185.0 2400 5 3 7 209.0 1846 4 2.5 8 211.0 1846 5 2.5 9 214.0 2300 4 3 10 226.0 2230 4 3 11 250.0 2300 5 3 12 259.0 2180 3 2 13 269.9 2527 4 2.5 14 298.0 1968 4 3 Standardoimattomaton regressiomalli P i =60.817 + 0.0866 SQ i 24.577 BE i +31.006 BA i. Standardoitu regressiomalli p i =0.6923 sq i 0.2991 be i +0.2496 ba i. Excel tulostus SUMMARY OUTPUT Regression Statistics Multiple R 0.808 R Square 0.652 Adjusted R 0.548 Standard E 36.636 Observatio 14 ANOVA df SS MS F P-value Regression 3 25159.29 8386.43 6.25 0.012 Residual 10 13421.72 1342.17 Total 13 38581.01 Coeff Std Err t Stat P-value Intercept 60.817 73.922 0.823 0.430 SQFT 0.087 0.029 2.948 0.015 BEDRMS -24.577 16.773-1.465 0.174 Ei tilastollisesti merkitsevä! BATHS 31.005 30.226 1.026 0.329 Ei tilastollisesti merkitsevä! Coefficients SQFT 0.692 BEDRMS -0.299 BATHS 0.250 DATA Price Price SQFT BEDRMS BATHS i ($1000) SQFTEDRMSBATHS 1 128.5 1219 3 2 Mean 202.49 1916.57 4.14 2.50 2 139.5 1210 4 2.5 Standard E 14.56 116.39 0.18 0.12 3 139.5 1400 4 2 Median 210.00 1907.00 4.00 2.50 4 152.5 1560 4 2 Mode 139.50 1846.00 4.00 2.00 5 153 1846 5 2 Standard D 54.48 435.49 0.66 0.44 6 185 2400 5 3 Kurtosis -1.16-1.04-0.31-1.77 7 209 1846 4 2.5 Skewness 0.18-0.41-0.15 0.00 8 211 1846 5 2.5 Range 169.50 1317.00 2.00 1.00 9 214 2300 4 3 Minimum 128.50 1210.00 3.00 2.00 10 226 2230 4 3 Maximum 298.00 2527.00 5.00 3.00 11 250 2300 5 3 Sum 2834.90 26832.00 58.00 35.00 12 259 2180 3 2 Count 14 14 14 14 13 269.9 2527 4 2.5 14 298 1968 4 3 93 94

3.2 Yhteensopivuus 3.3 Hypoteesien testaus Y i = + 1 X i1 + + p X ip + u i R 2 = SSR SST =1 SSE SST. R 2 :n kasvaa tai ei ainakaan pienene, kun malliin lisäatäaäan muuttujia, on niilläa todellista merkitystäa taiei. Haluttaessa "rangaista" turhien muuttujien lisäaäamistäa malliin voidaan käaytäaäa niin sanottuakorjattuaselitysastetta(adjustedr-square, ¹R 2 ) ¹R 2 SSE/(n p 1) =1 SST/(n 1) eli =1 n 1 n p 1 (1R2 ) YksittÄaisten kertoimien testaus t-testisuure: t j = missäa j =1,...,p ja j 0 (usein j 0 =0). Hypoteesit: tai ^ j 0 j s^ j, H 0 : j = j 0 H 1 : j = j 0. on jokin annettu luku jossa s 2 u = 1 n p 1 Esim. (Housing data) ¹R 2 =1 s2 u s 2, y (Yi ^Y i ) 2 ja s 2 y = 1 n 1 (Yi ¹Y ) 2. tai H 0 : j 0 j H 1 : j > 0 j. H 0 : j 0 j H 1 : j < 0 j. 95 96

Esim. (Jatkoa) H 0 : 3 0 H 1 : 3 > 0 t =1.0258 < 1.812 = t.05 (10), joten H 0 jäaäa voimaan ja päaäattelemme, ettäa kylpyhuoneiden lukumäaäaräalläa ei ainakaan täamäan aineiston perusteella ole tilastollisesti merkitseväaäa vaikutusta asunnon hintaan. Samoin on makuuhuoneiden lukumäaäaräan kanssa (etumerkkikin on vastoin oletusta!). Useamman kertoimen samanaikainen testaus (R) Y = + 1 X 1 + + p X p + u (U) Y = + 1 X 1 + + p X p + p+1 X p+1 + + p+m X p+m + v H 0 : p+1 = = p+m =0 H 1 :jokin p+k =0(k =1,...m) Testisuure: F = (SSE R SSE U )/m SSE U /(n p m 1) = SSE R SSE U n p m 1, SSE U m joka noudattaa F -jakaumaa vapausasteilla f 1 = m ja f 2 = n p m 1, jos H 0 on tosi. Huom. Erikoistapauksena on ANOVA-taulun F -testi, joka siis testaa onko milläaäan X-muuttujalla vaikutusta Y -muuttujaan. 97 98

Kertoimien lineaarikombinaatioiden testaus Usein mallin parametrien väalille voidaan mielekkäaäalläa tavalla asettaa rajoitteita. Esim. Kulutusfunktio (makrotalous) C t = 0 + 1 W t + 2 P t + u t, jossa C on kokonaiskulutus, W palkkatulot ja P muut tulot (päaäaomatulot etc). Parametri 1 on palkkatulojen rajakulutusalttius ja 2 muiden tulojen rajakulutusalttius. Samoja? ErÄas tapa: (R) C t = 0 + 1 (W t + P t )+u t = 0 + 1 Y t + u t (U) C t = 0 + 1 W t + 2 P t + u t, jossa Y t = W t + P t. Testisuure F = (SSE R SSE U )/(df R df U ), SSE U /df U joka on nollahypoteesin vallitessa F -jakautunut vapausasteilla df R df U ja df U. H 0 : 1 = 2 H 1 : 1 = 2 Testaus voidaan toteuttaa useammalla eri tavalla, jotka kuitenkin johtavat samaan lopputulokseen. 99 100

Esim. USA Data. CONS (C t ): Real consumption expenditures in billions of 1982 dollars GNP (Y t ): Real gross national product in billions of 1982 dollars WAGES: Total compensation of employees (wages, salaries, and supplements) in billions of current dollars. PRDEFL: Implicit price de ator for consumption, 1982 = 100 (this is a price index for consumption goods) Reaalipalkat ja muut tulot: W t = 100 WAGES t PRDEFL t P t = Y t W t. USA Consumption Data Annual Data on Consumption, GNP, Wage Bill, and Prices Ramu Ramanathan (1992). Introductory Econometrics with Applications, 2nd Edition, pp.215-216. Year CONS GNP WAGES PRDEFL W P 1948 681.8 1108.7 142.1 25.7 552.9 555.8 1949 695.4 1109.0 142.0 25.6 554.7 554.3 1950 733.2 1203.7 155.4 26.2 593.1 610.6 1951 748.7 1328.2 181.6 27.8 653.2 675.0 1952 771.4 1380.0 196.3 28.4 691.2 688.8 1953 802.5 1435.3 210.4 29.0 725.5 709.8 1954 822.7 1416.2 209.4 29.1 719.6 696.6 1955 873.8 1494.9 225.9 29.5 765.8 729.1 1956 899.8 1525.6 244.7 30.1 813.0 712.6 1957 919.7 1551.1 257.8 31.0 831.6 719.5 1958 932.9 1539.2 259.8 31.6 822.2 717.0 1959 979.4 1629.1 281.2 32.3 870.6 758.5 1960 1005.1 1665.3 296.7 32.9 901.8 763.5 1961 1025.2 1708.7 305.6 33.3 917.7 791.0 1962 1069.0 1799.4 327.4 33.9 965.8 833.6 1963 1108.4 1873.3 345.5 34.4 1004.4 868.9 1964 1170.6 1973.3 371.0 35.0 1060.0 913.3 1965 1236.4 2087.6 399.8 35.6 1123.0 964.6 1966 1298.9 2208.3 443.0 36.7 1207.1 1001.2 1967 1337.7 2271.4 475.5 37.6 1264.6 1006.8 1968 1405.9 2365.6 524.7 39.3 1335.1 1030.5 1969 1456.7 2423.3 578.4 41.0 1410.7 1012.6 1970 1492.0 2416.2 618.3 42.9 1441.3 974.9 1971 1538.8 2484.8 659.4 44.9 1468.6 1016.2 1972 1621.9 2608.5 726.2 46.7 1555.0 1053.5 1973 1689.6 2744.1 812.8 49.6 1638.7 1105.4 1974 1674.0 2729.3 891.3 54.8 1626.5 1102.8 1975 1711.9 2695.0 948.7 59.2 1602.5 1092.5 1976 1803.9 2826.7 1057.9 62.6 1689.9 1136.8 1977 1883.8 2958.6 1176.6 66.7 1764.0 1194.6 1978 1961.0 3115.2 1329.2 71.6 1856.4 1258.8 1979 2004.4 3192.4 1491.4 76.2 1957.2 1235.2 1980 2004.4 3187.1 1638.2 86.6 1891.7 1295.4 1981 2024.2 3248.8 1807.4 94.6 1910.6 1338.2 1982 2050.7 3166.0 1907.0 100.0 1907.0 1259.0 1983 2146.0 3279.1 2020.7 103.9 1944.9 1334.2 1984 2249.3 3501.4 2213.9 107.7 2055.6 1445.8 1985 2354.8 3618.7 2367.5 110.9 2134.8 1483.9 1986 2446.4 3717.9 2511.4 113.8 2206.9 1511.0 1987 2513.7 3853.7 2690.0 117.4 2291.3 1562.4 1988 2598.4 4024.4 2907.6 121.3 2397.0 1627.4 1989 2668.5 4142.6 3145.4 126.3 2490.4 1652.2 101 102

Scatter Plots Regression Results Scatter plotofconsum ption vs W Consum ption (C) 3000 2500 2000 1500 1000 500 UNRESTRICTED MODEL Regression Statistics Multiple R 0.998 R Square 0.996 Adjusted R Square 0.996 Standard Error 36.8 Observations 42 ANOVA df SS MS F Significance F Regression 2 14502298 7251149 5357 0.0000 Residual 39 52790 1354 Total 41 14555088 Coefficients Standard Error t Stat P-value Intercept -107.283 40.319-2.66 0.011 W 0.743 0.068 10.90 0.000 P 0.560 0.127 4.42 0.000 Consum ption (C) 0 0 500 1000 1500 2000 2500 3000 Wage (W ) Scatter PlotofConsum ption on P 3000 2500 2000 1500 1000 500 RESTRICTED MODEL Regression Statistics Multiple R 0.998 R Square 0.996 Adjusted R Square 0.996 Standard Error 36.7 Observations 42 ANOVA df SS MS F Significance F Regression 1 14501103.61 14501103.61 10745 3.04788E-50 Residual 40 53984 1350 Total 41 14555087.79 Coefficients Standard Error t Stat P-value Intercept -141.74126 16.69522003-8.489930536 1.7346E-10 GNP 0.67953082 0.006555592 103.6566709 3.0479E-50 Test for H 0 : 1 = 2 F df p-value 0.88 1, 39 0.353 Ei ole tilastollisesti merkitsevä, täten H 0 jää voimaan eli kulutusalttiudet eivät poikkea toisistaan 0 0 200 400 600 800 1000 1200 1400 1600 1800 Other incom e (P) 103 104

Regressioestimaatit: (R) (U) ^C t = 141.74 + 0.680Y t ^C t = 107.28 + 0.743W t +0.560P t SSE R = 53 984 SSE U = 52 790 (53984 52790)/1 F = 0.88 52790/39 F -jakauman taulukosta F 1,39 (.05) = 4.09 > 0.88 = F, joten H 0 : 1 = 2 (samat rajakulutusalttiudet) hyväaksytäaäan. TÄaten päaäadymme tulokseen, ettäa päaäaomatulojen ja palkkatuilojen rajakulutusalttiudet ovat samat. Sama SAS-ohjelman Reg-proceduurilla SAS-Ajojono options ls = 80 ps = 80; data usacons; infile d:\rawdata\usaconsu.dat firstobs=5; input Year CONS GNP WAGES PRDEFL W P; proc reg; model cons = w p; equality: test w-p=0; run; Tulokset: Model: MODEL1 Dependent Variable: CONS Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model 2 14502299.325 7251149.6623 5357.133 0.0001 Error 39 52788.46613 1353.55041 C Total 41 14555087.791 Root MSE 36.79063 R-square 0.9964 Dep Mean 1486.02143 Adj R-sq 0.9962 C.V. 2.47578 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP 1-107.258308 40.31842945-2.660 0.0113 W 1 0.743301 0.06816597 10.904 0.0001 P 1 0.560389 0.12693140 4.415 0.0001 105 Test: EQUALITY Numerator: 1195.7169 DF: 1 F value: 0.8834 Denominator: 1353.55 DF: 39 Prob>F: 0.3531 106

Yleistys: y = X + u. Parametrien väalille asetetut (lineaariset) rajoitteet voidaan esittäaäa yleisessäa muodossa H 0 : C =0, jossa C on r (p +1) matriisi, missäa r on rajoitteiden lukumäaäaräa. Esim. EdellÄa Huom. df 1 = r. 0 1 1 0 1 2 =0. Esim. Cobb-Douglas tuotantofunktio Q t = ckt L t, jossa Q on tuotanto, K päaäaoma käayttäotunteina ja L tyäovoima tyäotunteina. Logaritmoimalla ja lisäaäamäalläa residuaalitermi saadaan lineaarinen ekonometrinen malli ln Q t = 0 + ln K t + ln L t + u t. Parametrit ja voidaan osoittautuvat joustoiksi, silläa = K Q ln Q = Q K ln K ja = L Q Q L = ln Q ln L. 107 108

Havaitaan, esim. jos K 2K ja L 2L, niin Q 1 = c(2k) (2L) =2 + Q. (a) + =1 vakiot skaalatutot + < 1 laskevat skaalatutot + > 1 kasvavat skaalatuotot (b) = sama rajattuottavuus päaäaomallajatyäovoimalla. Vakioiden skaalatuottojen ( + = 1) testaamiseksi malli voidaan kirjoittaa muotoon ln Q t = 0 + (ln K t ln L t )+( + )lnl t + u t eli merkitsemäalläa Y t =lnq t, X 1t =lnk t ln L t, X 2t = ln L t ja 2 = +, saadaan Y t = 0 + X 1t + 2 X 2t + u 2. Vakioiden skaalatuottojen testaamiseksi testataan siis hypoteesia H 0 : 2 = 1 (vastahypoteesina H 1 : 2 =1). Testaus t-testilläa t = ^ 2 1 t(n 3), s^ 2 kun H 0 on tosi. 109 110

Yhdysvaikutus 3.4 Mallin täasmennysvirhe (Spesi ointivirhe) Esim. Kulutusfunktio C t = + Y t + u t. Joskus oletetaan, ettäa rajakulutusalttius riippuu varallisuudesta. Esimerkiksi, jos riippuvuus on lineaarista, siten ettäa = 1 + 2 A, jossa A ilmaisee varallisuutta. Silloin C t = + Y t + u t = + 1 Y t + 2 (Y t A t )+u t Testattava hypoteesi täalläoin on Mallin täasmennysvirheen syitäa voivatolla: muuttujien valinta funktion muoto jäaäannäostermin jakaumaominaisuudet H 0 : 2 =0. Jos H 0 hyläatäaäan on saatu evidenssiäa, ettäa varallisuus vaikuttaa rajakulutusalttiuteen. 111 112

Tarkastellaan täassäa vain muuttujien valintaa Oletetaan, ettäa oikea malli on muotoa Y i = 0 + 1 X i1 + 2 X i2 + u i, mutta estimoidaankin "liian lyhyt" malli Y i = 0 + 1 X i1 + v i, jossa itse asiassa v i = u i + 2 X i2 (i =1,...,n). TÄallÄoin voidaan helposti osoittaa, ettäa jossa ja s 12 = 1 n 1 s E(^ 1 )= 1 + 12 2 s 2, 2 s 2 2 = 1 n 1 n (X i1 ¹X 1 )(X i2 ¹X 2 ) i=1 n (X i2 ¹X 2 ) 2. i=1 TÄaten, jos s 12 =0on ^ 1 harhainen, eikäa se enäaäa kuvaax 1 :n marginaaliefektiäa, vaan X 1 suoraajaepäasuoraa vaikutusta (X 2 :n kautta). Jos taas estimoidaan "liian pitkäa" malli Y i = 0 + 1 X i1 + 2 X i2 + 3 X i3 + u i, jossa siis todellisuudessa 3 = 0, niin E (^ 1 )= 1, E(^ 2 )= 2 ja E (^ 3 ) = 0. Estimaattorit ovat siis harhattomia, mutta voidaan kuitenkin osoittaa, ettäa estimaattoreiden varianssit ovat suurempia kuin oikein täasmennetyn mallin. SiispÄa estimoinnin tarkkuus käarsii. 113 114

3.5 ViivÄastetyt muuttujat 3.6 Dummy muuttujat Taloudessa vaikutukset näakyväat usein viipeelläa Kaksi luokkaa Esim. Y t = + 1 G t + 2 G t1 + 3 M t + 4 M t1 + 5 T t + 6 T t1 + 7 X t + 8 X t1 + u t jossa Y on kansantulo, G julkinen kulutus, T verot, M rahan tarjonta ja X vienti. Estimointivaiheessa käaytettäavissäa on havainnot t =2, 3,... Viivemalleissa selittäajäanäa voi olla myäos selitetty muuttuja viiväastettynäa, esim. Y t = + 1 Y t1 + 2 X t + u t. Dummy- eli keinomuuttujien avulla voidaan selittäaviksi muutujiksi valita myäos kvalitatiivisia tekijäoitäa. Esim. Housing Data 1, asunnossa on uima-allas D = 0, asunnossa ei ole uima-allasta. Aiemmin esitimoitu parhaiten sopiva malli oli muotoa PRICE = + ln(sqft) + u. Jos uima-allas vaikuttaa vain hintatasoon, niin = 0 + 1 D. TÄallÄoin PRICE = 0 + 1 D + ln(sqft) + u. 115 116

Jos altaallisten hinnan ja pinta-alan suhde on erilainen kuin altaattomien, niin = 1 + 2 D,jolloin PRICE = + 1 ln(sqft)+ 1 (D ln(sqft))+u. Kolmas vaihtoehto on, ettäa se vaikuttaa molempiin, jolloin = 0 + 1 D ja = 1 + 2 D. PRICE = 0 + 1 D + 1 ln(sqft) + 2 (D ln(sqft)) + u. Huom. Viimeinen malli on itse asiassa kaksi erillistäa regressiota. SillÄa erotuksella kuitenkin, ettäa jäaäannäostermienvarianssitovatsamat! Esim. House price data. Price ($1 000) SQFT BEDRMS BATHS POOL i (Y ) (X 1 ) (X 2 ) (X 3 ) (X 4 ) 1 128.5 1219 3 2 0 2 139.5 1210 4 2.5 0 3 139.5 1400 4 2 0 4 152.5 1560 4 2 0 5 153.0 1846 5 2 0 6 185.0 2400 5 3 0 7 209.0 1846 4 2.5 0 8 211.0 1846 5 2.5 1 9 214.0 2300 4 3 0 10 226.0 2230 4 3 0 11 250.0 2300 5 3 0 12 259.0 2180 3 2 0 13 269.9 2527 4 2.5 1 14 298.0 1968 4 3 1 117 118

Tarkastellaan malleja Estimointitulokset PRICE = 0 + 1 D + SQFT + u ja PRICE = 0 + 1 D + ln(sqft) + u. Saadaan PRICE = 35.440 + 52.327D + 0.0813SQFT + u (0.898) (2.486) (3.951) R 2 =0.720 s =31.327 F (2, 11) = 14.157 PRICE = 910.791 + 51.292D + 146.35LNSQFT + u (3.388) (2.480) (4.854) R 2 =0.731 s =30.709 F (2, 11) = 14.955 Price i ($1000) POOL SQFT DSQFT 1 128.5 0 1219 0 2 139.5 0 1210 0 3 139.5 0 1400 0 4 152.5 0 1560 0 5 153.0 0 1846 0 6 185.0 0 2400 0 7 209.0 0 1846 0 8 211.0 1 1846 1846 9 214.0 0 2300 0 10 226.0 0 2230 0 11 250.0 0 2300 0 12 259.0 0 2180 0 13 269.9 1 2527 2527 14 298.0 1 1968 1968 SUMMARY OUTPUT Regression Statistics Multiple R 0.849 R Square 0.720 Adjusted R Squ 0.669 Standard Error 31.327 Observations 14 ANOVA df SS MS F P-Value Regression 2 27786.140 13893.070 14.157 0.001 Residual 11 10794.869 981.352 Total 13 38581.009 Coefficients Standard Error t Stat P-value Intercept 35.440 39.483 0.898 0.389 POOL 52.327 21.047 2.486 0.030 SQFT 0.081 0.021 3.951 0.002 SUMMARY OUTPUT Regression Statistics Multiple R 0.839 R Square 0.704 Adjusted R Squ 0.651 Standard Error 32.203 Observations 14 ANOVA df SS MS F P-Value Regression 2 27173.359 13586.679 13.101 0.001 Residual 11 11407.650 1037.059 Total 13 38581.009 Coefficients Standard Error t Stat P-value Intercept 39.614 40.918 0.968 0.354 SQFT 0.079 0.021 3.702 0.003 DSQFT 0.024 0.010 2.293 0.043 119 120

Havaitaan Useampiluokkaiset kvalitatiiviset muuttujat Selitysaste paranee molemmissa tapauksissa huomattavasti Dummy muuttujat ovat tilastollisesti merkitseviäa Perusmallissa 52.327 tarkoittaa, ettäa uimaallas nostaa asunnon hintaa keskimäaäarin $52 327 (kallis!!) Log-mallissa tilanne on likipitäain sama, eli uima-allas nostaa asunnon hintaa keskimäaäarin $51 292. Kotitalouksien säaäastäamiskäayttäaytyminen S = + X + u, jossa S =säaäastäaminen ja X = tulot. Ilmeisesti kotitalouden ikäa vaikuttaa myäos. Oletetaan, ettäa käaytettäavissäa onperheenpäaäan ikäaluokka alle 25, 25{55 ja yli 55. IkÄa korvataan täalläoin dummy-muuttujilla siten, ettäa yksi luokista otetaan referenssiluokaksi ja mäaäaritelläaäan dummy muuttujat kahdelle muulle luokalle. 121 122

Esimerkiksi 1 Jos ikäaluokka on 25{55 D 1 = 0 muuten 1 Jos ikäaluokka on yli 55 D 2 = 0 muuten KontrolliryhmÄassÄa ovat kaikki alle 25 vuotiaat, jolloin siis D 1 = D 2 = 0. Malli on tulee muotoon S = 0 + 1 D 1 + 2 D 2 + X + u. Struktuurimuutoksen testaus SelitettÄavÄan ja selittäaväan muuttujan väalisessäa riippuvuudessa voi tapahtua tietylläa hetkelläa muutos Esim. Autojen polttoaineen kulutus. ÄOljykriisit 1974 ja 1979. Muuttuiko kulutusrakenne? Perusmalli ln C = + ln P + ln Y + u, jossa C on polttoaineen kulutus, P hinta ja Y tulot. 1 1974 1. neljäanneksestäa alkaen D 1 = 0 muuten 1 1979 1. neljäanneksestäa alkaen D 2 = 0 muuten. 123 124

Tarkastelussa on siis kolmea periodia: {1973/4, 1974/1{ ja 1979/1{. Jos on eroja, niin = 0 + 1 D 1 + 2 D 2 = 0 + 1 D 1 + 2 D 2 = 0 + 1 D 1 + 2 D 2 Rajoittamaton malli on siis muotoa ln C = 0 + 1 D 1 + 2 D 2 + 0 ln P + 1 Z 1 + 2 Z 2 + 0 ln Y + 1 Z 3 + 2 Z 4 + u jossa Z 1 = D 1 ln P, Z 2 = D 2 ln P, Z 3 = D 1 ln Y ja Z 4 = D 2 ln Y. Testaus: H 0 : 1 = 2 = 1 = 2 = 1 = 2 =0. Testisuureena F -testi kuten aiemmin. MyÄos muita hypoteeseja voidaan helposti johtaa. 125