3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa

Samankaltaiset tiedostot
3. Useamman selittäajäan regressiomalli

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa. Y i = + 1 X i p X ip + u i

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

Regressio-termi peräaisin Galtonilta. IsÄan ja pojan pituus: PitkÄa isäa lyhyempi poika, lyhyt isäa pidempi poika.


A250A0050 Ekonometrian perusteet Tentti

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Capacity Utilization

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Frequencies. Frequency Table

Regressioanalyysi. Vilkkumaa / Kuusinen 1

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

4. Poikkeamat regressio-oletuksista. 4.1 Heteroskedastisuus. Heteroskedastinen: Var(u i )= i kaikilla i. ei ole sama. Y i = + 1 X i1 + + p X ip + u i

Perusnäkymä yksisuuntaiseen ANOVAaan

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista.

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Efficiency change over time

Mat Tilastollisen analyysin perusteet, kevät 2007

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Regressioanalyysi. Kuusinen/Heliövaara 1

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

I. Principles of Pointer Year Analysis

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Testejä suhdeasteikollisille muuttujille

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

4. Poikkeamat regressio-oletuksista. 4.1 Heteroskedastisuus. ei ole sama. Heteroskedastinen: Var(u i )= i kaikilla i. Y i = + 1 X i1 + + p X ip + u i

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Lauri Tarkkonen: Erottelu analyysi

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Väliestimointi (jatkoa) Heliövaara 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs)

HAVAITUT JA ODOTETUT FREKVENSSIT

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MTTTP5, luento Luottamusväli, määritelmä

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

2. Keskiarvojen vartailua

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Todennäköisyyden ominaisuuksia

2. Tietokoneharjoitukset

Toimittaja Erä

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Sovellettu todennäköisyyslaskenta B

812336A C++ -kielen perusteet,

Harha mallin arvioinnissa

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

Other approaches to restrict multipliers

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yleistetyistä lineaarisista malleista

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Mat Tilastollisen analyysin perusteet, kevät 2007

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Harjoitus 9: Excel - Tilastollinen analyysi

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Perhevapaiden palkkavaikutukset

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

19. Statistical Approaches to. Data Variations Tuomas Koivunen S ysteemianalyysin. Laboratorio. Optimointiopin seminaari - Syksy 2007

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Harjoitus 7: NCSS - Tilastollinen analyysi

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Testit järjestysasteikollisille muuttujille

Sovellettu todennäköisyyslaskenta B

Korrelaatiokertoinen määrittely 165

Ekonometria: Tavoite: PerehdyttÄaÄa (empiirisen) ekonometrisen tutkimuksen periaatteisiin, mallintamiseen, tekniikkaan ja käaytäannäon toteuttamiseen.

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

805306A Johdatus monimuuttujamenetelmiin, 5 op

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Transkriptio:

3. Useamman selittäajäan regressiomalli p-selittäaväaäa muuttujaa Y i = + 1 X i1 +...+ p X ip + u i i = 1,...,n (> p), missäa n = havaintojen lukumäaäaräa otoksessa. Oletukset kuten aiemmin: (1) E(u i )=0, i (2) Var(u i )=u, 2 i (3) Cov(u i,u j )=0, i = j (4) Cov(X ij,u i )=0, i, j (5) X-muuttujat eiväat saa olla lineaarisesti riippuvia Derivoimalla yhtäaläo X ij :n suhteen saadaan Y i = j, X ij j =1,...,p,joten j :n tulkinta on: Y i muuttuu j :n verran X ij :n muuttuessa yhdelläa yksikäolläa ja muiden muuttujien arvojen pysyessäa ennallaan. Example. In June 1978, California voters approved what is known as Proposition 13 limiting property taxes. This led to substantial and di erential reduction in property taxes, which led to an increase in housing prices. Rosen (1982) (Journal of Political Economy, pp. 191{200) studied the impact of reduction in property taxes on housing prices in San Francisco Bay Area. Besides property taxes, there are other factors that determine housing prices and these have to be taken into account in the study. Rosen therefore included other characteristics of the house. The variables determining the housing prices were speci ed as x 1 = change (decrease) in post-proposition 13 mean house taxes x 2 = (mean) square footage of house x 3 = median income of families in the area x 4 = mean age of house x 5 = transportation time to San Francisco x 6 = housing-quality index as computed by real estate appraisers The dependent variable was y = change in the post-proportion 13 mean house prices n = 64. The estimated model was ^y =0.171 +7.275x 1 +0.547x 2 +0.00073x 3 + 0.0638x 4 (2.97) (2.32) (1.34) (3.26) 0.0043x 5 +0.857x 6 (2.24) (1.80) R 2 =0.897, tvalues in parentheses. 85 86

All the coe±cients have the expected signs. The coe±cient of x 1 indicates that each $1 decrease in property taxes increases property values of $7. The question is whether this is about the right magnitude. Assuming that the property tax reduction is expected to be at the same level in the future years, the present value of a $1 return per year is 1/r, wherer is the rate of interest (also expected to remain the same). This is equalto $7ifr = 14.29%. The interest rates at that time were around this level and Rosen concludes: The capitalization rate implied by this equation is about 7 which is precisely the magnitude that one would expect with an interest rate of 12{15%. Esimointi tapahtuu OLS:llÄa, jossa minimoidaan residuaalien neliäosumma SSE = n i=1 ^e 2 i = n i=1 kertoimien ^, ^ 1,...,^ p suhteen. (Y i ^^ 1 X i1 ^ p X ip ) 2 Asettamalla osittaisderivaatat nolliksi ja ratkaisemalla saadaan normaaliyhtäaläot. Yi = n^ + ^ 1 Xi1 + + ^ p Xip Yi X i1 = ^ X i1 + ^ 1 X 2 i1 + + ^ p Xi1 X ip. Yi X ip = ^ X ip + ^ 1 Xi1 X ip + + ^ p X 2 ip jossa on p +1 yhtäaläoäa jap + 1 tuntematonta (regressiokertoimet). 87 88

Esitys saadaan huomattavasti kompaktimpaan muotoon kun otetaan käayttäoäon matriisilaskennan merkinnäat Y 1 = + 1 X 11 + + p X 1p + u 1 Y 2 = + 1 X 21 + + p X 2p + u 2. Y n = + 1 X n1 + + p X np + u n, joka voidaan koota matriisiesitykseksi eli Y 1 Y 2. Y n = 1 X 11 X 12... X 1p 1. X 21. X 22.... X 2p. 1 X n1 X n2... X np 1. p + u 1 u 2. u n NormaaliyhtÄalÄot: X y =(X X)ˆ josta :n OLS-estimaattoriksi saadaan jossa ˆ =(X X) 1 X y, ^ = ^ ^ 1 ^ 2. ^ p on p + 1 komponentin vektori. y = X + u. 89 90

3.1 Standardoidut regressiokertoimet RegressioyhtÄalÄossÄa Y i = + 1 X i1 + + p X ip + u i kerroin j edustaa muuttujan X j marginaaliefektiäa. YleensÄa muuttujat ovat erilaisissa mittayksikäoissäa, joten regressiokertoimet eiväat ole suoraan vertailukelpoisia keskenäaäan. Jotta vertailua voitaisiin tehdäa, on kertoimet standardoitava. Standardoimalla muuttujat ensin y i = Y i ¹Y s y x ij = X ij ¹X j, s j jossa s y on Y :n keskihajonta ja s j on X j :n keskihajonta (j = 1,...,p). Estimoimalla kertoimet standardoitujen muuttujien yhtäaläostäa y i = 1 x i1 + 2 x i2 + + px ip + u i, jossa siis j = s j s y j saadaan standardodut kertoimet joita kutsutaan beeta-kertoimiksi. NÄamÄa ovat vertailukelpoisia keskenäaäan. 91 92

Esim. Price ($ 1 000) SQFT BEDRMS BATHS i (Y ) (X 1 ) (X 2 ) (X 3 ) 1 128.5 1219 3 2 2 139.5 1210 4 2.5 3 139.5 1400 4 2 4 152.5 1560 4 2 5 153.0 1846 5 2 6 185.0 2400 5 3 7 209.0 1846 4 2.5 8 211.0 1846 5 2.5 9 214.0 2300 4 3 10 226.0 2230 4 3 11 250.0 2300 5 3 12 259.0 2180 3 2 13 269.9 2527 4 2.5 14 298.0 1968 4 3 Standardoimattomaton regressiomalli P i =60.817 + 0.0866 SQ i 24.577 BE i +31.006 BA i. Standardoitu regressiomalli p i =0.6923 sq i 0.2991 be i +0.2496 ba i. Excel tulostus SUMMARY OUTPUT Regression Statistics Multiple R 0.808 R Square 0.652 Adjusted R 0.548 Standard E 36.636 Observatio 14 ANOVA df SS MS F P-value Regression 3 25159.29 8386.43 6.25 0.012 Residual 10 13421.72 1342.17 Total 13 38581.01 Coeff Std Err t Stat P-value Intercept 60.817 73.922 0.823 0.430 SQFT 0.087 0.029 2.948 0.015 BEDRMS -24.577 16.773-1.465 0.174 Ei tilastollisesti merkitsevä! BATHS 31.005 30.226 1.026 0.329 Ei tilastollisesti merkitsevä! Coefficients SQFT 0.692 BEDRMS -0.299 BATHS 0.250 DATA Price Price SQFT BEDRMS BATHS i ($1000) SQFTEDRMSBATHS 1 128.5 1219 3 2 Mean 202.49 1916.57 4.14 2.50 2 139.5 1210 4 2.5 Standard E 14.56 116.39 0.18 0.12 3 139.5 1400 4 2 Median 210.00 1907.00 4.00 2.50 4 152.5 1560 4 2 Mode 139.50 1846.00 4.00 2.00 5 153 1846 5 2 Standard D 54.48 435.49 0.66 0.44 6 185 2400 5 3 Kurtosis -1.16-1.04-0.31-1.77 7 209 1846 4 2.5 Skewness 0.18-0.41-0.15 0.00 8 211 1846 5 2.5 Range 169.50 1317.00 2.00 1.00 9 214 2300 4 3 Minimum 128.50 1210.00 3.00 2.00 10 226 2230 4 3 Maximum 298.00 2527.00 5.00 3.00 11 250 2300 5 3 Sum 2834.90 26832.00 58.00 35.00 12 259 2180 3 2 Count 14 14 14 14 13 269.9 2527 4 2.5 14 298 1968 4 3 93 94

3.2 Yhteensopivuus 3.3 Hypoteesien testaus Y i = + 1 X i1 + + p X ip + u i R 2 = SSR SST =1 SSE SST. R 2 :n kasvaa tai ei ainakaan pienene, kun malliin lisäatäaäan muuttujia, on niilläa todellista merkitystäa taiei. Haluttaessa "rangaista" turhien muuttujien lisäaäamistäa malliin voidaan käaytäaäa niin sanottuakorjattuaselitysastetta(adjustedr-square, ¹R 2 ) ¹R 2 SSE/(n p 1) =1 SST/(n 1) eli =1 n 1 n p 1 (1R2 ) YksittÄaisten kertoimien testaus t-testisuure: t j = missäa j =1,...,p ja j 0 (usein j 0 =0). Hypoteesit: tai ^ j 0 j s^ j, H 0 : j = j 0 H 1 : j = j 0. on jokin annettu luku jossa s 2 u = 1 n p 1 Esim. (Housing data) ¹R 2 =1 s2 u s 2, y (Yi ^Y i ) 2 ja s 2 y = 1 n 1 (Yi ¹Y ) 2. tai H 0 : j 0 j H 1 : j > 0 j. H 0 : j 0 j H 1 : j < 0 j. 95 96

Esim. (Jatkoa) H 0 : 3 0 H 1 : 3 > 0 t =1.0258 < 1.812 = t.05 (10), joten H 0 jäaäa voimaan ja päaäattelemme, ettäa kylpyhuoneiden lukumäaäaräalläa ei ainakaan täamäan aineiston perusteella ole tilastollisesti merkitseväaäa vaikutusta asunnon hintaan. Samoin on makuuhuoneiden lukumäaäaräan kanssa (etumerkkikin on vastoin oletusta!). Useamman kertoimen samanaikainen testaus (R) Y = + 1 X 1 + + p X p + u (U) Y = + 1 X 1 + + p X p + p+1 X p+1 + + p+m X p+m + v H 0 : p+1 = = p+m =0 H 1 :jokin p+k =0(k =1,...m) Testisuure: F = (SSE R SSE U )/m SSE U /(n p m 1) = SSE R SSE U n p m 1, SSE U m joka noudattaa F -jakaumaa vapausasteilla f 1 = m ja f 2 = n p m 1, jos H 0 on tosi. Huom. Erikoistapauksena on ANOVA-taulun F -testi, joka siis testaa onko milläaäan X-muuttujalla vaikutusta Y -muuttujaan. 97 98

Kertoimien lineaarikombinaatioiden testaus Usein mallin parametrien väalille voidaan mielekkäaäalläa tavalla asettaa rajoitteita. Esim. Kulutusfunktio (makrotalous) C t = 0 + 1 W t + 2 P t + u t, jossa C on kokonaiskulutus, W palkkatulot ja P muut tulot (päaäaomatulot etc). Parametri 1 on palkkatulojen rajakulutusalttius ja 2 muiden tulojen rajakulutusalttius. Samoja? ErÄas tapa: (R) C t = 0 + 1 (W t + P t )+u t = 0 + 1 Y t + u t (U) C t = 0 + 1 W t + 2 P t + u t, jossa Y t = W t + P t. Testisuure F = (SSE R SSE U )/(df R df U ), SSE U /df U joka on nollahypoteesin vallitessa F -jakautunut vapausasteilla df R df U ja df U. H 0 : 1 = 2 H 1 : 1 = 2 Testaus voidaan toteuttaa useammalla eri tavalla, jotka kuitenkin johtavat samaan lopputulokseen. 99 100

Esim. USA Data. CONS (C t ): Real consumption expenditures in billions of 1982 dollars GNP (Y t ): Real gross national product in billions of 1982 dollars WAGES: Total compensation of employees (wages, salaries, and supplements) in billions of current dollars. PRDEFL: Implicit price de ator for consumption, 1982 = 100 (this is a price index for consumption goods) Reaalipalkat ja muut tulot: W t = 100 WAGES t PRDEFL t P t = Y t W t. USA Consumption Data Annual Data on Consumption, GNP, Wage Bill, and Prices Ramu Ramanathan (1992). Introductory Econometrics with Applications, 2nd Edition, pp.215-216. Year CONS GNP WAGES PRDEFL W P 1948 681.8 1108.7 142.1 25.7 552.9 555.8 1949 695.4 1109.0 142.0 25.6 554.7 554.3 1950 733.2 1203.7 155.4 26.2 593.1 610.6 1951 748.7 1328.2 181.6 27.8 653.2 675.0 1952 771.4 1380.0 196.3 28.4 691.2 688.8 1953 802.5 1435.3 210.4 29.0 725.5 709.8 1954 822.7 1416.2 209.4 29.1 719.6 696.6 1955 873.8 1494.9 225.9 29.5 765.8 729.1 1956 899.8 1525.6 244.7 30.1 813.0 712.6 1957 919.7 1551.1 257.8 31.0 831.6 719.5 1958 932.9 1539.2 259.8 31.6 822.2 717.0 1959 979.4 1629.1 281.2 32.3 870.6 758.5 1960 1005.1 1665.3 296.7 32.9 901.8 763.5 1961 1025.2 1708.7 305.6 33.3 917.7 791.0 1962 1069.0 1799.4 327.4 33.9 965.8 833.6 1963 1108.4 1873.3 345.5 34.4 1004.4 868.9 1964 1170.6 1973.3 371.0 35.0 1060.0 913.3 1965 1236.4 2087.6 399.8 35.6 1123.0 964.6 1966 1298.9 2208.3 443.0 36.7 1207.1 1001.2 1967 1337.7 2271.4 475.5 37.6 1264.6 1006.8 1968 1405.9 2365.6 524.7 39.3 1335.1 1030.5 1969 1456.7 2423.3 578.4 41.0 1410.7 1012.6 1970 1492.0 2416.2 618.3 42.9 1441.3 974.9 1971 1538.8 2484.8 659.4 44.9 1468.6 1016.2 1972 1621.9 2608.5 726.2 46.7 1555.0 1053.5 1973 1689.6 2744.1 812.8 49.6 1638.7 1105.4 1974 1674.0 2729.3 891.3 54.8 1626.5 1102.8 1975 1711.9 2695.0 948.7 59.2 1602.5 1092.5 1976 1803.9 2826.7 1057.9 62.6 1689.9 1136.8 1977 1883.8 2958.6 1176.6 66.7 1764.0 1194.6 1978 1961.0 3115.2 1329.2 71.6 1856.4 1258.8 1979 2004.4 3192.4 1491.4 76.2 1957.2 1235.2 1980 2004.4 3187.1 1638.2 86.6 1891.7 1295.4 1981 2024.2 3248.8 1807.4 94.6 1910.6 1338.2 1982 2050.7 3166.0 1907.0 100.0 1907.0 1259.0 1983 2146.0 3279.1 2020.7 103.9 1944.9 1334.2 1984 2249.3 3501.4 2213.9 107.7 2055.6 1445.8 1985 2354.8 3618.7 2367.5 110.9 2134.8 1483.9 1986 2446.4 3717.9 2511.4 113.8 2206.9 1511.0 1987 2513.7 3853.7 2690.0 117.4 2291.3 1562.4 1988 2598.4 4024.4 2907.6 121.3 2397.0 1627.4 1989 2668.5 4142.6 3145.4 126.3 2490.4 1652.2 101 102

Scatter Plots Regression Results Scatter plotofconsum ption vs W Consum ption (C) 3000 2500 2000 1500 1000 500 UNRESTRICTED MODEL Regression Statistics Multiple R 0.998 R Square 0.996 Adjusted R Square 0.996 Standard Error 36.8 Observations 42 ANOVA df SS MS F Significance F Regression 2 14502298 7251149 5357 0.0000 Residual 39 52790 1354 Total 41 14555088 Coefficients Standard Error t Stat P-value Intercept -107.283 40.319-2.66 0.011 W 0.743 0.068 10.90 0.000 P 0.560 0.127 4.42 0.000 Consum ption (C) 0 0 500 1000 1500 2000 2500 3000 Wage (W ) Scatter PlotofConsum ption on P 3000 2500 2000 1500 1000 500 RESTRICTED MODEL Regression Statistics Multiple R 0.998 R Square 0.996 Adjusted R Square 0.996 Standard Error 36.7 Observations 42 ANOVA df SS MS F Significance F Regression 1 14501103.61 14501103.61 10745 3.04788E-50 Residual 40 53984 1350 Total 41 14555087.79 Coefficients Standard Error t Stat P-value Intercept -141.74126 16.69522003-8.489930536 1.7346E-10 GNP 0.67953082 0.006555592 103.6566709 3.0479E-50 Test for H 0 : 1 = 2 F df p-value 0.88 1, 39 0.353 Ei ole tilastollisesti merkitsevä, täten H 0 jää voimaan eli kulutusalttiudet eivät poikkea toisistaan 0 0 200 400 600 800 1000 1200 1400 1600 1800 Other incom e (P) 103 104

Regressioestimaatit: (R) (U) ^C t = 141.74 + 0.680Y t ^C t = 107.28 + 0.743W t +0.560P t SSE R = 53 984 SSE U = 52 790 (53984 52790)/1 F = 0.88 52790/39 F -jakauman taulukosta F 1,39 (.05) = 4.09 > 0.88 = F, joten H 0 : 1 = 2 (samat rajakulutusalttiudet) hyväaksytäaäan. TÄaten päaäadymme tulokseen, ettäa päaäaomatulojen ja palkkatuilojen rajakulutusalttiudet ovat samat. Sama SAS-ohjelman Reg-proceduurilla SAS-Ajojono options ls = 80 ps = 80; data usacons; infile d:\rawdata\usaconsu.dat firstobs=5; input Year CONS GNP WAGES PRDEFL W P; proc reg; model cons = w p; equality: test w-p=0; run; Tulokset: Model: MODEL1 Dependent Variable: CONS Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model 2 14502299.325 7251149.6623 5357.133 0.0001 Error 39 52788.46613 1353.55041 C Total 41 14555087.791 Root MSE 36.79063 R-square 0.9964 Dep Mean 1486.02143 Adj R-sq 0.9962 C.V. 2.47578 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP 1-107.258308 40.31842945-2.660 0.0113 W 1 0.743301 0.06816597 10.904 0.0001 P 1 0.560389 0.12693140 4.415 0.0001 105 Test: EQUALITY Numerator: 1195.7169 DF: 1 F value: 0.8834 Denominator: 1353.55 DF: 39 Prob>F: 0.3531 106

Yleistys: y = X + u. Parametrien väalille asetetut (lineaariset) rajoitteet voidaan esittäaäa yleisessäa muodossa H 0 : C =0, jossa C on r (p +1) matriisi, missäa r on rajoitteiden lukumäaäaräa. Esim. EdellÄa Huom. df 1 = r. 0 1 1 0 1 2 =0. Esim. Cobb-Douglas tuotantofunktio Q t = ckt L t, jossa Q on tuotanto, K päaäaoma käayttäotunteina ja L tyäovoima tyäotunteina. Logaritmoimalla ja lisäaäamäalläa residuaalitermi saadaan lineaarinen ekonometrinen malli ln Q t = 0 + ln K t + ln L t + u t. Parametrit ja voidaan osoittautuvat joustoiksi, silläa = K Q ln Q = Q K ln K ja = L Q Q L = ln Q ln L. 107 108

Havaitaan, esim. jos K 2K ja L 2L, niin Q 1 = c(2k) (2L) =2 + Q. (a) + =1 vakiot skaalatutot + < 1 laskevat skaalatutot + > 1 kasvavat skaalatuotot (b) = sama rajattuottavuus päaäaomallajatyäovoimalla. Vakioiden skaalatuottojen ( + = 1) testaamiseksi malli voidaan kirjoittaa muotoon ln Q t = 0 + (ln K t ln L t )+( + )lnl t + u t eli merkitsemäalläa Y t =lnq t, X 1t =lnk t ln L t, X 2t = ln L t ja 2 = +, saadaan Y t = 0 + X 1t + 2 X 2t + u 2. Vakioiden skaalatuottojen testaamiseksi testataan siis hypoteesia H 0 : 2 = 1 (vastahypoteesina H 1 : 2 =1). Testaus t-testilläa t = ^ 2 1 t(n 3), s^ 2 kun H 0 on tosi. 109 110

Yhdysvaikutus 3.4 Mallin täasmennysvirhe (Spesi ointivirhe) Esim. Kulutusfunktio C t = + Y t + u t. Joskus oletetaan, ettäa rajakulutusalttius riippuu varallisuudesta. Esimerkiksi, jos riippuvuus on lineaarista, siten ettäa = 1 + 2 A, jossa A ilmaisee varallisuutta. Silloin C t = + Y t + u t = + 1 Y t + 2 (Y t A t )+u t Testattava hypoteesi täalläoin on Mallin täasmennysvirheen syitäa voivatolla: muuttujien valinta funktion muoto jäaäannäostermin jakaumaominaisuudet H 0 : 2 =0. Jos H 0 hyläatäaäan on saatu evidenssiäa, ettäa varallisuus vaikuttaa rajakulutusalttiuteen. 111 112

Tarkastellaan täassäa vain muuttujien valintaa Oletetaan, ettäa oikea malli on muotoa Y i = 0 + 1 X i1 + 2 X i2 + u i, mutta estimoidaankin "liian lyhyt" malli Y i = 0 + 1 X i1 + v i, jossa itse asiassa v i = u i + 2 X i2 (i =1,...,n). TÄallÄoin voidaan helposti osoittaa, ettäa jossa ja s 12 = 1 n 1 s E(^ 1 )= 1 + 12 2 s 2, 2 s 2 2 = 1 n 1 n (X i1 ¹X 1 )(X i2 ¹X 2 ) i=1 n (X i2 ¹X 2 ) 2. i=1 TÄaten, jos s 12 =0on ^ 1 harhainen, eikäa se enäaäa kuvaax 1 :n marginaaliefektiäa, vaan X 1 suoraajaepäasuoraa vaikutusta (X 2 :n kautta). Jos taas estimoidaan "liian pitkäa" malli Y i = 0 + 1 X i1 + 2 X i2 + 3 X i3 + u i, jossa siis todellisuudessa 3 = 0, niin E (^ 1 )= 1, E(^ 2 )= 2 ja E (^ 3 ) = 0. Estimaattorit ovat siis harhattomia, mutta voidaan kuitenkin osoittaa, ettäa estimaattoreiden varianssit ovat suurempia kuin oikein täasmennetyn mallin. SiispÄa estimoinnin tarkkuus käarsii. 113 114

3.5 ViivÄastetyt muuttujat 3.6 Dummy muuttujat Taloudessa vaikutukset näakyväat usein viipeelläa Kaksi luokkaa Esim. Y t = + 1 G t + 2 G t1 + 3 M t + 4 M t1 + 5 T t + 6 T t1 + 7 X t + 8 X t1 + u t jossa Y on kansantulo, G julkinen kulutus, T verot, M rahan tarjonta ja X vienti. Estimointivaiheessa käaytettäavissäa on havainnot t =2, 3,... Viivemalleissa selittäajäanäa voi olla myäos selitetty muuttuja viiväastettynäa, esim. Y t = + 1 Y t1 + 2 X t + u t. Dummy- eli keinomuuttujien avulla voidaan selittäaviksi muutujiksi valita myäos kvalitatiivisia tekijäoitäa. Esim. Housing Data 1, asunnossa on uima-allas D = 0, asunnossa ei ole uima-allasta. Aiemmin esitimoitu parhaiten sopiva malli oli muotoa PRICE = + ln(sqft) + u. Jos uima-allas vaikuttaa vain hintatasoon, niin = 0 + 1 D. TÄallÄoin PRICE = 0 + 1 D + ln(sqft) + u. 115 116

Jos altaallisten hinnan ja pinta-alan suhde on erilainen kuin altaattomien, niin = 1 + 2 D,jolloin PRICE = + 1 ln(sqft)+ 1 (D ln(sqft))+u. Kolmas vaihtoehto on, ettäa se vaikuttaa molempiin, jolloin = 0 + 1 D ja = 1 + 2 D. PRICE = 0 + 1 D + 1 ln(sqft) + 2 (D ln(sqft)) + u. Huom. Viimeinen malli on itse asiassa kaksi erillistäa regressiota. SillÄa erotuksella kuitenkin, ettäa jäaäannäostermienvarianssitovatsamat! Esim. House price data. Price ($1 000) SQFT BEDRMS BATHS POOL i (Y ) (X 1 ) (X 2 ) (X 3 ) (X 4 ) 1 128.5 1219 3 2 0 2 139.5 1210 4 2.5 0 3 139.5 1400 4 2 0 4 152.5 1560 4 2 0 5 153.0 1846 5 2 0 6 185.0 2400 5 3 0 7 209.0 1846 4 2.5 0 8 211.0 1846 5 2.5 1 9 214.0 2300 4 3 0 10 226.0 2230 4 3 0 11 250.0 2300 5 3 0 12 259.0 2180 3 2 0 13 269.9 2527 4 2.5 1 14 298.0 1968 4 3 1 117 118

Tarkastellaan malleja Estimointitulokset PRICE = 0 + 1 D + SQFT + u ja PRICE = 0 + 1 D + ln(sqft) + u. Saadaan PRICE = 35.440 + 52.327D + 0.0813SQFT + u (0.898) (2.486) (3.951) R 2 =0.720 s =31.327 F (2, 11) = 14.157 PRICE = 910.791 + 51.292D + 146.35LNSQFT + u (3.388) (2.480) (4.854) R 2 =0.731 s =30.709 F (2, 11) = 14.955 Price i ($1000) POOL SQFT DSQFT 1 128.5 0 1219 0 2 139.5 0 1210 0 3 139.5 0 1400 0 4 152.5 0 1560 0 5 153.0 0 1846 0 6 185.0 0 2400 0 7 209.0 0 1846 0 8 211.0 1 1846 1846 9 214.0 0 2300 0 10 226.0 0 2230 0 11 250.0 0 2300 0 12 259.0 0 2180 0 13 269.9 1 2527 2527 14 298.0 1 1968 1968 SUMMARY OUTPUT Regression Statistics Multiple R 0.849 R Square 0.720 Adjusted R Squ 0.669 Standard Error 31.327 Observations 14 ANOVA df SS MS F P-Value Regression 2 27786.140 13893.070 14.157 0.001 Residual 11 10794.869 981.352 Total 13 38581.009 Coefficients Standard Error t Stat P-value Intercept 35.440 39.483 0.898 0.389 POOL 52.327 21.047 2.486 0.030 SQFT 0.081 0.021 3.951 0.002 SUMMARY OUTPUT Regression Statistics Multiple R 0.839 R Square 0.704 Adjusted R Squ 0.651 Standard Error 32.203 Observations 14 ANOVA df SS MS F P-Value Regression 2 27173.359 13586.679 13.101 0.001 Residual 11 11407.650 1037.059 Total 13 38581.009 Coefficients Standard Error t Stat P-value Intercept 39.614 40.918 0.968 0.354 SQFT 0.079 0.021 3.702 0.003 DSQFT 0.024 0.010 2.293 0.043 119 120

Havaitaan Useampiluokkaiset kvalitatiiviset muuttujat Selitysaste paranee molemmissa tapauksissa huomattavasti Dummy muuttujat ovat tilastollisesti merkitseviäa Perusmallissa 52.327 tarkoittaa, ettäa uimaallas nostaa asunnon hintaa keskimäaäarin $52 327 (kallis!!) Log-mallissa tilanne on likipitäain sama, eli uima-allas nostaa asunnon hintaa keskimäaäarin $51 292. Kotitalouksien säaäastäamiskäayttäaytyminen S = + X + u, jossa S =säaäastäaminen ja X = tulot. Ilmeisesti kotitalouden ikäa vaikuttaa myäos. Oletetaan, ettäa käaytettäavissäa onperheenpäaäan ikäaluokka alle 25, 25{55 ja yli 55. IkÄa korvataan täalläoin dummy-muuttujilla siten, ettäa yksi luokista otetaan referenssiluokaksi ja mäaäaritelläaäan dummy muuttujat kahdelle muulle luokalle. 121 122

Esimerkiksi 1 Jos ikäaluokka on 25{55 D 1 = 0 muuten 1 Jos ikäaluokka on yli 55 D 2 = 0 muuten KontrolliryhmÄassÄa ovat kaikki alle 25 vuotiaat, jolloin siis D 1 = D 2 = 0. Malli on tulee muotoon S = 0 + 1 D 1 + 2 D 2 + X + u. Struktuurimuutoksen testaus SelitettÄavÄan ja selittäaväan muuttujan väalisessäa riippuvuudessa voi tapahtua tietylläa hetkelläa muutos Esim. Autojen polttoaineen kulutus. ÄOljykriisit 1974 ja 1979. Muuttuiko kulutusrakenne? Perusmalli ln C = + ln P + ln Y + u, jossa C on polttoaineen kulutus, P hinta ja Y tulot. 1 1974 1. neljäanneksestäa alkaen D 1 = 0 muuten 1 1979 1. neljäanneksestäa alkaen D 2 = 0 muuten. 123 124

Tarkastelussa on siis kolmea periodia: {1973/4, 1974/1{ ja 1979/1{. Jos on eroja, niin = 0 + 1 D 1 + 2 D 2 = 0 + 1 D 1 + 2 D 2 = 0 + 1 D 1 + 2 D 2 Rajoittamaton malli on siis muotoa ln C = 0 + 1 D 1 + 2 D 2 + 0 ln P + 1 Z 1 + 2 Z 2 + 0 ln Y + 1 Z 3 + 2 Z 4 + u jossa Z 1 = D 1 ln P, Z 2 = D 2 ln P, Z 3 = D 1 ln Y ja Z 4 = D 2 ln Y. Testaus: H 0 : 1 = 2 = 1 = 2 = 1 = 2 =0. Testisuureena F -testi kuten aiemmin. MyÄos muita hypoteeseja voidaan helposti johtaa. 125