3. Useamman selittäajäan regressiomalli

Samankaltaiset tiedostot
3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa. Y i = + 1 X i p X ip + u i

Regressio-termi peräaisin Galtonilta. IsÄan ja pojan pituus: PitkÄa isäa lyhyempi poika, lyhyt isäa pidempi poika.

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =


A250A0050 Ekonometrian perusteet Tentti

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Regressioanalyysi. Vilkkumaa / Kuusinen 1

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Capacity Utilization

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Mat Tilastollisen analyysin perusteet, kevät 2007

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Frequencies. Frequency Table

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Perusnäkymä yksisuuntaiseen ANOVAaan

4. Poikkeamat regressio-oletuksista. 4.1 Heteroskedastisuus. Heteroskedastinen: Var(u i )= i kaikilla i. ei ole sama. Y i = + 1 X i1 + + p X ip + u i

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Kaksisuuntainen varianssianalyysi. Heliövaara 1

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Efficiency change over time

Todennäköisyyden ominaisuuksia

Sovellettu todennäköisyyslaskenta B

805306A Johdatus monimuuttujamenetelmiin, 5 op

Väliestimointi (jatkoa) Heliövaara 1

Harha mallin arvioinnissa

Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista.

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

2. Keskiarvojen vartailua

I. Principles of Pointer Year Analysis

2. Teoriaharjoitukset

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

HAVAITUT JA ODOTETUT FREKVENSSIT

2. Tietokoneharjoitukset

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Testejä suhdeasteikollisille muuttujille

Dynaamiset regressiomallit

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Korrelaatiokertoinen määrittely 165

4. Poikkeamat regressio-oletuksista. 4.1 Heteroskedastisuus. ei ole sama. Heteroskedastinen: Var(u i )= i kaikilla i. Y i = + 1 X i1 + + p X ip + u i

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs)

Lauri Tarkkonen: Erottelu analyysi

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

ABHELSINKI UNIVERSITY OF TECHNOLOGY

5.7 Uskottavuusfunktioon perustuvia testejä II

Harjoitus 7: NCSS - Tilastollinen analyysi

Kvantitatiiviset tutkimusmenetelmät maantieteessä

4.0.2 Kuinka hyvä ennuste on?

Sovellettu todennäköisyyslaskenta B

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?

MTTTP5, luento Luottamusväli, määritelmä

KURSSIN TILASTOMATEMATIIKKA KAAVOJA

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

Harjoitus 9: Excel - Tilastollinen analyysi

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Otoskoon arviointi. Tero Vahlberg

Sovellettu todennäköisyyslaskenta B

3. Yhden faktorin kokeet. 3.1 Varianssianalyysi. Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

9.1 Hierarkiset asetelmat (Nested Designs)

Toimittaja Erä

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Sovellettu todennäköisyyslaskenta B

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Mat Tilastollisen analyysin perusteet, kevät 2007

812336A C++ -kielen perusteet,

Other approaches to restrict multipliers

Sovellettu todennäköisyyslaskenta B

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

Transkriptio:

3. Useamman selittäajäan regressiomalli p-selittäaväaäa muuttujaa Y i = α + β 1 X i1 +...+ β p X ip + u i i = 1,...,n (> p), missäa n = havaintojen lukumäaäaräa otoksessa. Oletukset kuten aiemmin: (1) E(u i )=0, i (2) Var(u i )=σu, 2 i (3) Cov(u i,u j )=0, i = j (4) Cov(X ij,u i )=0, i, j (5) X-muuttujat eiväat saa olla lineaarisesti riippuvia Derivoimalla yhtäaläo X ij :n suhteen saadaan Y i = β j, X ij j =1,...,p,jotenβ j :n tulkinta on: Y i muuttuu β j :n verran X ij :n muuttuessa yhdelläa yksikäolläa ja muiden muuttujien arvojen pysyessäa ennallaan. 85

Example. In June 1978, California voters approved what is known as Proposition 13 limiting property taxes. This led to substantial and di erential reduction in property taxes, which led to an increase in housing prices. Rosen (1982) (Journal of Political Economy, pp. 191{200) studied the impact of reduction in property taxes on housing prices in San Francisco Bay Area. Besides property taxes, there are other factors that determine housing prices and these have to be taken into account in the study. Rosen therefore included other characteristics of the house. The variables determining the housing prices were speci ed as x 1 = change (decrease) in post-proposition 13 mean house taxes x 2 = (mean) square footage of house x 3 = median income of families in the area x 4 = mean age of house x 5 = transportation time to San Francisco x 6 = housing-quality index as computed by real estate appraisers The dependent variable was y = change in the post-proportion 13 mean house prices n =64. The estimated model was ^y =0.171 +7.275x 1 +0.547x 2 +0.00073x 3 + 0.0638x 4 (2.97) (2.32) (1.34) (3.26) 0.0043x 5 +0.857x 6 ( 2.24) (1.80) R 2 =0.897, t values in parentheses. 86

All the coe±cients have the expected signs. The coe±cient of x 1 indicates that each $1 decrease in property taxes increases property values of $7. The question is whether this is about the right magnitude. Assuming that the property tax reduction is expected to be at the same level in the future years, the present value of a $1 return per year is 1/r, wherer is the rate of interest (also expected to remain the same). This is equalto $7ifr = 14.29%. The interest rates at that time were around this level and Rosen concludes: The capitalization rate implied by this equation is about 7 which is precisely the magnitude that one would expect with an interest rate of 12{15%. 87

Esimointi tapahtuu OLS:llÄa, jossa minimoidaan residuaalien neliäosumma SSE = n i=1 ^e 2 i = n i=1 kertoimien ^α, ^β 1,...,^β p suhteen. (Y i ^α ^β 1 X i1 ^β p X ip ) 2 Asettamalla osittaisderivaatat nolliksi ja ratkaisemalla saadaan normaaliyhtäaläot. Yi = n^α + ^β 1 Xi1 + + ^β p Xip Yi X i1 = ^α X i1 + ^β 1 X 2 i1 + + ^β p Xi1 X ip. Yi X ip = ^α X ip + ^β 1 Xi1 X ip + + ^β p X 2 ip jossa on p +1 yhtäaläoäa ja p +1 tuntematonta (regressiokertoimet). 88

Esitys saadaan huomattavasti kompaktimpaan muotoon kun otetaan käayttäoäon matriisilaskennan merkinnäat Y 1 = α + β 1 X 11 + + β p X 1p + u 1 Y 2 = α + β 1 X 21 + + β p X 2p + u 2. Y n = α + β 1 X n1 + + β p X np + u n, joka voidaan koota matriisiesitykseksi eli Y 1 Y 2. Y n = 1 X 11 X 12... X 1p 1. X 21. X 22.... X 2p. 1 X n1 X n2... X np y = Xβ + u. α β 1. β p + u 1 u 2. u n 89

NormaaliyhtÄalÄot: X y =(X X)ˆβ josta β:n OLS-estimaattoriksi saadaan ˆβ =(X X) 1 X y, jossa ^β = ^α ^β 1 ^β 2. ^β p on p + 1 komponentin vektori. 90

3.1 Standardoidut regressiokertoimet RegressioyhtÄalÄossÄa Y i = α + β 1 X i1 + + β p X ip + u i kerroin β j edustaa muuttujan X j marginaaliefektiäa. YleensÄa muuttujat ovat erilaisissa mittayksikäoissäa, joten regressiokertoimet eiväat ole suoraan vertailukelpoisia keskenäaäan. Jotta vertailua voitaisiin tehdäa, on kertoimet standardoitava. 91

Standardoimalla muuttujat ensin y i = Y i ¹Y s y x ij = X ij ¹X j, s j jossa s y on Y :n keskihajonta ja s j on X j :n keskihajonta (j = 1,...,p). Estimoimalla kertoimet standardoitujen muuttujien yhtäaläostäa y i = β 1 x i1 + β 2 x i2 + + β px ip + u i, jossa siis β j = s j s y β j saadaan standardodut kertoimet joita kutsutaan beeta-kertoimiksi. NÄamÄa ovat vertailukelpoisia keskenäaäan. 92

Esim. Price ($ 1 000) SQFT BEDRMS BATHS i (Y ) (X 1 ) (X 2 ) (X 3 ) 1 128.5 1219 3 2 2 139.5 1210 4 2.5 3 139.5 1400 4 2 4 152.5 1560 4 2 5 153.0 1846 5 2 6 185.0 2400 5 3 7 209.0 1846 4 2.5 8 211.0 1846 5 2.5 9 214.0 2300 4 3 10 226.0 2230 4 3 11 250.0 2300 5 3 12 259.0 2180 3 2 13 269.9 2527 4 2.5 14 298.0 1968 4 3 Standardoimattomaton regressiomalli P i =60.817 + 0.0866 SQ i 24.577 BE i +31.006 BA i. Standardoitu regressiomalli p i =0.6923 sq i 0.2991 be i +0.2496 ba i. 93

Excel tulostus SUMMARY OUTPUT Regression Statistics Multiple R 0.808 R Square 0.652 Adjusted R 0.548 Standard E 36.636 Observatio 14 ANOVA df SS MS F P-value Regression 3 25159.29 8386.43 6.25 0.012 Residual 10 13421.72 1342.17 Total 13 38581.01 Coeff Std Err t Stat P-value Intercept 60.817 73.922 0.823 0.430 SQFT 0.087 0.029 2.948 0.015 BEDRMS -24.577 16.773-1.465 0.174 Ei tilastollisesti merkitsevä! BATHS 31.005 30.226 1.026 0.329 Ei tilastollisesti merkitsevä! Coefficients SQFT 0.692 BEDRMS -0.299 BATHS 0.250 DATA Price Price SQFT BEDRMS BATHS i ($1000) SQFTEDRMSBATHS 1 128.5 1219 3 2 Mean 202.49 1916.57 4.14 2.50 2 139.5 1210 4 2.5 Standard E 14.56 116.39 0.18 0.12 3 139.5 1400 4 2 Median 210.00 1907.00 4.00 2.50 4 152.5 1560 4 2 Mode 139.50 1846.00 4.00 2.00 5 153 1846 5 2 Standard D 54.48 435.49 0.66 0.44 6 185 2400 5 3 Kurtosis -1.16-1.04-0.31-1.77 7 209 1846 4 2.5 Skewness 0.18-0.41-0.15 0.00 8 211 1846 5 2.5 Range 169.50 1317.00 2.00 1.00 9 214 2300 4 3 Minimum 128.50 1210.00 3.00 2.00 10 226 2230 4 3 Maximum 298.00 2527.00 5.00 3.00 11 250 2300 5 3 Sum 2834.90 26832.00 58.00 35.00 12 259 2180 3 2 Count 14 14 14 14 13 269.9 2527 4 2.5 14 298 1968 4 3 94

3.2 Yhteensopivuus R 2 = SSR SST =1 SSE SST. R 2 :n kasvaa tai ei ainakaan pienene, kun malliin lisäatäaäan muuttujia, on niilläa todellista merkitystäa taiei. Haluttaessa "rangaista" turhien muuttujien lisäaäamistäa malliin voidaan käaytäaäa niin sanottuakorjattuaselitysastetta(adjustedr-square, ¹R 2 ) ¹R 2 SSE/(n p 1) =1 SST/(n 1) eli =1 n 1 n p 1 (1 R2 ) ¹R 2 =1 s2 u s 2, y jossa s 2 1 u = (Yi ^Y i ) 2 ja s 2 y = 1 n p 1 n 1 Esim. (Housing data) (Yi ¹Y ) 2. 95

3.3 Hypoteesien testaus Y i = α + β 1 X i1 + + β p X ip + u i YksittÄaisten kertoimien testaus t-testisuure: t j = ^β j β 0 j s^β j, missäa j =1,...,p ja βj 0 (usein βj 0 =0). on jokin annettu luku Hypoteesit: tai H 0 : β j = βj 0 H 1 : β j = βj 0. H 0 : β j β 0 j H 1 : β j > β 0 j. tai H 0 : β j β 0 j H 1 : β j < β 0 j. 96

Esim. (Jatkoa) H 0 : β 3 0 H 1 : β 3 > 0 t =1.0258 < 1.812 = t.05 (10), jotenh 0 jäaäa voimaan ja päaäattelemme, ettäa kylpyhuoneiden lukumäaäaräalläa ei ainakaan täamäan aineiston perusteella ole tilastollisesti merkitseväaäa vaikutusta asunnon hintaan. Samoin on makuuhuoneiden lukumäaäaräan kanssa (etumerkkikin on vastoin oletusta!). 97

Useamman kertoimen samanaikainen testaus (R) Y = α + β 1 X 1 + + β p X p + u (U) Y = α + β 1 X 1 + + β p X p +β p+1 X p+1 + + β p+m X p+m + v Testisuure: H 0 : β p+1 = = β p+m =0 H 1 : jokin β p+k =0(k =1,...m) F = (SSE R SSE U )/m SSE U /(n p m 1) = SSE R SSE U n p m 1, SSE U m joka noudattaa F -jakaumaa vapausasteilla f 1 = m ja f 2 = n p m 1, josh 0 on tosi. Huom. Erikoistapauksena on ANOVA-taulun F -testi, joka siis testaa onko milläaäan X-muuttujalla vaikutusta Y -muuttujaan. 98

Kertoimien lineaarikombinaatioiden testaus Usein mallin parametrien väalille voidaan mielekkäaäalläa tavalla asettaa rajoitteita. Esim. Kulutusfunktio (makrotalous) C t = β 0 + β 1 W t + β 2 P t + u t, jossa C on kokonaiskulutus, W palkkatulot ja P muut tulot (päaäaomatulot etc). Parametri β 1 on palkkatulojen rajakulutusalttius ja β 2 muiden tulojen rajakulutusalttius. Samoja? H 0 : β 1 = β 2 H 1 : β 1 = β 2 Testaus voidaan toteuttaa useammalla eri tavalla, jotka kuitenkin johtavat samaan lopputulokseen. 99

ErÄas tapa: (R) C t = β 0 + β 1 (W t + P t )+u t = β 0 + β 1 Y t + u t (U) C t = β 0 + β 1 W t + β 2 P t + u t, jossa Y t = W t + P t. Testisuure F = (SSE R SSE U )/(df R df U ), SSE U /df U joka on nollahypoteesin vallitessa F -jakautunut vapausasteilla df R df U ja df U. 100

Esim. USA Data. CONS (C t ): Real consumption expenditures in billions of 1982 dollars GNP (Y t ): Real gross national product in billions of 1982 dollars WAGES: Total compensation of employees (wages, salaries, and supplements) in billions of current dollars. PRDEFL: Implicit price de ator for consumption, 1982 = 100 (this is a price index for consumption goods) Reaalipalkat ja muut tulot: W t = 100 WAGES t PRDEFL t P t = Y t W t. 101

USA Consumption Data Annual Data on Consumption, GNP, Wage Bill, and Prices Ramu Ramanathan (1992). Introductory Econometrics with Applications, 2nd Edition, pp.215-216. Year CONS GNP WAGES PRDEFL W P 1948 681.8 1108.7 142.1 25.7 552.9 555.8 1949 695.4 1109.0 142.0 25.6 554.7 554.3 1950 733.2 1203.7 155.4 26.2 593.1 610.6 1951 748.7 1328.2 181.6 27.8 653.2 675.0 1952 771.4 1380.0 196.3 28.4 691.2 688.8 1953 802.5 1435.3 210.4 29.0 725.5 709.8 1954 822.7 1416.2 209.4 29.1 719.6 696.6 1955 873.8 1494.9 225.9 29.5 765.8 729.1 1956 899.8 1525.6 244.7 30.1 813.0 712.6 1957 919.7 1551.1 257.8 31.0 831.6 719.5 1958 932.9 1539.2 259.8 31.6 822.2 717.0 1959 979.4 1629.1 281.2 32.3 870.6 758.5 1960 1005.1 1665.3 296.7 32.9 901.8 763.5 1961 1025.2 1708.7 305.6 33.3 917.7 791.0 1962 1069.0 1799.4 327.4 33.9 965.8 833.6 1963 1108.4 1873.3 345.5 34.4 1004.4 868.9 1964 1170.6 1973.3 371.0 35.0 1060.0 913.3 1965 1236.4 2087.6 399.8 35.6 1123.0 964.6 1966 1298.9 2208.3 443.0 36.7 1207.1 1001.2 1967 1337.7 2271.4 475.5 37.6 1264.6 1006.8 1968 1405.9 2365.6 524.7 39.3 1335.1 1030.5 1969 1456.7 2423.3 578.4 41.0 1410.7 1012.6 1970 1492.0 2416.2 618.3 42.9 1441.3 974.9 1971 1538.8 2484.8 659.4 44.9 1468.6 1016.2 1972 1621.9 2608.5 726.2 46.7 1555.0 1053.5 1973 1689.6 2744.1 812.8 49.6 1638.7 1105.4 1974 1674.0 2729.3 891.3 54.8 1626.5 1102.8 1975 1711.9 2695.0 948.7 59.2 1602.5 1092.5 1976 1803.9 2826.7 1057.9 62.6 1689.9 1136.8 1977 1883.8 2958.6 1176.6 66.7 1764.0 1194.6 1978 1961.0 3115.2 1329.2 71.6 1856.4 1258.8 1979 2004.4 3192.4 1491.4 76.2 1957.2 1235.2 1980 2004.4 3187.1 1638.2 86.6 1891.7 1295.4 1981 2024.2 3248.8 1807.4 94.6 1910.6 1338.2 1982 2050.7 3166.0 1907.0 100.0 1907.0 1259.0 1983 2146.0 3279.1 2020.7 103.9 1944.9 1334.2 1984 2249.3 3501.4 2213.9 107.7 2055.6 1445.8 1985 2354.8 3618.7 2367.5 110.9 2134.8 1483.9 1986 2446.4 3717.9 2511.4 113.8 2206.9 1511.0 1987 2513.7 3853.7 2690.0 117.4 2291.3 1562.4 1988 2598.4 4024.4 2907.6 121.3 2397.0 1627.4 1989 2668.5 4142.6 3145.4 126.3 2490.4 1652.2 102

Scatter Plots Scatter plotofconsum ption vs W 3000 2500 Consum ption (C) 2000 1500 1000 500 0 0 500 1000 1500 2000 2500 3000 Wage (W ) Scatter PlotofConsum ption on P 3000 2500 Consum ption (C) 2000 1500 1000 500 0 0 200 400 600 800 1000 1200 1400 1600 1800 Other incom e (P) 103

Regression Results UNRESTRICTED MODEL Regression Statistics Multiple R 0.998 R Square 0.996 Adjusted R Square 0.996 Standard Error 36.8 Observations 42 ANOVA df SS MS F Significance F Regression 2 14502298 7251149 5357 0.0000 Residual 39 52790 1354 Total 41 14555088 Coefficients Standard Error t Stat P-value Intercept -107.283 40.319-2.66 0.011 W 0.743 0.068 10.90 0.000 P 0.560 0.127 4.42 0.000 RESTRICTED MODEL Regression Statistics Multiple R 0.998 R Square 0.996 Adjusted R Square 0.996 Standard Error 36.7 Observations 42 ANOVA df SS MS F Significance F Regression 1 14501103.61 14501103.61 10745 3.04788E-50 Residual 40 53984 1350 Total 41 14555087.79 Coefficients Standard Error t Stat P-value Intercept -141.74126 16.69522003-8.489930536 1.7346E-10 GNP 0.67953082 0.006555592 103.6566709 3.0479E-50 Test for H 0 : β 1 = β 2 F df p-value 0.88 1, 39 0.353 Ei ole tilastollisesti merkitsevä, täten H 0 jää voimaan eli kulutusalttiudet eivät poikkea toisistaan 104

Regressioestimaatit: (R) (U) ^C t = 141.74 + 0.680Y t ^C t = 107.28 + 0.743W t +0.560P t SSE R = 53 984 SSE U = 52 790 (53984 52790)/1 F = 0.88 52790/39 F -jakauman taulukosta F 1,39 (.05) = 4.09 > 0.88 = F, joten H 0 : β 1 = β 2 (samat rajakulutusalttiudet) hyväaksytäaäan. TÄaten päaäadymme tulokseen, ettäa päaäaomatulojen ja palkkatuilojen rajakulutusalttiudet ovat samat. 105

Sama SAS-ohjelman Reg-proceduurilla SAS-Ajojono options ls = 80 ps = 80; data usacons; infile d:\rawdata\usaconsu.dat firstobs=5; input Year CONS GNP WAGES PRDEFL W P; proc reg; model cons = w p; equality: test w-p=0; run; Tulokset: Model: MODEL1 Dependent Variable: CONS Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model 2 14502299.325 7251149.6623 5357.133 0.0001 Error 39 52788.46613 1353.55041 C Total 41 14555087.791 Root MSE 36.79063 R-square 0.9964 Dep Mean 1486.02143 Adj R-sq 0.9962 C.V. 2.47578 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP 1-107.258308 40.31842945-2.660 0.0113 W 1 0.743301 0.06816597 10.904 0.0001 P 1 0.560389 0.12693140 4.415 0.0001 Test: EQUALITY Numerator: 1195.7169 DF: 1 F value: 0.8834 Denominator: 1353.55 DF: 39 Prob>F: 0.3531 106

Yleistys: y = Xβ + u. Parametrien väalille asetetut (lineaariset) rajoitteet voidaan esittäaäa yleisessäa muodossa H 0 : Cβ =0, jossa C on r (p +1) matriisi, missäa r on rajoitteiden lukumäaäaräa. Esim. EdellÄa Huom. df 1 = r. 0 1 1 β 0 β 1 β 2 =0. 107

Esim. Cobb-Douglas tuotantofunktio Q t = ck α t L β t, jossa Q on tuotanto, K päaäaoma käayttäotunteina ja L tyäovoima tyäotunteina. Logaritmoimalla ja lisäaäamäalläa residuaalitermi saadaan lineaarinen ekonometrinen malli ln Q t = β 0 + α ln K t + β ln L t + u t. Parametrit α ja β voidaan osoittautuvat joustoiksi, silläa α = K Q Q K = ln Q ln K ja β = L Q Q L = ln Q ln L. 108

Havaitaan, esim. jos K 2K ja L 2L, niin Q 1 = c(2k) α (2L) β =2 α+β Q. (a) α + β =1 vakiot skaalatutot α + β < 1 laskevat skaalatutot α + β > 1 kasvavat skaalatuotot (b) α = β sama rajattuottavuus päaäaomalla ja tyäovoimalla. 109

Vakioiden skaalatuottojen (α + β = 1) testaamiseksi malli voidaan kirjoittaa muotoon ln Q t = β 0 + α(ln K t ln L t )+(β + α)lnl t + u t eli merkitsemäalläa Y t =lnq t, X 1t =lnk t ln L t, X 2t = ln L t ja β 2 = β + α, saadaan Y t = β 0 + αx 1t + β 2 X 2t + u 2. Vakioiden skaalatuottojen testaamiseksi testataan siis hypoteesia H 0 : β 2 =1 Testaus t-testilläa kun H 0 on tosi. (vastahypoteesina H 1 : β 2 =1). t = ^β 2 1 s^β 2 t(n 3), 110

Yhdysvaikutus Esim. Kulutusfunktio C t = α + βy t + u t. Joskus oletetaan, ettäa rajakulutusalttius riippuu varallisuudesta. Esimerkiksi, jos riippuvuus on lineaarista, siten ettäa β = β 1 + β 2 A, jossa A ilmaisee varallisuutta. Silloin C t = α + βy t + u t = α + β 1 Y t + β 2 (Y t A t )+u t Testattava hypoteesi täalläoin on H 0 : β 2 =0. Jos H 0 hyläatäaäan on saatu evidenssiäa, ettäa varallisuus vaikuttaa rajakulutusalttiuteen. 111

3.4 Mallin täasmennysvirhe (Spesi ointivirhe) Mallin täasmennysvirheen syitäa voivat olla: muuttujien valinta funktion muoto jäaäannäostermin jakaumaominaisuudet 112

Tarkastellaan täassäa vain muuttujien valintaa Oletetaan, ettäa oikea malli on muotoa Y i = β 0 + β 1 X i1 + β 2 X i2 + u i, mutta estimoidaankin "liian lyhyt" malli Y i = β 0 + β 1 X i1 + v i, jossa itse asiassa v i = u i +β 2 X i2 (i =1,...,n). TÄallÄoin voidaan helposti osoittaa, ettäa jossa s E(^β 1 )=β 1 + β 12 2 s 2, 2 ja s 12 = 1 n 1 n i=1 s 2 2 = 1 n 1 (X i1 ¹X 1 )(X i2 ¹X 2 ) n i=1 (X i2 ¹X 2 ) 2. 113

TÄaten, jos s 12 =0on ^β 1 harhainen, eikäa se enäaäa kuvaax 1 :n marginaaliefektiäa, vaan X 1 suoraa ja epäasuoraa vaikutusta (X 2 :n kautta). Jos taas estimoidaan "liian pitkäa" malli Y i = β 0 + β 1 X i1 + β 2 X i2 + β 3 X i3 + u i, jossa siis todellisuudessa β 3 =0, niin E(^β 1 )= β 1, E(^β 2 )=β 2 ja E(^β 3 )=0. Estimaattorit ovat siis harhattomia, mutta voidaan kuitenkin osoittaa, ettäa estimaattoreiden varianssit ovat suurempia kuin oikein täasmennetyn mallin. SiispÄa estimoinnin tarkkuus käarsii. 114

3.5 ViivÄastetyt muuttujat Taloudessa vaikutukset näakyväat usein viipeelläa Esim. Y t = α + β 1 G t + β 2 G t 1 + β 3 M t + β 4 M t 1 +β 5 T t + β 6 T t 1 + β 7 X t + β 8 X t 1 + u t jossa Y on kansantulo, G julkinen kulutus, T verot, M rahan tarjonta ja X vienti. Estimointivaiheessa käaytettäavissäa on havainnot t =2, 3,... Viivemalleissa selittäajäanäa voi olla myäos selitetty muuttuja viiväastettynäa, esim. Y t = α + β 1 Y t 1 + β 2 X t + u t. 115

3.6 Dummy muuttujat Kaksi luokkaa Dummy- eli keinomuuttujien avulla voidaan selittäaviksi muutujiksi valita myäos kvalitatiivisia tekijäoitäa. Esim. Housing Data 1, asunnossa on uima-allas D = 0, asunnossa ei ole uima-allasta. Aiemmin esitimoitu parhaiten sopiva malli oli muotoa PRICE = α + β ln(sqft) + u. Jos uima-allas vaikuttaa vain hintatasoon, niin α = α 0 + α 1 D. TÄallÄoin PRICE = α 0 + α 1 D + β ln(sqft) + u. 116

Jos altaallisten hinnan ja pinta-alan suhde on erilainen kuin altaattomien, niin β = β 1 + β 2 D,jolloin PRICE = α+β 1 ln(sqft)+β 1 (D ln(sqft))+u. Kolmas vaihtoehto on, ettäa se vaikuttaa molempiin, jolloin α = α 0 +α 1 D ja β = β 1 +β 2 D. PRICE = α 0 + α 1 D + β 1 ln(sqft) +β 2 (D ln(sqft)) + u. 117

Huom. Viimeinen malli on itse asiassa kaksi erillistäa regressiota. SillÄa erotuksella kuitenkin, ettäa jäaäannäostermienvarianssitovatsamat! Esim. House price data. Price ($1 000) SQFT BEDRMS BATHS POOL i (Y ) (X 1 ) (X 2 ) (X 3 ) (X 4 ) 1 128.5 1219 3 2 0 2 139.5 1210 4 2.5 0 3 139.5 1400 4 2 0 4 152.5 1560 4 2 0 5 153.0 1846 5 2 0 6 185.0 2400 5 3 0 7 209.0 1846 4 2.5 0 8 211.0 1846 5 2.5 1 9 214.0 2300 4 3 0 10 226.0 2230 4 3 0 11 250.0 2300 5 3 0 12 259.0 2180 3 2 0 13 269.9 2527 4 2.5 1 14 298.0 1968 4 3 1 118

Tarkastellaan malleja ja PRICE = α 0 + α 1 D + βsqft + u PRICE = α 0 + α 1 D + β ln(sqft) + u. Saadaan PRICE = 35.440 + 52.327D + 0.0813SQFT + u (0.898) (2.486) (3.951) R 2 =0.720 s =31.327 F (2, 11) = 14.157 PRICE = 910.791 + 51.292D + 146.35LNSQFT + u ( 3.388) (2.480) (4.854) R 2 =0.731 s =30.709 F (2, 11) = 14.955 119

Estimointitulokset Price i ($1000) POOL SQFT DSQFT 1 128.5 0 1219 0 2 139.5 0 1210 0 3 139.5 0 1400 0 4 152.5 0 1560 0 5 153.0 0 1846 0 6 185.0 0 2400 0 7 209.0 0 1846 0 8 211.0 1 1846 1846 9 214.0 0 2300 0 10 226.0 0 2230 0 11 250.0 0 2300 0 12 259.0 0 2180 0 13 269.9 1 2527 2527 14 298.0 1 1968 1968 SUMMARY OUTPUT Regression Statistics Multiple R 0.849 R Square 0.720 Adjusted R Squ 0.669 Standard Error 31.327 Observations 14 ANOVA df SS MS F P-Value Regression 2 27786.140 13893.070 14.157 0.001 Residual 11 10794.869 981.352 Total 13 38581.009 Coefficients Standard Error t Stat P-value Intercept 35.440 39.483 0.898 0.389 POOL 52.327 21.047 2.486 0.030 SQFT 0.081 0.021 3.951 0.002 SUMMARY OUTPUT Regression Statistics Multiple R 0.839 R Square 0.704 Adjusted R Squ 0.651 Standard Error 32.203 Observations 14 ANOVA df SS MS F P-Value Regression 2 27173.359 13586.679 13.101 0.001 Residual 11 11407.650 1037.059 Total 13 38581.009 Coefficients Standard Error t Stat P-value Intercept 39.614 40.918 0.968 0.354 SQFT 0.079 0.021 3.702 0.003 DSQFT 0.024 0.010 2.293 0.043 120

Havaitaan Selitysaste paranee molemmissa tapauksissa huomattavasti Dummy muuttujat ovat tilastollisesti merkitseviäa Perusmallissa 52.327 tarkoittaa, ettäa uimaallas nostaa asunnon hintaa keskimäaäarin $52 327 (kallis!!) Log-mallissa tilanne on likipitäain sama, eli uima-allas nostaa asunnon hintaa keskimäaäarin $51 292. 121

Useampiluokkaiset kvalitatiiviset muuttujat Kotitalouksien säaäastäamiskäayttäaytyminen S = α + βx + u, jossa S =säaäastäaminen ja X = tulot. Ilmeisesti kotitalouden ikäa vaikuttaa myäos. Oletetaan, ettäa käaytettäavissäa onperheenpäaäan ikäaluokka alle 25, 25{55 ja yli 55. IkÄa korvataan täalläoin dummy-muuttujilla siten, ettäa yksi luokista otetaan referenssiluokaksi ja mäaäaritelläaäan dummy muuttujat kahdelle muulle luokalle. 122

Esimerkiksi 1 Jos ikäaluokka on 25{55 D 1 = 0 muuten 1 Jos ikäaluokka on yli 55 D 2 = 0 muuten KontrolliryhmÄassÄa ovat kaikki alle 25 vuotiaat, jolloin siis D 1 = D 2 =0. Malli on tulee muotoon S = α 0 + α 1 D 1 + α 2 D 2 + βx + u. 123

Struktuurimuutoksen testaus SelitettÄavÄan ja selittäaväan muuttujan väalisessäa riippuvuudessa voi tapahtua tietylläa hetkelläa muutos Esim. Autojen polttoaineen kulutus. ÄOljykriisit 1974 ja 1979. Muuttuiko kulutusrakenne? Perusmalli ln C = α + β ln P + γ ln Y + u, jossa C on polttoaineen kulutus, P hinta ja Y tulot. D 1 = D 2 = 1 1 1974 1. neljäanneksestäa alkaen 0 muuten 1979 1. neljäanneksestäa alkaen 0 muuten. 124

Tarkastelussa on siis kolmea periodia: {1973/4, 1974/1{ ja 1979/1{. Jos on eroja, niin α = α 0 + α 1 D 1 + α 2 D 2 β = β 0 + β 1 D 1 + β 2 D 2 γ = γ 0 + γ 1 D 1 + γ 2 D 2 Rajoittamaton malli on siis muotoa ln C = α 0 + α 1 D 1 + α 2 D 2 +β 0 ln P + β 1 Z 1 + β 2 Z 2 +γ 0 ln Y + γ 1 Z 3 + γ 2 Z 4 + u jossa Z 1 = D 1 ln P, Z 2 = D 2 ln P, Z 3 = D 1 ln Y ja Z 4 = D 2 ln Y. Testaus: H 0 : α 1 = α 2 = β 1 = β 2 = γ 1 = γ 2 =0. Testisuureena F -testi kuten aiemmin. MyÄos muita hypoteeseja voidaan helposti johtaa. 125