3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa. Y i = + 1 X i1 +...+ p X ip + u i



Samankaltaiset tiedostot
3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa

3. Useamman selittäajäan regressiomalli

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =


A250A0050 Ekonometrian perusteet Tentti

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

Capacity Utilization

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Frequencies. Frequency Table

Testejä suhdeasteikollisille muuttujille

Perusnäkymä yksisuuntaiseen ANOVAaan

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Efficiency change over time

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

Mat Tilastollisen analyysin perusteet, kevät 2007

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Lauri Tarkkonen: Erottelu analyysi

Regressioanalyysi. Kuusinen/Heliövaara 1

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Lohkotekijät muodostuvat faktoreista, joiden suhteen ei voida tehdä (täydellistä) satunnaistamista.

Regressio-termi peräaisin Galtonilta. IsÄan ja pojan pituus: PitkÄa isäa lyhyempi poika, lyhyt isäa pidempi poika.

I. Principles of Pointer Year Analysis

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

Testit järjestysasteikollisille muuttujille

MTTTP5, luento Luottamusväli, määritelmä

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

812336A C++ -kielen perusteet,

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Kaksitasoiset hierarkiset asetelmat (Two-Stage Nested Designs) 9. Muita koeasetelmia. 9.1 Hierarkiset asetelmat (Nested Designs)

Väliestimointi (jatkoa) Heliövaara 1

Toimittaja Erä

Todennäköisyyden ominaisuuksia

1. Tutkitaan tavallista kahden selittäjän regressiomallia

HAVAITUT JA ODOTETUT FREKVENSSIT

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

Other approaches to restrict multipliers

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

2. Tietokoneharjoitukset

voidaan hylätä, pienempi vai suurempi kuin 1 %?

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Sovellettu todennäköisyyslaskenta B

Kaksisuuntainen varianssianalyysi. Heliövaara 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Harjoitus 9: Excel - Tilastollinen analyysi

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

2. Keskiarvojen vartailua

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Kvantitatiivinen genetiikka moniste s. 56

Sovellettu todennäköisyyslaskenta B

Harha mallin arvioinnissa

SPSS-perusteet. Sisältö

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-C2{04 Tilastollisen analyysin perusteet

Tavoite on eliminoida sen vaikutus koetuloksista. 4. Satunnaistetut lohkokokeet, latinalaiset neliöt ja vastaavat asetelmat. Eliminointimenetelmiä:

Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Harjoitus 7: NCSS - Tilastollinen analyysi

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Korrelaatiokertoinen määrittely 165

Yhden faktorin koeasetelma, jossa faktorilla on a tasoa (kokeessa on a käsittelyä).

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Yleistetyistä lineaarisista malleista

Transkriptio:

3. Useamman selittäajäan regressiomalli p-selittäaväaäa muuttujaa Y i = + 1 X i1 +...+ p X ip + u i i = 1,...,n (> p), missäa n = havaintojen lukumäaäaräa otoksessa. Oletukset kuten aiemmin: (1) E(u i )=0, i (2) Var(u i )=u, 2 i (3) Cov(u i,u j )=0, i = j (4) Cov(X ij,u i )=0, i, j (5) X-muuttujat eiväat saa olla lineaarisesti riippuvia Derivoimalla yhtäaläo X ij :n suhteen saadaan Y i = j, X ij j =1,...,p,joten j :n tulkinta on: Y i muuttuu j :n verran X ij :n muuttuessa yhdelläa yksikäolläa ja muiden muuttujien arvojen pysyessäa ennallaan. Example. In June 1978, California voters approved what is known as Proposition 13 limiting property taxes. This led to substantial and di erential reduction in property taxes, which led to an increase in housing prices. Rosen (1982) (Journal of Political Economy, pp. 191{200) studied the impact of reduction in property taxes on housing prices in San Francisco Bay Area. Besides property taxes, there are other factors that determine housing prices and these have to be taken into account in the study. Rosen therefore included other characteristics of the house. The variables determining the housing prices were speci ed as x 1 = change (decrease) in post-proposition 13 mean house taxes x 2 = (mean) square footage of house x 3 = median income of families in the area x 4 = mean age of house x 5 = transportation time to San Francisco x 6 = housing-quality index as computed by real estate appraisers The dependent variable was y = change in the post-proportion 13 mean house prices n = 64. The estimated model was ^y =0.171 +7.275x 1 +0.547x 2 +0.00073x 3+ 0.0638x 4 (2.97) (2.32) (1.34) (3.26) 0.0043x 5 +0.857x 6 (2.24) (1.80) R 2 =0.897, tvalues in parentheses. 85 86 All the coe±cients have the expected signs. The coe±cient of x 1 indicates that each $1 decrease in property taxes increases property values of $7. The question is whether this is about the right magnitude. Assuming that the property tax reduction is expected to be at the same level in the future years, the present value of a $1 return per year is 1/r, wherer is the rate of interest (also expected to remain the same). This is equalto $7ifr = 14.29%. The interest rates at that time were around this level and Rosen concludes: The capitalization rate implied by this equation is about 7 which is precisely the magnitude that one would expect with an interest rate of 12{15%. Esimointi tapahtuu OLS:llÄa, jossa minimoidaan residuaalien neliäosumma n SSE = ^e 2 n i = (Y i ^^ 1 X i1 ^ p X ip ) 2 i=1 i=1 kertoimien ^, ^ 1,...,^ p suhteen. Asettamalla osittaisderivaatat nolliksi ja ratkaisemalla saadaan normaaliyhtäaläot. Yi = n^ + ^ 1 Xi1 + + ^ p Xip Yi X i1 = ^ X i1 + ^ 1 X 2 i1 + + ^ p Xi1 X ip. Yi X ip = ^ X ip + ^ 1 Xi1 X ip + + ^ p X 2 ip jossa on p +1 yhtäaläoäa jap + 1 tuntematonta (regressiokertoimet). 87 88

Esitys saadaan huomattavasti kompaktimpaan muotoon kun otetaan käayttäoäon matriisilaskennan merkinnäat Y 1 = + 1 X 11 + + p X 1p + u 1 Y 2 = + 1 X 21 + + p X 2p + u 2. Y n = + 1 X n1 + + p X np + u n, joka voidaan koota matriisiesitykseksi Y 1 1 X 11 X 12... X 1p Y 2. = 1 X 21 X 22... X 2p 1..... + Y n 1 X n1 X n2... X np p eli y = X + u. u 1 u 2. u n NormaaliyhtÄalÄot: X y =(X X)ˆ josta :n OLS-estimaattoriksi saadaan jossa ˆ =(X X) 1 X y, ^ = ^ ^ 1 ^ 2. ^ p on p + 1 komponentin vektori. 89 90 3.1 Standardoidut regressiokertoimet RegressioyhtÄalÄossÄa Y i = + 1 X i1 + + p X ip + u i kerroin j edustaa muuttujan X j marginaaliefektiäa. YleensÄa muuttujat ovat erilaisissa mittayksikäoissäa, joten regressiokertoimet eiväat ole suoraan vertailukelpoisia keskenäaäan. Jotta vertailua voitaisiin tehdäa, on kertoimet standardoitava. Standardoimalla muuttujat ensin y i = Y i ¹Y s y x ij = X ij ¹X j, s j jossa s y on Y :n keskihajonta ja s j on X j :n keskihajonta (j = 1,...,p). Estimoimalla kertoimet standardoitujen muuttujien yhtäaläostäa y i = 1 x i1 + 2 x i2 + + px ip + u i, jossa siis j = s j s y j saadaan standardodut kertoimet joita kutsutaan beeta-kertoimiksi. NÄamÄa ovat vertailukelpoisia keskenäaäan. 91 92

Esim. Price ($ 1 000) SQFT BEDRMS BATHS i (Y ) (X 1 ) (X 2 ) (X 3 ) 1 128.5 1219 3 2 2 139.5 1210 4 2.5 3 139.5 1400 4 2 4 152.5 1560 4 2 5 153.0 1846 5 2 6 185.0 2400 5 3 7 209.0 1846 4 2.5 8 211.0 1846 5 2.5 9 214.0 2300 4 3 10 226.0 2230 4 3 11 250.0 2300 5 3 12 259.0 2180 3 2 13 269.9 2527 4 2.5 14 298.0 1968 4 3 Standardoimattomaton regressiomalli P i =60.817 + 0.0866 SQ i 24.577 BE i +31.006 BA i. Standardoitu regressiomalli p i =0.6923 sq i 0.2991 be i +0.2496 ba i. Excel tulostus SUMMARY OUTPUT Regression Statistics Multiple R 0.808 R Square 0.652 Adjusted R 0.548 Standard E 36.636 Observatio 14 ANOVA df SS MS F P-value 25159.29 8386.43 0.012 Regression 3 6.25 Residual 10 13421.72 1342.17 Total 13 38581.01 Coeff Std Err t Stat P-value Intercept 60.817 73.922 0.823 0.430 SQFT 0.087 0.029 2.948 0.015 BEDRMS -24.577 16.773-1.465 0.174 Ei tilastollisesti merkitsevä! BATHS 31.005 30.226 1.026 0.329 Ei tilastollisesti merkitsevä! Coefficients SQFT 0.692 BEDRMS -0.299 BATHS 0.250 DATA Price Price SQFT BEDRMS BATHS i ($1000) SQFTEDRMSBATHS 1 128.5 1219 3 2 Mean 202.49 1916.57 4.14 2.50 2 139.5 1210 4 2.5 Standard E 14.56 116.39 0.18 0.12 3 139.5 1400 4 2 Median 210.00 1907.00 4.00 2.50 4 152.5 1560 4 2 Mode 139.50 1846.00 4.00 2.00 5 153 1846 5 2 Standard D 54.48 435.49 0.66 0.44 6 185 2400 5 3 Kurtosis -1.16-1.04-0.31-1.77 7 209 1846 4 2.5 Skewness 0.18-0.41-0.15 0.00 8 211 1846 5 2.5 Range 169.50 1317.00 2.00 1.00 9 214 2300 4 3 Minimum 128.50 1210.00 3.00 2.00 10 226 2230 4 3 Maximum 298.00 2527.00 5.00 3.00 11 250 2300 5 3 Sum 2834.90 26832.00 58.00 35.00 12 259 2180 3 2 Count 14 14 14 14 13 269.9 2527 4 2.5 14 298 1968 4 3 93 94 3.2 Yhteensopivuus 3.3 Hypoteesien testaus Y i = + 1 X i1 + + p X ip + u i R 2 = SSR SSE =1 SST SST. R 2 :n kasvaa tai ei ainakaan pienene, kun malliin lisäatäaäan muuttujia, on niilläa todellista merkitystäa taiei. Haluttaessa "rangaista" turhien muuttujien lisäaäamistäa malliin voidaan käaytäaäa niin sanottuakorjattuaselitysastetta(adjustedr-square, ¹R 2 ) ¹R 2 SSE/(n p 1) =1 =1 n 1 SST/(n 1) n p 1 (1R2 ) eli jossa s 2 u = ¹R 2 =1 s2 u s 2, y 1 (Yi ^Y i ) 2 ja s 2 y = 1 (Yi ¹Y ) 2. n p 1 n 1 Esim. (Housing data) 95 YksittÄaisten kertoimien testaus t-testisuure: t j = ^ j 0 j s^ j, missäa j =1,...,p ja j 0 on jokin annettu luku (usein j 0 =0). Hypoteesit: tai tai H 0 : j = j 0 H 1 : j = j 0. H 0 : j 0 j H 1 : j > 0 j. H 0 : j 0 j H 1 : j < 0 j. 96

Esim. (Jatkoa) H 0 : 3 0 H 1 : 3 > 0 t =1.0258 < 1.812 = t.05 (10), joten H 0 jäaäa voimaan ja päaäattelemme, ettäa kylpyhuoneiden lukumäaäaräalläa ei ainakaan täamäan aineiston perusteella ole tilastollisesti merkitseväaäa vaikutusta asunnon hintaan. Samoin on makuuhuoneiden lukumäaäaräan kanssa (etumerkkikin on vastoin oletusta!). Useamman kertoimen samanaikainen testaus (R) Y = + 1 X 1 + + p X p + u (U) Y = + 1 X 1 + + p X p + p+1 X p+1 + + p+m X p+m + v H 0 : p+1 = = p+m =0 H 1 :jokin p+k =0(k =1,...m) Testisuure: F = (SSE R SSE U )/m SSE U /(n p m 1) = SSE R SSE U n p m 1, SSE U m joka noudattaa F -jakaumaa vapausasteilla f 1 = m ja f 2 = n p m 1, jos H 0 on tosi. Huom. Erikoistapauksena on ANOVA-taulun F -testi, joka siis testaa onko milläaäan X-muuttujalla vaikutusta Y -muuttujaan. 97 98 Kertoimien lineaarikombinaatioiden testaus Usein mallin parametrien väalille voidaan mielekkäaäalläa tavalla asettaa rajoitteita. Esim. Kulutusfunktio (makrotalous) C t = 0 + 1 W t + 2 P t + u t, jossa C on kokonaiskulutus, W palkkatulot ja P muut tulot (päaäaomatulot etc). Parametri 1 on palkkatulojen rajakulutusalttius ja 2 muiden tulojen rajakulutusalttius. Samoja? ErÄas tapa: (R) C t = 0 + 1 (W t + P t )+u t = 0 + 1 Y t + u t (U) C t = 0 + 1 W t + 2 P t + u t, jossa Y t = W t + P t. Testisuure F = (SSE R SSE U )/(df R df U ), SSE U /df U joka on nollahypoteesin vallitessa F -jakautunut vapausasteilla df R df U ja df U. H 0 : 1 = 2 H 1 : 1 = 2 Testaus voidaan toteuttaa useammalla eri tavalla, jotka kuitenkin johtavat samaan lopputulokseen. 99 100

Esim. USA Data. USA Consumption Data CONS (C t): Real consumption expenditures in billions of 1982 dollars GNP (Y t): Real gross national product in billions of 1982 dollars WAGES: Total compensation of employees (wages, salaries, and supplements) in billions of current dollars. PRDEFL: Implicit price de ator for consumption, 1982 = 100 (this is a price index for consumption goods) Reaalipalkat ja muut tulot: W t = 100 WAGES t PRDEFL t P t = Y t W t. Annual Data on Consumption, GNP, Wage Bill, and Prices Ramu Ramanathan (1992). Introductory Econometrics with Applications, 2nd Edition, pp.215-216. Year CONS GNP WAGES PRDEFL W P 1948 681.8 1108.7 142.1 25.7 552.9 555.8 1949 695.4 1109.0 142.0 25.6 554.7 554.3 1950 733.2 1203.7 155.4 26.2 593.1 610.6 1951 748.7 1328.2 181.6 27.8 653.2 675.0 1952 771.4 1380.0 196.3 28.4 691.2 688.8 1953 802.5 1435.3 210.4 29.0 725.5 709.8 1954 822.7 1416.2 209.4 29.1 719.6 696.6 1955 873.8 1494.9 225.9 29.5 765.8 729.1 1956 899.8 1525.6 244.7 30.1 813.0 712.6 1957 919.7 1551.1 257.8 31.0 831.6 719.5 1958 932.9 1539.2 259.8 31.6 822.2 717.0 1959 979.4 1629.1 281.2 32.3 870.6 758.5 1960 1005.1 1665.3 296.7 32.9 901.8 763.5 1961 1025.2 1708.7 305.6 33.3 917.7 791.0 1962 1069.0 1799.4 327.4 33.9 965.8 833.6 1963 1108.4 1873.3 345.5 34.4 1004.4 868.9 1964 1170.6 1973.3 371.0 35.0 1060.0 913.3 1965 1236.4 2087.6 399.8 35.6 1123.0 964.6 1966 1298.9 2208.3 443.0 36.7 1207.1 1001.2 1967 1337.7 2271.4 475.5 37.6 1264.6 1006.8 1968 1405.9 2365.6 524.7 39.3 1335.1 1030.5 1969 1456.7 2423.3 578.4 41.0 1410.7 1012.6 1970 1492.0 2416.2 618.3 42.9 1441.3 974.9 1971 1538.8 2484.8 659.4 44.9 1468.6 1016.2 1972 1621.9 2608.5 726.2 46.7 1555.0 1053.5 1973 1689.6 2744.1 812.8 49.6 1638.7 1105.4 1974 1674.0 2729.3 891.3 54.8 1626.5 1102.8 1975 1711.9 2695.0 948.7 59.2 1602.5 1092.5 1976 1803.9 2826.7 1057.9 62.6 1689.9 1136.8 1977 1883.8 2958.6 1176.6 66.7 1764.0 1194.6 1978 1961.0 3115.2 1329.2 71.6 1856.4 1258.8 1979 2004.4 3192.4 1491.4 76.2 1957.2 1235.2 1980 2004.4 3187.1 1638.2 86.6 1891.7 1295.4 1981 2024.2 3248.8 1807.4 94.6 1910.6 1338.2 1982 2050.7 3166.0 1907.0 100.0 1907.0 1259.0 1983 2146.0 3279.1 2020.7 103.9 1944.9 1334.2 1984 2249.3 3501.4 2213.9 107.7 2055.6 1445.8 1985 2354.8 3618.7 2367.5 110.9 2134.8 1483.9 1986 2446.4 3717.9 2511.4 113.8 2206.9 1511.0 1987 2513.7 3853.7 2690.0 117.4 2291.3 1562.4 1988 2598.4 4024.4 2907.6 121.3 2397.0 1627.4 1989 2668.5 4142.6 3145.4 126.3 2490.4 1652.2 101 102 Scatter Plots Regression Results Scatter plotofconsum ption vs W Consum ption (C) 3000 2500 2000 1500 1000 500 UNRESTRICTED MODEL Regression Statistics Multiple R 0.998 R Square 0.996 Adjusted R Square 0.996 Standard Error 36.8 Observations 42 ANOVA df SS MS F Significance F 14502298 7251149 0.0000 Regression 2 5357 Residual 39 52790 1354 Total 41 14555088 Coefficients Standard Error Stat P-value t -107.283 40.319-2.66 0.011 Intercept W 0.743 0.068 10.90 0.000 P 0.560 0.127 4.42 0.000 0 0 500 1000 1500 2000 2500 3000 Wage (W ) Scatter PlotofConsum ption on P 3000 2500 RESTRICTED MODEL Regression Statistics Multiple R 0.998 R Square 0.996 Adjusted R Square 0.996 Standard Error 36.7 Observations 42 ANOVA df SS MS F Significance F 14501103.61 14501103.61 3.04788E-50 Regression 1 10745 Residual 40 53984 1350 Total 41 14555087.79 Consum ption (C) 2000 1500 1000 500 0 0 200 400 600 800 1000 1200 1400 1600 1800 Other incom e (P) Coefficients Standard Error t Stat P-value -141.74126 16.69522003-8.489930536 1.7346E-10 Intercept GNP 0.67953082 0.006555592 103.6566709 3.0479E-50 Test for H 0 : 1 = 2 F df p-value 0.88 1, 39 0.353 Ei ole tilastollisesti merkitsevä, täten H 0 jää voimaan eli kulutusalttiudet eivät poikkea toisistaan 103 104

Regressioestimaatit: (R) ^C t = 141.74 + 0.680Y t (U) ^C t = 107.28 + 0.743W t +0.560P t SSE R = 53 984 SSE U = 52 790 (53984 52790)/1 F = 0.88 52790/39 F -jakauman taulukosta F 1,39 (.05) = 4.09 > 0.88 = F, joten H 0 : 1 = 2 (samat rajakulutusalttiudet) hyväaksytäaäan. TÄaten päaäadymme tulokseen, ettäa päaäaomatulojen ja palkkatuilojen rajakulutusalttiudet ovat samat. Sama SAS-ohjelman Reg-proceduurilla SAS-Ajojono options ls = 80 ps = 80; data usacons; infile d:\rawdata\usaconsu.dat firstobs=5; input Year CONS GNP WAGES PRDEFL W P; proc reg; model cons = w p; equality: test w-p=0; run; Tulokset: Model: MODEL1 Dependent Variable: CONS Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model 2 14502299.325 7251149.6623 5357.133 0.0001 Error 39 52788.46613 1353.55041 C Total 41 14555087.791 Root MSE 36.79063 R-square 0.9964 Dep Mean 1486.02143 Adj R-sq 0.9962 C.V. 2.47578 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP 1-107.258308 40.31842945-2.660 0.0113 W 1 0.743301 0.06816597 10.904 0.0001 P 1 0.560389 0.12693140 4.415 0.0001 105 Test: EQUALITY Numerator: 1195.7169 DF: 1 F value: 0.8834 Denominator: 1353.55 DF: 39 Prob>F: 0.3531 106 Yleistys: y = X + u. Parametrien väalille asetetut (lineaariset) rajoitteet voidaan esittäaäa yleisessäa muodossa H 0 : C =0, jossa C on r (p +1) matriisi, missäa r on rajoitteiden lukumäaäaräa. Esim. EdellÄa Huom. df 1 = r. 0 1 1 0 1 =0. 2 Esim. Cobb-Douglas tuotantofunktio Q t = ckt L t, jossa Q on tuotanto, K päaäaoma käayttäotunteina ja L tyäovoima tyäotunteina. Logaritmoimalla ja lisäaäamäalläa residuaalitermi saadaan lineaarinen ekonometrinen malli ln Q t = 0 + ln K t + ln L t + u t. Parametrit ja voidaan osoittautuvat joustoiksi, silläa = K Q Q K = ln Q ln K ja = L Q Q L = ln Q ln L. 107 108

Havaitaan, esim. jos K 2K ja L 2L, niin Q 1 = c(2k) (2L) =2 + Q. (a) + =1 vakiot skaalatutot + < 1 laskevat skaalatutot + > 1 kasvavat skaalatuotot (b) = sama rajattuottavuus päaäaomallajatyäovoimalla. Vakioiden skaalatuottojen ( + = 1) testaamiseksi malli voidaan kirjoittaa muotoon ln Q t = 0 + (ln K t ln L t)+( + )lnl t + u t eli merkitsemäalläa Y t =lnq t, X 1t =lnk t ln L t, X 2t = ln L t ja 2 = +, saadaan Y t = 0 + X 1t + 2 X 2t + u 2. Vakioiden skaalatuottojen testaamiseksi testataan siis hypoteesia H 0 : 2 = 1 (vastahypoteesina H 1 : 2 =1). Testaus t-testilläa t = ^ 2 1 t(n 3), kun H 0 on tosi. s^2 109 110 Yhdysvaikutus Esim. Kulutusfunktio C t = + Y t + u t. Joskus oletetaan, ettäa rajakulutusalttius riippuu varallisuudesta. Esimerkiksi, jos riippuvuus on lineaarista, siten ettäa = 1 + 2 A, jossa A ilmaisee varallisuutta. Silloin C t = + Y t + u t = + 1 Y t + 2 (Y t A t )+u t Testattava hypoteesi täalläoin on 3.4 Mallin täasmennysvirhe (Spesi ointivirhe) Mallin täasmennysvirheen syitäa voivatolla: muuttujien valinta funktion muoto jäaäannäostermin jakaumaominaisuudet H 0 : 2 =0. Jos H 0 hyläatäaäan on saatu evidenssiäa, ettäa varallisuus vaikuttaa rajakulutusalttiuteen. 111 112

Tarkastellaan täassäa vain muuttujien valintaa Oletetaan, ettäa oikea malli on muotoa Y i = 0 + 1 X i1 + 2 X i2 + u i, mutta estimoidaankin "liian lyhyt" malli Y i = 0 + 1 X i1 + v i, jossa itse asiassa v i = u i + 2 X i2 (i =1,...,n). TÄallÄoin voidaan helposti osoittaa, ettäa s E(^ 1 )= 1 + 12 2 s 2, 2 jossa s 12 = 1 n (X i1 ¹X 1 )(X i2 ¹X 2 ) n 1 i=1 ja s 2 2 = 1 n (X i2 ¹X 2 ) 2. n 1 i=1 TÄaten, jos s 12 =0on ^ 1 harhainen, eikäa se enäaäa kuvaax 1 :n marginaaliefektiäa, vaan X 1 suoraajaepäasuoraa vaikutusta (X 2 :n kautta). Jos taas estimoidaan "liian pitkäa" malli Y i = 0 + 1 X i1 + 2 X i2 + 3 X i3 + u i, jossa siis todellisuudessa 3 = 0, niin E (^ 1 )= 1, E(^ 2 )= 2 ja E (^ 3 ) = 0. Estimaattorit ovat siis harhattomia, mutta voidaan kuitenkin osoittaa, ettäa estimaattoreiden varianssit ovat suurempia kuin oikein täasmennetyn mallin. SiispÄa estimoinnin tarkkuus käarsii. 113 114 3.5 ViivÄastetyt muuttujat Taloudessa vaikutukset näakyväat usein viipeelläa Esim. Y t = + 1 G t + 2 G t1 + 3 M t + 4 M t1 + 5 T t + 6 T t1 + 7 X t + 8 X t1 + u t jossa Y on kansantulo, G julkinen kulutus, T verot, M rahan tarjonta ja X vienti. Estimointivaiheessa käaytettäavissäa on havainnot t =2, 3,... Viivemalleissa selittäajäanäa voi olla myäos selitetty muuttuja viiväastettynäa, esim. Y t = + 1 Y t1 + 2 X t + u t. 3.6 Dummy muuttujat Kaksi luokkaa Dummy- eli keinomuuttujien avulla voidaan selittäaviksi muutujiksi valita myäos kvalitatiivisia tekijäoitäa. Esim. Housing Data 1, asunnossa on uima-allas D = 0, asunnossa ei ole uima-allasta. Aiemmin esitimoitu parhaiten sopiva malli oli muotoa PRICE = + ln(sqft) + u. Jos uima-allas vaikuttaa vain hintatasoon, niin = 0 + 1 D. TÄallÄoin PRICE = 0 + 1 D + ln(sqft) + u. 115 116

Jos altaallisten hinnan ja pinta-alan suhde on erilainen kuin altaattomien, niin = 1 + 2 D,jolloin PRICE = + 1 ln(sqft)+ 1 (D ln(sqft))+u. Kolmas vaihtoehto on, ettäa se vaikuttaa molempiin, jolloin = 0 + 1 D ja = 1 + 2 D. PRICE = 0 + 1 D + 1 ln(sqft) + 2 (D ln(sqft)) + u. Huom. Viimeinen malli on itse asiassa kaksi erillistäa regressiota. SillÄa erotuksella kuitenkin, ettäa jäaäannäostermienvarianssitovatsamat! Esim. House price data. Price ($1 000) SQFT BEDRMS BATHS POOL i (Y ) (X 1 ) (X 2 ) (X 3 ) (X 4 ) 1 128.5 1219 3 2 0 2 139.5 1210 4 2.5 0 3 139.5 1400 4 2 0 4 152.5 1560 4 2 0 5 153.0 1846 5 2 0 6 185.0 2400 5 3 0 7 209.0 1846 4 2.5 0 8 211.0 1846 5 2.5 1 9 214.0 2300 4 3 0 10 226.0 2230 4 3 0 11 250.0 2300 5 3 0 12 259.0 2180 3 2 0 13 269.9 2527 4 2.5 1 14 298.0 1968 4 3 1 117 118 Tarkastellaan malleja Estimointitulokset PRICE = 0 + 1 D + SQFT + u ja PRICE = 0 + 1 D + ln(sqft) + u. Saadaan PRICE = 35.440 + 52.327D + 0.0813SQFT + u (0.898) (2.486) (3.951) R 2 =0.720 s =31.327 F (2, 11) = 14.157 PRICE = 910.791 + 51.292D + 146.35LNSQFT + u (3.388) (2.480) (4.854) R 2 =0.731 s =30.709 F (2, 11) = 14.955 Price i ($1000) POOL SQFT DSQFT 1 128.5 0 1219 0 2 139.5 0 1210 0 3 139.5 0 1400 0 4 152.5 0 1560 0 5 153.0 0 1846 0 6 185.0 0 2400 0 7 209.0 0 1846 0 8 211.0 1 1846 1846 9 214.0 0 2300 0 10 226.0 0 2230 0 11 250.0 0 2300 0 12 259.0 0 2180 0 13 269.9 1 2527 2527 14 298.0 1 1968 1968 SUMMARY OUTPUT Regression Statistics Multiple R 0.849 R Square 0.720 Adjusted R Squ 0.669 Standard Error 31.327 Observations 14 ANOVA df SS MS F P-Value 27786.140 13893.070 14.157 0.001 Regression 2 Residual 11 10794.869 981.352 Total 13 38581.009 Coefficients Standard Error t Stat P-value 35.440 39.483 0.898 0.389 Intercept POOL 52.327 21.047 2.486 0.030 SQFT 0.081 0.021 3.951 0.002 SUMMARY OUTPUT Regression Statistics Multiple R 0.839 R Square 0.704 Adjusted R Squ 0.651 Standard Error 32.203 Observations 14 ANOVA df SS MS F P-Value 27173.359 13586.679 13.101 0.001 Regression 2 Residual 11 11407.650 1037.059 Total 13 38581.009 Coefficients Standard Error t Stat P-value 39.614 40.918 0.968 0.354 Intercept SQFT 0.079 0.021 3.702 0.003 DSQFT 0.024 0.010 2.293 0.043 119 120

Havaitaan Selitysaste paranee molemmissa tapauksissa huomattavasti Dummy muuttujat ovat tilastollisesti merkitseviäa Perusmallissa 52.327 tarkoittaa, ettäa uimaallas nostaa asunnon hintaa keskimäaäarin $52 327 (kallis!!) Log-mallissa tilanne on likipitäain sama, eli uima-allas nostaa asunnon hintaa keskimäaäarin $51 292. Useampiluokkaiset kvalitatiiviset muuttujat Kotitalouksien säaäastäamiskäayttäaytyminen S = + X + u, jossa S =säaäastäaminen ja X = tulot. Ilmeisesti kotitalouden ikäa vaikuttaa myäos. Oletetaan, ettäa käaytettäavissäa onperheenpäaäan ikäaluokka alle 25, 25{55 ja yli 55. IkÄa korvataan täalläoin dummy-muuttujilla siten, ettäa yksi luokista otetaan referenssiluokaksi ja mäaäaritelläaäan dummy muuttujat kahdelle muulle luokalle. 121 122 Esimerkiksi 1 Jos ikäaluokka on 25{55 D 1 = 0 muuten 1 Jos ikäaluokka on yli 55 D 2 = 0 muuten KontrolliryhmÄassÄa ovat kaikki alle 25 vuotiaat, jolloin siis D 1 = D 2 = 0. Malli on tulee muotoon S = 0 + 1 D 1 + 2 D 2 + X + u. Struktuurimuutoksen testaus SelitettÄavÄan ja selittäaväan muuttujan väalisessäa riippuvuudessa voi tapahtua tietylläa hetkelläa muutos Esim. Autojen polttoaineen kulutus. ÄOljykriisit 1974 ja 1979. Muuttuiko kulutusrakenne? Perusmalli ln C = + ln P + ln Y + u, jossa C on polttoaineen kulutus, P hinta ja Y tulot. 1 1974 1. neljäanneksestäa alkaen D 1 = 0 muuten 1 1979 1. neljäanneksestäa alkaen D 2 = 0 muuten. 123 124

Tarkastelussa on siis kolmea periodia: {1973/4, 1974/1{ ja 1979/1{. Jos on eroja, niin = 0 + 1 D 1 + 2 D 2 = 0 + 1 D 1 + 2 D 2 = 0 + 1 D 1 + 2 D 2 Rajoittamaton malli on siis muotoa ln C = 0 + 1 D 1 + 2 D 2 + 0 ln P + 1 Z 1 + 2 Z 2 + 0 ln Y + 1 Z 3 + 2 Z 4 + u jossa Z 1 = D 1 ln P, Z 2 = D 2 ln P, Z 3 = D 1 ln Y ja Z 4 = D 2 ln Y. Testaus: H 0 : 1 = 2 = 1 = 2 = 1 = 2 =0. Testisuureena F -testi kuten aiemmin. MyÄos muita hypoteeseja voidaan helposti johtaa. 125