1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Samankaltaiset tiedostot
TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Johdatus regressioanalyysiin. Heliövaara 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

2. Teoriaharjoitukset

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

Harjoitukset 6 :IV-mallit (Palautus )

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Harjoitus 9: Excel - Tilastollinen analyysi

Mat Tilastollisen analyysin perusteet, kevät 2007

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Harjoitukset 4 : Paneelidata (Palautus )

r = r f + r M r f (Todistus kirjassa sivulla 177 tai luennon 6 kalvoissa sivulla 6.) yhtälöön saadaan ns. CAPM:n hinnoittelun peruskaava Q P

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

Dynaamiset regressiomallit

Sovellettu todennäköisyyslaskenta B

Väliestimointi (jatkoa) Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Osa 2: Otokset, otosjakaumat ja estimointi

x 4 e 2x dx Γ(r) = x r 1 e x dx (1)

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

3. Teoriaharjoitukset

Yleinen lineaarinen malli

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Diplomi-insinööri- ja arkkitehtikoulutuksen yhteisvalinta 2017 Insinöörivalinnan matematiikan koe , Ratkaisut (Sarja A)

9. laskuharjoituskierros, vko 12-13, ratkaisut

Vastepintamenetelmä. Kuusinen/Heliövaara 1

4.0.2 Kuinka hyvä ennuste on?

Korrelaatiokertoinen määrittely 165

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

805306A Johdatus monimuuttujamenetelmiin, 5 op

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Todennäköisyyden ominaisuuksia

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

HAVAITUT JA ODOTETUT FREKVENSSIT

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Sovellettu todennäköisyyslaskenta B

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Sovellettu todennäköisyyslaskenta B

Vapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0.

Estimointi. Vilkkumaa / Kuusinen 1

3.6 Su-estimaattorien asymptotiikka

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

Sovellettu todennäköisyyslaskenta B

Endogeenisuus lineaarisessa regressiossa. Endogeneity in linear regression

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018

Testejä suhdeasteikollisille muuttujille

Regressiodiagnostiikka ja regressiomallin valinta

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Testit laatueroasteikollisille muuttujille

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

Moniulotteisia todennäköisyysjakaumia

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

(b) Tunnista a-kohdassa saadusta riippuvuudesta virtausmekaniikassa yleisesti käytössä olevat dimensiottomat parametrit.

Yhden selittäjän lineaarinen regressiomalli

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Harha mallin arvioinnissa

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

,ܾ jaü on annettu niin voidaan hakea funktion

Harjoitus 7: NCSS - Tilastollinen analyysi

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Harjoitus 7 : Aikasarja-analyysi (Palautus )

Vapaus. Määritelmä. Vektorijono ( v 1, v 2,..., v k ) on vapaa eli lineaarisesti riippumaton, jos seuraava ehto pätee:

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

805324A (805679S) Aikasarja-analyysi Harjoitus 6 (2016)

Mat Tilastollisen analyysin perusteet, kevät 2007

13. Ratkaisu. Kirjoitetaan tehtävän DY hieman eri muodossa: = 1 + y x + ( y ) 2 (y )

Transkriptio:

TA7, Ekonometrian johdantokurssi HARJOITUS 7 RATKAISUEHDOTUKSET 16.3.2015 1. Tutkitaan regressiomallia Y i = β 0 + X i + u i ja oletetaan, että tavanomaiset regressiomallin oletukset pätevät (Key Concept 4.3). (a) Yksi regressiomallin oletuksista on, että E[u i X i ] = 0. Näin ollen myös Cov(u i, X i ) = 0. Korvaamalla X i :n Z i :llä, nähdään, että instrumentti on eksogeeninen. Instrumentti on relevantti, sillä regressoitaessa X i :tä itsellään, regressiokerroin on yksi. Korvaamalla selittävä muuttuja Z i :llä, nähdään että instrumentti on X i :n selittävä muuttuja. (b) Koska selittävä muuttuja X i toteuttaa regressiomallin vaaditut ehdot, se toteuttaa myös instrumenttimuuttujalta vaaditut ehdot. Lisäksi X i on käypä instrumenttimuuttuja. (c) Parametrin IV estimaattori on (muista Key Concept 4.2) ˆβ T SLS 1 = s ZY s ZX = s XY s 2 X = ˆβ OLS 1. 2. Tutkitaan regressiomallia Y i = β 0 + X i + β 2 W i + u i jossa X i on korreloitunut virhetermin u i kanssa, W i on eksogeeninen selittävä muuttuja ja Z i on instrumentti. (a) Jos Z i on riippumaton X i :stä, Z i ei ole relevantti instrumentti. Z i ei selitä X i :tä. (b) Jos muuttuja W i on mukana kahteen kertaan, ensimmäisen askeleen regtressiossa selittävät muuttujat ovat täydellisesti multikollineaarisia. (c) Instrumenttimuuttuja W i kanssa. on täydelliseti kollineaarinen vakion (d) Instrumenttimuuttuja Z i on korreloitunut virhetermin u i kanssa koska X i on korreloitunut u i :n kanssa. Instrumentti ei ole eksogeeninen. 1

3. Tutkitaan regressiomallia Y i = β 0 + X i +u i, jossa X i on korreloitunut virhetermin u i kanssa ja Z i on instrumenttimuuttuja. Kuten tehtävänannossa on kuvailtu, ensimmäisessä vaiheessa on estimoitu regressio X i = π 0 + π 1 Z i + v i jossa regression selitysaste on R 2 = 0, 05 havaintojen lukumäärän ollessa n = 100. Tehtävänannon tietojen pohjalta voidaan laskea homoskedastisille virhetermeille tarkoitettu F -testisuure testaamaan nollahypoteesia H 0 : π 1 = 0, F = (R 2 u R 2 r)/k (1 R 2 u)/(n k 1) jossa q = 1 on rajoitteiden lukumäärä, n havaintojen lukumäärä ja k = 1 on regression selittävien muuttujien lukumäärä. Rajoittamattoman mallin selitysaste on R 2 u = 0, 05. Huomaa, että rajoitetun mallin X i = π 0 + v i selitysaste on nolla. 1 Sijoittamalla annetut luvut testisuureen kaavaan saadaan F = 5, 158. "Peukalosäännön" mukaan instrumentti on heikko, jos ensimmäisen vaiheen regressiosta laskettu F - testisuure saa pienemmän arvon kuin 10. Näin ollen instrumenttia voi pitää heikkona ja IV estimaattori on harhainen. Jos havaintojen lukumäärä olisikin ollut n = 500, F -testisuure oliis saanut arvon F = 26, 211. Samaa peukalosääntöä noudattaen instrumentti ei olisikaan ollut tässä tapauksessa heikko, sillä testisuureen arvo on suurempi kuin 10. 4. Yksinkertainen kysyntä-tarjonta -malli voidaan kirjoittaa muodossa Q s i = β 0 + P i + u s i Q d i = γ 0 + u d i Q s i = Q d i. Ensimmäinen yhtälö kuvaa nousevaa tarjontakäyrää ja toinen vaakasuoraa kysyntäkäyrää. Kolmas yhtälö kuvaa markkinatasapoinoa jossa kysytty määrä ja tarjottu määrä on yhtä suurta. Oletetaan lisäksi, että virhetermit u s i ja u d i ovat toisistaan riippumattomia ja samoin jakautuneita. 1 Kun regressiossa ainoa selittävä muuttuja on vakio, saa selitysaste arvon R 2 = 1 SSR/TSS = 1 TSS/TSS = 0. 2

(a) Osoitetaan aluksi, että tässä mallissa hinta P i on endogeeninen muuttuja. Koska tasapainossa Q s i = Qd i = Q i, voimme sijoittaa keskimmäisen yhtälön ensimmäiseen ja ratkaista P i :n: P i = γ 0 β 0 + ud i us i. (1) Nyt suoraviivaisella laskulla saadaan P i :n ja u s i :n väliseksi kovarianssiksi Cov(P i, u s i ) = E [(P EP ) (u s i )] [ u d = E i u s ] i (us i )2 = 1 σu 2 β s 0. 1 (b) Jos mallin selittävä muuttuja on korreloitut virhetermi kanssa, PNS-estimaattori on harhainen (kts. S & W kaava 6.1). (c) Koska u d i on iid virhetermi, parametrin γ 0 PNS estimaattori on harhaton ja se on ˆγ 0 = Q, jossa Q = n 1 n i=1 Q i. Tutkitaan seuraavaksi tasapainohintaa yhtälössä 1 ja merkitään u i = ud i us i. Lasketaan tämän "virhetermin" ja virhetermin u d i välinen kovarianssi, ( u Cov(u i, u d d i ) = Cov i u s ) i, u d i = 1 [ ] E (u d i u s i )u d i = 1 σ 2 u d = σ2 u d, σ u,u d jossa σ 2 u d = Var(u d i ) ja σ u,u d = Cov(u i, u d i ). Koska u i on virhetermi regressiosta jossa hintaa P i selitetään vakiolla ja u d i on virhetermi regressiosta jossa myytyä määrää selitetään vakiolla, edellisen lausekkeen varianssin ja kovarianssin saa estimoitua tarkentuvasti käyttäen niiden tilalla tarkentuvia estimaattoreita s u,u d = n 1 n i=1 û i û d i ja s2 u = (n 1) 1 n i=1 û 2 i. Näin ollen ˆ = s2 u s u,u d 3 σ2 u d σ u,u d =.

Regression 1 PNS estimaattori on P = n 1 n i=1 P i ja harhattomuudesta seuraa, että Näin ollen P γ 0 β 0 P γ0 β 0. ˆβ 0 = ˆγ 0 ˆ P = Q s2 u s u,u d P β 0. 5. Tutkitaan äitien työn tarjonnan ja heidän perheidensä koon välistä yhteyttä. Aineisto pitää sisällään 30 000 yhdysvaltalaisesta väestölaskentaaineistosta satunnaisesti valittua havaintoa 21-35 vuotiaista naisista, heidän tekemistään työviikoista vuonna 1980 sekä heidän perheitään koskevia tietoja. (a) Tutkitaan aluksi miten lasten lukumäärä vaikuttaa vuoden aikana tehtyihin työviikkoihin. Selitetään naisten tekemää työmäärää weeksm1 dummymuuttujalla morekids joka saa arvon yksi kun näisella on enemmän kuin kaksi lasta. Estimoitu regressioyhtälö on weeksm1 i = 21, 478 (0,164) 6, 008. (0,254) Naiset joilla on enemmän kuin kaksi lasta työskentelevät noin 6 viikkoa vähemmän vuodessa kuin naiset joilla on korkeintaan kaksi lasta. (b) Edellisen kohdan PNS estimointi saattaa antaa väärän kuvan todellisuudesta. Sekä tehdyt työviikot että lasten lukumäärä ovat naisten vapaasti valittavissa olevia muuttujia. Näin ollen on helppo kuvitella pois jätettyjä muuttujia jotka vaikuttavat sekä tehtyihin työviikkoihin että naisten hankkimien lasten lukumäärään. Esimerkiksi naiset jotka jotka haluavat keskittyä uraansa saattavat työskennellä keskimääräistä enemmän ja hankkia vähemmän lapsia. Tätä pois jätettyä muuttujaa on tietenkin hankala kontrolloida koska sitä on hankala havaita. (c) Tutktiaan, vaikuttaako kahden ensimmäisen lapsen sukupuoli pariskunnan lasten lukumäärään. Estimoidaan lineaarinen regressiomalli 4

jossa selitetään dummymuuttujaa morekids toisella dummymuuttujalla samesex, joka saa arvon yksi kun äidin kaksi ensimmäistä lasta ovat olleet samaa sukupuolta. Estimoitu malli on morekids i = 0, 344 + 0, 067 samesex i. (0,004) (0,006) Regression mukaan äidit joiden kaksi ensimmäistä lasta ovat olleet samaa sukupuolta saavat 6,7% useammin kolmannen lapsen kuin äidit joilla ei ole samaa sukupuolta olevia lapsia. Regressiokerroin on tilastollisesti merkitsevä. (d) Lasten sukupuoli on aidosti satunnainen ja eksogeeninen muuttuja. Ominaisuudet jotka vaikuttavat äitien tekemään työmäärään eivät vaikuta syntyvien lasten sukupuoleen. Sen sijaan kahden ensimmäisen lapsen sukupuolet vaikuttavat uusien lasten syntymisen todennäköisyyteen, kuten edellisessä kohdassa havaitsimme. Näin ollen instrumentti on relevantti. (e) F-testisuure ensimmäisen vaiheen regressiossa (kohta c)) nollahypoteesille H 0 : β samesex = 0 saa arvon F = 143, 208 joka on paljon suurempi kuin kymmenen. Näin peukalosäännön mukaan instrumenttia ei voi pitää heikkona. 2 (f) Regressoidaan äitien tekemää työmäärää kohdassa c) lasketulla sovitteella morekids. Tämän TSLS regression sovite on weeksm1 i = 21, 488 (1,425) 6, 033 morekids i. (3,758) Kun verrataan TSLS estimaattoria kohdassa a) laskettuun PNS estimaattoriin, havaitaan että tulokset eivät juurikaan poikkea. Sen sijaan estimaattorin keskivirhe on kasvanut huomattavasti. (g) Tutkitaan vielä tarkemmin lasten lukumäärän vaikutusta äitien työn tarjontaan kontrolloimalla äitien rotu sekä ikä (väestönlaskennan hetkellä). Ensimmäisessä vaiheessa lasten lukumäärää 2 Sovitteen heteroskedastisuusrobusti varianssikovarianssimatriisi on [ ] 1, 514 1, 514 10 5, 1, 514 3, 118 mikä on hieman epäilyttävää. 5

regressoidaan eksogeenisilla muuttujilla: morekids i = 0, 173 (0,024) +0, 096 (0,013) + 0, 068 (0,006) samesex i + 0, 016 agem1 i (0,001) black i + 0, 148 (0,012) hispan i + 0, 024 (0,014) Instrumentti on edelleen vahva, sillä F-testisuure nollahypoteesille H 0 : β samesex = 0 saa arvon F = 150, 817 joka on jälleen suurempi kuin kymmenen. Muodostetaan TSLS estimaattori selittämällä äitien työmäärää ensimmäisessä vaiheessa lasketulla sovitteella morekids i ja muilla eksogeenisilla muuttujilla. TSLS regression sovite on weeksm1 i = 4, 370 5, 781 morekids i + 0, 823 (1,228) (3,645) (0,070) +11, 426 (0,655) black i 0, 412 (0,748) agem1 i hispan i + 3, 308 (0,596) Lasten lukumäärän vaikutus työn määrään on suurin piirtein sama kuin aikaisemminkin. Äidit joilla on enemmän kuin kaksi lasta tekevät noin 5,8 viikkoa vähemmän töitä kuin äidit joilla on korkeintaan kaksi lasta. Tämän voi nähdä kertovan siitä, että uudet kontrollimuuttujat ovat riippumattomia samesex muuttujasta. Näin ollen f) kohdan IV regressiossa ei ollut pois jätetyn muuttujan harhaa. othrace i. othrace i. 6