31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 6 :IV-mallit (Palautus 21.3.2017) Tämän harjoituskerran tarkoitus on perehtyä instrumenttimuuttujien(instrumental variables) käyttöön. Toisessa tehtävässä käytetään Acemoglun ja Angristin(2000) aineistoa. Aineisto löytyy kurssin Mycoursessivulta. Tehtävät voi tehdä 1-2 opiskelijan ryhmissä. Kumpikin opiskelija osallistuu kaikkien harjoituksen osien tekemiseen. Vaikka harjoitukset tehtäisiin yhdessä, vastaukset kirjoitetaan itsenäisesti ja palautetaan erikseen. Jokainen palauttaa vastauksensa Mycourses-sivuston kautta. Liittäkää käyttämänne Stata-koodi kommentoituna jokaisen tehtävän loppuun. 1. Koulutuksen vaikutus tulotasoon Tässä tehtävässä perehdytään hypoteettiseen tilanteeseen, missä koulutusvalinnan vaikutusta yksilön tulotasoon tutkitaan instrumenttimuuttujamenetelmän avulla. Tuloina käytetään vuosituloja siltä vuodelta kun henkilö täyttää 35 vuotta. Instrumenttina toimii etäisyys henkilön kodin(mitattu henkilön täyttäessä 15v) ja lähimmän yliopiston välillä. Mallin endogeeninen muuttuja on päätös hakea yliopistoon. Eksogeeniset selittävät muuttujat k, v ja l kuvaavat henkilöä ja hänen perheestään havaittavia ominaisuuksia. (a) Määrittele tässä tehtävässä käytettävän IV-mallin ensimmäisen ja toisen vaiheen regressioyhtälöt. Sisällytä malleihin aiemmin mainitut selittävät muuttujat. = α 0 + α 2 k + α 3 v + α 4 l + α 5 Z + v (1) Y = β 0 + β 1 k + β 2 v + β 3 l + β 4 + ɛ (2) Yhtälö 1 on IV-mallin ensimmäinen vaihe(first stage) ja yhtälö 2 on IV-mallin toinen vaihe(second stage). (Päätös hakea yliopistoon) on mallin endogeeninen muuttuja, Z(Etäisyys) on instrumentti ja Y(Tulot) toisen vaiheen selitettävä muuttuja Eksogeeniset selittävät muuttujat esiintyvät mallin molemmissa vaiheissa. (b) Luentomateriaaleissa määritellään hyvän instrumentin ominaisuudet. Onko etäisyys-instrumentti hyvä näiden kriteerien perusteella? Luentomateriaaleissa instrumentti luokitellaan hyväksi, jos instrumentti ei ole korreloitunut mallin virhetermin kanssa ja instrumentti on korreloitunut mallin endogeenisen muuttujan kanssa. Lisäksi instrumentin tulee täyttää ehto, että se vaikuttaa henkilön tuloihin ainoastaan yliopistoon hakemisen kautta. Jos kodin ja yliopiston välisellä etäisyydellä on suora vaikutus tuloihin, niin silloin instrumentti ei ole sopiva. Instrumentti on eksogeeninen, jos oletamme että henkilön asuinpaikka määräytyy sen perusteella missä hänen vanhempansa asuvat. Vanhemmat valitset asuinpaikan esim työpaikkojensa perusteella. Jos vanhemmat ovat valinneet kotinsa sen perusteella, että he haluavat lapsensa menevän yliopistoon, niin silloin etäisyys voi korreloida virhetermin kanssa. Tässä tehtävässä instrumenttiin liittyvä tarina on tärkeässä asemassa, koska instrumentin eksogeenisuus ei ole täysin selvää(otto ja Lotta Väänänen hyödyntävät tämän tyylistä instrumenttia koulutuksen ja keksintöjen välisen suhteen selvittämisessä, Toivanen& Väänänen "Education and Innovation". Review of Economics and Statistics, (2016)). Lukija täytyy saada vakuutetuksi siitä, että instrumentti on eksogeeninen. Lisäksi mallin selittävät muuttujat voivat kontrolloida puuttuvan muuttujan ongelmasta johtuvia endogeenisuushuolia. (c) Kärsiikö malli luentomateriaaleissa mainitusta heikon instrumentin(weak instrument) ongelmasta? Keksi syitä miksi instrumentti ja yliopistoon hakeutuminen ovat riittävän vahvasti korreloituneita keskenään. Kuinka testaat heikon instrumentin ongelman olemassaoloa? 1
Yliopiston ja kodin välinen etäisyys on todennäköisesti korreloitunut (riittävän) vahvasti yliopistoon hakemisen kanssa, koska esimerkiksi samoja koulutusaloja vertailtaessa lähin vaihtoehto voi tuntua parhaimmalta. Lisäksi etäisyydestä aiheutuu matkakustannuksia henkilölle. Kustannuksien olemassa olo luo korrelaation etäisyyden ja yliopistoon hakemisen välille. (d) Muutetaan etäisyyden määritelmää. Kuvitellaan että etäisyytenä käytetään opiskelijan pääsykoepäivän kotiosoitteen ja yliopiston välistä etäisyyttä. Täyttääkö instrumentti nyt hyvän instrumentin vaatimukset? Aiemmassa tapauksessa ei ole täysin selvää onko instrumentti eksogeeninen vai ei. Nyt instrumentti on selkeästi endogeeninen. Instrumentti ei ole enää eksogeeninen, koska nyt henkilö on itse valinnut kotipaikkansa. Tästä syystä ensimmäisen vaiheen regressiossa virhetermi on korreloitunut etäisyys-muuttujan kanssa. Korrelaatio johtuu siitä, että nyt mallin päätöksentekijä voi vaikuttaa suoraan instrumenttiin. Tästä syystä instrumentti ei enää täytä hyvän instrumentin oletuksia. Jos kuvitellaan, että henkilön asuinpaikka on sama molemmissa tapauksissa, niin silloin a)-kohdan perustelut pätevät myös tähän kohtaan. 2. Perusopetuksen tuotto Tässä tehtävässä käytetään aineistoa Daron Acemoglun ja Joshua D.Angristin tutkimuksesta "How Large Are Human-Capital Externalities? Evidence from Compulsory-Schooling laws?"nber Macroeconomics Annual 2000. Aineisto löytyy kurssin MyCourses-sivulta. Tutkimuksessa perehdytään perusopetuksesta saatavaan taloudelliseen hyötyyn Yhdysvalloissa. Aineisto on peräisin Yhdysvaltojen vuosien 1950-1990 väestölaskennoista. Tarkastelu koskee 40-49 vuotiaita valkoisia miehiä. Aineisto sisältää useita muuttujia, mutta tässä tehtävässä käytämme vain seuraavia muuttujia: viikkopalkan logaritmi(lnwkwage), Yksilön korkein suoritettu koulu-aste(indeduc),väestölaskennan vuosi(year), syntymävuosi(yob), syntymäosavaltio(sob) ja lainsäädäntöindikaattorit(cl6 cl7 cl8 cl9). Lainsäädöntöindikaattorit kuvaavat henkilön syntymäosavaltiossa voimassa olevia lakeja silloin kun henkilö täyttää 14.vuotta. Indikaattorit kuvaavat sitä kuinka monta vuotta koulutusta täytyy suorittaa ennen kuin koulun voi jättää kesken. Koulun jättämisikä on jaettu neljään kategoriaan: kuusi tai alle kuusi vuotta koulutusta(cl6), seitsemän vuotta koulua(cl7), kahdeksan vuotta koulua(cl8) ja yhdeksän tai yli yhdeksän vuotta(cl9) koulua ennen kuin koulun voi jättää kesken. Acemoglu ja Angrist suorittavat seuraavan regression: ln(palkka) = α + βk oulutus + ɛ (3) He ovat kiinnostuneita siitä paljonko (perus)koulutuksen lisääminen vuodella nostaa palkkaa? Tutkimusasetelman haasteena on se, että peruskoulun keskeyttäminen ei ole eksogeenista. Haasteena on muun muassa puuttuvan muuttujan ongelma. Osavaltion havaitsematon taloustilanne voi kannustaa yksilöä jättämään koulun kesken. Tämän seurauksena mallin virhetermi ja koulutusta kuvaava muuttuja ovat korreloituneita. Acemoglu ja Angrist ratkaisevat endogeenisuusongelman työlainsäädäntöön liittyvien instrumenttien avulla. Aineiston lainsäädäntöindikaattorit ovat tutkimuksessa käytettävät instrumentit. Instrumenttien idea piilee siinä, että osavaltiokohtainen lainsäädäntö määrittää sen kuinka monta vuotta yksilön pitää olla koulussa ennen kuin yksilö voi jättää koulun kesken. Lakien seurauksena koulutuksen minimitaso vaihtelee eri osavaltioiden välillä. Minimikoulutuksen taso ei riipu osavaltioiden taloustilanteesta, koska lait on säädetty noin 30 vuotta ennen kuin Acemoglun ja Angristin aineisto alkaa. Samalla on turvallista olettaa, että lapsen vanhemmat eivät valitse lapsen syntymäosavaltiota osavaltiossa vallitsevan minimikoulutus-laisäändännön takia. Tämän tehtävän regressiot sisältävät malleja joihin tulee paljon indikaattorimuuttujia. Tästä syystä tuloksia raportoidessa sinun ei tarvitse välttämättä raportoida syntymävuoden, osavaltion ja väestölaskennan indikaattoreita. Muista liittää Stata-koodit vastaukseesi. (a) Suorita Statan reg-komennolla OLS-regressio missä selität palkan logaritmia koulutuksella, syntymävuoden, osavaltion ja väestölaskennan indikaattoreilla. Kuinka koulutus vaikuttaa palkkaan? 2
Taulukko 1: Koulutuksen ja palkan välinen suhde (1) (2) ln(palkka) ln(palkka) Koulutus 0.0765*** 0.127*** (0.000262) (0.000303) Vakio 3.241*** 4.094*** (0.0180) (0.00384) Osavaltio FE Syntymävuosi FE Väestölaskenta FE N 722,343 722,343 R 2 0.480 0.195 Suluissa keskivirheet Taulukon ensimmäisessä sarakkeessa 1 selitetään palkan logaritmia koulutuksella ja kiinteillä vaikutuksilla. Toisessa sarakkeessa palkan logaritmia selitetään vain koulutuksella. Regressioiden mukaan koulutuksella on positiivinen vaikutus palkan logaritmiin. Mallien ongelma on se, että koulutusta kuvaava muuttuja on korreloitunut molemmissa malleissa mallin virhetermin kanssa. Lisäksi huomaamme, että kontrollimuuttujien poistamisella on suuri vaikutus koulutuksen kertoimeen. Tämä johtuu siitä, että koulutuslainsäädäntö vaihtelee osavaltion-tasolla. Kontrollimuuttujien poistamisen jälkeen koulutusta kuvaavan muuttujan kerroin huomioi myös osavaltioiden välisiä eroja. (b) Suorita edellisen kohdan regressiota vastaava instrumenttiregressio, missä käytät instrumentteina cl7, cl8, cl9-muuttujia(cl6-muuttujaa ei käytetä koska se toimii muiden indikaattorien vertailuryhmänä). Suorita tämä regressio kahdessa vaiheessa ilman Statan ivregress-komentoa(katso IV-luentojen sivut 50-51). Kuinka tulkitset instrumenttimuuttujien kertoimia ensimmäisen vaiheen regressiossa? Ovatko instrumenttien kertoimet odotetun suuntaisia? 3
Taulukko 2: IV-regressio kahden erillisen regression avulla (1) (2) (3) (4) Koulutus ln(palkka) Koulutus ln(palkka) 7 vuotta koulua 0.118*** 0.796*** (0.0183) (0.0136) 8 vuotta koulua 0.146*** 1.255*** (0.0161) (0.0128) 9 vuotta tai enemmän koulua 0.277*** 1.489*** (0.0208) (0.0136) K oulutus ˆ 0.106*** (0.0163) K oulutus ˆ 2 0.526*** (0.00234) Vakio 8.311*** 2.990*** 11.19*** -0.802*** (0.0804) (0.138) (0.0114) (0.0287) Osavaltio FE Syntymävuosi FE Väestölaskenta FE N 722,343 722,343 722,343 722,343 R 2 0.137 0.418 0.020 0.418 Keskivirheet suluissa Taulukossa 2 esitetään kahdessa vaiheessa estimoidun IV-mallin tulokset. Sarakkeissa 1 ja 2 esitetään tehtävänannossa pyydetty malli. Sarakkeessa 1 on mallin ensimmäisen vaiheen regressio. Tuloksien mukaan lisäykset pakollisessa peruskoulutuksessa lisäävät koulutusta. Jos pakollinen peruskoulutus kesti 7 vuotta, niin silloin suoritettu koulutus kasvoi 0.12 vuotta. 8 pakollisen vuoden kohdalla vaikutus on lähes samankaltainen, mutta 9 tai enemmän kuin 9 vuotta pakollista koulutusta kasvatti suoritettua koulutusta noin 0.3 vuoden verran. Tulokset ovat odotettuja, koska koulutusvaatimuksien kasvattaminen kasvattaa suoritetun koulutuksen määrää. Lisäksi vaikutuksien etumerkki on oikea ja kertoimet ovat tilastollisesti merkitseviä. Sarakeissa 3 ja 4 esitetään tulokset ilman kontrollimuuttujia. Huomaamme, että kontrollimuuttujilla on jälleen suuri vaikutus tuloksiin. Vallitseva käytäntö instrumenttimuuttujien suhteen on se, että molempien vaiheiden regressiot esitellään lukijalle. Jos ensimmäisen vaiheen regressiosta ei löydy vaikutusta tai vaikutus on "väärän"suuntainen, niin silloin on syytä epäillä asetelman hyvyyttä. Tässä tehtävässä piti käyttää indikaattoreita osavaltiolle, syntymävuodelle ja väestölaskennan vuosille. Jos edellä mainitut muuttujat sisällytettiin regressioon jatkuvina(ilman Statan i.-etuliitettä), niin silloin muuttujat toimivat lineaarisina trendeinä. Tällöin kontrollimuuttujat eivät kontrolloi niitä tekijöitä joita niiden pitäisi kontrolloida tässä tehtävässä. (c) Vertaa a) ja b)-kohtien tuloksia. Kuinka suuren harhan endogeenisuus aiheuttaa tuloksiin. Endogeenisuuden vuoksi a)-kohdan OLS-estimaatti on pienempi kuin b)-kohdan IV-estimaatti. OLS-estimaatin mukaan vuoden lisäys peruskoulutuksessa lisää tuloja noin 7.7%. Kun koulutuksen endogeenisuus huomioidaan IV-menetelmän avulla, niin silloin vuoden lisäys koulutuksessa lisää palkkaa lähes 11% verran. (d) Toista b)-kohdan regressio Statan ivregress-komennolla. Käytä ivregress komennossa 2sls-asetusta. Kuinka tulkitset koulutuksen ja palkan välistä suhdetta. Miten tämän kohdan ja b)-kohdan tulokset eroavat toisistaan? 4
Taulukko 3: IV-regressio ivregress-komennon avulla (1) (2) ln(palkka) ln(palkka) Koulutus 0.106*** 0.526*** (0.0156) (0.00400) Vakio 2.990*** -0.802*** (0.132) (0.0491) Osavaltio FE Syntymävuosi FE Väestölaskenta FE N 722,343 722,343 R 2 0.470 Keskivirheet suluissa Taulukossa 3 esitetään ivregress-komennon avulla estimoidut IV-mallit. Huomaamme, että mallien tulokset ovat identtisiä edellisten regressioiden kanssa parametriestimaattien suhteen. Vuoden lisäys peruskoulutuksessa nostaa yhä viikko palkkaa noin 11%. Erot löytyvät keskivirheistä. Kun IV-malli estimoidaan kahden OLS-regression avulla, niin silloin toisen vaiheen mallin keskivirheet eivät huomioi sitä, että ensimmäisen vaiheen regressiosta tulevaa epävarmuutta. Kun malli estimoidaan IV-regression komennolla(ivregress), niin silloin keskivirheet huomioivat myös ensimmäisestä vaiheesta tulevan epävarmuuden ja siksi keskivirheet ovat yleensä suuremmat. Nyt tosin ensimmäisessä mallissa keskivirhe pienentyy. Toisen mallin tapauksessa keskivirhe odotetusti kasvaa. (e) Kärsiikö b) ja d)-kohdassa estimoitu malli ns heikkojen instrumenttien ongelmasta. Tarkastele instrumentin vahvuutta luentomateriaaleissa mainitulla tavalla. Taulukko 4: Ensimmäisen vaiheen regressiot (1) (2) Koulutus Koulutus 7 vuotta koulua 0.118*** 0.796*** (0.0183) (0.0136) 8 vuotta koulua 0.146*** 1.255*** (0.0161) (0.0128) 9 vuotta tai enemmän koulua 0.277*** 1.489*** (0.0208) (0.0136) Vakio 8.311*** 11.19*** (0.0804) (0.0114) Osavaltio FE Syntymävuosi FE Väestölaskenta FE F 1156.05 4794.63 N 722,343 722,343 R 2 0.137 0.020 Keskivirheet suluissa 5
Tarkastelemme heikkojen instrumenttien ongelmaa ensimmäisen vaiheen regression kautta. Meitä kiinnostaa korrelaatio instrumentin ja endogeenisen muuttujan välillä. Perehdymme korrelaatioon F-testisuureen avulla. Ekonometrian oppikirjoissa mainitaan, että jos ensimmäisen vaiheen regression F-testisuure on alle 10, niin silloin voi olla syytä epäillä instrumenttien heikkoutta. Nyt huomaamme, että F-testisuure on selkeästi yli 10. Instrumentin vahvuuden tarkasteluun haasteita tuo se, että mallissa on instrumentin lisäksi selittäviä muuttujia. Tällöin korkea F-testisuureen arvo voi selittyä sillä, että selittäjät ovat korreloituneita endogeenisen muuttujan kanssa. Statan estat firstage-komento laskee IV-regression jälkeen F-testisuureen, joka huomio testisuureen laskemisessa mallissa mukana olleet selittävät muuttujat. Seuraava taulukko esittää F-testit, missä huomioidaan mallissa mukana olleet selittäjät: Taulukko 5: Ensimmäisen vaiheen regressioiden F-testit Malli 1 Malli 2 F-testisuure 69.3195 4794.63 Huomaamme, että F-testisuureen arvo on vieläkin yli 10, mutta testisuureen arvo putosi noin 1160 arvosta 70:n arvoon. Tulemme siihen tulokseen, että instrumentti ei kärsi heikon instrumentin ongelmasta. Jos käyttäisimme mallissa heteroskedastisuuden suhteen robusteja keskivirheitä, niin silloin testisuure madaltuu hiukan. Maisteritason ekonometrian kursseilla perehdytään tarkemmin tilastolliseen päättelyyn tilanteissa, missä käytettävä instrumentti kärsii heikon instrumentin ongelmasta. 6