31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 5 : Differences-in-Differences - mallit (Palautus 14.3.2017) Tämän harjoituskerran tarkoitus on perehtyä Differences-in-Differences-mallien käyttöön. Aineistot löytyvät kurssin Mycourses-sivulta. Ensimmäisessä tehtävässä käytetään aiemmin käytössä ollutta Elisan laitemyyntiaineistoa. Toisessa tehtävässä käytetään Dehejian ja Wahban(1999) aineistoa työmarkkinakoulutuksesta. Tehtävät voi tehdä 1-2 opiskelijan ryhmissä. Kumpikin opiskelija osallistuu kaikkien harjoituksen osien tekemiseen. Vaikka harjoitukset tehtäisiin yhdessä, vastaukset kirjoitetaan itsenäisesti ja palautetaan erikseen. Jokainen palauttaa vastauksensa Mycourses-sivuston kautta. Liittäkää käyttämänne Statakoodi kommentoituna jokaisen tehtävän loppuun. 1. Mainoskampanjan vaikutukset laitemyyntiin Elisa haluaa tutkia mainonnan vaikutusta laitemyyntiin Differences-in-Differences(DiD)-tutkimusasetelman avulla. Elisa on kiinnostunut siitä kuinka paljon laitemyynti lisääntyi mainoskampanjan seurauksena. Elisa haluaa siis verrata myynnin kehitystä koe- ja kontrollimaakunnissa ennen ja jälkeen mainoskampanjan. Mainoskampanja toteutettiin Uudenmaan ja Etelä-Savon maakunnissa. Verrokkimaakunniksi Elisa valitsi Pohjois-Savon, Kainuun, Pirkanmaan, Varsinais-Suomen ja Pohjois-Pohjanmaan. Mainoskampanja toteutettiin vuonna 2015 (a) Mitä tietoja tarvitset Elisan laitemyynnistä, jotta voit suorittaa tehtävänannossa määritellyn tutkimuksen DiD-asetelman avulla? Vastaa lyhyesti? Mallin estimointia varten tarvitaan tietoja laitemyynnistä määritellyistä maakunnista ennen ja mainoskampanjan jälkeen. Ideaalisessa tilanteessa käytössä olisi kaikki Elisan myymät laitteet. Mitä enemmän aineistoa on kampanjaa edeltävältä ajalta, niin sitä paremmin kriittisen "Common Trends-oletuksen paikkansa pitävyyttä voidaan tarkastella. Tarkat tiedot myydyistä laitteista ja ostajista auttavat kampanjan analysoinnissa. (b) Millaisia asioita pitäisi olettaa, jotta DiD-asetelmalla saatu estimaatti voitaisiin tulkita mainoskampanjan kausaalivaikutukseksi laitemyyntiin? Mitä pitäisi olettaa koe- ja verrokkiryhmien välisestä suhteesta? Vastaa lyhyesti. Meidän täytyy olettaa, että ilman mainoskampanjaa maakuntien laitemyynti kehittyisi samalla tavalla. Lisäksi oletamme, että mainoskampanja vaikuttaa vain niihin maakuntiin, mihin kampanja on kohdistettu. Esimerkiksi Etelä-Savossa toteutettu kampanja ei vaikuta Pohjois-Savon laitemyyntiin. Uudenmaan ja Etelä-Savon maakuntien laitekysyntä myöskään ei riipu muiden maakuntien laitekysynnästä. Mainoskampanjan harhattoman vaikutuksen estimointi vaatii, että samaan aikaan ei tapahdu asioita, jotka vaikuttavat ihmisten ostokäyttäytymiseen valituissa maakunnissa. (c) Kuvitellaan, että kurssin käytössä oleva Elisan myyntiaineisto sisältää laitemyynnin vuodelta ennen mainoskampanjan alkua, eli kampanja alkoi vuoden 2015 alussa. Piirrä käytössä olevan aineiston avulla kuukausittainen kokonaismyynti näissä valituissa maakunnissa. Ovatko ryhmien myynnin kehitystrendit samansuuntaisia? 1
Kuva 1: Ryhmien väliset trendit Kuvion 1 perusteella kokonaismyynti ja laitteen keskimääräinen hinta eivät seuraa selkeästi samaa trendiä valituissa maakunnissa. Kokonaismyynnin tapauksessa ajatus samasta trendista on parempi kuin keskimääräisen hinnan tapauksessa. Silti kuvan 1 perusteella DiD-mallien kriittinen oletus siitä, että koe-ja kontrolliryhmät kehittyvät ajassa samalla tavalla ennen interventiota ei pidä paikkaansa. Kuva 2: Ryhmien väliset trendit, Etelä-Savo vs Pohjois-Savo Kuva 2 esittää trendit Etelä-Savon ja Pohjois-Savon välillä. Maantieteellisen läheisyyden vuoksi voisi kuvitella, että maakuntien kokonaismyynti seuraa samaa trendiä. Maantieteellinen läheisyys ei näytä takaavan yhtenäisiä trendejä kokonaismyynnissä ja laitteen keskimääräisessä 2
hinnassa. (d) Mitkä asiat voivat mennä pieleen DiD-estimaatin harhattomassa estimoinnissa, kun tarkastelemme mainonnan vaikutusta laitemyyntiin? Vastaa lyhyesti. Ongelmia voi aiheutua seuraavista asioista: Common trends-oletus ei pidä paikkaansa. Tämä voidaan huomata esim edellisessä kohdassa piirretyistä kuvista. Jos trendit eroavat toisistaan jo ennen kampanjaa, niin silloin mallin kausaaliestimaatti tuottaa harhaisen tuloksen. Tulosten tulkinta hankaloituu, jos kampanjalla on vaikutus kaikkien maakuntien myyntiin eikä tutkija tiedosta tätä ongelmaa. Ongelmia voi aiheutua siitä, jos kampanjan kanssa yhtäaikaa tapahtuu joku toinen muutos joka vaikuttaa laitteiden myyntiin. (e) Millaisia keskivirheitä käytät ja miksi? Oikea tapa määritellä keskivirheet on käyttää heteroskedastisuuden suhteen robusteja keskivirheitä, jotka on klusteroitu maakunnan-tasolle. Tällöin oletetaan, että maakuntien sisällä havainnot voivat riippua toisistaan, mutta maakuntien välillä ei ole riippuvuuksia. Klusteroitujen keskivirheiden käyttö vaatii, että klusterien lukumäärä on suuri. Nyt lukumäärä on vain 7 klusteria. Tästä syystä oikeiden keskivirheiden saaminen vaatii keskivirheiden simuloimista bootstrapmenetelmien avulla. Maisteritason ekonometrian kursseilla sivutaan näitä teemoja tarkemmin. 2. Työmarkkinakoulutuksen vaikutus tuloihin Tässä tehtävässä hyödynnetään aineistoa seuraavasta tutkimuksesta: National Supported Work demonstration project and controls. R.H. Dehejia and S. Wahba (1999), "Causal Effects in Nonexperimental Studies: Reevaluating the Evaluation of Training Programs,"JASA, 1053-1062. Aineisto löytyy kurssin Mycourses-sivulta. Aineisto tulee USA:ssa toteutetusta National Supported Work-ohjelmasta. Projektissa yksilöitä arvottiin satunnaisesti työmarkkinakoulutukseen. Työmarkkinakoulutukseen päässeet muodostavat tutkimuksen ns treatment-ryhmän. Kontrolliryhmänä on yksilöt joita ei arvottu ohjelmaan. Työmarkkinakoulutus tapahtui vuosina 1976-1977 ja aineisto sisältää tietoa tuloista vuosilta 1974-1975(ennen koulutusta) ja vuodelta 1978(koulutuksen jälkeen). Aineisto sisältää seuraavat muuttujat: id(yksilön tunniste),year(1,2,3 vuosille 1974,1975 ja 1978), treat(indikaattori koulutukseen päässeille), earns(reaaliset tulot), black(ihonväri),hispanic(etnisyys), educ(koulutus vuosina), married(naimissa). Lisäksi aineistossa on tietoa työmarkkinastatuksesta(u75 ja u74) vuosilta 1974 ja 1975. Samalla tavalla on myös muodostettu vuosien 1974 ja 1975 tuloja kuvaavat muuttujat(re74 ja re75). Koulutukseen osallistuvan henkilön ominaisuuksia kuvaavat muuttujat eivät muutu ajassa. DiD-malleja varten joudut luomaan muuttujan, joka jakaa aineiston aikaan ennen ja jälkeen koulutuksen. Aineistosta löytyy muuttuja(treat), joka jakaa yksilöt koe-ja kontrolliryhmiin. (a) Havainnollista kuvan avulla kuinka koe- ja kontrolliryhmien tulot(earns) kehittyvät ajassa vuosina 1974-1978? 3
Kuva 3: Ryhmien väliset trendit tulojen suhteen Kuva 4 näyttää miten tulot kehittyvät molemmissa ryhmissä. Kuvan perusteella Common trendsoletus näyttää pitävän paikkansa. (b) a)-kohdassa tarkasteltiin ns common trends-oletusta graafisesti. Miten muuten voit tämän aineiston tapauksessa varmistua oletuksen paikkansa pitävyydestä? DiD-mallit perustuvat oletukseen, että ryhmien välillä ei ole systemaattisia eroja ennen kiinnostuksen kohteena olevaa politiikka toimenpidettä tai interventiota. Tätä oletusta voi testata esimerkiksi niin, että ajoittaa koulutuksen vuoteen 2 ja tekee DiD-regression aineiston kahdelle ensimmäiselle vuodelle. Jos ns Common trends-oletus pitää paikkansa, niin silloin ei pitäisi löytyä tilastollisesti merkitseviä vaikutuksia. Tämän tyylisiä regressioita kutsutaan DiD-mallien tapauksessa ns placebo-regressioiksi. Taulukon 2 ensimmäinen sarake pitää sisällään placeboregression tulokset. Tulos on tukee Common trends-oletusta, koska estimoitu placebo-vaikutus on suuruudeltaan pieni ja tilastollisesti ei-merkitsevä. (c) Laske DiD-estimaatti tulojen suhteen ryhmäkohtaisten keskiarvojen avulla ilman Statan regressiokomentoja. Voit käyttää Stataa tarvittavien keskiarvojen laskemiseen. Kuinka työmarkkinakoulutus vaikutti osallistujan tuloihin? Taulukko 1: DiD-ryhmäkeskiarvojen avulla Ryhmä(Koulutus vs ei-koulutusta, Ennen vs Jälkeen) Keskimääräiset tulot a(koulutus, Ennen) 1813.815 b(ei-koulutusta, Ennen) 19246.04 c(koulutus, Jälkeen) 6349.145 d(ei-koulutusta,jälkeen) 21553.92 DiD[(a c) (b d)] 2227.45 Koulutuksen seurauksena koulutukseen osallistuneiden tulot kasvoivat 2227.45(USD) verrattuna kontrolliryhmän tuloihin. (d) Estimoi edellisen kohdan DiD-malli Statan regressiokomentojen avulla. Käytä estimoinnissa regkomentoa. Miten ja miksi tulokset eroavat c)-kohdan tuloksista. 4
Taulukko 2: DiD-regressiot (1) (2) (3) (4) Tulot Tulot Tulot ln(tulot) Koulutus(1:Koulutus,0:Ei-Koulutusta) -17,333*** -17,432*** -10,336*** -1.731*** (996.3) (743.6) (722.9) (0.0674) Jälkeen_placebo(1:vuosi=2,0:vuosi=1) -365.4 (370.5) Koulutus*Jälkeen_placebo -198.1 (1,409) Jälkeen(1:vuosi=3,0:vuosi= 1&2) 2,308*** 2,308*** 0.137*** (338.7) (310.9) (0.0195) Koulutus*Jälkeen 2,227* 2,227* 0.431*** (1,288) (1,182) (0.0941) Ikä 281.6*** (14.28) Koulutus 1,564*** (51.44) Inhonväri -2,991*** (355.1) Etnisyys -391.6 (792.1) Vakio 19,429*** 19,246*** -8,753*** 9.761*** (262.0) (195.6) (943.0) (0.0112) Vuodet 1-2 1-3 1-3 1-3 N 5,350 8,025 8,025 6,988 R 2 0.103 0.092 0.236 0.134 Suluissa keskivirheet *** p<0.01, ** p<0.05, * p<0.1 Taulukossa 2 esitetään Ols-regressioon perustuvat DiD-regressiot. Saatu tulos vastaa keskiarvoilla laskettua estimaattia. Regression avulla DiD-estimaatille saa helposti tilastollisen merkitsevyyden. (e) Lisää edellisen kohdan regressiomalliin kontrollimuuttujiksi ikää, koulutusta, ihonväriä ja etnisyyttä kuvaavat muuttujat. Miten kontrollimuuttujien lisääminen vaikuttaa tuloksiin? Huomaamme, että kontrollimuuttujien lisäämisen seurauksena keskivirheet pienentyvät ja interaktiotermin piste-estimaatti ei muutu lainkaan. (f) Vaihda d)-kohdan regressiomalliin selitettäväksi muuttujaksi tulojen logaritmi. Tulkitse tuloksia. Mitä ongelmia logaritmoitujen tulojen käyttämisestä aiheutuu? Aineistossa oleva tulot-muuttujat sisältää ihmisiä joilla ei ole tuloja. Tästä syystä logaritmin ottaminen poistaa aineistosta ihmiset joilla ei ole tuloja. Tällöin tarkastelu keskittyy töissä käyviin ihmisiin, kun edellisessä DiD-mallissa aineistossa oli työssäkäyviä ja työttömiä ihmisiä. Selitettävän muuttujan muunnoksen seurauksena mallin identifikaatio-oletus tulee tarkistaa uudelleen piirtämällä kuva siitä, miten ryhmien väliset logaritmoidut tulot kehittyvät ajassa. 5
Kuva 4: Ryhmien väliset trendit logaritmoitujen tulojen suhteen Kuvan 4 perusteella Common trends-oletus ei pidä paikkaansa. Tästä syystä taulukon 2 neljännen sarakkeen interaktiotermi ei kuvaa koulutuksen kausaalivaikutusta logaritmoituihin tuloihin. 6