Harjoitukset 5 : Differences-in-Differences - mallit (Palautus )

Samankaltaiset tiedostot
Harjoitukset 4 : Paneelidata (Palautus )

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

Harjoitus 7 : Aikasarja-analyysi (Palautus )

Harjoitukset 6 :IV-mallit (Palautus )

Valinnanvapaus ja alueellinen saatavuus Kelan kuntoutuksessa. Visa Pitkänen Tutkija Kelan

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

805324A (805679S) Aikasarja-analyysi Harjoitus 6 (2016)

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tarkastusmuistio Poliisin toimintojen yhdistäminen ja liikennevalvonnan määrä

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MAAKUNTALIITE : Työmarkkinoiden rakenne maakunnittain

Väliestimointi (jatkoa) Heliövaara 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Harjoitus 7: NCSS - Tilastollinen analyysi

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Matkailun merkitys Kymenlaaksolle. Matkailuparlamentti Kuusankoski Jaakko Mikkola

Politiikan vaikutuksien arviointi yritysrahoituksen vaikuttavuus kaudella

Sovellettu todennäköisyyslaskenta B

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

pitkittäisaineistoissa

Regressioanalyysi. Kuusinen/Heliövaara 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Koko kansantalouden arvonlisäys* (BKT) maakunnittain vuonna 2016, %

Dynaamiset regressiomallit

EI MIKÄÄN NÄISTÄ. KUVITETTU MINI-MENTAL STATE EXAMINATION Ohjeet viimeisellä sivulla. 1. Mikä vuosi nyt on? 2. Mikä vuodenaika nyt on?

Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus. Intelin osakekurssi. (Pörssi-) päivä n = 20 Intel_Volume. Auringonpilkkujen määrä

pitkittäisaineistoissa


r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Kuntakysely kohdistettiin kaikkien Manner-Suomen kuntien (295 kpl) johtaville viranhaltijoille, valtuutetuille ja hallitusten jäsenille.

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Kuntakohtainen vaihtelu on huomattavaa. Em. indikaattorien kuntakohtaiset jakaumat.

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Maakuntien yleiskatteellinen rahoituslaskelma, yhteenveto muutoksista

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Mat Tilastollisen analyysin perusteet, kevät 2007

YLEISKUVA - Kysymykset

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

SOTILASAVUSTUSTILASTOJA VUOSI 2002

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

SOTILASAVUSTUSTILASTOJA VUOSI 2004

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Pohjanmaa Etelä-Pohjanmaa Keski-Pohjanmaa Uusimaa Kanta-Häme. Varsinais-Suomi

Esimerkki 1: auringonkukan kasvun kuvailu

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Estimointi. Vilkkumaa / Kuusinen 1

Maakuntien ja seutukuntien suhdanteet

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

5.7 Uskottavuusfunktioon perustuvia testejä II

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

SOTILASAVUSTUSTILASTOJA VUOSI 2003

Katoavat työpaikat. Pekka Myrskylä

SOTILASAVUSTUSTILASTOJA 2006

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

SOTILASAVUSTUSTILASTOJA VUOSI 2005

LASTEN VAATIVA LÄÄKINNÄLLINEN PUHETERAPIAKUNTOUTUS: VALTAKUNNALLINEN SELVITYS

Matemaatikot ja tilastotieteilijät

Tilastollisia peruskäsitteitä ja Monte Carlo

9. laskuharjoituskierros, vko 12-13, ratkaisut

TYÖTTÖMYYS IT-ALALLA KOKO SUOMESSA JA MAAKUNNISSA 5/2011 9/2016. Pekka Neittaanmäki Päivi Kinnunen

Hämeen liitto / AU Väestö kielen mukaan sekä ulkomaan kansalaisten määrä ja maa-pinta-ala Kanta-Hämeessä k Lähde: Tilastokeskus

Maakuntien ja seutukuntien suhdanteet

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Yksityishammaslääkärikysely lokakuussa 2010

Yksityisen sektorin työvoimaselvitys vastaanottokohtaiset tulokset

3. Tietokoneharjoitukset

A250A0050 Ekonometrian perusteet Tentti

11. laskuharjoituskierros, vko 15, ratkaisut

Pk-Pulssi. Marraskuu 2018

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

Osa 2: Otokset, otosjakaumat ja estimointi

Nuorisotakuun seuranta TEM:ssä maaliskuu 2016

Nuorisotakuun seuranta TEM:ssä helmikuu 2016

Kehittämisohjelman yritystukien vaikuttavuus

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

1. Tilastollinen malli??

Sovellettu todennäköisyyslaskenta B

805306A Johdatus monimuuttujamenetelmiin, 5 op

Yksityishammaslääkärikysely lokakuussa vastaanottokohtaiset tulokset

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Suomalaisten kotimaanmatkat kesällä 2017, niiden syyt ja alueen suosittelu

Harjoitusten 4 vastaukset

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Yksikkökate tarkoittaa katetuottoa yhden tuotteen kohdalla. Tämä voidaan määrittää vain jos myytäviä tuotteita on vain yksi.

Kliininen arviointi ja kliininen tieto mikä riittää?

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Transkriptio:

31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 5 : Differences-in-Differences - mallit (Palautus 14.3.2017) Tämän harjoituskerran tarkoitus on perehtyä Differences-in-Differences-mallien käyttöön. Aineistot löytyvät kurssin Mycourses-sivulta. Ensimmäisessä tehtävässä käytetään aiemmin käytössä ollutta Elisan laitemyyntiaineistoa. Toisessa tehtävässä käytetään Dehejian ja Wahban(1999) aineistoa työmarkkinakoulutuksesta. Tehtävät voi tehdä 1-2 opiskelijan ryhmissä. Kumpikin opiskelija osallistuu kaikkien harjoituksen osien tekemiseen. Vaikka harjoitukset tehtäisiin yhdessä, vastaukset kirjoitetaan itsenäisesti ja palautetaan erikseen. Jokainen palauttaa vastauksensa Mycourses-sivuston kautta. Liittäkää käyttämänne Statakoodi kommentoituna jokaisen tehtävän loppuun. 1. Mainoskampanjan vaikutukset laitemyyntiin Elisa haluaa tutkia mainonnan vaikutusta laitemyyntiin Differences-in-Differences(DiD)-tutkimusasetelman avulla. Elisa on kiinnostunut siitä kuinka paljon laitemyynti lisääntyi mainoskampanjan seurauksena. Elisa haluaa siis verrata myynnin kehitystä koe- ja kontrollimaakunnissa ennen ja jälkeen mainoskampanjan. Mainoskampanja toteutettiin Uudenmaan ja Etelä-Savon maakunnissa. Verrokkimaakunniksi Elisa valitsi Pohjois-Savon, Kainuun, Pirkanmaan, Varsinais-Suomen ja Pohjois-Pohjanmaan. Mainoskampanja toteutettiin vuonna 2015 (a) Mitä tietoja tarvitset Elisan laitemyynnistä, jotta voit suorittaa tehtävänannossa määritellyn tutkimuksen DiD-asetelman avulla? Vastaa lyhyesti? Mallin estimointia varten tarvitaan tietoja laitemyynnistä määritellyistä maakunnista ennen ja mainoskampanjan jälkeen. Ideaalisessa tilanteessa käytössä olisi kaikki Elisan myymät laitteet. Mitä enemmän aineistoa on kampanjaa edeltävältä ajalta, niin sitä paremmin kriittisen "Common Trends-oletuksen paikkansa pitävyyttä voidaan tarkastella. Tarkat tiedot myydyistä laitteista ja ostajista auttavat kampanjan analysoinnissa. (b) Millaisia asioita pitäisi olettaa, jotta DiD-asetelmalla saatu estimaatti voitaisiin tulkita mainoskampanjan kausaalivaikutukseksi laitemyyntiin? Mitä pitäisi olettaa koe- ja verrokkiryhmien välisestä suhteesta? Vastaa lyhyesti. Meidän täytyy olettaa, että ilman mainoskampanjaa maakuntien laitemyynti kehittyisi samalla tavalla. Lisäksi oletamme, että mainoskampanja vaikuttaa vain niihin maakuntiin, mihin kampanja on kohdistettu. Esimerkiksi Etelä-Savossa toteutettu kampanja ei vaikuta Pohjois-Savon laitemyyntiin. Uudenmaan ja Etelä-Savon maakuntien laitekysyntä myöskään ei riipu muiden maakuntien laitekysynnästä. Mainoskampanjan harhattoman vaikutuksen estimointi vaatii, että samaan aikaan ei tapahdu asioita, jotka vaikuttavat ihmisten ostokäyttäytymiseen valituissa maakunnissa. (c) Kuvitellaan, että kurssin käytössä oleva Elisan myyntiaineisto sisältää laitemyynnin vuodelta ennen mainoskampanjan alkua, eli kampanja alkoi vuoden 2015 alussa. Piirrä käytössä olevan aineiston avulla kuukausittainen kokonaismyynti näissä valituissa maakunnissa. Ovatko ryhmien myynnin kehitystrendit samansuuntaisia? 1

Kuva 1: Ryhmien väliset trendit Kuvion 1 perusteella kokonaismyynti ja laitteen keskimääräinen hinta eivät seuraa selkeästi samaa trendiä valituissa maakunnissa. Kokonaismyynnin tapauksessa ajatus samasta trendista on parempi kuin keskimääräisen hinnan tapauksessa. Silti kuvan 1 perusteella DiD-mallien kriittinen oletus siitä, että koe-ja kontrolliryhmät kehittyvät ajassa samalla tavalla ennen interventiota ei pidä paikkaansa. Kuva 2: Ryhmien väliset trendit, Etelä-Savo vs Pohjois-Savo Kuva 2 esittää trendit Etelä-Savon ja Pohjois-Savon välillä. Maantieteellisen läheisyyden vuoksi voisi kuvitella, että maakuntien kokonaismyynti seuraa samaa trendiä. Maantieteellinen läheisyys ei näytä takaavan yhtenäisiä trendejä kokonaismyynnissä ja laitteen keskimääräisessä 2

hinnassa. (d) Mitkä asiat voivat mennä pieleen DiD-estimaatin harhattomassa estimoinnissa, kun tarkastelemme mainonnan vaikutusta laitemyyntiin? Vastaa lyhyesti. Ongelmia voi aiheutua seuraavista asioista: Common trends-oletus ei pidä paikkaansa. Tämä voidaan huomata esim edellisessä kohdassa piirretyistä kuvista. Jos trendit eroavat toisistaan jo ennen kampanjaa, niin silloin mallin kausaaliestimaatti tuottaa harhaisen tuloksen. Tulosten tulkinta hankaloituu, jos kampanjalla on vaikutus kaikkien maakuntien myyntiin eikä tutkija tiedosta tätä ongelmaa. Ongelmia voi aiheutua siitä, jos kampanjan kanssa yhtäaikaa tapahtuu joku toinen muutos joka vaikuttaa laitteiden myyntiin. (e) Millaisia keskivirheitä käytät ja miksi? Oikea tapa määritellä keskivirheet on käyttää heteroskedastisuuden suhteen robusteja keskivirheitä, jotka on klusteroitu maakunnan-tasolle. Tällöin oletetaan, että maakuntien sisällä havainnot voivat riippua toisistaan, mutta maakuntien välillä ei ole riippuvuuksia. Klusteroitujen keskivirheiden käyttö vaatii, että klusterien lukumäärä on suuri. Nyt lukumäärä on vain 7 klusteria. Tästä syystä oikeiden keskivirheiden saaminen vaatii keskivirheiden simuloimista bootstrapmenetelmien avulla. Maisteritason ekonometrian kursseilla sivutaan näitä teemoja tarkemmin. 2. Työmarkkinakoulutuksen vaikutus tuloihin Tässä tehtävässä hyödynnetään aineistoa seuraavasta tutkimuksesta: National Supported Work demonstration project and controls. R.H. Dehejia and S. Wahba (1999), "Causal Effects in Nonexperimental Studies: Reevaluating the Evaluation of Training Programs,"JASA, 1053-1062. Aineisto löytyy kurssin Mycourses-sivulta. Aineisto tulee USA:ssa toteutetusta National Supported Work-ohjelmasta. Projektissa yksilöitä arvottiin satunnaisesti työmarkkinakoulutukseen. Työmarkkinakoulutukseen päässeet muodostavat tutkimuksen ns treatment-ryhmän. Kontrolliryhmänä on yksilöt joita ei arvottu ohjelmaan. Työmarkkinakoulutus tapahtui vuosina 1976-1977 ja aineisto sisältää tietoa tuloista vuosilta 1974-1975(ennen koulutusta) ja vuodelta 1978(koulutuksen jälkeen). Aineisto sisältää seuraavat muuttujat: id(yksilön tunniste),year(1,2,3 vuosille 1974,1975 ja 1978), treat(indikaattori koulutukseen päässeille), earns(reaaliset tulot), black(ihonväri),hispanic(etnisyys), educ(koulutus vuosina), married(naimissa). Lisäksi aineistossa on tietoa työmarkkinastatuksesta(u75 ja u74) vuosilta 1974 ja 1975. Samalla tavalla on myös muodostettu vuosien 1974 ja 1975 tuloja kuvaavat muuttujat(re74 ja re75). Koulutukseen osallistuvan henkilön ominaisuuksia kuvaavat muuttujat eivät muutu ajassa. DiD-malleja varten joudut luomaan muuttujan, joka jakaa aineiston aikaan ennen ja jälkeen koulutuksen. Aineistosta löytyy muuttuja(treat), joka jakaa yksilöt koe-ja kontrolliryhmiin. (a) Havainnollista kuvan avulla kuinka koe- ja kontrolliryhmien tulot(earns) kehittyvät ajassa vuosina 1974-1978? 3

Kuva 3: Ryhmien väliset trendit tulojen suhteen Kuva 4 näyttää miten tulot kehittyvät molemmissa ryhmissä. Kuvan perusteella Common trendsoletus näyttää pitävän paikkansa. (b) a)-kohdassa tarkasteltiin ns common trends-oletusta graafisesti. Miten muuten voit tämän aineiston tapauksessa varmistua oletuksen paikkansa pitävyydestä? DiD-mallit perustuvat oletukseen, että ryhmien välillä ei ole systemaattisia eroja ennen kiinnostuksen kohteena olevaa politiikka toimenpidettä tai interventiota. Tätä oletusta voi testata esimerkiksi niin, että ajoittaa koulutuksen vuoteen 2 ja tekee DiD-regression aineiston kahdelle ensimmäiselle vuodelle. Jos ns Common trends-oletus pitää paikkansa, niin silloin ei pitäisi löytyä tilastollisesti merkitseviä vaikutuksia. Tämän tyylisiä regressioita kutsutaan DiD-mallien tapauksessa ns placebo-regressioiksi. Taulukon 2 ensimmäinen sarake pitää sisällään placeboregression tulokset. Tulos on tukee Common trends-oletusta, koska estimoitu placebo-vaikutus on suuruudeltaan pieni ja tilastollisesti ei-merkitsevä. (c) Laske DiD-estimaatti tulojen suhteen ryhmäkohtaisten keskiarvojen avulla ilman Statan regressiokomentoja. Voit käyttää Stataa tarvittavien keskiarvojen laskemiseen. Kuinka työmarkkinakoulutus vaikutti osallistujan tuloihin? Taulukko 1: DiD-ryhmäkeskiarvojen avulla Ryhmä(Koulutus vs ei-koulutusta, Ennen vs Jälkeen) Keskimääräiset tulot a(koulutus, Ennen) 1813.815 b(ei-koulutusta, Ennen) 19246.04 c(koulutus, Jälkeen) 6349.145 d(ei-koulutusta,jälkeen) 21553.92 DiD[(a c) (b d)] 2227.45 Koulutuksen seurauksena koulutukseen osallistuneiden tulot kasvoivat 2227.45(USD) verrattuna kontrolliryhmän tuloihin. (d) Estimoi edellisen kohdan DiD-malli Statan regressiokomentojen avulla. Käytä estimoinnissa regkomentoa. Miten ja miksi tulokset eroavat c)-kohdan tuloksista. 4

Taulukko 2: DiD-regressiot (1) (2) (3) (4) Tulot Tulot Tulot ln(tulot) Koulutus(1:Koulutus,0:Ei-Koulutusta) -17,333*** -17,432*** -10,336*** -1.731*** (996.3) (743.6) (722.9) (0.0674) Jälkeen_placebo(1:vuosi=2,0:vuosi=1) -365.4 (370.5) Koulutus*Jälkeen_placebo -198.1 (1,409) Jälkeen(1:vuosi=3,0:vuosi= 1&2) 2,308*** 2,308*** 0.137*** (338.7) (310.9) (0.0195) Koulutus*Jälkeen 2,227* 2,227* 0.431*** (1,288) (1,182) (0.0941) Ikä 281.6*** (14.28) Koulutus 1,564*** (51.44) Inhonväri -2,991*** (355.1) Etnisyys -391.6 (792.1) Vakio 19,429*** 19,246*** -8,753*** 9.761*** (262.0) (195.6) (943.0) (0.0112) Vuodet 1-2 1-3 1-3 1-3 N 5,350 8,025 8,025 6,988 R 2 0.103 0.092 0.236 0.134 Suluissa keskivirheet *** p<0.01, ** p<0.05, * p<0.1 Taulukossa 2 esitetään Ols-regressioon perustuvat DiD-regressiot. Saatu tulos vastaa keskiarvoilla laskettua estimaattia. Regression avulla DiD-estimaatille saa helposti tilastollisen merkitsevyyden. (e) Lisää edellisen kohdan regressiomalliin kontrollimuuttujiksi ikää, koulutusta, ihonväriä ja etnisyyttä kuvaavat muuttujat. Miten kontrollimuuttujien lisääminen vaikuttaa tuloksiin? Huomaamme, että kontrollimuuttujien lisäämisen seurauksena keskivirheet pienentyvät ja interaktiotermin piste-estimaatti ei muutu lainkaan. (f) Vaihda d)-kohdan regressiomalliin selitettäväksi muuttujaksi tulojen logaritmi. Tulkitse tuloksia. Mitä ongelmia logaritmoitujen tulojen käyttämisestä aiheutuu? Aineistossa oleva tulot-muuttujat sisältää ihmisiä joilla ei ole tuloja. Tästä syystä logaritmin ottaminen poistaa aineistosta ihmiset joilla ei ole tuloja. Tällöin tarkastelu keskittyy töissä käyviin ihmisiin, kun edellisessä DiD-mallissa aineistossa oli työssäkäyviä ja työttömiä ihmisiä. Selitettävän muuttujan muunnoksen seurauksena mallin identifikaatio-oletus tulee tarkistaa uudelleen piirtämällä kuva siitä, miten ryhmien väliset logaritmoidut tulot kehittyvät ajassa. 5

Kuva 4: Ryhmien väliset trendit logaritmoitujen tulojen suhteen Kuvan 4 perusteella Common trends-oletus ei pidä paikkaansa. Tästä syystä taulukon 2 neljännen sarakkeen interaktiotermi ei kuvaa koulutuksen kausaalivaikutusta logaritmoituihin tuloihin. 6