Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

Samankaltaiset tiedostot
Harjoitukset 4 : Paneelidata (Palautus )

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

Harjoitukset 5 : Differences-in-Differences - mallit (Palautus )

Harjoitus 7 : Aikasarja-analyysi (Palautus )

Harjoitukset 6 :IV-mallit (Palautus )

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Regressioanalyysi. Vilkkumaa / Kuusinen 1

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Usean selittävän muuttujan regressioanalyysi

Harjoitus 9: Excel - Tilastollinen analyysi

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Johdatus regressioanalyysiin. Heliövaara 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Til.yks. x y z

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Dynaamiset regressiomallit

Regressioanalyysi. Kuusinen/Heliövaara 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Harjoituksessa tarkastellaan miten vapaa-ajan liikunta on yhteydessä..

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

805306A Johdatus monimuuttujamenetelmiin, 5 op

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Yleistetyistä lineaarisista malleista

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

HAVAITUT JA ODOTETUT FREKVENSSIT

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tehtävät. 1. Ratkaistava epäyhtälöt. a) 2(4 x) < 12, b) 5(x 2 4x + 3) < 0, c) 3 2x 4 > 6. 1/10. Sukunimi (painokirjaimin)

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

Segregaation eri ilmenemismuodot ja sukupuolten palkkaerot

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Anna tutki: Naisen asema työelämässä

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Tekijä(t) Vuosi Nro. Arviointikriteeri K E? NA

Mat Tilastollisen analyysin perusteet, kevät 2007

Kvantitatiiviset menetelmät

... Vinkkejä lopputyön raportin laadintaan. Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset)


Esimerkki 1: auringonkukan kasvun kuvailu

Vanhuuseläkkeelle jäännin vaikutukset terveyteen Suomessa

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

1. Tilastollinen malli??

Facebookin käyttäjien iän, sukupuolen ja asuinpaikan vaikutus. matkailumotivaatioihin ja aktiviteetteihin Juho Pesonen

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat:

Jos Q = kysytty määrä, Q = kysytyn määrän muutos, P = hinta ja P = hinnan muutos, niin hintajousto on Q/Q P/P

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

805324A (805679S) Aikasarja-analyysi Harjoitus 6 (2016)

Sovellettu todennäköisyyslaskenta B

Til.yks. x y z

Teema 5: Ristiintaulukointi

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

TILASTOTIEDE KÄYTÄNNÖN TUTKIMUKSESSA, 8 10 OP Luennoi: yliopisto-opettaja Pekka Pere. Logaritmin muutos ja suhteellinen muutos

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

4.2 Useampi selittävä muuttuja (kertausta)

Metsän hinta Suomessa v kauppahintatutkimuksen tulokset. Maanmittauspäivät Esa Ärölä

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

SUKUPUOLI IKÄÄNTYVÄSSÄ YHTEISKUNNASSA YTI-LUENNOT HANNA OJALA KT, TUTKIJATOHTORI TUTKIJAKOLLEGIUM

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Opiskelija viipymisaika pistemäärä

Sovellettu todennäköisyyslaskenta B

Perimmäinen kysymys. Työllistämisen tukitoimien vaikuttavuuden arvioinnista. Mitkä ovat tukitoimen X vaikutukset Y:hyn? Kari Hämäläinen (VATT)

Epävarmuuden hallinta bootstrap-menetelmillä

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Suomalaisen työn liitto (STL) - Suomalainen kuluttaja muuttuvassa ympäristössä 2014

Liite artikkeliin Intohimo tasa-arvoon

MAY1 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty Julkaiseminen sallittu vain koulun suljetussa verkossa.

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Tilastomenetelmien lopputyö

Mitä kausaalivaikutuksista voidaan päätellä havainnoivissa tutkimuksissa?

Pientalojen radonpitoisuuksien tilastollinen analyysi

Tarkasteluja lähtötason merkityksestä opintomenestykseen. MAMK:n tekniikassa

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

3 Kuluttajan valintateoria: työn tarjonta ja säästäminen ( Mankiw & Taylor, 2 nd ed, ch 21)

Kandidaatintutkielman aineistonhankinta ja analyysi

KASILUOKKA. Koulutusvalinnat ja sukupuoli

Osa 2: Otokset, otosjakaumat ja estimointi

Tarkastusmuistio Poliisin toimintojen yhdistäminen ja liikennevalvonnan määrä

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Mat Tilastollisen analyysin perusteet, kevät 2007

Kansainvälinen naistenpäivä 8. maaliskuuta Naiset ja sukupuolten välinen epätasa-arvo kriisiaikoina

Onko eläkeköyhyys faktaa vai fiktiota? - Eläkkeiden tasot ja ostovoiman kehitys Juha Rantala Ekonomisti Eläketurvakeskus

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

2. Tietokoneharjoitukset

Harjoitus 7: NCSS - Tilastollinen analyysi

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Transkriptio:

31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus 7.2.2017) Tämän harjoituskerran tehtävät liittyvät, eksperimentteihin, aineiston muokkaamiseen ja monimuuttujaregressioon. Empiirisissä tehtävissä aineistona käytämme edelleen Elisan myyntiaineistoa. Aineisto ja sen kuvaus löytyvät kurssin Mycourses-sivulta. Tehtävien tekoon kannattaa varata kunnolla aikaa, koska Statan käytön aloittaminen voi viedä huomattavan paljon aikaa. Regressiomallin tuloksia raportoitaessa anna selkeä tulkinta sille paljonko selitettävä muuttuja muuttuu, kun selittävä muuttuja kasvaa yhden yksikön verran. Tämän lisäksi muista tulkita estimoidun parametrin tilastollista merkitsevyyttä. Tehtävät voi tehdä 1-2 opiskelijan ryhmissä. Jokainen palauttaa vastauksensa Mycourses-sivuston kautta. Liittäkää käyttämänne Stata-koodi kommentoituna jokaisen tehtävän loppuun. 1. Eksperimentin suunnittelu (a) Kuinka Elisa tutkisi ideaalisessa(ilman taloudellisia rajoitteita) tilanteessa laitemyynnin ja mainonnan välistä suhdetta eksperimentin avulla. Kuvaile lyhyesti mitä Elisa voisi oppia eksperimentin avulla laitteiden myynnistä eri myyntikanavissa. Miten määrittelet eksperimenttisi koeja kontrolliryhmät? Ideaalisessa tapauksessa laitemyynnin ja mainonnan suhdetta tutkittaisiin satunnaistetun kokeen avulla. Satunnaistetun kokeen voisi toteuttaa esimerkiksi niin, että mainoskampanjaan osallistuvat myymälät arvotaan(satunnaistetaan). Satunnaistamisen seurauksena tutkimuksen koe-ja kontrolliryhmät ovat havaittavien ominaisuuksien suhteen samankaltaisia. Koeryhmänä toimivat kampanjaan arvotut myymälät ja kontrolliryhmänä toimii kampanjan ulkopuoliset myymälät. Eksperimentin taloudellisten rajoitteiden puuttuessa eksperimentti voidaan toteuttaa kaikkialla Suomessa. Eksperimentin avulla Elisa pystyy esimerkiksi selvittämään kuinka paljon laitteiden myynti lisääntyy mainonnan seurauksena. Samalla voidaan selvittää mikä vaikutus mainonnalla on erilaisten myyntikanavien kautta myytyihin laitteisiin. (b) Onko ehdottamasi tutkimusasetelman toteuttaminen taloudellisesti ja eettisesti mahdollista? Perustele vastaustasi Kokomaan laajuisen eksperimentin toteuttaminen voi tulla liian kalliiksi ja hankalaksi järjestää. Tästä syystä yksittäisen yrityksen vuosittainen markkinointibudjetti ei välttämättä riitä kokomaan kattavaan eksperimenttiin. Mainonnan vaikutusta laitemyyntiin tutkittaessa tutkimuseettiset seikat eivät aseta suuria rajoitteta eksperimentin toteuttamiselle. Esimerkiksi ihmisen terveyteen ja hyvinvointiin liittyvissä eksperimenteissä tutkimuseettiset kysymykset korostuvat. (c) Kuinka Elisa tutkisi laitemyynnin ja mainonnan välistä suhdetta, jos käytössä olevat resurssit ovat rajalliset. Miten määrittelet tässä tapauksessa koe-ja kontrolliryhmät. a)-kohdan eksperimentin voisi toteuttaa esimerkiksi tietyllä maantieteellisellä alueella. Tällöin vertailu perustuu siihen, että verrataan kampanja-aluetta kampanjan ulkopuolisiin alueisiin. Tällöin koeryhmä on eksperimenttiin valikoitu alue ja kontrolliryhmänä toimii maantieteellinen alue, jossa kampanjaa ei toteutettu. (d) Miten a) ja c)-kohdan asetelmat eroavat toisistaan tutkimusasetelmien uskottavuuden suhteen? Molemmat asetelmat voivat tarjota uskottavan estimaatin mainonnan vaikutuksesta laitemyyntiin. C-kohdan eksperimentin kohdalla on tärkeää, että tutkimuksen koe-ja kontrolliryhmät ovat havaittavilta ominaisuuksiltaan samankaltaisia. Jos on mahdollista havaita, että ryhmät ovat samankaltaisia, niin se lisää tutkimuksen uskottavuutta. Jos koe-ja kontrolliryhmät eroavat merkittävästi havaittavien ominaisuuksien perusteella, niin silloin nousee esiin huolet siitä, että havaitsemattomat tekijät vaikuttavat systemaattisesti eksperimentin tuloksiin. 1

2. Aineiston kuvailu kuntatason aineistolla (a) Tarkoituksena on luoda aineisto, missä jokaisesta kunnasta on vain yksi havainto. Muodosta aineisto niin, että aineisto sisältää seuraavat kuntatason muuttujat: ostettujen laitteiden kokonaismäärä, asukasluku, laitteiden kokonaismyynti(kappaleina ja euroina), perintään menneiden laitteiden kokonaismäärä jokaisessa kunnassa, kunnan postinumeroiden keskimääräinen mediaanitulo, ostajan keskimääräinen ikä ja naisten suhteellinen osuus kunnan laiteostajista. Voit käyttää esimerkiksi Statan collapse-komentoa aineiston muokkauksessa. Collapsekomennon dokumentaatio tarjoaa apua aineiston muokkaamiseen. Huomioi, että collapse-komento poistaa alkuperäisen aineiston Statan muistista. Tähän tehtävään riittää vastaukseksi koodi, mikä tuottaa kuntatason aineiston. Do-tiedostossa koodit aineiston muokkaukseen. (b) Piirrä hajontakuviot asukasluvun ja myytyjen laitteiden kokonaismäärän välille. Piirrä lisäksi hajontakuvio asukasluvun ja perintään menneiden laitteiden välillä. Suorita myös vastaavat regressiot. Miten tulkitset hajontakuvioita ja regressioiden tuloksia? Kuva 1: Hajontakuviot asukasluvun, myytyjen laitteiden ja perintään menneiden ostojen välillä Kuva 1 pitää sisällään hajontakuviot asukasluvun, myytyjen laitteiden ja perintään menneiden ostojen välillä. Kuviosta näkyy selvästi, että myytyjen laitteiden lukumäärä kasvaa kunnan asukasluvun kasvaessa. Asukasluku on vahvasti korreloitunut myytyjen myytyjen laitteiden ja perintään menneiden ostojen lukumäärän kanssa. Hajontakuviot myös näyttävät, että Helsinki poikkeaa muista Suomen kunnista myynnin perusteella. 2

Taulukko 1: Regressiot asukasluvun, myytyjen laitteiden ja perintään menneiden ostojen välillä (1) (2) (3) (4) Myydyt_laitteet(kpl) Myydyt_laitteet(kpl) Perintään menneet(kpl) Perintään menneet(kpl) Asukasluku 4.571*** 4.286*** 0.322*** 0.273*** (0.0510) (0.0718) (0.00489) (0.00609) Vakio -15.74*** -11.62*** -1.748*** -1.042*** (2.543) (2.548) (0.244) (0.216) Helsinki pois X X N 296 295 296 295 R 2 0.965 0.924 0.936 0.873 Taulukko 1 pitää sisällään regressiot missä selitetään myytyjen laitteiden ja perintään menneiden ostojen lukumääriä kunnan asukasluvulla. 1000 asukkaan lisäys asukasluvussa nostaa myytyjen laitteiden lukumäärää noin 4.6 laitteella. Perintään menneiden laitteiden tapauksessa 1000 asukkaan kasvu asukasluvussa lisää perintään menneitä ostoja 0.322 kappaleen verran. Kaikissa regressioissa tulokset ovat tilastollisesti merkitseviä 1%-tasolla ja selitysaste on yli 90%. Korkeasta selitysasteesta huolimatta mallit ovat huonoja, koska malleista puuttuu laitteiden kysyntään liittyviä selittäviä muuttujia. Toisessa ja neljännessa sarakkeessa esitetään tulokset malleille, mistä on poistettu Helsinki. Yhden havainnon poistaminen johtaa siihen, että tuloksissa tapahtuu selkeä muutos ja mallin selitysvoima laskee. Varsinkiin perintään menneiden ostojen tapauksessa ero on merkittävä. On lisäksi syytä myös miettiä, onko selitettävien muuttujien ja asukasluvun välinen suhde lineaarinen. (c) Suorita regressio missä selität kunnan laitemyyntiä asiakkaan keskimääräisellä iällä, kunnan asukasluvulla, naisten suhteellisella osuudella ja postinumeron mediaanitulojen keskiarvolla. Tulkitse regression tuloksia. Mitä ongelmia postinumeron mediaanitulojen keskiarvon käyttämiseen liittyy? Taulukko 2: Kuntatason monimuuttujaregressio (1) (2) VARIABLES Myydyt_laitteet(kpl) Myydyt_laitteet(kpl) Asukasluku 4.579*** 4.284*** (0.0526) (0.0749) Keskimääräinen asiakkaan ikä 0.605 0.486 (0.461) (0.442) Naisten suhteellinen osuus 0.137 0.670 (13.68) (13.08) Keskimääräinen mediaanitulo -0.000281 0.000495 (0.00104) (0.00100) Vakio -34.23-40.39 (28.63) (27.40) Helsinki_poistettu X N 296 295 R 2 0.965 0.924 3

Taulukko 2 pitää sisällään kuntatason monimuuttujaregression. Asukasluvun kerroin ei muutu paljoa taulukon 1 tuloksista. Mallin muut selittäjät eivät ole tilastollisesti merkitseviä esim 5%- tai 10%-tasolla. Taulukon 2 toinen sarake pitää sisällään tulokset mallista, mistä Helsingin havainto on poistettu. Tuloksissa on selkeitä eroja. Esimerkiksi naisten suhteellisen osuuden kerroin on yli neljä kertaa suurempi sarakkeessa 2 kuin sarakkeessa 1. Keskimääräisen mediaanitulon kerroin muuttuu negatiivisesta positiiviseksi, kun Helsinki poistetaan aineistosta. Postinumeron mediaanitulojen keskiarvon käyttäminen selittäjänä on ongelmallista muuttujan tulkinnan kannalta. (d) Testaa c)-kohdan regressiossa keskimääräisen iän ja naisten suhteellisen osuuden yhteismerkitsevyyttä. Lisäksi testaa keskimääräisen iän ja asukasluvun yhteismerkitsevyyttä. Miten tulkitset yhteismerkitsevyyksiä? Muuttujien yhteismerkitsevyys voidaan selvittää F-testin avulla. Testin idea on selvittää onko tietyllä muuttujajoukolla tilastollisesti merkitsevä vaikutus selitettävään muuttujaan sen sijaan, että testaisimme yksittäisten muuttujien tilastollista merkitsevyyttä. Kurssikirjan sivut 229-232 käsittelevät yhteismerkitsevyyden testaamista yksinkertaisen esimerkin avulla. Aluksi suoritetaan regressiomalli, minkä parametrien yhteismerkitsevyyttä haluamme tutkia. Tässä tapauksessa mallimme on taulukon 2 sarake 1. Huomaamme, että ostajan keskimääräinen ikä ja naisten suhteellinen osuus eivät ole tilastollisesti merkitseviä edes 10%-tasolla. On kuitenkin mahdollista, että muuttujat ovat yhdessä merkitseviä. Asukasluku on tilastollisesti merkitsevä 1%-tasolla. Yhteismerkitsevyys-testin tulosta tulkitaan niin, että ikä ja naisten suhteellinen osuus eivät ole yhdessä merkitseviä, mutta ikä ja asukasluku ovat. Taulukko 3: Yhteismerkitsevyydet Ikä ja naisten osuus Ikä ja asukasluku F 0.86 3797.22 Prob > F 0.4236 0.00 3. Saavatko uudet asiakkaat parempia laitetarjouksia kuin vanhat asiakkaat? (a) Luo aluksi muuttuja, mikä erottaa vanhat asiakkaat uusista asiakkaista(1=vanha asiakas,0=uusi asiakas). Kutsutaan tätä muuttujaa asiakasmuuttujaksi. Uudet asiakkaat voi erottaa vanhoista asiakkaista asiakassuhteen pituuden avulla. Suorita regressio missä selität hinnan logaritmia asiakasmuuttujalla. Tulkitse tuloksia. 4

Taulukko 4: Regressiot asiakasmuuttujalla (1) (2) (3) VARIABLES ln(hinta) ln(hinta) ln(hinta) Asiakasmuuttuja(1=vanha) -0.137*** -0.138*** -0.140*** (0.0112) (0.0112) (0.0112) Sukupuoli(1=nainen) -0.0748*** -0.0746*** (0.0109) (0.0109) Postinumeron mediaanitulot 7.20e-06*** (1.93e-06) asukasluku 0.000199*** (2.85e-05) Vakio 5.549*** 5.589*** 5.408*** (0.00869) (0.0105) (0.0403) N 20,000 20,000 19,914 R 2 0.007 0.010 0.014 Taulukon 4 ensimmäisestä sarakkeesta löytyy asiakasmuuttujan kerroin. Tuloksen mukaan vanhat asiakkaat maksavat noin 13.7% vähemmän kuin uudet asiakkaat laitteestaan. Asiakasmuuttujan kerroin on tilastollisesti merkitsevä 5%-tasolla. Tulosta tulkittaessa täytyy huomioida se, että mallissa ei kontrolloida laitteen ja asiakkaan ominaisuuksia lainkaan. Virhetermi sisältää tekijöitä, jotka ovat korreloituneet asiakasmuuttujan kanssa. (b) Lisää edellisen kohdan regressioon selittäjäksi ostajan sukupuoli. Tulkitse tuloksia ja selitä lyhyesti miksi sukupuolen lisääminen vaikuttaa asiakasmuuttujan kertoimeen. Taulukon 4 toinen sarake sisältään tulokset regressioon, missä laitteen log(hintaa) selitetään asiakasmuuttujalla ja ostajan sukupuolella. Asiakasmuuttujan kerroin muuttuu hiukan verrattuna a)-kohtaan. Tuloksen mukaan naisten ostamat laitteet ovat noin 7.48 % halvemmat kuin miesten ostamat laitteet, kun kaikki muut tekijät pidetään vakiona. Sukupuolta kuvaavan muuttujan lisääminen selittäjäksi muuttaa hiukan asiakasmuuttujan kerrointa. Tämä johtuu siitä, että sukupuoli- ja asiakasmuuttuja eivät ole välttämättä täysin riippumattomia toisistaan. Tällöin ns puuttuvan muuttujan harha pienentyy, kun aiemmin virhetermissä ollut tekijä tuodaan malliin selittäjäksi. Tämä tulos on tilastollisesti merkitsevä 1%-tasolla. Tuloksia tulkitessa tulee huomioida a)-kohdassa esitetyt endogeenisuushuolet, koska virhetermi sisältää suurella todennäköisyydellä tekijöitä, jotka ovat korreloituneet asiakasmuuttujan kanssa. (c) Toista b) kohdan regressio niin, että lisäät selittäjiksi postinumeroalueen mediaanitulot ja kunnan asukasmäärän. Tulkitse tuloksia. Taulukon 4 kolmas sarake sisältää tulokset regressioon, missä laitteen log(hintaa) selitetään asiakasmuuttujalla, ostajan sukupuolella, postinumeron mediaanituloilla ja kunnan asukasluvulla. Kun asiakasmuuttujan kertoimia verrataan muihin taulukon malleihin, niin kannattaa huomioida se, että kolmannessa sarakkeessa malliin lisätään selittäviä muuttujia ja samalla havaintojen kokonaislukumäärä muuttuu. Havaintojen kokonaislukumäärä muuttuu, koska kaikista kunnista ei ole saatavilla tietoa asukasluvusta eikä postinumeron mediaanitulosta. Asukasluvulla ja postinumeron mediaanituloilla on positiivinen ja tilastollisesti merkitsevä vaikutus ostetun laitteen hintaan. Kun kunnan asukasluku kasvaa yhdellä yksiköllä(1000 asukasta), niin ostetun laitteen hinta kasvaa 0.02% kun kaikki muut tekijät pidetään vakiona. Kun postinumeron mediaanitulot kasvavat eurolla, niin ostetun laitteen hinta kasvaa alle 0.0001%, kun muut tekijät pidetään vakiona. Mediaanituloille saa järkevämmän tulkinnan jos tekee uuden muuttujan mikä 5

kuvaa mediaanituloja tuhansina euroina. (d) Suorita c)-kohdan regressio miehille ja naisille erikseen. Tulkitse tuloksia ja pohdi lyhyesti mitkä mallista puuttuvat tekijät voivat selittää erot asiakasmuuttujan kertoimissa, kun malleja verrataan sukupuolen perusteella. Taulukko 5: Regressiot asiakasmuuttujalla sukupuolen mukaan (1) (2) ln(hinta) ln(hinta) Asiakasmuuttuja(1=vanha) -0.160*** -0.123*** (0.0167) (0.0151) Postinumeron mediaanitulot 7.92e-06*** 6.61e-06** (2.83e-06) (2.64e-06) Asukasluku 0.000187*** 0.000207*** (4.28e-05) (3.82e-05) Vakio 5.407*** 5.334*** (0.0583) (0.0544) Sukupuoli Mies Nainen N 9,393 10,521 R 2 0.013 0.010 Taulukko 5 sisältää tulokset asiakasmuuttuja-regressiot, missä aineisto on jaettu sukupuolen mukaan. Nyt huomaamme, että miesten ja naisten kohdalla asiakasmuuttujan kerroin on negatiivinen ja tilastollisesti merkitsevä. Kun aineisto jaetaan sukupuolen perusteella, niin silloin ei ole enää mahdollista estimoida sukupuoli-muuttujaa. Tulosten mukaan vanhat mies asiakkaat saavat laitteita halvemmalla kuin vanhat naisasiakkaat. Asiakasmuuttujan kerrointa ei kannata kuitenkaan tulkita ns kausaalisesti, koska mallissa ei kontrolloida laitteen ja kuluttajan ominaisuuksia. Estimoidut mallit eivät huomio sitä mahdollisuutta, että miehet ja naiset ostavat erilaisia laitteita. On mahdollista, että valikoituminen havaitsemattomat selittää tulokset. 6