31C99904, Capstone: Ekonometria ja data-analyysi TA : markku.siikanen(a)aalto.fi & tuuli.vanhapelto(a)aalto.fi Harjoitukset 2 : Monimuuttujaregressio (Palautus 24.1.2017) Tämän harjoituskerran tarkoitus on perehtyä aineiston kuvailuun, yksinkertaisiin regressiomalleihin ja mallien tuloksien tulkintaan Elisa-aineiston avulla. Aineisto ja sen kuvaus löytyvät kurssin Mycoursessivulta. Tehtävien tekoon kannattaa varata kunnolla aikaa, koska Statan käytön aloittaminen voi viedä huomattavan paljon aikaa. Tehtävät voi tehdä 1-2 opiskelijan ryhmissä. Jokainen palauttaa vastauksensa Mycoursessivuston kautta. Liittäkää käyttämänne Stata-koodi kommentoituna jokaisen tehtävän loppuun. 1. Aineiston kuvaileva tarkastelu (a) Laske laitteen ostajan keskimääräinen ikä sukupuolen perusteella. Laske lisäksi ostetun laitteen keskimääräinen hinta ja hinnan varianssi jokaisessa maakunnassa. Miltä laskettujen tilastollisten tunnuslukujen alueellinen vaihtelu näyttää? Taulukko 1: Ostajan keskimääräinen ikä sukupuolen perusteella Sukupuoli x Naiset 38.11 Miehet 38.04 Taulukon 1 mukaan ostajan iällä ei ole suurta eroa miesten ja naisten välillä. Formaalisti tämän voisi testata esimerkiksi t-testin tai regression avulla. Ostajan keskimääräinen ikä on noin 38 vuotta. Taulukko 2: Laitteen keskimääräinen hinta maakunnan perusteella Maakunta x σ x σ 2 N Ahvenanmaa 248.76 70.77 5008.00 2.00 Etelä-Karjala 292.81 215.78 46559.72 556.00 Etelä-Pohjanmaa 304.82 214.64 46070.56 593.00 Etelä-Savo 278.72 208.71 43558.5 432.00 Kainuu 292.92 202.41 40970.84 226.00 Kanta-Häme 301.20 220.85 48772.91 718.00 Keski-Pohjanmaa 281.08 218.81 47876.19 143.00 Keski-Suomi 290.04 215.15 46287.97 918.00 Kymenlaakso 293.44 211.07 44549.00 790.00 Lappi 312.37 256.00 65535.94 506.00 Pirkanmaa 296.11 220.25 48512.07 1763.00 Pohjanmaa 332.05 238.79 57022.94 465.00 Pohjois-Karjala 291.99 203.50 41413.77 773.00 Pohjois-Pohjanma 301.45 222.15 49352.79 1007.00 Pohjois-Savo 268.15 183.82 33790.76 770.00 Päijät-Häme 301.14 239.04 57140.68 658.00 Satakunta 315.03 224.17 50254.23 602.00 Uusimaa 336.44 255.81 65440.4 7488.00 Varsinais-Suomi 319.76 242.29 58705.11 1507.00 Lähde : Elisa 1
Taulukko 2 osoittaa että ostetun laitteen hinnassa ei ole suuria eroja maakuntien välillä. Suurimmat erot löytyvät Pohjois-Savon ja Uudenmaan maakuntien välillä. (b) Laske perintään päätyneiden sopimusten lukumäärä ja maksumuistutuksien lukumäärä jokaisessa maakunnassa. Miten tulkitset laskettuja tilastollisia tunnuslukuja? Taulukko 3: Maksukehoitukset ja perintään menneet ostot maakunnissa Maakunta Maksukehoitukset Perintä N Ahvenanmaa 0 1 2 Etelä-Karjala 1535 42 556 Etelä-Pohjanmaa 1369 31 593 Etelä-Savo 1037 18 432 Kainuu 567 19 226 Kanta-Häme 2038 44 718 Keski-Pohjanmaa 369 5 143 Keski-Suomi 2525 62 918 Kymenlaakso 1847 30 790 Lappi 1143 31 506 Pirkanmaa 5183 86 1763 Pohjanmaa 921 30 465 Pohjois-Karjala 2148 35 773 Pohjois-Pohjanma 2200 55 1007 Pohjois-Savo 1800 40 770 Päijät-Häme 1372 32 658 Satakunta 1321 42 602 Uusimaa 22135 508 7488 Varsinais-Suomi 3666 101 1507 Taulukko 3 kuvaa maksukehoituksien ja perintään menneiden laiteostojen kokonaismääriä maakunnassa. Lisäksi taulukossa on tieto laiteostojen kokonaismäärästä maakunnassa. Taulukosta 3 on huomattavissa, että perintään menneissä ostoissa on selkeää alueellista vaihtelua. Esimerkiksi Kainuun ja Keski-Pohjanmaan välillä on selkeä ero. Maksukehoituksien tulkinta on hankalaa, koska maksukehoitukset kuvaavat asiakassuhteen aikana tulleita maksukehoituksia. Tämän aineiston perusteella on hyvin vaikea sanoa mitään maksukehoituksien ja perintään menneiden laskujen välisestä yhteydestä. (c) Laske ostetun laitteen keskimääräinen hinta ja hinnan varianssi laitetyypin mukaan. Laske lisäksi ostetun laitteen keskimääräinen hinta ja hinnan varianssi valmistajan mukaan. Miten tulkitset laskettuja tilastollisia tunnuslukuja? Taulukko 4: Laitteen hinta laitetyypin mukaan Laitetyyppi x σ x σ 2 N 1 308.65 231.32 53509.94 17898.00 2 292.58 152.93 23386.53 1687.00 3 611.55 433.41 187845.69 415.00 Taulukko 4 pitää sisällään tiedot laitetyypin mukaan lasketusta keskimääräisestä hinnasta. Taulukon mukaan suurin osa ostetuista laitteista kuuluu ensimmäiseen laitetyyppiin ja kalleimmat laitteet löytyvät laitetyypistä kolme. 2
Taulukko 5: Keskimääräinen laitteen hinta laitevalmistajan mukaan Laitevalmistaja x σ x σ 2 N 1 462.44 119.77 14343.83 70.00 2 175.71 86.42 7468.176 214.00 3 657.89 234.95 55200.04 3171.00 4 509.59 196.72 38699.49 72.00 5 137.03 55.35 3063.281 62.00 6 29.88.. 1.00 7 512.06 102.72 10550.58 5.00 8 559.24 79.90 6384.705 72.00 9 483.18 213.71 45673.59 88.00 10 325.10 45.71 2089.501 843.00 11 211.18 100.63 10126.49 1282.00 12 248.40 0.00 0.00 28.00 13 318.48 149.75 22426.24 606.00 14 301.03 61.70 3806.959 239.00 15 139.29 56.49 3190.888 838.00 16 403.23 215.41 46399.55 74.00 17 136.34 103.33 10677.21 2237.00 18 29.52 0.00 0.00 5.00 19 253.10 182.20 33197.37 8828.00 20 397.92 151.35 22906.77 1193.00 21 698.40.. 1.00 22 94.34 63.28 4004.662 70.00 23 83.52.. 1.00 Taulukon 5 perusteella voidaan sanoa, että ostetun laitteen keskimääräinen hinta sisältää huomattavaa valmistajakohtaista vaihtelua. Laitevalmistaja 19 tuotteet ovat ostetuimpia ja laitevalmistaja 3 valmistaman tuotteen keskihinta on kallein(jos ei huomioida yhden havainnon valmistajia). Kun keskihajonta ja varianssi on 0, niin silloin kyseisen laitevalmistajan laitteet on myyty samalla hinnalla. Kun keskihajonta ja varianssi on., niin silloin kyseisiä tunnnuslukuja ei ole voinut laskea yhden havainnon otoksesta. (d) Tee kategorinen ikämuuttuja joka jakaa ostajan iän kahdeksaan kategoriaan. Voit käyttää esimerkiksi seuraavaa luokittelua: 1:18-20,2:21-30,3:31-40,4:41-50,5:51-60,6:61-70,7:71-80,8:81-90. Tässä luokittelussa ikävuodet 18-20 on koodattu arvoksi 1 ja vuodet 61-70 arvoksi 6. Myös oman luokittelun käyttäminen on sallittua. Käytä muodostamaasi ikämuuttujaa pylväsdiagrammissa, mikä kuvaa keskimääräistä laitteenhintaa muodostetuissa ikäkategoriossa. Miten keskimääräinen laitteenhinta vaihtelee ikäkategorioiden välillä? 3
Kuva 1: Keskimääräinen laitteenhinta ikäryhmissä Kuvan 1 mukaan ostajan iän kasvaessa ostetun laitteen keskimääräinen hinta laskee. Samaan tulokseen päädytään myös tehtävän 2) regressioissa. Ostajan ikää kuvaavan muuttujan tapauksessa on tärkeää huomata se, että aineisto sisältää ainoastaan aikuisväestön ostamat laitteet. Tämä asia kannattaa pitää mielessä ikä-muuttujan tulkinnassa. (e) Käytä edellisessä kohdassa muodostettua ikämuuttujaa ja tee sen avulla pylväsdiagrammi perintään päätyneiden sopimusten lukumääristä jokaisessa ikäryhmässä. Kuva 2: Perintään menneiden sopimusten lukumäärät ikäkategorioissa Perintään menneiden sopimusten lukumäärä näyttää kuvan 2 perusteella myös laskevan iän perusteella. 2. Yhden selittäjän regressio (a) Piirrä hajontakuvio ostajan iän ja laitteen hinnan välillä. 4
Kuva 3: Hajontakuvio hinnan ja iän välillä Kaiken aineiston hyödyntävä hajontakuvio ei ole siisti, mutta siitä selviää että iän kasvaessa ostetun laitteen hinta pienenee. Kuva 4: Hajontakuvio keskimääräisen hinnan ja iän välillä Tässä kuviossa aineistoa on muokattu niin, että laitteen keskimääräinen hinta on laskettu ostajan iän mukaisesti. Muokatussa kuvassa aiempi negatiivinen riippuvuus näkyy huomattavasti selvemmin. (b) Suorita seuraava ols-regressio ilman tilasto-ohjelman regressio-komentoa : Laitteenhinta i =β 0 +β 1 Asiakkaanikä i +ɛ i Käytä estimaattorin laskemiseen luentomateriaaleissa esiteltyjä kaavoja. Tehtävässä sallittua käyttää Stataa ols-estimaattorin laskemiseen tarvittavien tilastosuureiden laskemiseen. Luentomateriaaleissa on esitelty seuraavat kaavat: β1 ˆ = cov(x,y) var (x) ja β ˆ 0 = Ȳ ˆβ 1 X Muuttujien välinen kovarianssi cov(x, y) = 686.441 ja iän varianssi v ar (x) = 177.8564. βˆ 1 = cov(x,y) var (x) = 686.441 177.8564 = 3.8595238 βˆ 0 = Ȳ ˆβ 1 X = 460.53599 (c) Suorita vastaava regressio Statan reg-komennolla. Toista lisäksi b)-kohdan regressio missä selitettävä muuttuja on log(laitteenhinta) ja selittäjänä asiakkaan ikä. 5
Taulukko 6: Hinnan ja iän välinen regressio (1) (2) Laitteenhinta ln(laitteenhinta) Asiakkaanikä -3.860*** -0.0143*** (0.122) (0.000399) Vakio 460.5*** 6.012*** (4.925) (0.0161) N 20,000 20,000 R 2 0.048 0.061 Keskivirheet suluissa *** p<0.01, ** p<0.05, * p<0.1 (d) Kuinka tulkitset b) ja c) kohdissa estimoitujen mallien parametrejä ja niiden tilastollista merkitsevyyttä? Ensimmäinen sarake taulukossa 6 pitää sisällään tulokset mallista, missä hintaa selitetään asiakkaan iällä. Regressiota tulkitaan niin, että asiakkaan iän kasvaminen vuodella alentaa ostetun laitteen hintaa 3.86e verran. Tämä tulos on tilastollisesti merkitsevä 1-% tasolla. Toinen sarake pitää sisällään tulokset regressiosta missä hinnan logaritmia selitetään asiakkaan iällä. Koska selitettävästä muuttujasta on otettu logaritmi-muunnos, niin tulosten tulkinta muuttuu hiukan. Nyt iän kasvaminen vuodella laskee hintaa noin -1.43%. Myös tämä tulos on merkitsevä 1%- tasolla. 3. Ostetaanko jouluna kalliimpia laitteita kuin muuna aikana? (a) Määritellään jouluksi vuoden viimeinen neljännes. Muodosta muuttuja, mikä saa arvon 0 tammisyyskuussa ja arvon 1 loka-marraskuussa. Suorita regressio, missä selität hinnan logaritmia ainoastaan joulua kuvaavalla muuttujalla. (b) Tulkitse a)-kohdassa saatua tulosta. (c) Lisää selittäviksi muuttujiksi postinumeron mediaanituloja kuvaava muuttuja ja kunnan asukasluku. Tulkitse estimoidun mallin tuloksia. Taulukko 7: Laitteenhinnan ja "Joulun"välinen suhde (1) (2) ln(laitteenhinta ) ln(laitteenhinta ) Joulu 0.0582*** 0.0582*** (0.0141) (0.0141) POSTINUMERON_MEDIAANITULOT 6.00e-06*** (1.93e-06) ASUKKAITA_1000_KUNNASSA 0.000199*** (2.86e-05) Vakio 5.456*** 5.298*** (0.00608) (0.0399) N 20,000 19,914 R 2 0.001 0.004 Keskivirheet suluissa *** p<0.01, ** p<0.05, * p<0.1 Huomiokaa pieni ristiriita tehtävänannossa. Tässä tehtävässä joulu määritellään loka- ja marraskuuksi. Taulukon 7 ensimmäinen sarake pitää sisällään a)-kohdan vastauksen. Regressiomal- 6
lin mukaan joulu-periodin aikana ostettu laite on noin 5.8% kalliimpi kuin muina ajanhetkinä ostettu laite. Tulos on tilastollisesti merkitsevä 1%-tasolla. Taulukon 7 toinen sarake pitää sisällään b)-kohdan tuloksen. Nyt selittäviksi muuttujiksi lisätään postinumero alueen mediaanitulot ja asukkaiden lukumäärä kunnassa. Molemmilla muuttujilla on positiivinen vaikutus hintaan, mutta vaikutuksen kokoluokka on hyvin pieni. Esimerkiksi asukasluvun kasvaminen kunnassa yhdellä yksiköllä(1000asukasta) lisää hintaa noin 0.02%. Mediaanitulojen kasvun vaikutus on vielä pienempi. Selittäviä muuttujia voisi olla helpompi tulkita tässä tapauksessa, jos ne olisivat logaritmoituja. Selittävien muuttujien lisääminen nostaa hiukan mallin selitysastetta, mutta samalla havaintojen lukumäärä pienentyy, koska kaikista kunnista ei ole saatavilla asukaslukuja mediaanitulotietoja. Tämän vuoksi ei voi sanoa suoraan, että mallin selitysvoiman kasvu johtuu selittäjistä. (d) Toista c) kohdan regressio niin, että määrittelet joulu-muuttujan ainoastaan joulukuun tiedoilla. Miten joulu-muuttujan kerroin muuttuu verrattuna a) ja c) kohtien tuloksiin? Taulukko 8: Laitteenhinnan ja "Joulun"välinen suhde muokatulla joulu-indikaattorilla (1) (2) ln(laitteenhinta ) ln(laitteenhinta ) Joulu 0.0243 0.0261 (0.0189) (0.0190) POSTINUMERON_MEDIAANITULOT 5.80e-06*** (1.93e-06) ASUKKAITA_1000_KUNNASSA 0.000201*** (2.86e-05) Vakio 5.464*** 5.310*** (0.00576) (0.0397) N 20,000 19,914 R 2 0.000 0.004 Keskivirheet suluissa *** p<0.01, ** p<0.05, * p<0.1 Taulukon 8 perusteella regression keskeinen tulos muuttuu. Aiemmin Joulu-indikaattori sai arvon 1 loka-ja marraskuussa, mutta nyt muokattu indikaattoria saa arvon 1 vain joulukuussa. Joulu-muuttujan kerroin pienentyy verrattuna aiemman kohdan kertoimeen ja tulos ei ole enää tilastollisesti merkitsevä. (e) Mitä tilastollisia ongelmia joulu-regressiot pitävät sisällään? Kohdan a) malleissa indikaattori ei välttämättä vangitse täysin "jouluvaikutusta", koska joulukuussa indikaattori saa arvon 0. Tämän muutoksen tekeminen ei tosin muuta tuloksia merkittävästi. Joulu regressioiden keskeinen ongelma on se, että malleissa ei huomioida laitteiden ja ostajien havaittavissa olevia ominaisuuksia. Lisäksi laitteiden elinkaaren vaikutusta hintaan ei huomioida. Tämä tarkoittaa sitä, että ns puuttuvan muuttujan ongelma vaivaa estimoituja malleja. Tällöin mallin virhetermi on korreloitunut joulu-indikaattorin kanssa. On vaikeaa kuvitella, että virhetermiin jäävät tekijät eivät olisi korreloituneita laitteen ostokuukauden kanssa. Harhan suuntaa on vaikea arvioida, koska malleista puuttuu hyvin paljon ostopäätökseen liittyviä kontrollimuuttujia. Osa mallien ongelmista on sellaisia, että saatavilla oleva aineisto asettaa rajoitteita, koska aineistosta ei voi erotella ostajia ja esimerkiksi tutkijalle ei paljasteta mitä esimerkiksi laitetyypit ja myyntikanavat tarkoittavat. 7