Capstone: Kerrostaloasuntojen hinnanmuodostumisen tutkiminen Helsingissä ja Espoossa käyttäen hedonistista regressiota

Samankaltaiset tiedostot
Harjoitukset 4 : Paneelidata (Palautus )

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Harjoitukset 5 : Differences-in-Differences - mallit (Palautus )

Harjoitukset 6 :IV-mallit (Palautus )

Harjoitus 7 : Aikasarja-analyysi (Palautus )

Kaikkiin kysymyksiin vastataan kysymys paperille pyri pitämään vastaukset lyhyinä, voit jatkaa paperien kääntöpuolille tarvittaessa.

Yleistetyistä lineaarisista malleista

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Testejä suhdeasteikollisille muuttujille

A250A0050 Ekonometrian perusteet Tentti

Väliestimointi (jatkoa) Heliövaara 1

Vanhojen asuntojen hintojen kasvu yhtä ripeää kuin pääkaupunkiseudulla

Harjoitus 7: NCSS - Tilastollinen analyysi

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

pitkittäisaineistoissa

Mat Tilastollisen analyysin perusteet, kevät 2007

Regressioanalyysi. Kuusinen/Heliövaara 1

pitkittäisaineistoissa

Dynaamiset regressiomallit

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

4.0.2 Kuinka hyvä ennuste on?

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Sovellettu todennäköisyyslaskenta B

TILTP Tiina Karjalainen, Tiina Lehto, Terhi Teiskonlahti Sivu 1/5

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

riippumattomia ja noudattavat samaa jakaumaa.

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Otoskoon arviointi. Tero Vahlberg

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Osa 2: Otokset, otosjakaumat ja estimointi

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

61,5 m², 3H+KT,

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Turun asukasluku

MTTTP1, luento KERTAUSTA

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Asuntomarkkinajäykkyydet ja asuntopolitiikan vaikutusten arviointi. Niku Määttänen, ETLA Asumisen tulevaisuus, päätösseminaari Messukeskus

28,0 m², 1h+avok+kph+p,

Mat Tilastollisen analyysin perusteet, kevät 2007

TILASTOKATSAUS 18:2016

Sovellettu todennäköisyyslaskenta B

89,5 m², 1h+terassi,

22,0 m², 2h, avok, parvi,

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MTTTP5, luento Luottamusväli, määritelmä

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

ORAVA RAHASTOT OIKOTIE-ORAVA 20 ASUNTOHINTAINDEKSIN LASKENTASÄÄNNÖT

805306A Johdatus monimuuttujamenetelmiin, 5 op

Sovellettu todennäköisyyslaskenta B

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Asuminen kielialueittain Helsingissä

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Kaupunkialueen maankäyttöja hintarakennetta koskevia kuvioita (vain HAL:n luentokäyttöön, ilman lupaa)

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Testit laatueroasteikollisille muuttujille

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

76,5 m², 3h+k+kph+wc+s...,

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

40,5 m², 2h+k+kph+las...,

Harha mallin arvioinnissa

50,5 m², 2h, k, s, psh...,

2. TILASTOLLINEN TESTAAMINEN...

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Kandidaatintutkielman aineistonhankinta ja analyysi

Harjoitus 9: Excel - Tilastollinen analyysi

2. Teoriaharjoitukset

MTTTP1, luento KERTAUSTA

Tilastollisia peruskäsitteitä ja Monte Carlo

Kuinka pitkälle ja nopeasti asuntomarkkinat yhdentyvät?

1. Tilastollinen malli??

Sovellettu todennäköisyyslaskenta B

Testit järjestysasteikollisille muuttujille

136,0 m², 5h, k, kph,...,

Mat Tilastollisen analyysin perusteet, kevät 2007

6. laskuharjoitusten vastaukset (viikot 10 11)

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tarkastusmuistio Poliisin toimintojen yhdistäminen ja liikennevalvonnan määrä

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Transkriptio:

Capstone: Kerrostaloasuntojen hinnanmuodostumisen tutkiminen Helsingissä ja Espoossa käyttäen hedonistista regressiota Elisa Luukkonen 536671 Lauri Luukkanen 536668 Henri Rujala 489061 1

Sisällysluettelo Tutkimusaiheen esittely... 3 Tutkimusmenetelmät... 3 Aineiston kuvailu... 3 Fixed effects mallin käyttö... 5 Regressioyhtälön luominen... 6 OLS-oletukset ja niiden testaaminen... 7 Regressio... 10 Lähteet:... 14 Stata-koodit... 15 2

Tutkimusaiheen esittely Asuntojen reaaliset hinnat suhteutettuna ihmisten ostovoimaan ovat kasvaneet voimakkaasti 1990- luvun puolivälistä erityisesti OECD-maissa (Girouard, N. et al., 2006, 4). Samanaikaisesti ihmisten varallisuuden suhteellinen osuus asunnossa on noussut merkittävästi (Kahn J., 2008, 2). Asunto on erittäin tärkeä varallisuuserä kotitalouksissa, mutta asuntomarkkinoiden hitaan vaihtuvuuden ja yksittäisten kauppojen suuren volyymin takia asuntomarkkinoilla esiintyy jonkin verran hinnoitteluvirheitä, joka tekee asuntomarkkinoista varsin heterogeeniset (Viitanen K., 13.4.2017, 8). Osittain tästä syystä asuntojen hinnan muodostuminen eri metropolialueilla on noussut erittäin suosituksi tutkimusaiheeksi. Asunto on hyödyke, jonka arvo määräytyy sen yksilöllisten ja usein uniikkien ominaisuuksien perusteella. Capstone-työmme aiheena onkin tutkia kerrostaloasuntojen markkinahintojen muodostumista Helsingissä ja Espoossa asuntojen heterogeenisten ominaisuuksien perusteella ja vertailla onko Helsingin ja Espoon asuntojen hintojen muodostumisessa merkittäviä eroja. Tarkoituksena on myös testata saamamme estimaatin toimivuutta satunnaisesti valittujen, markkinoilla myynnissä olevien asuntojen kohdalta ja tutkia kuinka lähelle estimaattimme osuu omistajien arvonmäärityksiä. Tutkimuskysymys ja tutkimuksen rajaus: Mitkä asuntojen ominaisuudet vaikuttavat asunnon hintaan Espoossa ja Helsingissä, ja onko kaupunkien välillä jotain eroja? Tutkimusmenetelmät Käytämme tutkimuskysymyksen selvittämiseen OLS-estimaattoria, joka on lineaarinen regressio. Koska aineistomme käsittää asuntojen ominaisuuksia kuvailevia muuttujia, käytämme tutkimuksessa hedonista regressiota. Hedonisessa regressiossa selitettävänä muuttujana on tyypillisesti jonkin hyödykkeen arvo ja selittävinä muuttujina erilaiset hyödykkeen laatua kuvaavat muuttujat (Allen A. & Ball A., 2003, 1). Hedoninen regressio sopii näillä kriteereillä hyvin tutkimuskysymyksemme analysointiin, sillä asuntojen arvo perustuu vahvasti yksilöllisille ominaisuuksille. Kyseinen aineisto sisältää viimeisen kahdentoista kuukauden aikana toteutuneet asuntokaupat. Aineiston kuvailu Tutkimuksemme perustuu Ympäristöministeriön ja Asumisen rahoitus- ja kehittämiskeskuksen eli ARA:n kehittämän asuntojen hintatiedot palvelun dataan. Kyseisestä tietokannasta on mahdollista saada kaikkien Suomessa toteutuneiden asuntokauppojen tiedot viimeisen 12 kuukauden ajalta. Huomionarvoista on kuitenkin se, että palveluun ei arkistoida yli 12 kuukautta vanhempia asuntokauppoja ja Ympäristöministeriön mukaan kyseisiä tietoja ei ole mahdollista saada haltuun. Aineistomme perusteella ei siis ole mahdollista tehdä aikasarjatarkastelua. 3

Aineistomme pitää sisällään 2825 havaintoa, joista 708 on Espoossa ja 2117 Helsingissä. Aineistomme pitää sisällään 11 asuntoa kuvailevaa muuttujaa, jotka ovat kaupunki, kaupunginosa, huoneistomuoto (yksiö, kaksio, kolmio vai neliö), neliökoko, myyntihinta, hinta/m2, rakennusvuosi, asunnon kunto (huono, tyydyttävä, hyvä), hissi (kyllä tai ei), rakennusten kerrosten määrä ja asunnon kerrossijainti. Muuttujan huoneistomuoto arvo neliö pitää sisällään neliöt ja sitä suuremmat huoneistot. Tässä yhteydessä olemme myös poistaneet datasta puutteelliset havainnot, eli havainnot joissa jokin tieto on jäänyt kirjaamatta. Lisäksi olemme yhdistäneet mahdolliset tuplahavainnot. Kaupunginosien virheelliset kirjoitusmuodot on myös korjattu. Taulukossa 1 esitettyjen arvojen perusteella voimme silmämääräisesti tarkastella datan oikeellisuutta ennakkokäsityksiimme verrattuna. Taulukossa on laskettu seuraavat muuttujat: Keskiarvo, mediaani, maksimi, minimi, keskihajonta ja varianssi. Kuva 1 Taulukko 1 Data vaikuttaa saamiemme summataulukon tulosten perusteella ennakko-oletustemme mukaiselta. Helsingin asunnot ovat keskimäärin hieman kalliimpia, mutta hieman pienempiä. Helsingin asuntokanta on myös huomattavasti vanhempi kuin Espoon. Kuvasta yksi näemme, että suurin osa asunnoista on hyvä kuntoisia niin Espoossa kuin Helsingissä. Huomattavaa kuitenkin on, että Helsingin asuntojen kunto vaikuttaa huomattavasti huonommalta kuin Espoon. 80% 70% 60% 50% 40% 30% 20% 10% 0% Asuntojen kunnon jakautuminen Helsingissä ja Espoossa Kunto Huono Kunto Tyydyt. Kunto Hyvä Helsinki Espoo Kuva 1 Taulukossa kaksi on eritelty havaintojen keskimääräinen huoneiden määrä, neliömetrit, rakennusvuosi, asunnon kerros ja rakennusten keskimääräiset kerrokset yhteensä. Lisäksi taulukossa on tiedot, kuinka monessa rakennuksessa on hissi sekä asuntojen jakautumisen eri huoneistomuotoihin sekä ylimpään ja alimpaan kerrokseen. Taulukko 2 4

Taulukossa kolme on puolestaan lueteltu samoja aineistoa kuvaavia muuttujia kuin taulukossa 1, mutta nyt kymmenelle eri kaupunginosalle. Huomaamme, että kaupunginosien välillä eroavaisuudet ovat erittäin suuret ja tämä tulee ottaa huomioon regressiossamme. Taulukko 3 Fixed effects mallin käyttö Koska eri asuinalueilla on hyvin erilaisia asuntojen hintoja, voidaan olettaa, että pääkaupunkiseudulla asuntojen hinnoissa on erilaisia klustereita. Tietyt ominaisuudet korreloivat klusterin (kaupunginosan) sisällä. Esimerkiksi Kaartinkaupungissa asuu samankaltaisia ihmisiä ja Sunan asukkaat ovat taas toisenlainen homogeenisempi ryhmä. Nämä ryhmien sisällä vaikuttavat havaitsemattomat ominaisuudet eivät kuitenkaan ole korreloituneet kaukaisempien asuinalueiden kanssa: Kontulan asuntojen ominaisuudet eivät vaikuta siihen, millaisia asuntoja Ullanlinnassa on. Koska kaupunginosatasolla on paljon tällaisia kiinteitä vaikutuksia, jotka ovat tyypillisiä tietylle kaupunginosalle, voimme käyttää fixed effect mallia. Fixed effectissä luodaan regressioon jokaiselle kaupunginosalle oma vakiokerroin. Vakio syö kaikki kaupunginosatason kiinteät vaikutukset, myös kaikki havaitsemattomat muuttujat, jotka voivat olla korreloituneita meidän selittävien muuttujien kanssa. Rakennusvuosi on yksi tällainen muuttuja, joka on korreloitunut kaupunginosan havaitsemattomien muuttujien kanssa. Keskustassa asunnon sijainti sekä asuinalueen maine nostattavat voimakkaasti asunnon hintaa, ja asuntokanta on hyvin vanhaa. Jos tekisimme regression ilman kiinteitä vaikutuksia, rakennusvuosi söisi virhetermistä asunnon sijainnin vaikutusta ja olisi harhainen. 5

0 500000 1000000 1500000 2000000 Regressioyhtälön luominen Yhtälön valinta Lineaarisuusuustestissä tarkastelemme selittävää muuttujaa neliöiden lukumäärä suhteessa selitettävään muuttujaan velaton myyntihinta. Loimme sekä Espoolle että Helsingille erikseen hajontakuviot. Aiomme jättää muut muuttujat testaamatta, koska ne ovat dummy-variable muodossa. Ensimmäiseksi testaamme linear-linear -mallia, jossa selitämme neliöiden määrällä myyntihintaa. Hajontakuvion perusteella havainnot hajautuvat ja Helsingissä voisi olla mahdollisesti ei-lineaarinen yhteys. Lineaarinen myyntihinta ja lineaarinen m2 Espoo Helsinki 0 50 100 150 200 0 50 100 150 200 m2 Myyntihinta Fitted values Graphs by Kaupunki Seuraavaksi tarkastelimme logaritmoitua myyntihintaa ja lineaarista neliömetrimuuttujaa. Huomataan, että Helsingissä yhteys ei vaikuta tässäkään tapauksessa kovin lineaariselta. Viimeiseksi muodostimme mallin, jossa selitämme logaritmoitua myyntihintaa logaritmoiduilla neliömetrien määrällä. Helsingissä tämäkään malli ei tuota täysin lineaarista tulosta. LnMyyntihinta ja lineaarinen m2 LnMyyntihinta ja Lnm2 Regressioyhtälön selitettäväksi muuttujaksi valitsimme kuitenkin velattoman myyntihinnan logaritmin ja selittäväksi muuttujaksi lineaarisen m2:sen. Tällä tekniikalla pystymme helpottamaan selitettävän muuttujan eli hinnan suhteellista vinoutta, joka johtuu pienempien asuntojen suuremmasta määrästä. 6

Neliömetrejä käytämme lineaarisena, sillä on helpompi tulkita neliömetrin absoluuttista muutosta kuin prosentuaalista muutosta. (Urban Economics for Real Estate cource support slides 24.11.2016.) Kuten kuvasta huomaa, niin myyntihinnan logaritmi antaa paremmin normaalijakaumaa mukailevia arvoja. OLS-oletukset ja niiden testaaminen No large outliers OLS-oletus no large outliers tarkoittaa sitä, että muuttujien äärimmäiset arvot ovat äärettömän epätodennäköisiä. Tämän oletuksen rikkominen johtaa siihen, että regression kertoimista tulee harhaisia. Edellisistä scatter-kuvioista huomaamme, että Espoossa on muutama havainto, jotka ovat selvästi irrallisia muista havainnoista. Nämä havainnot saattavat vaikuttaa OLS-kertoimien harhattomuuteen. Voi olla, että asunnon hinta ei ole muodostunut näissä tapauksissa täysin markkinaehtoisesti tai asunnoissa on jotain, mitä emme tästä datasta havaitse, ja joka saa niiden myyntihinnan laskemaan voimakkaasti. Jotta oletuksemme pätisi, voimme poistaa nämä havainnot aineistosta. Poistetaan havainnot, joissa myyntihinta on alle 10,5. Heteroskedastisuus OLS-oletusten mukaan aineistossa ei saa olla heteroskedastisuutta. Tämä tarkoittaa, että keskivirhe riippuu X:n arvosta. Heteroskedastisuus saa aikaan vääriä keskivirheitä, mutta se ei vaikuta OLSkertoimien arvoon. Heteroskedastisuus voidaan havaita scatter-kuviosta, ja se voidaan testata Statassa. 7

Scatter-kuviosta näämme, että keskivirheet kasvavat, mitä suuremmaksi neliömäärä kasvaa, mikä kertoo heteroskedastisuudesta. Teimme myös Breusch-Pagan -heteroskedastisuustestin. Testissä ajoimme regression, jossa selitimme neliömäärällä logaritmoitua myyntihintaa ilman kiinteitä vaikutuksia. Testi tuotti nollahypoteesin, jonka mukaan keskivirheiden varianssi olisi vakioinen. Testitulos chi2(1) = 34.60, Prob > chi2 = 0.0000 tarkoittaa sitä, että nollahypoteesi kumoutuu ja aineisto on heteroskedastinen. Fixed-effect -mallissa ei voida kuitenkaan käyttää robusteja keskivirheitä. OLS:ssä on kuitenkin kyse siitä, että saadaan kertoimet oikein, eikä kertoimien tarkkuus ole tässä tapauksessa niin tärkeää. Sallitaan siis heteroskedastisuus. No perfect multicollinearity No perfect multicollinearity -ehto tarkoittaa sitä, että aineiston selittävien muuttujien välillä ei saa olla täydellistä korrelaatiota. Myöskään selittävistä muuttujista muodostuvien ryhmien välillä ja yksittäisten muuttujien välillä ei saa olla täydellistä korrelaatiota. Multikollineaarisuuteen ei ole kiistatonta testiä, mutta seuraavien seikkojen perusteella voi epäillä multikollineaarisuuden uhkaa: 1) Mikään yksittäisten kertoimien t-testeistä ei ole tilastollisesti merkitsevä, mutta kaikkien muuttujien f-testi on. (Regressiossamme kaikki yksittäiset kertoimet ovat tilastollisesti merkitseviä.) 2) Kertoimet ovat epätasaisia, kun käytetään eri otoskokoja. 3) Tutkitaan korrelaatioita selittävien muuttujien kesken, ja jos se on suurta, multikollineaarisuuden uhka on mahdollinen. (Williams, R., 2015) Multikollineaarisuutta ei voida kuitenkaan testata, kun kyseessä on fixed effects -malli. Käyttäessämme dummy variable approachia joudumme poistamaan yhden dummymuuttujista, jotta välttäisimme täydellisen multikollineaarisuuden. Jos sisällyttäisimme esimerkiksi kaikki asunnon huoneiden lukumäärää kuvaavat dummymuuttujat yksiö, kaksio, kolmio ja neliö regressioon, regressiossa olisi täydellinen multikollineaarisuus. 8

Suuri multikollineaarisuus ei saa aikaan harhaisia kertoimia, mutta se saa aikaan suuremmat keskivirheet. OLS olisi silti BLUE (Williams, R. 2015). Tämän vuoksi sallitaan regressiossa multikollineaarisuus. Virhetermin u ehdollinen odotusarvo kaikilla X:n arvoilla on nolla E[u X] = 0 Tämä oletus tarkoittaa sitä, että virhetermi u ja selittävät muuttujat X:t eivät saa olla korreloituneita keskenään. Jos tätä oletusta rikotaan, saamme regressiostamme harhaisia kertoimia. Voimme välttää tämän oletuksen rikkomisen valitsemalla selittävät muuttujat oikein regressioon. Jos on liian vähän muuttujia, meillä on riski, että virhetermissä olisi muuttuja, joka korreloisi selittävien muuttujien kanssa ja saisimme harhaiset beta-estimaatit. Jos valitsemme liikaa muuttujia, virhetermimme voivat olla todennäköisemmin liian suuria multikollineaarisuuden vuoksi. (Toivanen, O. 2017) Valitsemme tähän regressioon Helsingissä seuraavat muuttujat: m2 Dhissi Dhyvä DhissiYlinKerros DAlinkerros Dyksio Dkaksio Dkolmio. Asunnon pinta-alan ja huoneiden lukumäärän välillä löytyy korrelaatio. Jos emme ottaisi huoneiden lukumäärää mukaan regressioon, meillä olisi virhetermi, joka korreloi asunnon pinta-alan kanssa. Dyksio Dkaksio Dkolmio m2 Dyksio 1.0000 Dkaksio -0.3794 1.0000 Dkolmio -0.3548-0.4366 1.0000 m2-0.6062-0.2488 0.2975 1.0000 Kaikki havainnot ovat itsenäisesti ja identtisesti jakautuneet X i, Y i i = 1,, n are i.i.d. Tämä oletus tarkoittaa sitä, että 1) yhden havainnon arvo ei kerro mitään toisen havainnon arvosta ja 2) jokaisella havainnolla on yhtä suuri todennäköisyys päätyä otokseen. Otoksemme on satunnaisotos, sillä se on syntynyt yhden vuoden ajan tapahtuneiden asuntokauppojen perusteella. Olisi epätodennäköistä, että esimerkiksi saman taloyhtiön asunnoista kaupattaisiin suuri osa samana vuonna, jolloin arvot voisivat riippua toisistaan. Asunnon myynti on näin laajalla skaalalla satunnaista, ja voidaan olettaa, että suurella osalla kerrostaloasunnoista olisi ollut sama todennäköisyys päätyä otokseen. 9

Regressio Aloimme luoda regressiota niin, että lähdimme päämuuttujastamme neliömetrimäärästä m2 ja lisäsimme muuttujia sekä tutkimme niiden merkitsevyyttä sekä yhteismerkitsevyyttä erikseen Espoossa ja Helsingissä. Teimme muuttujien valinnan regressioon ensimmäiseksi Espoolle. Havaitsimme, että Espoossa asunnon kunto ei ole edes yhteismerkitsevä. Lisäksi vain kerroksista alin vaikuttaa asunnon hintaan. Merkitseviksi muuttujiksi valitsimme neliömetrit, pohjaratkaisu-dummyt, alin kerros -dummyn, rakennusvuoden ja kerrosten lukumäärän. Kerrosten lukumäärän vaikutus on pieni, joten se toimii kontrollimuuttujana vähentämässä omitted variable -harhaa.. test Dhyvä Dtyyd ( 1) Dhyvä = 0 ( 2) Dtyyd = 0 chi2( 2) = 3.73 Prob > chi2 = 0.1552 Verrattuna Espooseen Helsingissä asunnon kunto on merkitsevä muuttuja. Tämä voi johtua siitä, että Helsingissä on Espoota enemmän huonokuntoisia asuntoja, joten sen vaikutus on merkittävämpi. Myös hissin vaikutus on tilastollisesti merkitsevällä tasolla. Kerroksen vaikutus asunnon hintaan ei kuitenkaan ole merkitsevä. Selittäviksi muuttujiksi valitsimme lopulta neliömetrit, asunnon kunnon, Kontrollimuuttujia ovat kerrosten lukumäärä ja rakennusvuosi. Lopullisen regression tulokset: Regressiotaulukosta havaitsemme, että Espoossa neliömetrien vaikutus hintaan on suurempaa kuin Helsingissä: yhden neliömetrin lisäys nostattaa hintaa Espoossa 1,5 % ja Helsingissä 1,1 %. Espoossa asunnon kunto ei vaikuta juurikaan asunnon hintaan, mutta Helsingissä maksetaan hyväkuntoisista asunnoista 18,7 % ja tyydyttäväkuntoisista asunnoista 6,7 % enemmän kuin huonokuntoisista asunnoista. Mielenkiintoista on verrata huoneratkaisun vaikutusta asunnon hintaan. Keskimäärin kaksiosta maksetaan Espoossa 9,9 % vähemmän kuin yksiöstä. Kolmiosta maksetaan keskimäärin 18,8 % ja neliöstä 38,2 % vähemmän kuin yksiöstä, jos kaikki muut tekijät pidetään vakiona. Suhteellisesti yksiöt ovat suhteellisesti kalliimpia. Yksiöillä on Espoossa kenties tarjonnan ylittävä kysyntä, joten niitä arvostetaan suhteellisesti enemmän. Sen sijaan Helsingissä maksetaan kaksiosta 9,3 % enemmän, kolmiosta 14,3 % enemmän ja neliöstä 10,1 % enemmän kuin vastaavasta yksiöstä. Helsingissä kysyntää riittää kenties enemmän kerrostaloasunnoissa niille asunnoille, joiden pohjaratkaisussa on enemmän huoneita. Espoossa rakennusvuoden kasvu yhdellä nostaa hintaa 1,0 %, mutta Helsingissä rakennusvuosi ei juurikaan vaikuta asunnon hintaan. Tämä havainto voi johtua siitä, että Helsingissä asuntokanta on vielä vanhempaa ja kalliit asunnot ovat monesti juuri keskustan lähistöllä sijaitsevia vanhoja arvokiinteistöjä. Espoossa hissi ei vaikuta asunnon hintaan, mutta Helsingissä se nostattaa asunnon hintaa 2,6 %. Helsingissä alimmalla kerroksella ei sen sijaan ole vaikutusta hintaan, mutta Espoossa se laskee asunnon arvoa 3,9 %. 10

Regression muodostus Espoolle: (1) (2) (3) (4) (5) VARIABLES LgMyyntihinta LgMyyntihinta LgMyyntihinta LgMyyntihinta LgMyyntihinta m2 0.0113*** 0.0158*** 0.0156*** 0.0153*** 0.0153*** (0.000562) (0.00108) (0.00108) (0.000894) (0.000892) Dhyvä -0.0298-0.0354-0.0393-0.0599-0.0592 (0.0602) (0.0590) (0.0589) (0.0486) (0.0484) Dtyyd -0.0764-0.0784-0.0814-0.0770-0.0823 (0.0630) (0.0618) (0.0617) (0.0509) (0.0508) Dkaksio -0.108*** -0.102** -0.100*** -0.0987*** (0.0409) (0.0409) (0.0337) (0.0338) Dkolmio -0.204*** -0.194*** -0.191*** -0.185*** (0.0578) (0.0578) (0.0478) (0.0478) Dneliö -0.399*** -0.386*** -0.388*** -0.387*** (0.0765) (0.0767) (0.0633) (0.0633) Dylin -0.0249 0.0132 0.0293 (0.0267) (0.0221) (0.0230) Dalin -0.0608** -0.0436** -0.0305 (0.0268) (0.0221) (0.0227) Rakennusvuosi 0.0108*** 0.0104*** (0.000604) (0.000643) Dhissi -0.0271 (0.0180) Montakerrostatalossa 0.0102** (0.00422) Constant 11.51*** 11.40*** 11.43*** -10.05*** -9.194*** (0.0865) (0.0913) (0.0920) (1.203) (1.274) Observations 708 708 708 705 700 Number of area 59 59 59 58 58 Standard errors in parentheses *** p<0.01, ** p<0.05, * p<0.1 11

Regression muodostus Helsingille: (1) (2) (3) (4) (5) VARIABLES LgMyyntihinta LgMyyntihinta LgMyyntihinta LgMyyntihinta LgMyyntihinta m2 0.0120*** 0.0111*** 0.0111*** 0.0106*** 0.0107*** (0.000208) (0.000420) (0.000421) (0.000244) (0.000250) Dhyvä 0.287*** 0.284*** 0.280*** 0.186*** 0.184*** (0.0261) (0.0260) (0.0260) (0.0150) (0.0150) Dtyyd 0.151*** 0.151*** 0.148*** 0.0656*** 0.0641*** (0.0263) (0.0263) (0.0263) (0.0151) (0.0151) Dkaksio 0.0979*** 0.0965*** 0.0938*** 0.0926*** (0.0185) (0.0185) (0.0107) (0.0108) Dkolmio 0.138*** 0.136*** 0.144*** 0.142*** (0.0254) (0.0254) (0.0148) (0.0150) Dneliö 0.0834** 0.0810** 0.101*** 0.100*** (0.0373) (0.0374) (0.0217) (0.0220) Dylin -0.00325 0.00794 0.0173* (0.0152) (0.00877) (0.00901) Dalin -0.0398** -0.0338*** -0.0247*** (0.0159) (0.00917) (0.00939) Rakennusvuosi 0.00174*** 0.00139*** (0.000170) (0.000181) Dhissi 0.0239** (0.00975) Montakerrostatalossa 0.00587** (0.00259) Constant 11.40*** 11.37*** 11.39*** 8.060*** 8.693*** (0.0395) (0.0385) (0.0387) (0.337) (0.355) Observations 2,117 2,117 2,117 2,114 2,072 Number of area 126 126 126 126 124 Standard errors in parentheses *** p<0.01, ** p<0.05, * p<0.1 12

Lopullinen regressio: ESPOO (1) HELSINKI (2) VARIABLES LgMyyntihinta LgMyyntihinta m2 0.0153*** 0.0107*** (0.000886) (0.000251) Dhyvä 0.187*** (0.0151) Dtyyd 0.0670*** (0.0152) Dkaksio -0.0989*** 0.0926*** (0.0336) (0.0109) Dkolmio -0.188*** 0.143*** (0.0474) (0.0151) Dneliö -0.382*** 0.101*** (0.0628) (0.0221) Montakerrostatalossa 0.00895** 0.00582** (0.00404) (0.00255) Rakennusvuosi 0.0103*** 0.00137*** (0.000641) (0.000181) Dhissi 0.0255*** (0.00974) Dalin -0.0393* (0.0212) Constant -9.247*** 8.730*** (1.270) (0.355) Observations 700 2,072 Number of area 58 124 Standard errors in parentheses *** p<0.01, ** p<0.05, * p<0.1 13

Lähteet: Allen A. & Ball A. (2003), The Introduction of Hedonic Regression Techniques for the quality adjustment of computing equipment in the Producer Prices Index (PPI) and Harmonised Index of Consumer Prices (HICP), Office for National Statistics, http://webarchive.nationalarchives.gov.uk/20160105160709/http://www.ons.gov.uk/ons/index.html Bello O. (2009), HEDONIC ANALYSIS OF HELSINKI RESIDENTIAL PROPERTY MARKET, Royal Institute of Technology Stockholm, Department of Real Estate and Construction Management, Division of Building and Real Estate Economics Thesis nr 418 https://www.kth.se/polopoly_fs/1.177248!/menu/general/column-content/attachment/418.pdf Benjamin J.D., Guttery R. S., Sirmans C. F. (2004), An Introduction to Multiple Regression Analysis for Real Estate, ResearchGate, 66 Journal of Real Estate Practice and Education, VOLUME 7, NUMBER 1, 2004 https://www.researchgate.net/publication/228609581_mass_appraisal_an_introduction_to_multiple_ Regression_Analysis_for_Real_Estate_Valuation Girouard, N. et al. (2006), Recent House Price Developments: The Role of Fundamentals, OECD Economics Department Working Papers, No. 475, OECD Publishing, Paris. http://dx.doi.org/10.1787/864035447847 Kahn James A. (2008), What Drives Housing Prices?, Federal Reserve Bank of New York Staff Reports, no. 345 September 2008, JEL classification: E22, E32, O41, O51 Stock J. & Watson M. (2007) Introduction to Econometrics, Boston: Pearson/Addison Wesley, 2007. Viitanen, K. 13.4.2017, Markkina-analyysi ja kiinteistöarviointi luento 3, Real Estate Economics -kurssi, Aalto University School of Science, Kevät 2017. Ympäristöministeriö & Asumisen rahoitus- ja kehittämiskeskus (ARA): Asuntojen hintatiedot viimeisen kahdentoista kuukauden ajalta http://asuntojen.hintatiedot.fi/haku/ Williams, R. (2015), Multicollinearity (Viitattu 23.4.17) https://www3.nd.edu/~rwilliam/stats2/l11.pdf Toivanen, O. 2017. Capstone: Ekonometria ja Data-analyysi kurssi, Aalto University School of Business, Kevät 2017. 14

Stata-koodit *AINEISTON MUOKKAUS JA KUVAILU replace Kaupunginosa="Ala-Malmi" if Kaupunginosa=="Ala-malmi" replace Kaupunginosa="Etelä-Haaga" if Kaupunginosa=="Etelä-haaga" replace Kaupunginosa="Etu-Töölö" if Kaupunginosa=="Etu töölö" replace Kaupunginosa="Etu-Töölö" if Kaupunginosa=="Etu-töölö" replace Kaupunginosa="Itä-Pasila" if Kaupunginosa=="Itä-pasila" replace Kaupunginosa="Laajasalo" if Kaupunginosa=="Laajasalo / yliskylä" replace Kaupunginosa="Länsi-Pasila" if Kaupunginosa=="Länsi-pasila" replace Kaupunginosa="Meri-Rastila" if Kaupunginosa=="Meri-rastila" replace Kaupunginosa="Pikku-Huopalahti" if Kaupunginosa=="Pikku-huopalahti" replace Kaupunginosa="Pohjois-Haaga" if Kaupunginosa=="Pohjois-haaga" replace Kaupunginosa="Pohjois-Haaga" if Kaupunginosa=="Pohjois haaga" replace Kaupunginosa="Taka-Töölö" if Kaupunginosa=="Taka-töölö" replace Kaupunginosa="Vuosaari" if Kaupunginosa=="Vanha-vuosaari" replace Kaupunginosa="Vuosaari" if Kaupunginosa=="Vuosaari / meri-rastila" gen city=0 if Kaupunki=="Helsinki" replace city=1 if Kaupunki=="Espoo" tabstat Myyntihinta Rakennusvuosi m2, statistics( mean median max min sd var ) by(kaupunki) gen erottaja=0 replace erottaja=1 if Kaupunginosa=="Taka-Töölö" replace erottaja=1 if Kaupunginosa=="Matinkylä" replace erottaja=1 if Kaupunginosa=="Leppävaara" replace erottaja=1 if Kaupunginosa=="Kaartinkaupunki" 15

replace erottaja=1 if Kaupunginosa=="Pakila" replace erottaja=1 if Kaupunginosa=="Roihuvuori" replace erottaja=1 if Kaupunginosa=="Kontula" replace erottaja=1 if Kaupunginosa=="Tapiola" replace erottaja=1 if Kaupunginosa=="Espoon keskus" replace erottaja=1 if Kaupunginosa=="Herttoniemi" replace erottaja=1 if Kaupunginosa=="Oulunkylä" drop if erottaja<1 tabstat Myyntihinta Rakennusvuosi m2, statistics( mean median max min count ) by(kaupunginosa) gen LgMyyntihinta=ln(Myyntihinta) drop if missing(lgmyyntihinta) gen lnm2=ln(m2) drop if missing(lnm2) *Hajontakuviot twoway(scatter LgMyyntihinta m2) (lfit Myyntihinta m2), by(kaupunki) twoway (scatter LgMyyntihinta lnm2) (lfit LgMyyntihinta lnm2), by(kaupunki) twoway (scatter Myyntihinta m2) (lfit LgMyyntihinta m2), by(kaupunki) kdensity LgMyyntihinta, normal kdensity Myyntihinta, normal gen Dyksiö=0 gen Dkaksio=0 gen Dkolmio=0 gen Dneliö=0 tabulate Huoneistomuoto replace Dyksiö=1 if Huoneistomuoto==1 16

replace Dkaksio=1 if Huoneistomuoto==2 replace Dkolmio=1 if Huoneistomuoto==3 replace Dneliö=1 if Huoneistomuoto==4 gen Dhyvä=0 gen Dhuono=0 replace Dhyvä=1 if Kunto=="hyvä" gen Dtyyd=0 replace Dtyyd=1 if Kunto=="tyyd." replace Dhuono=1 if Kunto=="huono" tabstat Myyntihinta Rakennusvuosi m2, statistics( mean median max min sd var ) by(kaupunki) encode Kaupunginosa,gen(area) xtset area gen Dylin=0 replace Dylin=1 if Kerroskerrokset==1 gen Dalin=0 replace Dalin=1 if Kerros=="1" gen Dhissi = 0 replace Dhissi = 1 if Hissi=="on" gen Dhissiylin=Dhissi*Dylin xtreg LgMyyntihinta m2 Dhyvä Dtyyd if Kaupunki=="Espoo" outreg2 using myreg.doc, replace xtreg LgMyyntihinta m2 Dhyvä Dtyyd Dkaksio Dkolmio Dneliö if Kaupunki=="Espoo" xtreg LgMyyntihinta m2 Dhyvä Dtyyd Dkaksio Dkolmio Dneliö Dylin Dalin if Kaupunki=="Espoo" xtreg LgMyyntihinta m2 Dhyvä Dtyyd Dkaksio Dkolmio Dneliö Dylin Dalin Rakennusvuosi if Kaupunki=="Espoo" 17

xtreg LgMyyntihinta m2 Dhyvä Dtyyd Dkaksio Dkolmio Dneliö Dylin Dalin Rakennusvuosi Dhissi Montakerrostatalossa if Kaupunki=="Espoo" xtreg LgMyyntihinta m2 Dhyvä Dtyyd if Kaupunki=="Helsinki" outreg2 using myreg.doc, replace xtreg LgMyyntihinta m2 Dhyvä Dtyyd Dkaksio Dkolmio Dneliö if Kaupunki=="Helsinki" xtreg LgMyyntihinta m2 Dhyvä Dtyyd Dkaksio Dkolmio Dneliö Dylin Dalin if Kaupunki=="Helsinki" xtreg LgMyyntihinta m2 Dhyvä Dtyyd Dkaksio Dkolmio Dneliö Dylin Dalin Rakennusvuosi if Kaupunki=="Helsinki" xtreg LgMyyntihinta m2 Dhyvä Dtyyd Dkaksio Dkolmio Dneliö Dylin Dalin Rakennusvuosi Dhissi Montakerrostatalossa if Kaupunki=="Helsinki" *Lopullinen xtreg LgMyyntihinta m2 Dkaksio Dkolmio Dneliö Dalin Rakennusvuosi Montakerrostatalossa if Kaupunki=="Espoo" outreg2 using myreg.doc, replace xtreg LgMyyntihinta m2 Dhyvä Dtyyd Dkaksio Dkolmio Dneliö Montakerrostatalossa Rakennusvuosi Dhissi if Kaupunki=="Helsinki" xtreg Myyntihinta m2 Dkaksio Dkolmio Dneliö Dalin Rakennusvuosi Montakerrostatalossa if Kaupunki=="Espoo" 18

xtreg Myyntihinta m2 Dhyvä Dtyyd Dkaksio Dkolmio Dneliö Montakerrostatalossa Rakennusvuosi if Kaupunki=="Helsinki" 19