TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Samankaltaiset tiedostot
1. Tutkitaan tavallista kahden selittäjän regressiomallia

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Johdatus regressioanalyysiin. Heliövaara 1

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

2. Teoriaharjoitukset

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Harjoitus 9: Excel - Tilastollinen analyysi

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

5.7 Uskottavuusfunktioon perustuvia testejä II

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

TILASTOTIEDE KÄYTÄNNÖN TUTKIMUKSESSA, 8 10 OP Luennoi: yliopisto-opettaja Pekka Pere. Logaritmin muutos ja suhteellinen muutos

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Korrelaatiokertoinen määrittely 165

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

HAVAITUT JA ODOTETUT FREKVENSSIT

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Väliestimointi (jatkoa) Heliövaara 1

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Dynaamiset regressiomallit

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Testejä suhdeasteikollisille muuttujille

Yleinen lineaarinen malli

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Harjoitukset 4 : Paneelidata (Palautus )

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

ABHELSINKI UNIVERSITY OF TECHNOLOGY

1. Tilastollinen malli??

Testaa onko myrkkypitoisuus eri ryhmissä sama. RATK. Lasketaan kaikkien havaintoarvojen summa: k T i = = 486.

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Todennäköisyyden ominaisuuksia

Testit laatueroasteikollisille muuttujille

Sovellettu todennäköisyyslaskenta B

Harha mallin arvioinnissa

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Yleistetyistä lineaarisista malleista

Lineaarinen malli. Pentti Saikkonen. Kevät Korjattu versio: Toukokuu 2011

Harjoitus 7 : Aikasarja-analyysi (Palautus )

Identifiointiprosessi

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

805306A Johdatus monimuuttujamenetelmiin, 5 op

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

11. laskuharjoituskierros, vko 15, ratkaisut

Matematiikan tukikurssi, kurssikerta 3

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Yhden selittäjän lineaarinen regressiomalli

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Heliövaara 1

Harjoitukset 6 :IV-mallit (Palautus )

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Sovellettu todennäköisyyslaskenta B

Regressiodiagnostiikka ja regressiomallin valinta

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

H 0 : R = b; jossa R (q dim ()) ja b (q 1) ovat tunnettuja ja r (R) = q. 2 J () =

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

4.0.2 Kuinka hyvä ennuste on?

Testit järjestysasteikollisille muuttujille

Tilastollinen aineisto Luottamusväli

Pientalojen radonpitoisuuksien tilastollinen analyysi

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Identifiointiprosessi

Regressiodiagnostiikka ja regressiomallin valinta

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Metsän hinta Suomessa v kauppahintatutkimuksen tulokset. Maanmittauspäivät Esa Ärölä

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Harjoitus 7: NCSS - Tilastollinen analyysi

2. Uskottavuus ja informaatio

Transkriptio:

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen demografinen asema. b Kuvittele, että rikollisuus on negatiivisesti korreloitunut piirikunnan tulotason kanssa. Lisäksi, rikkaammissa piirikunnissa on enemmän poliiseja. Koska tulotaso on positiivisesti korreloitunut poliisien määrän kanssa, virhetermin ja selittävän muuttujan välinen korelaatio positiivine. PNS estimaattorin harha, estimaattorisi on harhainen ylöspäin. ˆβ β ρ Xu σ u σ X,. Poisjätetyn muuttujan harha on ongelma regressiossa, jos (a poisjätetty muuttuja on korreloitunut selitettävän muuttujan kanssa ja (b poisjätetty muuttuja on korreloitunut selittävän muuttujan kanssa. Ajattele regressiomallia Y i = β 0 + β 1 X 1,i + u t, missä u t = β X,i + ε i. ja ajattele ensimmäistä regressiota. Nyt X,i on poisjätetty muuttuja. Jos se ei ole korreloitunut Y i :n kanssa, parametri β on todellisuudessa nolla ja X,i :llä ei ole vaikutusta selitettävään muuttujaan. Jos taas X,i on todella poisjätetty muuttuja, poisjätetyn muuttujan harha ilmenee vain jos X 1,i on korreloitunut X,i :n kanssa, eli virhetermi on korreloitunut selittävän muuttujan kanssa. 3. a Selvästi ei ole. Voidaan myös muodostaa t-testisuure t = 0, 485, 61 = 0, 186 ja laskea sen p-arvo joka on 0,85. Saatu estimaattori ei siis ole tilastollisesti merkitsevästi nollasta poikkeava. 1 Kysymykset ja korjausehdotukset koskien harjoitustehtäviä tai niiden ratkaisuehdoituksia voi lähettää osoitteeseen juho.nyholm(athelsinki.fi. 1

(b On. Muuttuja BDR kuvaa makuuhuoneiden lukumäärän vaikutusta, kun kaikki muut muuttujat pidetään paikallaan. Siis kaksi asuntoa, joissa toisessa on yksi makuuhuone ja toisessa kaksi makuuhuonetta ja muuten sama määrä asuinneliöitä ja tonttia, sama kunto ja sama ikä, myydään suunnilleen samalla hinnalla. Todennäköisesti kuitenkin asunnoissa, joissa on enemmän makuuhuoneita, on myös enemmän neliöitä, joten on luontavaa, että ne ovat kalliimpia (asuinneliöiden kerroin on tilastollisesti merkitsevä. (c 95 %:n luottamusväli 000 β Lsize :lle on 000 [0, 00 ±, 58 0, 00048]. (d Regressiotulosten ymmärtämisen kannalta voisi olla järkevää ilmoittaa kerroin tuhansille neliöille, jolloin regressiokertoimen arvo olisi. Mittäyksikön muuttamine ei vaikuta estimointiin tai tuloksiin. e F-testisuure on F, -jakautunut, joten 10 %:n kriittinen raja on,30. Testisuureen arvo 0,08 ei ylitä tätä rajaa, joten kertoimet eivät ole yhdessä tilastollisesti merkitsevästi nollasta poikkeavia. 4. (a Muistutetaan aluksi selitysasteen R ja sopeutetun selitysasteen R kaavat R = 1 SSR ja R = 1 n 1 SSR n k 1. (1 Sijoittamalla jälkimmäinen ensimmäiseen, saamme laskettua selitysasteet R sopeutetun selitysasteen R avulla, R = 1 n k 1 ( 1 R. n 1 Sijoittamalla Taulukossa 7.1. löytyvät vaadittavat luvut tähän kaavaan, saamme laskettua seiltysasteet regressioille (1 - (5: (1 : R = 1 1 (1 0, 049 = 0, 051 ( : R = 1 40 1 (1 0, 44 = 0, 47 (3 : R = 1 40 3 1 (1 0, 773 = 0, 775 (4 : R = 1 40 3 1 (1 0, 65 = 0, 69 (5 : R = 1 40 4 1 (1 0, 0, 773 = 0, 775. (b Testataan mallista (5 nollahypoteesia H 0 : β 3 = β 4 = 0 ja muodostetaan F- testisuure F = ( R u Rr /q as (1 Ru F q,, / (n k u 1

jossa R r viittaa rajoitetun mallin selitysasteeseen ja R u viittaa rajoittamattoman mallin selitysasteeseen. Lisäksi q on rajoitteiden lukumäärä, n havaintojen määrä ja k u selittävien muuttujien määrä rajoittamattomassa mallissa. Testisuureen arvon voi laskea, kun huomaa, että Taulukossa 7.1. Malli ( on Mallin (5 nyt kiinnostuksen kohteena oleva rajoitettu malli. Näin ollen taulukosta (ja äsken lasketuista selitysasteista löytyy kaikki vaadittava informaatio testisuureen laskemiseen ja saadaan F = (0, 775 0, 47 / = 3,. (1 0, 775 / (40 4 1 1 %:n kriittinen raja F, jakaumasta on 4,61 < 3,, joten parametrien estimaattorit ovat yhdessä selvästi tilastollisesti merkitseviä. (c 99 %:n luottamusväli Mallin (5 parametrille β 1 on [ 1, 01 ±, 58 0, 7] = [ 1, 539 ; 0, 481]. 5. Tehtävässä on tarkoitus osoittaa, että lausekkeet (7.13 ja (7.14 ovat samat, siis ( (SSR r SSR u /q R (SSR u / (n k u = u Rr /q (1 Ru / (n k u 1. Lähdetän liikkeelle jälkimmäisestä lausekkeesta ja huomataan aluksi, että R u = 1 SSR u ja R r = 1 SSR r, jossa SSR u on rajoittamattoman mallin residuaalineliösumma ja vastaavasti SSR r on rajoitetun mallin residuaalineliösumma. on sama molemmilla malleilla, sillä se ei riipu mallin estimoinnista millään tavalla vaan lasketaan suoraan aineistosta. Lausekkeen(7.14 osoittajassa on Lausekkeen nimittäjässä on Ru Rr = SSR r SSR u. 1 R u = SSR u. Sijoitetaan nämä lausekkeeseen (7.14 ja nähdään, että ( SSRr SSR u /q / (n ku = (SSR r SSR u /q (SSR u / (n k u, ( SSRu kuten oli tarkoitus osoittaa. 3

6. (a Selitettäessä tuntiansioita työntekijän iällä, regressioyhtälöksi saadaan ÂHE i = 3, 3 + 0, 45 Age i, (0,97 (0,03 R = 0, 0, R = 0, 0 ja SER = 8, 66. (b Selitetään nyt työntekijän keskipalkkaa hänen iällään, sukupuolellaan sekä tutkinnollaan. Regressiomallin estimointi tuottaa tuloksen ÂHE i = 1, 88 + 0, 44 Age i 3, 16 Female i + 6, 87 Bachelor i. (0,90 (0,03 (0,18 (0,19 R = 0, 19, R = 0, 19 ja SER = 7, 88. 95 %:n luottamusväli ikämuuttujan kertoimelle on [0, 44 ± 1, 96 0, 03] = [0, 38 ; 0, 50]. (c Muuttujan Age regressiokerroin ei muutu juurikaan vaikka malliin lisätään uusia selittäviä muuttujia. Vaikuttaisi siltä, että ikä ei ole korreloitunut lisättyjen muuttujien kanssa, vaikka lisätyt muuttujat ovatkin korreloituneita tuntiansioiden kanssa. Näin ollen poisjätetyn muuttujan harhaa ei ilmene. (d Käytetään kohdan (b regressiomallin ja lasketaan sovitteet Bobille ja Alexisille. ÂHE Bob = 1, 88 + 0, 44 6 = 13, 3 ÂHE Alexis = 1, 88 + 0, 44 30 3, 16 + 6, 87 = 18, 79. (e Selitysasteet, sopeutetut selitysasteet sekä residuaalineliösummat on ilmoitettu regressioyhtälöiden yhteydessä kohdissa (a ja (b. Selitysasteet paranevet huomattavasti kun regressioon lisätään sukupuoli ja koulutustaso. Myös residuaalineliösumma pienenee selvästi. Kuten kaavasta 1 nähdään, selitysasteen ja sopeutetun selitysasteen laskemisessa ainut ero on, että jälkimmäisessä on kerroin (n 1/(n k 1. Koska aineistossa on paljon havaintoja, n = 7986 ja selittäviä muuttujia verrattain vähän, k = 3, tämä kerroin on erittäin lähellä ykköstä. Näin ollen molemmat selitysasteet ovat numeerisesti erittäin lähellä toisiaan. Selitysasteen valinnanlla onkin käytännön kannalta merkitystä silloin, kun selittäviä muuttujia on mallissa kohtalaisen paljon verrattuna aineiston havaintojen lukumäärään. (f Tutkitaan seuraavaksi, onko sukupuoli ja koulutustaso tilastollisesti merkitseviä selittäjiä tuntiansioille aineistossa. Testataan ensin molempia erikseen ja muodostetaan sen jälkeen yhdistetty testi sille, että molemmat ovat yhdessä merkitseviä. 4

(i testataan t-testillä, onko sukupuoli tilasollisesti merkitsevä muuttuja regressiossa, H 0 : β Female = 0. t-testisuure on t F emale = 3, 16 0, 18 = 17, 56 ja testin p-arvo on < 0,001. Nollahypoteesin voi hylätä ja sukupuoli vaikuttaa merkittävältä tekijältä tuntiansioihin. (ii Muodostetaan t-testisuure nollahypoteesille H 0 : β Age 0. Testisuure on t Age = 0, 44 = 14, 67 ( 0, 03 ja p-arvo on jälleen < 0,001. Tämäkin nollahypoteesi hylätään ja ikä vaikuttaa merkittävältä tekijältä tuntiansioiden muodostumisessa. (iii Muodostetaan F-testi nollahypoteesille H 0 : β F emale = β Age = 0. Muotoillaan nollahypoteesi lineaarisiksi rajoitteiksi parametreille muodossa H 0 : Rβ = r, jossa [ ] 0 0 1 0 R =, β = 0 0 0 1 β 0 β Age β F emale β Bachelor [ ] ja r = 0 0 ja β on rajoittamattoman mallin parametrivektori. Merkitään mallin estimoitua parametrivektoria ˆβ:lla, jossa parametrien estimaattorit on aseteltu samalla tavalla päällekkäin vektoriin. Lisäksi testisuuretta varten tarvitsemme estimaattorin parametrien estimaattoreiden heteroskedastisuusrobusteille keskivirheeille, Ω. F- testisuure on ( F = R ˆβ r [R ΩR ] 1 ( R ˆβ r /q as χ q, F-testisuure on F, -jakaututunut, testisuureen arvo on 75,95 ja sen p-arvo on < 0,001. Näin ollen nollahypoteesi jää voimaan ja voimme todeta, että ikä ja sukupuoli ovat yhdessä tilastollisesti merkitseviä tuntiansioiden selittäjiä. (g Poisjätetyn muuttujan harha vaatii, että ikä on korreloitunut joko tutkintotason kanssa tai sukupuolen kanssa. Nämä korrelaatiokertoimet ovat pieniä, Corr (Age, Female = 0, 03 ja Corr (Age, Bachelor < 0, 01. 5