Johdatus regressioanalyysiin. Heliövaara 1

Samankaltaiset tiedostot
ABHELSINKI UNIVERSITY OF TECHNOLOGY

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Harjoitus 9: Excel - Tilastollinen analyysi

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Yleinen lineaarinen malli

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Sovellettu todennäköisyyslaskenta B

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Harjoitus 3: Regressiomallit (Matlab)

Korrelaatiokertoinen määrittely 165

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Harjoitus 3: Regressiomallit (Matlab)

Yhden selittäjän lineaarinen regressiomalli

Johdatus regressioanalyysiin

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

2. Teoriaharjoitukset

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Lohkoasetelmat. Heliövaara 1

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Vastepintamenetelmä. Heliövaara 1

Dynaamiset regressiomallit

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

031021P Tilastomatematiikka (5 op) viikko 6

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Yleistetyistä lineaarisista malleista

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Kuusinen/Heliövaara 1

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä

Koesuunnittelu 2 k -faktorikokeet. TKK (c) Ilkka Mellin (2005) 1

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

031021P Tilastomatematiikka (5 op) viikko 6

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Harha mallin arvioinnissa

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari

Todennäköisyyden ominaisuuksia

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Estimointi. Vilkkumaa / Kuusinen 1

Regressiodiagnostiikka ja regressiomallin valinta

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Osa 2: Otokset, otosjakaumat ja estimointi

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

2. Tietokoneharjoitukset

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Yhden selittäjän lineaarinen regressiomalli: Lisätiedot. Yhden selittäjän lineaarinen regressiomalli

tilastotieteen kertaus

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Väliestimointi (jatkoa) Heliövaara 1

Regressiodiagnostiikka ja regressiomallin valinta

2.1. Parametrien estimointi 2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista

4.0.2 Kuinka hyvä ennuste on?

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Kertausluento. Vilkkumaa / Kuusinen 1

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Mat Tilastollisen analyysin perusteet, kevät 2007

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Simuloinnin strategisia kysymyksiä

Lineaarinen malli. Pentti Saikkonen. Kevät Korjattu versio: Toukokuu 2011

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Tilastolliset menetelmät. β versio. Tilastolliset menetelmät. Ilkka Mellin. Teknillinen korkeakoulu, Matematiikan laboratorio

Tilastolliset menetelmät

805306A Johdatus monimuuttujamenetelmiin, 5 op

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Koesuunnittelu Vastepintamenetelmä. TKK (c) Ilkka Mellin (2005) 1

Lapsen pituuden selittäminen lineaarisella regressiomallilla

1. Tilastollinen malli??

Yleinen lineaarinen malli. Yleinen lineaarinen malli. Yleinen lineaarinen malli: Mitä opimme? 2/4. Yleinen lineaarinen malli: Mitä opimme?

Niina Matikainen Auton arvon aleneminen iän ja käytön myötä

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

1. Tietokoneharjoitukset

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

Transkriptio:

Johdatus regressioanalyysiin Heliövaara 1

Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla. Regressioanalyysissa selitettävän muuttujan tilastolliselle riippuvuudelle selittävistä muuttujista pyritään rakentamaan tilstollinen malli, jota kutsutaan regressiomalliksi. Heliövaara 2

Regressioanalyysin tavoitteet Regressioanalyysin mahdollisia tavoitteita: (i) Selitettävän muuttujan ja selittävien muuttujien tilastollisen riippuvuuden luonteen kuvaaminen. (ii) Selitettävän muuttujan arvojen ennustaminen. Heliövaara 3

Regressiomalli Regressiomallissa y j = f(x j ;β) + ε j, j = 1, 2,...,n on seuraavat osat: y j = Selitettävän muuttujan satunnainen havaittu arvo havaintoyksikössä j. x j = Selittävän muuttujan ei-satunnainen havaittu arvo havaintoyksikössä j. β = Tuntematon ei-satunnainen parametri. ε j = Satunnainen virhetermi havaintoyksikössä j. Heliövaara 4

Regressio-ongelma Regressioanalyysissa pyritään valitsemaan regressiomallin parametrin β arvo siten, että kaikista virhetermeistä ε j tulee samanaikaisesti mahdollisimman pieniä. Pyritään siis valitsemaan parametri β siten, että käyrä y = f(x;β) kulkisi mahdollisimman läheltä jokaista havaintopistettä (x j,y j ) R 2, j = 1, 2,...,n. Erään ratkaisun tähän käyränsovitusongelmaan tarjoaa pienimmän neliösumman menetelmä. Heliövaara 5

Pienimmän neliösumman menetelmä pienimmän neliösumman menetelmässä pyritään minimoimaan regressiomallin y j = f(x j ;β) + ε j, j = 1, 2,...,n virhetermien ε j neliöden summaa, muuttamalla parametrin β arvoa: min β n j=1 ε 2 j min β n (y j f(x j ;β)) 2 j=1 Optimaalinen β:n arvo on parametrin β PNS-estimaatti. Heliövaara 6

Yhden selittäjän lineaarinen regressiomalli Heliövaara 7

Tarvittavia tunnuslukuja Otosvarianssi s 2 x = 1 ( n ) x 2 i n x 2 n 1 i=1 Otoskovarianssi s xy = 1 n 1 ( n ) (y i ȳ)(x i x) i=1 = 1 ( n ) y i x i nȳ x n 1 i=1 Otoskorrelaatiokerroin r xy = s xy s x s y Heliövaara 8

Malli ja sen osat Yhden selittäjän lineaarinen regressiomalli on muotoa y j = β 0 + β 1 x j + ε j, j = 1, 2,...,n, jossa y j = Selitettävän muuttujan satunnainen havaittu arvo havaintoyksikössä j. x j = Selittävän muuttujan ei-satunnainen havaittu arvo havaintoyksikössä j. β 0 = Vakioselittäjän regressiokerroin, joka on tuntematon vakio. β 1 = Selittäjän x regressiokerroin, joka on tuntematon vakio. ε j = Satunnainen virhetermi havaintoyksikössä j. Heliövaara 9

Virhetermin standardioletukset 1/2 Regressiomallin virhetermit ε j ovat satunnaismuuttujia, joiden ns. standardioletukset ovat: (i) E(ε j ) = 0, j = 1, 2,...,n. (ii) Var(ε j ) = σ 2, j = 1, 2,...,n. (iii) Cor(ε j,ε l ) = 0, j l. Tavallisesti tehdään myös normaalisuusoletus (iv) ε j N(0,σ 2 ), j = 1, 2,...,n. Heliövaara 10

Virhetermin standardioletukset 2/2 Jos regressiomallin virhetermejä ε j koskevat standardioletukset (i)-(iii) pätevät, on selitettävän muuttujan havaituilla arvoilla seuraavat stokastiset ominaisuudet: (i) E(y j ) = β 0 + β 1 x j, j = 1, 2,...,n. (ii) Var(y j ) = σ 2, j = 1, 2,...,n. (iii) Cor(y j,y l ) = 0, j l. Jos myös normaalisuusoletus (iv) pätee, niin (iv) y j N(β 0 + β 1 x j,σ 2 ), j = 1, 2,...,n. Heliövaara 11

Pienimmän neliösumman menetelmä Pienimmän neliösumman menetelmässä yhden selittäjän lineaarisen regressiomallin y j = β 0 + β 1 x j + ε j, j = 1, 2,...,n, regressiokertoimien β 0 ja β 1 estimaattorit määrätään minimoimalla virhetermien ε j neliösumma min β n j=1 ε 2 j min β n (y j β 0 β 1 x j ) 2 j=1 regressiokertoimien β 0 ja β 1 suhteen. Heliövaara 12

Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n aritmeettiset keskiarvot ( x ja ȳ), otosvarianssit (s 2 x ja s2 y ), otoskovarianssi (s xy) ja otoskorrelaatiokerroin (r xy ) tavanomaisilla kaavoillaan. Yhden selittäjän lineaarisen regressiomallin regressiokertoimien β 0 ja β 1 PNS-estimaattorit ovat b 0 = ȳ b 1 x b 1 = s xy s 2 x = r xy s y s x Heliövaara 13

Sovitteet ja residuaalit Olkoot b 0 ja b 1 yhden selittäjän lineaarisen regressiomallin y j = β 0 + β 1 x j + ε j, j = 1, 2,...,n regressiokertoimien β 0 ja β 1 PNS-estimaattorit. Estimoidun mallin sovite ŷ j = b 0 + b 1 x j, j = 1, 2,...,n on estimoidun regressiosuoran arvo havaintopisteessä x j. Estimoidun mallin residuaali e j = y j ŷ j = y j b 0 b 1 x j, j = 1, 2,...,n on selitettävän muuttujan y havaitun arvon y j ja sovitteen ŷ j arvon erotus. Heliövaara 14

Neliösummia kokonaisneliösumma: SST = n (y j ȳ) 2 j=1 jäännösneliösumma: SSE = n e 2 j j=1 mallineliösumma: SSM = n (ŷ j ȳ) 2 j=1 Näille neliösummille pätee varianssianalyysihajotelma SST = SSM + SSE Heliövaara 15

Selitysaste Tunnuslukua R 2 = 1 SSE SST = SSM SST käytetään regressiomallin hyvyyden mittarina. Tunnuslukua R 2 kutsutaan selityasteeksi ja se mittaa regressiomallin selittämää osuutta selitettävän muuttujan y havaittujen arvojen kokonaisvaihtelusta. Yhden selittäjän lineaarisessa regressiomallissa pätee: R 2 = r 2 xy Selitysasteelle pätee aina 0 R 2 1 Heliövaara 16

Jäännösvarianssi Jos yhden selittäjän lineaarisen regressiomallin virhetermejä ε j koskevat standardioletukset (i)-(iii) pätevät, jäännösvarianssin V ar(ε j ) = σ 2 harhaton estimaattori on s 2 = 1 n 2 n j=1 e 2 j jossa e j = estimoidun mallin residuaali n = havaintojen lukumäärä Heliövaara 17