ABHELSINKI UNIVERSITY OF TECHNOLOGY

Samankaltaiset tiedostot
Johdatus regressioanalyysiin. Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Harjoitus 9: Excel - Tilastollinen analyysi

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Sovellettu todennäköisyyslaskenta B

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Mat Tilastollisen analyysin perusteet, kevät 2007

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Harjoitus 3: Regressiomallit (Matlab)

Harjoitus 3: Regressiomallit (Matlab)

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Johdatus regressioanalyysiin

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Dynaamiset regressiomallit

Yleinen lineaarinen malli

2. Teoriaharjoitukset

Sovellettu todennäköisyyslaskenta B

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

Korrelaatiokertoinen määrittely 165

Yhden selittäjän lineaarinen regressiomalli

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Harha mallin arvioinnissa

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Vastepintamenetelmä. Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

031021P Tilastomatematiikka (5 op) viikko 6

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

4.0.2 Kuinka hyvä ennuste on?

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Mat Tilastollisen analyysin perusteet, kevät 2007

031021P Tilastomatematiikka (5 op) viikko 6

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1

Simuloinnin strategisia kysymyksiä

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä

Mat Tilastollisen analyysin perusteet, kevät 2007

805306A Johdatus monimuuttujamenetelmiin, 5 op

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

1. Tutkitaan tavallista kahden selittäjän regressiomallia

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Inversio-ongelmien laskennallinen peruskurssi Luento 2

1. Tilastollinen malli??

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Osa 2: Otokset, otosjakaumat ja estimointi

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

Todennäköisyyden ominaisuuksia

Yleistetyistä lineaarisista malleista

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

3. Teoriaharjoitukset

Simuloinnin strategisia kysymyksiä

Lineaarinen malli. Pentti Saikkonen. Kevät Korjattu versio: Toukokuu 2011

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

tilastotieteen kertaus

Lohkoasetelmat. Heliövaara 1

Estimointi. Vilkkumaa / Kuusinen 1

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Väliestimointi (jatkoa) Heliövaara 1

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Pienimmän Neliösumman Sovitus (PNS)

Regressiodiagnostiikka ja regressiomallin valinta

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Johdatus geospatiaaliseen tutkimukseen

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Lapsen pituuden selittäminen lineaarisella regressiomallilla

Lohkoasetelmat. Kuusinen/Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli: Lisätiedot. Yhden selittäjän lineaarinen regressiomalli

min x x2 2 x 1 + x 2 1 = 0 (1) 2x1 1, h = f = 4x 2 2x1 + v = 0 4x 2 + v = 0 min x x3 2 x1 = ± v/3 = ±a x 2 = ± v/3 = ±a, a > 0 0 6x 2

Inversio-ongelmien laskennallinen peruskurssi Luento 4

Sovellettu todennäköisyyslaskenta B

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Koesuunnittelu 2 k -faktorikokeet. TKK (c) Ilkka Mellin (2005) 1

Ilkka Mellin Aikasarja-analyysi. Dynaamiset regressiomallit. TKK (c) Ilkka Mellin (2006) 1

Transkriptio:

Johdatus regressioanalyysiin

Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla. Regressioanalyysissa selitettävän muuttujan tilastolliselle riippuvuudelle selittävistä muuttujista pyritään rakentamaan tilstollinen malli, jota kutsutaan regressiomalliksi.

Regressioanalyysin tavoitteet Regressioanalyysin mahdollisia tavoitteita: (i) Selitettävän muuttujan ja selittävien muuttujien tilastollisen riippuvuuden luonteen kuvaaminen. (ii) Selitettävän muuttujan arvojen ennustaminen.

Regressiomalli Regressiomallissa y j = f(x j ;β) + ε j, j = 1, 2,...,n on seuraavat osat: y j = Selitettävän muuttujan havaittu arvo havaintoyksikössä j. x j = Selittävän muuttujan havaittu arvo havaintoyksikössä j. β = Tuntematon ei-satunnainen parametri. ε j = Satunnainen virhetermi havaintoyksikössä j.

Regressio-ongelma Regressioanalyysissa pyritään valitsemaan regressiomallin parametrin β arvo siten, että kaikista virhetermeistä ε j tulee samanaikaisesti mahdollisimman pieniä. Pyritään siis valitsemaan parametri β siten, että käyrä y = f(x;β) kulkisi mahdollisimman läheltä jokaista havaintopistettä (x j,y j ) R 2, j = 1, 2,...,n. Erään ratkaisun tähän käyränsovitusongelmaan tarjoaa pienimmän neliösumman menetelmä.

pienimmän neliösumman menetelmä pienimmän neliösumman menetelmässä pyritään minimoimaan regressiomallin y j = f(x j ;β) + ε j, j = 1, 2,...,n virhetermien ε j neliöden summaa, muuttamalla parametrin β arvoa: min β n j=1 ε 2 j min β n (y j f(x j ;β)) 2 j=1 Optimaalinen β:n arvo on parametrin β PNS-estimaatti.

Yhden selittäjän lineaarinen regressiomalli

Malli ja sen osat Yhden selittäjän lineaarinen regressiomalli on muotoa y j = β 0 + β 1 x j + ε j, j = 1, 2,...,n, jossa y j = Selitettävän muuttujan havaittu arvo havaintoyksikössä j. x j = Selittävän muuttujan havaittu arvo havaintoyksikössä j. β 0 = Vakioselittäjän regressiokerroin, joka on tuntematon vakio. β 1 = Selittäjän x regressiokerroin, joka on tuntematon vakio. ε j = Satunnainen virhetermi havaintoyksikössä j.

Virhetermin standardioletukset 1/2 Regressiomallin virhetermit ε j ovat satunnaismuuttujia, joiden ns. standardioletukset ovat: (i) E(ε j ) = 0, j = 1, 2,...,n. (ii) Var(ε j ) = σ 2, j = 1, 2,...,n. (iii) Cor(ε j,ε l ) = 0, j l. Tavallisesti tehdään myös normaalisuusoletus (iv) ε j N(0,σ 2 ), j = 1, 2,...,n.

Virhetermin standardioletukset 2/2 Jos regressiomallin virhetermejä ε j koskevat standardioletukset (i)-(iii) pätevät, on selitettävän muuttujan havaituilla arvoilla seuraavat stokastiset ominaisuudet: (i) E(y j ) = β 0 + β 1 x j, j = 1, 2,...,n. (ii) Var(y j ) = σ 2, j = 1, 2,...,n. (iii) Cor(y j,y l ) = 0, j l. Jos myös normaalisuusoletus (iv) pätee, niin (iv) y j N(β 0 + β 1 x j,σ 2 ), j = 1, 2,...,n.

Pienimmän neliösumman menetelmä Pienimmän neliösumman menetelmässä yhden selittäjän lineaarisen regressiomallin y j = β 0 + β 1 x j + ε j, j = 1, 2,...,n, regressiokertoimien β 0 ja β 1 estimaattorit määrätään minimoimalla virhetermien ε j neliösumma min β n j=1 ε 2 j min β n (y j β 0 β 1 x j ) 2 j=1 regressiokertoimien β 0 ja β 1 suhteen.

Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n aritmeettiset keskiarvot ( x ja ȳ), otosvarianssit (s 2 x ja s2 y ), otoskovarianssi (s xy) ja otoskorrelaatiokerroin (r xy ) tavanomaisilla kaavoillaan. Yhden selittäjän lineaarisen regressiomallin regressiokertoimien β 0 ja β 1 PNS-estimaattorit ovat b 0 = ȳ b 1 x b 1 = s xy s 2 x = r xy s y s x