Regressioanalyysi. Vilkkumaa / Kuusinen 1

Samankaltaiset tiedostot
Regressioanalyysi. Kuusinen/Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Harjoitus 9: Excel - Tilastollinen analyysi

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Yleinen lineaarinen malli

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Korrelaatiokertoinen määrittely 165

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

2. Teoriaharjoitukset

Sovellettu todennäköisyyslaskenta B

Estimointi. Vilkkumaa / Kuusinen 1

Yhden selittäjän lineaarinen regressiomalli

Johdatus regressioanalyysiin

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1

Harjoitus 3: Regressiomallit (Matlab)

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Lohkoasetelmat. Heliövaara 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Harjoitus 3: Regressiomallit (Matlab)

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Lohkoasetelmat. Kuusinen/Heliövaara 1

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Dynaamiset regressiomallit

Osa 2: Otokset, otosjakaumat ja estimointi

Testit laatueroasteikollisille muuttujille

Kertausluento. Vilkkumaa / Kuusinen 1

Testejä suhdeasteikollisille muuttujille

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Regressiodiagnostiikka ja regressiomallin valinta

Mat Tilastollisen analyysin perusteet, kevät 2007

Regressiodiagnostiikka ja regressiomallin valinta

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Testit järjestysasteikollisille muuttujille

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Väliestimointi (jatkoa) Heliövaara 1

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

031021P Tilastomatematiikka (5 op) viikko 6

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1

Yleistetyistä lineaarisista malleista

Sovellettu todennäköisyyslaskenta B

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Todennäköisyyden ominaisuuksia

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

Vastepintamenetelmä. Heliövaara 1

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

031021P Tilastomatematiikka (5 op) viikko 6

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

tilastotieteen kertaus

Harha mallin arvioinnissa

Mat Tilastollisen analyysin perusteet, kevät 2007

5.7 Uskottavuusfunktioon perustuvia testejä II

Tilastollinen aineisto Luottamusväli

Koesuunnittelu Vastepintamenetelmä. TKK (c) Ilkka Mellin (2005) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Simuloinnin strategisia kysymyksiä

Tilastollisia peruskäsitteitä ja Monte Carlo

1. Tilastollinen malli??

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

2.1. Parametrien estimointi 2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista

Simuloinnin strategisia kysymyksiä

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Lapsen pituuden selittäminen lineaarisella regressiomallilla

Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä

Transkriptio:

Regressioanalyysi Vilkkumaa / Kuusinen 1

Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen arvojen vaihtelun avulla. Regressioanalyysissa selitettävän muuttujan tilastolliselle riippuvuudelle selittävistä muuttujista pyritään rakentamaan tilastollinen malli, jota kutsutaan regressiomalliksi. Regressioanalyysin mahdollisia tavoitteita: (i) Selitettävän muuttujan ja selittävien muuttujien tilastollisen riippuvuuden luonteen kuvaaminen. (ii) Selitettävän muuttujan arvojen ennustaminen. Vilkkumaa / Kuusinen 2

Regressiomalli Regressiomallin yleisessä muodossa on seuraavat osat: y = f(x; β) + ε y f(x; β) ε = selitettävä muuttuja = mallin systemaattinen eli rakenneosa = mallin satunnainen osa Mallin systemaattinen osa f(x; β) kuvaa selitettävän muuttujan y riippuvuutta selittävästä muuttujasta x. Systemaattisen osan muoto riippuu parametrista β. Vilkkumaa / Kuusinen 3

Regressio-ongelma Regressioanalyysissä pyritään valitsemaan parametrin β arvo siten, että kaikkiin havaintoihin j, j = 1, 2,..., n, liittyvistä jäännöstermeistä ε j tulee samanaikaisesti mahdollisimman pieniä. Pyritään siis valitsemaan parametrin β arvo siten, että käyrä y = f(x; β) kulkisi jossakin mielessä mahdollisimman läheltä jokaista havaintopistettä (x j, y j ), j = 1, 2,..., n. Vilkkumaa / Kuusinen 4

Yhden selittäjän lineaarinen regressiomalli Vilkkumaa / Kuusinen 5

Malli ja sen osat Yhden selittäjän lineaarinen regressiomalli on muotoa y j = β 0 + β 1 x j + ε j, j = 1, 2,..., n, jossa y j = Selitettävän muuttujan satunnainen havaittu arvo havaintoyksikössä j. x j = Selittävän muuttujan ei-satunnainen havaittu arvo havaintoyksikössä j. β 0 = Vakioselittäjän regressiokerroin, joka on tuntematon vakio. β 1 = Selittäjän x regressiokerroin, joka on tuntematon vakio. ε j = Satunnainen jäännöstermi havaintoyksikössä j. Vilkkumaa / Kuusinen 6

Standardioletukset jäännöstermeistä Regressiomallin jäännöstermit ε j ovat satunnaismuuttujia, joiden ns. standardioletukset ovat: (i) E(ε j ) = 0, j = 1, 2,..., n. (ii) Var(ε j ) = σ 2, j = 1, 2,..., n. (iii) Cor(ε j, ε l ) = 0, j l. Tavallisesti tehdään myös normaalisuusoletus (iv) ε j N(0, σ 2 ), j = 1, 2,..., n. Vilkkumaa / Kuusinen 7

Selitettävän muuttujan ominaisuudet Jos regressiomallin jäännöstermejä ε j koskevat standardioletukset (i)-(iii) pätevät, on selitettävän muuttujan y havaituilla arvoilla y j seuraavat stokastiset ominaisuudet: (i) E(y j ) = β 0 + β 1 x j, j = 1, 2,..., n. (ii) Var(y j ) = σ 2, j = 1, 2,..., n. (iii) Cor(y j, y l ) = 0, j l. Jos myös normaalisuusoletus (iv) pätee, niin (iv) y j N(β 0 + β 1 x j, σ 2 ), j = 1, 2,..., n. Vilkkumaa / Kuusinen 8

Mallin parametrit Yhden selittäjän lineaarisen regressiomallin parametreja ovat regressiokertoimet β 0 ja β 1 sekä jäännöstermien ε j yhteinen varianssi Var(ε j ) = σ 2, j = 1, 2..., n, jota kutsutaan jäännösvarianssiksi. Koska regressiokertoimet β 0 ja β 1 sekä jäännösvarianssi σ 2 ovat tavallisesti tuntemattomia, ne on estimoitavat muuttujien x ja y havaituista arvoista x j ja y j, j = 1, 2,..., n. Regressiokertoimien β 0 ja β 1 estimointiin on tarjolla useita erilaisia menetelmiä, joista tavallisesti käytetään pienimmän neliösumman menetelmää. Vilkkumaa / Kuusinen 9

Pienimmän neliösumman menetelmä Pienimmän neliösumman menetelmässä yhden selittäjän lineaarisen regressiomallin y j = β 0 + β 1 x j + ε j, j = 1, 2,..., n, regressiokertoimien β 0 ja β 1 estimaattorit määrätään minimoimalla jäännöstermien ε j neliösummaa min β n j=1 ε 2 j min β n (y j β 0 β 1 x j ) 2 j=1 regressiokertoimien β 0 ja β 1 suhteen. Vilkkumaa / Kuusinen 10

Tunnuslukuja 1/2 Aritmeettiset keskiarvot: ˉx = 1 n n x j, ȳ = 1 n n y j j=1 j=1 Otosvarianssit: s 2 x = 1 n 1 s 2 y = 1 n 1 n j=1 n j=1 (x j ˉx) 2 = 1 n 1 (y j ȳ) 2 = 1 n 1 ( n ) x 2 j nˉx 2 j=1 ( n ) yj 2 nȳ 2 j=1 Vilkkumaa / Kuusinen 11

Tunnuslukuja 2/2 Otoskovarianssi s xy = 1 n 1 n j=1 (y j ȳ)(x j ˉx) = 1 n 1 ( n j=1 ) y j x j nȳˉx Otoskorrelaatiokerroin r xy = s xy s x s y Vilkkumaa / Kuusinen 12

Regressiokertoimien PNS-estimaattorit Yhden selittäjän lineaarisen regressiomallin y j = β 0 + β 1 x j + ε j, j = 1, 2,..., n regressiokertoimien β 0 ja β 1 PNS-estimaattorit ovat b 0 = ȳ b 1ˉx b 1 = s xy s 2 x = r xy s y s x Vilkkumaa / Kuusinen 13

Estimoitu regressiosuora Yhden selittäjän lineaarisen regressiomallin y j = β 0 + β 1 x j + ε j, j = 1, 2,..., n regressiokertoimien β 0 ja β 1 PNS-estimaattorit b 0 ja b 1 määrittävät suoran avaruudessa R 2 : y = b 0 + b 1 x = ȳ + r xy s y s x (x ˉx) Yhtälöstä nähdään, että estimoitu regressiosuora kulkee havaintopisteiden (x j, y j ), j = 1, 2,..., n, painopisteen (ˉx, ȳ) kautta. Vilkkumaa / Kuusinen 14

Estimoidun regressiosuoran ominaisuudet Estimoidulla regressiosuoralla on seuraavat ominaisuudet: (i) Jos r xy > 0, suora on nouseva. (ii) Jos r xy < 0, suora on laskeva. (iii) Jos r xy = 0, suora on vaakasuorassa. (iv) Suora jyrkkenee (loivenee), jos: - korrelaation itseisarvo r xy kasvaa (pienenee). - keskihajonta s y kasvaa (pienenee). - keskihajonta s x pienenee (kasvaa). Vilkkumaa / Kuusinen 15

Sovitteet ja residuaalit Olkoot b 0 ja b 1 yhden selittäjän lineaarisen regressiomallin y j = β 0 + β 1 x j + ε j, j = 1, 2,..., n regressiokertoimien β 0 ja β 1 PNS-estimaattorit. Estimoidun mallin sovite ŷ j = b 0 + b 1 x j, j = 1, 2,..., n on estimoidun regressiosuoran arvo havaintopisteessä x j. Estimoidun mallin residuaali e j = y j ŷ j = y j b 0 b 1 x j, j = 1, 2,..., n on selitettävän muuttujan y havaitun arvon y j ja sovitteen ŷ j arvon erotus. Vilkkumaa / Kuusinen 16

Neliösummia Kokonaisneliösumma: SST = n (y j ȳ) 2 j=1 Jäännösneliösumma: SSE = n e 2 j j=1 Mallineliösumma: SSM = n (ŷ j ȳ) 2 j=1 Näille neliösummille pätee varianssianalyysihajotelma SST = SSM + SSE Vilkkumaa / Kuusinen 17

Selitysaste Tunnuslukua R 2 = 1 SSE SST = SSM SST käytetään regressiomallin hyvyyden mittarina. Tunnuslukua R 2 kutsutaan selityasteeksi ja se mittaa regressiomallin selittämää osuutta selitettävän muuttujan y havaittujen arvojen kokonaisvaihtelusta. Yhden selittäjän lineaarisessa regressiomallissa pätee: R 2 = r 2 xy Selitysasteelle pätee aina 0 R 2 1 Vilkkumaa / Kuusinen 18

Jäännösvarianssi Jos yhden selittäjän lineaarisen regressiomallin jäännöstermejä ε j koskevat standardioletukset (i)-(iii) pätevät, jäännösvarianssin Var(ε j ) = σ 2 harhaton estimaattori on jossa e j s 2 = 1 n 2 n e 2 j, j=1 = y j ŷ j = y j b 0 b 1 x j, j = 1, 2,..., n n = estimoidun mallin residuaali = havaintojen lukumäärä Vilkkumaa / Kuusinen 19

Regressiokerrointen PNS-estimaattoreiden jakaumat Yhden selittäjän lineaarisen regressiomallin regressiokertoimien β 0 ja β 1 PNS-estimaattoreiden b 0 ja b 1 otosjakaumat ovat standardioletusten (i)-(iv) pätiessä missä b 0 N (β 0, σ2 n i=1 x2 i n 2ˆσ 2 x σ 2 = Var(ε j ) on jäännösvarianssi. ) (, b 1 N β 1, σ 2 nˆσ 2 x ˆσ 2 x = 1 n n j=1 (x j ˉx) 2 on x:n harhainen otosvarianssi. ), Vilkkumaa / Kuusinen 20

Regressiokertoimia koskevat testit Nollahypoteesi H 0 : β i = 0, i = 0, 1 Vaihtoehtoiset hypoteesit H 1 : β i > 0, H 1 : β i < 0, H 1 : β i 0 Testisuureet T = b 0 s n i=1 x2 i /(nˆσ x), T = b 1 s/( nˆσ x ), missä s 2 on jäännösvarianssin σ 2 harhaton estimaattori. Testisuureen jakauma: jos nollahypoteesi pätee, T t(n 2). Vilkkumaa / Kuusinen 21

Testi regression olemassaololle Yhden selittäjän tapauksessa regression olemassaolo β 1 0 Nollahypoteesi H 1 : β 1 = 0 eli regressiota ei ole olemassa Vaihtoehtoinen hypoteesi H 1 : β 1 0 Testisuure F = b 2 1 s 2 /(nˆσ 2 x), Testisuureen jakauma: jos nollahypoteesi pätee, F F (1, n 2). Tämä F-testi on ekvivalentti edellisen kalvon t-testin kanssa F-testi kuitenkin yleistyy useamman muuttujan regressiomalleihin Vilkkumaa / Kuusinen 22

Klikkeri-kysely On saatu kuvan mukainen 30 havainnon otos, jolle on tehty lineaarinen regressio. Minkä johtopäätöksen voit tehdä? 1. Muuttujat x ja y korreloivat positiivisesti keskenään, 2. Mallin selitysaste on negatiivinen, 3. Regressiokertoimen β 1 PNS-estimaatti b 1 on negatiivinen. Vilkkumaa / Kuusinen 23

Klikkeri-kysely jatkuu Vilkkumaa / Kuusinen 24

Yleinen lineaarinen malli Vilkkumaa / Kuusinen 25

Usean selittäjän lineaarinen regressiomalli Usean selittäjän lineaarisessa regressiomallissa selitettävän muuttujan y havaittujen arvojen vaihtelu halutaan selittää selittävien muuttujien x 1, x 2,..., x k havaittujen arvojen vaihtelun avulla. Usean selittäjän lineaarista regressiomallia kutsutaan tavallisesti yleiseksi lineaariseksi malliksi. Vilkkumaa / Kuusinen 26

Havainnot Selitettävää muuttujaa y ja selittäjiä x 1, x 2,..., x k koskevat havaintoarvot voidaan järjestää havaintoyksiköittäin seuraavasti: Havaintoyksikkö 1: x 11, x 12,..., x 1k, y 1 Havaintoyksikkö 2: x 21, x 22,..., x 2k, y 2. missä. Havaintoyksikkö n: x n1, x n2,..., x nk, y n, k = selittäjien x i lukumäärä. n = havaintojen lukumäärä. Vilkkumaa / Kuusinen 27

Yleinen lineaarinen malli 1/2 Yhtälö y j = β 0 + β 1 x j1 + β 2 x j2 + + β k x jk + ε j, j = 1, 2,..., n määrittelee yleisen lineaarisen mallin, jossa: y j = selitettävän muuttujan y satunnainen ja havaittu arvo havaintoyksikössä j x ji = selittävän muuttujan x i ei-satunnainen ja havaittu arvo havaintoyksikössä j, i = 1, 2,..., k ε j = jäännöstermin ε satunnainen ja ei-havaittu arvo havaintoyksikössä j Vilkkumaa / Kuusinen 28

Yleinen lineaarinen malli 2/2 Yhtälö y j = β 0 + β 1 x j1 + β 2 x j2 + + β k x jk + ε j, j = 1, 2,..., n määrittelee yleisen lineaarisen mallin, jossa on seuraavat kertoimet: β 0 = vakioselittäjän regressiokerroin, ei-satunnainen ja tuntematon vakio β i = selittäjän x i regressiokerroin, i = 1, 2,..., k, ei-satunnainen ja tuntematon vakio Vilkkumaa / Kuusinen 29

Standardioletukset Yleisen lineaarisen mallin standardioletukset ovat: (i) Selittäjien x i arvot x ji ovat ei-satunnaisia vakioita, j = 1, 2,..., n, i = 1, 2,..., k (ii) Selittäjien välillä ei ole lineaarisia riippuvuuksia. (iii) E(ε j ) = 0, j = 1, 2,..., n (iv) Var(ε j ) = σ 2, j = 1, 2,..., n (v) Cor(ε j, ε l ) = 0, j l (vi) ε j N(0, σ 2 ), j = 1, 2,..., n Standardioletusten voimassaolo takaa, että ns. tavanomaisia estimointi- ja testausmenetelmiä saa käyttää mallin analysoinnissa. Vilkkumaa / Kuusinen 30

Regressiotaso Standardioletusten pätiessä selitettävän muuttujan odotusarvo, jota kutsutaan mallin systemaattiseksi osaksi, on muotoa E(y j ) = β 0 + β 1 x j1 + β 2 x j2 + + β k x jk, j = 1, 2,..., n Systemaattisen osan avaruudessa R k+1 määrittelemää tasoa y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k kutsutaan regressiotasoksi. Jäännöstermien ε j varianssi σ 2 kuvaa havaintopisteiden (x j1, x j2,..., x jk, y j ) R k+1, j = 1, 2,..., n vaihtelua regressiotason ympärillä. Vilkkumaa / Kuusinen 31

Yleisen lineaarisen mallin matriisiesitys 1/2 Olkoon y = [y 1 y 2 y n ] selitettävän muuttujan y havaittujen arvojen muodostama n-vektori. Olkoon X = 1 x 11 x 12 x 1k 1 x 21 x 22 x 2k......... 1 x n1 x n2 x nk selittävien muuuttujien x 1, x 2,..., x k havaittujen arvojen ja vakioselittäjää vastaavien ykkösten muodostama n (k + 1)-matriisi. Vilkkumaa / Kuusinen 32

Yleisen lineaarisen mallin matriisiesitys 2/2 Olkoon β = [β 0 β 1 β k ] regressiokertoimien β 0, β 1,..., β k muodostama (k + 1)-vektori. Olkoon ε = [ε 1 ε 2 ε n ] jäännöstermien ε 1, ε 2,..., ε n muodostama n-vektori. Yleinen lineaarinen malli voidaan esittää matriisein muodossa y = Xβ + ε Vilkkumaa / Kuusinen 33

Yleisen lineaarisen mallin parametrien estimointi Yleisen lineaarisen mallin y j = β 0 + β 1 x j1 + β 2 x j2 + + β k x jk + ε j, j = 1, 2,..., n regressiokertoimet β 0, β 1,..., β k estimoidaan tavallisesti pienimmän neliösumman menetelmällä. PNS-menetelmässä regressiokertoimien estimaattorit määrätään minimoimalla jäännöstermien ε j neliösummaa n j=1 ε 2 j = n (y j β 0 β 1 x j1 β 2 x j2 β k x jk ) 2 j=1 regressiokertoimien β 0, β 1,..., β k suhteen. Vilkkumaa / Kuusinen 34

Regressiokertoimien PNS-estimaattorit Olkoon y = Xβ + ε standardioletuksen (ii) r(x) = k + 1 toteuttava yleinen lineaarinen malli. Tällöin regressiokertoimien vektorin β PNS-estimaattori on b = (X X) 1 X y Standardioletusten (i)-(vi) pätiessä b N k+1 (β, σ 2 (X X) 1 ). Vilkkumaa / Kuusinen 35

Estimoitu regressiotaso Regressiokertoimien β 0, β 1,..., β k PNS-estimaattorit b 0, b 1,..., b k määrittelevät tason y = b 0 + b 1 x 1 + b 2 x 2 + + b k x k avaruudessa R k+1. Tasoa kutsutaan estimoiduksi regressiotasoksi. Jäännösvarianssin σ 2 estimaattori s 2 kuvaa havaintopisteiden (x j1, x j2,..., x jk, y j ) R k+1, j = 1, 2,..., n vaihtelua estimoidun regressiotason ympärillä. Vilkkumaa / Kuusinen 36

Regressiokertoimia koskevat testit Nollahypoteesi H 0 : β i = 0, i = 0, 1,..., k Vaihtoehtoiset hypoteesit H 1 : β i > 0, H 1 : β i < 0, H 1 : β i 0 Testisuure T i = b i s bi, i = 0,..., k, missä s 2 b i on i. regressiokertoimen varianssin estimaattori, ts. matriisin s 2 (X X) 1 i. diagonaalialkio. Testisuureen jakauma: jos nollahypoteesi pätee, T t(n k 1). Vilkkumaa / Kuusinen 37

Neliösummia Kokonaisneliösumma: SST = n (y j ȳ) 2 j=1 Jäännösneliösumma: SSE = n e 2 j = n (y j b 0... b k x jk ) 2 j=1 j=1 Mallineliösumma: SSM = n (ŷ j ȳ) 2 = j=1 n (b 0 +... + b k x jk ȳ) 2 j=1 Näille neliösummille pätee varianssianalyysihajotelma SST = SSM + SSE Vilkkumaa / Kuusinen 38

Testi regression olemassaololle Nollahypoteesi H 0 : β 1 =... = β k = 0 eli regressiota ei ole olemassa Vaihtoehtoinen hypoteesi H 1 : i s.e. β i 0 eli selitettävä y riippuu lineaarisesti ainakin yhdestä selittäjästä x i Testisuure F = n k 1 k SSM SSE Testisuureen jakauma: jos nollahypoteesi pätee, F F (k, n k 1). Vilkkumaa / Kuusinen 39

Esimerkki: kahden selittäjän lineaarinen regressio Vilkkumaa / Kuusinen 40

Klikkeri-kysely Mikä seuraavista väittämistä pitää paikkansa? 1. Selitettävä muuttuja ei riipu lineaarisesti yhdestäkään selittäjästä 2. Yksi selittäjistä ei ole tilastollisesti merkitsevä 3. Kaikki selittäjät ovat tilastollisesti merkitseviä Vilkkumaa / Kuusinen 41

Esimerkki jatkuu Vilkkumaa / Kuusinen 42

Yhteenveto Lineaarisella regressiolla kuvataan selitettävän muuttujan lineaarista riippuvuutta selittävistä muuttujista Selittävän muuttujan x i regressiokerroin β i kertoo, miten selittävän muuttujan yksikkömuutos vaikuttaa selitettävään muuttujaan (x i x i + 1, y y + β i ) Selittäjien tilastollista merkitsevyyttä voidaan testata regressiokerrointen t-testillä - Nollahypoteesi: β i = 0 - Regressiokerroin β i = 0 y eri riipu (lineaarisesti) selittäjästä x i Regression olemassaoloa voidaan testata F -testillä (H 0 : β 1 =... = β k = 0) Vilkkumaa / Kuusinen 43