Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi Vilkkumaa / Kuusinen 1

Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen arvojen vaihtelun avulla. Regressioanalyysissa selitettävän muuttujan tilastolliselle riippuvuudelle selittävistä muuttujista pyritään rakentamaan tilastollinen malli, jota kutsutaan regressiomalliksi. Regressioanalyysin mahdollisia tavoitteita: (i) Selitettävän muuttujan ja selittävien muuttujien tilastollisen riippuvuuden luonteen kuvaaminen. (ii) Selitettävän muuttujan arvojen ennustaminen. Vilkkumaa / Kuusinen 2

Regressiomalli Regressiomallin yleisessä muodossa on seuraavat osat: y = f(x; β) + ε y f(x; β) ε = selitettävä muuttuja = mallin systemaattinen eli rakenneosa = mallin satunnainen osa Mallin systemaattinen osa f(x; β) kuvaa selitettävän muuttujan y riippuvuutta selittävästä muuttujasta x. Systemaattisen osan muoto riippuu parametrista β. Vilkkumaa / Kuusinen 3

Regressio-ongelma Regressioanalyysissä pyritään valitsemaan parametrin β arvo siten, että kaikkiin havaintoihin j, j = 1, 2,..., n, liittyvistä jäännöstermeistä ε j tulee samanaikaisesti mahdollisimman pieniä. Pyritään siis valitsemaan parametrin β arvo siten, että käyrä y = f(x; β) kulkisi jossakin mielessä mahdollisimman läheltä jokaista havaintopistettä (x j, y j ), j = 1, 2,..., n. Vilkkumaa / Kuusinen 4

Yhden selittäjän lineaarinen regressiomalli Vilkkumaa / Kuusinen 5

Malli ja sen osat Yhden selittäjän lineaarinen regressiomalli on muotoa y j = β 0 + β 1 x j + ε j, j = 1, 2,..., n, jossa y j = Selitettävän muuttujan satunnainen havaittu arvo havaintoyksikössä j. x j = Selittävän muuttujan ei-satunnainen havaittu arvo havaintoyksikössä j. β 0 = Vakioselittäjän regressiokerroin, joka on tuntematon vakio. β 1 = Selittäjän x regressiokerroin, joka on tuntematon vakio. ε j = Satunnainen jäännöstermi havaintoyksikössä j. Vilkkumaa / Kuusinen 6

Standardioletukset jäännöstermeistä Regressiomallin jäännöstermit ε j ovat satunnaismuuttujia, joiden ns. standardioletukset ovat: (i) E(ε j ) = 0, j = 1, 2,..., n. (ii) Var(ε j ) = σ 2, j = 1, 2,..., n. (iii) Cor(ε j, ε l ) = 0, j l. Tavallisesti tehdään myös normaalisuusoletus (iv) ε j N(0, σ 2 ), j = 1, 2,..., n. Vilkkumaa / Kuusinen 7

Selitettävän muuttujan ominaisuudet Jos regressiomallin jäännöstermejä ε j koskevat standardioletukset (i)-(iii) pätevät, on selitettävän muuttujan y havaituilla arvoilla y j seuraavat stokastiset ominaisuudet: (i) E(y j ) = β 0 + β 1 x j, j = 1, 2,..., n. (ii) Var(y j ) = σ 2, j = 1, 2,..., n. (iii) Cor(y j, y l ) = 0, j l. Jos myös normaalisuusoletus (iv) pätee, niin (iv) y j N(β 0 + β 1 x j, σ 2 ), j = 1, 2,..., n. Vilkkumaa / Kuusinen 8

Mallin parametrit Yhden selittäjän lineaarisen regressiomallin parametreja ovat regressiokertoimet β 0 ja β 1 sekä jäännöstermien ε j yhteinen varianssi Var(ε j ) = σ 2, j = 1, 2..., n, jota kutsutaan jäännösvarianssiksi. Koska regressiokertoimet β 0 ja β 1 sekä jäännösvarianssi σ 2 ovat tavallisesti tuntemattomia, ne on estimoitavat muuttujien x ja y havaituista arvoista x j ja y j, j = 1, 2,..., n. Regressiokertoimien β 0 ja β 1 estimointiin on tarjolla useita erilaisia menetelmiä, joista tavallisesti käytetään pienimmän neliösumman menetelmää. Vilkkumaa / Kuusinen 9

Pienimmän neliösumman menetelmä Pienimmän neliösumman menetelmässä yhden selittäjän lineaarisen regressiomallin y j = β 0 + β 1 x j + ε j, j = 1, 2,..., n, regressiokertoimien β 0 ja β 1 estimaattorit määrätään minimoimalla jäännöstermien ε j neliösummaa min β n j=1 ε 2 j min β n (y j β 0 β 1 x j ) 2 j=1 regressiokertoimien β 0 ja β 1 suhteen. Vilkkumaa / Kuusinen 10

Tunnuslukuja 1/2 Aritmeettiset keskiarvot: ˉx = 1 n n x j, ȳ = 1 n n y j j=1 j=1 Otosvarianssit: s 2 x = 1 n 1 s 2 y = 1 n 1 n j=1 n j=1 (x j ˉx) 2 = 1 n 1 (y j ȳ) 2 = 1 n 1 ( n ) x 2 j nˉx 2 j=1 ( n ) yj 2 nȳ 2 j=1 Vilkkumaa / Kuusinen 11

Tunnuslukuja 2/2 Otoskovarianssi s xy = 1 n 1 n j=1 (y j ȳ)(x j ˉx) = 1 n 1 ( n j=1 ) y j x j nȳˉx Otoskorrelaatiokerroin r xy = s xy s x s y Vilkkumaa / Kuusinen 12

Regressiokertoimien PNS-estimaattorit Yhden selittäjän lineaarisen regressiomallin y j = β 0 + β 1 x j + ε j, j = 1, 2,..., n regressiokertoimien β 0 ja β 1 PNS-estimaattorit ovat b 0 = ȳ b 1ˉx b 1 = s xy s 2 x = r xy s y s x Vilkkumaa / Kuusinen 13

Estimoitu regressiosuora Yhden selittäjän lineaarisen regressiomallin y j = β 0 + β 1 x j + ε j, j = 1, 2,..., n regressiokertoimien β 0 ja β 1 PNS-estimaattorit b 0 ja b 1 määrittävät suoran avaruudessa R 2 : y = b 0 + b 1 x = ȳ + r xy s y s x (x ˉx) Yhtälöstä nähdään, että estimoitu regressiosuora kulkee havaintopisteiden (x j, y j ), j = 1, 2,..., n, painopisteen (ˉx, ȳ) kautta. Vilkkumaa / Kuusinen 14

Estimoidun regressiosuoran ominaisuudet Estimoidulla regressiosuoralla on seuraavat ominaisuudet: (i) Jos r xy > 0, suora on nouseva. (ii) Jos r xy < 0, suora on laskeva. (iii) Jos r xy = 0, suora on vaakasuorassa. (iv) Suora jyrkkenee (loivenee), jos: - korrelaation itseisarvo r xy kasvaa (pienenee). - keskihajonta s y kasvaa (pienenee). - keskihajonta s x pienenee (kasvaa). Vilkkumaa / Kuusinen 15

Sovitteet ja residuaalit Olkoot b 0 ja b 1 yhden selittäjän lineaarisen regressiomallin y j = β 0 + β 1 x j + ε j, j = 1, 2,..., n regressiokertoimien β 0 ja β 1 PNS-estimaattorit. Estimoidun mallin sovite ŷ j = b 0 + b 1 x j, j = 1, 2,..., n on estimoidun regressiosuoran arvo havaintopisteessä x j. Estimoidun mallin residuaali e j = y j ŷ j = y j b 0 b 1 x j, j = 1, 2,..., n on selitettävän muuttujan y havaitun arvon y j ja sovitteen ŷ j arvon erotus. Vilkkumaa / Kuusinen 16

Neliösummia Kokonaisneliösumma: SST = n (y j ȳ) 2 j=1 Jäännösneliösumma: SSE = n e 2 j j=1 Mallineliösumma: SSM = n (ŷ j ȳ) 2 j=1 Näille neliösummille pätee varianssianalyysihajotelma SST = SSM + SSE Vilkkumaa / Kuusinen 17

Selitysaste Tunnuslukua R 2 = 1 SSE SST = SSM SST käytetään regressiomallin hyvyyden mittarina. Tunnuslukua R 2 kutsutaan selityasteeksi ja se mittaa regressiomallin selittämää osuutta selitettävän muuttujan y havaittujen arvojen kokonaisvaihtelusta. Yhden selittäjän lineaarisessa regressiomallissa pätee: R 2 = r 2 xy Selitysasteelle pätee aina 0 R 2 1 Vilkkumaa / Kuusinen 18

Jäännösvarianssi Jos yhden selittäjän lineaarisen regressiomallin jäännöstermejä ε j koskevat standardioletukset (i)-(iii) pätevät, jäännösvarianssin Var(ε j ) = σ 2 harhaton estimaattori on jossa e j s 2 = 1 n 2 n e 2 j, j=1 = y j ŷ j = y j b 0 b 1 x j, j = 1, 2,..., n n = estimoidun mallin residuaali = havaintojen lukumäärä Vilkkumaa / Kuusinen 19

Regressiokerrointen PNS-estimaattoreiden jakaumat Yhden selittäjän lineaarisen regressiomallin regressiokertoimien β 0 ja β 1 PNS-estimaattoreiden b 0 ja b 1 otosjakaumat ovat standardioletusten (i)-(iv) pätiessä missä b 0 N (β 0, σ2 n i=1 x2 i n 2ˆσ 2 x σ 2 = Var(ε j ) on jäännösvarianssi. ) (, b 1 N β 1, σ 2 nˆσ 2 x ˆσ 2 x = 1 n n j=1 (x j ˉx) 2 on x:n harhainen otosvarianssi. ), Vilkkumaa / Kuusinen 20

Regressiokertoimia koskevat testit Nollahypoteesi H 0 : β i = 0, i = 0, 1 Vaihtoehtoiset hypoteesit H 1 : β i > 0, H 1 : β i < 0, H 1 : β i 0 Testisuureet T = b 0 s n i=1 x2 i /(nˆσ x), T = b 1 s/( nˆσ x ), missä s 2 on jäännösvarianssin σ 2 harhaton estimaattori. Testisuureen jakauma: jos nollahypoteesi pätee, T t(n 2). Vilkkumaa / Kuusinen 21

Testi regression olemassaololle Yhden selittäjän tapauksessa regression olemassaolo β 1 0 Nollahypoteesi H 1 : β 1 = 0 eli regressiota ei ole olemassa Vaihtoehtoinen hypoteesi H 1 : β 1 0 Testisuure F = b 2 1 s 2 /(nˆσ 2 x), Testisuureen jakauma: jos nollahypoteesi pätee, F F (1, n 2). Tämä F-testi on ekvivalentti edellisen kalvon t-testin kanssa F-testi kuitenkin yleistyy useamman muuttujan regressiomalleihin Vilkkumaa / Kuusinen 22

Klikkeri-kysely On saatu kuvan mukainen 30 havainnon otos, jolle on tehty lineaarinen regressio. Minkä johtopäätöksen voit tehdä? 1. Muuttujat x ja y korreloivat positiivisesti keskenään, 2. Mallin selitysaste on negatiivinen, 3. Regressiokertoimen β 1 PNS-estimaatti b 1 on negatiivinen. Vilkkumaa / Kuusinen 23

Klikkeri-kysely jatkuu Vilkkumaa / Kuusinen 24

Yleinen lineaarinen malli Vilkkumaa / Kuusinen 25

Usean selittäjän lineaarinen regressiomalli Usean selittäjän lineaarisessa regressiomallissa selitettävän muuttujan y havaittujen arvojen vaihtelu halutaan selittää selittävien muuttujien x 1, x 2,..., x k havaittujen arvojen vaihtelun avulla. Usean selittäjän lineaarista regressiomallia kutsutaan tavallisesti yleiseksi lineaariseksi malliksi. Vilkkumaa / Kuusinen 26

Havainnot Selitettävää muuttujaa y ja selittäjiä x 1, x 2,..., x k koskevat havaintoarvot voidaan järjestää havaintoyksiköittäin seuraavasti: Havaintoyksikkö 1: x 11, x 12,..., x 1k, y 1 Havaintoyksikkö 2: x 21, x 22,..., x 2k, y 2. missä. Havaintoyksikkö n: x n1, x n2,..., x nk, y n, k = selittäjien x i lukumäärä. n = havaintojen lukumäärä. Vilkkumaa / Kuusinen 27

Yleinen lineaarinen malli 1/2 Yhtälö y j = β 0 + β 1 x j1 + β 2 x j2 + + β k x jk + ε j, j = 1, 2,..., n määrittelee yleisen lineaarisen mallin, jossa: y j = selitettävän muuttujan y satunnainen ja havaittu arvo havaintoyksikössä j x ji = selittävän muuttujan x i ei-satunnainen ja havaittu arvo havaintoyksikössä j, i = 1, 2,..., k ε j = jäännöstermin ε satunnainen ja ei-havaittu arvo havaintoyksikössä j Vilkkumaa / Kuusinen 28

Yleinen lineaarinen malli 2/2 Yhtälö y j = β 0 + β 1 x j1 + β 2 x j2 + + β k x jk + ε j, j = 1, 2,..., n määrittelee yleisen lineaarisen mallin, jossa on seuraavat kertoimet: β 0 = vakioselittäjän regressiokerroin, ei-satunnainen ja tuntematon vakio β i = selittäjän x i regressiokerroin, i = 1, 2,..., k, ei-satunnainen ja tuntematon vakio Vilkkumaa / Kuusinen 29

Standardioletukset Yleisen lineaarisen mallin standardioletukset ovat: (i) Selittäjien x i arvot x ji ovat ei-satunnaisia vakioita, j = 1, 2,..., n, i = 1, 2,..., k (ii) Selittäjien välillä ei ole lineaarisia riippuvuuksia. (iii) E(ε j ) = 0, j = 1, 2,..., n (iv) Var(ε j ) = σ 2, j = 1, 2,..., n (v) Cor(ε j, ε l ) = 0, j l (vi) ε j N(0, σ 2 ), j = 1, 2,..., n Standardioletusten voimassaolo takaa, että ns. tavanomaisia estimointi- ja testausmenetelmiä saa käyttää mallin analysoinnissa. Vilkkumaa / Kuusinen 30

Regressiotaso Standardioletusten pätiessä selitettävän muuttujan odotusarvo, jota kutsutaan mallin systemaattiseksi osaksi, on muotoa E(y j ) = β 0 + β 1 x j1 + β 2 x j2 + + β k x jk, j = 1, 2,..., n Systemaattisen osan avaruudessa R k+1 määrittelemää tasoa y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k kutsutaan regressiotasoksi. Jäännöstermien ε j varianssi σ 2 kuvaa havaintopisteiden (x j1, x j2,..., x jk, y j ) R k+1, j = 1, 2,..., n vaihtelua regressiotason ympärillä. Vilkkumaa / Kuusinen 31

Yleisen lineaarisen mallin matriisiesitys 1/2 Olkoon y = [y 1 y 2 y n ] selitettävän muuttujan y havaittujen arvojen muodostama n-vektori. Olkoon X = 1 x 11 x 12 x 1k 1 x 21 x 22 x 2k......... 1 x n1 x n2 x nk selittävien muuuttujien x 1, x 2,..., x k havaittujen arvojen ja vakioselittäjää vastaavien ykkösten muodostama n (k + 1)-matriisi. Vilkkumaa / Kuusinen 32

Yleisen lineaarisen mallin matriisiesitys 2/2 Olkoon β = [β 0 β 1 β k ] regressiokertoimien β 0, β 1,..., β k muodostama (k + 1)-vektori. Olkoon ε = [ε 1 ε 2 ε n ] jäännöstermien ε 1, ε 2,..., ε n muodostama n-vektori. Yleinen lineaarinen malli voidaan esittää matriisein muodossa y = Xβ + ε Vilkkumaa / Kuusinen 33

Yleisen lineaarisen mallin parametrien estimointi Yleisen lineaarisen mallin y j = β 0 + β 1 x j1 + β 2 x j2 + + β k x jk + ε j, j = 1, 2,..., n regressiokertoimet β 0, β 1,..., β k estimoidaan tavallisesti pienimmän neliösumman menetelmällä. PNS-menetelmässä regressiokertoimien estimaattorit määrätään minimoimalla jäännöstermien ε j neliösummaa n j=1 ε 2 j = n (y j β 0 β 1 x j1 β 2 x j2 β k x jk ) 2 j=1 regressiokertoimien β 0, β 1,..., β k suhteen. Vilkkumaa / Kuusinen 34

Regressiokertoimien PNS-estimaattorit Olkoon y = Xβ + ε standardioletuksen (ii) r(x) = k + 1 toteuttava yleinen lineaarinen malli. Tällöin regressiokertoimien vektorin β PNS-estimaattori on b = (X X) 1 X y Standardioletusten (i)-(vi) pätiessä b N k+1 (β, σ 2 (X X) 1 ). Vilkkumaa / Kuusinen 35

Estimoitu regressiotaso Regressiokertoimien β 0, β 1,..., β k PNS-estimaattorit b 0, b 1,..., b k määrittelevät tason y = b 0 + b 1 x 1 + b 2 x 2 + + b k x k avaruudessa R k+1. Tasoa kutsutaan estimoiduksi regressiotasoksi. Jäännösvarianssin σ 2 estimaattori s 2 kuvaa havaintopisteiden (x j1, x j2,..., x jk, y j ) R k+1, j = 1, 2,..., n vaihtelua estimoidun regressiotason ympärillä. Vilkkumaa / Kuusinen 36

Regressiokertoimia koskevat testit Nollahypoteesi H 0 : β i = 0, i = 0, 1,..., k Vaihtoehtoiset hypoteesit H 1 : β i > 0, H 1 : β i < 0, H 1 : β i 0 Testisuure T i = b i s bi, i = 0,..., k, missä s 2 b i on i. regressiokertoimen varianssin estimaattori, ts. matriisin s 2 (X X) 1 i. diagonaalialkio. Testisuureen jakauma: jos nollahypoteesi pätee, T t(n k 1). Vilkkumaa / Kuusinen 37

Neliösummia Kokonaisneliösumma: SST = n (y j ȳ) 2 j=1 Jäännösneliösumma: SSE = n e 2 j = n (y j b 0... b k x jk ) 2 j=1 j=1 Mallineliösumma: SSM = n (ŷ j ȳ) 2 = j=1 n (b 0 +... + b k x jk ȳ) 2 j=1 Näille neliösummille pätee varianssianalyysihajotelma SST = SSM + SSE Vilkkumaa / Kuusinen 38

Testi regression olemassaololle Nollahypoteesi H 0 : β 1 =... = β k = 0 eli regressiota ei ole olemassa Vaihtoehtoinen hypoteesi H 1 : i s.e. β i 0 eli selitettävä y riippuu lineaarisesti ainakin yhdestä selittäjästä x i Testisuure F = n k 1 k SSM SSE Testisuureen jakauma: jos nollahypoteesi pätee, F F (k, n k 1). Vilkkumaa / Kuusinen 39

Esimerkki: kahden selittäjän lineaarinen regressio Vilkkumaa / Kuusinen 40

Klikkeri-kysely Mikä seuraavista väittämistä pitää paikkansa? 1. Selitettävä muuttuja ei riipu lineaarisesti yhdestäkään selittäjästä 2. Yksi selittäjistä ei ole tilastollisesti merkitsevä 3. Kaikki selittäjät ovat tilastollisesti merkitseviä Vilkkumaa / Kuusinen 41

Esimerkki jatkuu Vilkkumaa / Kuusinen 42

Yhteenveto Lineaarisella regressiolla kuvataan selitettävän muuttujan lineaarista riippuvuutta selittävistä muuttujista Selittävän muuttujan x i regressiokerroin β i kertoo, miten selittävän muuttujan yksikkömuutos vaikuttaa selitettävään muuttujaan (x i x i + 1, y y + β i ) Selittäjien tilastollista merkitsevyyttä voidaan testata regressiokerrointen t-testillä - Nollahypoteesi: β i = 0 - Regressiokerroin β i = 0 y eri riipu (lineaarisesti) selittäjästä x i Regression olemassaoloa voidaan testata F -testillä (H 0 : β 1 =... = β k = 0) Vilkkumaa / Kuusinen 43