Mat Tilastollisen analyysin perusteet, kevät 2007

Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1

Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen arvojen vaihtelu halutaan selittää selittävien muuttujien havaittujen arvojen vaihtelun avulla Oletetaan muuttujien välille lineaarinen tilastollinen riippuvuus y j = β 0 + β1x j1+ β x j + L+ β k x jk + ε j, j = 1,, K, n Usean selittäjän lineaarinen regressiomalli y j = selitettävän y satunnainen ja havaittu arvo havaintoyksikössä j x ji = selittäjän x i ei-satunnainen ja havaittu arvo havaintoyksikössä j, i= 1,, k ε j = jäännös- eli virhetermin ε satunnainen ja ei-havaittu arvo havaintoyksikössä j β 0 = vakioselittäjän regressiokerroin, ei-satunnainen ja tuntematon vakio β i = selittäjän x i regressiokerroin, i=1,,k, ei-satunnainen ja tuntematon vakio Kai Virtanen

Standardioletukset Standardioletukset => mallin analysointiin voidaan käyttää tavanomaisia estimointi- ja testausmenetelmiä (i) (ii) Selittäjien x i arvot x ji ovat kiinteitä eli ei-satunnaisia vakioita, j = 1,,, n, i = 1,,, k Selittäjien välillä ei ole lineaarisia riippuvuuksia (iii) E(ε j ) = 0, j = 1,,, n (iv) Var(ε j ) = σ, j = 1,,, n (v) Cor(ε j, ε l ) = 0, j l (vi) ε j ~ N(0, σ ), j = 1,,, n Kai Virtanen 3

Standardioletukset (i), (ii) ja (iii) (i) Selittäjien x i arvot x ji ovat kiinteitä eli ei-satunnaisia vakioita, j=1,,,n, i=1,,,k Peruste kurssilla esiteltävälle teorialle Rajoittava, toteutuu käytännössä vain kun selittäjien arvot voidaan valita (puhtaat koeasetelmat) Esitettävää teoriaa voidaan soveltaa jos sopivat lisäehdot pätevät satunnaisille selittäjille (multinormaalijakauma) (ii) Selittäjien välillä ei ole lineaarisia riippuvuuksia Jos selittäjä riippuu lineaarisesti muista selittäjistä, se on selittäjänä redundantti ja voidaan poistaa mallista Pienimmän neliösumman menetelmä tuottaa regressiokertoimille yksikäsitteiset estimaattorit (iii) E(ε j ) = 0, j=1,,,n Kaikilla jäännöstermeillä sama odotusarvo Mallissa ei ole systemaattista virhettä Kai Virtanen 4

Standardioletukset (iv), (v) ja (vi) (iv) Var(ε j ) = σ, j=1,,,n Kaikilla jäännöstermeillä sama varianssi Jos oletus pätee, jäännöstermit homoskedastisia muuten heteroskedastisia Heteroskedastisuus => regressiokertoimien estimaattorit tehottomia Voidaan testata tilastollisesti (v) Cor(ε j, ε l ) = 0, j l Jäännöstermit eivät korreloi keskenään Korreloituneisuus => regressiokertoimien estimaattorit tehottomia ja harhaisia Voidaan testata tilastollisesti (vi) ε j ~ N(0, σ ), j=1,,,n Jäännöstermit normaalijakautuneita Voidaan testata tilastollisesti. Kai Virtanen 5

Regressiomallin Mallin parametrit y j = β 0 + β1x j1+ β x j + L+ β k x jk + ε j, j = 1,, K, n parametreja ovat - regressiokertoimet β 0, β 1, β,, β k - jäännöstermienε j varianssi (jäännösvarianssi) ε j σ j n Var( ) =, = 1,, K, Parametrit yleensä tuntemattomia Parametrit estimoitava muuttujien x 1, x,, x k ja y havaituista arvoista Kai Virtanen 6

Usean selittäjän lineaarisen regressiomallin matriisiesitys Yleinen lineaarinen malli voidaan esittää muodossa y = Xβ + ε jossa y = selitettävän muuttujan y havaittujen arvojen muodostama satunnainen n-vektori X = selittäjien x 1, x,, x k havaittujen arvojen ja ykkösten muodostama n (k + 1)-matriisi β = regressiokertoimien muodostama tuntematon ja kiinteä eli ei-satunnainen (k + 1)-vektori ε = jäännöstermien muodostama ei-havaittu ja satunnainen n-vektori Kai Virtanen 7

Odotusarvovektori ja kovarianssimatriisi Olkoon z = (z 1, z,, z p ) satunnaismuuttujien z 1, z,, z p muodostama p-vektori Satunnaisvektorin z odotusarvovektori µ on µ = E( z) = (E( ), E( ), K, E( )) jossa i. alkio on satunnaismuuttujan z i odotusarvo Satunnaisvektorin z kovarianssimatriisi Σ on jossa i. rivin ja j. sarakkeen alkio on satunnaismuuttujien z i ja z j kovarianssi z1 z z p µ = E( z ), i= 1,, K, p i i [ ] Σ = Cov( z) = E ( z E( z))( z E( z)) σ = Cov( z, z ) ij i j = E ( zi E( zi ))( z j E( z j )) Kai Virtanen 8

Standardioletukset matriisimuodossa Regressiomallin (k selittäjää, k+1 regressiokerrointa) y = Xβ standardioletukset matriisimuodossa: (i) Matriisin X alkiot ovat kiinteitä eli ei-satunnaisia vakioita (ii) Matriisi X on täysiasteinen, r(x) = k + 1 (iii) E(ε) = 0 (iv)&(v) + ε - r on matriisin rankki (= lineaarisesti riippumattomien sarakkeiden tai rivien lukumäärä) Cov(ε) = σ I (vi) ε N n (0, σ I) Kai Virtanen 9

Regressiokertoimien PNS-estimointi Regressiokertoimet estimoidaan pienimmän neliösumman (PNS-) menetelmällä Minimoidaan jäännöstermienε j neliösumma n n ε j = ( y j β 0 β1x j1 β x j L β k x jk ) j= 1 j= 1 regressiokertoimien suhteen Derivointi regressiokertoimien suhteen ja derivaatat nolliksi => => Lineaariseen yhtälöryhmä, k+1 yhtälöä ja k+1 tuntematonta => PNS-estimaattorit b 0, b 1, b,, b k Yhtälöryhmällä on ratkaisu, jos standardioletus (ii) r(x) = k + 1 pätee Kai Virtanen 10

Estimaattoreiden matriisiesitys Olkoon y = Xβ + ε standardioletuksen (ii) toteuttava malli Regressiokertoimien vektorin β PNS-estimaattori on b= ( X X) 1 X y Jos standardioletukset (i)-(v) pätevät E( b) = β 1 Cov( b) = σ ( X X) Koska E(b) = β => PNS-estimaattori on regressiokertoimien vektorin harhaton estimaattori Jos standardioletukset (i)-(vi) pätevät ~ ( 1 σ ) b N β, ( X X) k+ 1 Kai Virtanen 11

Sovitteet ja residuaalit Sovite: Estimoidun mallin selitettävälle muuttujalle y antama arvo havaintopisteessä ( x, x, K, x ) j1 j jk yˆ j = b0 + b1 x j 1+ b x j + L+ b k x jk, j = 1,, K, n Residuaali: Selitettävän muuttujan y havaitun arvon y j ja sovitteen erotus e = y yˆ = y b b x b x L b x j j j j 0 1 j1 j k jk, j = 1,, K, n Jos standardioletukset (i)-(v) pätevät E( y ) = β + β x + β x + L+ β x, j = 1,, K, n ˆ j 0 1 j 1 j k jk E( e ) = 0, j = 1,, K, n j Kai Virtanen 1

Sovitteet, residuaalit ja regressiomallin hyvyys Sovitteiden ja residuaalien käyttö regressiomallin hyvyyden tutkimisessa: (i) (ii) Regressiomalli selittää selitettävän muuttujan havaittujen arvojen vaihtelun sitä paremmin mitä lähempänä estimoidun mallin sovitteet ovat selitettävän muuttujan havaittuja arvoja Regressiomalli selittää selitettävän muuttujan havaittujen arvojen vaihtelun sitä paremmin mitä pienempiä ovat estimoidun mallin residuaalit Kai Virtanen 13

Jäännösvarianssin estimointi Jos standardioletukset (i)-(v) pätevät, jäännösvarianssin Var(ε j ) = σ harhaton estimaattori on jossa e j n = = estimoidun mallin residuaali, j=1,,,n havaintojen lukumäärä k = selittäjien x i lukumäärä Estimaattori s on residuaalien e j varianssi, koska => s 1 n = e j n k 1 j= 1 1 1 s e e e n ( ) n = j = j n k 1 j= 1 n k 1 j= 1 e n 1 = e = 0 n i = 1 i Kai Virtanen 14

Estimoitu regressiotaso Regressiomallin regressiokertoimien estimaattorit b 0, b 1, b,, b k määrittelevät tason y= b + b x + b x + L+ b x 0 1 1 k k Estimoitu regressiotaso Jäännösvarianssin σ estimaattori s kuvaa havaintopisteiden k+ 1 ( j1, j, K, jk, j ) R, = 1,, K, x x x y j n vaihtelua estimoidun regressiotason ympärillä Kai Virtanen 15

Varianssianalyysihajotelma Regressiomallin hyvyys varianssianalyysihajotelma Varianssianalyysihajotelmassa Kokonaisneliösumma SST = Mallineliösumma SSM + Jäännösneliösumma SSE selitettävän arvojen vaihtelua kuvaava SST esitetään kahden osatekijän SSM ja SSE summana (i) (ii) SSM kuvaa sitä osaa selitettävän vaihtelusta, jonka estimoitu malli on selittänyt SSE kuvaa sitä osaa selitettävä vaihtelusta, jota estimoitu malli ei ole selittänyt Kai Virtanen 16

Varianssianalyysihajotelman neliösummat Selitettävän havaittujen arvojen vaihtelua mitataan kokonaisneliösummalla SST = ( y j y) Residuaalien vaihtelua mitataan jäännösneliösummalla SSE n j= 1 j= 1 Sovitteiden vaihtelua mitataan mallineliösummalla n = n j= 1 e j SSM = ( yˆ j y) Kai Virtanen 17

Selitysaste Varianssianalyysihajotelmasta regressiomallin hyvyyden mittariksi selitysaste R SSE SSM = 1 = SST SST Mittaa regressiomallin selittämää osuutta selitettävän muuttujan kokonaisvaihtelusta 0 R 1 Kts. selitysasteen muut ominaisuudet 6. luennon kalvoilta Huom! Unohda totuus selitettävän ja selittäjän välisestä korrelaatiokertoimesta!!!! Malliin uusia selittäjiä => selitysaste kasvaa (tai ei ainakaan pienene) => ei voida käyttää mallin valinnassa!! Vrt. korjattu selitysaste, luento nro. 10 Kai Virtanen 18

Yhteiskorrelaatio ja osittaiskorrelaatio [ ] R = Cor( y, yˆ ) jossa Cor( y, yˆ ) on selitettävän muuttujan ja sovitteiden otoskorrelaatiokerroin, yhteiskorrelaatiokerroin Selittävät korreloivat yleensä enemmän ja vähemmän keskenään => suora korrelaatio r yxi ei anna oikeaa kuvaa muuttujien yhteispelistä Harhaton kuva korrelaatiosta osittaiskorrelaatio x p :n ja y:n osittaiskorrelaatiokerroin: (1) Muodosta mallit y=b 0 +b 1 x 1 +...+b p-1 x p-1 ja x p =a 0 +a 1 x 1 +...+a p-1 x p-1 () Laske residuaalit e i =y i -b 0 -b 1 x 1i... ja f i =x pi -a 0 -a 1 x 1i... (3) Laske residuaalien korrelaatiokerroin r ef = osittaiskorrelaatiokerroin Kai Virtanen 19

Päättely usean selittäjän lineaarisesta regressiomallista Regressiokerroin b i lähellä nollaa => y ei riipu x i :stä kaukana nollasta => y ei riippuu x i :stä merkki => riippuvuuden suunta, + / - x i kasvaa yhden yksikön => y kasvaa b i Selitysaste R lähellä nollaa => ei riippuvuutta, malli ei selitä alkuunkaan selitettävän muuttujan vaihtelua lähellä ykkästä => riippuvuus, malli selittää hyvin selitettävän muuttajan vaihtelun Mitä tarkoittaa lähellä / kaukana? Ratkaisu: regressiokertoimien luottamusvälit yleistesti regression olemassaololle testit regressiokertoimille Selitettävän ennustaminen annetulla selittäjän arvolla yksittäisen arvon ja keskimääräisen arvon ennuste ja luottamusväli Selittäjien tärkeysjärjestys Kai Virtanen 0

Regressiokertoimien luottamusvälit Jos jäännöstermien standardioletukset ok, regressiokertoimien PNS-estimaattorit normaalijakautuneita Jakaumien avulla luottamusvälit Regressiokertoimen β i (k+1 kpl) luottamusväli luottamustasolla (1 α) jossa b ˆD( i ± tα / bi ) - b i = regressiokertoimen β i estimaattori -±t α/ = luottamustasoa (1 α) vastaavat luottamuskertoimet, t-jakautuneet vapausastein n k 1 1 ˆD ( b ) = s ( X X) - i = regressiokertoimen estimaattorin i+ 1, i+ 1 varianssin estimaattori, s = jäännösvarianssin estimaattori Kai Virtanen 1

Nollahypoteesi Yleistesti regression olemassaololle Ekvivalentisti R =0 Nollahypoteesi pätee => selitettävä muuttuja ei riipu yhdestäkään selittäjästä Nollahypoteesi ei päde => selitettävä muuttuja riippuu ainakin yhdestä selittäjästä F-testisuure (F-jakauma, vapausasteet k ja n-k-1) jossa F H 0 : β1 = β = L= β k = 0 n k 1 R n k 1 SSM k 1 R k SSE = = R = estimoidun mallin selitysaste SSM = estimoidun mallin mallineliösumma SSE = estimoidun mallin jäännösneliösumma Testisuureen normaaliarvo noin yksi p-arvo = P(F > testisuureen arvo) Suuri testisuureen arvo / pieni p-arvo => nollahypoteesi ei päde Kai Virtanen

Nollahypoteesi Testit regressiokertoimille Nollahypoteesi H 00 ok => mallissa ei vakiota Nollahypoteesi H 0i, i=1,,,k ok => selitettävä muuttuja y ei riipu selittäjästä x i Nollahypoteesi H 0i, i=1,,,k ei päde => selitettävä muuttuja y riippuu selittäjästä x i t-testisuureet (t-jakautunut, vapausasteet n k 1) bi ti =, i = 0,1,, K, k ˆD( b ) jossa H 0i : β i = 0, i= 0,1,, K, k b i = regressiokertoimen β i estimaattori ˆD ( b i ) Testisuureen normaaliarvo nolla i = regressiokertoimen β i estimaattorin varianssin estimaattori Itseisarvoltaan suuri testisuure / pieni p-arvo => H 0i hylkyyn Vaihtoehtoinen hypoteessi voi olla yksi- tai kaksisuuntainen Kai Virtanen 3

Ennustaminen usean selittäjän lineaarisella regressiomallilla Tavoitteena ennustaa selitettävää muuttujaa y y% = β + β x% + β x% + L + β x% + % ε kun selittävät muuttujat x 1, x,, x k saavat arvot Kaksi ajatusmallia: (i) (ii) 0 1 1 k k x% 1, x%, K, x% k Ennustetaan selitettävän muuttujan y odotettavissa oleva eli keskimääräinen arvo Ennustetaan selitettävän muuttujan y yksittäinen arvo Kai Virtanen 4

y:n odotusarvon ja y:n yksittäisen arvon luottamusvälit Odotusarvon luottamusväli luottamustasolla (1 α) b0 b1 x1 b x b x t / s ( ) Yksittäisen arvon luottamusväli luottamustasolla (1 α) Edellä t α/ ja +t α/ luottamustason (1 α) luottamuskertoimet, t-jakautuneet vapausastein n k 1 s jäännösvarianssin estimaattori 1 + % + % + L+ k % k ± α z% X X z% b0 + b1 x1 + b x + + b x ± t / s 1 + ( ) 1 % % L k % k α z% X X z% z% = (1, %,%,,% ) x1 x K x k 1 1 Kai Virtanen 5

y:n arvon luottamusvyö vs. y:n odotusarvon luottamusvyö Luottamusvälit muodostavat selittäjien arvojen funktiona luottamusvyön estimoidun regressiotason ympärille Yksittäisen arvon luottamusvyö on leveämpi kuin odotettavissa olevan arvon luottamusvyö Keskimääräisen arvon ennustaminen on helpompaa kuin yksittäisen arvon ennustaminen Yksittäisen arvon luottamusvälissä otetaan huomioon mittausvirhe / koevirhe, joka poistuu keskiarvoistamalla Kumpaa käytännössä käytetään? Philosööffinen kysymys vrt. löpinä luennolla nro. 7 Kai Virtanen 6

Selittävien muuttujien keskinäinen tärkeys Selittävät muuttujat usein fysikaalisesti eri laatuja => regressiokertoimien arvoilla suuria eroja Mitkä selittäjät ovat tärkeimpiä / mitkä selittäjät vaikuttavat selittäjään eniten? Osittaiskorrelaatiot Uusi regressiomalli, standardoidut muuttujat: Alkuperäiset havainnot (y i,x 1i,...,x ki ), i=1,...,n Käytetään alkuperäisiä selitettävän arvoja y i Uudet selittäjien arvot z ji =(x ji -x j )/s j, j=1,...,k, i=1,...,n, jossa x j ja s j muuttujan x j havainnoista laskettu keskiarvo ja keskihajonta Uusi regressiomalli datalle (y i,z 1i,...,z ki ), i=1,...,n Uudet selittäjät laaduttomia suureita Regressikertoimien itseisarvot kuvaavat selittäjien keskinäistä tärkeyttä Olennaisten tilastollisten tunnuslukujen arvot säilyvät alkuperäisinä, esim. selitysaste Kai Virtanen 7