Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1

Samankaltaiset tiedostot
Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1

Regressiodiagnostiikka ja regressiomallin valinta

Regressiodiagnostiikka ja regressiomallin valinta

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Yleinen lineaarinen malli

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Harjoitus 9: Excel - Tilastollinen analyysi

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

2. Teoriaharjoitukset

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Testejä suhdeasteikollisille muuttujille

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Yleistetyistä lineaarisista malleista

Johdatus regressioanalyysiin

Sovellettu todennäköisyyslaskenta B

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Testit laatueroasteikollisille muuttujille

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia

Väliestimointi (jatkoa) Heliövaara 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Korrelaatiokertoinen määrittely 165

Mat Tilastollisen analyysin perusteet, kevät 2007

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Osa 2: Otokset, otosjakaumat ja estimointi

Mat Tilastollisen analyysin perusteet, kevät 2007

Testit järjestysasteikollisille muuttujille

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari

Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä

Dynaamiset regressiomallit

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Tilastolliset menetelmät. β versio. Tilastolliset menetelmät. Ilkka Mellin. Teknillinen korkeakoulu, Matematiikan laboratorio

Tilastolliset menetelmät

Regressiodiagnostiikka. Regressiodiagnostiikka. Regressiodiagnostiikka: Mitä opimme? 2/2. Regressiodiagnostiikka: Mitä opimme? 1/2

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Heliövaara 1

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

tilastotieteen kertaus

Lohkoasetelmat. Kuusinen/Heliövaara 1

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

2. Tietokoneharjoitukset

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

Estimointi. Vilkkumaa / Kuusinen 1

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

1. Tilastollinen malli??

2.1. Parametrien estimointi 2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Normaalijakaumasta johdettuja jakaumia

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

Transkriptio:

Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Regressiodiagnostiikka TKK (c) Ilkka Mellin (2007) 1

Regressiodiagnostiikka >> Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot Regressiokertoimien vakioisuus Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Mallin ennustuskyky TKK (c) Ilkka Mellin (2007) 2

Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallit selitysmalleina Oletetaan, että tavoitteena on selittää selitettävän muuttujan y havaittujen arvojen vaihtelu selittävien muuttujien eli selittäjien x 1, x 2,, x k havaittujen arvojen vaihtelun avulla. Sitä varten selitettävän muuttujan y tilastolliselle riippuvuudelle selittäjistä x 1, x 2,, x k pyritään rakentamaan tilastollinen malli, jota kutsutaan regressiomalliksi. TKK (c) Ilkka Mellin (2007) 3

Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallien yleinen muoto 1/3 Olkoon yi = f( xi1, xi2,, xik; β) + εi, i = 1,2,, n selitettävän muuttujan y regressiomalli selittäjien x 1, x 2,, x k suhteen. Tällöin y i = selitettävän muuttujan y satunnainen ja havaittu arvo havaintoyksikössä i x ij = selittävän muuttujan x j havaittu arvo havaintoyksikössä i, j = 1, 2,, k ε i = satunnainen ja ei-havaittu jäännös- eli virhetermi havaintoyksikössä i TKK (c) Ilkka Mellin (2007) 4

Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallien yleinen muoto 2/3 Regressiomallissa yi = f( xi1, xi2,, xik; β) + εi, i = 1,2,, n selittäjien x 1, x 2,, x k havaittujen arvojen funktio f( xi1, xi2,, xik; β) muodostaa mallin systemaattisen osan eli rakenneosan ja jäännöstermi ε i muodostaa mallin satunnaisen osan. Mallin systemaattinen osa kuvaa selitettävän muuttujan y tilastollista riippuvuutta selittäjistä x 1, x 2,, x k. TKK (c) Ilkka Mellin (2007) 5

Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallien yleinen muoto 3/3 Regressiomallissa yi = f( xi1, xi2,, xik; β) + εi, i = 1,2,, n mallin systemaattisen osan määräävä funktio f( xi1, xi2,, xik; β) riippuu parametrista β = (β 1, β 2,, β p ) joka tarkemmin määrää funktion f muodon. Huomautus: Tavallisesti parametrin β arvo on tuntematon ja on siksi estimoitava havainnoista. TKK (c) Ilkka Mellin (2007) 6

Yleinen lineaarinen malli ja regressiodiagnostiikka Onko malli oikea ja onko malli hyvä? Regressioanalyysin peruskysymykset: (i) Kuvaako malli selitettävän muuttujan ja selittäjien välistä riippuvuutta sisällöllisesti oikein? Kysymys 1 ei ole tilastotieteellinen ja siihen vastaaminen vaatii tutkittavaa ilmiötä kuvaavan taustateorian tuntemusta. (ii) Kuvaako malli selitettävän muuttujan ja selittäjien välistä riippuvuutta tilastollisesti oikein? Kysymys 2 on tilastotieteellinen ja siihen voidaan pyrkiä vastaamaan tilastotieteen keinoin. TKK (c) Ilkka Mellin (2007) 7

Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallin hyvyys ja regressiodiagnostiikka 1/2 Regressiomallia pidetään tilastollisesti oikeana, jos mallista saadut estimointitulokset ovat sopusoinnussa mallia koskevien oletuksien kanssa. Siksi regressiomallia koskevien oletuksien tarkistaminen muodostaa keskeisen osan regressioanalyysin soveltamista. Regressiomallia koskevien oletuksien tarkistamista on tapana kutsua regressiodiagnostiikaksi. TKK (c) Ilkka Mellin (2007) 8

Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallin hyvyys ja regressiodiagnostiikka 2/2 Regressiodiagnostiikassa käytetään seuraavia menetelmiä: Estimoinnin onnistumista havainnollistetaan tilastografiikalla. Estimoinnin onnistumista kuvataan diagnostisilla tunnusluvuilla. Mallia koskevia oletuksia testataan diagnostisilla testeillä. TKK (c) Ilkka Mellin (2007) 9

Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallin spesifiointi eli täsmentäminen 1/2 Tilastollisen mallin muodon ja mallia koskevien oletuksien määrittelemistä kutsutaan mallin spesifioinniksi eli täsmentämiseksi. Määriteltyä mallia kutsutaan spesifikaatioksi tai täsmennykseksi. TKK (c) Ilkka Mellin (2007) 10

Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallin spesifiointi eli täsmentäminen 2/2 Regressiomallin spesifioiminen tarkoittaa seuraavien valintojen tekemistä: (i) Mallin selitettävän muuttujan ja selittäjien valinta. (ii) Mallin systemaattisen eli rakenneosan funktionaalisen muodon ja parametroinnin valinta. (iii) Mallin selitettävän muuttujan ja selittäjien funktionaalisen muodon valinta. (iv) Mallin jäännöstermiä koskevien stokastisten oletuksien valinta. TKK (c) Ilkka Mellin (2007) 11

Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallin täsmentäminen: Kommentteja Valinnat (i)-(iii) liittyvät regressiomallin rakenneosan spesifiointiin. Valinta (iv) liittyy regressiomallin jäännöstermin spesifiointiin. Huomautus: Valinnat (i)-(iv) eivät ole toisistaan riippumattomia. TKK (c) Ilkka Mellin (2007) 12

Yleinen lineaarinen malli ja regressiodiagnostiikka Lineaariset regressiomallit Olkoon selitettävän muuttujan y regressiomalli selittäjien x 1, x 2,, x k suhteen muotoa yi = β0 + β1xi 1+ β2xi2 + + βkxik + εi, i = 1,2,, n Tällöin malli on lineaarinen sekä parametrien (regressiokertoimien) β 0, β 1, β 2,, β k että selittäjien x 1, x 2,, x k suhteen ja sitä kutsutaan yleiseksi lineaariseksi malliksi. TKK (c) Ilkka Mellin (2007) 13

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Määritelmä Olkoon yi = β0 + β1xi 1+ β2xi2 + + βkxik + εi, i = 1,2,, n yleinen lineaarinen malli, jossa y i = selitettävän muuttujan y satunnainen ja havaittu arvo havaintoyksikössä i x ij = selittävän muuttujan eli selittäjän x j havaittu arvo havaintoyksikössä i, j = 1, 2,, k β 0 = vakioselittäjän tuntematon regressiokerroin β j ε i = selittäjän x j tuntematon regressiokerroin = satunnainen ja ei-havaittu jäännös- eli virhetermi havaintoyksikössä i TKK (c) Ilkka Mellin (2007) 14

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Matriisiesitys Yleinen lineaarinen malli voidaan esittää matriisein muodossa y = Xβ + ε jossa y = selitettävän muuttujan y havaittujen arvojen muodostama satunnainen n-vektori X = selittäjien x 1, x 2,, x k havaittujen arvojen ja ykkösten muodostama n (k + 1)-matriisi β = regressiokertoimien muodostama tuntematon ja kiinteä eli ei-satunnainen (k + 1)-vektori ε = jäännöstermien muodostama ei-havaittu ja satunnainen n-vektori TKK (c) Ilkka Mellin (2007) 15

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Standardioletukset kiinteille selittäjille Jos yleisen lineaarisen mallin y = Xβ + ε selittäjät x 1, x 2,, x k ovat kiinteitä eli ei-satunnaisia muuttujia, mallia koskevat standardioletukset voidaan esittää matriisein seuraavassa muodossa: (i) Matriisin X alkiot ovat ei-satunnaisia vakioita. (ii) Matriisi X on täysiasteinen: r(x) = k + 1 (iii) E( ε) = 0 (iv)&(v) Homoskedastisuus- ja korreloimattomuusoletus: (vi) Cov( ε) 2 = σ I Normaalisuusoletus: ε 0 I 2 N n(, σ ) TKK (c) Ilkka Mellin (2007) 16

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Standardioletukset satunnaisille selittäjille Jos yleisen lineaarisen mallin y = Xβ + ε selittäjät x 1, x 2,, x k ovat satunnaismuuttujia, mallia koskevat standardioletukset voidaan esittää matriisein seuraavassa muodossa: (i) Matriisin X alkiot ovat satunnaismuuttujia. (ii) Matriisi X on täysiasteinen: r(x) = k + 1 (iii) E( ε X) = 0 (iv) &(v) Homoskedastisuus- ja korreloimattomuusoletus: (vi) 2 Cov( ε X) = σ I Normaalisuusoletus: 2 ( ε X) N n( 0, σ I) TKK (c) Ilkka Mellin (2007) 17

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Rakenneosa ja jäännösosa Yleisessä lineaarisessa mallissa y = Xβ + ε selitettävä muuttujan arvojen vektori y on esitetty kahden osatekijän summana. Mallin systemaattinen eli rakenneosa E( yx) = Xβ riippuu selittäjien havaituista arvoista. Jäännöstermi ε muodostaa mallin satunnaisen osan, joka ei riipu selittäjien havaituista arvoista. TKK (c) Ilkka Mellin (2007) 18

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Regressiokertoimien PNS-estimointi 1/2 Yleisen lineaarisen mallin yi = β0 + β1xi 1+ β2xi2 + + βkxik + εi, i = 1,2,, n regressiokertoimien β 0, β 1, β 2,, β k PNS- eli pienimmän neliösumman estimaattorit b 0, b 1, b 2,, b k minimoivat jäännös- eli virhetermien ε i neliösumman n n 2 2 εi = ( yi β0 β1xi1 β2xi2 βkxik) i= 1 i= 1 kertoimien β 0, β 1, β 2,, β k suhteen. TKK (c) Ilkka Mellin (2007) 19

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Regressiokertoimien PNS-estimointi 2/2 Yleisen lineaarisen mallin y = Xβ + ε regressiokertoimien vektorin β = (β 0, β 1, β 2,, β k ) PNS-estimaattori voidaan esittää matriisein muodossa b= ( XX ) 1 Xy TKK (c) Ilkka Mellin (2007) 20

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: PNS-estimaattorin ominaisuudet Yleisen lineaarisen mallin y = Xβ + ε regressiokertoimien vektorin β PNS-estimaattorilla b= ( XX ) 1 Xy on standardioletuksien (i)-(vi) pätiessä seuraavat stokastiset ominaisuudet: E( b) = β Cov( b) = σ ( XX ) 2 1 b β σ XX 2 1 N k+ 1(, ( ) ) TKK (c) Ilkka Mellin (2007) 21

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Sovitteet ja residuaalit 1/2 Olkoon b = (b 0, b 1, b 2,, b k ) regressiokertoimien vektorin β = (β 0, β 1, β 2,, β k ) PNS-estimaattori. Määritellään estimoidun mallin sovitteet yˆi kaavalla yˆi = b0 + bx 1 i 1+ b2x i 2 + + b k x ik, i = 1,2,, n Määritellään estimoidun mallin residuaalit e i kaavalla ei = yi yˆ i = y b bx b x b x, i = 1,2,, n i 0 1 i1 2 i2 k ik TKK (c) Ilkka Mellin (2007) 22

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Sovitteet ja residuaalit 2/2 Sovitteiden muodostama n-vektori voidaan esittää matriisein muodossa yˆ = Xb= X( XX ) 1 Xy = Py Residuaalien muodostama n-vektori voidaan esittää matriisein muodossa 1 e= y yˆ = ( I X( XX ) X ) y = ( I P) y = My Huomautus: Koska residuaalit kuvaavat estimoidun regressiomallin ja havaintoarvojen yhteensopivuutta, monet regressiodiagnostiikan menetelmistä perustuvat estimoidun regressiomallin residuaaleihin tai niiden muunnoksiin. TKK (c) Ilkka Mellin (2007) 23

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Sovitteiden ja residuaalien ominaisuudet Sovitteiden muodostamalla n-vektorilla ŷ on seuraavat stokastiset ominaisuudet : E( yˆ ) = Xβ 2 2 1 Cov( yˆ ) = σ P = σ X( XX ) X Residuaalien muodostamalla n-vektorilla e on seuraavat stokastiset ominaisuudet : E( e) = 0 2 2 2 1 Cov( e) = σ M = σ ( I P) = σ ( I X( XX ) X ) Huomautus: Yllä olevan mukaan residuaalit e i ovat yleensä sekä heteroskedastisia että korreloituneita, vaikka jäännöstermit ε i on oletettu homoskedastisiksi ja korreloimattomiksi. TKK (c) Ilkka Mellin (2007) 24

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Projektiomatriisit P ja M Matriisit P= X( XX) X 1 1 M = I P= I X( XX ) X ovat symmetrisiä ja idempotentteja eli projektioita: 2 P = P P = P 2 M = M M = M Lisäksi PM = MP = 0 Matriisia P kutsutaan regressiodiagnostiikassa usein hattumatriisiksi. TKK (c) Ilkka Mellin (2007) 25

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Jäännösvarianssin estimointi Yleisen lineaarisen mallin jäännöstermien ε i varianssin eli jäännösvarianssin σ 2 harhaton estimaattori on n 2 1 2 s = ei n k 1 i= 1 jossa e i = estimoidun mallin residuaali, i = 1, 2,, n n = havaintojen lukumäärä k = (aitojen) selittäjien x j lukumäärä TKK (c) Ilkka Mellin (2007) 26

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Mallin spesifiointi Yleistä lineaarista mallia y = Xβ + ε sovellettaessa pääkiinnostus kohdistuu mallin systemaattisen osan eli rakenneosan E( yx) = Xβ oikeaan spesifiointiin eli täsmentämiseen, koska juuri mallin rakenneosa kuvaa selitettävän muuttujan y riippuvuutta selittäjistä x 1, x 2,, x k. Virheet mallin rakenneosan spesifioinnissa johtavat virheellisiin johtopäätöksiin selitettävän muuttujan ja selittäjien välisestä riippuvuudesta. TKK (c) Ilkka Mellin (2007) 27

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheet mallin rakenneosassa 1/3 Spesifiointivirheitä lineaarisen mallin rakenneosassa: (i) Sovelletaan lineaarista mallia, vaikka selitettävän muuttujan y riippuvuus selittäjistä x 1, x 2,, x k ei ole lineaarista. (ii) Mallissa on väärät selittäjät: Mallista puuttuu selittäjiä. Mallissa on liikaa selittäjiä. (iii) Selitettävä muuttuja ja/tai selittäjät ovat mallissa väärässä funktionaalisessa muodossa. (iv) Oletetaan virheellisesti, että regressiokertoimet ovat vakioita. TKK (c) Ilkka Mellin (2007) 28

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheet mallin rakenneosassa 2/3 Kommentteja kohtiin (i)-(iv): (i) Epälineaaristen regressiomallien käsittely sivuutetaan tässä esityksessä. (ii) Selittäjien valinta on regressioanalyysin keskeisiä ja vaikeimpia ongelmia. Ks. lukua Regressiomallin valinta. (iii) Sopiva selitettävän muuttujan ja/tai selittäjien muunnos saattaa linearisoida selitettävän muuttujan ja selittäjien epälineaarisen riippuvuuden. Ks. lukua Regressiomallin valinta. (iv) Parametrien vakioisuutta on mahdollista testata. Ks. kappaletta Parametrien vakioisuus. TKK (c) Ilkka Mellin (2007) 29

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheet mallin rakenneosassa 3/3 Vain huolellinen perehtyminen tutkittavan ilmiön taustateoriaan mahdollistaa regressiomallin rakenneosan spesifioinnin oikein. Spesifiointivirheet regressiomallin rakenneosassa tulevat tavallisesti esiin estimoidun mallin residuaaleissa. TKK (c) Ilkka Mellin (2007) 30

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Mallin jäännöstermin spesifiointi Vaikka yleistä lineaarista mallia y = Xβ + ε sovellettaessa pääasiallinen kiinnostus kohdistuu mallin systemaattisen osan eli rakenneosan E( yx) = Xβ oikeaan spesifiointiin, on syytä huomata, että mallin jäännöstermille ε valittu spesifikaatio eli täsmennys vaikuttaa sekä estimointimenetelmän valintaan että mallista tehtävään tilastolliseen päättelyyn. TKK (c) Ilkka Mellin (2007) 31

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheet mallin jäännöstermissä 1/3 Spesifiointivirheitä lineaarisen mallin jäännöstermissä: (i) Oletetaan virheellisesti, että jäännöstermi ε on homoskedastinen ja korreloimaton. (ii) Oletetaan virheellisesti, että jäännöstermi ε on normaalinen. TKK (c) Ilkka Mellin (2007) 32

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheet mallin jäännöstermissä 2/3 Kommentteja kohtiin (i)-(ii): (i) Jos jäännöstermiä koskeva homoskedastisuustai korreloimattomuusoletus ei päde, regressiokertoimien PNS-estimaattorit eivät ole parhaita Gaussin ja Markovin lauseen mielessä. Ks. lukua Regressiomallin erityiskysymyksiä. (ii) Jos jäännöstermiä koskeva normaalisuusoletus ei päde, t-ja F-jakaumiin perustuva tilastolliset testit eivät välttämättä ole päteviä. TKK (c) Ilkka Mellin (2007) 33

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheet mallin jäännöstermissä 3/3 Spesifiointivirheet regressiomallin jäännöstermissä näkyvät tavallisesti estimoidun mallin residuaaleissa. Estimoidun mallin residuaaleissa havaittu heteroskedastisuus, korreloituneisuus tai epänormaalisuus ei kuitenkaan välttämättä merkitse sitä, että mallin jäännöstermi on spesifioitu väärin. Residuaalien heteroskedastisuus, korreloituneisuus tai epänormaalisuus saattavat indikoida myös sitä, että mallin rakenneosa on spesifioitu väärin. TKK (c) Ilkka Mellin (2007) 34

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheiden vaikutukset Regressioanalyysissa pääkiinnostus kohdistuu oikean spesifikaation löytämiseen regressiomallin systemaattiselle osalle eli rakenneosalle, koska juuri rakenneosa kuvaa selitettävän muuttujan riippuvuutta selittäjistä. Regressiomallin jäännöstermin spesifikaatio vaikuttaa kuitenkin voimakkaasti sekä mallin estimointiin että testaukseen. Sekä regressiomallin rakenneosan että jäännöstermin virheellinen spesifiointi näkyvät tavallisesti estimoidun mallin residuaaleissa. TKK (c) Ilkka Mellin (2007) 35

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Diagnostiset tarkistukset Regressiomalli on aina syytä alistaa seuraavien diagnostisten tarkistusten kohteeksi: (i) Onko havaintojen joukossa regressioanalyysin tuloksia vääristäviä poikkeavia havaintoja? (ii) Ovatko regressiokertoimet vakioita? (iii) Ovatko selittäjät itsenäisiä? (iv) Ovatko mallin jäännöstermit homoskedastisia? (v) Ovatko mallin jäännöstermit korreloimattomia? (vi) Ovatko mallin jäännöstermit normaalisia? TKK (c) Ilkka Mellin (2007) 36

Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Mallin ennustuskyvyn arviointi On syytä muistaa, että voimakkain testi mille tahansa tieteelliselle selitysmallille on sen kyky ennustaa. Siksi regressiomalleja sovellettaessa on aina syytä testata mallin ennustuskykyä tavanomaisten diagnostisten tarkistusten lisäksi. TKK (c) Ilkka Mellin (2007) 37

Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka >> Regressiografiikka Poikkeavat havainnot Parametrien vakioisuus Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Mallin ennustuskyky TKK (c) Ilkka Mellin (2007) 38

Regressiografiikka Regressiomallin hyvyys ja regressiografiikka Regressiomallin hyvyyttä voidaan tutkia mallista saatuja estimointituloksia havainnollistavien graafisten esitysten avulla. Regressiografiikan standardikuviot: (i) Kuviot, joiden avulla estimoidun mallin sovitteita verrataan selitettävän muuttujan havaittuihin arvoihin. (ii) Kuviot, joiden avulla havainnollistetaan estimoidun mallin residuaaleja. TKK (c) Ilkka Mellin (2007) 39

Regressiografiikka Sovitteiden tutkiminen: Pistediagrammien käyttö 1/2 Regressiomallin spesifikaation hyvyyttä voidaan tutkia vertaamalla estimoidun mallin sovitteita selitettävän muuttujan havaittuihin arvoihin piirtämällä niiden riippuvuutta havainnollistava pistediagrammi: Piirretään sovitteet selitettävän muuttujan havaittuja arvoja vastaan eli esitetään lukuparit ( y ˆ i, yi), i = 1,2,, n 2 pisteinä avaruudessa. TKK (c) Ilkka Mellin (2007) 40

Regressiografiikka Sovitteiden tutkiminen: Pistediagrammien käyttö 2/2 Regressiomalli on sitä parempi mitä lähempänä pisteet ( y ˆ i, yi), i = 1,2,, n ovat suoraa, jonka kulmakerroin = 1. Pisteiden ( y ˆ i, yi), i = 1,2,, n muodostaman pistepilven tai -parven käyristyminen viittaa regressiomallin rakenneosan väärään spesifikaatioon eli täsmennykseen. Poikkeavat havainnot erottuvat tavallisesti kaukana em. suorasta olevina pisteinä. TKK (c) Ilkka Mellin (2007) 41

Regressiografiikka Sovitteiden tutkiminen: Mallin hyvyyden mittaaminen Regressiomallin hyvyyden mittarina voidaan käyttää selitettävän muuttujan y havaittujen arvojen y i ja estimoidun mallin sovitteiden yˆi otoskorrelaatiokerrointa Cor( yy, ˆ) Jos estimoitu regressiomalli on lineaarinen ja mallissa on vakio, [ ] 2 2 Cor( yy, ˆ) = R jossa R 2 on estimoidun mallin selitysaste. TKK (c) Ilkka Mellin (2007) 42

Regressiografiikka Residuaalien tutkiminen: Residuaalidiagrammit 1/2 Regressiomallin spesifikaation hyvyyttä voidaan tutkia piirtämällä estimoidun mallin residuaaleista kuviot, joita kutsutaan residuaalidiagrammeiksi: (i) Piirretään residuaalit sovitteita vastaan eli esitetään lukuparit ( yˆ i, ei), i = 1,2,, n 2 pisteinä avaruudessa. (ii) Piirretään residuaalit eri selittäjien arvoja vastaan eli esitetään lukuparit ( xij, ei ), i = 1, 2,, n; j = 1, 2,, k 2 pisteinä avaruudessa. TKK (c) Ilkka Mellin (2007) 43

Regressiografiikka Residuaalien tutkiminen: Residuaalidiagrammit 2/2 Oikein täsmennetyn regressiomallin residuaalidiagrammeissa pisteet muodostavat vaakatasossa vasemmalta oikealle etenevät tasaleveät pistepilvet tai -parvet, joissa ei näy poikkeavia havaintoja. Residuaalidiagrammien pistepilvien käyristyminen viittaa regressiomallin rakenneosan väärään spesifikaatioon eli täsmennykseen: (i) Selitettävän muuttujan riippuvuus selittäjistä ei ole lineaarista. (ii) Mallissa ei ole oikeita selittäjiä. (iii) Selitettävä muuttuja ja/tai selittäjät eivät ole oikeassa funktionaalisessa muodossa. TKK (c) Ilkka Mellin (2007) 44

Regressiografiikka Residuaalien tutkiminen: Heteroskedastisuus Jos residuaalidiagrammien pistepilvet tai -parvet eivät ole tasaleveitä (esim. pilvet levenevät oikealle tai vasemmalle), regressiomallin jäännöstermi saattaa olla heteroskedastinen. Estimoidun mallin residuaalien heteroskedastisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatioon eli täsmennykseen. TKK (c) Ilkka Mellin (2007) 45

Regressiografiikka Aikasarjojen regressiomallit Aikasarjojen regressiomalleissa oletetaan, että havainnot on järjestetty ajassa niin, että havaintoindeksin i = 1, 2,, n arvot viittaavat peräkkäisiin ajanhetkiin. Huomautus: Aikasarjoissa havaintoindeksinä käytetään usein kirjainta t: t time TKK (c) Ilkka Mellin (2007) 46

Regressiografiikka Aikasarjojen regressiomallit: Sovitteiden ja residuaalien tutkiminen 1/3 Aikasarjojen regressiomallin spesifikaation hyvyyttä tutkitaan tavallisesti piirtämällä seuraavat aikasarjadiagrammit: (i) Piirretään selitettävän muuttujan havaitut arvot yi, i = 1,2,..., n ja estimoidun mallin sovitteet yˆ i, i = 1,2,..., n aikasarjoina samaan kuvioon. (ii) Piirretään estimoidun mallin residuaalit ei, i = 1,2,..., n aikasarjana. TKK (c) Ilkka Mellin (2007) 47

Regressiografiikka Aikasarjojen regressiomallit: Sovitteiden ja residuaalien tutkiminen 2/3 Aikasarjadiagrammit ovat pistediagrammeja, joissa muuttujan arvot piirretään aikaa vastaan. Tavallisesti ajassa peräkkäisiin havaintoihin liittyvät pisteet yhdistetään aikasarjadiagrammissa janalla. Siten edellisellä kalvolla mainitut aikasarjadiagrammien piirtäminen merkitsee seuraavien pistediagrammien piirtämistä: (i) Selittettävän muuttujan arvot: ( iy, i ), i= 1,2,..., n Sovitteet: ( iy, ˆi ), i= 1,2,..., n (ii) Residuaalit: ( ie, ), i= 1,2,..., n i TKK (c) Ilkka Mellin (2007) 48

Regressiografiikka Aikasarjojen regressiomallit: Sovitteiden ja residuaalien tutkiminen 3/3 Regressiomalli on sitä parempi, mitä lähempänä estimoidun mallin sovitteiden muodostama aikasarja yˆ i, i = 1,2,, n kulkee selitettävän muuttujan havaittujen arvojen muodostamaa aikasarjaa yi, i = 1,2,, n tai mikä on sama asia mitä pienempiä ovat residuaalit ei, i = 1,2,..., n Aikasarjadiagrammeista (i) ja (ii) (ks. edelliset kalvot) nähdään minä ajanhetkinä malli selittää selitettävän muuttujan käyttäytymistä hyvin ja minä huonosti. TKK (c) Ilkka Mellin (2007) 49

Regressiografiikka Aikasarjojen regressiomallit: Residuaalit ja regressiodiagnostiikka Jos residuaaliaikasarjan pistepilvi ei ole tasaleveä (esim. pilvi levenee oikealle tai vasemmalle), regressiomallin jäännöstermi saattaa olla heteroskedastinen. Residuaaliaikasarjan heteroskedastisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatioon eli täsmennykseen. Jäännöstermin korreloituneisuus tulee esille residuaaliaikasarjan sisäisessä rytmiikassa (autokorrelaatiorakenteessa). Residuaaliaikasarjan korreloituneisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatioon eli täsmennykseen. TKK (c) Ilkka Mellin (2007) 50

Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka >> Poikkeavat havainnot Parametrien vakioisuus Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Mallin ennustuskyky TKK (c) Ilkka Mellin (2007) 51

Poikkeavat havainnot Poikkeavat ja normaalit havainnot Poikkeavalla havainnolla (engl. outlier) tarkoitetaan havaintoa, joka eroaa jossakin mielessä merkitsevästi muista havainnoista. Tilastollisen analyysin kannalta havaintoa voidaan pitää poikkeavana, jos se vääristää tilastollisen analyysin tulokset: (i) Jos havainnon poistaminen muuttaa olennaisesti tilastollisen analyysin tuloksia, havainto on poikkeava. (ii) Jos havainnon poistaminen ei olennaisesti muuta tilastollisen analyysin tuloksia, havainto on normaali. TKK (c) Ilkka Mellin (2007) 52

Poikkeavat havainnot Poikkeavien havaintojen vaikutukset Regressioanalyysissa poikkeavat havainnot saattavat aiheuttaa seuraavia vaikeuksia: (i) Mallin valinta vaikeutuu. (ii) Mallin estimointi hankaloituu. (iii) Mallia koskeva tilastollinen päättely saattaa vääristyä. TKK (c) Ilkka Mellin (2007) 53

Poikkeavat havainnot Poikkeavien havaintojen tunnistaminen 1/2 Regressioanalyysissa poikkeavien havaintojen tunnistamiseen käytetään sekä graafisia menetelmiä että erityisesti niiden tunnistamiseen konstruoituja tunnuslukuja. Poikkeavat havainnot voidaan usein tunnistaa suoraan residuaalidiagrammeista; ks. kappaletta Regressiografiikka. TKK (c) Ilkka Mellin (2007) 54

Poikkeavat havainnot Poikkeavien havaintojen tunnistaminen 2/2 Tässä kappaleessa tarkastellaan seuraavia poikkeavien havaintojen tunnistamiseen tarkoitettuja tunnuslukuja: Residuaalit Standardoidut residuaalit Poistoresiduaalit Standardoidut poistoresiduaalit Vipuluvut eli leverage-luvut Cookin etäisyydet TKK (c) Ilkka Mellin (2007) 55

Poikkeavat havainnot Yleinen lineaarinen malli: Määritelmä Olkoon yi = β0 + β1xi 1+ β2xi2 + + βkxik + εi, i = 1,2,, n yleinen lineaarinen malli, jossa y i = selitettävän muuttujan y satunnainen ja havaittu arvo havaintoyksikössä i x ij = selittävän muuttujan eli selittäjän x j havaittu arvo havaintoyksikössä i, j = 1, 2,, k β 0 = vakioselittäjän tuntematon regressiokerroin β j = selittäjän x j tuntematon regressiokerroin ε i = satunnainen ja ei-havaittu jäännös- eli virhetermi havaintoyksikössä i TKK (c) Ilkka Mellin (2007) 56

Poikkeavat havainnot Residuaalit: Määritelmä Olkoot b 0, b 1, b 2,, b k regressiokertoimien β 0, β 1, β 2,, β k PNS-estimaattorit. Määritellään estimoidun mallin sovitteet yˆi kaavalla yˆi = b0 + bx 1 i 1+ b2x i 2 + + b k x ik, i = 1,2,, n Määritellään estimoidun mallin residuaalit e i kaavalla ei = yi yˆ i = y b bx b x b x, i = 1,2,, n i 0 1 i1 2 i2 k ik TKK (c) Ilkka Mellin (2007) 57

Poikkeavat havainnot Residuaalit: Poikkeavien havaintojen tunnistaminen Estimoidun mallin residuaaleja e i voidaan käyttää poikkeavien havaintojen tunnistamiseen. Voimakkaasti muista residuaaleista poikkeavat residuaalit saattavat viitata poikkeaviin havaintoihin. TKK (c) Ilkka Mellin (2007) 58

Poikkeavat havainnot Standardoidut residuaalit: Määritelmä 1/2 Koska estimoidun lineaarisen regressiomallin PNSresiduaalit e i ovat yleensä heteroskedastisia, regressiodiagnostiikassa tarkastellaan PNS-residuaalien sijasta usein standardoituja residuaaleja. Residuaalin e i, i = 1, 2,, n varianssi on 2 2 D( ei) = σ (1 hii) jossa h ii = [ P] ii on hattumatriisin P = X( XX ) 1 X i. diagonaalialkio. TKK (c) Ilkka Mellin (2007) 59

Poikkeavat havainnot Standardoidut residuaalit: Määritelmä 2/2 Standardoidut eli studentisoidut residuaalit Std(e i ), i = 1, 2,, n saadaan PNS-residuaaleista e i kaavalla ei Std( ei ) = ˆD( ei ) Standardoidun residuaalin Std(e i ) kaavassa 2 2 ˆD ( ei) = s (1 hii) on residuaalin e i varianssin estimaattori, jossa n 2 1 2 s = ei n k 1 i= 1 on jäännösvarianssin σ 2 harhaton estimaattori. TKK (c) Ilkka Mellin (2007) 60

Poikkeavat havainnot Standardoidut residuaalit: Poikkeavien havaintojen tunnistaminen Standardoituja residuaaleja Std(e i ) voidaan käyttää poikkeavien havaintojen tunnistamiseen. Jos estimoitu regressiomalli on riittävä kuvaamaan kaikkia havaintoja, standardoitujen residuaalien itseisarvot saavat vain pienellä todennäköisyydellä suurempia arvoja kuin 2.5-3. Lukuarvoja 2.5-3 suuremmat standardoitujen residuaalien itseisarvot saattavat viitata poikkeaviin havaintoihin. Standardoitujen residuaalien itseisarvoja voidaan verrata Studentin t-jakaumasta sopivasti valittuun kriittiseen rajaan. TKK (c) Ilkka Mellin (2007) 61

Poikkeavat havainnot Poistoresiduaalit: Määritelmä 1/2 Poikkeavia havaintoja voidaan etsiä poistoresiduaalien avulla: (i) Estimoidaan malli siten, että havainto i jätetään pois. (ii) Määrätään havaintoa i vastaava poistoresiduaali selitettävän muuttujan y havaitun arvon y i ja ilman havaintoa i estimoidun mallin muuttujalle y antaman arvon erotuksena (ennustevirheenä). Havaintoa i vastaava poistoresiduaali mittaa ilman havaintoa i estimoidun mallin kykyä ennustaa selitettävän muuttujan y arvo havainnossa i. TKK (c) Ilkka Mellin (2007) 62

Poikkeavat havainnot Poistoresiduaalit: Määritelmä 2/2 Poistoresiduaalit d i, i = 1, 2,, n saadaan PNSresiduaaleista e i kaavalla ei di = 1 h ii jossa h ii = [ P] ii on hattumatriisin P = X( XX ) 1 X i. diagonaalialkio. TKK (c) Ilkka Mellin (2007) 63

Poikkeavat havainnot Standardoidut poistoresiduaalit: Määritelmä 1/2 Poistoresiduaalin d i, i = 1, 2,, n varianssi on 2 2 σ D( di ) = 1 hii jossa h ii = [ P] ii on hattumatriisin P = X( XX ) 1 X i. diagonaalialkio. TKK (c) Ilkka Mellin (2007) 64

Poikkeavat havainnot Standardoidut poistoresiduaalit: Määritelmä 2/2 Standardoidut eli studentisoidut poistoresiduaalit Std(d i ), i = 1, 2,, n saadaan poistoresiduaaleista d i kaavalla di Std( di ) = ˆD( di ) jossa 2 s 2 () i ˆD ( di ) = 1 hii 2 on poistoresiduaalin d i varianssin estimaattori, jossa s on jäännösvarianssin σ 2 () i harhaton estimaattori mallista, josta havainto i on jätetty pois. TKK (c) Ilkka Mellin (2007) 65

Poikkeavat havainnot Standardoidut poistoresiduaalit: Poikkeavien havaintojen tunnistaminen Standardoituja poistoresiduaaleja Std(d i ) voidaan käyttää poikkeavien havaintojen tunnistamiseen. Jos estimoitu regressiomalli on riittävä kuvaamaan kaikkia havaintoja, standardoitujen poistoresiduaalien itseisarvot saavat vain pienellä todennäköisyydellä suurempia arvoja kuin 2.5-3. Lukuarvoja 2.5-3 suuremmat standardoitujen poistoresiduaalien itseisarvot saattavat viitata poikkeaviin havaintoihin. Standardoitujen poistoresiduaalien itseisarvoja voidaan verrata Studentin t-jakaumasta sopivasti valittuun kriittiseen rajaan. TKK (c) Ilkka Mellin (2007) 66

Poikkeavat havainnot Vipuluvut: Määritelmä 1/2 Poikkeavia havaintoja voidaan etsiä vipulukujen eli leverage-lukujen avulla. Havaintoa i vastaava vipuluku (leverage) h ii, i = 1, 2,, n on hattumatriisin P = X( XX ) 1 X i. diagonaalialkio: [ ] h = P ii ii TKK (c) Ilkka Mellin (2007) 67

Poikkeavat havainnot Vipuluvut: Määritelmä 2/2 Vipuluvut h ii ovat verrannollisia havaintopisteiden ( xi1, xi2,, xik) etäisyyksiin selittävien muuttujien havaintoarvojen aritmeettisten keskiarvojen muodostamasta pisteestä ( x, x,, x k ) 1 2 TKK (c) Ilkka Mellin (2007) 68

Poikkeavat havainnot Vipuluvut: Poikkeavien havaintojen tunnistaminen Jos havaintoa i vastaava vipuluku (leverage) h ii on selvästi muita suurempi, havainto i on syrjässä selittävien muuttujien muihin havaintoarvoihin nähden. Syrjässä olevat havainnot saattavat vääristää regressioanalyysin tulokset. TKK (c) Ilkka Mellin (2007) 69

Poikkeavat havainnot Cookin etäisyydet: Määritelmä 1/3 Poikkeavia havaintoja voidaan etsiä Cookin etäisyyksien avulla: (i) Estimoidaan malli niin, että kaikki havainnot ovat mukana. Lasketaan estimoidulle mallille sovitteet yˆl, l = 1, 2,, n. (ii) Estimoidaan malli jättämällä pois havainto i. Lasketaan ilman havaintoa i estimoidun mallin antama arvo yˆl () i kaikille havaintoyksiköille l = 1, 2,, n. (iii) Verrataan lukuja ja y toisiinsa. y ˆl ˆl () i TKK (c) Ilkka Mellin (2007) 70

Poikkeavat havainnot Cookin etäisyydet: Määritelmä 2/3 Cookin etäisyydet D i, i = 1, 2,, n saadaan kaavalla n 2 ( yˆ ˆ 1 l y ()) l= l i Di = 2 ( k+ 1) s jossa n 2 1 2 s = ei n k 1 i= 1 on jäännösvarianssin σ 2 harhaton estimaattori, joka on määrätty, kun mallin estimoinnissa on käytetty kaikkia havaintoja. TKK (c) Ilkka Mellin (2007) 71

Poikkeavat havainnot Cookin etäisyydet: Määritelmä 3/3 Cookin etäisyydet D i, i = 1, 2,, n voidaan laskea myös kaavalla Std( ei) hii Di = k+ 1 1 hii jossa Std(e i ) on havaintoa i vastaava standardoitu residuaali ja h ii = [ P] ii on hattumatriisin P = X( XX ) 1 X i. diagonaalialkio. TKK (c) Ilkka Mellin (2007) 72

Poikkeavat havainnot Cookin etäisyydet: Poikkeavien havaintojen tunnistaminen Cookin etäisyyksiä D i voidaan käyttää poikkeavien havaintojen tunnistamiseen. Jos havaintoa i vastaava Cookin etäisyys D i > 1 tai on selvästi muiden havaintojen Cookin etäisyyttä suurempi, havainto kannattaa ottaa erikoistarkasteluun. TKK (c) Ilkka Mellin (2007) 73

Poikkeavat havainnot Tilastografiikan käyttö poikkeavien havaintojen tunnistamisessa 1/2 Poikkeavien havaintojen tunnistamiseen tarkoitettujen tunnuslukujen käyttöä voidaan usein helpottaa sopivilla graafisilla esityksillä. Tällöin käytetyn tunnusluvun havaintokohtaiset arvot T i, i = 1, 2,, n piirretään havaintonumeroa vastaan pistediagrammina (i, T i ), i = 1, 2,, n Poikkeavat havainnot erottuvat kuviosta tavallisesti helposti. TKK (c) Ilkka Mellin (2007) 74

Poikkeavat havainnot Tilastografiikan käyttö poikkeavien havaintojen tunnistamisessa 2/2 Pistediagrammissa (i, T i ), i = 1, 2,, n tunnusluku T i voi olla esimerkiksi mikä tahansa seuraavista tunnusluvuista: Residuaali Standardoitu residuaali Poistoresiduaali Standardoitu poistoresiduaali Vipuluku Cookin etäisyys TKK (c) Ilkka Mellin (2007) 75

Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot >> Parametrien vakioisuus Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Mallin ennustuskyky TKK (c) Ilkka Mellin (2007) 76

Parametrien vakioisuus Vakioparametrisuusoletus yleisessä lineaarisessa mallissa Kun yleinen lineaarinen malli spesifioidaan muodossa yi = β0 + β1xi 1+ β2xi2 + + βkxik + εi, i = 1,2,, n spesifikaatioon sisältyy implisiittisesti seuraava mallin regressiokertoimia koskeva vakioparametrisuusoletus: Regressiokertoimet β 0, β 1, β 2,, β k ovat samat kaikille havainnoille i = 1, 2,, n. Lisäksi mallia koskeviin standardioletuksiin kuuluu homoskedastisuusoletus eli jäännösvarianssia koskeva vakioparametrisuusoletus: εi σ i n 2 Var( ) =, = 1,2,, TKK (c) Ilkka Mellin (2007) 77

Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testausasetelma 1/4 Jaetaan havainnot i = 1, 2,, n kahteen osaan: Osa 1: i = 1, 2,, h hkpl Osa 2: i = h + 1, h + 2,, n (n h) kpl Oletetaan lisäksi, että h k +1 Muodostetaan kaksi lineaarista regressiomallia: (i) Käytetään mallissa (1) havaintoja i = 1, 2,, h. (ii) Käytetään mallissa (2) havaintoja i = 1, 2,, n. TKK (c) Ilkka Mellin (2007) 78

Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testausasetelma 2/4 Malli (1) voidaan esittää matriisein muodossa yh = Xhβh + εh jossa X h on h (k+1)-matriisi. Tehdään mallista (1) seuraavat oletukset: r( Xh) = k + 1 2 ε N (, 0 σ I) h h h TKK (c) Ilkka Mellin (2007) 79

Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testausasetelma 3/4 Malli (2) voidaan esittää matriisein muodossa yn = Xnβn + εn jossa X n on n (k+1)-matriisi. Tehdään mallista (2) seuraavat oletukset: r( Xn) = k + 1 2 ε N (, 0 σ I) n n n TKK (c) Ilkka Mellin (2007) 80

Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testausasetelma 4/4 Huomaa, että mallin (2) n (k + 1)-matriisi X n voidaan esittää muodossa Xh Xn = X2 jossa (n h) (k + 1)-matriisi X 2 liittyy havaintoihin i = h + 1, h + 2,, n TKK (c) Ilkka Mellin (2007) 81

Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testisuure Estimoidaan molemmat mallit (1) ja (2) PNSmenetelmällä. Olkoon SSE h = jäännösneliösumma mallista (1) SSE n = jäännösneliösumma mallista (2) Muodostetaan F-testisuure n k 1 SSEn SSEh F = n h SSE h TKK (c) Ilkka Mellin (2007) 82

Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Chow-testi Jos nollahypoteesi 2 2 H 0 : βn = βh, σn = σh pätee, testisuure n k 1 SSEn SSEh F = n h SSEh noudattaa F-jakaumaa vapausastein (n h) ja (n k 1): F F( n h, n k 1) Suuret testisuureen arvot viittaavat siihen, että oletus parametrien vakioisuudesta ei päde. Testi tunnetaan nimellä Chow-testi. TKK (c) Ilkka Mellin (2007) 83

Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testisuureen toinen muoto 1/4 Ennustetaan selitettävän muuttujan y arvot havainnoissa i = h + 1, h + 2,, n regressiomallilla (1): 1 1 1 1 yˆ i = b0 + b1xi1+ b2xi2 + + bkxik, i = h+ 1, h+ 2,, n jossa 1 1 1 1 bh= ( b0, b1, b2,, bk) = regressiokertoimien vektorin βh PNS-estimaattori mallista (1) TKK (c) Ilkka Mellin (2007) 84

Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testisuureen toinen muoto 2/4 Olkoon u = ( uh+ 1, uh+ 2,, un) ennustevirheiden u ˆ i = yi yi, i = h+ 1, h+ 2,, n muodostama (n h)-vektori. Vektorilla u on seuraavat stokastiset ominaisuudet: E( u) = 0 2 1 Cov( u) = σ h ( I+ X2( X h X h ) X 2) jossa X 2 = havaintoihin i = h + 1, h +2,, n liittyvä osa matriisista X n TKK (c) Ilkka Mellin (2007) 85

Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testisuureen toinen muoto 3/4 Olkoon lisäksi 2 sh = tavanomainen harhaton estimaattori 2 jäännösvarianssille σ h mallista (1) Tällöin matriisi 2 1 Ĉov( u) = s h ( I+ X2( X h X h ) X 2) on ennustevirheiden vektorin u kovarianssimatriisin Cov(u) estimaattori. TKK (c) Ilkka Mellin (2007) 86

Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testisuureen toinen muoto 4/4 Chow-testisuure nollahypoteesille 2 2 H 0 : βn = βh, σn = σh voidaan edellä olevia merkintöjä käyttäen esittää muodossa 1 1 F = Ĉov( ) n u h u u Siten Chow-testisuureella on seuraava tulkinta: Chow-testisuure testaa havainnoista i = 1, 2,, h estimoidun mallin (1) kykyä ennustaa selitettävän muuttujan y arvoja havainnoissa i = h + 1, h + 2,, n. TKK (c) Ilkka Mellin (2007) 87

Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot Parametrien vakioisuus >> Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Ennustuskyky TKK (c) Ilkka Mellin (2007) 88

Multikollineaarisuus Lineaarinen riippuvuus ja multikollineaarisuus 1/3 Olkoon y = Xβ + ε standardioletukset toteuttava yleinen lineaarinen malli, jossa X on selittäjien arvojen ja ykkösten muodostama täysiasteinen n (k + 1)-matriisi. Regressiokertoimien vektorin β PNS-estimaattori on b= ( XX ) 1 Xy PNS-estimaattorin b kovarianssimatriisi on 2 1 Cov( b) = σ ( XX ) TKK (c) Ilkka Mellin (2007) 89

Multikollineaarisuus Lineaarinen riippuvuus ja multikollineaarisuus 2/3 Yleisen lineaarinen mallin regressiokertoimien vektorin β PNS-estimaattorin ja sen kovarianssimatriisin kaavoista nähdään: Jos matriisi X ei ole täysiasteinen, PNS-estimaattoria ja sen kovarianssimatriisia on mahdotonta muodostaa em. kaavoilla. Matriisin X täysiasteisuus eli ehto r(x) = k + 1 merkitsee sitä, että matriisin X sarakkeiden on oltava lineaarisesti riippumattomia. TKK (c) Ilkka Mellin (2007) 90

Multikollineaarisuus Lineaarinen riippuvuus ja multikollineaarisuus 3/3 Jos yleisen lineaarisen mallin y = Xβ + ε selittävien muuttujien havaittujen arvojen muodostama n (k + 1)-matriisi X ei ole täysiasteinen eli r(x) < k + 1 PNS-estimointi ei ole tavanomaisessa mielessä mahdollista. Jos matriisi X on täysiasteinen eli r(x) = k + 1 mutta matriisin X sarakkeet ovat lähes lineaarisesti riippuvia, sanotaan, että mallin selittäjät ovat multikollineaarisia. TKK (c) Ilkka Mellin (2007) 91

Multikollineaarisuus Multikollineaarisuuden vaikutukset 1/2 Multikollineaarisuus saattaa hankaloittaa sekä regressiomallin estimointia että mallista tehtävää tilastollista päättelyä. Siten voimakas multikollineaarisuus saattaa hankaloittaa myös mallin valintaa. Koska multikollineaarisuus on suhteellinen ominaisuus toisin kuin lineaarinen riippuvuus voidaan puhua multikollineaarisuuden asteesta. TKK (c) Ilkka Mellin (2007) 92

Multikollineaarisuus Multikollineaarisuuden vaikutukset 2/2 Mitävähemmän selittäjät ovat multikollineaarisia, sitä itsenäisempiä ovat selittävät muuttujat selitettävän muuttujan käyttäytymisen selittäjinä. Jos selittäjät ovat voimakkaasti multikollineaarisia, ne kertovat jossakin mielessä samaa asiaa selitettävän muuttujan käyttäytymisestä. TKK (c) Ilkka Mellin (2007) 93

Multikollineaarisuus Varianssin inflaatiotekijä 1/3 Oletetaan, että selitettävää muuttujaa y selitetään lineaarisella regressiomallilla, jonka selittäjinä ovat muuttujat x 1, x 2,, x k. Olkoon b j selittäjän x j regressiokertoimen β j PNSestimaattori. Tällöin 2 1 σ Var( bj ) = 2 n 1 R 2 j ( x 1 ij x ) i= j 2 jossa R j on selitysaste lineaarisesta regressiomallista, jonka selitettävänä muuttujana on alkuperäisen mallin selittäjä x j ja selittäjinä ovat muut alkuperäisen mallin selittäjistä. TKK (c) Ilkka Mellin (2007) 94

Multikollineaarisuus Varianssin inflaatiotekijä 2/3 Regressiokertoimen b j varianssin kaavassa esiintyvää tekijää 1 VIFj =, j = 1,2,, k 2 1 R j kutsutaan selittäjää x j vastaavaksi varianssin inflaatiotekijäksi. TKK (c) Ilkka Mellin (2007) 95

Multikollineaarisuus Varianssin inflaatiotekijä 3/3 Jos selittäjät x 1, x 2,, x k ovat ortogonaalisia eli korreloimattomia, 2 R j = 0 kaikille j = 1,2,, k ja VIF j = 1 kaikille j = 1, 2,, k Jos selittäjä x j voidaan esittää muiden selittäjien x 1, x 2,, x j 1, x j+1,, x k lineaarikombinaationa, ja R = 1 2 j VIF j = + TKK (c) Ilkka Mellin (2007) 96

Multikollineaarisuus Varianssin inflaatiotekijän tulkinta 1/2 Kaavasta 2 σ Var( bj) = VIFj n 2 ( x 1 ij x ) i= j nähdään seuraavaa: (i) Estimaattorin b j varianssi on sitä suurempi, mitä suurempi on vastaava varianssin inflaatiotekijä VIF j. (ii) Estimaattorin b j varianssi on sitä pienempi, mitä pienempi on vastaava varianssin inflaatiotekijä VIF j. TKK (c) Ilkka Mellin (2007) 97

Multikollineaarisuus Varianssin inflaatiotekijän tulkinta 2/2 Regressiomallin selittäjien voimakasta multikollineaarisuutta pidetään tavallisesti haitallisena ja selittäjien mahdollisimman suurta ortogonaalisuutta hyödyllisenä ominaisuutena regressioanalyysissa. Jos VIF j > 10 jollekin j = 1, 2,, k multikollineaarisuudesta saattaa olla haittaa. Puhtaissa koeasetelmissa, joissa selittävien muuttujien arvot voidaan valita, selittäjät pyritään saamaan ortogonaalisiksi (tai lähes ortogonaalisiksi). TKK (c) Ilkka Mellin (2007) 98

Multikollineaarisuus Momenttimatriisi 1/2 Selittäjien x 1, x 2,, x k havaittujen arvojen momenttimatriisin A = [ a jl ] j. rivin ja l. sarakkeen alkio a jl on muuttujien x j ja x l havaittujen arvojen tulomomentti: jossa n a = ( x x )( x x ) jl ij j il l i= 1 n n 1 1 x = x x = x j ij l il n i= 1 n i= 1 TKK (c) Ilkka Mellin (2007) 99

Multikollineaarisuus Momenttimatriisi 2/2 Selittäjien x 1, x 2,, x k havaittujen arvojen momenttimatriisi A voidaan esittää matriisein muodossa A= ( Z 1z )( Z 1z ) = ZZ n zz jossa Z = aitojen selittäjien x 1, x 2,, x k havaittujen arvojen muodostama n k-matriisi z = aitojen selittäjien x 1, x 2,, x k havaittujen arvojen aritmeettisten keskiarvojen muodostama k-vektori TKK (c) Ilkka Mellin (2007) 100

Multikollineaarisuus Otoskovarianssimatriisi 1/2 Selittäjien x 1, x 2,, x k havaittujen arvojen otoskovarianssimatriisin S = [ s jl ] j. rivin ja l. sarakkeen alkio s jl on muuttujien x j ja x l havaittujen arvojen otoskovarianssi: n 1 sjl = ( xij xj )( xil xl ) n 1 i= 1 jossa n n 1 1 xj = xij xl = xil n i= 1 n i= 1 Erityisesti 2 s = s jj s jj = j s j TKK (c) Ilkka Mellin (2007) 101

Multikollineaarisuus Otoskovarianssimatriisi 2/2 Selittäjien x 1, x 2,, x k havaittujen arvojen otoskovarianssimatriisi S voidaan esittää matriisein muodossa S 1 1 = ( )( ) = n 1 Z 1z Z 1z n 1 A jossa Z = aitojen selittäjien x 1, x 2,, x k havaittujen arvojen muodostama n k-matriisi z = aitojen selittäjien x 1, x 2,, x k havaittujen arvojen aritmeettisten keskiarvojen muodostama k-vektori A = aitojen selittäjien x 1, x 2,, x k havaittujen arvojen muodostama k k-momenttimatriisi TKK (c) Ilkka Mellin (2007) 102

Multikollineaarisuus Otoskorrelaatiomatriisi 1/2 Selittäjien x 1, x 2,, x k havaittujen arvojen otoskorrelaatiomatriisin R = [ r jl ] j. rivin ja l. sarakkeen alkio r jl on muuttujien x j ja x l havaittujen arvojen otoskorrelaatio: s jl rjl = ss j l jossa s jl = muuttujien x j ja x l havaittujen arvojen otoskovarianssi sj = sjj = on muuttujan x j otoskeskihajonta s = s = on muuttujan x l otoskeskihajonta l ll TKK (c) Ilkka Mellin (2007) 103

Multikollineaarisuus Otoskorrelaatiomatriisi 2/2 Selittäjien x 1, x 2,, x k havaittujen arvojen otoskorrelaatiomatriisi R voidaan esittää matriisein muodossa 1 1 R = Ds SDs jossa S = aitojen selittäjien x 1, x 2,, x k havaittujen arvojen muodostama otoskovarianssimatriisi D s = diag( s1, s2,, s k ) = selittäjien x 1, x 2,, x k havaittujen arvojen otoskeskihajontojen s 1, s 2,, s k muodostama diagonaalimatriisi TKK (c) Ilkka Mellin (2007) 104

Multikollineaarisuus Multikollineaarisuus ja selittäjien korreloituneisuus Selittäjien x 1, x 2,, x k multikollineaarisuutta voidaan tutkia paitsi tarkastelemalla selittäjiä vastaavia varianssin inflaatiotekijöitä tutkimalla myös seuraavien matriisien ominaisarvoja (ja ominaisvektoreita): (i) Aitojen selittäjien havaittujen arvojen n k-matriisista Z saatava k k-matriisi Z Z (ii) Selittäjien havaittujen arvojen momenttimatriisi A (ii) Selittäjien havaittujen arvojen kovarianssimatriisi S (iii) Selittäjien havaittujen arvojen korrelaatiomatriisi R Matriisin multikollineaarisuuden mittarina voidaan käyttää matriisin kuntoisuuslukua eli suurimman ja pienimmän ominaisarvon suhdetta. TKK (c) Ilkka Mellin (2007) 105

Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot Parametrien vakioisuus Multikollineaarisuus >> Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Ennustuskyky TKK (c) Ilkka Mellin (2007) 106

Homoskedastisuus ja heteroskedastisuus Homoskedastisuusoletus Yleistä lineaarista mallia koskevan standardioletuksen (iv) mukaan kaikilla mallin jäännöstermeillä ε i on sama varianssi: 2 Var( εi ) = σ, i = 1,2,, n Tätä oletusta kutsutaan homoskedastisuusoletukseksi. Jos homoskedastisuusoletus ei päde, niin sanomme, että jäännöstermit ovat heteroskedastisia ja kirjoitamme 2 Var( εi) = σi, i = 1,2,, n Tällöin siis on olemassa indeksit i ja l siten, että 2 2 Var( ε ) = σ σ = Var( ε ) i i l l TKK (c) Ilkka Mellin (2007) 107

Homoskedastisuus ja heteroskedastisuus Heteroskedastisuuden vaikutukset Jos regressiomallin jäännöstermit ε i ovat heteroskedastisia, mallin regressiokertoimien PNS-estimaattorit eivät ole enää parhaita lineaaristen ja harhattomien estimaattoreiden joukossa. Tämä merkitsee sitä, että regressiokertoimien PNSestimaattoreiden varianssit ovat tarpeettoman suuria: (i) Regressiokertoimien luottamusväleistä tulee tarpeettoman leveitä. (ii) Regressiokertoimia koskevista testisuureiden arvoista tulee tarpeettoman pieniä. TKK (c) Ilkka Mellin (2007) 108

Homoskedastisuus ja heteroskedastisuus Heteroskedastisuuden havaitseminen Jäännöstermien heteroskedastisuus tulee usein esille estimoidun mallin hyvyyttä havainnollistavista residuaalidiagrammeista: (i) Piirretään standardoidut residuaalit sovitteita vastaan: ( yˆ i,std( ei)), i = 1,2,, n (ii) Aikasarjojen regressiomalleille residuaalit piirretään yleensä aikasarjana: ( ie, i ), i= 1,2,..., n Jos residuaalidiagrammin pisteiden vyö ei ole tasaleveä (esim. vyö levenee oikealle tai vasemmalle), regressiomallin jäännöstermi saattaa olla heteroskedastinen. TKK (c) Ilkka Mellin (2007) 109

Homoskedastisuus ja heteroskedastisuus Homoskedastisuuden testaaminen Olkoon yˆ i, i = 1,2,, n estimoidun lineaarisen mallin tuottama sovite ja ei, i = 1,2,, n vastaava residuaali. Määrätään selitysaste R 2 apuregressiosta 2 ei = α0 + α1ˆ yi + δi Jos homoskedastisuusoletus pätee, 2 nr 2 a χ (1) Suuret testisuureen nr 2 arvot johtavat homoskedastisuusoletuksen hylkäämiseen. TKK (c) Ilkka Mellin (2007) 110

Homoskedastisuus ja heteroskedastisuus Homoskedastisuuden testaaminen: Kommentteja Homoskedastisuustestit saattavat reagoida myös regressiomallin rakenneosan väärään spesifikaatioon. Siten homoskedastisuustestin testisuureen merkitsevä arvo ei saa automaattisesti johtaa toimenpiteisiin, joilla pyritään korjaamaan jäännöstermin heteroskedastisuus. TKK (c) Ilkka Mellin (2007) 111

Homoskedastisuus ja heteroskedastisuus Jäännösvarianssin stabiloivia muunnoksia Sopiva selitettävän muuttujan arvojen muunnos saattaa stabiloida jäännöstermien varianssin: Heteroskedastisuuden Stabiloiva tyyppi muunnos 2 σ vakio y = y 2 σ 2 σ 2 σ E( y) y = y [ ] [ ] ( ) E( y) 1 E( y) y = arcsin y 2 E( y) y = log( y) TKK (c) Ilkka Mellin (2007) 112

Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot Parametrien vakioisuus Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus >> Autokorrelaatio Normaalisuus Ennustuskyky TKK (c) Ilkka Mellin (2007) 113

Autokorrelaatio Korreloimattomuusoletus Yleistä lineaarista mallia koskevan standardioletuksen (v) mukaan mallin jäännöstermit ε i ovat korreloimattomia: Cor( εi, ε l) = 0, i l Tätä oletusta kutsutaan korreloimattomuusoletukseksi. Jos Cor( εi, εl) 0, i l niin sanomme, että jäännöstermit ovat korreloituneita. TKK (c) Ilkka Mellin (2007) 114

Autokorrelaatio Korreloituneisuuden vaikutukset Jos regressiomallin jäännöstermit ε i ovat korreloituneita, mallin regressiokertoimien PNS-estimaattorit eivät ole enää parhaita lineaaristen ja harhattomien estimaattoreiden joukossa. Tämä merkitsee sitä, että regressiokertoimien PNSestimaattoreiden varianssit ovat tarpeettoman suuria: (i) Regressiokertoimien luottamusväleistä tulee tarpeettoman leveitä. (ii) Regressiokertoimia koskevista testisuureiden arvoista tulee tarpeettoman pieniä. TKK (c) Ilkka Mellin (2007) 115

Autokorrelaatio Korreloituneisuus ja aikasarjat Korreloituneisuus on aikasarjojen regressiomallien tavallinen ongelma. Aikasarjojen regressiomalleissa kiinnitetään huomio korreloituneisuuden lajiin, jota kutsutaan autokorrelaatioksi. Oletetaan, että havainnot ovat aikajärjestyksessä. Olkoon ε i lineaarisen mallin yi = β0 + β1xi 1+ β2xi2 + + βkxik + εi, i = 1,2,, n jäännöstermi. Koska havainnot ovat aikajärjestyksessä, jäännöstermit ε i muodostavat aikasarjan. TKK (c) Ilkka Mellin (2007) 116