1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

Samankaltaiset tiedostot
1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Mat Tilastollisen analyysin perusteet

Mat Tilastollisen analyysin perusteet, kevät 2007

2. Tietokoneharjoitukset

Johdatus regressioanalyysiin. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Regressiodiagnostiikka ja regressiomallin valinta

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

A B DIFFERENCE

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

Regressiodiagnostiikka ja regressiomallin valinta

Menestyminen valintakokeissa ja todennäköisyyslaskussa

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1


ABHELSINKI UNIVERSITY OF TECHNOLOGY

Mat Tilastollisen analyysin perusteet, kevät 2007

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Harjoitus 9: Excel - Tilastollinen analyysi

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Vastepintamenetelmä. Kuusinen/Heliövaara 1

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

A250A0050 Ekonometrian perusteet Tentti

1. PARAMETRIEN ESTIMOINTI

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus regressioanalyysiin

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Yleistetyistä lineaarisista malleista

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

MS-C2{04 Tilastollisen analyysin perusteet

Korrelaatiokertoinen määrittely 165

Frequencies. Frequency Table

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

HAVAITUT JA ODOTETUT FREKVENSSIT

Mat Tilastollisen analyysin perusteet, kevät 2007

1. KAKSISUUNTAINEN VARIANSSIANALYYSI: TULOSTEN TULKINTA

2. Teoriaharjoitukset

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Yleinen lineaarinen malli

Testit laatueroasteikollisille muuttujille

Dynaamiset regressiomallit

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Harjoitukset 4 : Paneelidata (Palautus )

805324A (805679S) Aikasarja-analyysi Harjoitus 6 (2016)

Harjoitus 7: NCSS - Tilastollinen analyysi

Harha mallin arvioinnissa

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Partiotoiminnan laatuun vaikuttavat tekijät vuosiselostedatan perusteella Uudenmaan Partiopiirissä

805306A Johdatus monimuuttujamenetelmiin, 5 op

Mat Tilastollisen analyysin perusteet, kevät 2007

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!

Sovellettu todennäköisyyslaskenta B

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Mat Tilastollisen analyysin perusteet. Testit suhdeasteikollisille muuttujille. Avainsanat:

Mat Tilastollisen analyysin perusteet, kevät 2007

Transkriptio:

Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Regressiodiagnostiikka Cooken etäisyys, Funktionaalinen muoto, Diagnostinen grafiikka, Diagnostiset testit, Heteroskedastisuus, Homoskedastisuuden testaaminen, Homoskedastisuus, Jäännöstermi, Jäännösvarianssi, Leverage, Lineaarinen regressiomalli, Merkitsevyystaso, Muunnokset, p- arvo, Pienimmän neliösumman menetelmä, Poikkeavat havainnot, Poistoresiduaali, Regressiodiagnostiikka, Residuaali, Residuaalidiagrammi, Selitettävä muuttuja, Selittäjä, Selittävä muuttuja, Selitysaste, Standardoitu poistoresiduaali, Standardoitu residuaali, Systemaattinen osa, Sovite, Vipuluku 1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO Päämääränä on estimoida regressiomalli, jossa vehnän satoa selitetään käytetyn lannoiteaineen määrän avulla. STATISTIX-tiedostoon SATO on talletettu seuraavat muuttujat: (a) (b) (c) LANNOITE = Lannoiteaineen määrä / pinta-alayksikkö SATO = Sato / pinta-alayksikkö Tutustu aineistoon piirtämällä pistediagrammi (LANNOITE, SATO) Onko lineaarinen regressiomalli sopiva kuvaus sadon riippuvuudelle käytetyn lannoiteaineen määrästä?. Estimoi PNS-menetelmällä yhden selittäjän regressiomalli (1) SATO = β 0 + β 1 LANNOITE + ε Tarkastele mallin (1) sopivuutta aineistoon piirtämällä residuaalidiagrammi (SOVITE, RESIDUAALI) Onko malli (1) sopiva kuvaus sadon riippuvuudelle käytetyn lannoiteaineen määrästä? Lisää tiedostoon SATO muuttujan LANNOITE neliö muuttujaksi LANSQR. Estimoi PNS-menetelmällä kahden selittäjän regressiomalli (2) SATO = β 0 + β 1 LANNOITE + β 2 LANSQR + ε Onko muuttuja LANSQR tarpeellinen mallissa? Vertaa mallin (2) selitysastetta mallin (1) selitysasteeseen. Tarkastele mallin (2) sopivuutta aineistoon piirtämällä residuaalidiagrammi (SOVITE, RESIDUAALI) Onko malli (1) sopiva kuvaus sadon riippuvuudelle käytetyn lannoiteaineen määrästä? TKK/SAL Ilkka Mellin (2005) 1/37

RATKAISU: (a) AINEISTOON TUTUSTUMINEN: PISTEDIAGRAMMI (SELITTÄJÄ, SELITETTÄVÄ) Piirretään pistediagrammi (LANNOITE, SATO) Pistediagrammin avulla voidaan havainnollistaa muuttujien välistä riippuvuutta. Statistics > Summary Statistics > Scatter Plot X Axis Variables = LANNOITE Y Axis Variables = SATO 33 Scatter Plot of SATO vs LANNOITE 28 SATO 23 18 0 2 4 6 8 10 LANNOITE Sadon ja lannoiteaineen määrän riippuvuus ei näytä lineaariselta: Aluksi lannoiteaineen määrän lisääminen kasvattaa satoa, mutta tietyn pisteen jälkeen lannoiteaineen määrän lisääminen alkaa pienentää satoa. TKK/SAL Ilkka Mellin (2005) 2/37

(b) YHDEN SELITTÄJÄN LINEAARISEN REGRESSIOMALLIN FORMULOINTI JA ESTIMOINTI Mallin estimointi Olkoon mallina (1) SATO = β 0 + β 1 LANNOITE + ε Statistics > Linear Models > Linear Regression Dependent Variable = SATO Independent Variables = LANNOITE STATISTIX FOR WINDOWS SATO UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF SATO PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 22.8063 0.79583 28.66 0.0000 LANNOITE 0.63074 0.13452 4.69 0.0001 R-SQUARED 0.4149 RESID. MEAN SQUARE (MSE) 5.97161 ADJUSTED R-SQUARED 0.3961 STANDARD DEVIATION 2.44369 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 131.285 131.285 21.98 0.0001 RESIDUAL 31 185.120 5.97161 TOTAL 32 316.405 CASES INCLUDED 33 MISSING CASES 0 Malli selittää selitettävän muuttujan SATO vaihtelusta 41 %. Muuttuja LANNOITE on selittäjänä tilastollisesti merkitsevä ja vastaava regressiokerroin on positiivinen. Sen mukaan lannoiteaineen määrän lisääminen aina kasvattaa satoa. Tämä on kuitenkin ristiriidassa sen kanssa, että (a)-kohdan pistediagrammista nähtiin, että lannoiteaineen määrän lisääminen kasvattaa satoa vain aluksi ja tietyn pisteen jälkeen lannoiteaineen määrän lisääminen alkaa pienentää satoa. TKK/SAL Ilkka Mellin (2005) 3/37

Residuaalidiagrammi (SOVITE, RESIDUAALI) Regressiomallien tuloksia analysoitaessa on aina syytä piirtää residuaalidiagrammi (SOVITE, RESIDUAALI) Diagrammi näyttää miten hyvin malli kuvaa selitettävän muuttujan käyttäytymistä. Kuvio saattaa paljastaa mallin rakenneosan virheellisen muotoilun, residuaalien heteroskedastisuuden ja poikkeavat havainnot. Linear Regression Coefficient Table Results > Plots > Std Resids by Fitted Values 2.0 Regression Residual Plot 1.2 Standardized Residuals 0.4-0.4-1.2-2.0 22 24 26 28 30 Fitted values Residuaalit eivät muodosta hyvän mallin vaakasuoraa ja tasaleveätä pisteiden vyötä. Residuaalikuvio kertoo samaa kuin (a)-kohdan pistediagrammi: Tavanomainen yhden selittäjän lineaarinen regressiomalli ei kuvaa hyvin muuttujan SATO riippuvuutta muuttujasta LANNOITE. Johtopäätös: Mallin (1) rakenneosa on virheellistä muotoa. TKK/SAL Ilkka Mellin (2005) 4/37

(c) MODIFIOIDUN REGRESSIOMALLIN FORMUOLINTI JA ESTIMOINTI Lisäselittäjän konstruointi Kohtien (a) ja (b) tulosten perusteella mallin (1) rakenneosaa päätetään korjata lisäämällä malliin (1) selittäjäksi lannoiteaineen määrän neliö. Tällöin saadaan malli, jonka rakenneosa on muotoa f(x) = β 0 + β 1 x + β 2 x 2 Funktion f kuvaaja on paraabeli. On odotettavissa, että kerroin β 2 on negatiivinen. Tällöin paraabeli aukeaa alaspäin ja sillä on yksikäsitteinen globaali maksimi, mikä sopii yhteen kohdan (a) pistediagrammista saatavien tietojen kanssa. Huomaa, että syntyvä malli on regressiokertoimiensa β 0, β 1, β 2 suhteen lineaarinen malli, jonka (aitoina) selittäjinä ovat x ja x 2. Koska malli on lineaarinen, sen parametrit voidaan estimoida tavanomaisilla lineaarisen mallin estimointimenetelmillä. Lisätään lannoiteaineen määrän neliö muuttujaksi LANSQR tiedostoon SATO: Data > Transformations Transformation Expression LANSQR = LANNOITE * LANNOITE TKK/SAL Ilkka Mellin (2005) 5/37

Mallin estimointi Olkoon mallina (2) SATO = β 0 + β 1 LANNOITE + β 2 LANSQR + ε Statistics > Linear Models > Linear Regression Dependent Variable = SATO Independent Variables = LANNOITE, LANSQR STATISTIX FOR WINDOWS SATO UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF SATO PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF --------- ----------- --------- ----------- ------ ----- CONSTANT 19.2491 0.51017 37.73 0.0000 LANNOITE 3.00224 0.23736 12.65 0.0000 13.8 LANSQR -0.23715 0.02286-10.37 0.0000 13.8 R-SQUARED 0.8724 RESID. MEAN SQUARE (MSE) 1.34528 ADJUSTED R-SQUARED 0.8639 STANDARD DEVIATION 1.15986 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 2 276.047 138.023 102.60 0.0000 RESIDUAL 30 40.3583 1.34528 TOTAL 32 316.405 CASES INCLUDED 33 MISSING CASES 0 Mallin (2) selitysaste on kasvanut 87 %:iin. Sekä LANNOITE että LANSQR ovat selittäjinä tilastollisesti merkitseviä. Muuttujan LANSQR regressiokerroin on negatiivinen, mikä merkitsee sitä, että mallin rakenneosa on muuttujan LANNOITE funktiona alaspäin aukeava paraabeli, mikä vastaa graafisen tarkastelun ja yhden selittäjän mallista saatua kuvaa muuttujien SATO ja LANNOITE riippuvuuden luonteesta. TKK/SAL Ilkka Mellin (2005) 6/37

Residuaalidiagrammi (Sovite, Residuaali) Piirretään residuaalidiagrammi (SOVITE, RESIDUAALI) Linear Regression Coefficient Table Results > Plots > Std Resids by Fitted Values 3 Regression Residual Plot 2 Standardized Residuals 1 0-1 -2-3 19 21 23 25 27 29 Fitted values Residuaalidiagrammin mukaan mallin rakenneosassa ei ole enää selviä puutteita. Sen sijaan residuaalidiagrammi viittaa jäännöstermin heteroskedastisuuteen. Homoskedastisuusoletuksen testaaminen jätetään lukijalle; ota mallia tehtävästä 4. TKK/SAL Ilkka Mellin (2005) 7/37

2. POIKKEAVAT HAVAINNOT 7. harjoitusten tehtävässä 5 testattiin ostovoimapariteetti-hypoteesin voimassaoloa aineistossa, johon oli kerätty tiedot valuuttojen keskimääräisistä vuosimuutoksista vaihtokursseissa USA:n dollariin nähden ja keskimääräisten vuotuisten inflaatio-vauhtien erotuksista USA:han nähden 44 maasta. Tiedot on talletettu STATISTIX-tiedostoon PPP. Ostovoimapariteetti-hypoteesin testaus tapahtuu estimoimalla regressiomalli jossa (1) CEXCR75 = β 0 + β 1 CINFR75 + ε CEXCR75 = Keskimääräinen vuosimuutos vaihtokurssissa USA:n dollariin nähden vuosina 1975-90 CINFR75 = Keskimääräisten vuotuisten inflaatiovauhtien erotus USA:han nähden vuosina 1975-90 ja testaamalla tilastollisia hypoteeseja H 00 : β 0 = 0 H 01 : β 1 = 1 Residuaaleja kuvaavien diagrammien perusteella aineistossa on poikkeuksellinen havainto: IRAN Tarkastellaan nyt poikkeavan havainnon tunnistamista erityisesti tähän tarkoitukseen konstruoitujen tunnuslukujen avulla. Aineisto on annettu STATISTIX-tiedostossa PPP. (a) (b) (c) Estimoi malli (1) PNS-menetelmällä ja talleta tiedostoon seuraavat muuttujat: LEVERAGE = Vipuluku (leverage) STANDARDIZED RESIDUAL DIST P (DIST) OUT P (OUT) = Standardoitu eli studentisoitu residuaali = Cooken etäisyys = Cooken etäisyyttä vastaava p-arvo = Standardoitu poistoresiduaali = Poistoresiduaalia vastaava p-arvo Tunnista poikkeavat havainnot kohdassa (a) määrättyjen tunnuslukujen avulla. Käytä tällöin apuna myös sopivia graafisia esityksiä. Tulkitse todennäköisyydet P (DIST) ja P (OUT). Estimoi malli uudelleen ilman poikkeavia havaintoja ja tutki miten havaintojen poistaminen vaikuttaa regressiokertoimien estimaatteihin ja selitysasteeseen. TKK/SAL Ilkka Mellin (2005) 8/37

RATKAISU: (a) MALLIN ESTIMOINTI Piirretään pistediagrammi (CINFR75, CEXCR75) Pistediagrammin avulla voidaan havainnollistaa muuttujien välistä riippuvuutta. Statistics > Summary Statistics > Scatter Plot X Axis Variables = CINFR75 Y Axis Variables = CEXCR75 60 Scatter Plot of CEXCR75 vs CINFR75 40 CEXCR75 20 0-20 -10 10 30 50 70 CINFR75 Muuttujien CEXCR75 ja CINFR75 riippuvuus näyttää lineaariselta, mutta havaintojen joukossa näyttää olevan (ainakin) yksi poikkeava (nuolella kuviossa merkitty) havainto: IRAN TKK/SAL Ilkka Mellin (2005) 9/37

Mallin estimointi Olkoon mallina (1) CEXCR75 = β 0 + β 1 CINFR75 + ε Statistics > Linear Models > Linear Regression Dependent Variable = CEXCR75 Independent Variables = CINFR75 STATISTIX FOR WINDOWS PPP, 16.03.2003, 11:36:49 UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF CEXCR75 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT -0.00928 0.42391-0.02 0.9826 CINFR75 1.01759 0.02685 37.89 0.0000 R-SQUARED 0.9716 RESID. MEAN SQUARE (MSE) 5.49359 ADJUSTED R-SQUARED 0.9709 STANDARD DEVIATION 2.34384 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 7888.57 7888.57 1435.96 0.0000 RESIDUAL 42 230.731 5.49359 TOTAL 43 8119.30 CASES INCLUDED 44 MISSING CASES 0 Malli selittää selitettävän muuttujan CEXCR75 vaihtelusta 97 %. Muuttuja CINFR75 on selittäjänä tilastollisesti merkitsevä ja vastaava regressiokerroin on positiivinen ja lähellä arvoa 1. Vakio ei ole tilastollisesti merkitsevä. Nämä arvot ovat sopusoinnussa ostovoimapariteettihypoteesin kanssa. Testit kertoimia koskeville hypoteeseille: Ks. 7. harjoitusten tehtävä 5. TKK/SAL Ilkka Mellin (2005) 10/37

Pistediagrammi ja regressiosuora luottamusvöineen Piirretään pistediagrammi (SELITTÄJÄ, SELITETTÄVÄ), estimoitu PNS-suora sekä luottamusvyöt ennusteille. Linear Regression Coefficient Table Results > Plots > Simple Regression Plot 60 Simple Regression Plot 40 CEXCR75 20 0-20 -10 10 30 50 70 CINFR75 CEXCR75 = -9.28E-03 + 1.0176 * CINFR75 95% conf and pred intervals Poikkeava havainto IRAN asettuu selvästi luottamusvöiden ulkopuolelle. TKK/SAL Ilkka Mellin (2005) 11/37

Residuaalidiagrammi (SOVITE, RESIDUAALI) Piirretään residuaalidiagrammi (SOVITE, RESIDUAALI) Linear Regression Coefficient Table Results > Plots > Std Resids by Fitted Values 5 Regression Residual Plot 3 Standardized Residuals 1-1 -3-5 -10 10 30 50 70 Fitted values Residuaalidiagrammin mukaan mallin rakenneosassa ei ole puutteita. Sen sijaan poikkeava havainto IRAN erottuu selvästi. TKK/SAL Ilkka Mellin (2005) 12/37

Poikkeavien havaintojen tunnistamiseen tarkoitetut tunnusluvut Talletetaan tiedostoon PPP poikkeavien havaintojen tunnistamisessa käytettävien tunnuslukujen havaintokohtaiset arvot. Linear Regression Coefficient Table Results > Save Residuals Fitted Value = FIT Residual = RES Levarage = LEV Standardized Residual = STDRES Distance = DIST P (Distance) = PDIST Outlier = OUT P (Outlier) = POUT (b) POIKKEAVIEN HAVAINTOJEN TUNNISTAMINEN Tulostetaan havainnot 18-24 muuttujista LEV, OUT, POUT, DIST, PDIST. STATISTIX FOR WINDOWS PPP CASE LEV OUT POUT DIST PDIST 18 0.0289762 0.2460758 0.8068513 0.0009242 0.9990763 19 0.0278973 1.0548905 0.2976523 0.0159246 0.9842074 20 0.0227617 0.6837322 0.4979906 0.0055143 0.9945016 21 0.0235212-7.358078 0.0 0.2878565 0.7513367 22 0.0272061-0.420961 0.6759816 0.0025275 0.9974758 23 0.2944152-0.517788 0.6073885 0.0569273 0.9447355 24 0.0241648-0.621783 0.5375263 0.0048579 0.9951545 Edellä piirrettyjen kuvioiden perusteella havainto 21 (IRAN) on poikkeava. Vipuluku (levarage) ei kuitenkaan ole havainnon 21 kohdalla poikkeavan suuri. Sen sijaan poistoresiduaali OUT ja sitä vastaava p-arvo POUT sekä Cooken etäisyys DIST ja sitä vastaava ns. pseudotodennäköisyys PDIST indikoivat selvästi, että havainto on poikkeava. Ks. lisätietoja STATISTIX-ohjelman Helpistä. Jos poikkeavien havaintojen tunnistamiseen käytetään poistoresiduaaleja OUT ja Cooken etäisyyksiä DIST, aineistossa ei ole muita poikkeavia havaintoja kuin IRAN. TKK/SAL Ilkka Mellin (2005) 13/37

Esitetään Cooken etäisyydet vielä graafisesti havaintojen numeroinnin määräämässä järjestyksessä. Statistics > Summary Statistics > Scatter Plot X Axis Variables = COUNTRY Y Axis Variables = DIST 0.30 Scatter Plot of DIST vs COUNTRY 0.24 0.18 DIST 0.12 0.06 0.00 0 9 18 27 36 45 COUNTRY Poikkeavaa havaintoa IRAN vastaava Cooken etäisyys erottuu selvästi. TKK/SAL Ilkka Mellin (2005) 14/37

(c) MALLIN ESTIMOINTI ILMAN POIKKEAVAA HAVAINTOA Olkoon mallina (1) CEXCR75 = β 0 + β 1 CINFR75 + ε Poistetaan ensin havainto 21: Data > Omit/Select/Restore Cases Omit/Select/Restore Expression Omit Case = 21 Estimoidaan malli. Statistics > Linear Models > Linear Regression Dependent Variable = CEXCR75 Independent Variables = CINFR75 STATISTIX FOR WINDOWS PPP UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF CEXCR75 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 0.22161 0.28340 0.78 0.4387 CINFR75 1.02133 0.01785 57.22 0.0000 R-SQUARED 0.9876 RESID. MEAN SQUARE (MSE) 2.42514 ADJUSTED R-SQUARED 0.9873 STANDARD DEVIATION 1.55729 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 7940.26 7940.26 3274.15 0.0000 RESIDUAL 41 99.4306 2.42514 TOTAL 42 8039.70 CASES INCLUDED 43 MISSING CASES 0 Havainnon IRAN poistaminen mallista, on nostanut selitysasteen arvosta 97.2 % arvoon 98.8 %. Muuttuja CINFR75 on selittäjänä tilastollisesti merkitsevä ja vastaava regressiokerroin on positiivinen ja lähellä arvoa 1. Vakio ei ole tilastollisesti merkitsevä. Nämä arvot ovat sopusoinnussa ostovoimapariteettihypoteesin kanssa. Testit kertoimia koskeville hypoteeseille: Ks. 7. harjoitusten tehtävä 5. TKK/SAL Ilkka Mellin (2005) 15/37

Tarkasteltaessa poikkeavien havaintojen tunnistamisessa käytettävien tunnuslukujen havaintokohtaisia arvoja havaitaan, että havainto 23 on Cooken etäisyyden DIST mukaan ja havainnot 11 ja 12 ovat taas poistoresiduaalien OUT mukaan epäilyttäviä (tarkista tämä). Kun malli estimoidaan uudelleen ilman poikkeavia havaintoja, saattaa ilmaantua uusia poikkeavia havaintoja. Vaikutusvaltaiset poikkeavat havainnot estävät usein lievemmin poikkeavien havaintojen poikkeuksellisuuden näkymästä. TKK/SAL Ilkka Mellin (2005) 16/37

3. MUUTTUJATRANSFORMAATIOT JA MALLIN LINEARISOINTI Vaikka selitettävän muuttujan y riippuvuus selittävästä muuttujasta x olisi luonteeltaan epälineaarinen, sopivasti muunnettujen muuttujien välille saattaa olla mahdollista muodostaa hyvin toimiva lineaarinen malli. Toisin sanoen on mahdollista löytää funktiot f ja g siten, että (1) f(y j ) = β 0 + β 1 g(x j ) + ε j, j = 1, 2,, n STATISTIX-tiedostoon TRANS on talletettu muuttujat X, Y2, Y4PLUS, Y5. Muuttujat Y1, Y2, Y3 ovat selitettäviä muuttujia ja muuttuja X on kaikille yhteinen selittäjä. Kaikki muuttujat ovat keinotekoisia ja tehtävänä on selvittää, mitä transformaatiota on mitäkin selitettävää muuttujaa Y = Y2 / Y4PLUS / Y5 generoitaessa käytetty. Ehdokkaat ovat seuraavat: (i) f ( y) = y g( x) = log( x) (ii) f ( y) = y g( x) = x (iii) f ( y) = y g( x) = 1/ x Tee jokaiselle selitettävän muuttujan Y = Y2 / Y4PLUS / Y5 ja selittäjän X parille seuraavat operaatiot: (a) (b) Piirrä pistediagrammi (X, Y). Estimoi lineaarinen malli (2) Y = β 0 + β 1 X + ε ja piirrä residuaalikuvio (SOVITE, RESIDUAALI). (c) Valitse kohdissa (a) ja (b) piirrettyjen kuvioiden perusteella sopivat muunnokset f ja g, jotka linearisovat mallin. (d) (e) (f) Tee muunnokset ja piirrä pistediagrammi (g(x), f(y)). Estimoi malli (1) ja piirrä residuaalikuvio (SOVITE, RESIDUAALI). Päättele kohtien (d) ja (e) kuvioiden perusteella, että olet valinnut oikein. TKK/SAL Ilkka Mellin (2005) 17/37

RATKAISU: (a) PISTEDIAGRAMMIT Piirretään pistediagrammit (X, Y) jossa Y = Y2 / Y4PLUS / Y5. Pistediagrammien avulla voidaan havainnollistaa muuttujien välistä riippuvuutta. Statistics > Summary Statistics > Scatter Plot X Axis Variables = X Y Axis Variables = Y2 / Y4PLUS / Y5 Pistediagrammi (X, Y2): 15 Scatter Plot of Y2 vs X 11 Y2 7 3 0 2 4 6 8 10 X TKK/SAL Ilkka Mellin (2005) 18/37

Pistediagrammi (X, Y4PLUS): 12 Scatter Plot of Y4PLUS vs X 10 Y4PLUS 8 6 4 2 0 2 4 6 8 10 X Pistediagrammi (X, Y5): Scatter Plot of Y5 vs X 14 11 Y5 8 5 0 2 4 6 8 10 X TKK/SAL Ilkka Mellin (2005) 19/37

Kaikissa kolmessa diagrammissa muuttujan Y = Y2 / Y4PLUS / Y5 ja X riippuvuus näyttää epälineaariselta. Koska vaihtoehdot muuttujan X muunnoksille on annettu, on helppo päätellä, että muuttuja Y2 liittyy muunnokseen (iii). Sen sijaan muuttujiin Y4PLUS ja Y5 liittyvien muunnosten tunnistaminen ei ole yhtä helppoa. Koska kuitenkin muuttujan Y4PLUS kuviossa pisteparven olkapää on pyöreämpi, voidaan tehdä arvaus, että muuttuja Y4PLUS liittyy muunnokseen (i) ja muuttuja Y5 liittyy muunnokseen (ii). (b) LINEAARISTEN MALLIEN ESTIMOINTI JA RESIDUAALIKUVIOIDEN PIIRTÄMINEN Mallien estimointi Olkoon mallina (1) Y = β 0 + β 1 X + ε jossa Y = Y2 / Y4PLUS / Y5. Statistics > Linear Models > Linear Regression Dependent Variable = Y2 / Y4PLUS / Y5 Independent Variables = X Residuaalidiagrammit (SOVITE, RESIDUAALI) Piirretään residuaalidiagrammit (SOVITE, RESIDUAALI) Linear Regression Coefficient Table Results > Plots > Std Resids by Fitted Values TKK/SAL Ilkka Mellin (2005) 20/37

Otteet estimointituloksista Malli: Y2 = β 0 + β 1 X + ε UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y2 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 8.60910 0.47318 18.19 0.0000 X -0.44757 0.07714-5.80 0.0000 R-SQUARED 0.4122 4 Regression Residual Plot Standardized Residuals 2 0-2 -4 4.1 5.0 5.9 6.8 7.7 8.6 Fitted values Mallin selitysaste on 41 %. Muuttuja X on selittäjänä merkitsevä. Residuaalidiagrammi indikoi, että mallin rakenneosa on virheellisesti muotoiltu. TKK/SAL Ilkka Mellin (2005) 21/37

Malli: Y4PLUS = β 0 + β 1 X + ε UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y4PLUS PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 5.46256 0.35955 15.19 0.0000 X 0.60312 0.05862 10.29 0.0000 R-SQUARED 0.6880 3 Regression Residual Plot 2 Standardized Residuals 1 0-1 -2-3 5 7 9 11 13 Fitted values Mallin selitysaste on 69 %. Muuttuja X on selittäjänä merkitsevä. Residuaalidiagrammi indikoi, että mallin rakenneosa on virheellisesti muotoiltu. TKK/SAL Ilkka Mellin (2005) 22/37

Malli: Y5 = β 0 + β 1 X + ε UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y5 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 7.72262 0.27950 27.63 0.0000 X 0.49635 0.04557 10.89 0.0000 R-SQUARED 0.7120 2.7 Regression Residual Plot 1.8 Standardized Residuals 0.9 0.0-0.9-1.8-2.7 7.6 8.5 9.4 10.3 11.2 12.1 13.0 Fitted values Mallin selitysaste on 71 %. Muuttuja X on selittäjänä merkitsevä. Residuaalidiagrammi indikoi, että mallin rakenneosa on virheellisesti muotoiltu. TKK/SAL Ilkka Mellin (2005) 23/37

(c) MUUNNOSTEN IDENTIFIOINTI Kohtien (a) ja (b) tulosten perusteella teemme seuraavat identifioinnit: Y2: f ( y) = y g( x) = 1/ x Y 4PLUS: f ( y) = y g( x) = log( x) Y5: f ( y) = y g( x) = x (d) MUUNNOKSET JA PISTEDIAGRAMMIT Muunnokset Lisätään muuttujat XINV: gx ( ) = 1/ x XLOG : gx ( ) = log( x) XSQRT : gx ( ) = x tiedostoon TRANS. Data > Transformations Transformation Expression XINV = 1 / X Data > Transformations Transformation Expression XLOG = Ln(X) Data > Transformations Transformation Expression XSQRT = Sqrt( X) TKK/SAL Ilkka Mellin (2005) 24/37

Pistediagrammit Piirretään pistediagrammit (X, Y) jossa X = XINV / XLOG / XSQRT ja Y = Y2 / Y4PLUS / Y5. Pistediagrammien avulla voidaan havainnollistaa muuttujien välistä riippuvuutta. Statistics > Summary Statistics > Scatter Plot X Axis Variables = XINV / XLOG / XSQRT Y Axis Variables = Y2 / Y4PLUS / Y5 Display Regression Line Pistediagrammi (XINV, Y2): 15 Scatter Plot of Y2 vs XINV 11 Y2 7 3 0.0 0.9 1.8 2.7 3.6 4.5 XINV TKK/SAL Ilkka Mellin (2005) 25/37

Pistediagrammi (XLOG, Y4PLUS): 12 Scatter Plot of Y4PLUS vs XLOG 10 Y4PLUS 8 6 4 2-1.6-0.8 0.0 0.8 1.6 2.4 XLOG Pistediagrammi (XSQRT, Y5): 14 Scatter Plot of Y5 vs XSQRT 11 Y5 8 5 0.4 1.1 1.8 2.5 3.2 XSQRT Kaikkien yo. pistediagrammeissa muuttujien X = XINV / XLOG / XSQRT ja Y = Y2 / Y4PLUS / Y5 riippuvuus näyttää lineaariselta. TKK/SAL Ilkka Mellin (2005) 26/37

Tarkastellaan vielä muuttujapareja (XLOG, Y5) ja (XSQRT, Y4PLUS). Pistediagrammi (XLOG, Y5): 14 Scatter Plot of Y5 vs XLOG 11 Y5 8 5-1.6-0.8 0.0 0.8 1.6 2.4 XLOG Pistediagrammi (XLOG, Y5) 12 Scatter Plot of Y4PLUS vs XSQRT 10 Y4PLUS 8 6 4 2 0.4 1.1 1.8 2.5 3.2 XSQRT TKK/SAL Ilkka Mellin (2005) 27/37

Nämä pistediagrammit osoittavat, että Y 4PLUS: f ( y) = y g( x) = log( x) Y5: f ( y) = y g( x) = x ovat oikeat valinnat. Tämä perustuu seuraaviin huomioihin: (i) Pistediagrammissa (XLOG, Y5) pistepilvi käyristyy regressiosuoran alapuolelle. Siten muunnos gx ( ) = xei linearisoi muuttujan X ja Y4PLUS välistä riippuvuutta. (ii) Pistediagrammissa (XSQRT, Y4PLUS) pistepilvi käyristyy regressiosuoran yläpuolelle. Siten muunnos gx ( ) = log( x) ei linearisoi muuttujan X ja Y5 välistä riippuvuutta. (e) LINEAARISTEN MALLIEN ESTIMOINTI JA RESIDUAALIKUVIOIDEN PIIRTÄMINEN MUUNNETUISTA MUUTTUJISTA Mallien estimointi Olkoon mallina (1) Y = β 0 + β 1 X + ε jossa Y = Y2 / Y4PLUS / Y5 ja X = XINV / XLOG / XSQRT Statistics > Linear Models > Linear Regression Dependent Variable = Y2 / Y4PLUS / Y5 Independent Variables = XINV / XLOG / XSQRT Residuaalidiagrammit (SOVITE, RESIDUAALI) Piirretään residuaalidiagrammit (SOVITE, RESIDUAALI) Linear Regression Coefficient Table Results > Plots > Std Resids by Fitted Values TKK/SAL Ilkka Mellin (2005) 28/37

Otteet estimointituloksista Malli: Y2 = β 0 + β 1 XINV + ε UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y2 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 5.02999 0.15793 31.85 0.0000 XINV 2.05250 0.13776 14.90 0.0000 R-SQUARED 0.8222 2.7 Regression Residual Plot 1.8 Standardized Residuals 0.9 0.0-0.9-1.8-2.7 4 6 8 10 12 14 Fitted values Mallin selitysaste on 82 %. Muuttuja XINV on selittäjänä merkitsevä. Residuaalidiagrammi indikoi, että mallin rakenneosa on oikein muotoiltu. TKK/SAL Ilkka Mellin (2005) 29/37

Malli: Y4PLUS = β 0 + β 1 XLOG + ε UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y4PLUS PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 6.11708 0.20933 29.22 0.0000 XLOG 1.95665 0.12486 15.67 0.0000 R-SQUARED 0.8365 2.7 Regression Residual Plot 1.8 Standardized Residuals 0.9 0.0-0.9-1.8-2.7 3 5 7 9 11 Fitted values Mallin selitysaste on 84 %. Muuttuja XLOG on selittäjänä merkitsevä. Residuaalidiagrammi indikoi, että mallin rakenneosa on oikein muotoiltu. TKK/SAL Ilkka Mellin (2005) 30/37

Malli: Y5 = β 0 + β 1 XSQRT + ε UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF Y5 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 6.19962 0.36909 16.80 0.0000 XSQRT 1.93523 0.16110 12.01 0.0000 R-SQUARED 0.7504 2.7 Regression Residual Plot 1.8 Standardized Residuals 0.9 0.0-0.9-1.8-2.7 7.0 7.9 8.8 9.7 10.6 11.5 12.4 Fitted values Mallin selitysaste on 75 %. Muuttuja XSQRT on selittäjänä merkitsevä. Residuaalidiagrammi indikoi, että mallin rakenneosa on oikein muotoiltu. TKK/SAL Ilkka Mellin (2005) 31/37

(f) JOHTOPÄÄTÖKSET Kohdan (e) perusteella näyttää siltä, että seuraavat muunnokset ovat oikeita: Y2: f ( y) = y g( x) = 1/ x Y 4PLUS: f ( y) = y g( x) = log( x) Y5: f ( y) = y g( x) = x Nämä ovat todellakin ne muunnokset, joita on käytetty havaintojen generoinnissa: Y2: y = 5+ 2 x+ ε Y 4 PLUS: y = 6 + 2log( x) + ε Y5: y = 6+ 2 x + ε Muuttujat x ja ε generoitiin seuraavasti: x Uniform(0,10) ε N(0,1) TKK/SAL Ilkka Mellin (2005) 32/37

4. HOMOSKEDASTISUUDEN TESTAAMINEN STATISTIX-tiedostoon CITYDATA on talletettu seuraavat muuttujat: HSEVAL = Omakotitalojen hintojen keskiarvo SIZEHSE = Talojen mediaanikoko TAXRATE = Kiinteistöverosuhde TOTEXP = Kunnallispalveluihin käytetty rahamäärä COMPER = Vuokratalojen osuus Aineisto koostuu 90 USA:n kuntaa koskevista tiedoista. (a) Estimoi lineaarinen regressiomalli HSEVAL = β 0 + β 1 SIZEHSE + β 2 TAXRATE + β 3 TOTEXP + β 4 COMPER + ε Ovatko kaikki selittäjät tilastollisesti merkitseviä? Tuntuvatko regressiokertoimien estimaattien merkit järkeviltä? (b) Piirrä residuaalikuvio (SOVITE, RESIDUAALI). Ovatko residuaalit homo- vai heteroskedastisia? (c) Tee homoskedastisuustesti, joka perustuu apuregressioon 2 ej = α + α yj + δ j 0 1ˆ Jos R 2 on tästä apuregressiosta määrätty selitysaste, niin 2 nr χ 2 (1) homoskedastisuusoletuksen pätiessä. Ovatko residuaalit homo- vai heteroskedastisia? TKK/SAL Ilkka Mellin (2005) 33/37

RATKAISU: (a) MALLIN ESTIMOINTI Olkoon mallina (1) HSEVAL = β 0 + β 1 SIZEHSE + β 2 TAXRATE + β 3 TOTEXP + β 4 COMPER + ε Statistics > Linear Models > Linear Regression Dependent Variable = HSEVAL Independent Variables = SIZEHSE, TAXRATE, TOTEXP, COMPER STATISTIX FOR WINDOWS CITYDAT UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF HSEVAL PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P VIF --------- ----------- --------- ----------- ------ ----- CONSTANT -23.4328 8.98561-2.61 0.0108 SIZEHSE 9.21014 1.56419 5.89 0.0000 1.1 TAXRATE -177.534 39.8668-4.45 0.0000 1.0 TOTEXP 1.423E-06 2.963E-07 4.80 0.0000 1.1 COMPER -20.3704 6.19937-3.29 0.0015 1.2 R-SQUARED 0.5505 RESID. MEAN SQUARE (MSE) 11.5623 ADJUSTED R-SQUARED 0.5294 STANDARD DEVIATION 3.40033 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 4 1203.84 300.960 26.03 0.0000 RESIDUAL 85 982.792 11.5623 TOTAL 89 2186.63 CASES INCLUDED 90 MISSING CASES 0 Mallin selitysaste on 55 %. Kaikki selittäjät ovat tilastollisesti merkitseviä ja merkeiltään järkeviä (pohdi tätä). TKK/SAL Ilkka Mellin (2005) 34/37

(b) RESIDUAALIDIAGRAMMI (SOVITE, RESIDUAALI) Piirretään residuaalidiagrammi (SOVITE, RESIDUAALI) Linear Regression Coefficient Table Results > Plots > Std Resids by Fitted Values 4 Regression Residual Plot Standardized Residuals 2 0-2 -4 13 16 19 22 25 28 31 Fitted values Residuaalidiagrammi indikoi, että mallin rakenneosa on oikein muotoiltu, mutta jäännöstermit saattavat olla heteroskedastisia, koska residuaalien vyö levenee oikealle. (c) HOMOGEENISUUDEN TESTAAMINEN Tässä käytettävä homogeenisuustesti perustuu apuregressioon 2 e 0 1ˆ, 1,2,, j = α + α yj + δ j j = n Jos R 2 on tästä apuregressiosta määrätty selitysaste, niin 2 nr χ 2 (1) homoskedastisuusoletuksen pätiessä. TKK/SAL Ilkka Mellin (2005) 35/37

Sovitteiden ja residuaalien tallettaminen Talletetaan sovitteet ja residuaalit tiedostoon CITYDATA. Linear Regression Coefficient Table Results > Save Residuals Fitted Value = FIT Residual = RES Lisätään residuaalien neliöt muuttujaksi RESSQR tiedostoon CITYDATA. Data > Transformations Transformation Expression RESSQR = RES * RES Apuregression estimointi Olkoon mallina (2) RESSQR = β 0 + β 1 FIT + ε Statistics > Linear Models > Linear Regression Dependent Variable = RESSQR Independent Variables = FIT STATISTIX FOR WINDOWS CITYDAT UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF RESSQR PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT -15.0943 11.9630-1.26 0.2104 FIT 1.23697 0.56043 2.21 0.0299 R-SQUARED 0.0525 RESID. MEAN SQUARE (MSE) 378.099 ADJUSTED R-SQUARED 0.0417 STANDARD DEVIATION 19.4448 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 1841.99 1841.99 4.87 0.0299 RESIDUAL 88 33272.7 378.099 TOTAL 89 35114.7 CASES INCLUDED 90 MISSING CASES 0 TKK/SAL Ilkka Mellin (2005) 36/37

Homogeenisuustesti Olkoon nollahypoteesina 2 H 0 :Var( ε ) σ, 1,2,, j = j = # n Nollahypoteesin H 0 pätiessä 2 nr χ 2 (1) jossa R 2 on em. apuregression selitysaste. Nyt nr 2 = 90 0.0525 = 4.725 Testisuureen arvoa 4.725 vastaava p-arvo saadaan seuraavalla STATISTIX-operaatiolla: Statistics > Probability Functions Chi-square (x, df) X = 4.725 DF = 1 Koska testisuuteen arvoa 4.725 vastaava p-arvo = 0.02973, voidaan nollahypoteesi mallin (1) jäännöstermin homoskedastisuudesta hylätä merkitsevyystasolla 0.05, mutta ei merkitsevyystasolla 0.01. Johtopäätös: Mallin (1) jäännöstermi on jonkin verran heteroskedastinen. TKK/SAL Ilkka Mellin (2005) 37/37