1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA



Samankaltaiset tiedostot
1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

2. Tietokoneharjoitukset

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-C2{04 Tilastollisen analyysin perusteet

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Testejä suhdeasteikollisille muuttujille

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Regressioanalyysi. Kuusinen/Heliövaara 1

Harjoitus 9: Excel - Tilastollinen analyysi


Johdatus regressioanalyysiin. Heliövaara 1

Yleinen lineaarinen malli eli usean selittäjän lineaarinen regressiomalli

Mat Tilastollisen analyysin perusteet. Testit suhdeasteikollisille muuttujille. Avainsanat:

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Frequencies. Frequency Table

Mat Tilastollisen analyysin perusteet

Menestyminen valintakokeissa ja todennäköisyyslaskussa

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

SELVITTÄJÄN KOMPETENSSISTA

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

2. Yhden selittäajäan lineaarinen regressiomalli. 2.1 Malli ja parametrien estimointi. Malli:

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

1. KAKSISUUNTAINEN VARIANSSIANALYYSI: TULOSTEN TULKINTA

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

Toimittaja Erä

Ohjeita kvantitatiiviseen tutkimukseen

A B DIFFERENCE

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

1. PARAMETRIEN ESTIMOINTI

Yhden selittäjän lineaarinen regressiomalli

Testit järjestysasteikollisille muuttujille

3. Useamman selittäajäan regressiomalli. p-selittäaväaäa muuttujaa. Y i = + 1 X i p X ip + u i

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

MTTTP5, luento Luottamusväli, määritelmä

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Korrelaatiokertoinen määrittely 165

Mat Tilastollisen analyysin perusteet, kevät 2007

1. Tietokoneharjoitukset

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Mediaanikorko on kiinteäkorkoiselle lainalle korkeampi. Tämä hypoteesi vastaa taloustieteen käsitystä korkojen määräytymismekanismista.

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

A250A0050 Ekonometrian perusteet Tentti

SPSS-perusteet. Sisältö

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Sovellettu todennäköisyyslaskenta B

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Vastepintamenetelmä. Kuusinen/Heliövaara 1

SAS/IML käyttö ekonometristen mallien tilastollisessa päättelyssä. Antti Suoperä

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

proc glm data = ex61; Title2 "Aliasing Structure of the 2_IV^(5-1) design"; model y = A B C D E /Aliasing; run; quit;

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Harjoitus 7: NCSS - Tilastollinen analyysi

Sovellettu todennäköisyyslaskenta B

Väliestimointi (jatkoa) Heliövaara 1

SPSS ohje. Metropolia Business School/ Pepe Vilpas

7. Lohkominen ja sulautus 2 k kokeissa. Lohkominen (Blocking)

Harjoitukset 4 : Paneelidata (Palautus )

Testit laatueroasteikollisille muuttujille

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Perusnäkymä yksisuuntaiseen ANOVAaan

Harjoittele tulkintoja

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Transkriptio:

Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Päättely yhden selittäjän lineaarisesta regressiomallista Ennustaminen, Ennuste, Ennusteen luottamusväli, Estimaatti, Estimaattori, Estimointi, Jäännösneliösumma, Jäännöstermi, Jäännösvarianssi, Jäännösvarianssin estimointi, Regressiokertoimen t- arvo, Kokonaisneliösumma, Lineaarinen regressiomalli, Mallineliösumma, Merkitsevyystaso, p-arvo, Pienimmän neliösumman menetelmä, Regressiokerroin, Regressio-kertoimen hajonta, Regressiokertoimen luottamusväli, Regressiokertoimen t-arvo, Regressiokertoimen estimointi, Residuaali, Satunnainen osa, Selitettävä muuttuja, Selittäjä, Selittävä muuttuja, Selitysaste, Sovite, Suoran kulmakerroin, Testi regressiokertoimelle, Testi selitysasteelle, Vakioselittäjä, Varianssianalyysihajotelma, Yhden selittäjän lineaarinen regressiomalli 1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA STATISTIX-tiedostossa TUPAKKA on annettu seuraavat tiedot 11 maasta: KULUTUS = Savukkeiden kulutus per capita 1930 SAIRAST = Keuhkosyöpätapausten lukumäärä per 100 000 henkilöä 1950 Aineistoa on käsitelty 5. luentoviikon harjoitustehtävässä 2. (a) (b) (c) (d) (e) (d) Formuloi yhden selittäjän lineaarinen regressiomalli, jossa muuttujaa SAIRAST selitetään muuttujalla KULUTUS ja jossa on mukana vakio. Esitä tulkinnat mallin regressiokertoimille. Estimoi mallin regressiokertoimet PNS-menetelmällä ja esitä tulkinnat estimoiduille regressiokertoimille. Määrää kertoimien hajonnat sekä muodosta regressiosuoran kulmakertoimelle 95 %:n luottamusväli. Määrää estimoidun mallin selityaste. Onko regressiosuoran kulmakerroin tilastollisesti merkitsevä? Käytä testissä 1 %:n merkitsevyystasoa. Testaa nollahypoteesia, jonka mukaan muuttujan KULUTUS regressiokerroin on nolla estimoidun mallin selitysasteeseen perustuvalla F-testillä 1 %:n merkitsevyystasoa käyttäen. Ota saamastasi testisuureen arvosta neliöjuuri ja vertaa sitä kohdassa (e) käyttämäsi testisuureen arvoon. Onko tulos sattuma? TKK/SAL Ilkka Mellin (2005) 1/28

RATKAISU: (a) MALLIN FORMULOINTI Formuloidaan yhden selittäjän lineaarinen regressiomalli: Mallissa ja yi = β0 + β1 xi + εi, i = 1,2,, n y t = SAIRAST = Selitettävä muuttuja x t = KULUTUS = Selittävä muuttuja ε t = Jäännöstermi β 0 = Regressiokerroin, vakio β 1 = Selittävän muuttujan KULUTUS regressiokerroin Regressiokertoimien tulkinta: β 0 : Jos maassa ei ole poltettu tupakkaa (KULUTUS = 0) vuonna 1930, kerroin β 0 kertoo keuhkosyöpään sairastuneiden lukumäärän per 100 000 henkilöä vuonna 1950. β 1 : Jos maassa A on vuonna 1930 poltettu 1 savuke enemmän per capita kuin maassa B, niin kerroin β 1 kertoo kuinka monta keuhkosyöpätapausta per 100 000 henkilöä enemmän tai vähemmän maassa A on tavattu maahan B verrattuna vuonna 1950. TKK/SAL Ilkka Mellin (2005) 2/28

(b) REGRESSIOKERTOIMIEN ESTIMOINTI Käytämme kertoimien estimointiin pienimmän neliösumman menetelmää. Selitettävä muuttuja (Dependent Variable) = SAIRAST Selittävä muuttuja eli selittäjä (Independent Variable) = KULUTUS Statistics > Linear Models > Linear Regression Dependent Variable = SAIRAST Independent Variables = KULUTUS STATISTIX FOR WINDOWS TUPAKKA UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF SAIRAST PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 65.7489 48.9587 1.34 0.2122 KULUTUS 0.22912 0.06921 3.31 0.0091 R-SQUARED 0.5490 RESID. MEAN SQUARE (MSE) 7077.79 ADJUSTED R-SQUARED 0.4989 STANDARD DEVIATION 84.1296 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 77554.4 77554.4 10.96 0.0091 RESIDUAL 9 63700.1 7077.79 TOTAL 10 141255 CASES INCLUDED 11 MISSING CASES 0 Regressiokertoimet COEFFICIENT CONSTANT b 0 = 65.7489 Jos maassa ei ole poltettu tupakkaa (KULUTUS = 0) vuonna 1930, keuhkosyöpään sairastuneiden lukumäärä on ollut n. 66 per 100 000 henkilöä vuonna 1950. COEFFICIENT KULUTUS b 1 = 0.22912 Jos maassa A on poltettu 1 savuke enemmän per capita kuin maassa B vuonna 1930, vuonna 1950 maassa A on tavattu n. 0.23 keuhkosyöpätapausta per 100 000 henkilöä enemmän kuin maassa B. TKK/SAL Ilkka Mellin (2005) 3/28

(c) Kertoimien hajonnat ja luottamusvälit Kertoimien hajonnat STD ERROR CONSTANT ˆD( b 0) = 48.9587 KULUTUS ˆD( b 1) = 0.06921 Luottamusväli Määrätään ensin 95 %:n luottamusväliin liittyvät luottamuskertoimet. Statistics > Probability Functions Function =T Inverse (p, df) P = 0.975 DF = 9 Results T Inverse(0.975, 9) = 2.26 Regressiosuoran kulmakertoimen β 1 95 %:n luottamusväli: b ± t ˆD( b) = 0.22912 ± 2.26 0.06921 = 0.22912 ± 0.15641 1 α /2 1 eli n. ( 0.07, 0.39) Huomaa, että luottamusväli on huomattavan leveä, koska havaintoja oli vain 11. (d) Estimoidun mallin selitysaste Selitysaste R-SQUARED R 2 = 0.5490 Estimoitu malli on selittänyt n. 55 % selitettävän muuttujan SAIRAST arvojen vaihtelusta. TKK/SAL Ilkka Mellin (2005) 4/28

(e) Kulmakertoimen tilastollinen merkitsevyys t-testi Nollahypoteesi: H 01 : β 1 = 0 t-testisuureen arvo STUDENT S T: t b Vastaava p-arvo P: 0.22912 1 1 = = = D( ˆ b1 ) 0.06912 p = 0.0091 3.31 Koska p < 0.01, nollahypoteesi H 01 voidaan hylätä 1 %:n merkitsevyystasolla. Johtopäätös: Suurempi tupakanpolton määrä lisää tilastollisesti merkitsevästi keuhkosyöpätapausten suhteellista lukumäärää. (f) Mallin tilastollinen merkitsevyys F-testi Nollahypoteesi: H 01 : β 1 = 0 F-testisuureen arvo F: Vastaava p-arvo P: 2 R F = ( n 2) = 10.96 2 1 R p = 0.0091 Koska p < 0.01, nollahypoteesi H 01 voidaan hylätä 1 %:n merkitsevyystasolla. Selvästi F = t 1 Yhden selittäjän regressiomallissa tavanomainen t-testi ja tässä käsitelty F-testi nollahypoteesille H 01 ovat ekvivalentteja. TKK/SAL Ilkka Mellin (2005) 5/28

2. REGRESSIOANALYYSIN TULOSTEN GRAAFINEN ANALYYSI Jatkoa tehtävälle 1. (a) Piirrä aineistosta pistediagrammi (KULUTUS, SAIRAST) ja siihen estimoitu regressiosuora. (b) Määrää estimoidusta mallista sovitteet yˆi ja residuaalit ei STATISTIX-ohjelman regressioanalyysiohjelmalla ja tallettamalla ne tiedostoon TUPAKKA muuttujiksi FIT (= sovite) ja RES (= residuaali). (c) (d) RATKAISU: (a) Piirrä pistediagrammit (SAIRAST, FIT) ja (FIT, RES). Tutki USA:n sijaintia kuviossa. Onko USA poikkeava havainto? PISTEDIAGRAMMI JA REGRESSIOSUORA Piirretään selitettävän muuttujan SAIRAST arvot selittäjän KULUTUS arvoja vastaan. Statistics > Summary Statistics > Scatter Plot X Axis Variables = KULUTUS Y Axis Variables = SAIRAST Display Regession Line 490 Scatter Plot of SAIRAST vs KULUTUS 400 SAIRAST 310 220 USA 130 40 100 500 900 1300 KULUTUS TKK/SAL Ilkka Mellin (2005) 6/28

(b) SOVITTEET JA RESIDUAALIT Talletetaan sovitteet yˆi (Fitted Value) ja residuaalit ei (Residual). Linear Regression Coefficient Table Results > Save Residuals Fitted Value = FIT Residual = RES STATISTIX FOR WINDOWS TUPAKKA CASE MAA KULUTUS SAIRAST FIT RES 1 Islanti 220 58 116.15423-58.15423 2 Norja 250 90 123.02769-33.02769 3 Ruotsi 310 115 136.77461-21.77461 4 Kanada 510 150 182.59767-32.59767 5 Tanska 380 165 152.81268 12.187314 6 Itavalta 455 170 169.99633 0.0036643 7 USA 1280 190 359.01648-169.0164 8 Hollanti 460 245 171.14191 73.858087 9 Sveitsi 530 250 187.17998 62.820014 10 Suomi 1115 350 321.21245 28.787541 11 GB 1145 465 328.08591 136.91408 (c) Pistediagrammit (Selitettävä, Sovite) ja (Sovite, Residuaali) Pistediagrammi (Selitettävä, Sovite) Piirretään sovitteet y selitettävän muuttujan SAIRAST arvoja vastaan. ˆi Statistics > Summary Statistics > Scatter Plot X Axis Variables = SAIRAST Y Axis Variables = FIT TKK/SAL Ilkka Mellin (2005) 7/28

Scatter Plot of FIT vs SAIRAST 360 310 USA 260 FIT 210 160 110 40 130 220 310 400 490 SAIRAST Diagrammi kuvaa mallin hyvyyttä: Malli on sitä parempi, mitä lähempänä pisteet ( y, yˆ ), i = 1, 2,, n ovat suoraa viivaa. Myös poikkeavat havainnot erottuvat usein selvästi. Huomaa, että pisteistä ( y, ˆ i yi), i = 1, 2,, n määrätty Pearsonin tulomomenttikorrelaatiokertoimen neliö on sama kuin selitysaste: Tarkista tämä! [ ] 2 2 Cor( yy, ˆ) = R i i Pistediagrammi (Sovite, Residuaali) Piirretään residuaalit e i sovitteita yˆi vastaan. Statistics > Summary Statistics > Scatter Plot X Axis Variables = FIT Y Axis Variables = RES TKK/SAL Ilkka Mellin (2005) 8/28

Scatter Plot of RES vs FIT 180 120 60 RES 0-60 USA -120-180 110 160 210 260 310 360 FIT Diagrammi kuvaa mallin hyvyyttä: Malli on sitä parempi, mitä lähempänä pisteet ( yˆ, e), i = 1, 2,, n ovat suoraa e = 0. Myös poikkeavat havainnot erottuvat usein selvästi. i i (d) Poikkeavat havainnot Kaikissa kohtien (a)-(c) diagrammeissa USA erottuu aika selvästi poikkeavana havaintona. 3. ENNUSTAMINEN YHDEN SELITTÄJÄN LINEAARISELLA REGRESSIOMALLILLA Jatkoa tehtävälle 1. (a) (b) (c) Määrää ennusteet ja luottamusvälit muuttujan SAIRAST arvolle, kun muuttuja KULUTUS saa arvot 600 ja 1400. Vertaa luottamusvälien pituuksia. Määrää ennusteet ja muuttujan SAIRAST odotettavissa olevalle arvolle, kun muuttuja KULUTUS saa arvot 600 ja 1400. Vertaa luottamusvälien pituuksia toisiinsa ja kohdan (a)-luottamusväleihin. Piirrä estimoidun regressioanalyysin tuloksien pohjalta luottamusvyöt muuttujan SAIRAST arvoille ja odotettavissa oleville arvoille. TKK/SAL Ilkka Mellin (2005) 9/28

RATKAISU: (a)&(b) Ennusteet selitettävän muuttujan arvoille ja odotettavissa oleville arvoille Ennuste 1 Ennustetaan keuhkosyöpätapausten lukumäärä ja odotettavissa oleva lukumäärä per 100 000 henkilöä vuonna 1950 maassa, jossa tupakan kulutus on ollut 600 savuketta per capita vuonna 1930. Linear Regression Coefficient Table Results > Prediction Specification Method = Values Method Independent Variables = KULUTUS Predictor Values = 600 STATISTIX FOR WINDOWS TUPAKKA PREDICTED/FITTED VALUES OF SAIRAST LOWER PREDICTED BOUND 4.4396 LOWER FITTED BOUND 145.83 PREDICTED VALUE 203.22 FITTED VALUE 203.22 UPPER PREDICTED BOUND 402.00 UPPER FITTED BOUND 260.61 SE (PREDICTED VALUE) 87.871 SE (FITTED VALUE) 25.368 UNUSUALNESS (LEVERAGE) 0.0909 PERCENT COVERAGE 95.0 CORRESPONDING T 2.26 PREDICTOR VALUES: KULUTUS = 600.00 Ennuste selitettävän muuttujan SAIRAST arvolle PREDICTED VALUE ( yx= ˆ " 600) = 203.22 Luottamusväli selitettävän muuttujan SAIRAST arvolle luottamustasolla 0.95 LOWER PREDICTED BOUND = 4.4396 UPPER PREDICTED BOUND = 402.00 SE (PREDICTED VALUE) = 87.871 (4.4396, 402.00) = 203.22 ± 2.26 87.871= 203.22 ± 198.59 TKK/SAL Ilkka Mellin (2005) 10/28

Ennuste selitettävän muuttujan SAIRAST odotettavissa olevalle arvolle FITTED VALUE ( yx= ˆ " 600) = 203.22 Luottamusväli selitettävän muuttujan SAIRAST odotettavissa olevalle arvolle luottamustasolla 0.95 LOWER FITTED BOUND = 145.83 UPPER FITTED BOUND = 260.61 SE (FITTED VALUE) = 25.368 (145.83, 260.61) = 203.22 ± 2.26 25.368= 203.22 ± 57.33 Luottamusväli selitettävän muuttujan SAIRAST arvolle on leveämpi kuin selitettävän muuttujan odotettavissa olevalle arvolle. Ennuste 2 Ennustetaan keuhkosyöpätapausten lukumäärä ja odotettavissa oleva lukumäärä per 100 000 henkilöä vuonna 1950 maassa, jossa tupakan kulutus on ollut 1400 savuketta per capita vuonna 1930. Linear Regression Coefficient Table Results > Prediction Specification Method = Values Method Independent Variables = KULUTUS Predictor Values = 1400 STATISTIX FOR WINDOWS TUPAKKA PREDICTED/FITTED VALUES OF SAIRAST LOWER PREDICTED BOUND 151.97 LOWER FITTED BOUND 249.44 PREDICTED VALUE 386.51 FITTED VALUE 386.51 UPPER PREDICTED BOUND 621.05 UPPER FITTED BOUND 523.58 SE (PREDICTED VALUE) 103.68 SE (FITTED VALUE) 60.591 UNUSUALNESS (LEVERAGE) 0.5187 PERCENT COVERAGE 95.0 CORRESPONDING T 2.26 PREDICTOR VALUES: KULUTUS = 1400.0 TKK/SAL Ilkka Mellin (2005) 11/28

Ennuste selitettävän muuttujan SAIRAST arvolle PREDICTED VALUE ( yx= ˆ " 1400) = 386.51 Luottamusväli selitettävän muuttujan SAIRAST arvolle luottamustasolla 0.95 LOWER PREDICTED BOUND = 151.97 UPPER PREDICTED BOUND = 621.05 SE (PREDICTED VALUE) = 103.68 386.51 ± 2.26 103.86 = 386.51 ± 234.72 = (151.97, 621.05) Luottamusväli selitettävän muuttujan SAIRAST arvolle on leveämpi kuin selitettävän muuttujan odotettavissa olevalle arvolle. Lisäksi luottamusväli selitettävän muuttuja SAIRAST arvolle on pisteessä 1400 leveämpi kuin pisteessä 600, koska piste 1400 on kauempana selittäjän KULUTUS havaittujen arvojen aritmeettisesta keskiarvosta kuin piste 600. (c) Luottamusvyöt Piirretään selitettävän muuttujan SAIRAST arvot selittäjän KULUTUS arvoja vastaan samaan kuvaan regressiosuoran ja selitettävän muuttujan arvojen ja odotettavissa olevien arvojen luottamusvöiden kanssa. Linear Regression Coefficient Table Results > Plots Simple Regression Plot TKK/SAL Ilkka Mellin (2005) 12/28

Simple Regression Plot 470 400 330 SAIRAST 260 190 120 50 100 400 700 1000 1300 KULUTUS SAIRAST = 65.749 + 0.2291 * KULUTUS 95% conf and pred intervals Luottamusvöistä leveämpi on selitettävän muuttujan SAIRAST arvon luottamusvyö ja kapeampi on selitettävän muuttujan SAIRAST odotettavissa olevan arvon luottamusvyö. 4. POIKKEAVIEN HAVAINTOJEN VAIKUTUS Jatkoa tehtäville 1 ja 3. Tehtävän 5.2. ratkaisussa esitettiin syitä, miksi USA voidaan sulkea analysoitavan aineiston ulkopuolelle. (a) (b) (c) Estimoi regressiomallin parametrit uudelleen jättämällä USA pois. Piirrä aineistosta pistediagrammi (KULUTUS, SAIRAST) ja siihen estimoitu regressiosuora sekä luottamusvyöt muuttujan SAIRAST arvoille ja odotettavissa oleville arvoille. Vertaa tuloksia tehtävissä 1 ja 3 saamiisi tuloksiin. Mitä on tapahtunut estimoidulle kulmakertoimelle, estimoidun mallin selitysasteelle ja ennusteiden luottamusvöille? TKK/SAL Ilkka Mellin (2005) 13/28

RATKAISU: (a) Parametrien estimointi Suljetaan USA estimoinnista pois. Data > Omit / Select / Restore Cases Omit / Select / Restore Expression Omit Case = 7 Estimoidaan mallin parametrit. Statistics > Linear Models > Linear Regression Dependent Variable = SAIRAST Independent Variables = KULUTUS STATISTIX FOR WINDOWS TUPAKKA UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF SAIRAST PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 13.5534 28.2671 0.48 0.6444 KULUTUS 0.35767 0.04547 7.87 0.0000 R-SQUARED 0.8855 RESID. MEAN SQUARE (MSE) 2018.03 ADJUSTED R-SQUARED 0.8712 STANDARD DEVIATION 44.9225 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 124883 124883 61.88 0.0000 RESIDUAL 8 16144.2 2018.03 TOTAL 9 141028 CASES INCLUDED 10 MISSING CASES 0 TKK/SAL Ilkka Mellin (2005) 14/28

(b) Luottamusvyöt Piirretään selitettävän muuttujan SAIRAST arvot selittäjän KULUTUS arvoja vastaan samaan kuvaan regressiosuoran ja selitettävän muuttujan arvojen ja odotettavissa olevien arvojen luottamusvöiden kanssa. Linear Regression Coefficient Table Results > Plots Simple Regression Plot 470 Simple Regression Plot 400 330 SAIRAST 260 190 120 50 200 400 600 800 1000 1200 KULUTUS SAIRAST = 13.553 + 0.3577 * KULUTUS 95% conf and pred intervals (c) Poikkeavan havainnon vaikutus USA Regressiosuoran kulmakerroin Estimoidun mallin selitysaste Mukana 0.23 0.55 Poistettu 0.36 0.89 Havainnon USA poistaminen on kasvattanut estimoidun regressiosuoran kulmakerrointa ja selitysastetta. USA kääntää mukana ollessaan estimoitua regressiosuoraa puoleensa ja pois muiden havaintojen muodostamasta lineaarisesta trendistä. Luottamusvyöt ovat ilman USA:ta selvästi kapeampia. TKK/SAL Ilkka Mellin (2005) 15/28

Johtopäätös: Malli todistaa tupakanpolton ja keuhkosyövän riippuvuudesta voimakkaammin, jos USA ei ole mukana estimoinnissa. 5. HYPOTEESIEN TESTAUS JA POIKKEAVIEN HAVAINTOJEN VAIKUTUS Ostovoimapariteetti-periaatteen mukaan muutokset kahden maan valuuttojen vaihtokurssissa tasapainottavat ennen pitkää maiden inflaatiovauhtien erot niin, että tehokkaassa kansainvälisessä taloudessa vaihtokurssit antavat kummallekin valuutalle omassa taloudessaan saman ostovoiman. Haluamme testata empiirisesti oletusta ostovoimapariteetti-periatteesta. Periaatetta voidaan testata estimoimalla eri maiden valuuttojen vaihtokurssien muutoksia ja inflaatiovauhtien erotuksia koskevista tiedoista regressioyhtälö jossa CEXCR = β 0 + β 1 CINFR + ε CEXCR = Keskimääräinen vuosimuutos vaihtokurssissa CINFR = Keskimääräisten vuotuisten inflaatiovauhtien erotus Ostovoimapariteetti-periaate vastaa tilastollisia hypoteeseja: H 00 : β 0 = 0 H 01 : β 1 = 1 STATISTIX-tiedostossa PPP on annettu seuraavat tiedot 44 maasta: CEXCR = Keskimääräinen vaihtokurssin vuosimuutos USA:n dollariin nähden CINFR = Keskimääräinen inflaatiovauhdin erotus USA:han verrattuna Tiedot on annettu kahdelta ajanjaksolta: (a) (b) (c) (d) (e) 1975-90: CEXCR75, CINFR75 1985-90: CEXCR85, CINFR85 Estimoi regressiomallin parametrit ajanjakson 1975-90 tiedoista. Testaa ym. hypoteeseja. Analysoi estimoituloksia graafisesti piirtämällä seuraavat kuviot: Selitettävä vastaan selittäjä plus regressiosuora luottamusväleineen Sovite vastaan selitettävä Residuaali vastaan sovite Rankit Plot residuaaleista Identifioi ulkopuolinen havainto. Toista kohdat (a)-(c) ilman kohdassa (d) identifioitua ulkopuolista havaintoa ja vertaa tuloksia. TKK/SAL Ilkka Mellin (2005) 16/28

(f) Toista kohdat (a)-(b) ilman kohdassa (d) identifioitua ulkopuolista havaintoa ajanjakson 1985-90 tiedoista. Testitulosten mukaan ostovoimapariteetti-periaate pätee pitkällä aikavälillä, mutta ei lyhyellä! Tämä on myös talousteorian mukainen tulos. RATKAISU: (a) Mallin estimointi ajanjakson 1975-90 tiedoista Selitettävä muuttuja (Dependent Variable) = CEXCR75 Selittävä muuttuja eli selittäjä (Independent Variable) = CINFR75 Statistics > Linear Models > Linear Regression Dependent Variable = CEXCR75 Independent Variables = CINFR75 STATISTIX FOR WINDOWS PPP UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF CEXCR75 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT -0.00928 0.42391-0.02 0.9826 CINFR75 1.01759 0.02685 37.89 0.0000 R-SQUARED 0.9716 RESID. MEAN SQUARE (MSE) 5.49359 ADJUSTED R-SQUARED 0.9709 STANDARD DEVIATION 2.34384 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 7888.57 7888.57 1435.96 0.0000 RESIDUAL 42 230.731 5.49359 TOTAL 43 8119.30 CASES INCLUDED 44 MISSING CASES 0 (b) Hypoteesien testaus Olkoon nollahypoteesina H 00 : β 0 = 0 Koska kertoimen β 0 (= CONSTANT) t-testisuureen arvoa 0.02 vastaava p-arvo on 0.9826, voidaan nollahypoteesi H 00 jättää voimaan. Olkoon nollahypoteesina H 01 : β 1 = 1 TKK/SAL Ilkka Mellin (2005) 17/28

Testisuureen arvo on t b β 1.01759 1 0.6551 1 10 1 = = = D( ˆ b1 ) 0.02685 Koska t-testisuureen arvoa 0.6551 vastaava p-arvo on 0.5160, voidaan nollahypoteesi H 01 jättää voimaan. Johtopäätös: Aineisto on sopusoinnussa ostovoimapariteetti-periaatteen kanssa. (c) Regressiografiikkaa Pistediagrammi (Selittäjä, Selitettävä) Piirretään selitettävän muuttujan CEXCR75 arvot selittäjän CINFR75 arvoja vastaan samaan kuvaan regressiosuoran ja selitettävän muuttujan arvojen ja odotettavissa olevien arvojen luottamusvöiden kanssa. Linear Regression Coefficient Table Results > Plots Simple Regression Plot 60 Simple Regression Plot 40 CEXCR75 20 0-20 -10 10 30 50 70 CINFR75 CEXCR75 = -9.28E-03 + 1.0176 * CINFR75 95% conf and pred intervals TKK/SAL Ilkka Mellin (2005) 18/28

Pistediagrammi (Selitettävä, Sovite) Talletetaan sovitteet y ˆi ja residuaalit ei. Linear Regression Coefficient Table Results > Save Residuals Fitted Value = FIT Residual = RES Piirretään sovitteet y ˆi selitettävän muuttujan arvoja yi vastaan. Statistics > Summary Statistics > Scatter Plot X Axis Variables = CEXCR75 Y Axis Variables = FIT 70 Scatter Plot of FIT vs CEXCR75 50 FIT 30 10-10 -20 0 20 40 60 CEXCR75 TKK/SAL Ilkka Mellin (2005) 19/28

Pistediagrammi (Sovite, Residuaali) Piirretään residuaalit e i sovitteita yˆi vastaan. Linear Regression Coefficient Table Results > Plots Std Resids by Fitted Values 5 Regression Residual Plot Standardized Residuals 3 1-1 -3-5 -10 10 30 50 70 Fitted values TKK/SAL Ilkka Mellin (2005) 20/28

Rankit plot -kuvio Linear Regression Coefficient Table Results > Plots Wilk-Shapiro/Rankit Plot 3 Wilk-Shapiro / Rankit Plot Standardized Residuals 1-1 -3-5 -3-2 -1 0 1 2 3 Rankits Approximate Wilk-Shapiro 0.7403 44 cases Wilkin ja Shapiron testisuureen arvo on 0.7403. 5 %:n merkitsevyystasoa vastaava kriittinen arvo on 0.944, joten nollahypoteesi normaalisuudesta joudutaan hylkäämään. (d) Poikkeavan havainnon identifiointi Nuolella yo. kuvioihin merkitty poikkeava havainto on havainto numero 21: Iran. TKK/SAL Ilkka Mellin (2005) 21/28

(e) Poikkeavan havainnon vaikutus Suljetaan IRAN estimoinnista pois. Data > Omit / Select / Restore Cases Omit / Select / Restore Expression Omit Case = 21 Estimoidaan mallin parametrit. Statistics > Linear Models > Linear Regression Dependent Variable = CEXCR75 Independent Variables = CINFR75 STATISTIX FOR WINDOWS PPP UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF CEXCR75 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT 0.22161 0.28340 0.78 0.4387 CINFR75 1.02133 0.01785 57.22 0.0000 R-SQUARED 0.9876 RESID. MEAN SQUARE (MSE) 2.42514 ADJUSTED R-SQUARED 0.9873 STANDARD DEVIATION 1.55729 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 7940.26 7940.26 3274.15 0.0000 RESIDUAL 41 99.4306 2.42514 TOTAL 42 8039.70 CASES INCLUDED 43 MISSING CASES 0 Hypoteesien testaus Olkoon nollahypoteesina H 00 : β 0 = 0 Koska kertoimen β 0 (= CONSTANT) t-testisuureen arvoa 0.78 vastaava p-arvo on 0.4387, voidaan nollahypoteesi H 00 jättää voimaan. TKK/SAL Ilkka Mellin (2005) 22/28

Olkoon nollahypoteesina H 01 : β 1 = 1 Testisuureen arvo on t b β 1.02133 1 1.19 1 10 1 = = = D( ˆ b1 ) 0.01785 Koska t-testisuureen arvoa 1.19 vastaava p-arvo on 0.2409, voidaan nollahypoteesi H 01 jättää voimaan. Johtopäätös: Aineisto on sopusoinnussa ostovoimapariteetti-periaatteen kanssa. Pistediagrammi (Selittäjä, Selitettävä) Piirretään selitettävän muuttujan CEXCR75 arvot selittäjän CINFR75 arvoja vastaan samaan kuvaan regressiosuoran ja selitettävän muuttujan arvojen ja odotettavissa olevien arvojen luottamusvöiden kanssa. Linear Regression Coefficient Table Results > Plots Simple Regression Plot 60 Simple Regression Plot 40 CEXCR75 20 0-20 -10 10 30 50 70 CINFR75 CEXCR75 = 0.2216 + 1.0213 * CINFR75 95% conf and pred intervals TKK/SAL Ilkka Mellin (2005) 23/28

Pistediagrammi (Selitettävä, Sovite) Talletetaan sovitteet y ˆi ja residuaalit ei. Linear Regression Coefficient Table Results > Save Residuals Fitted Value = FIT Residual = RES Piirretään sovitteet y ˆi selitettävän muuttujan arvoja yi vastaan. Statistics > Summary Statistics > Scatter Plot X Axis Variables = CEXCR75 Y Axis Variables = FIT 70 Scatter Plot of FIT vs CEXCR75 50 FIT 30 10-10 -20 0 20 40 60 CEXCR75 TKK/SAL Ilkka Mellin (2005) 24/28

Pistediagrammi (Sovite, Residuaali) Piirretään residuaalit e i sovitteita yˆi vastaan. Linear Regression Coefficient Table Results > Plots Std Resids by Fitted Values 2.7 Regression Residual Plot 1.8 Standardized Residuals 0.9 0.0-0.9-1.8-2.7-10 10 30 50 70 Fitted values TKK/SAL Ilkka Mellin (2005) 25/28

Rankit plot -kuvio Linear Regression Coefficient Table Results > Plots Wilk-Shapiro/Rankit Plot 2.8 Wilk-Shapiro / Rankit Plot Standardized Residuals 1.9 1.0 0.1-0.8-1.7-3 -2-1 0 1 2 3 Rankits Approximate Wilk-Shapiro 0.9271 43 cases Wilkin ja Shapiron testisuureen arvo on 0.9271. 5 %:n merkitsevyystasoa vastaava kriittinen arvo on 0.943, joten nollahypoteesi normaalisuudesta joudutaan hylkäämään, mutta ei niin voimakkaasti kuin silloin, kun Iran oli estimoitaessa mukana. Kun saatuja estimointituloksia ja tuloksia havainnollistavia diagrammeja verrataan niihin tuloksiin ja diagrammeihin, jotka on saatu, kun Iran on ollut estimoinnissa mukana, nähdään kuinka poikkeava havainto vaikuttaa selvästi estimointituloksiin ja digarammeihin. Iranin poikkeuksellisuus havaintona johtunee siitä, että ko. vuosina Iranissa tapahtui suuria mullistuksia: Shaahin kukistuminen ja fundamentalistisen hallituksen nousu valtaan. TKK/SAL Ilkka Mellin (2005) 26/28

(f) Mallin estimointi ajanjakson 1985-90 tiedoista Selitettävä muuttuja (Dependent Variable) = CEXCR85 Selittävä muuttuja eli selittäjä (Independent Variable) = CINFR85 Statistics > Linear Models > Linear Regression Dependent Variable = CEXCR85 Independent Variables = CINFR85 STATISTIX FOR WINDOWS PPP UNWEIGHTED LEAST SQUARES LINEAR REGRESSION OF CEXCR85 PREDICTOR VARIABLES COEFFICIENT STD ERROR STUDENT'S T P --------- ----------- --------- ----------- ------ CONSTANT -4.84027 0.92455-5.24 0.0000 CINFR85 1.17444 0.05599 20.98 0.0000 R-SQUARED 0.9148 RESID. MEAN SQUARE (MSE) 27.8478 ADJUSTED R-SQUARED 0.9127 STANDARD DEVIATION 5.27710 SOURCE DF SS MS F P ---------- --- ---------- ---------- ----- ------ REGRESSION 1 12253.6 12253.6 440.02 0.0000 RESIDUAL 41 1141.76 27.8478 TOTAL 42 13395.4 CASES INCLUDED 43 MISSING CASES 0 Hypoteesien testaus Olkoon nollahypoteesina H 00 : β 0 = 0 Koska kertoimen β 0 (= CONSTANT) t-testisuureen arvoa 5.24 vastaava p-arvo on neljällä desimaalilla 0.0000, voidaan nollahypoteesi H 00 hylätä. Olkoon nollahypoteesina H 01 : β 1 = 1 Testisuureen arvo on t b β 1.17444 1 3.12 1 10 1 = = = D( ˆ b1 ) 0.05599 Koska t-testisuureen arvoa 3.12 vastaava p-arvo on 0.0033, voidaan nollahypoteesi H 01 hylätä. Johtopäätös: Aineisto ei ole sopusoinnussa ostovoimapariteetti-periaatteen kanssa. TKK/SAL Ilkka Mellin (2005) 27/28

(f)-kohdassa saatu tulos ei liene ristiriidassa kohdassa (c) saatujen testitulosten kanssa, koska ostovoimapariteetin pitäisikin tulla esille vasta pitkällä aikavälillä. TKK/SAL Ilkka Mellin (2005) 28/28