Mat Tilastollisen analyysin perusteet, kevät 2007

Samankaltaiset tiedostot
Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Johdatus regressioanalyysiin. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Harjoitus 9: Excel - Tilastollinen analyysi

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Yleinen lineaarinen malli

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

2. Teoriaharjoitukset

Lohkoasetelmat. Heliövaara 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Korrelaatiokertoinen määrittely 165

Lohkoasetelmat. Kuusinen/Heliövaara 1

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1

Väliestimointi (jatkoa) Heliövaara 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Dynaamiset regressiomallit

Yleistetyistä lineaarisista malleista

Mat Tilastollisen analyysin perusteet, kevät 2007

Osa 2: Otokset, otosjakaumat ja estimointi

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Estimointi. Vilkkumaa / Kuusinen 1

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Johdatus regressioanalyysiin

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Sovellettu todennäköisyyslaskenta B

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Tilastollinen aineisto Luottamusväli

Vastepintamenetelmä. Heliövaara 1

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Sovellettu todennäköisyyslaskenta B

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Yleinen lineaarinen malli. Yleinen lineaarinen malli. Yleinen lineaarinen malli: Mitä opimme? 2/4. Yleinen lineaarinen malli: Mitä opimme?

Kertausluento. Vilkkumaa / Kuusinen 1

Moniulotteisia todennäköisyysjakaumia

Sovellettu todennäköisyyslaskenta B

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Testit järjestysasteikollisille muuttujille

1. Tilastollinen malli??

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Harjoitus 3: Regressiomallit (Matlab)

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Testejä suhdeasteikollisille muuttujille

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Regressiodiagnostiikka ja regressiomallin valinta

Sovellettu todennäköisyyslaskenta B

Todennäköisyyden ominaisuuksia

Harha mallin arvioinnissa

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Regressiodiagnostiikka ja regressiomallin valinta

2.1. Parametrien estimointi 2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista

Testit laatueroasteikollisille muuttujille

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Mat Tilastollisen analyysin perusteet, kevät 2007

Harjoitus 3: Regressiomallit (Matlab)

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

tilastotieteen kertaus

Harjoitus 7: NCSS - Tilastollinen analyysi

Sovellettu todennäköisyyslaskenta B

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Transkriptio:

Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1

Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen arvojen vaihtelu halutaan selittää selittävien muuttujien havaittujen arvojen vaihtelun avulla Oletetaan muuttujien välille lineaarinen tilastollinen riippuvuus y j = β 0 + β1x j1+ β x j + L+ β k x jk + ε j, j = 1,, K, n Usean selittäjän lineaarinen regressiomalli y j = selitettävän y satunnainen ja havaittu arvo havaintoyksikössä j x ji = selittäjän x i ei-satunnainen ja havaittu arvo havaintoyksikössä j, i= 1,, k ε j = jäännös- eli virhetermin ε satunnainen ja ei-havaittu arvo havaintoyksikössä j β 0 = vakioselittäjän regressiokerroin, ei-satunnainen ja tuntematon vakio β i = selittäjän x i regressiokerroin, i=1,,k, ei-satunnainen ja tuntematon vakio Kai Virtanen

Standardioletukset Standardioletukset => mallin analysointiin voidaan käyttää tavanomaisia estimointi- ja testausmenetelmiä (i) (ii) Selittäjien x i arvot x ji ovat kiinteitä eli ei-satunnaisia vakioita, j = 1,,, n, i = 1,,, k Selittäjien välillä ei ole lineaarisia riippuvuuksia (iii) E(ε j ) = 0, j = 1,,, n (iv) Var(ε j ) = σ, j = 1,,, n (v) Cor(ε j, ε l ) = 0, j l (vi) ε j ~ N(0, σ ), j = 1,,, n Kai Virtanen 3

Standardioletukset (i), (ii) ja (iii) (i) Selittäjien x i arvot x ji ovat kiinteitä eli ei-satunnaisia vakioita, j=1,,,n, i=1,,,k Peruste kurssilla esiteltävälle teorialle Rajoittava, toteutuu käytännössä vain kun selittäjien arvot voidaan valita (puhtaat koeasetelmat) Esitettävää teoriaa voidaan soveltaa jos sopivat lisäehdot pätevät satunnaisille selittäjille (multinormaalijakauma) (ii) Selittäjien välillä ei ole lineaarisia riippuvuuksia Jos selittäjä riippuu lineaarisesti muista selittäjistä, se on selittäjänä redundantti ja voidaan poistaa mallista Pienimmän neliösumman menetelmä tuottaa regressiokertoimille yksikäsitteiset estimaattorit (iii) E(ε j ) = 0, j=1,,,n Kaikilla jäännöstermeillä sama odotusarvo Mallissa ei ole systemaattista virhettä Kai Virtanen 4

Standardioletukset (iv), (v) ja (vi) (iv) Var(ε j ) = σ, j=1,,,n Kaikilla jäännöstermeillä sama varianssi Jos oletus pätee, jäännöstermit homoskedastisia muuten heteroskedastisia Heteroskedastisuus => regressiokertoimien estimaattorit tehottomia Voidaan testata tilastollisesti (v) Cor(ε j, ε l ) = 0, j l Jäännöstermit eivät korreloi keskenään Korreloituneisuus => regressiokertoimien estimaattorit tehottomia ja harhaisia Voidaan testata tilastollisesti (vi) ε j ~ N(0, σ ), j=1,,,n Jäännöstermit normaalijakautuneita Voidaan testata tilastollisesti. Kai Virtanen 5

Regressiomallin Mallin parametrit y j = β 0 + β1x j1+ β x j + L+ β k x jk + ε j, j = 1,, K, n parametreja ovat - regressiokertoimet β 0, β 1, β,, β k - jäännöstermienε j varianssi (jäännösvarianssi) ε j σ j n Var( ) =, = 1,, K, Parametrit yleensä tuntemattomia Parametrit estimoitava muuttujien x 1, x,, x k ja y havaituista arvoista Kai Virtanen 6

Usean selittäjän lineaarisen regressiomallin matriisiesitys Yleinen lineaarinen malli voidaan esittää muodossa y = Xβ + ε jossa y = selitettävän muuttujan y havaittujen arvojen muodostama satunnainen n-vektori X = selittäjien x 1, x,, x k havaittujen arvojen ja ykkösten muodostama n (k + 1)-matriisi β = regressiokertoimien muodostama tuntematon ja kiinteä eli ei-satunnainen (k + 1)-vektori ε = jäännöstermien muodostama ei-havaittu ja satunnainen n-vektori Kai Virtanen 7

Odotusarvovektori ja kovarianssimatriisi Olkoon z = (z 1, z,, z p ) satunnaismuuttujien z 1, z,, z p muodostama p-vektori Satunnaisvektorin z odotusarvovektori µ on µ = E( z) = (E( ), E( ), K, E( )) jossa i. alkio on satunnaismuuttujan z i odotusarvo Satunnaisvektorin z kovarianssimatriisi Σ on jossa i. rivin ja j. sarakkeen alkio on satunnaismuuttujien z i ja z j kovarianssi z1 z z p µ = E( z ), i= 1,, K, p i i [ ] Σ = Cov( z) = E ( z E( z))( z E( z)) σ = Cov( z, z ) ij i j = E ( zi E( zi ))( z j E( z j )) Kai Virtanen 8

Standardioletukset matriisimuodossa Regressiomallin (k selittäjää, k+1 regressiokerrointa) y = Xβ standardioletukset matriisimuodossa: (i) Matriisin X alkiot ovat kiinteitä eli ei-satunnaisia vakioita (ii) Matriisi X on täysiasteinen, r(x) = k + 1 (iii) E(ε) = 0 (iv)&(v) + ε - r on matriisin rankki (= lineaarisesti riippumattomien sarakkeiden tai rivien lukumäärä) Cov(ε) = σ I (vi) ε N n (0, σ I) Kai Virtanen 9

Regressiokertoimien PNS-estimointi Regressiokertoimet estimoidaan pienimmän neliösumman (PNS-) menetelmällä Minimoidaan jäännöstermienε j neliösumma n n ε j = ( y j β 0 β1x j1 β x j L β k x jk ) j= 1 j= 1 regressiokertoimien suhteen Derivointi regressiokertoimien suhteen ja derivaatat nolliksi => => Lineaariseen yhtälöryhmä, k+1 yhtälöä ja k+1 tuntematonta => PNS-estimaattorit b 0, b 1, b,, b k Yhtälöryhmällä on ratkaisu, jos standardioletus (ii) r(x) = k + 1 pätee Kai Virtanen 10

Estimaattoreiden matriisiesitys Olkoon y = Xβ + ε standardioletuksen (ii) toteuttava malli Regressiokertoimien vektorin β PNS-estimaattori on b= ( X X) 1 X y Jos standardioletukset (i)-(v) pätevät E( b) = β 1 Cov( b) = σ ( X X) Koska E(b) = β => PNS-estimaattori on regressiokertoimien vektorin harhaton estimaattori Jos standardioletukset (i)-(vi) pätevät ~ ( 1 σ ) b N β, ( X X) k+ 1 Kai Virtanen 11

Sovitteet ja residuaalit Sovite: Estimoidun mallin selitettävälle muuttujalle y antama arvo havaintopisteessä ( x, x, K, x ) j1 j jk yˆ j = b0 + b1 x j 1+ b x j + L+ b k x jk, j = 1,, K, n Residuaali: Selitettävän muuttujan y havaitun arvon y j ja sovitteen erotus e = y yˆ = y b b x b x L b x j j j j 0 1 j1 j k jk, j = 1,, K, n Jos standardioletukset (i)-(v) pätevät E( y ) = β + β x + β x + L+ β x, j = 1,, K, n ˆ j 0 1 j 1 j k jk E( e ) = 0, j = 1,, K, n j Kai Virtanen 1

Sovitteet, residuaalit ja regressiomallin hyvyys Sovitteiden ja residuaalien käyttö regressiomallin hyvyyden tutkimisessa: (i) (ii) Regressiomalli selittää selitettävän muuttujan havaittujen arvojen vaihtelun sitä paremmin mitä lähempänä estimoidun mallin sovitteet ovat selitettävän muuttujan havaittuja arvoja Regressiomalli selittää selitettävän muuttujan havaittujen arvojen vaihtelun sitä paremmin mitä pienempiä ovat estimoidun mallin residuaalit Kai Virtanen 13

Jäännösvarianssin estimointi Jos standardioletukset (i)-(v) pätevät, jäännösvarianssin Var(ε j ) = σ harhaton estimaattori on jossa e j n = = estimoidun mallin residuaali, j=1,,,n havaintojen lukumäärä k = selittäjien x i lukumäärä Estimaattori s on residuaalien e j varianssi, koska => s 1 n = e j n k 1 j= 1 1 1 s e e e n ( ) n = j = j n k 1 j= 1 n k 1 j= 1 e n 1 = e = 0 n i = 1 i Kai Virtanen 14

Estimoitu regressiotaso Regressiomallin regressiokertoimien estimaattorit b 0, b 1, b,, b k määrittelevät tason y= b + b x + b x + L+ b x 0 1 1 k k Estimoitu regressiotaso Jäännösvarianssin σ estimaattori s kuvaa havaintopisteiden k+ 1 ( j1, j, K, jk, j ) R, = 1,, K, x x x y j n vaihtelua estimoidun regressiotason ympärillä Kai Virtanen 15

Varianssianalyysihajotelma Regressiomallin hyvyys varianssianalyysihajotelma Varianssianalyysihajotelmassa Kokonaisneliösumma SST = Mallineliösumma SSM + Jäännösneliösumma SSE selitettävän arvojen vaihtelua kuvaava SST esitetään kahden osatekijän SSM ja SSE summana (i) (ii) SSM kuvaa sitä osaa selitettävän vaihtelusta, jonka estimoitu malli on selittänyt SSE kuvaa sitä osaa selitettävä vaihtelusta, jota estimoitu malli ei ole selittänyt Kai Virtanen 16

Varianssianalyysihajotelman neliösummat Selitettävän havaittujen arvojen vaihtelua mitataan kokonaisneliösummalla SST = ( y j y) Residuaalien vaihtelua mitataan jäännösneliösummalla SSE n j= 1 j= 1 Sovitteiden vaihtelua mitataan mallineliösummalla n = n j= 1 e j SSM = ( yˆ j y) Kai Virtanen 17

Selitysaste Varianssianalyysihajotelmasta regressiomallin hyvyyden mittariksi selitysaste R SSE SSM = 1 = SST SST Mittaa regressiomallin selittämää osuutta selitettävän muuttujan kokonaisvaihtelusta 0 R 1 Kts. selitysasteen muut ominaisuudet 6. luennon kalvoilta Huom! Unohda totuus selitettävän ja selittäjän välisestä korrelaatiokertoimesta!!!! Malliin uusia selittäjiä => selitysaste kasvaa (tai ei ainakaan pienene) => ei voida käyttää mallin valinnassa!! Vrt. korjattu selitysaste, luento nro. 10 Kai Virtanen 18

Yhteiskorrelaatio ja osittaiskorrelaatio [ ] R = Cor( y, yˆ ) jossa Cor( y, yˆ ) on selitettävän muuttujan ja sovitteiden otoskorrelaatiokerroin, yhteiskorrelaatiokerroin Selittävät korreloivat yleensä enemmän ja vähemmän keskenään => suora korrelaatio r yxi ei anna oikeaa kuvaa muuttujien yhteispelistä Harhaton kuva korrelaatiosta osittaiskorrelaatio x p :n ja y:n osittaiskorrelaatiokerroin: (1) Muodosta mallit y=b 0 +b 1 x 1 +...+b p-1 x p-1 ja x p =a 0 +a 1 x 1 +...+a p-1 x p-1 () Laske residuaalit e i =y i -b 0 -b 1 x 1i... ja f i =x pi -a 0 -a 1 x 1i... (3) Laske residuaalien korrelaatiokerroin r ef = osittaiskorrelaatiokerroin Kai Virtanen 19

Päättely usean selittäjän lineaarisesta regressiomallista Regressiokerroin b i lähellä nollaa => y ei riipu x i :stä kaukana nollasta => y ei riippuu x i :stä merkki => riippuvuuden suunta, + / - x i kasvaa yhden yksikön => y kasvaa b i Selitysaste R lähellä nollaa => ei riippuvuutta, malli ei selitä alkuunkaan selitettävän muuttujan vaihtelua lähellä ykkästä => riippuvuus, malli selittää hyvin selitettävän muuttajan vaihtelun Mitä tarkoittaa lähellä / kaukana? Ratkaisu: regressiokertoimien luottamusvälit yleistesti regression olemassaololle testit regressiokertoimille Selitettävän ennustaminen annetulla selittäjän arvolla yksittäisen arvon ja keskimääräisen arvon ennuste ja luottamusväli Selittäjien tärkeysjärjestys Kai Virtanen 0

Regressiokertoimien luottamusvälit Jos jäännöstermien standardioletukset ok, regressiokertoimien PNS-estimaattorit normaalijakautuneita Jakaumien avulla luottamusvälit Regressiokertoimen β i (k+1 kpl) luottamusväli luottamustasolla (1 α) jossa b ˆD( i ± tα / bi ) - b i = regressiokertoimen β i estimaattori -±t α/ = luottamustasoa (1 α) vastaavat luottamuskertoimet, t-jakautuneet vapausastein n k 1 1 ˆD ( b ) = s ( X X) - i = regressiokertoimen estimaattorin i+ 1, i+ 1 varianssin estimaattori, s = jäännösvarianssin estimaattori Kai Virtanen 1

Nollahypoteesi Yleistesti regression olemassaololle Ekvivalentisti R =0 Nollahypoteesi pätee => selitettävä muuttuja ei riipu yhdestäkään selittäjästä Nollahypoteesi ei päde => selitettävä muuttuja riippuu ainakin yhdestä selittäjästä F-testisuure (F-jakauma, vapausasteet k ja n-k-1) jossa F H 0 : β1 = β = L= β k = 0 n k 1 R n k 1 SSM k 1 R k SSE = = R = estimoidun mallin selitysaste SSM = estimoidun mallin mallineliösumma SSE = estimoidun mallin jäännösneliösumma Testisuureen normaaliarvo noin yksi p-arvo = P(F > testisuureen arvo) Suuri testisuureen arvo / pieni p-arvo => nollahypoteesi ei päde Kai Virtanen

Nollahypoteesi Testit regressiokertoimille Nollahypoteesi H 00 ok => mallissa ei vakiota Nollahypoteesi H 0i, i=1,,,k ok => selitettävä muuttuja y ei riipu selittäjästä x i Nollahypoteesi H 0i, i=1,,,k ei päde => selitettävä muuttuja y riippuu selittäjästä x i t-testisuureet (t-jakautunut, vapausasteet n k 1) bi ti =, i = 0,1,, K, k ˆD( b ) jossa H 0i : β i = 0, i= 0,1,, K, k b i = regressiokertoimen β i estimaattori ˆD ( b i ) Testisuureen normaaliarvo nolla i = regressiokertoimen β i estimaattorin varianssin estimaattori Itseisarvoltaan suuri testisuure / pieni p-arvo => H 0i hylkyyn Vaihtoehtoinen hypoteessi voi olla yksi- tai kaksisuuntainen Kai Virtanen 3

Ennustaminen usean selittäjän lineaarisella regressiomallilla Tavoitteena ennustaa selitettävää muuttujaa y y% = β + β x% + β x% + L + β x% + % ε kun selittävät muuttujat x 1, x,, x k saavat arvot Kaksi ajatusmallia: (i) (ii) 0 1 1 k k x% 1, x%, K, x% k Ennustetaan selitettävän muuttujan y odotettavissa oleva eli keskimääräinen arvo Ennustetaan selitettävän muuttujan y yksittäinen arvo Kai Virtanen 4

y:n odotusarvon ja y:n yksittäisen arvon luottamusvälit Odotusarvon luottamusväli luottamustasolla (1 α) b0 b1 x1 b x b x t / s ( ) Yksittäisen arvon luottamusväli luottamustasolla (1 α) Edellä t α/ ja +t α/ luottamustason (1 α) luottamuskertoimet, t-jakautuneet vapausastein n k 1 s jäännösvarianssin estimaattori 1 + % + % + L+ k % k ± α z% X X z% b0 + b1 x1 + b x + + b x ± t / s 1 + ( ) 1 % % L k % k α z% X X z% z% = (1, %,%,,% ) x1 x K x k 1 1 Kai Virtanen 5

y:n arvon luottamusvyö vs. y:n odotusarvon luottamusvyö Luottamusvälit muodostavat selittäjien arvojen funktiona luottamusvyön estimoidun regressiotason ympärille Yksittäisen arvon luottamusvyö on leveämpi kuin odotettavissa olevan arvon luottamusvyö Keskimääräisen arvon ennustaminen on helpompaa kuin yksittäisen arvon ennustaminen Yksittäisen arvon luottamusvälissä otetaan huomioon mittausvirhe / koevirhe, joka poistuu keskiarvoistamalla Kumpaa käytännössä käytetään? Philosööffinen kysymys vrt. löpinä luennolla nro. 7 Kai Virtanen 6

Selittävien muuttujien keskinäinen tärkeys Selittävät muuttujat usein fysikaalisesti eri laatuja => regressiokertoimien arvoilla suuria eroja Mitkä selittäjät ovat tärkeimpiä / mitkä selittäjät vaikuttavat selittäjään eniten? Osittaiskorrelaatiot Uusi regressiomalli, standardoidut muuttujat: Alkuperäiset havainnot (y i,x 1i,...,x ki ), i=1,...,n Käytetään alkuperäisiä selitettävän arvoja y i Uudet selittäjien arvot z ji =(x ji -x j )/s j, j=1,...,k, i=1,...,n, jossa x j ja s j muuttujan x j havainnoista laskettu keskiarvo ja keskihajonta Uusi regressiomalli datalle (y i,z 1i,...,z ki ), i=1,...,n Uudet selittäjät laaduttomia suureita Regressikertoimien itseisarvot kuvaavat selittäjien keskinäistä tärkeyttä Olennaisten tilastollisten tunnuslukujen arvot säilyvät alkuperäisinä, esim. selitysaste Kai Virtanen 7