Korrelaatiokertoinen määrittely 165

Samankaltaiset tiedostot
Regressioanalyysi. Vilkkumaa / Kuusinen 1

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Regressioanalyysi. Kuusinen/Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1

Todennäköisyyden ominaisuuksia

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Harjoitus 9: Excel - Tilastollinen analyysi

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

031021P Tilastomatematiikka (5 op) viikko 6

Väliestimointi (jatkoa) Heliövaara 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Testejä suhdeasteikollisille muuttujille

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Yleistetyistä lineaarisista malleista

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1

031021P Tilastomatematiikka (5 op) viikko 6

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Yleinen lineaarinen malli

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

1. Tilastollinen malli??

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Sovellettu todennäköisyyslaskenta B

HAVAITUT JA ODOTETUT FREKVENSSIT

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Testit laatueroasteikollisille muuttujille

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

Mat Tilastollisen analyysin perusteet, kevät 2007

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Johdatus regressioanalyysiin

Dynaamiset regressiomallit

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Tilastollinen aineisto Luottamusväli

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

031021P Tilastomatematiikka (5 op) viikko 5

9. laskuharjoituskierros, vko 12-13, ratkaisut

4.0.2 Kuinka hyvä ennuste on?

Estimointi. Vilkkumaa / Kuusinen 1

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Osa 2: Otokset, otosjakaumat ja estimointi

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

tilastotieteen kertaus

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

2. Keskiarvojen vartailua

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Mat Tilastollisen analyysin perusteet, kevät 2007

Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Sovellettu todennäköisyyslaskenta B

Havaitsevan tähtitieteen peruskurssi I. Datan käsittely. Jyri Lehtinen. kevät Helsingin yliopisto, Fysiikan laitos

Sovellettu todennäköisyyslaskenta B

Transkriptio:

kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Muuttujien X ja Y lineaarista riippuvuutta mittaa korrelaatiokerroin xy ( x)( y)/n r = ( x 2 ( ) ( x) 2 /n y 2 ( y) /n) 2 Tätä kutsutaan myös Pearsonin tulomomenttikorrelaatiokertoimeksi erotukseksi muista korrelaatiokertoimista.

kertoinen määrittely 166 Jos merkitään on SS xy = SS xx = SS yy = n (x i x)(y i ȳ) = i=1 n (x i x) 2 = i=1 n (y i ȳ) 2 = i=1 r = i=1 n n n x i y i ( x i )( y i )/n i=1 i=1 n n xi 2 ( x i ) 2 /n n i=1 y 2 i ( i=1 n y i ) 2 /n i=1 SS xy SSxx SS yy i=1

kertoimen ominaisuuksia 167 1) 1 r 1 2) kerroin r mittaa muuttujien välistä lineaarista riippuvuutta. Jos r < 0, muuttujien välillä on negatiivista riippuvuutta: suuriin x-arvoihin liittyy yleensä pieni y-arvo ja pieniin x-arvoihin suuri y-arvo. Jos r > 0, muuttujienvälillä on positiivista riippuvuutta: suuriin x-arvoihin liittyy yleensä suuri y-arvo ja pieniin x-arvoihin pieni y-arvo. Jos r 0, muuttujien välillä ei ole lineaarista riippuvuutta. Jos r = 1, havaintopisteet ovat samalla suoralla, jonka kulmakerroin on positiivinen. Jos r = 1, havaintopisteet ovat samalla suoralla, jonka kulmakerroin on negatiivinen.

kertoimen ominaisuuksia 168 3) kertoimen arvo on riippumaton käytetystä mitta-asteikosta, ts. se ei muutu, vaikka muuttuja-arvoille tehdään lineaarinen muunnos. Esimerkkejä: a) positiivinen korrelaatio b) negatiivinen korrelaatio c) ei korrelaatiota

Tarkastellaan, kuinka tietyn elintarvikkeen rikkiyhdistepitoisuus Y riippuu säilytysajasta X. Havainnot (n = 6): x y 0.5 1.5 1.2 2.6 1.5 1.3 2.0 2.5 2.5 2.0 2.6 3.6 x = 10.3, x 2 = 20.95, y = 13.5, y 2 = 33.91, xy = 25.18 SS xy = 25.18 10.3 13.5/6 = 2.005 SS xx = 20.95 10.3 2 /6 = 3.268 SS yy = 33.91 13.5 2 /6 = 3.535 r = 2.005 3.268 3.535 = 0.5899 0.59

n merkitsevyys 170 Koska r on otossuure, sen arvosta ei voida suoraan päätellä, onko muuttujien välillä todellista riippuvuutta vai ei. Jos otos on pieni, korrelaatiokerroin voi sattuman vaikutuksesta näyttää suurelta, vaikka muuttujilla ei olisi mitään tekemistä toistensa kanssa. Satunnaismuuttujien X ja Y yhteisjakaumaan perustuva lineaarisen korrelaation kerroin on ρ = σ xy σ x σ y missä σ xy = E((X µ x )(Y µ y )) = E(XY ) µ x µ y on muuttujien X ja Y kovarianssi.

n merkitsevyys 171 Teoreettinen korrelaatiokerroin ρ on koko populaatiota koskeva, yleensä tuntematon parametri, jonka estimaattori on otoskorrelaatiokerroin r. n testaus koskee parametria ja testisuure perustuu otossuureeseen r. Hypoteesi: H 0 : ρ = 0 (ei lineaarista riippuvuutta) Testisuure: H 1 : ρ 0 (on lineaarinen riippuvuus) T = r n 2 t(n 2) 1 r 2 Hylkäysehto: Hypoteesi H 0 hylätään riskitasolla, jos t > t 1 α/2 (n 2). Sama P-arvon avulla: P = P(T > t ) + P(T < t ) Hypoteesi H 0 hylätään riskitasolla α, jos P < α.

n merkitsevyys 172 n testaus tehdään yleensä kaksisuuntaisena. Jos riippuvuus voi periaatteessa olla vain yhdensuuntaista (joko positiivista tai negatiivista), tehdään yksisuuntainen testaus, jolloin hypoteesit ovat H 0 : ρ = 0 (ei lin. riippuvuutta) Hylkäysehto: H1 : ρ > 0 (positiivinen lin. riippuvuus) t > t 1 α (n 2) tai H 0 : ρ = 0 (ei lin. riippuvuutta) Hylkäysehto: H 1 : ρ < 0 (negatiivinen lin. riippuvuus) t < t 1 α (n 2)

Kasvaako elintarvikkeen rikkiyhdistepitoisuus säilytysajan myötä eli onko muuttujien välillä positiivinen korrelaatio? H 0 : ρ = 0 H 1 : ρ > 0 kertoimen arvo r = 0.59, otoskoko n=6. Testisuureen arvo: t = r n 2 = 0.59 6 2 = 1.46 1 r 2 1 0.59 2 Olkoon valittu riskitaso α = 0.05, krittinen arvo t 1 α (n 2) = t 0.95 (4) = 2.13 Koska t < t 0.95 (4), niin H 0 jää voimaan eli säilytysajan ja rikkiyhdistepitoisuuden välillä ei voida todeta merkitsevää positiivista korrelaatiota.

Otoskoon merkitys 174 Minkä suuruinen korrelaatio on merkitsevä kaksisuuntaisessa testissä esim. tasolla α = 0.05 eri n:n arvoilla? n r vähintään 10 0.632 20 0.444 100 0.196 VAROITUS: Havaittu tilastollinen riippuvuus ei välttämättä merkitse suoraa syy-seuraus-suhdetta muuttujien välillä! Kyseessä voi olla molempiin muuttujiin yhdessä vaikuttava kolmas tekijä tai useampia tekijöitä. Em. varoitus koskee myös χ 2 -riippumattomuustestiä ja regressioanalyysia.

Regressioanalyysi 175 Regressioanalyysin tavoitteena on kuvata ja analysoida selitettävän eli riippuvan muuttujan Y riippuvuutta selittävistä eli riippumattomista muuttujista X 1, X 2,..., X k. Lineaarinen regressiomalli: Y = β 0 + β 1 X 1 +... + β k X }{{ k + } }{{} ɛ deterministinen osa satunnaisosa parametrit β 0, β 1,..., β k ovat tuntemattomia vakioita jäännöstermi eli residuaali on satunnaismuuttuja selittävät muuttujat X j voivat olla satunnaismuuttujia tai niiden arvot voidaan määrätä kontrolloidusti, jolloin niitä merkitään x 1, x 2,..., x k.

Regressioanalyysin vaiheet 176 1. Mallin muodostaminen: selittävien muuttujien valinta ja riippuvuutta kuvaavan funktion valinta. 2. Mallin parametrien estimointi. 3. Satunnaisvaihtelun estimointi (satunnaistermin jakauma ja parametrit). 4. Mallin parametrien ja/tai yhteensopivuuden testaus. 5. Mallilla ennustaminen

Yhden selittävän muuttujan lineaarinen regressioanalyysi 177 Tutkitaan muuttujan Y lineaarista riippuvuutta yhdestä selittävästä muuttujasta x. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Malli: Y = β 0 + β 1 x + ɛ missä β 0 on vakiotermi ja β 1 regressiokerroin Eri havaintoihin i = 1,..., n liittyvät jäännöstermit ɛ i ovat riippumattomia, samoin jakautuneita ja E(ɛ i ) = 0, D 2 (ɛ i ) = σ 2 kaikilla i Jos mallia käytetään tilastolliseen päättelyyn, esim. testaukseen, oletetaan, että ɛ i N(0, σ 2 ).

Regressiomallin parametrien estimointi pienimmän neliösumman menetelmällä 178 Merkitään estimaattoreita ˆβ 0 = b 0 ja ˆβ 1 = b 1. Estimaattorit pyritään määräämään siten, että havaitut arvot sopivat mahdollisimman hyvin mallin antamiin arvoihin ŷ i = b 0 + b 1 x i. Tämä saadaan aikaan minimoilla jäännösneliösummaa SSE = n (y i ŷ i ) 2 = i=1 n (y i b 0 b 1 x i ) 2 i=1 parametrien b 0 ja b 1 funktiona. Minimissä osittaisderivaattojen arvot ovat nollia.

Regressiomallin parametrien estimointi pienimmän neliösumman menetelmällä 179 SSE b 0 = 2 SSE b 1 = 2 josta saadaan normaaliyhtälöt: n (y i b 0 b 1 x i ) = 0 i=1 n (y i b 0 b 1 x i )x i = 0 i=1 nb 0 + ( x i )b 1 = y i ( x i )b 0 + ( x 2 i )b 1 = x i y i Normaaliyhtälöiden ratkaisuna saadaan kertoimien pienimmän neliösumman estimaatit eli pns-estimaatit

Pienimmän neliösumman estimaatit eli pns-estimaatit 180 n n n x i y i ( x i )( y i )/n i=1 i=1 i=1 β 1 = b 1 = = n n SS xy SS xi 2 ( x i ) 2 xx /n ( i=1 i=1 n ) β 0 = b 0 = 1 n y i b 1 x i = ȳ b 1 x n i=1 Sovitettu regressiosuora: ŷ = b 0 + b 1 x antaa ennusteet Y :lle x:n funktiona. Havaintopisteittäin lasketut sovitteet ovat ŷ i = b 0 + b 1 x i ja havaitut poikkeamat eli jäännökset e i = y i ŷ i. i=1

Vaihtelun tutkiminen 181 Regressioanalyysin tavoitteena on Y :n vaihtelun syiden tutkiminen. Poikkeamien y i ȳ neliösumma (y i ȳ) 2, joka kuvaa Y :n kokonaisvaihtelua, voidaan hajoittaa komponentteihin: (yi ȳ) 2 = (ŷ i ȳ) 2 + (y i ŷ i ) 2 eli SST = SSD + SSE SST = (y i ȳ) 2 = y 2 ( y i ) 2 /n = SS yy on selitettävän kokonaisneliösumma SSD = (ŷ i ȳ) 2 = b 1 (xi x)(y i ȳ) = b 1 SS xy = b 1 (xi x) 2 = b 1 SS xx = SS 2 xy/ss xx on selitetty neliösumma SSE = (y i ŷ i ) 2 = (y i b 0 b 1 x i ) 2 = SST SSD on jäännösneliösumma, virheneliösumma

Vaihtelun tutkiminen 182 Regressiomallin sopivuutta havaintoaineistoon kuvaa mallin selitysaste R 2 = SSD SST joka on mallin selittämä osuus y-arvojen vaihtelusta. Selitysasteen neliöjuuri, yhteiskorrelaatiokerroin R = SSD/SST on y i -arvojen ja ŷ i -arvojen välinen korrelaatiokerroin. Yhden selittävän muuttujan tapauksessa R = r xy.

Vaihtelun tutkiminen 183 Selitysaste on välillä 0 R 2 1. Jos lineaarinen malli sopii hyvin aineistoon eli havaintopisteet lähellä regressiosuoraa, SSE 0 ja R 2 = SSD SST = SST SSE SST = 1 SSE SST on lähellä ykköstä Satunnaisvirheen ɛ varianssin eli jäännösvarianssin σ 2 harhaton estimaatti on otoksesta laskettu jäännösvarianssi s = jäännöshajonta, s 2 = SSE n 2

Mallin parametrien luottamusvälit ja testaus 184 Kertoimien β 0 ja β 1 estimaattorit ˆβ 0 = b 0 ja ˆβ 1 = b 1 ovat satunnaismuuttujia, joiden voidaan osoittaa noudattavan jakaumia b 1 N(β 1, σ 2 /SS xx ) b 0 N(β 0, σ 2 x 2 i /(nss xx)) Korvaamalla σ 2 estimaatillaan s 2 = SSE/(n 2) saadaan hajontaestimaatit s(b 1 ) = s SSxx s(b 0 ) = s x 2 i nss xx 1 = s n + x2 SS xx Voidaan osoittaa, että T = b j β j s(b j ) t(n 2), j = 0, 1

Mallin parametrien luottamusvälit ja testaus 185 Luottamusvälit: Parametrien β 0 ja β 1 (1 α)100% luottamusvälit ovat β j = b j ± t 1 α/2 (n 2)s(b j ), j = 0, 1 : H 0 : β j = b H 1 : β j b Missä j = 0 tai 1 ja b testattava lukuarvo, yleensä 0. Testisuure: T = b j b s(b j ) t(n 2) Olkoon testisuureen laskettu arvo t. H 0 hylätään riskitasolla α, jos t > t 1 α/2 (n 2). Yksisuuntaiset hypoteesit vastaavasti, käyttäen toispuoleisista hylkäysrajaa.

Tutkitaan vannesahan tehonkulutuksen Y riippuvuutta sahattavan kappaleen paksuudesta x. Havainnot (n = 6): x y 3 2.0 6 2.3 x = 48.0 x 2 = 444.0 7 4.0 y = 22.2 y 2 = 90.74 xy = 198.3 9 3.8 10 5.0 13 5.1 SS xy = 198.3 48 22.2/6 = 20.7 SS xx = 444 48 2 /6 = 60.0 SS yy = 90.74 22.2 2 /6 = 8.60 Kertoimien pns-estimaatit: b 1 = SS xy /SS xx = 20.7/60 = 0.3450 b 0 = ȳ b 1 x = (22.2 0.3450 48)/6 = 0.9400 SST = SS yy = 8.6 SSD = SS xy /SS xx = 7.1415 SSE = SST SSD = 1.4585

Selitysaste: R 2 = 0.83 Jäännösvarianssi: s 2 = SSE/(n 2) = 1.4585/4 = 0.3646 s 2 Hajontaestimaatit: s(b 1 ) = = 0.0780 SS xx s 2 x 2 s(b 0 ) = = 0.6706 nss xx 95%:n luottamusvälit, t 0.975 (4) = 2.776 β 0 = 0.9400 ± 2.776 0.6706 = 0.9400 ± 1.8616 β 1 = 0.3450 ± 2.776 0.0780 = 0.3450 ± 0.2164

Testataan riskitasolla α = 0.05 hypoteesiparit H 1) 0 : β 0 = 1 H 1 : β 0 < 1 Testisuureen arvo t = b 0 1 s(b 0 ) = 0.94 1 0.6706 = 0.089 2) Kriittinen arvo: t 0.95 (4) = 2.132 Koska t > t 0.95 (4), niin H 0 jää voimaan H 0 : β 1 = 0 H 1 : β 1 0 Testisuureen arvo t = b 1 0 s(b 1 ) = 0.3450 0 = 4.426 0.0780 Kriittinen arvo: t 0.975 (4) = 2.776 Koska t > t 0.975 (4), niin H 0 hylätään

Ennusteet ja niiden luottamusvälit 189 Mallin Y = β 0 + β 1 x + ɛ antama ennuste, kun x:llä on kiinteä arvo a, on ŷ = b 0 + b 1 a. 1) Y:n odotusarvon eli regressiosuoran luottamusrajat Y :n odotusarvo,kun x = a, on µ = EY = β 0 + β 1 a ja µ:n piste-estimaatti on ŷ = b 0 + b 1 a = ȳ + b 1 (a x) 1 Ennusteen hajontaestimaatti: s(ŷ) = s n + (a x)2 SS xx Satunnaismuuttuja y µ s(y) t(n 2), josta saadaan (1 α)100% luottamusväli Y : n odotusarvolle µ = β 0 + β 1 a eli regressiosuoran luottamusrajat pisteessä x = a. 1 (a x)2 1 (a x)2 µ = ŷ±t 1 α/2 (n 2)s + = b 0 +b 1 a±t n SS 1 α/2 (n 2)s + xx n SS xx

Ennusteet ja niiden luottamusvälit 190 2) Y:n arvon eli yksittäisen ennusteen luottamusrajat Y :n arvon luottamusväli mallin Y = β 0 + β 1 x + ɛ puitteissa perustuu satunnaismuuttujaan Y ŷ = µ ŷ + ɛ Hajontaestimaatti: s(y ŷ) = s 1 + 1 n + (a x)2 SS xx Satunnaismuuttuja Y y s(y y) t(n 2), josta saadaan (1 α)100% luottamusväli Y :lle eli yksittäisin ennusteen luottamusrajat pisteessä x = a. µ = ŷ ± t 1 α/2 (n 2)s 1 + 1 n + (a x)2 SS xx

Regressiomalli 191 Lineaarinen regressiomalli on muotoa Y = β 0 + β 1 x 1 + β 2 x 2 +... + β k x k + ɛ Selittävät muuttujat x j voivat olla havaintoarvoja sellaisinaan, niiden logaritmeja, potensseja tms. funktioita. Satunnaisvirheen ɛ oletetaan noudattavan normaalijakaumaa, jonka odotusarvo on 0 ja varianssi on vakio σ 2

Regressiomallin kertoimien estimointi 192 Jos regressiomallin kertoimille annetaan arvot (b 0,..., b k ), voidaan Y :n havaitut arvot lausua y 1 = b 0 + b 1 x 11 +... + b k x 1k + e 1 y 2 = b 0 + b 1 x 21 +... + b k x 2k + e 2. y n = b 0 + b 1 x n1 +... + b k x nk + e n Sovitettu malli on ŷ = b 0 + b 1 x 1 +... + b k x k ja e i = y i ŷ i ovat havaitut jäännökset eli residuaalit

Regressiomallin kertoimien estimointi 193 Otetaan käyttöön seuraavat matriisimerkinnät: 1 x 11 x 12... x 1k 1 x 21 x 22... x 2k X =......., Y = 1 x n1 x n2... x nk Yhtälöt voidaan kirjoittaa muotoon Y = X b + ē y 1 y 2. y n, b = b 1 b 2. b n

Regressiomallin kertoimien estimointi 194 Kertoimien β j estimaatit määrätään etsimällä yhtälöistä kertoimille b j sellaiset arvot, jotka minivoivat poikkeamien neliösumman eli jäännösneliösumman SSE = ei 2 = (y i ŷ i ) 2 n = (y i b 0 b 1 x i1... b k x ik ) 2 t=1 Minimi löydetään merkitsemällä osittaisderivaatat nolliksi: SSE b j = 0, j = 0,..., k

Regressiomallin kertoimien estimointi 195 Ehto tuottaa kertoimien b j määräämiseksi muotoa A x = ū olevan yhtälöryhmän, joka tapauksessa k=2 saa seuraavan muodon n xi1 xi2 b 0 xi1 x 2 yi i1 xi1 x i2 b 1 = xi1 y i xi2 xi1 x i2 x 2 i2 b 2 xi2 y i Matriisimerkinnöin nämä normaaliyhtälöt voidaan ilmaista X X b = X Y Ratkaisuksi saadaan kerroinestimaatit b = ˆβ = (X X ) 1 X Y

Satunnaisvaihtelun varianssin estimointi 196 Regressiomallin satunnaisvirheen ɛ varianssille σ 2 voidaan johtaa estimaatti ˆσ 2 = s 2 = SSE n k 1 Jäännösneliösumman SSE lauseke voidaan laskemista varten saattaa muotoon SSE = y 2 i = Y Y b X Y b 0 yi b 1 xi1 y i... b k xik y i

Mallin sopivuuden tutkiminen 197 Regressiomallin kykyä selittää havaittuja Y :n arvoja voidaan tutkia vertaamalla jäännösneliösummaa SSE havaittuun Y :n kokonaisvaihtelun neliösummaan SST = (y i ȳ) 2 = y 2 i + 1 n ( y i ) 2 ja selitettyyn neliösummaan SSD = SST SSE Regressiomallin sopivuutta havaintoaineistoon kuvastaa selitysaste R 2 = SSD SST = SST SSE SST

Mallin sopivuuden tutkiminen 198 Mallin tilastollista merkitsevyyttä voidaan arvioida testaamalla hypoteeseja H 0 : β 1 = β 2 =... = β k = 0 H 1 : β j 0, joillakin j = 1,..., k SSD/k Testisuure: F = F (k, n k 1) SSE/(n k 1) Jos F > F 1 α (k, n k 1), niin H 0 hylätään riskitasolla α.

Regressiokertoimien testaus 199 Saadut regressiokertoimien estimaatit b j = ˆβ j ovat satunnaismuuttujien arvoja. Laskemalla voidaan todeta, että estimaattori b j = ˆβ j noudattaa normaalijakaumaa N(β, σ 2 v jj, missä v jj on matriisin V = (X X ) 1 j:s lävistäjäalkio. Muotoa H 0 : β j = b olevaa hypoteesia voidaan siten testata suureen T = b j b s v jj t(n k 1) avulla. Mikäli hypoteesit on asetettu muotoon H 0 : β j = 0, H 1 : β j 0, hylätään H 0 riskitasolla α, mikäli b j /(s v jj ) > t 1 α/2 (n k 1)

Tekstiilitehtaassa tutkittiin kankaan värjäävyyttä Y kun vaihdeltiin värjäysliuoksen lämpötilaa X 1 ja kiuotusaikaa X 2. Värjäävyyttä mitattiin kankaaseen absorboituneen väriaineen määrän mukaan. Mittaustulokset olivat seuraavat: X 1 ( o C) X 2 (min) Y (mg) 80 15 100 90 15 106 100 20 134 80 30 125 90 45 149 100 45 168 Sovitetaan aineistoon kahden selittävän muuttujan lineaarista regressiomallia Y = β 0 + β 1 X 1 + β 2 X 2 + ɛ A) Estimoi mallin parametrit (myös jäännösvarianssi). B) Laske mallin selitysaste ja yhteiskorrelaatiokerroin. C) Testaa regression merkitsevyys F-testillä. D) Mikä ennuste imeytyneen väriaineen määrälle, jos liuoksen lämpötila on 95 ja liuotusiaika 25 min?

A) Estimoi mallin parametrit (myös jäännösvarianssi). Y = β 0 + β 1 X 1 + β 2 X 2 + ɛ Normaaliyhtälöt X Xb = X Y n = 6 k = 2 X = 1 80 15 1 90 15 1 100 20 1 80 30 1 90 45 1 100 45 X X = = Y = xi1 100 106 134 125 149 168 xi2 n xi1 xi2 x 2 i1 xi1 x i2 xi1 x i2 x 2 i2 6 540 170 540 49000 15500 170 15500 5800

X Y = yi xi1 y i xi2 y i Normaaliyhtälöt 6 540 170 540 49000 15500 170 15500 5800 Ratkaisu = b 0 b 1 b 2 b = ˆβ = (X X ) 1 (X Y ) = SST = SS yy = y 2 ( y) 2 n 782 71150 23785 = 19.4575 1.22123 1.40755 782 71150 23785 = 105242 7822 6 = 3321.33333

SSE = Y Y bx Y = y 2 (b 0 b 1 b 2 ) 782 71150 23785 = 105242 + 19.4575 782 1.23123 71150 1.40755 23785 = 88.67375 y SSD = b X 2 Y = SST SSE = 3232.65958 n Jäännösvarianssi s 2 = SSE n k 1 = 88.67375 = 29.56 3 s = 5.44 B)Laske mallin selitysaste ja yhteiskorrelaatiokerroin. Selitysaste R 2 = SSD = 0.97330 0.97 SST Yhteiskorrelaatiokerroin R = 0.98656

C) Testaa regression merkitsevyys F-testillä. H 0 : β 1 = β 2 = 0 (Malli ei selitä) H 1 : ainakin toinen β 0 (Malli selittää) Testisuure: SSD/k F = SSE/(n k 1) = 3232.65958/2 88.67375/(6 2 1) = 54.68 Kriit. arvo tasolla α = 0.05F 0.95 (k, n k 1) = F 0.95 (2, 3) = 9.55 Kriit. arvo tasolla α = 0.01F 0.99 (2, 3) = 30.81 F > F 0,99 H 0 hylätään : malli selittää merkitsevästi värjäävyyttä Y D) Mikä ennuste imeytyneen väriaineen määrälle, jos liuoksen lämpötila on 95 ja liuotusiaika 25 min? Kun, x 1 = 95 C, x 2 = 25min ennuste ŷ = b 0 + b 1 95 + b 2 25 = 131.75mg