kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Muuttujien X ja Y lineaarista riippuvuutta mittaa korrelaatiokerroin xy ( x)( y)/n r = ( x 2 ( ) ( x) 2 /n y 2 ( y) /n) 2 Tätä kutsutaan myös Pearsonin tulomomenttikorrelaatiokertoimeksi erotukseksi muista korrelaatiokertoimista.
kertoinen määrittely 166 Jos merkitään on SS xy = SS xx = SS yy = n (x i x)(y i ȳ) = i=1 n (x i x) 2 = i=1 n (y i ȳ) 2 = i=1 r = i=1 n n n x i y i ( x i )( y i )/n i=1 i=1 n n xi 2 ( x i ) 2 /n n i=1 y 2 i ( i=1 n y i ) 2 /n i=1 SS xy SSxx SS yy i=1
kertoimen ominaisuuksia 167 1) 1 r 1 2) kerroin r mittaa muuttujien välistä lineaarista riippuvuutta. Jos r < 0, muuttujien välillä on negatiivista riippuvuutta: suuriin x-arvoihin liittyy yleensä pieni y-arvo ja pieniin x-arvoihin suuri y-arvo. Jos r > 0, muuttujienvälillä on positiivista riippuvuutta: suuriin x-arvoihin liittyy yleensä suuri y-arvo ja pieniin x-arvoihin pieni y-arvo. Jos r 0, muuttujien välillä ei ole lineaarista riippuvuutta. Jos r = 1, havaintopisteet ovat samalla suoralla, jonka kulmakerroin on positiivinen. Jos r = 1, havaintopisteet ovat samalla suoralla, jonka kulmakerroin on negatiivinen.
kertoimen ominaisuuksia 168 3) kertoimen arvo on riippumaton käytetystä mitta-asteikosta, ts. se ei muutu, vaikka muuttuja-arvoille tehdään lineaarinen muunnos. Esimerkkejä: a) positiivinen korrelaatio b) negatiivinen korrelaatio c) ei korrelaatiota
Tarkastellaan, kuinka tietyn elintarvikkeen rikkiyhdistepitoisuus Y riippuu säilytysajasta X. Havainnot (n = 6): x y 0.5 1.5 1.2 2.6 1.5 1.3 2.0 2.5 2.5 2.0 2.6 3.6 x = 10.3, x 2 = 20.95, y = 13.5, y 2 = 33.91, xy = 25.18 SS xy = 25.18 10.3 13.5/6 = 2.005 SS xx = 20.95 10.3 2 /6 = 3.268 SS yy = 33.91 13.5 2 /6 = 3.535 r = 2.005 3.268 3.535 = 0.5899 0.59
n merkitsevyys 170 Koska r on otossuure, sen arvosta ei voida suoraan päätellä, onko muuttujien välillä todellista riippuvuutta vai ei. Jos otos on pieni, korrelaatiokerroin voi sattuman vaikutuksesta näyttää suurelta, vaikka muuttujilla ei olisi mitään tekemistä toistensa kanssa. Satunnaismuuttujien X ja Y yhteisjakaumaan perustuva lineaarisen korrelaation kerroin on ρ = σ xy σ x σ y missä σ xy = E((X µ x )(Y µ y )) = E(XY ) µ x µ y on muuttujien X ja Y kovarianssi.
n merkitsevyys 171 Teoreettinen korrelaatiokerroin ρ on koko populaatiota koskeva, yleensä tuntematon parametri, jonka estimaattori on otoskorrelaatiokerroin r. n testaus koskee parametria ja testisuure perustuu otossuureeseen r. Hypoteesi: H 0 : ρ = 0 (ei lineaarista riippuvuutta) Testisuure: H 1 : ρ 0 (on lineaarinen riippuvuus) T = r n 2 t(n 2) 1 r 2 Hylkäysehto: Hypoteesi H 0 hylätään riskitasolla, jos t > t 1 α/2 (n 2). Sama P-arvon avulla: P = P(T > t ) + P(T < t ) Hypoteesi H 0 hylätään riskitasolla α, jos P < α.
n merkitsevyys 172 n testaus tehdään yleensä kaksisuuntaisena. Jos riippuvuus voi periaatteessa olla vain yhdensuuntaista (joko positiivista tai negatiivista), tehdään yksisuuntainen testaus, jolloin hypoteesit ovat H 0 : ρ = 0 (ei lin. riippuvuutta) Hylkäysehto: H1 : ρ > 0 (positiivinen lin. riippuvuus) t > t 1 α (n 2) tai H 0 : ρ = 0 (ei lin. riippuvuutta) Hylkäysehto: H 1 : ρ < 0 (negatiivinen lin. riippuvuus) t < t 1 α (n 2)
Kasvaako elintarvikkeen rikkiyhdistepitoisuus säilytysajan myötä eli onko muuttujien välillä positiivinen korrelaatio? H 0 : ρ = 0 H 1 : ρ > 0 kertoimen arvo r = 0.59, otoskoko n=6. Testisuureen arvo: t = r n 2 = 0.59 6 2 = 1.46 1 r 2 1 0.59 2 Olkoon valittu riskitaso α = 0.05, krittinen arvo t 1 α (n 2) = t 0.95 (4) = 2.13 Koska t < t 0.95 (4), niin H 0 jää voimaan eli säilytysajan ja rikkiyhdistepitoisuuden välillä ei voida todeta merkitsevää positiivista korrelaatiota.
Otoskoon merkitys 174 Minkä suuruinen korrelaatio on merkitsevä kaksisuuntaisessa testissä esim. tasolla α = 0.05 eri n:n arvoilla? n r vähintään 10 0.632 20 0.444 100 0.196 VAROITUS: Havaittu tilastollinen riippuvuus ei välttämättä merkitse suoraa syy-seuraus-suhdetta muuttujien välillä! Kyseessä voi olla molempiin muuttujiin yhdessä vaikuttava kolmas tekijä tai useampia tekijöitä. Em. varoitus koskee myös χ 2 -riippumattomuustestiä ja regressioanalyysia.
Regressioanalyysi 175 Regressioanalyysin tavoitteena on kuvata ja analysoida selitettävän eli riippuvan muuttujan Y riippuvuutta selittävistä eli riippumattomista muuttujista X 1, X 2,..., X k. Lineaarinen regressiomalli: Y = β 0 + β 1 X 1 +... + β k X }{{ k + } }{{} ɛ deterministinen osa satunnaisosa parametrit β 0, β 1,..., β k ovat tuntemattomia vakioita jäännöstermi eli residuaali on satunnaismuuttuja selittävät muuttujat X j voivat olla satunnaismuuttujia tai niiden arvot voidaan määrätä kontrolloidusti, jolloin niitä merkitään x 1, x 2,..., x k.
Regressioanalyysin vaiheet 176 1. Mallin muodostaminen: selittävien muuttujien valinta ja riippuvuutta kuvaavan funktion valinta. 2. Mallin parametrien estimointi. 3. Satunnaisvaihtelun estimointi (satunnaistermin jakauma ja parametrit). 4. Mallin parametrien ja/tai yhteensopivuuden testaus. 5. Mallilla ennustaminen
Yhden selittävän muuttujan lineaarinen regressioanalyysi 177 Tutkitaan muuttujan Y lineaarista riippuvuutta yhdestä selittävästä muuttujasta x. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Malli: Y = β 0 + β 1 x + ɛ missä β 0 on vakiotermi ja β 1 regressiokerroin Eri havaintoihin i = 1,..., n liittyvät jäännöstermit ɛ i ovat riippumattomia, samoin jakautuneita ja E(ɛ i ) = 0, D 2 (ɛ i ) = σ 2 kaikilla i Jos mallia käytetään tilastolliseen päättelyyn, esim. testaukseen, oletetaan, että ɛ i N(0, σ 2 ).
Regressiomallin parametrien estimointi pienimmän neliösumman menetelmällä 178 Merkitään estimaattoreita ˆβ 0 = b 0 ja ˆβ 1 = b 1. Estimaattorit pyritään määräämään siten, että havaitut arvot sopivat mahdollisimman hyvin mallin antamiin arvoihin ŷ i = b 0 + b 1 x i. Tämä saadaan aikaan minimoilla jäännösneliösummaa SSE = n (y i ŷ i ) 2 = i=1 n (y i b 0 b 1 x i ) 2 i=1 parametrien b 0 ja b 1 funktiona. Minimissä osittaisderivaattojen arvot ovat nollia.
Regressiomallin parametrien estimointi pienimmän neliösumman menetelmällä 179 SSE b 0 = 2 SSE b 1 = 2 josta saadaan normaaliyhtälöt: n (y i b 0 b 1 x i ) = 0 i=1 n (y i b 0 b 1 x i )x i = 0 i=1 nb 0 + ( x i )b 1 = y i ( x i )b 0 + ( x 2 i )b 1 = x i y i Normaaliyhtälöiden ratkaisuna saadaan kertoimien pienimmän neliösumman estimaatit eli pns-estimaatit
Pienimmän neliösumman estimaatit eli pns-estimaatit 180 n n n x i y i ( x i )( y i )/n i=1 i=1 i=1 β 1 = b 1 = = n n SS xy SS xi 2 ( x i ) 2 xx /n ( i=1 i=1 n ) β 0 = b 0 = 1 n y i b 1 x i = ȳ b 1 x n i=1 Sovitettu regressiosuora: ŷ = b 0 + b 1 x antaa ennusteet Y :lle x:n funktiona. Havaintopisteittäin lasketut sovitteet ovat ŷ i = b 0 + b 1 x i ja havaitut poikkeamat eli jäännökset e i = y i ŷ i. i=1
Vaihtelun tutkiminen 181 Regressioanalyysin tavoitteena on Y :n vaihtelun syiden tutkiminen. Poikkeamien y i ȳ neliösumma (y i ȳ) 2, joka kuvaa Y :n kokonaisvaihtelua, voidaan hajoittaa komponentteihin: (yi ȳ) 2 = (ŷ i ȳ) 2 + (y i ŷ i ) 2 eli SST = SSD + SSE SST = (y i ȳ) 2 = y 2 ( y i ) 2 /n = SS yy on selitettävän kokonaisneliösumma SSD = (ŷ i ȳ) 2 = b 1 (xi x)(y i ȳ) = b 1 SS xy = b 1 (xi x) 2 = b 1 SS xx = SS 2 xy/ss xx on selitetty neliösumma SSE = (y i ŷ i ) 2 = (y i b 0 b 1 x i ) 2 = SST SSD on jäännösneliösumma, virheneliösumma
Vaihtelun tutkiminen 182 Regressiomallin sopivuutta havaintoaineistoon kuvaa mallin selitysaste R 2 = SSD SST joka on mallin selittämä osuus y-arvojen vaihtelusta. Selitysasteen neliöjuuri, yhteiskorrelaatiokerroin R = SSD/SST on y i -arvojen ja ŷ i -arvojen välinen korrelaatiokerroin. Yhden selittävän muuttujan tapauksessa R = r xy.
Vaihtelun tutkiminen 183 Selitysaste on välillä 0 R 2 1. Jos lineaarinen malli sopii hyvin aineistoon eli havaintopisteet lähellä regressiosuoraa, SSE 0 ja R 2 = SSD SST = SST SSE SST = 1 SSE SST on lähellä ykköstä Satunnaisvirheen ɛ varianssin eli jäännösvarianssin σ 2 harhaton estimaatti on otoksesta laskettu jäännösvarianssi s = jäännöshajonta, s 2 = SSE n 2
Mallin parametrien luottamusvälit ja testaus 184 Kertoimien β 0 ja β 1 estimaattorit ˆβ 0 = b 0 ja ˆβ 1 = b 1 ovat satunnaismuuttujia, joiden voidaan osoittaa noudattavan jakaumia b 1 N(β 1, σ 2 /SS xx ) b 0 N(β 0, σ 2 x 2 i /(nss xx)) Korvaamalla σ 2 estimaatillaan s 2 = SSE/(n 2) saadaan hajontaestimaatit s(b 1 ) = s SSxx s(b 0 ) = s x 2 i nss xx 1 = s n + x2 SS xx Voidaan osoittaa, että T = b j β j s(b j ) t(n 2), j = 0, 1
Mallin parametrien luottamusvälit ja testaus 185 Luottamusvälit: Parametrien β 0 ja β 1 (1 α)100% luottamusvälit ovat β j = b j ± t 1 α/2 (n 2)s(b j ), j = 0, 1 : H 0 : β j = b H 1 : β j b Missä j = 0 tai 1 ja b testattava lukuarvo, yleensä 0. Testisuure: T = b j b s(b j ) t(n 2) Olkoon testisuureen laskettu arvo t. H 0 hylätään riskitasolla α, jos t > t 1 α/2 (n 2). Yksisuuntaiset hypoteesit vastaavasti, käyttäen toispuoleisista hylkäysrajaa.
Tutkitaan vannesahan tehonkulutuksen Y riippuvuutta sahattavan kappaleen paksuudesta x. Havainnot (n = 6): x y 3 2.0 6 2.3 x = 48.0 x 2 = 444.0 7 4.0 y = 22.2 y 2 = 90.74 xy = 198.3 9 3.8 10 5.0 13 5.1 SS xy = 198.3 48 22.2/6 = 20.7 SS xx = 444 48 2 /6 = 60.0 SS yy = 90.74 22.2 2 /6 = 8.60 Kertoimien pns-estimaatit: b 1 = SS xy /SS xx = 20.7/60 = 0.3450 b 0 = ȳ b 1 x = (22.2 0.3450 48)/6 = 0.9400 SST = SS yy = 8.6 SSD = SS xy /SS xx = 7.1415 SSE = SST SSD = 1.4585
Selitysaste: R 2 = 0.83 Jäännösvarianssi: s 2 = SSE/(n 2) = 1.4585/4 = 0.3646 s 2 Hajontaestimaatit: s(b 1 ) = = 0.0780 SS xx s 2 x 2 s(b 0 ) = = 0.6706 nss xx 95%:n luottamusvälit, t 0.975 (4) = 2.776 β 0 = 0.9400 ± 2.776 0.6706 = 0.9400 ± 1.8616 β 1 = 0.3450 ± 2.776 0.0780 = 0.3450 ± 0.2164
Testataan riskitasolla α = 0.05 hypoteesiparit H 1) 0 : β 0 = 1 H 1 : β 0 < 1 Testisuureen arvo t = b 0 1 s(b 0 ) = 0.94 1 0.6706 = 0.089 2) Kriittinen arvo: t 0.95 (4) = 2.132 Koska t > t 0.95 (4), niin H 0 jää voimaan H 0 : β 1 = 0 H 1 : β 1 0 Testisuureen arvo t = b 1 0 s(b 1 ) = 0.3450 0 = 4.426 0.0780 Kriittinen arvo: t 0.975 (4) = 2.776 Koska t > t 0.975 (4), niin H 0 hylätään
Ennusteet ja niiden luottamusvälit 189 Mallin Y = β 0 + β 1 x + ɛ antama ennuste, kun x:llä on kiinteä arvo a, on ŷ = b 0 + b 1 a. 1) Y:n odotusarvon eli regressiosuoran luottamusrajat Y :n odotusarvo,kun x = a, on µ = EY = β 0 + β 1 a ja µ:n piste-estimaatti on ŷ = b 0 + b 1 a = ȳ + b 1 (a x) 1 Ennusteen hajontaestimaatti: s(ŷ) = s n + (a x)2 SS xx Satunnaismuuttuja y µ s(y) t(n 2), josta saadaan (1 α)100% luottamusväli Y : n odotusarvolle µ = β 0 + β 1 a eli regressiosuoran luottamusrajat pisteessä x = a. 1 (a x)2 1 (a x)2 µ = ŷ±t 1 α/2 (n 2)s + = b 0 +b 1 a±t n SS 1 α/2 (n 2)s + xx n SS xx
Ennusteet ja niiden luottamusvälit 190 2) Y:n arvon eli yksittäisen ennusteen luottamusrajat Y :n arvon luottamusväli mallin Y = β 0 + β 1 x + ɛ puitteissa perustuu satunnaismuuttujaan Y ŷ = µ ŷ + ɛ Hajontaestimaatti: s(y ŷ) = s 1 + 1 n + (a x)2 SS xx Satunnaismuuttuja Y y s(y y) t(n 2), josta saadaan (1 α)100% luottamusväli Y :lle eli yksittäisin ennusteen luottamusrajat pisteessä x = a. µ = ŷ ± t 1 α/2 (n 2)s 1 + 1 n + (a x)2 SS xx
Regressiomalli 191 Lineaarinen regressiomalli on muotoa Y = β 0 + β 1 x 1 + β 2 x 2 +... + β k x k + ɛ Selittävät muuttujat x j voivat olla havaintoarvoja sellaisinaan, niiden logaritmeja, potensseja tms. funktioita. Satunnaisvirheen ɛ oletetaan noudattavan normaalijakaumaa, jonka odotusarvo on 0 ja varianssi on vakio σ 2
Regressiomallin kertoimien estimointi 192 Jos regressiomallin kertoimille annetaan arvot (b 0,..., b k ), voidaan Y :n havaitut arvot lausua y 1 = b 0 + b 1 x 11 +... + b k x 1k + e 1 y 2 = b 0 + b 1 x 21 +... + b k x 2k + e 2. y n = b 0 + b 1 x n1 +... + b k x nk + e n Sovitettu malli on ŷ = b 0 + b 1 x 1 +... + b k x k ja e i = y i ŷ i ovat havaitut jäännökset eli residuaalit
Regressiomallin kertoimien estimointi 193 Otetaan käyttöön seuraavat matriisimerkinnät: 1 x 11 x 12... x 1k 1 x 21 x 22... x 2k X =......., Y = 1 x n1 x n2... x nk Yhtälöt voidaan kirjoittaa muotoon Y = X b + ē y 1 y 2. y n, b = b 1 b 2. b n
Regressiomallin kertoimien estimointi 194 Kertoimien β j estimaatit määrätään etsimällä yhtälöistä kertoimille b j sellaiset arvot, jotka minivoivat poikkeamien neliösumman eli jäännösneliösumman SSE = ei 2 = (y i ŷ i ) 2 n = (y i b 0 b 1 x i1... b k x ik ) 2 t=1 Minimi löydetään merkitsemällä osittaisderivaatat nolliksi: SSE b j = 0, j = 0,..., k
Regressiomallin kertoimien estimointi 195 Ehto tuottaa kertoimien b j määräämiseksi muotoa A x = ū olevan yhtälöryhmän, joka tapauksessa k=2 saa seuraavan muodon n xi1 xi2 b 0 xi1 x 2 yi i1 xi1 x i2 b 1 = xi1 y i xi2 xi1 x i2 x 2 i2 b 2 xi2 y i Matriisimerkinnöin nämä normaaliyhtälöt voidaan ilmaista X X b = X Y Ratkaisuksi saadaan kerroinestimaatit b = ˆβ = (X X ) 1 X Y
Satunnaisvaihtelun varianssin estimointi 196 Regressiomallin satunnaisvirheen ɛ varianssille σ 2 voidaan johtaa estimaatti ˆσ 2 = s 2 = SSE n k 1 Jäännösneliösumman SSE lauseke voidaan laskemista varten saattaa muotoon SSE = y 2 i = Y Y b X Y b 0 yi b 1 xi1 y i... b k xik y i
Mallin sopivuuden tutkiminen 197 Regressiomallin kykyä selittää havaittuja Y :n arvoja voidaan tutkia vertaamalla jäännösneliösummaa SSE havaittuun Y :n kokonaisvaihtelun neliösummaan SST = (y i ȳ) 2 = y 2 i + 1 n ( y i ) 2 ja selitettyyn neliösummaan SSD = SST SSE Regressiomallin sopivuutta havaintoaineistoon kuvastaa selitysaste R 2 = SSD SST = SST SSE SST
Mallin sopivuuden tutkiminen 198 Mallin tilastollista merkitsevyyttä voidaan arvioida testaamalla hypoteeseja H 0 : β 1 = β 2 =... = β k = 0 H 1 : β j 0, joillakin j = 1,..., k SSD/k Testisuure: F = F (k, n k 1) SSE/(n k 1) Jos F > F 1 α (k, n k 1), niin H 0 hylätään riskitasolla α.
Regressiokertoimien testaus 199 Saadut regressiokertoimien estimaatit b j = ˆβ j ovat satunnaismuuttujien arvoja. Laskemalla voidaan todeta, että estimaattori b j = ˆβ j noudattaa normaalijakaumaa N(β, σ 2 v jj, missä v jj on matriisin V = (X X ) 1 j:s lävistäjäalkio. Muotoa H 0 : β j = b olevaa hypoteesia voidaan siten testata suureen T = b j b s v jj t(n k 1) avulla. Mikäli hypoteesit on asetettu muotoon H 0 : β j = 0, H 1 : β j 0, hylätään H 0 riskitasolla α, mikäli b j /(s v jj ) > t 1 α/2 (n k 1)
Tekstiilitehtaassa tutkittiin kankaan värjäävyyttä Y kun vaihdeltiin värjäysliuoksen lämpötilaa X 1 ja kiuotusaikaa X 2. Värjäävyyttä mitattiin kankaaseen absorboituneen väriaineen määrän mukaan. Mittaustulokset olivat seuraavat: X 1 ( o C) X 2 (min) Y (mg) 80 15 100 90 15 106 100 20 134 80 30 125 90 45 149 100 45 168 Sovitetaan aineistoon kahden selittävän muuttujan lineaarista regressiomallia Y = β 0 + β 1 X 1 + β 2 X 2 + ɛ A) Estimoi mallin parametrit (myös jäännösvarianssi). B) Laske mallin selitysaste ja yhteiskorrelaatiokerroin. C) Testaa regression merkitsevyys F-testillä. D) Mikä ennuste imeytyneen väriaineen määrälle, jos liuoksen lämpötila on 95 ja liuotusiaika 25 min?
A) Estimoi mallin parametrit (myös jäännösvarianssi). Y = β 0 + β 1 X 1 + β 2 X 2 + ɛ Normaaliyhtälöt X Xb = X Y n = 6 k = 2 X = 1 80 15 1 90 15 1 100 20 1 80 30 1 90 45 1 100 45 X X = = Y = xi1 100 106 134 125 149 168 xi2 n xi1 xi2 x 2 i1 xi1 x i2 xi1 x i2 x 2 i2 6 540 170 540 49000 15500 170 15500 5800
X Y = yi xi1 y i xi2 y i Normaaliyhtälöt 6 540 170 540 49000 15500 170 15500 5800 Ratkaisu = b 0 b 1 b 2 b = ˆβ = (X X ) 1 (X Y ) = SST = SS yy = y 2 ( y) 2 n 782 71150 23785 = 19.4575 1.22123 1.40755 782 71150 23785 = 105242 7822 6 = 3321.33333
SSE = Y Y bx Y = y 2 (b 0 b 1 b 2 ) 782 71150 23785 = 105242 + 19.4575 782 1.23123 71150 1.40755 23785 = 88.67375 y SSD = b X 2 Y = SST SSE = 3232.65958 n Jäännösvarianssi s 2 = SSE n k 1 = 88.67375 = 29.56 3 s = 5.44 B)Laske mallin selitysaste ja yhteiskorrelaatiokerroin. Selitysaste R 2 = SSD = 0.97330 0.97 SST Yhteiskorrelaatiokerroin R = 0.98656
C) Testaa regression merkitsevyys F-testillä. H 0 : β 1 = β 2 = 0 (Malli ei selitä) H 1 : ainakin toinen β 0 (Malli selittää) Testisuure: SSD/k F = SSE/(n k 1) = 3232.65958/2 88.67375/(6 2 1) = 54.68 Kriit. arvo tasolla α = 0.05F 0.95 (k, n k 1) = F 0.95 (2, 3) = 9.55 Kriit. arvo tasolla α = 0.01F 0.99 (2, 3) = 30.81 F > F 0,99 H 0 hylätään : malli selittää merkitsevästi värjäävyyttä Y D) Mikä ennuste imeytyneen väriaineen määrälle, jos liuoksen lämpötila on 95 ja liuotusiaika 25 min? Kun, x 1 = 95 C, x 2 = 25min ennuste ŷ = b 0 + b 1 95 + b 2 25 = 131.75mg