Todeäkösyyslaskea ja tlastotetee peruskurss Esmerkkkokoelma 6 Todeäkösyyslaskea ja tlastotetee peruskurss Esmerkkkokoelma 6 Aheet: Tlastolle rppuvuus ja korrelaato Yhde selttäjä leaare regressomall Regressoaalyys Regressoaalyys o tlastolle meetelmä, jossa s. vastemuuttuja el seltettävä muuttuja tlastollsta rppuvuutta tossta, s. syötemuuttujsta el selttävstä muuttujsta pyrtää malltamaa regressomallks kutsutulla tlastollsella malllla. Hajotakuvo Kahde määrällse muuttuja havattuje arvoje pareja havaollstetaa tavallsest graafsella estyksellä, jota kutsutaa hajotakuvoks. Tarkastellaa tlaetta, jossa tutkmukse kohtea olevsta muuttujsta o havattu kahde määrällse muuttuja arvot x = (x,, x ) ja y = (y,, y ). Oletetaa lsäks, että datapsteet ja lttyvät samaa havatoykskköö kaklla. Tällö datapstede x, x,, x ja y, y,, y hajotakuvo saadaa esttämällä lukupart psteä avaruudessa!. (, ), =,,,, Keskarvo, otosvarass ja otoskeskhajota Datajouko x = (x, x,, x ) keskarvo o otosvarass o m(x) = x, ja otoskeskhajota o s (x) = ( x m(x) ), s(x) = s (x). Nämä tuusluvut vodaa laskea R:llä komeolla mea(x), var(x) ja sd(x). Otoskovarass ja otoskorrelaato Lukuparesta (, ), =,,, laskettu otoskovarass o s(x, y) = ( x m(x) ) m( y) ja (Pearso) otoskorrelaato o ( ) M Kbble, L Leskelä, I Mell (05) /6
Todeäkösyyslaskea ja tlastotetee peruskurss Esmerkkkokoelma 6 r(x, y) = s(x, y) s(x)s( y), mssä s(x) ja s(y) ovat x: ja y: otoskeskhajoat. Otoskorrelaatolla o seuraavat omasuudet: () r(x,y) + () r(x,y) = ±, jos ja va jos = α +β, =,,,, mssä α ja β 0 ovat vakota; lsäks kertomella β ja otoskorrelaatolla r(x,y) o sama merkk. () Otoskorrelaatolla r(x,y) ja otoskovarasslla s(x,y) o aa sama merkk. Otoskovarass ja otoskorrelaato saadaa R:llä komeolla cov(x,y) ja cor(x,y). Kaksulottese ormaaljakauma parametre estmot Oletetaa, että satuasvektor (X, Y) oudattaa kaksulottesta ormaaljakaumaa el mssä (X,Y ) N(µ X,µ Y,σ X,σ Y,ρ XY ), µ X = E(X ) µ Y = E(Y ) σ X = Var(X ) σ y = Var(Y ) σ XY = Cov(X,Y ) ρ XY = Cor(X,Y ) = σ XY σ X σ Y Havattuje arvoje x = (x,...,x ), ja y = (y,...,y ) pohjalta lasketut kaksulottese ormaaljakauma parametre suurmma uskottavuude estmaattort ovat ˆµ X = m(x) ˆµ Y = m( y) ˆσ X = ˆσ XY = ˆρ XY = ( m(x)) = s (x) ˆσ Y = ( m(x)) ( m( y)) = s(x, y) ˆσ XY s(x, y) = = r(x, y) ˆσ X ˆσ Y s(x)s( y) Korrelomattomuude testaame Pohjahypotees H: Datajouko lukupart (, ), =,,,, ( m( y)) = s ( y) M Kbble, L Leskelä, I Mell (05) /6
Todeäkösyyslaskea ja tlastotetee peruskurss Esmerkkkokoelma 6 ovat realsaatota rppumattomsta satuasvektoresta, jotka oudattavat kaksulottesta ormaaljakaumaa N(µ X,µ Y,σ X,σ Y,ρ XY ). Nollahypotees o H 0 : ρ XY = 0. Tlastokokee stokaste mall o satuasvektorede par (X,Y), mssä X = (X,..., X ) ja Y = (Y,..., Y ), ja mssä part (X,Y ) ovat tosstaa rppumattomat ja oudattavat yllämattua kaksulottesta ormaaljakaumaa. Määrtellää stokastse mall testsuure t(x,y ) = r(x,y ) r(x,y ). Pohjahypotees H ja ollahypotees H 0 pätessä stokastse mall testsuure t(x,y) oudattaa t- jakaumaa vapausaste -. Testsuuree ormaalarvo o olla, koska ollahypotees pätessä E(t(X,Y)) = 0. Ste tsesarvoltaa suuret testsuuree arvot vttaavat she, että ollahypotees H 0 e päde. M Kbble, L Leskelä, I Mell (05) 3/6
Todeäkösyyslaskea ja tlastotetee peruskurss Esmerkkkokoelma 6 Yhde selttäjä leaare regressomall Leaare regressomall Yhde selttäjä leaarse regressomall o stokaste mall, joka krjotetaa muodossa mssä Y = β 0 + β +ε, =,,,, Y = vastemuuttuja satuae arvo (ee mttaamsta) havatoykskössä = syötemuuttuja arvo havatoykskössä ε = satuase vrheterm arvo havatoykskössä β 0 = tutemato vako (regressosuora vakoterm) β = tutemato vako (regressosuora kulmakerro) Mall vrhetermestä tehdää seuraavat oletukset: () ε, ε,, ε ovat stokastsest rppumattomat () ε N(0,σ ), =,,,, mssä σ o regressomall tutemato varassparametr, joka kuvastaa mttausvrhede hajotaa havatoja tehdessä. Regressokertome ja regressosuora estmot Leaarse regressomall = β 0 + β + e, =,,, kertome β 0 ja β pemmä elösumma (PNS) estmaattort saadaa mmomalla elösumma kertome β 0 ja β suhtee. S(β 0,β ) = e j = ( y j β 0 β x j ) Regressokertome β 0 ja β PNS-estmaattoreks saadaa = m( y) b m(x), b = s(x, y) s (x), mssä m(x), m(y), s (x), s (y) ovat x: ja y: keskarvot ja otosvarasst, ja s(x,y) o x: ja y: otoskovarass. Regressokertome PNS-estmaattort määrttelevät regressosuora y= b0+ bx. Sovtteet ja jääökset M Kbble, L Leskelä, I Mell (05) 4/6
Todeäkösyyslaskea ja tlastotetee peruskurss Esmerkkkokoelma 6 Estmodu mall sovtteet saadaa kaavalla ja jääökset kaavalla ŷ = + b e = ŷ. Mall selttää stä paremm vastemuuttuja y käyttäytymstä mtä lähempää sovtteet ovat vastemuuttuja y havattuja arvoja, el mtä lähempää ollaa ovat estmodu mall jääökset. Varassparametr estmot Leaarse regressomall varassparametr σ harhato estmaattor o mssä S = e j, j= e j = y j ŷ j = y j b x j, ovat estmodu mall jääökset. Laskutomtuste järjestäme Jos regressokertomet joudutaa laskemaa käs ta laskmella, leaarse regressomall PNSestmo vaatmat laskutomtukset kaattaa järjestää seuraava tauluko muotoo: x y y ˆ e e x x y y x y y ˆ e e x x y y x y y ˆ e e M M M M M M M M M x x y y x y y ˆ e e Summa x x y y xy y e e = = = = = = = = Jos aoaa tarkotuksea o laskea PNS-estmaatt regressokertomlle β 0 ja β, yllä olevasta taulukosta tarvtaa aoastaa x-havatoje summa Σ x ja elösumma Σ, y-havatoje summa Σ xy. Σ sekä x- ja y-havatoje tulosumma Havatoje keskarvot, otosvarasst ja otoskovarass saadaa yllä oleva tauluko sarakesummsta kaavolla M Kbble, L Leskelä, I Mell (05) 5/6
Todeäkösyyslaskea ja tlastotetee peruskurss Esmerkkkokoelma 6 m(x) = x s (x) = % % s(x, y) = % % % m( y) = ( ( s ( y) = % ( % (% ( ( josta regressokertome estmaatt saadaa ss lasketuks kaavolla b = s(x, y) s (x), = m( y) b m(x). Estmodu mall sovtteet saadaa kaavalla ja jääökset kaavalla ŷ = + b e = ŷ = b. % ( ( ( Vastemuuttuja eustame Oletetaa, että vastemuuttuja saa arvo!y = β 0 + β!x +!ε, ku syötemuuttuja saa arvo!x. Mkä o paras euste vastemuuttuja arvolle!y, ku syöte saa arvo!x? Valtaa vastemuuttuja eusteeks estmodu regressosuora pste + b!x, mssä ja b ovat regressokertome β 0 ja β PNS-estmaattort. Vodaa osottaa, että tämä luku o (eustevrhee keskelövrhee melessä) paras leaare ja harhato euste vastemuuttuja arvolle. Vastemuuttuja eustee luottamusväl Vastemuuttuja luottamusväl luottamustasolla α o muotoa + b!x ± t α/ S + + (!x m(x)) ( )s (x), mssä tα/ ja + tα/ ovat luottamustasoo α lttyvät luottamuskertomet t(-)-jakaumasta ja S o jääösvarass σ harhato estmaattor. Väl muodostaa selttäjä arvoje!x fuktoa luottamusvyö estmodu regressosuora y = + b x ympärlle. M Kbble, L Leskelä, I Mell (05) 6/6
Todeäkösyyslaskea ja tlastotetee peruskurss Esmerkkkokoelma 6 Esmerkk. Alla o lstattu kahde muuttuja havatut arvot x = (x,, x ) ja y = (y,, y ). 3 4 5 3 4 0 3 (a) (b) (c) Prrä lukupare (, ), =,, 3, 4, 5, hajotakuvo. Arvo hajotakuvo perusteella x: ja y: otoskorrelaato merkk ja suuruusluokka. Laske x: ja y: keskarvot, otoskeskhajoat ja otoskorrelaato. Esmerkk. Mtä opmme? Esmerkssä. harjotellaa hajotakuvo prtämstä, otoskorrelaato arvota hajotakuvo perusteella sekä kahde määrällse muuttuja datajoukkoja kuvaave tuuslukuje laskemsta. Esmerkk. Ratkasu R:llä hajotakuvo saadaa komeolla plot(x,y) ja pyydetyt tuusluvut komeolla mea(x), mea(y), sd(x), sd(y), cor(x,y). Alla kuvataa, mte tehtävä laskutomtukset vo tehdä Excelllä. (a) Datapstede (, ) hajotakuvo: Pstedagramm 4 3 y 0 - - -4-3 - - 0 3 4 5 x (b) Kohdassa (a) prrety hajotakuvo perusteella o lmestä, että x: ja y: otoskorrelaato o merkltää postve (koska datapstede muodostama M Kbble, L Leskelä, I Mell (05) 7/6
Todeäkösyyslaskea ja tlastotetee peruskurss Esmerkkkokoelma 6 psteparv ousee okealle srryttäessä). Lsäks korrelaato o melko vomakasta, koska datapsteet ovat melko lähellä suoraa vvaa. (c) Määrätää datavektorede x ja y summat, elösummat ja tulosumma: = = x y = = = x = y = 6 = 34 = 8 xy = Keskarvot, otosvarasst, otoskeskhajoat, otoskovarass ja otoskorrelaato saadaa yo. summsta, elösummsta ja tulosummasta: m(x) = x = 5 = 0.4 m( y) = y = 5 6 =. s (x) = " s ( y) = " " " % % = " 5 34 5 % = 8.3 % % = " 5 8 5 % 6 =.7 s(x) = s (x) = 8.3 =.88 s( y) = s ( y) =.7 =.643 s(x, y) = " r(x, y) = " %" s(x, y) s(x)s( y) = 4.65.88.643 = 0.98 %% = " 5 5 6 % = 4.65 M Kbble, L Leskelä, I Mell (05) 8/6
Todeäkösyyslaskea ja tlastotetee peruskurss Esmerkkkokoelma 6 Tehtävä laskutomtukset Excelllä: x y x y xy -3-9 3-0 4 0 0 3 4 4 4 4 4 5 4 3 6 9 Summa 6 34 8 M(x ) = 0.4 M(y ) =. s x = 8.3 s x =.88097 s y =.7 s y =.64368 s xy = 4.65 r xy = 0.9873 Esmerkk.3 Yhteskutateteljä halus selvttää oko kua asukastheyde (muuttuja x; asukasta per km ) ja rkollsuude (muuttuja y; rkoksa per 000 asukasta) välllä korrelaatota Suomessa. Suome kute joukosta pomtt ykskertae satuasotos, joka koko ol 4, ja muuttuje x ja y Pearso otoskorrelaatoks saat 0.57. Testaa 5 %: merktsevyystasolla ollahypoteesa, että muuttujat x ja y ovat korrelomattoma, ku vahtoehtoseks hypoteesks valtaa kakssuutae vahtoehto. Tehdää oletus, että havatopart (, ), =,,,, mssä deks vttaa kutaa, ovat realsaatota rppumattomsta satuasvektoresta, jotka oudattavat kaksulottesta ormaaljakaumaa N(µ X,µ Y,σ X,σ Y,ρ XY ). Esmerkk.3 Mtä opmme? Esmerkssä.3 testataa korrelomattomuutta. Esmerkk.3 Ratkasu t-testsuure ollahypoteeslle o muotoa H 0 : ρ XY = 0 t(x, y) = r(x, y), r (x, y) mssä r(x,y) o datasta laskettu x: ja y: Pearso otoskorrelaato ja otoskoko = 4. Jos ollahypotees H 0 pätee, tlastokokee stokaststa malla vastaava testsuure t(x,y) oudattaa Studet t-jakaumaa vapausaste - = 40. M Kbble, L Leskelä, I Mell (05) 9/6
Todeäkösyyslaskea ja tlastotetee peruskurss Esmerkkkokoelma 6 Tehtävä tapauksessa datasta laskettu testsuuree arvo o t(x, y) = r(x, y) = 4 r (x, y) Koska vahtoehtoe hypotees o kakssuutae H : ρ XY 0, 0.57 0.57 =.005. 5 %: merktsevyystasoa vastaavaks krttsks arvoks saadaa t(40)-jakauma taulukosta t 0.05 =.0, +t 0.05 = +.0. R:llä ämä luvut saadaa komeolla qt(0.05,40) ja qt(0.975,40). Koska datasta laskettu testsuure t(x,y) osuu krttste arvoje väl, jää ollahypotees H 0 vomaa 5 % merktsevyystasolla. Johtopäätös: Otoksesta saatuje tetoje perusteella kua asukasluvu ja suhteellse rkollsuude välllä e ole tlastollsest merktsevää korrelaatota. Esmerkk.5 Muuttuje x ja y havatut arvot ovat: x 3 4 6 8 9 4 y 4 4 5 7 8 9 (a) Määrtä leaarse regressomall Y = β 0 + β +ε, ε N(0,σ ), =,,, regressokertome β 0 ja β pemmä elösumma estmaatt. (b) Määrtä estmodu mall sovtteet ja jääökset. (c) Määrtä harhato estmaatt jääösvarasslle σ. (d) Määrtä estmodu mall seltysaste. (e) Prrä tehtävässä estmotu regressosuora havatoja (, ), =,,, esttävää hajotakuvoo. Prrä kuvoo myös jääöksä kuvaavat jaat. Esmerkk.5 Mtä opmme? Esmerkssä.5 tarkastellaa leaarse regressomall estmota. Esmerkk.5 Ratkasu M Kbble, L Leskelä, I Mell (05) 0/6
Todeäkösyyslaskea ja tlastotetee peruskurss Esmerkkkokoelma 6 Kakk tehtävä laskutomtukset o tehty Mcrosoft Excel -ohjelmalla; ks. Excel-taulukkoa ratkasu lopussa. (a) Leaarse regressomall Y = β 0 + β + ε regressokertome β 0 ja β PNS-estmaatt saadaa lasketuks seuraavassa estettävällä tavalla. Määrätää es muuttuje x ja y havattuje arvoje summat, elösummat ja tulosumma: = = x y = = = x = 56 y = 40 = 54 = 56 xy = 364 Muuttuje x ja y havatoje keskarvot, otosvarasst, otoskeskhajoat, otoskovarass ja otoskorrelaato saadaa muuttuje x ja y havattuje arvoje summsta, elösummsta ja tulosummasta: m(x) = x = 8 56 = 7 m( y) = y = 8 40 = 5 s (x) = " s ( y) = " " " s(x) = s (x) = 8.857 = 4.34 s( y) = s ( y) = 8 =.88 s(x, y) = " r(x, y) = " % % = " 8 54 % 8 56 =8.857 % % = " 8 56 8 % 40 = 8 %" s(x, y) s(x)s( y) = 4.34.88 = 0.977. Estmodu PNS-suora yhtälö o muotoa y = + b x, %% = " 8 364 % 56 40 = 8 mssä ja b ovat mall regressokertome β 0 ja β PNS-estmaattort. M Kbble, L Leskelä, I Mell (05) /6
Todeäkösyyslaskea ja tlastotetee peruskurss Esmerkkkokoelma 6 Estmaattorede ja b arvot saadaa yllä lasketusta tuusluvusta kaavolla s( y).88 b = r(x, y) = 0.977 s(x) 4.34 = 0.636, = m( y) b m(x) = 5 0.636 7 = 0.545. Estmodu PNS-suora yhtälöks saadaa ste y = 0.545 + 0.636x. (b) Estmodu mall sovtteet y ˆ ja jääökset e saadaa kaavolla ŷ = + b ja e = ŷ. Sovtteet ja jääökset o aettu alla olevassa Excel-taulukossa. (c) Mall varassparametr σ harhattoma estmaattor S arvoks saadaa mssä S = SSE =.545 = 0.44,, 8 e.545. = SSE = = o estmodu mall jääöste vahtelua kuvaava jääöselösumma. (e) Tehtävässä estmodu regressosuora yhtälö o y = 0.546 + 0.636x. Ao. kuvoo o prretty havatopstede lsäks estmotu regressosuora sekä jääöksä vastaavat jaat. Kuvo o tuotettu Mcrosoft Excel -ohjelmalla. M Kbble, L Leskelä, I Mell (05) /6
Todeäkösyyslaskea ja tlastotetee peruskurss Esmerkkkokoelma 6 Regressosuora 0 8 y = 0.6364x + 0.5455 R = 0.9545 6 y 4 0 0 3 6 9 5 x M Kbble, L Leskelä, I Mell (05) 3/6
Todeäkösyyslaskea ja tlastotetee peruskurss Esmerkkkokoelma 6 Tehtävä laskutomtukset Mcrosoft Excel -ohjelmalla: x y x y xy yhat res res.8-0.8 0.033 3 9 4 6.455-0.455 0.07 3 4 4 6 6 6 3.09 0.909 0.86 4 6 4 36 6 4 4.364-0.364 0.3 5 8 5 64 5 40 5.636-0.636 0.405 6 9 7 8 49 63 6.73 0.77 0.59 7 8 64 88 7.545 0.455 0.07 8 4 9 96 8 6 9.455-0.455 0.07 Summa 56 40 54 56 364 40 0.000.545 M(x ) = 7 M(y ) = 5 s x = 8.857 s x = 4.34 s y = 8 s y =.88 s xy = r xy = 0.977 b = 0.636 = 0.545 SST = 56 SSE =.545 SSM = 53.455 s = 0.44 R = 0.955 R = 0.977 Esmerkk.3 Alla olevassa taulukossa o lstattu muuttuje x ja y havatut arvot. x 3 4 6 8 9 4 y 4 4 5 7 8 9 Esmerkssä.5 tästä aestosta estmot PNS-meetelmällä leaarse regressomall Y = β 0 + β +ε, ε N(0,σ ), =,,,8 parametrt. Regressokertome β 0 ja β PNS-estmaateks saat b = 0.636 b = 0.545 0 M Kbble, L Leskelä, I Mell (05) 4/6
Todeäkösyyslaskea ja tlastotetee peruskurss Esmerkkkokoelma 6 ja varassparametr σ harhattomaks estmaatks saat S = 0.44.. Datajoukkoa kuvaavat tuusluvut olvat: m(x) = 7 s (x) =8.857 s(x) = 4.34 m( y) = 5 s ( y) = 8 s( y) =.88 s(x, y) = r(x, y) = 0.977. Eusta vastemuuttuja Y arvo, ku syötemuuttuja saa arvot x = 7 ja x = 30. Määrtä myös 95 %: luottamusvält kummallek eusteelle. Esmerkk.3. Mtä opmme? Esmerkssä.3 tarkastellaa leaarse regressomall vastemuuttuja eustamsta sekä eustee luottamusväl määräämstä. Esmerkk.3 Ratkasu Ku syötemuuttujalla x o arvo!x, paras euste vastemuuttuja y arvolle (leaarste ja harhattome eustede joukossa) o regressosuora arvo + b!x, mssä ja b ovat regressokertome β 0 ja β PNS-estmaattort. Eustee luottamusväl luottamustasolla ( α) o muotoa + b!x ± t α/ S + + (!x m(x)) ( )s (x), mssä tα/ ja + tα/ ovat luottamustasoo ( α) lttyvät luottamuskertomet t(-)- jakaumasta, S o varassparametr σ harhato estmaattor ja m(x) o syötemuuttuja havatoje keskarvo. Tehtävä tapauksessa + b!x = 0.545+ 0.636!x. Ku!x = 7 eusteeks saadaa 0.545+ 0.636 7 = 4.997. Määrätää seuraavaks 95 %: luottamusväl eusteelle. Koska vapausastede lukumäärä o = 6, luottamustasoa 0.95 vastaavaks luottamuskertomks t 0.05 ja +t 0.05 saadaa t(6)-jakauma taulukosta: t 0.05 =.447, +t 0.05 = +.447. Eustee luottamusväl o ss M Kbble, L Leskelä, I Mell (05) 5/6
Todeäkösyyslaskea ja tlastotetee peruskurss Esmerkkkokoelma 6 + b!x ± t α/ S + + (!x m(x)) ( )s (x) = 4.997±.447 0.44 + 8 + (7 7) (8 ) 8.857 = 4.997 ±.690 = (3.307,6.687). Ku!x = 30, eusteeks saadaa 0.545+ 0.636 30 =9.65. Eustee luottamusväl o + b!x ± t α/ S + + (!x m(x)) ( )s (x) Huomautuksa: =9.65±.447 0.44 + 8 + (30 7) = 9.65± 3.60 = (6.05,3.35). (8 ) 8.857 () Eustede luottamusvält ovat kapemmllaa, ku syötemuuttuja o!x = m(x) = 7. () Koska pste x = 30 o kauempaa syötemuuttuja x datapstede keskarvosta m(x) = 7 ku pste x = 7, eusteesee (!y!x = 30) =9.65 lttyvät luottamusvält ovat leveämpä ku eusteesee (!y!x = 7) = 4.997 lttyvät luottamusvält. M Kbble, L Leskelä, I Mell (05) 6/6