Suora sovttame pstejoukkoo Ku halutaa tutka kahde tlastollse muuttuja rppuvuutta tosstaa, käytetää use leaarsta regressota el suora sovttamsta havatojoukkoo. Sä o aettu joukko havatopareja (x, y ), ja tähä pstejoukkoo yrtetää sovttaa suora y = ax+b, että se kuvas havatoja parhaalla mahdollsella tavalla. Krteerä käytetää yleesä pemmä elösumma krteerä, mkä tarkottaa että suora sop parhate, jos se pstede y-koordaatte ja havatoje y-arvoje erotukse elöde summa (y (ax + b)) 2 o mahdollsmma pe. Ohesessa kuvassa o esmerkks kuude havatopstee joukkoo sovtettu suora, joka mmo pstestä laskettuje pystysuutaste etäsyykse elöde summa. Esmerkks vasemmapuolese pstee etäsyys suorasta o 4,28 (0,60 1,23+2,92) 0.62. Muut etäsyydet ovat järjestyksessä 0,98, 1,24, 1,31, 1,17 ja 0,74. Etäsyykse elöde summaks tulee ste 6,51. y 0 2 4 6 8 (5,63, 7,46) (5,38, 7,38) y = 0,60x + 2.92 (6,56, 6,09) (1,23, 4,28) (5,43, 4,86) (2,09, 3,19) 0 2 4 6 8 10 x Suora sovttamselle pemmä elösumma krteerllä o olemassa ykskertae geometre tulkta, joho seuraavassa tutustutaa. Esmerkk Tutktaa esmerk vuoks kuvtteellste opskeljode koepstede ja tehtyje harjotuste välstä yhteyttä. Oletetaa, että kokeesta saatava maksmpstemäärä o 60 ja harjotustehtävä o kursslla ollut 100. Jokasesta opskeljasta tedetää häe tekemesä harjotuste määrä sekä koetulos. Tarkotuksea o tutka, oko harjotuste tekemsellä vakutusta koetuloksee. 1
Jos havatoje määrä o, o srryttävä -ulottesee avaruutee. Esmerk ykskertastamseks tarkastellaa aluks 3 opskelja joukkoa, jollo käytettävä avaruus o R 3. Olkoo x opskelja tekeme harjotuste määrä ja y koetulos. Oletetaa, että opskeljode tulokset ovat seuraavat: x y 1 40 35 2 80 50 3 60 55 Leaaralgebralle tulkta Ilmastaa esmerk koetulokset avaruude R 3 vektora y = (35, 50, 55). Ku suoraa sovtetaa pemmä elösumma krteerllä, mtataa havatopstede etäsyydet suorasta pystysuoraa (ks. esmmäse svu kuva). Tällö suorasta rttää tarkastella va tä pstetä, jotka ovat täsmällee jok havatopstee ylä- ta alapuolella el jode x-koordaatt löytyvät havatojoukosta. Jokae suora y = ax + b vodaa ss ajatella pstejoukkoa {(x 1, ax 1 + b), (x 2, ax 2 + b), (x 3, ax 3 + b)}. Ku suorat ajatellaa kolme pstee joukkoa, e vodaa lmasta avaruude R 3 vektorea samalla tavalla ku koetulokset. Tällä tavo tulkttua kakk mahdollset suorat muodostavat avaruude R 3 osajouko S = {(ax 1 + b, ax 2 + b, ax 3 + b) a, b R} = {a(x 1, x 2, x 3 ) + b(1, 1, 1) a, b R}. Kyseessä o vektore x = (x 1, x 2, x 3 ) = (40, 80, 60) ja = (1, 1, 1) vrttämä taso. Jokasta suoraa y = ax + b vastaa ss jok vektor z R 3, joka kompoett ovat muotoa ax + b. Tällasee suoraa lttyvä havatopstede etäsyykse elösumma vodaa krjottaa avaruude R 3 orm avulla: (y (ax + b)) 2 = (y z ) 2 = y z 2. Koska tämä elösumma yrtetää mmoda, suora sovttame vodaa esttää kysymykseä Mkä taso S vektor z o sellae, että se ja vektor y erotukse orm o pe mahdolle? Leaaralgebrasta tedetää, että vastaus o vektor y kohtsuora projekto tasolle S, el z = proj S (y). Pe elösumma o tällö y proj S (y) 2. Projekto laskeme Määrtetää yt kaava pstejoukkoo sovtettavalle suoralle ylesessä tapauksessa, jossa havatoje määrä o. Käytetää samoja merktöjä ku edellä: x = (x 1,..., x ), 2
y = (y 1,..., y ) ja = (1,..., 1) avaruudessa R. Vodaa olettaa, että vektort x ja evät ole yhdesuutaset, sllä muute kakke havatoje x-arvot olsvat dettset, ja havaosta ols mahdotota päätellä tlastollsest mtää. O etsttävä vektor y projekto tasolle S = spa(x, ). Vektort x ja evät välttämättä ole kohtsuorassa tosaa vastaa, jote projekto laskemseks valtaa es tasolle S ortogoaale kata muokkaamalla vektora x: x = x proj (x) = x x = x x Vektorjoo (x, ) o yt taso S ortogoaale kata. Vektor y projekto tasolle S saadaa laskemalla yhtee projektot ortogoaalse kaa vektore suutaa: proj S (y) = proj x (y) + proj (y) = x y x x x + y = x y 1 ( x)( y) x 2 ( x x ) + y. Tässä projektovektor o estetty leaarkombaatoa vektoresta x ja. Koska ämä vektort ovat leaarsest rppumattomat, leaarkombaato kertomet ovat ykskästteset. Ku yt mustetaa, että kutak sovtettavaa suoraa y = ax + b vastaa vektor ax + b, vodaa kertomsta lukea suoraa sopvmma suora kulmakerro ja vakoterm: a = x y 1 ( x)( y) x 2, b = y x y 1 ( x)( y) x x 2. Lasketaa esmerk vuoks koetuloks sovtetu suora kulmakerro ja vakoterm estetystä kaavosta. Alotetaa laskemalla hema vältuloksa: Nä saadaa ja x y = (40, 80, 60) (35, 50, 55) = 8700, x = (1, 1, 1) (40, 80, 60) = 180, y = (1, 1, 1) (35, 50, 55) = 140, x = (40, 80, 60) 180 (1, 1, 1) = ( 20, 20, 0), 3 x 2 = ( 20) 2 + 20 2 + 0 2 = 800. a = 8700 1 3 180 140 = 0,375 800 b = 140 180 0,375 3 3 = 24,17. Ohesessa kuvassa o tulokssta prretty pstedagramm sekä edellä johdettu suora, joka mmo y-arvoje pokkeame elösumma. 3
y 0 10 30 50 0 20 40 60 80 100 x Tlastollsa suureta Edellä määrtetty kaava vektor y projektolle tasolle S saattaa äyttää momutkaselta, mutta ku se osa tarkastellaa tlastotetee äkökulmasta, kaava saa ykskertasemma asu. Alotetaa toteamalla, että pstetulo x o ykskertasest kakke x-arvoje summa, el x = x. Tarkastellaa tämä valossa projektota vektor suutaselle suoralle: proj (x) = x = x. x o kakke x-arvoje keskarvo. Ku stä merktää E(X), vo- Skalaarkerro 1 daa projekto krjottaa muodossa proj (x) = (E(X),..., E(X)). Samalla tavo ähdää, että proj (y) = (E(Y ),..., E(Y )). Suureesta x tarvtt se orm elötä. Tämä tulee muotoo x 2 = x proj (x) 2 = (x 1,..., x ) (E(X),..., E(X)) 2 = (x E(X)) 2. Kyseessä o x-arvoje keskarvosta laskettuje pokkeame elöde summa. Ku tämä jaetaa arvoje lukumäärällä, saadaa muuttuja X varass, jota merktää Var(X). Sspä x 2 = Var(X). Geometrsest muuttuja X varass o ss verraolle vektor x suorasta spa() mtatu etäsyyde elöö. Varsasta etäsyyttä kuvaa varass elöjuur, s. keskhajota σ(x) (kerrottua luvulla ). Tarkastellaa velä pstetuloa x y = x y. Jos tämä jaetaa luvulla, saadaa x- ja y-arvoje tuloje keskarvo, jota merktää E(XY ). Nä olle x y = E(XY ). Edellee vodaa krjottaa x y 1 ( x)( y) = E(XY ) E(X) E(Y ) = (E(XY ) E(X) E(Y )). 4
Suuretta E(XY ) E(X) E(Y ) mtetää muuttuje X ja Y välseks kovarassks ja merktää Cov(X, Y ). Kovarass geometrsee tulktaa palataa jäljempää korrelaato yhteydessä. Lopulta sovtetu suora kulmakerro ja vakoterm vodaa tlastollsa merktöjä käyttäe lmasta muodossa a = Cov(X, Y ) Var(X) ja b = E(Y ) Cov(X, Y ) Var(X) E(X). Korrelaato Ku havatojoukkoo sopv suora o löytyyt, vodaa kysyä, mte vomakasta rppuvuus x- ja y-arvoje välllä o. Leaarse rppuvuude mttaamsee käytetää korrelaatokerrota, joka määrtellää seuraavast: ρ(x, Y ) = Cov(X, Y ) σ(x)σ(y ). Kaavassa σ(x) ja σ(y ) ovat muuttuje X ja Y keskhajoat el varass elöjuuret. Ryhdytää etsmää korrelaatokertomelle geometrsta tulktaa. Palautetaa melee, että Cov(X, Y ) = x y ja σ(x) = x. Merktää lsäks y = y proj (y), jollo y = σ(y ). Lsäks ( x y = x y y ) = x y y x }{{ } = x y. =0 Nyt saadaa ρ(x, Y ) = Cov(X, Y ) 1 σ(x)σ(y ) = x y 1 x 1 y = x y x y. Tästä ähdää, että muuttuje X ja Y väle korrelaato o vektore x ja y välse kulma kos. Etä mllä tavo korrelaatokerro lttyy suora sovttamsee? Kute aemm o ähty, projektovektor proj (y) vastaa vaakasuutasta suoraa y = E(Y ), sllä proj (y) = y = ( 1 ) y = E(Y ). Erotusvektor y proj (y) kuvaa ss y-havatoje pokkeamaa keskarvosta. Osa tästä pokkeamasta selttyy leaarsella rppuvuudella x-havaosta. Leaarsta rppuvuutta kuvaa sovtettu suora, ja tätä puolestaa vastaa proj S (y). Sspä leaarse rppuvuude selttämää osaa pokkeamasta kuvaa erotus proj S (y) proj (y). Jäljelle jäävä, selttämätö ta satuae osa o tällö (y proj (y)) (proj S (y) proj (y)) = y proj S (y). 5
Vertalemalla edellä mattuje vektorede ptuukse elötä vodaa määrtellä s. seltyskerro R 2 = proj S(y) proj (y) 2 y proj (y) 2. Seltyskerro kuvaa tlastollsest stä, mte suur osa muuttuja Y varasssta, el vektor y elöllsestä etäsyydestä keskarvovektorsta proj (y), selttyy leaarsella rppuvuudella. Seltyskerro o myös helppo laskea käyttäe hyväks aempa tetoja: R 2 = proj S(y) proj (y) 2 y proj (y) 2 = proj x (y) 2 y 2 = (Cov(X, Y )/ Var(X))2 x 2 y 2 = (Cov(X, Y )/ Var(X))2 Var(X) Var(Y ) = Cov(X, Y )2 Var(X) Var(Y ) = ρ(x, Y )2. Nähdää, että seltyskerro o ykskertasest korrelaatokertome elö. Tämä yhteys vodaa selttää ohesella kuvalla. Kuvassa o kolmo, joka muodostuu vektoresta y proj (y), proj S (y) proj (y) ja y proj S (y). Seltyskerro R 2 o kuva kulma α verese kateet ja hypoteuusa suhtee elö, el kysese kulma kos elö. Korrelaatokerro ρ o puolestaa vektore x ja y välse kulma kos. Koska y proj (y) = y, kyseessä o kuva kulma β. Ku huomataa, että vektor proj S (y) proj (y) = proj x (y) o yhdesuutae vektor x kassa, ähdää, että joko β = α ta β = 90 α. Koska cos(90 α) = cos α, vodaa lopulta päätellä, että cos 2 β = cos 2 α. Nä olle korrelaato elö o yhtä ku seltyskerro. Myös korrelaatokertome lukuarvosta vodaa tehdä johtopäätöksä kuva avulla. Kulma β o ollakulma ja okokulma välllä, jote korrelaato cos β o arvoje 1 ja 1 välllä. Korrelaato o 1 sllo, ku β o ollakulma, ja tämä toteutuu, jos ja va jos y = proj S (y) ja vektort y ja x ovat yhdesuutaset. Tällö sopv suora kulkee kakke havatopstede kautta ja se kulmakerro o postve (sllä kulmakertome merkk määräytyy pstetulosta x y). Vastaavast korrelaato o 1, ku β o okokulma, ja tämä tarkottaa, että havatopsteet ovat kakk samalla suoralla, joka 6
kulmakerro o egatve. Lopulta korrelaato o 0, ku kulma β o suora, ja tämä o mahdollsta aoastaa, jos proj S (y) = proj (y). Tässä tlateessa pstejoukkoa kuvaa parhate suora y = E(Y ), el mkäälasta leaarsta rppuvuutta e ole. Jokke Häsä, syksyllä 2015 7