Mat-.104 Tilastollise aalyysi perusteet, kevät 007 6. lueto: Johdatus regressioaalyysii S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 1
Regressioaalyysi idea Tavoitteea selittää selitettävä tekiä/muuttua havaittue arvoe vaihtelu selittävie tekiöide/muuttuie havaittue arvoe vaihtelu avulla Tilastollisesti merkitsevä osa selitettävä muuttua havaittue arvoe vaihtelusta voidaa selittää selittävie muuttuie havaittue arvoe vaihtelu avulla => selitettävä muuttua riippuu tilastollisesti selittäistä Regressioaalyysissa tilastolliselle riippuvuudelle pyritää raketamaa tilastollie malli, regressiomalli Riippuvuuksie aalysoiti o usei tutkimukse keskeie tavoite regressioaalyysi o eite sovellettua a tärkeimpiä tilastotietee meetelmiä S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae
Regressioaalyysi tavoitteet Regressioaalyysi mahdollisia tavoitteita: (i) (ii) Selitettävä muuttua a selittävie muuttuie tilastollise riippuvuude luotee kuvaamie: Millaie o riippuvuude muoto? Kuika voimakasta riippuvuus o? Selitettävä muuttua arvoe eustamie (iii) Selitettävä muuttua arvoe kotrolli S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 3
Regressiomallie luokittelu Regressioaalyysissa sovellettavat tilastolliset mallit voidaa luokitella usealla eri periaatteella Luokittelu regressiomalli fuktioaalise muodo mukaa: Lieaariset regressiomallit (tämä kurssi) Epälieaariset regressiomallit Luokittelu regressiomalli yhtälöide lukumäärä mukaa: Yhde yhtälö regressiomallit (tämä kurssi) Moiyhtälömallit S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 4
Regressioaalyysi lähtökohdat Regressioaalyysilla o kaksi erilaista lähtökohtaa, oilla o kuiteki moia yhtymäkohtia: (i) (ii) Ogelmat determiististe mallie sovittamisessa havaitoihi (selittäät ei-satuaisia muuttuia) - esim. puhtaat koeasetelmat Moiulotteiste todeäköisyysakaumie ehdolliste odotusarvoe eli regressiofuktioide parametrie estimoiti (selittäät satuaismuuttuia) Tällä kurssilla käytetää sopivia oletuksia => Sama laskutekiikka kummalleki mallityypille!!! S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 5
S ysteemiaalyysi Tekillie korkeakoulu Regressiomalli a se osat Yhde yhtälö regressiomalli yleie muoto o y = f ( x ; β ) + ε ossa y = selitettävä muuttua x = selitettävä muuttua f (x ; β ) = malli systemaattie eli rakeeosa ε = malli satuaie osa Systemaattie osa f (x ; β ) o x: fuktio, riippuu f: muodo määräävästä parametrista β Satuaie osa ε o ääöstermi, oka ei tavallisesti riipu x:stä Pääasiallie kiiostus kohdistuu regressiomalli systemaattisee osaa a se muotoo Jääöstermiä ε pidetää usei pelkkää virhetermiä Jääöstermistä ε tehdyt oletukset vaikuttavat tapaa, olla regressioaalyysi tehdää Kai Virtae 6
Regressioaalyysi Regressioaalyysi tarkoittaa mallii y = f ( x ; β ) + ε liittyvie tehtävie suorittamista: Fuktio f valita Parametri β estimoiti Parametria β koskevie hypoteesie testaamie Estimoidu malli hyvyyde arvioiti Mallista tehtye oletuste tarkistamie Selitettävä muuttua käyttäytymise eustamie a eusteide epävarmuude arvioiti S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 7
Lieaarie regressiomalli Lieaariseksi regressiomalli: Rakeeosa f o parametri β suhtee lieaarie Lieaarisuusoletus o käytäössä osoittautuut moissa sovellustilateissa hyvi toimivaksi Muuttuat oudattavat multiormaaliakaumaa => lieaarie regressiomalli ok, koska ko. akauma regressiofuktiot eli ehdolliset odotusarvot ovat lieaarisia Lieaarise regressiomalli soveltamie ok myös moissa tilateissa, oissa muuttuie riippuvuus o epälieaarista: (i) (ii) Muuttuie riippuvuutta voidaa usei approksimoida aiaki lokaalisti lieaarisella mallilla Muuttuie epälieaarie riippuvuus voidaa usei liearisoida sopivilla muuoksilla S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 8
Mat-.104 Tilastollise aalyysi perusteet, kevät 007 6. lueto: Yhde selittää lieaarie regressiomalli S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 9
Yhde selittää lieaarie regressiomalli a se osat Halutaa selittää selitettävä muuttua y havaittue arvoe vaihtelu selittävä muuttua x havaittue arvoe vaihtelu avulla Oletukset: Selitettävä muuttua y o suhdeasteikollie satuaismuuttua Selittävä muuttua x o kiiteä, ei-satuaie muuttua Oletetaa havaitoarvoe y a x välille lieaarie tilastollie riippuvuus y = β 0 + β1 x + ε, = 1,, K, Yhde selittää lieaarise regressiomalli: y = selitettävä muuttua y satuaie, havaittu arvo havaitoyksikössä x = selittävä muuttua eli selittää x ei-satuaie, havaittu arvo havaitoyksikössä ε = ääös- eli virhetermi ε satuaie, ei-havaittu arvo havaitoyksikössä β 0 = vakioselittää regressiokerroi, ei-satuaie, tutemato vakio β 1 = selittää x regressiokerroi, ei-satuaie, tutemato vakio S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 10
Stadardioletukset ääöstermeistä Regressiomalli ääös- eli virhetermieε s. stadardioletukset: (i) E( ε ) = 0, = 1,, K, y = β 0 + β1 x + ε, = 1,, K, (ii) Jääöstermeillä o vakiovariassi eli e ovat homoskedastisia ε σ Var( ) =, = 1,, K, (iii) Jääöstermit ovat korreloimattomia Cor( ε, ε l ) = 0, l (iv) Jäääöstermit ovat armaaliakautueita ~ ε σ = N(0, ), 1,, K, S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 11
Selitettävä muuttua omiaisuudet Jos ääöstermeä koskevat stadardioletukset (i)-(iii) pätevät, selitettävä muuttua havaituilla arvoilla y o stokastiset omiaisuudet: (i) (ii) (iii) Jos lisäksi ormaalisuusoletus (iv) pätee, ii (iv) E( y ) = β + β x, = 1,, K, 0 1 y σ Var( ) =, = 1,, K, Cor( y, y ) = 0, l ~ l y x N( β 0 + β1, σ ), = 1,, K, S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 1
Malli parametrit sekä systemaattie a satuaie osa y = β 0 + β1 x + ε, = 1,, K, Malli parametrit regressiokertoimetβ 0 a β 1 ääöstermieε yhteie variassi, ääösvariassi Var( ε ) = σ, = 1,, K, Regressiokertoimet a ääösvariassi yleesä tutemattomia => e o estimoitava havaioista Jos stadardioletus pätee, ii havaitut arvot y voidaa esittää kahde osatekiä summaa y = E(y ) + ε, = 1,,,, missä - E(y ) = β 0 + β 1 x o systemaattie osa -ε o satuaie osa E( ε ) = 0, = 1,, K, S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 13
Regressiosuora Systemaattie osa E(y ) = β 0 + β 1 x määrittelee regressiosuora y = β 0 + β 1 x, missä β 0 = regressiosuora a y-akseli leikkauspiste β 1 = regressiosuora kulmakerroi Jääöstermie variassiσ kuvaa havaitopisteide vaihtelua regressiosuora ympärillä Selittää x arvo kasvaa yhdellä yksiköllä => β 1 kertoo paloko selitettävä muuttua y arvo muuttuu S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 14
Yhde selittää lieaarise regressiomalli estimoiti pieimmä eliösumma meetelmällä Etsi regressiokertoimille β 0 a β 1 sellaiset arvot, että iide määräämä regressiosuora selittäisi mahdollisimma hyvi selitettävä muuttua arvoe vaihtelu Useita meetelmiä, esim. pieimmä eliösumma meetelmä miimoidaa ääöstermie eliösumma regressiokertoimie β 0 a β 1 suhtee regressiokertoimie pieimmä eliösumma (PNS-) estimaattorit S ysteemiaalyysi Tekillie korkeakoulu ε i = ( y β 0 β1x ) = 1 = 1 b = y b x b 0 1 s = = r xy 1 sx xy s s y x Kai Virtae 15
S ysteemiaalyysi Tekillie korkeakoulu Estimoitu regressiosuora PNS-estimaattorit b 0 a b 1 määrittelevät estimoidu regressiosuora Estimoidu regressiosuora omiaisuudet: (i) Suora kulkee havaitopisteide (x, y ) paiopistee kautta (ii) Jos, suora o ouseva (iii) Jos, suora o laskeva (iv) Jos, suora o vaakasuorassa (v) r > xy r xy < r = xy 0 0 0 s y y = y + rxy ( x x ) s Suora yrkkeee (loiveee), os korrelaatio itseisarvo kasvaa (pieeee) s keskihaota kasvaa (pieeee) s y x keskihaota pieeee (kasvaa) x r xy Kai Virtae 16
Estimoidu malli sovitteet: S ysteemiaalyysi Tekillie korkeakoulu Sovitteet a residuaalit estimoidu regressiosuora selitettävälle muuttualle y atama arvo havaitopisteessä x Estimoidu malli residuaalit: selitettävä muuttua y havaitu arvo y a sovittee atama arvo erotus Huomaa yˆ = b + b x, = 1,, K, 0 1 e = y yˆ = y b b x, = 1,, K, 0 1 y = yˆ + e, = 1,, K, Regressiomalli selittää selitettävä muuttua havaittue arvoe vaihtelu sitä paremmi mitä lähempää sovitteet ovat selitettävä muuttua havaittua arvoa Regressiomalli selittää selitettävä muuttua havaittue arvoe vaihtelu sitä paremmi mitä pieempiä ovat estimoidu malli residuaalit Kai Virtae 17
Sovitteide a residuaalie havaiollistus Malli: y = β 0 + β1 x + ε, = 1,, K, PNS-suora: y = b + b x 0 1 Sovite: yˆ = b + b x, = 1,, K, 0 1 Residuaali: e = y yˆ, = 1,, K, e yˆ y (x, y ) y = b0 + b1 x ( x, yˆ ) x x S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 18
Jääösvariassi estimoiti Jos ääöstermeä koskevat stadardioletukset pätevät, ääösvariassi Var(ε ) = σ harhato estimaattori o s 1 = 0 1 e = 1 e = y yˆ = y b b x, = 1,, K, = = estimoidu malli havaitoe lukumäärä residuaali Jääösvariassi estimaattori kuvaa havaitopisteide vaihtelua estimoidu regressiosuora ympärillä Estimaattori s o myös residuaalie e variassi, koska e 1 = ei = i = 1 0 1 1 s e e e ( ) = = = 1 = 1 S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 19
Variassiaalyysihaotelma idis Kuika hyvi selitettävä muuttua y havaittue arvoe vaihtelu selittävä muuttua x havaittue arvoe vaihtelulla? Vastaus:variassiaalyysihaotelma!!!! Haotelmassa selitettävä muuttua havaittue arvoe kokoaisvaihtelua kuvaava s. kokoaiseliösumma aetaa kahde osatekiä summaksi: (i) (ii) Toie osatekiä kuvaa estimoidu malli selittämää osaa kokoaisvaihtelusta Toie osatekiä kuvaa mallilla selittämättä ääyttä osaa kokoaisvaihtelusta S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 0
Kokoaiseliösumma a ääöseliösumma Kokoaiseliösumma kuvaa selitettävä muuttua y havaittue arvoe y vaihtelua selitettävä muuttua havaittue arvoe variassi s Jääöseliösumma kuvaa residuaalie e vaihtelua mallissa vakioselittää => e = 0 a residuaalie e variassi s 1 y = = SSE 1 SST 1 SST = ( y y ) SSE = 1 s o ääösvariassi σ harhato estimaattori = 1 = e S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 1
Kokoais- a ääöseliösumma yhteys Jääöseliösumma SSE a kokoaiseliösumma SST toteuttaa xy xy = 1 = 1 = = = SSE e (1 r ) ( y y ) (1 r ) SST ossa r xy o otoskorrelaatiokerroi Koska 1 r xy + 1, ii SSE SST Seuraavat ehdot ovat yhtäpitäviä: - SSE = 0 e = 0 kaikille = 1,,, r xy = ±1 - kaikki havaitopisteet ovat samalla suoralla - lieaarie regressiomalli selittää täydellisesti selitettävä muuttua havaittue arvoe vaihtelu Seuraavat ehdot ovat yhtäpitäviä: - SSE = SST e = y y kaikille = 1,,, r xy = 0 - selitettävä muuttua havaittue arvoe vaihtelua ei voida selittää lieaarisella regressiomallilla S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae
Mallieliösumma Määritellää mallieliösummaksi SSM yhtälöllä SSM = SST SSE Voidaa osoittaa, että Koska 0 SSE SST, ii SSM 0 Mallieliösumma SSM voidaa esittää myös muodossa ossa = 1 ( ˆ ˆ) SSM = y y 1 1 yˆ = yˆ = y = y = 1 = 1 SSM = ( yˆ y ) = 1 S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 3
Mallieliösumma a variassiaalyysihaotelma Määritellää mallieliösumma SSM SSM = SST SSE Variassiaalyysihaotelmassa SST = SSM + SSE, selitettävä muuttua y havaittue arvoe vaihtelua kuvaava kokoaiseliösumma SST o esitetty kahde osatekiä summaa: (i) Mallieliösumma SSM kuvaa sitä osaa selitettävä muuttua y (ii) S ysteemiaalyysi Tekillie korkeakoulu SST = ( y y) havaittue arvoe vaihtelusta, oka malli o selittäyt SSM = ( yˆ y) = 1 Jääöseliösumma SSE kuvaa sitä osaa selitettävä muuttua y havaittue arvoe vaihtelusta, ota malli ei ole selittäyt SSE = = 1 e = 1 Kai Virtae 4
Selitysaste Variassiaalyysihaotelma SST=SSM+SSE avulla voidaa kuvata regressiomalli hyvyyttä: mitä suurempi o mallieliösumma SSM osuus kokoaiseliösummasta SST, sitä paremmi malli selittää selitettävä muuttua havaittue arvoe vaihtelu mitä pieempi o ääöseliösumma SSE osuus kokoaiseliösummasta SST, sitä paremmi estimoitu malli selittää selitettävä muuttua havaittue arvoe vaihtelu Variassiaalyysihaotelma motivoi tuusluvu käytö regressiomalli hyvyyde mittaria Selitysaste R mittaa malli selittämää osuutta selitettävä muuttua havaittue arvoe kokoaisvaihtelusta Ilmaistaa tavallisesti prosetteia 100 R % R = Cor( y, yˆ ), ossa Cor(*) o selitettävä muuttua havaittue arvoe a [ ] sovitteide otoskorrelaatiokerroi Yhde selittää lieaarisessa regressiomallissa R SSE = 1 = SST R = r xy SSM SST S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 5
(i) 0 R 1 (ii) S ysteemiaalyysi Tekillie korkeakoulu Selitysastee omiaisuudet Seuraavat ehdot ovat yhtäpitäviä: (1) R = 1 () Kaikki residuaalit häviävät, e = 0 (3) Kaikki havaitopisteet (x, y ) asettuvat samalle suoralle (4) r xy = ±1 (5) Malli selittää täydellisesti selitettävä muuttua y havaittue arvoe vaihtelu (iii) Seuraavat ehdot ovat yhtäpitäviä: (1) R = 0 () b 1 = 0 (3) r xy = 0 (4) Malli ei selitä ollekaa selitettävä muuttua y havaittue arvoe vaihtelua Kai Virtae 6
Sekä selitettävä että selittää satuaismuuttuia Satuaismuuttuat x a y oudattavat -ulotteista ormaaliakaumaa N (µ x, µ y, σ x, σ y, ρ xy ) parametrit: odotusarvot, variassit a korrelaatiokerroi Satuaismuuttua y ehdollie akauma satuaismuuttua x suhtee o y x ~ N µ, σ ossa ( ) y x y x σ µ = E( y x) = µ + ρ ( x µ ) σ y y x y xy x σ x = Var( y x) = (1 ρ ) σ y x xy y Satuaismuuttua y regressiofuktio satuaismuuttua x suhtee = ehdollie odotusarvo Regressiofuktio määrittelee xy-koordiaatistossa suora σ y y= µ y+ ρ xy ( x µ x) σ x S ysteemiaalyysi Tekillie korkeakoulu Kai Virtae 7
-ulotteise ormaaliakauma regressiofuktiota vastaava lieaarie regressiomalli Havoiot (x i, y i ) eivät yleesä toteuta regressiofuktiota σ y y= µ y+ ρ xy ( x µ x) σ => lisätää siihe stadarioletuksia oudattavat virhetermit ε => lieaarie regressiomalli Estimoidaa regressiofuktio tutemattomat parametrit otossuureilla => tismallee PNS-estimaattorit => tismallee samalaie variassiaalyysihaotelma kui determiistisellä selittäällä Determiistie a stokastie selittää ohtaa tismallee samalaisee lieaarisee regressiomallii!!!!!!!!!! S ysteemiaalyysi Tekillie korkeakoulu x y = β 0 + β1 x + ε, = 1,, K, Kai Virtae 8