Usea selittää lieaarie regressiomalli Mat-.04 Tilastollise aalyysi perusteet, evät 007 8. lueto: Usea selittää lieaarie regressiomalli Selitettävä muuttua havaittue arvoe vaihtelu halutaa selittää selittävie muuttuie havaittue arvoe vaihtelu avulla Oletetaa muuttuie välille lieaarie tilastollie riippuvuus y = β 0 + β + β + L+ β + ε, =,, K, Usea selittää lieaarie regressiomalli y = selitettävä y satuaie a havaittu arvo havaitoysiössä i = selittää i ei-satuaie a havaittu arvo havaitoysiössä, i=,, ε = ääös- eli virhetermi ε satuaie a ei-havaittu arvo havaitoysiössä β 0 = vaioselittää regressioerroi, ei-satuaie a tutemato vaio β i = selittää i regressioerroi, i=,,, ei-satuaie a tutemato vaio Kai Virtae Kai Virtae Stadardioletuset Stadardioletuset => malli aalysoitii voidaa äyttää tavaomaisia estimoiti- a testausmeetelmiä (ii Selittäie i arvot i ovat iiteitä eli ei-satuaisia vaioita, =,,,, i =,,, Selittäie välillä ei ole lieaarisia riippuvuusia (iii E(ε = 0, =,,, (iv Var(ε = σ, =,,, (v Cor(ε, ε l = 0, l (vi ε ~ N(0, σ, =,,, Stadardioletuset, (ii a (iii Selittäie i arvot i ovat iiteitä eli ei-satuaisia vaioita, =,,,, i=,,, Peruste urssilla esiteltävälle teorialle Raoittava, toteutuu äytäössä vai u selittäie arvot voidaa valita (puhtaat oeasetelmat Esitettävää teoriaa voidaa soveltaa os sopivat lisäehdot pätevät satuaisille selittäille (multiormaaliaauma (ii Selittäie välillä ei ole lieaarisia riippuvuusia Jos selittää riippuu lieaarisesti muista selittäistä, se o selittäää redudatti a voidaa poistaa mallista Pieimmä eliösumma meetelmä tuottaa regressioertoimille ysiäsitteiset estimaattorit (iii E(ε = 0, =,,, Kaiilla ääöstermeillä sama odotusarvo Mallissa ei ole systemaattista virhettä Kai Virtae 3 Kai Virtae 4
Stadardioletuset (iv, (v a (vi (iv Var(ε = σ, =,,, Kaiilla ääöstermeillä sama variassi Jos oletus pätee, ääöstermit homosedastisia muute heterosedastisia Heterosedastisuus => regressioertoimie estimaattorit tehottomia Voidaa testata tilastollisesti (v Cor(ε, ε l = 0, l Jääöstermit eivät orreloi eseää Korreloitueisuus => regressioertoimie estimaattorit tehottomia a harhaisia Voidaa testata tilastollisesti (vi ε ~ N(0, σ, =,,, Jääöstermit ormaaliaautueita Voidaa testata tilastollisesti. Malli parametrit Regressiomalli y = β 0 + β + β + L+ β + ε, =,, K, parametrea ovat - regressioertoimet β 0, β, β,, β - ääöstermieε variassi (ääösvariassi Var( ε = σ, =,, K, Parametrit yleesä tutemattomia Parametrit estimoitava muuttuie,,, a y havaituista arvoista Kai Virtae 5 Kai Virtae 6 Usea selittää lieaarise regressiomalli matriisiesitys Yleie lieaarie malli voidaa esittää muodossa y = Xβ + ε ossa y = selitettävä muuttua y havaittue arvoe muodostama satuaie -vetori X = selittäie,,, havaittue arvoe a yöste muodostama ( + -matriisi β = regressioertoimie muodostama tutemato a iiteä eli ei-satuaie ( + -vetori ε = ääöstermie muodostama ei-havaittu a satuaie -vetori Kai Virtae 7 Odotusarvovetori a ovariassimatriisi Oloo z = (z, z,, z p satuaismuuttuie z, z,, z p muodostama p-vetori Satuaisvetori z odotusarvovetori µ o µ = E( z = (E( z, E( z, K, E( z p ossa i. alio o satuaismuuttua z i odotusarvo µ = E( z, i =,, K, p Satuaisvetori z ovariassimatriisi Σ o Σ = Cov( z = E ( z E( z( z E( z ossa i. rivi a. saraee alio o satuaismuuttuie z i a z ovariassi σ = Cov( z, z i i [ ] i i = E ( zi E( zi ( z E( z Kai Virtae 8
Stadardioletuset matriisimuodossa Regressiomalli ( selittäää, + regressioerroita y = Xβ + ε stadardioletuset matriisimuodossa: Matriisi X aliot ovat iiteitä eli ei-satuaisia vaioita (ii Matriisi X o täysiasteie, r(x = + (iii E(ε = 0 (iv&(v - r o matriisi rai (= lieaarisesti riippumattomie saraeide tai rivie luumäärä Cov(ε = σ I (vi ε N (0, σ I Regressioertoimie PNS-estimoiti Regressioertoimet estimoidaa pieimmä eliösumma (PNS- meetelmällä Miimoidaa ääöstermieε eliösumma ε = ( y β 0 β β L β = = regressioertoimie suhtee Derivoiti regressioertoimie suhtee a derivaatat ollisi => => Lieaarisee yhtälöryhmä, + yhtälöä a + tutematota => PNS-estimaattorit b 0, b, b,, b Yhtälöryhmällä o rataisu, os stadardioletus (ii r(x = + pätee Kai Virtae 9 Kai Virtae 0 Estimaattoreide matriisiesitys Oloo y = Xβ + ε stadardioletuse (ii toteuttava malli Regressioertoimie vetori β PNS-estimaattori o b= ( X X X y Jos stadardioletuset -(v pätevät E( b = β Cov( b = σ ( X X Kosa E(b = β => PNS-estimaattori o regressioertoimie vetori harhato estimaattori Jos stadardioletuset -(vi pätevät ~ ( σ b N β, ( X X + Sovitteet a residuaalit Sovite: Estimoidu malli selitettävälle muuttualle y atama arvo havaitopisteessä (,, K, yˆ = b0 + b + b + L+ b, =,, K, Residuaali: Selitettävä muuttua y havaitu arvo y a sovittee erotus e = y yˆ = y b b b L b 0, =,, K, Jos stadardioletuset -(v pätevät E( y = β + β + β + L+ β, =,, K, ˆ 0 E( e = 0, =,, K, Kai Virtae Kai Virtae 3
Sovitteet, residuaalit a regressiomalli hyvyys Sovitteide a residuaalie äyttö regressiomalli hyvyyde tutimisessa: (ii Regressiomalli selittää selitettävä muuttua havaittue arvoe vaihtelu sitä paremmi mitä lähempää estimoidu malli sovitteet ovat selitettävä muuttua havaittua arvoa Regressiomalli selittää selitettävä muuttua havaittue arvoe vaihtelu sitä paremmi mitä pieempiä ovat estimoidu malli residuaalit Jääösvariassi estimoiti Jos stadardioletuset -(v pätevät, ääösvariassi Var(ε = σ harhato estimaattori o ossa s = e = e = estimoidu malli residuaali, =,,, = havaitoe luumäärä = selittäie i luumäärä Estimaattori s o residuaalie e variassi, osa e = ei = 0 i => = ( s = e e = e = = Kai Virtae 3 Kai Virtae 4 Estimoitu regressiotaso Variassiaalyysihaotelma Regressiomalli regressioertoimie estimaattorit b 0, b, b,, b määrittelevät taso y= b + b + b + L+ b 0 Estimoitu regressiotaso Jääösvariassi σ estimaattori s uvaa havaitopisteide + (,, K,, y R, =,, K, vaihtelua estimoidu regressiotaso ympärillä Regressiomalli hyvyys variassiaalyysihaotelma Variassiaalyysihaotelmassa Kooaiseliösumma SST = Mallieliösumma SSM + Jääöseliösumma SSE selitettävä arvoe vaihtelua uvaava SST esitetää ahde osateiä SSM a SSE summaa (ii SSM uvaa sitä osaa selitettävä vaihtelusta, oa estimoitu malli o selittäyt SSE uvaa sitä osaa selitettävä vaihtelusta, ota estimoitu malli ei ole selittäyt Kai Virtae 5 Kai Virtae 6 4
Variassiaalyysihaotelma eliösummat Selitettävä havaittue arvoe vaihtelua mitataa ooaiseliösummalla SST = ( y y Residuaalie vaihtelua mitataa ääöseliösummalla SSE = = e = Sovitteide vaihtelua mitataa mallieliösummalla SSM = ( yˆ y = Selitysaste Variassiaalyysihaotelmasta regressiomalli hyvyyde mittarisi selitysaste SSE SSM R = = SST SST Mittaa regressiomalli selittämää osuutta selitettävä muuttua ooaisvaihtelusta 0 R Kts. selitysastee muut omiaisuudet 6. lueo alvoilta Huom! Uohda totuus selitettävä a selittää välisestä orrelaatioertoimesta!!!! Mallii uusia selittäiä => selitysaste asvaa (tai ei aiaaa pieee => ei voida äyttää malli valiassa!! Vrt. orattu selitysaste, lueto ro. 0 Kai Virtae 7 Kai Virtae 8 Yhteisorrelaatio a osittaisorrelaatio [ ] R = Cor( y, y ossa Cor( y, yˆ o selitettävä muuttua a sovitteide otosorrelaatioerroi, yhteisorrelaatioerroi ˆ Selittävät orreloivat yleesä eemmä a vähemmä eseää => suora orrelaatio r yi ei aa oieaa uvaa muuttuie yhteispelistä Harhato uva orrelaatiosta osittaisorrelaatio p : a y: osittaisorrelaatioerroi: ( Muodosta mallit y=b 0 +b +...+b p- p- a p =a 0 +a +...+a p- p- ( Lase residuaalit e i =y i -b 0 -b i... a f i = pi -a 0 -a i... (3 Lase residuaalie orrelaatioerroi r ef = osittaisorrelaatioerroi Kai Virtae 9 Päättely usea selittää lieaarisesta regressiomallista Regressioerroi b i lähellä ollaa => y ei riipu i :stä auaa ollasta => y ei riippuu i :stä meri => riippuvuude suuta, + / - i asvaa yhde ysiö => y asvaa b i Selitysaste R lähellä ollaa => ei riippuvuutta, malli ei selitä aluuaa selitettävä muuttua vaihtelua lähellä yästä => riippuvuus, malli selittää hyvi selitettävä muuttaa vaihtelu Mitä taroittaa lähellä / auaa? Rataisu: regressioertoimie luottamusvälit yleistesti regressio olemassaololle testit regressioertoimille Selitettävä eustamie aetulla selittää arvolla ysittäise arvo a esimääräise arvo euste a luottamusväli Selittäie täreysärestys Kai Virtae 0 5
Regressioertoimie luottamusvälit Jos ääöstermie stadardioletuset o, regressioertoimie PNS-estimaattorit ormaaliaautueita Jaaumie avulla luottamusvälit Regressioertoime β i (+ pl luottamusväli luottamustasolla ( α ossa b ˆD( i ± t / bi - b i = regressioertoime β i estimaattori α -±t α/ = luottamustasoa ( α vastaavat luottamusertoimet, t-aautueet vapausastei - ˆD ( bi = s ( X X = regressioertoime estimaattori i+, i+ variassi estimaattori, s = ääösvariassi estimaattori Kai Virtae Yleistesti regressio olemassaololle Nollahypoteesi H 0 : β = β = L= β = 0 Evivaletisti R =0 Nollahypoteesi pätee => selitettävä muuttua ei riipu yhdestäää selittäästä Nollahypoteesi ei päde => selitettävä muuttua riippuu aiai yhdestä selittäästä F-testisuure (F-aauma, vapausasteet a -- R SSM F = = ossa R SSE R = estimoidu malli selitysaste SSM = estimoidu malli mallieliösumma SSE = estimoidu malli ääöseliösumma Testisuuree ormaaliarvo oi ysi p-arvo = P(F > testisuuree arvo Suuri testisuuree arvo / piei p-arvo => ollahypoteesi ei päde Kai Virtae Testit regressioertoimille Nollahypoteesi H 0i : β i = 0, i = 0,,, K, Nollahypoteesi H 00 o => mallissa ei vaiota Nollahypoteesi H 0i, i=,,, o => selitettävä muuttua y ei riipu selittäästä i Nollahypoteesi H 0i, i=,,, ei päde => selitettävä muuttua y riippuu selittäästä i t-testisuureet (t-aautuut, vapausasteet bi ti =, i= 0,,, K, ossa ˆD( bi b i = regressioertoime β i estimaattori ˆD ( b i = regressioertoime β i estimaattori variassi estimaattori Testisuuree ormaaliarvo olla Itseisarvoltaa suuri testisuure / piei p-arvo => H 0i hylyy Vaihtoehtoie hypoteessi voi olla ysi- tai asisuutaie Kai Virtae 3 Eustamie usea selittää lieaarisella regressiomallilla Tavoitteea eustaa selitettävää muuttuaa y y% = β + β % + β % + L + β % + % ε u selittävät muuttuat,,, saavat arvot Kasi aatusmallia: (ii 0 %, %, K, % Eustetaa selitettävä muuttua y odotettavissa oleva eli esimääräie arvo Eustetaa selitettävä muuttua y ysittäie arvo Kai Virtae 4 6
y: odotusarvo a y: ysittäise arvo luottamusvälit Odotusarvo luottamusväli luottamustasolla ( α + % + % + L+ % ± α z% X X z% b0 b b b t / s ( Ysittäise arvo luottamusväli luottamustasolla ( α b0 + b % + b % + L+ b % ± tα / s + z% ( X X z% Edellä t α/ a +t α/ luottamustaso ( α luottamusertoimet, t-aautueet vapausastei s ääösvariassi estimaattori z% = (, %, %, K, % y: arvo luottamusvyö vs. y: odotusarvo luottamusvyö Luottamusvälit muodostavat selittäie arvoe futioa luottamusvyö estimoidu regressiotaso ympärille Ysittäise arvo luottamusvyö o leveämpi ui odotettavissa oleva arvo luottamusvyö Kesimääräise arvo eustamie o helpompaa ui ysittäise arvo eustamie Ysittäise arvo luottamusvälissä otetaa huomioo mittausvirhe / oevirhe, oa poistuu esiarvoistamalla Kumpaa äytäössä äytetää? Philosööffie ysymys vrt. löpiä lueolla ro. 7 Kai Virtae 5 Kai Virtae 6 Selittävie muuttuie esiäie täreys Selittävät muuttuat usei fysiaalisesti eri laatua => regressioertoimie arvoilla suuria eroa Mitä selittäät ovat täreimpiä / mitä selittäät vaiuttavat selittäää eite? Osittaisorrelaatiot Uusi regressiomalli, stadardoidut muuttuat: Aluperäiset havaiot (y i, i,..., i, i=,..., Käytetää aluperäisiä selitettävä arvoa y i Uudet selittäie arvot z i =( i - /s, =,...,, i=,...,, ossa a s muuttua havaioista lasettu esiarvo a esihaota Uusi regressiomalli datalle (y i,z i,...,z i, i=,..., Uudet selittäät laaduttomia suureita Regressiertoimie itseisarvot uvaavat selittäie esiäistä täreyttä Oleaiste tilastolliste tuusluue arvot säilyvät aluperäisiä, esim. selitysaste Kai Virtae 7 7