Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1
Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään lineaarisella regressiomallilla y = β + β1 x + ε, = 1,, K, n Standardioletukset äännöstermeistä Regressiokertoimien estimaattorit PNS-menetelmällä Jäännösvarianssin Var(ε ) = σ estimaattori: n = e n = 1 ossa e estimoidun mallin residuaali eli havainnon a sovitteen erotus Varianssianalyysihaotelma: kokonaisns SST = äännösns SEE + mallins SSM Selitysaste: R = SSM / SST = 1 SSE / SST regressiomallin hyvyys s 1 Kai Virtanen
Päättely yhden selittään lineaarisesta regressiomallista Regressiokerroin b 1 lähellä nollaa => muuttuien välillä ei ole lineaarista tilastollista riippuvuutta kaukana nollasta => muuttuien välillä on lineaarinen rilastollinen riippuvuus merkki => riippuvuuden suunta, + / - Selitysaste R lähellä nollaa => ei riippuvuutta, malli ei selitä alkuunkaan selitettävän muuttuan vaihtelua lähellä ykkästä => riippuvuus, malli selittää hyvin selitettävän muuttaan vaihtelun Mitä tarkoittaa lähellä / kaukana? Ratkaisu: regressiokertoimien luottamusvälit testit regressiokertoimille testi selitysasteelle Selitettävän ennustaminen annetulla selittään arvolla yksittäisen arvon ennuste a luottamusväli keskimääräisen arvon ennuste a luottamusväli Kai Virtanen 3
Regressiokertoimien luottamusvälit Jos äännöstermien standardioletukset ok, regressiokertoimien PNS-estimaattorit normaaliakautuneita Jakaumien avulla luottamusvälit Regressiosuoran kulmakertoimen β 1 luottamusväli luottamustasolla (1 α) b ± t 1 α / 1 s x Regressiosuoran vakion β luottamusväli luottamustasolla (1 α) b ± t α / Luottamuskertoimet Studentin t-akaumasta, vapausasteet (n ) s on äännösvarianssin σ harhaton estimaattori n s s n = 1 x n( n 1) s x Kai Virtanen 4
Testi regressiosuoran kulmakertoimelle Nollahypoteesi t-testisuure (t-akautunut, vapausasteet n-) t 1 H : β = β = 1 1 1 b β 1 1 s /( n 1 s ) Itseisarvoltaan suuri testisuureen arvo / pieni p-arvo => nollahypoteesi ei päde Kaksisuuntainen vaihtoehtoinen hypoteesi, merkitsevyystaso α: nollahypoteesi ei päde β 1 ei ole luottamusvälin sisällä, luottamustaso 1-α Yksisuuntainen vaihtoehtoinen hypoteesi, merkitsevyystaso α: nollahypoteesi ei päde β 1 ei ole luottamusvälin sisällä, luottamustaso 1-α x Kai Virtanen 5
Nollahypoteesi Testi regressiosuoran vakiolle t-testisuure (t-akautunut, vapausasteet n-) t H : β = β = ( ( 1) ) x Itseisarvoltaan suuri testisuureen arvo / pieni p-arvo => nollahypoteesi ei päde b β s x n n s Kaksisuuntainen vaihtoehtoinen hypoteesi, merkitsevyystaso α: nollahypoteesi ei päde β ei ole luottamusvälin sisällä, luottamustaso 1-α Yksisuuntainen vaihtoehtoinen hypoteesi, merkitsevyystaso α: nollahypoteesi ei päde β ei ole luottamusvälin sisällä, luottamustaso 1-α Kai Virtanen 6
Testi selitysasteelle Nollahypoteesi R =, vaihtoehtoinen hypoteesi R > Ekvivalentisti H : β = 1 1 F-testisuure (F-akauma, vapausasteet 1 a n ) R F = ( n ) 1 R ossa R on estimoidun mallin selitysaste Suuret testisuureen arvot => nollahypoteesi ei päde p-arvo = P(F > testisuureen arvo) Kai Virtanen 7
Selitysasteen testaamisesta Yhden selittään mallille => Neliöuuri edellisestä R = r xy t = n rxy 1 r rxy = ( n ) 1 r - t-akautunut, vapausasteet (n ) Suuret testisuureen arvot => nollahypoteesi R = ei päde Huom! edellinen t-testisuure a t-testisuure korreloimattomuudelle ovat ekvivalenttea Lisäksi rxy b1 t = n = = t 1 1 r s / n 1 s xy x eli käytännössä ykshailee testataanko b 1 vai R (yhden selittään malli!!!) F xy xy Kai Virtanen 8
Ennustaminen yhden selittään lineaarisella regressiomallilla Oletetaan muuttuien x a y välille lineaarinen tilastollinen riippuvuus Ennustetaan selitettävää muuttuaa y, kun selittävä muuttua x saa arvon x% Kaksi aatusmallia: (i) (ii) y = β + β1 x + ε, = 1,, K, n Tavoitteena ennustaa selitettävän muuttuan y odotettavissa oleva eli keskimääräinen arvo Tavoitteena ennustaa selitettävän muuttuan y yksittäinen arvo Kai Virtanen 9
y:n odotusarvon ennustaminen Mikä on paras ennuste y:n odotettavissa olevalle arvolle y% x% = β + β + % ε 1 kun selittää saa arvon? Vastaus: Selitettävän muuttuan y ehdollinen odotusarvo E( y% x% ) = β + β x% 1 Odotusarvo kuvaa y:n keskimäärin saamia arvoa x:n saamien arvoen funktiona Estimaattori 1 - b a b 1 regressiokertoimien PNS-estimaattorit - ennuste normaaliakautunut x% ŷ x% = b + b x% Kai Virtanen 1
y:n odotusarvon luottamusväli Odotusarvon luottamusväli luottamustasolla (1 α) 1 ( x% x ) b + b x% ± t s + n ( n 1) s x 1 α / - luottamuskertoimet Studentin t-akaumasta, vapausasteet n - s on äännösvarianssin σ harhaton estimaattori Luottamusväli muodostaa selittään x arvoen funktiona luottamusvyön estimoidun regressiosuoran y = b + b 1 x ympärille Luottamusväli kaventuu, os havaintoen lukumäärä tai selittään otosvarianssi kasvaa Luottamusväli on sitä leveämpi, mitä kauempana piste on selittään keskiarvosta x% Kai Virtanen 11
y:n arvon ennustaminen Oletetaan, että selitettävä muuttua y saa arvon y% x% = β + β + % ε 1 kun selittää x saa arvon Mikä on paras ennuste selitettävän muuttuan y arvolle y%, kun selittää x saa arvon? Valitaan selitettävän muuttuan arvon ennusteen estimaattoriksi ŷ x% = b + b x% 1 ossa b a b 1 ovat regressiokertoimien PNS-estimaattorit Tällöin ennustevirhe y% yˆ x% normaaliakautunut, odotusarvo = x% x% Kai Virtanen 1
y:n arvon luottamusväli Selitettävän muuttuan arvon luottamusväli luottamustasolla (1 α) 1 ( x% x ) b + b x% ± t s 1 + + n ( n 1) s x 1 α / - luottamuskertoimet Studentin t-akaumasta, vapausasteet (n ) - s on äännösvarianssin σ harhaton estimaattori Luottamusväli muodostaa selittään x arvoen x% funktiona luottamusvyön estimoidun regressiosuoran y = b + b 1 x ympärille Luottamusväli kaventuu, os havaintoen lukumäärä tai selittään otosvarianssi kasvaa Luottamusväli on sitä leveämpi, mitä kauempana piste on selittään keskiarvosta x% Kai Virtanen 13
y:n arvon luottamusväli vs. y:n odotusarvon luottamusväli Yksittäisen arvon luottamusvyö on leveämpi kuin odotusarvon luottamusvyö Selitettävän muuttuan keskimääräisen arvon ennustaminen on helpompaa kuin yksittäisen arvon ennustaminen Yksittäisen arvon luottamusvälissä otetaan huomioon mittausvirhe / koevirhe, oka poistuu keskiarvoistamalla Kumpaa sitten käytännössä käytetään? kumpaakin riippuu tilanteesta: laaki a vainaa vs. keskimäärin laaki aiheuttaa vainaan Kai Virtanen 14