Johdatus regressioanalyysiin
Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla. Regressioanalyysissa selitettävän muuttujan tilastolliselle riippuvuudelle selittävistä muuttujista pyritään rakentamaan tilstollinen malli, jota kutsutaan regressiomalliksi.
Regressioanalyysin tavoitteet Regressioanalyysin mahdollisia tavoitteita: (i) Selitettävän muuttujan ja selittävien muuttujien tilastollisen riippuvuuden luonteen kuvaaminen. (ii) Selitettävän muuttujan arvojen ennustaminen.
Regressiomalli Regressiomallissa y j = f(x j ;β) + ε j, j = 1, 2,...,n on seuraavat osat: y j = Selitettävän muuttujan havaittu arvo havaintoyksikössä j. x j = Selittävän muuttujan havaittu arvo havaintoyksikössä j. β = Tuntematon ei-satunnainen parametri. ε j = Satunnainen virhetermi havaintoyksikössä j.
Regressio-ongelma Regressioanalyysissa pyritään valitsemaan regressiomallin parametrin β arvo siten, että kaikista virhetermeistä ε j tulee samanaikaisesti mahdollisimman pieniä. Pyritään siis valitsemaan parametri β siten, että käyrä y = f(x;β) kulkisi mahdollisimman läheltä jokaista havaintopistettä (x j,y j ) R 2, j = 1, 2,...,n. Erään ratkaisun tähän käyränsovitusongelmaan tarjoaa pienimmän neliösumman menetelmä.
pienimmän neliösumman menetelmä pienimmän neliösumman menetelmässä pyritään minimoimaan regressiomallin y j = f(x j ;β) + ε j, j = 1, 2,...,n virhetermien ε j neliöden summaa, muuttamalla parametrin β arvoa: min β n j=1 ε 2 j min β n (y j f(x j ;β)) 2 j=1 Optimaalinen β:n arvo on parametrin β PNS-estimaatti.
Yhden selittäjän lineaarinen regressiomalli
Malli ja sen osat Yhden selittäjän lineaarinen regressiomalli on muotoa y j = β 0 + β 1 x j + ε j, j = 1, 2,...,n, jossa y j = Selitettävän muuttujan havaittu arvo havaintoyksikössä j. x j = Selittävän muuttujan havaittu arvo havaintoyksikössä j. β 0 = Vakioselittäjän regressiokerroin, joka on tuntematon vakio. β 1 = Selittäjän x regressiokerroin, joka on tuntematon vakio. ε j = Satunnainen virhetermi havaintoyksikössä j.
Virhetermin standardioletukset 1/2 Regressiomallin virhetermit ε j ovat satunnaismuuttujia, joiden ns. standardioletukset ovat: (i) E(ε j ) = 0, j = 1, 2,...,n. (ii) Var(ε j ) = σ 2, j = 1, 2,...,n. (iii) Cor(ε j,ε l ) = 0, j l. Tavallisesti tehdään myös normaalisuusoletus (iv) ε j N(0,σ 2 ), j = 1, 2,...,n.
Virhetermin standardioletukset 2/2 Jos regressiomallin virhetermejä ε j koskevat standardioletukset (i)-(iii) pätevät, on selitettävän muuttujan havaituilla arvoilla seuraavat stokastiset ominaisuudet: (i) E(y j ) = β 0 + β 1 x j, j = 1, 2,...,n. (ii) Var(y j ) = σ 2, j = 1, 2,...,n. (iii) Cor(y j,y l ) = 0, j l. Jos myös normaalisuusoletus (iv) pätee, niin (iv) y j N(β 0 + β 1 x j,σ 2 ), j = 1, 2,...,n.
Pienimmän neliösumman menetelmä Pienimmän neliösumman menetelmässä yhden selittäjän lineaarisen regressiomallin y j = β 0 + β 1 x j + ε j, j = 1, 2,...,n, regressiokertoimien β 0 ja β 1 estimaattorit määrätään minimoimalla virhetermien ε j neliösumma min β n j=1 ε 2 j min β n (y j β 0 β 1 x j ) 2 j=1 regressiokertoimien β 0 ja β 1 suhteen.
Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n aritmeettiset keskiarvot ( x ja ȳ), otosvarianssit (s 2 x ja s2 y ), otoskovarianssi (s xy) ja otoskorrelaatiokerroin (r xy ) tavanomaisilla kaavoillaan. Yhden selittäjän lineaarisen regressiomallin regressiokertoimien β 0 ja β 1 PNS-estimaattorit ovat b 0 = ȳ b 1 x b 1 = s xy s 2 x = r xy s y s x