Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1
Harjoituksen aiheita Tutustuminen regressioanalyysiin Yhden selittäjän lineaarinen regressiomalli sekä yleinen lineaarinen malli Regressimallin parametrien määrittäminen (pienimmän neliösumman menetelmä) Mat-2.2107 Sovelletun matematiikan tietokonetyöt 2
Regressioanalyysi Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla. Regressioanalyysissa selitettävän muuttujan tilastolliselle riippuvuudelle selittävistä muuttujista pyritään rakentamaan tilstollinen malli, jota kutsutaan regressiomalliksi. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 3
Regressioanalyysin tavoitteet Regressioanalyysin mahdollisia tavoitteita: (i) Selitettävän muuttujan ja selittävien muuttujien tilastollisen riippuvuuden luonteen kuvaaminen. (ii) Selitettävän muuttujan arvojen ennustaminen. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 4
Regressiomalli Regressiomallissa y j = f(x j ; β) + ε j, j = 1, 2,...,n on seuraavat osat: y j = Selitettävän muuttujan havaittu arvo havaintoyksikössä j. x j = Selittävän muuttujan havaittu arvo havaintoyksikössä j. β = Tuntematon ei-satunnainen parametri. ε j = Satunnainen virhetermi havaintoyksikössä j. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 5
Regressio-ongelma Regressioanalyysissa pyritään valitsemaan regressiomallin parametrin β arvo siten, että kaikista virhetermeistä ε j tulee samanaikaisesti mahdollisimman pieniä. Pyritään siis valitsemaan parametri β siten, että käyrä y = f(x; β) kulkisi mahdollisimman läheltä jokaista havaintopistettä (x j, y j ) R 2, j = 1, 2,..., n. Erään ratkaisun tähän käyränsovitusongelmaan tarjoaa pienimmän neliösumman menetelmä. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 6
Pienimmän neliösumman menetelmä Pienimmän neliösumman menetelmässä pyritään minimoimaan regressiomallin y j = f(x j ; β) + ε j, j = 1, 2,...,n virhetermien ε j neliöden summaa, muuttamalla parametrin β arvoa: n n min ε 2 j min (y j f(x j ; β)) 2 β β j=1 j=1 Optimaalinen β:n arvo on parametrin β PNS-estimaatti. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 7
Regressiosuoran sovittaminen aineistoon Kuvan regressiosuora on sovitettu PNS-menetelmällä. Virhetermit ε i ovat pystysuuntaisia etäisyyksiä havaintopisteen ja suoralla olevan sovitteen välillä. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 8
Yhden selittäjän lineaarinen regressiomalli Yhden selittäjän lineaarinen regressiomalli on muotoa y j = β 0 + β 1 x j + ε j, j = 1, 2,...,n, jossa y j = Selitettävän muuttujan havaittu arvo havaintoyksikössä j. x j = Selittävän muuttujan havaittu arvo havaintoyksikössä j. β 0 = Vakioselittäjän regressiokerroin, joka on tuntematon vakio. β 1 = Selittäjän x regressiokerroin, joka on tuntematon vakio. ε j = Satunnainen virhetermi havaintoyksikössä j. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 9
Virhetermin standardioletukset Regressiomallin virhetermit ε j ovat satunnaismuuttujia, joiden ns. standardioletukset ovat: (i) E(ε j ) = 0, j = 1, 2,...,n. (ii) Var(ε j ) = σ 2, j = 1, 2,...,n. (iii) Cor(ε j, ε l ) = 0, j l. Tavallisesti tehdään myös normaalisuusoletus (iv) ε j N(0, σ 2 ), j = 1, 2,...,n. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 10
Pienimmän neliösumman menetelmä Pienimmän neliösumman menetelmässä yhden selittäjän lineaarisen regressiomallin y j = β 0 + β 1 x j + ε j, j = 1, 2,...,n, regressiokertoimien β 0 ja β 1 estimaattorit määrätään minimoimalla virhetermien ε j neliösumma min β n j=1 ε 2 j min β n (y j β 0 β 1 x j ) 2 j=1 regressiokertoimien β 0 ja β 1 suhteen. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 11
Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n aritmeettiset keskiarvot ( x ja ȳ), otosvarianssit (s 2 x ja s 2 y), otoskovarianssi (s xy ) ja otoskorrelaatiokerroin (r xy ) tavanomaisilla kaavoillaan. Yhden selittäjän lineaarisen regressiomallin regressiokertoimien β 0 ja β 1 PNS-estimaattorit ovat b 0 = ȳ b 1 x b 1 = s xy s 2 x = r xy s y s x Mat-2.2107 Sovelletun matematiikan tietokonetyöt 12
Sovitteet ja residuaalit Olkoot b 0 ja b 1 yhden selittäjän lineaarisen regressiomallin y j = β 0 + β 1 x j + ε j, j = 1, 2,...,n regressiokertoimien β 0 ja β 1 PNS-estimaattorit. Estimoidun mallin sovite ŷ j = b 0 + b 1 x j, j = 1, 2,...,n on estimoidun regressiosuoran arvo havaintopisteessä x j. Estimoidun mallin residuaali e j = y j ŷ j = y j b 0 b 1 x j, j = 1, 2,...,n on selitettävän muuttujan y havaitun arvon y j ja sovitteen ŷ j arvon erotus. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 13
Neliösummia kokonaisneliösumma: SST = n (y j ȳ) 2 j=1 jäännösneliösumma: n SSE = j=1 mallineliösumma: n SSM = (ŷ j ȳ) 2 j=1 Näille neliösummille pätee varianssianalyysihajotelma SST = SSM + SSE e 2 j Mat-2.2107 Sovelletun matematiikan tietokonetyöt 14
Selitysaste Tunnuslukua R 2 = 1 SSE SST = SSM SST käytetään regressiomallin hyvyyden mittarina. Tunnuslukua R 2 kutsutaan selityasteeksi ja se mittaa regressiomallin selittämää osuutta selitettävän muuttujan y havaittujen arvojen kokonaisvaihtelusta. Yhden selittäjän lineaarisessa regressiomallissa pätee: Selitysasteelle pätee aina R 2 = r 2 xy 0 R 2 1 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 15
Usean selittäjän lineaarinen regressiomalli Usean selittäjän lineaarisessa regressiomallissa selitettänän muuttujan y havaittujen arvojen vaihtelu halutaan selittää selittävien muuttujien x 1, x 2,...,x k havaittujen arvojen vaihtelun avulla. Usean selittäjän lineaarista regressiomallia kutsutaan tavallisesti yleiseksi lineaariseksi malliksi. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 16
Yleinen lineaarinen malli Yhtälö y j = β 0 + β 1 x j1 + β 2 x j2 +... + β k x jk + ε j, j = 1, 2,...,n määrittelee yleisen lineaarisen mallin, jossa on seuraavat kertoimet: β 0 = vakioselittäjän regressiokerroin. β i = selittäjän x i regressiokerroin. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 17
Tilastollinen analyysi Excelillä Excel on monipuolinen taulukkolaskentaohjelma, joka soveltuu numeeriseen laskentaan silloin, kun käsiteltävän datan määrä on kohtuullinen. Excel sisältää valmiiksi mm. optimointitehtävien ratkaisijan (Solver) ja tärkeimmät tilastolliset analyysityökalut (Analysis ToolPak). Excelillä voi myös tehdä omia sovelluksia Visual Basic -tyyppisellä ohjelmointikielellä. Tässä harjoituksessa tarvitaan Analysis ToolPak -laajennusta ja Solveria. Laajennukset saa käyttöön Tools/Add-Ins...-valikosta valitsemalla kohdat Analysis ToolPak ja Solver Add-in. Kun laajennukset on otettu käyttöön, ne löytyvät Tools-valikosta kohdista Data Analysis ja Solver. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 18
Kysymyksiä 1. Millainen on lineaarinen regressiomalli? 2. Mikä on optimointitehtävä pienimmän neliösumman menetelmässä regressiomallin parametrien estimoimiseksi? 3. Mitä mallin selitysaste R 2 ilmaisee? 4. Mitä ovat sovitteet ja residuaalit regressiomallissa? 5. Mitkä ovat regressiomallin virhetermien standardioletukset? 6. Mikä on varianssianalyysihajotelma? Mat-2.2107 Sovelletun matematiikan tietokonetyöt 19