Harjoitus 9: Excel - Tilastollinen analyysi

Samankaltaiset tiedostot
Johdatus regressioanalyysiin. Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Mat Tilastollisen analyysin perusteet, kevät 2007

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Harjoitus 3: Regressiomallit (Matlab)

Harjoitus 3: Regressiomallit (Matlab)

Yhden selittäjän lineaarinen regressiomalli

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Sovellettu todennäköisyyslaskenta B

Yleinen lineaarinen malli

Korrelaatiokertoinen määrittely 165

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Johdatus regressioanalyysiin

Yleistetyistä lineaarisista malleista

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Koesuunnittelu 2 k -faktorikokeet. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

Dynaamiset regressiomallit

Harjoitus 8: Excel - Optimointi

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

2. Teoriaharjoitukset

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

Vastepintamenetelmä. Heliövaara 1

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018

Kaksisuuntainen varianssianalyysi. Heliövaara 1

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Lohkoasetelmat. Kuusinen/Heliövaara 1

Harjoitus 4: Matlab - Optimization Toolbox

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Lapsen pituuden selittäminen lineaarisella regressiomallilla

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Osa 2: Otokset, otosjakaumat ja estimointi

Lohkoasetelmat. Heliövaara 1

Harjoitus 2: Matlab - Statistical Toolbox

Harjoitus 7: NCSS - Tilastollinen analyysi

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

OPETUSSUUNNITELMALOMAKE

Erikoistyö: Alkoholin kulutusmenojen ennustaminen

031021P Tilastomatematiikka (5 op) viikko 6

031021P Tilastomatematiikka (5 op) viikko 6

4.2 Useampi selittävä muuttuja (kertausta)

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

tilastotieteen kertaus

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Pientalojen radonpitoisuuksien tilastollinen analyysi

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

Koesuunnittelu Vastepintamenetelmä. TKK (c) Ilkka Mellin (2005) 1

Niina Matikainen Auton arvon aleneminen iän ja käytön myötä

Estimointi. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Harha mallin arvioinnissa

Havaitsevan tähtitieteen peruskurssi I. Datan käsittely. Jyri Lehtinen. kevät Helsingin yliopisto, Fysiikan laitos

Aki Taanila LINEAARISET REGRESSIOMALLIT

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

2. Tietokoneharjoitukset

1. Tilastollinen malli??

805306A Johdatus monimuuttujamenetelmiin, 5 op

Usean selittävän muuttujan regressioanalyysi

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Likimääräisratkaisut ja regularisaatio

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

min x x2 2 x 1 + x 2 1 = 0 (1) 2x1 1, h = f = 4x 2 2x1 + v = 0 4x 2 + v = 0 min x x3 2 x1 = ± v/3 = ±a x 2 = ± v/3 = ±a, a > 0 0 6x 2

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

1 MATEMAATTISIA VÄLINEITÄ TALOUSELÄMÄN ONGELMIIN Algebran perusteita 8 Potenssit Juuret 15 Tuntematon ja muuttuja 20 Lausekkeen käsittely 24

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

Transkriptio:

Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1

Harjoituksen aiheita Tutustuminen regressioanalyysiin Yhden selittäjän lineaarinen regressiomalli sekä yleinen lineaarinen malli Regressimallin parametrien määrittäminen (pienimmän neliösumman menetelmä) Mat-2.2107 Sovelletun matematiikan tietokonetyöt 2

Regressioanalyysi Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla. Regressioanalyysissa selitettävän muuttujan tilastolliselle riippuvuudelle selittävistä muuttujista pyritään rakentamaan tilstollinen malli, jota kutsutaan regressiomalliksi. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 3

Regressioanalyysin tavoitteet Regressioanalyysin mahdollisia tavoitteita: (i) Selitettävän muuttujan ja selittävien muuttujien tilastollisen riippuvuuden luonteen kuvaaminen. (ii) Selitettävän muuttujan arvojen ennustaminen. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 4

Regressiomalli Regressiomallissa y j = f(x j ; β) + ε j, j = 1, 2,...,n on seuraavat osat: y j = Selitettävän muuttujan havaittu arvo havaintoyksikössä j. x j = Selittävän muuttujan havaittu arvo havaintoyksikössä j. β = Tuntematon ei-satunnainen parametri. ε j = Satunnainen virhetermi havaintoyksikössä j. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 5

Regressio-ongelma Regressioanalyysissa pyritään valitsemaan regressiomallin parametrin β arvo siten, että kaikista virhetermeistä ε j tulee samanaikaisesti mahdollisimman pieniä. Pyritään siis valitsemaan parametri β siten, että käyrä y = f(x; β) kulkisi mahdollisimman läheltä jokaista havaintopistettä (x j, y j ) R 2, j = 1, 2,..., n. Erään ratkaisun tähän käyränsovitusongelmaan tarjoaa pienimmän neliösumman menetelmä. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 6

Pienimmän neliösumman menetelmä Pienimmän neliösumman menetelmässä pyritään minimoimaan regressiomallin y j = f(x j ; β) + ε j, j = 1, 2,...,n virhetermien ε j neliöden summaa, muuttamalla parametrin β arvoa: n n min ε 2 j min (y j f(x j ; β)) 2 β β j=1 j=1 Optimaalinen β:n arvo on parametrin β PNS-estimaatti. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 7

Regressiosuoran sovittaminen aineistoon Kuvan regressiosuora on sovitettu PNS-menetelmällä. Virhetermit ε i ovat pystysuuntaisia etäisyyksiä havaintopisteen ja suoralla olevan sovitteen välillä. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 8

Yhden selittäjän lineaarinen regressiomalli Yhden selittäjän lineaarinen regressiomalli on muotoa y j = β 0 + β 1 x j + ε j, j = 1, 2,...,n, jossa y j = Selitettävän muuttujan havaittu arvo havaintoyksikössä j. x j = Selittävän muuttujan havaittu arvo havaintoyksikössä j. β 0 = Vakioselittäjän regressiokerroin, joka on tuntematon vakio. β 1 = Selittäjän x regressiokerroin, joka on tuntematon vakio. ε j = Satunnainen virhetermi havaintoyksikössä j. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 9

Virhetermin standardioletukset Regressiomallin virhetermit ε j ovat satunnaismuuttujia, joiden ns. standardioletukset ovat: (i) E(ε j ) = 0, j = 1, 2,...,n. (ii) Var(ε j ) = σ 2, j = 1, 2,...,n. (iii) Cor(ε j, ε l ) = 0, j l. Tavallisesti tehdään myös normaalisuusoletus (iv) ε j N(0, σ 2 ), j = 1, 2,...,n. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 10

Pienimmän neliösumman menetelmä Pienimmän neliösumman menetelmässä yhden selittäjän lineaarisen regressiomallin y j = β 0 + β 1 x j + ε j, j = 1, 2,...,n, regressiokertoimien β 0 ja β 1 estimaattorit määrätään minimoimalla virhetermien ε j neliösumma min β n j=1 ε 2 j min β n (y j β 0 β 1 x j ) 2 j=1 regressiokertoimien β 0 ja β 1 suhteen. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 11

Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n aritmeettiset keskiarvot ( x ja ȳ), otosvarianssit (s 2 x ja s 2 y), otoskovarianssi (s xy ) ja otoskorrelaatiokerroin (r xy ) tavanomaisilla kaavoillaan. Yhden selittäjän lineaarisen regressiomallin regressiokertoimien β 0 ja β 1 PNS-estimaattorit ovat b 0 = ȳ b 1 x b 1 = s xy s 2 x = r xy s y s x Mat-2.2107 Sovelletun matematiikan tietokonetyöt 12

Sovitteet ja residuaalit Olkoot b 0 ja b 1 yhden selittäjän lineaarisen regressiomallin y j = β 0 + β 1 x j + ε j, j = 1, 2,...,n regressiokertoimien β 0 ja β 1 PNS-estimaattorit. Estimoidun mallin sovite ŷ j = b 0 + b 1 x j, j = 1, 2,...,n on estimoidun regressiosuoran arvo havaintopisteessä x j. Estimoidun mallin residuaali e j = y j ŷ j = y j b 0 b 1 x j, j = 1, 2,...,n on selitettävän muuttujan y havaitun arvon y j ja sovitteen ŷ j arvon erotus. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 13

Neliösummia kokonaisneliösumma: SST = n (y j ȳ) 2 j=1 jäännösneliösumma: n SSE = j=1 mallineliösumma: n SSM = (ŷ j ȳ) 2 j=1 Näille neliösummille pätee varianssianalyysihajotelma SST = SSM + SSE e 2 j Mat-2.2107 Sovelletun matematiikan tietokonetyöt 14

Selitysaste Tunnuslukua R 2 = 1 SSE SST = SSM SST käytetään regressiomallin hyvyyden mittarina. Tunnuslukua R 2 kutsutaan selityasteeksi ja se mittaa regressiomallin selittämää osuutta selitettävän muuttujan y havaittujen arvojen kokonaisvaihtelusta. Yhden selittäjän lineaarisessa regressiomallissa pätee: Selitysasteelle pätee aina R 2 = r 2 xy 0 R 2 1 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 15

Usean selittäjän lineaarinen regressiomalli Usean selittäjän lineaarisessa regressiomallissa selitettänän muuttujan y havaittujen arvojen vaihtelu halutaan selittää selittävien muuttujien x 1, x 2,...,x k havaittujen arvojen vaihtelun avulla. Usean selittäjän lineaarista regressiomallia kutsutaan tavallisesti yleiseksi lineaariseksi malliksi. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 16

Yleinen lineaarinen malli Yhtälö y j = β 0 + β 1 x j1 + β 2 x j2 +... + β k x jk + ε j, j = 1, 2,...,n määrittelee yleisen lineaarisen mallin, jossa on seuraavat kertoimet: β 0 = vakioselittäjän regressiokerroin. β i = selittäjän x i regressiokerroin. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 17

Tilastollinen analyysi Excelillä Excel on monipuolinen taulukkolaskentaohjelma, joka soveltuu numeeriseen laskentaan silloin, kun käsiteltävän datan määrä on kohtuullinen. Excel sisältää valmiiksi mm. optimointitehtävien ratkaisijan (Solver) ja tärkeimmät tilastolliset analyysityökalut (Analysis ToolPak). Excelillä voi myös tehdä omia sovelluksia Visual Basic -tyyppisellä ohjelmointikielellä. Tässä harjoituksessa tarvitaan Analysis ToolPak -laajennusta ja Solveria. Laajennukset saa käyttöön Tools/Add-Ins...-valikosta valitsemalla kohdat Analysis ToolPak ja Solver Add-in. Kun laajennukset on otettu käyttöön, ne löytyvät Tools-valikosta kohdista Data Analysis ja Solver. Mat-2.2107 Sovelletun matematiikan tietokonetyöt 18

Kysymyksiä 1. Millainen on lineaarinen regressiomalli? 2. Mikä on optimointitehtävä pienimmän neliösumman menetelmässä regressiomallin parametrien estimoimiseksi? 3. Mitä mallin selitysaste R 2 ilmaisee? 4. Mitä ovat sovitteet ja residuaalit regressiomallissa? 5. Mitkä ovat regressiomallin virhetermien standardioletukset? 6. Mikä on varianssianalyysihajotelma? Mat-2.2107 Sovelletun matematiikan tietokonetyöt 19