Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

Koko: px
Aloita esitys sivulta:

Download "Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1"

Transkriptio

1 Johdatus tilastotieteeseen Regressiodiagnostiikka TKK (c) Ilkka Mellin (2004) 1

2 Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot Regressiokertoimien vakioisuus Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Mallin ennustuskyky TKK (c) Ilkka Mellin (2004) 2

3 Regressiodiagnostiikka: Mitä opimme? 1/2 Regressiomallien soveltamisen pääkysymys on seuraava: Kuvaako selitettävän muuttujan ja selittäjien väliselle tilastolliselle riippuvuudelle täsmennetty regressiomalli riippuvuutta oikein? Ns. standardioletukset takaavat sen, että pienimmän neliösumman menetelmä tuottaa regressioparametreille optimaaliset estimaattorit. Jos ns. standardioletukset eivät päde, pienimmän neliösumman menetelmä ei välttämättä ole optimaalinen. Regressiodiagnostiikassa estimoituun regressiomalliin kohdistetaan diagnostisia testejä, joilla pyritään selvittämään pätevätkö mallista tehdyt standardioletukset. Jos diagnostiset testi osoittavat, että regressiomalli on täsmennetty väärin, voidaan mallia pyrkiä korjaamaan niin, että se kuvaisi paremmin selitettävä muuttujan ja selittäjien välistä tilastollista riippuvuutta. TKK (c) Ilkka Mellin (2004) 3

4 Regressiodiagnostiikka: Mitä opimme? 2/2 Tässä luvussa tarkastellaan seuraavia regressiodiagnostiikan kohtia: Regressiografiikan käyttö regressiodiagnostiikassa Poikkeavat havainnot ja niiden tunnistaminen Regressiokertoimien vakioisuuden testaaminen Selittäjien multikollineaarisuuden vaikutukset ja mittaaminen Mallin jäännöstermin homoskedastisuus ja heteroskedastisuus Mallin jäännöstermin korreloituneisuus Mallin jäännöstermin normaalisuus Mallin ennustuskyky TKK (c) Ilkka Mellin (2004) 4

5 Regressiodiagnostiikka: Esitiedot Esitiedot: ks. seuraavia lukuja: Yleinen lineaarinen malli Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (2004) 5

6 Regressiodiagnostiikka: Lisätiedot Yleisen lineaarisen mallin soveltamisen erityiskysymyksiä käsitellään myös luvuissa Regressiomallin valinta Regressioanalyysin erityiskysymyksiä TKK (c) Ilkka Mellin (2004) 6

7 Regressiodiagnostiikka >> Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot Regressiokertoimien vakioisuus Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Mallin ennustuskyky TKK (c) Ilkka Mellin (2004) 7

8 Yleinen lineaarinen malli ja regressiodiagnostiikka Avainsanat Deterministinen malli Heteroskedastisuus Homoskedastisuus Jäännöstermi Korrelaatio Normaalisuus Lineaarinen regressiomalli Mallin ennustuskyky Mallin spesifiointi Mallin täsmentäminen Multikollineaarisuus Pienimmän neliösumman menetelmä Poikkeava havainto Rakenneosa Regressioanalyysi Regressiodiagnostiikka Regressiofunktio Regressiokerroin Regressiomalli Satunnainen osa Selitettävä muuttuja Selittäjien valinta Selittäminen Selittävä muuttuja Spesifiointivirhe Standardioletus Systemaattinen osa Tilastollinen riippuvuus Vakioparametrisuusoletus TKK (c) Ilkka Mellin (2004) 8

9 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallit selitysmalleina Oletetaan, että tavoitteena on selittää selitettävän muuttujan y havaittujen arvojen vaihtelu selittävien muuttujien eli selittäjien x 1, x 2,, x k havaittujen arvojen vaihtelun avulla. Sitä varten selitettävän muuttujan y tilastolliselle riippuvuudelle selittäjistä x 1, x 2,, x k pyritään rakentamaan tilastollinen malli, jota kutsutaan regressiomalliksi. TKK (c) Ilkka Mellin (2004) 9

10 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallien yleinen muoto 1/3 Olkoon selitettävän muuttujan y regressiomalli selittäjien x 1, x 2,, x k suhteen. Tällöin y = f( x, x,, x ; β) + ε, j = 1,2,, n y j = selitettävän muuttujan y satunnainen ja havaittu arvo havaintoyksikössä j x ji = selittävän muuttujan x i havaittu arvo havaintoyksikössä j, i = 1, 2,, k ε j j j1 j2 jk j = satunnainen ja ei-havaittu jäännös- eli virhetermi havaintoyksikössä j TKK (c) Ilkka Mellin (2004) 10

11 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallien yleinen muoto 2/3 Regressiomallissa y = f( x, x,, x ; β) + ε, j = 1,2,, n j j1 j2 jk j selittäjien x 1, x 2,, x k havaittujen arvojen funktio f( x, x,, x ; β) j1 j2 jk muodostaa mallin systemaattisen osan eli rakenneosan ja jäännöstermi ε j muodostaa mallin satunnaisen osan. Mallin systemaattinen osa kuvaa selitettävän muuttujan y tilastollista riippuvuutta selittäjistä x 1, x 2,, x k. TKK (c) Ilkka Mellin (2004) 11

12 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallien yleinen muoto 3/3 Regressiomallissa y = f( x, x,, x ; β) + ε, j = 1,2,, n mallin systemaattisen osan määräävä funktio riippuu parametrista β = (β 1, β 2,, β p ) joka tarkemmin määrää funktion f muodon. Huomautus: j j1 j2 jk j f( x, x,, x ; β) j1 j2 jk Tavallisesti parametrin β arvo on tuntematon ja on siksi estimoitava havainnoista. TKK (c) Ilkka Mellin (2004) 12

13 Yleinen lineaarinen malli ja regressiodiagnostiikka Onko malli oikea ja onko malli hyvä? Regressioanalyysin peruskysymykset: (i) Kuvaako malli selitettävän muuttujan ja selittäjien välistä riippuvuutta sisällöllisesti oikein? Kysymys 1 ei ole tilastotieteellinen ja siihen vastaaminen vaatii tutkittavaa ilmiötä kuvaavan taustateorian tuntemusta. (ii) Kuvaako malli selitettävän muuttujan ja selittäjien välistä riippuvuutta tilastollisesti oikein? Kysymys 2 on tilastotieteellinen ja siihen voidaan pyrkiä vastaamaan tilastotieteen keinoin. TKK (c) Ilkka Mellin (2004) 13

14 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallin hyvyys ja regressiodiagnostiikka 1/2 Regressiomallia pidetään tilastollisesti oikeana, jos mallista saadut estimointitulokset ovat sopusoinnussa mallia koskevien oletuksien kanssa. Siksi regressiomallia koskevien oletuksien tarkistaminen muodostaa keskeisen osan regressioanalyysin soveltamista. Regressiomallia koskevien oletuksien tarkistamista on tapana kutsua regressiodiagnostiikaksi. TKK (c) Ilkka Mellin (2004) 14

15 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallin hyvyys ja regressiodiagnostiikka 2/2 Regressiodiagnostiikassa käytetään seuraavia menetelmiä: Estimoinnin onnistumista havainnollistetaan tilastografiikalla. Estimoinnin onnistumista kuvataan diagnostisilla tunnusluvuilla. Mallia koskevia oletuksia testataan diagnostisilla testeillä. TKK (c) Ilkka Mellin (2004) 15

16 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallin spesifiointi eli täsmentäminen 1/2 Tilastollisen mallin muodon ja mallia koskevien oletuksien määrittelemistä kutsutaan mallin spesifioinniksi eli täsmentämiseksi. Määriteltyä mallia kutsutaan spesifikaatioksi tai täsmennykseksi. TKK (c) Ilkka Mellin (2004) 16

17 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallin spesifiointi eli täsmentäminen 2/2 Regressiomallin spesifioiminen tarkoittaa seuraavien valintojen tekemistä: (i) Mallin selitettävän muuttujan ja selittäjien valinta. (ii) Mallin systemaattisen eli rakenneosan funktionaalisen muodon ja parametroinnin valinta. (iii) Mallin selitettävän muuttujan ja selittäjien funktionaalisen muodon valinta. (iv) Mallin jäännöstermiä koskevien stokastisten oletuksien valinta. TKK (c) Ilkka Mellin (2004) 17

18 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallin täsmentäminen: Kommentteja Valinnat (i)-(iii) liittyvät regressiomallin rakenneosan spesifiointiin. Valinta (iv) liittyy regressiomallin jäännöstermin spesifiointiin. Huomautus: Valinnat (i)-(iv) eivät ole toisistaan riippumattomia. TKK (c) Ilkka Mellin (2004) 18

19 Yleinen lineaarinen malli ja regressiodiagnostiikka Lineaariset regressiomallit Olkoon selitettävän muuttujan y regressiomalli selittäjien x 1, x 2,, x k suhteen muotoa yj = β0 + β1xj1+ β2xj2 + " + βkxjk + ε j, j = 1,2,, n Tällöin malli on lineaarinen sekä parametrien (regressiokertoimien) β 0, β 1, β 2,, β k että selittäjien x 1, x 2,, x k suhteen ja sitä kutsutaan yleiseksi lineaariseksi malliksi. TKK (c) Ilkka Mellin (2004) 19

20 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Määritelmä Olkoon yj = β0 + β1xj1+ β2xj2 + " + βkxjk + ε j, j = 1,2,, n yleinen lineaarinen malli, jossa y j = selitettävän muuttujan y satunnainen ja havaittu arvo havaintoyksikössä j x ji = selittävän muuttujan eli selittäjän x i havaittu arvo havaintoyksikössä j, i = 1, 2,, k β 0 = vakioselittäjän tuntematon regressiokerroin β i ε j = selittäjän x i tuntematon regressiokerroin = satunnainen ja ei-havaittu jäännös- eli virhetermi havaintoyksikössä j TKK (c) Ilkka Mellin (2004) 20

21 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Matriisiesitys Yleinen lineaarinen malli voidaan esittää matriisein muodossa y = Xβ + ε jossa y = selitettävän muuttujan y havaittujen arvojen muodostama satunnainen n-vektori X = selittäjien x 1, x 2,, x k havaittujen arvojen ja ykkösten muodostama n (k + 1)-matriisi β = regressiokertoimien muodostama tuntematon ja kiinteä eli ei-satunnainen (k + 1)-vektori ε = jäännöstermien muodostama ei-havaittu ja satunnainen n-vektori TKK (c) Ilkka Mellin (2004) 21

22 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Standardioletukset kiinteille selittäjille Jos yleisen lineaarisen mallin y = Xβ + ε selittäjät x 1, x 2,, x k ovat kiinteitä eli ei-satunnaisia muuttujia, mallia koskevat standardioletukset voidaan esittää matriisein seuraavassa muodossa: (i) Matriisin X alkiot ovat ei-satunnaisia vakioita. (ii) Matriisi X on täysiasteinen: r(x) = k + 1 (iii) E(ε) = 0 (iv)&(v) Homoskedastisuus- ja korreloimattomuusoletus: (vi) Cov(ε) = σ 2 I Normaalisuusoletus: ε N n (0, σ 2 I) TKK (c) Ilkka Mellin (2004) 22

23 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Standardioletukset satunnaisille selittäjille Jos yleisen lineaarisen mallin y = Xβ + ε selittäjät x 1, x 2,, x k ovat satunnaismuuttujia, mallia koskevat standardioletukset voidaan esittää matriisein seuraavassa muodossa: (i) Matriisin X alkiot ovat satunnaismuuttujia. (ii) Matriisi X on täysiasteinen: r(x) = k + 1 (iii) E(ε X) = 0 (iv) &(v) Homoskedastisuus- ja korreloimattomuusoletus: (vi) Cov(ε X) = σ 2 I Normaalisuusoletus: (ε X) N n (0, σ 2 I) TKK (c) Ilkka Mellin (2004) 23

24 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Rakenneosa ja jäännösosa Yleisessä lineaarisessa mallissa y = Xβ + ε selitettävä muuttujan arvojen vektori y on esitetty kahden osatekijän summana. Mallin systemaattinen eli rakenneosa E( yx) = Xβ riippuu selittäjien havaituista arvoista. Jäännöstermi ε muodostaa mallin satunnaisen osan, joka ei riipu selittäjien havaituista arvoista. TKK (c) Ilkka Mellin (2004) 24

25 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Regressiokertoimien PNS-estimointi 1/2 Yleisen lineaarisen mallin yj = β0 + β1xj1+ β2xj2 + " + βkxjk + ε j, j = 1,2,, n regressiokertoimien β 0, β 1, β 2,, β k PNS- eli pienimmän neliösumman estimaattorit b 0, b 1, b 2,, b k minimoivat jäännös- eli virhetermien ε j neliösumman n n 2 2 ε j = ( y j β0 β1xj1 β2xj2 βkxjk) j= 1 j= 1 " kertoimien β 0, β 1, β 2,, β k suhteen. TKK (c) Ilkka Mellin (2004) 25

26 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Regressiokertoimien PNS-estimointi 2/2 Yleisen lineaarisen mallin y = Xβ + ε regressiokertoimien vektorin β = (β 0, β 1, β 2,, β k ) PNS-estimaattori voidaan esittää matriisein muodossa b= ( XX ) 1 Xy TKK (c) Ilkka Mellin (2004) 26

27 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: PNS-estimaattorin ominaisuudet Yleisen lineaarisen mallin y = Xβ + ε regressiokertoimien vektorin β PNS-estimaattorilla b= ( XX ) 1 Xy on standardioletuksien (i)-(vi) pätiessä seuraavat stokastiset ominaisuudet: E( b) = β Cov( b) = σ ( XX ) 2 1 b β σ XX 2 1 N k+ 1(, ( ) ) TKK (c) Ilkka Mellin (2004) 27

28 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Sovitteet ja residuaalit 1/2 Olkoon b = (b 0, b 1, b 2,, b k ) regressiokertoimien vektorin β = (β 0, β 1, β 2,, β k ) PNS-estimaattori. Määritellään estimoidun mallin sovitteet y kaavalla yˆ j = b0 + bx 1 j 1+ b2x j 2 + " + b k x jk, j = 1,2,, n Määritellään estimoidun mallin residuaalit e j kaavalla e = y yˆ j j j = y b bx b x " b x, j = 1,2,, n j 0 1 j1 2 j2 k jk ˆ j TKK (c) Ilkka Mellin (2004) 28

29 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Sovitteet ja residuaalit 2/2 Sovitteiden muodostama n-vektori voidaan esittää matriisein muodossa yˆ = Xb= X( XX ) 1 Xy = Py Residuaalien muodostama n-vektori voidaan esittää matriisein muodossa 1 e= y yˆ = ( I X( XX ) X ) y = ( I P) y = My Huomautus: Koska residuaalit kuvaavat estimoidun regressiomallin ja havaintoarvojen yhteensopivuutta, monet regressiodiagnostiikan menetelmistä perustuvat estimoidun regressiomallin residuaaleihin tai niiden muunnoksiin. TKK (c) Ilkka Mellin (2004) 29

30 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Sovitteiden ja residuaalien ominaisuudet Sovitteiden muodostamalla n-vektorilla ŷ on seuraavat stokastiset ominaisuudet : E( yˆ ) = Xβ Cov( yˆ ) = σ P = σ X( XX ) X Residuaalien muodostamalla n-vektorilla e on seuraavat stokastiset ominaisuudet : E( e) = Cov( e) = σ M = σ ( I P) = σ ( I X( XX ) X ) Huomautus: Yllä olevan mukaan residuaalit e j ovat yleensä sekä heteroskedastisia että korreloituneita, vaikka jäännöstermit ε j on oletettu homoskedastisiksi ja korreloimattomiksi. TKK (c) Ilkka Mellin (2004) 30

31 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Projektiomatriisit P ja M Matriisit 1 P= X( XX) X 1 M = I P= I X( XX ) X ovat symmetrisiä ja idempotentteja eli projektioita: 2 P = P P = P 2 M = M M = M Lisäksi PM = MP = 0 Matriisia P kutsutaan regressiodiagnostiikassa usein hattumatriisiksi. TKK (c) Ilkka Mellin (2004) 31

32 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Jäännösvarianssin estimointi Yleisen lineaarisen mallin jäännöstermien ε j varianssin eli jäännösvarianssin σ 2 harhaton estimaattori on jossa s 1 n 2 2 = ej n k 1 j= 1 e j = estimoidun mallin residuaali, j = 1, 2,, n n = havaintojen lukumäärä k = (aitojen) selittäjien x i lukumäärä TKK (c) Ilkka Mellin (2004) 32

33 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Mallin spesifiointi Yleistä lineaarista mallia y = Xβ + ε sovellettaessa pääkiinnostus kohdistuu mallin systemaattisen osan eli rakenneosan E( yx) = Xβ oikeaan spesifiointiin eli täsmentämiseen, koska juuri mallin rakenneosa kuvaa selitettävän muuttujan y riippuvuutta selittäjistä x 1, x 2,, x k. Virheet mallin rakenneosan spesifioinnissa johtavat virheellisiin johtopäätöksiin selitettävän muuttujan ja selittäjien välisestä riippuvuudesta. TKK (c) Ilkka Mellin (2004) 33

34 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheet mallin rakenneosassa 1/3 Spesifiointivirheitä lineaarisen mallin rakenneosassa: (i) Sovelletaan lineaarista mallia, vaikka selitettävän muuttujan y riippuvuus selittäjistä x 1, x 2,, x k ei ole lineaarista. (ii) Mallissa on väärät selittäjät: Mallista puuttuu selittäjiä. Mallissa on liikaa selittäjiä. (iii) Selitettävä muuttuja ja/tai selittäjät ovat mallissa väärässä funktionaalisessa muodossa. (iv) Oletetaan virheellisesti, että regressiokertoimet ovat vakioita. TKK (c) Ilkka Mellin (2004) 34

35 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheet mallin rakenneosassa 2/3 Kommentteja kohtiin (i)-(iv): (i) Epälineaaristen regressiomallien käsittely sivuutetaan tässä esityksessä. (ii) Selittäjien valinta on regressioanalyysin keskeisiä ja vaikeimpia ongelmia. Ks. lukua Regressiomallin valinta. (iii) Sopiva selitettävän muuttujan ja/tai selittäjien muunnos saattaa linearisoida selitettävän muuttujan ja selittäjien epälineaarisen riippuvuuden. Ks. lukua Regressiomallin valinta. (iv) Parametrien vakioisuutta on mahdollista testata. Ks. kappaletta Parametrien vakioisuus. TKK (c) Ilkka Mellin (2004) 35

36 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheet mallin rakenneosassa 3/3 Vain huolellinen perehtyminen tutkittavan ilmiön taustateoriaan mahdollistaa regressiomallin rakenneosan spesifioinnin oikein. Spesifiointivirheet regressiomallin rakenneosassa tulevat tavallisesti esiin estimoidun mallin residuaaleissa. TKK (c) Ilkka Mellin (2004) 36

37 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Mallin jäännöstermin spesifiointi Vaikka yleistä lineaarista mallia y = Xβ + ε sovellettaessa pääasiallinen kiinnostus kohdistuu mallin systemaattisen osan eli rakenneosan E( yx) = Xβ oikeaan spesifiointiin, on syytä huomata, että mallin jäännöstermille ε valittu spesifikaatio eli täsmennys vaikuttaa sekä estimointimenetelmän valintaan että mallista tehtävään tilastolliseen päättelyyn. TKK (c) Ilkka Mellin (2004) 37

38 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheet mallin jäännöstermissä 1/3 Spesifiointivirheitä lineaarisen mallin jäännöstermissä: (i) Oletetaan virheellisesti, että jäännöstermi ε on homoskedastinen ja korreloimaton. (ii) Oletetaan virheellisesti, että jäännöstermi ε on normaalinen. TKK (c) Ilkka Mellin (2004) 38

39 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheet mallin jäännöstermissä 2/3 Kommentteja kohtiin (i)-(ii): (i) Jos jäännöstermiä koskeva homoskedastisuustai korreloimattomuusoletus ei päde, regressiokertoimien PNS-estimaattorit eivät ole parhaita Gaussin ja Markovin lauseen mielessä. Ks. lukua Regressiomallin erityiskysymyksiä. (ii) Jos jäännöstermiä koskeva normaalisuusoletus ei päde, t-ja F-jakaumiin perustuva tilastolliset testit eivät välttämättä ole päteviä. TKK (c) Ilkka Mellin (2004) 39

40 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheet mallin jäännöstermissä 3/3 Spesifiointivirheet regressiomallin jäännöstermissä näkyvät tavallisesti estimoidun mallin residuaaleissa. Estimoidun mallin residuaaleissa havaittu heteroskedastisuus, korreloituneisuus tai epänormaalisuus ei kuitenkaan välttämättä merkitse sitä, että mallin jäännöstermi on spesifioitu väärin. Residuaalien heteroskedastisuus, korreloituneisuus tai epänormaalisuus saattavat indikoida myös sitä, että mallin rakenneosa on spesifioitu väärin. TKK (c) Ilkka Mellin (2004) 40

41 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheiden vaikutukset Regressioanalyysissa pääkiinnostus kohdistuu oikean spesifikaation löytämiseen regressiomallin systemaattiselle osalle eli rakenneosalle, koska juuri rakenneosa kuvaa selitettävän muuttujan riippuvuutta selittäjistä. Regressiomallin jäännöstermin spesifikaatio vaikuttaa kuitenkin voimakkaasti sekä mallin estimointiin että testaukseen. Sekä regressiomallin rakenneosan että jäännöstermin virheellinen spesifiointi näkyy tavallisesti estimoidun mallin residuaaleissa. TKK (c) Ilkka Mellin (2004) 41

42 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Diagnostiset tarkistukset Regressiomalli on aina syytä alistaa seuraavien diagnostisten tarkistusten kohteeksi: (i) Onko havaintojen joukossa regressioanalyysin tuloksia vääristäviä poikkeavia havaintoja? (ii) Ovatko regressiokertoimet vakioita? (iii) Ovatko selittäjät itsenäisiä? (iv) Ovatko mallin jäännöstermit homoskedastisia? (v) Ovatko mallin jäännöstermit korreloimattomia? (vi) Ovatko mallin jäännöstermit normaalisia? TKK (c) Ilkka Mellin (2004) 42

43 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Mallin ennustuskyvyn arviointi On syytä muistaa, että voimakkain testi tieteelliselle selitysmallille on sen kyky ennustaa. Siksi regressiomalleja sovellettaessa on aina syytä testata mallin ennustuskykyä tavanomaisten diagnostisten tarkistusten lisäksi. TKK (c) Ilkka Mellin (2004) 43

44 Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka >> Regressiografiikka Poikkeavat havainnot Parametrien vakioisuus Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Mallin ennustuskyky TKK (c) Ilkka Mellin (2004) 44

45 Regressiografiikka Avainsanat Aikasarjadiagrammi Heteroskedastisuus Homoskedastisuus Jäännöstermi Korrelaatio Lineaarinen regressiomalli Pistediagrammi Rakenneosa Regressiografiikka Residuaali Residuaalidiagrammi Satunnainen osa Selitysaste Sovite Systemaattinen osa TKK (c) Ilkka Mellin (2004) 45

46 Regressiografiikka Regressiomallin hyvyys ja regressiografiikka Regressiomallin hyvyyttä voidaan tutkia mallista saatuja estimointituloksia havainnollistavien graafisten esitysten avulla. Regressiografiikan standardikuviot: (i) Kuviot, joiden avulla estimoidun mallin sovitteita verrataan selitettävän muuttujan havaittuihin arvoihin. (ii) Kuviot, joiden avulla havainnollistetaan estimoidun mallin residuaaleja. TKK (c) Ilkka Mellin (2004) 46

47 Regressiografiikka Sovitteiden tutkiminen: Pistediagrammien käyttö 1/2 Regressiomallin spesifikaation hyvyyttä voidaan tutkia vertaamalla estimoidun mallin sovitteita selitettävän muuttujan havaittuihin arvoihin piirtämällä niiden riippuvuutta havainnollistava pistediagrammi: Piirretään sovitteet selitettävän muuttujan havaittuja arvoja vastaan eli esitetään lukuparit ( y, yˆ ), j = 1,2,, n j j 2 pisteinä avaruudessa $. TKK (c) Ilkka Mellin (2004) 47

48 Regressiografiikka Sovitteiden tutkiminen: Pistediagrammien käyttö 2/2 Regressiomalli on sitä parempi mitä lähempänä pisteet ( y, yˆ ), j = 1,2,, n j j ovat suoraa, jonka kulmakerroin = 1. Pisteiden ( y ˆ j, yj), j = 1,2,, n muodostaman pistepilven tai -parven käyristyminen viittaa regressiomallin rakenneosan väärään spesifikaatioon eli täsmennykseen. Poikkeavat havainnot erottuvat tavallisesti kaukana em. suorasta olevina pisteinä. TKK (c) Ilkka Mellin (2004) 48

49 Regressiografiikka Sovitteiden tutkiminen: Mallin hyvyyden mittaaminen Regressiomallin hyvyyden mittarina voidaan käyttää selitettävän muuttujan y havaittujen arvojen y j ja estimoidun mallin sovitteiden yˆ j otoskorrelaatiokerrointa Cor( yy, ˆ) Jos estimoitu regressiomalli on lineaarinen ja mallissa on vakio, [ ] 2 2 Cor( yy, ˆ) = R jossa R 2 on estimoidun mallin selitysaste. TKK (c) Ilkka Mellin (2004) 49

50 Regressiografiikka Residuaalien tutkiminen: Residuaalidiagrammit 1/2 Regressiomallin spesifikaation hyvyyttä voidaan tutkia piirtämällä estimoidun mallin residuaaleista kuviot, joita kutsutaan residuaalidiagrammeiksi: (i) Piirretään residuaalit sovitteita vastaan eli esitetään lukuparit ( yˆ, e ), j = 1,2,, n j j 2 pisteinä avaruudessa $. (ii) Piirretään residuaalit eri selittäjien arvoja vastaan eli esitetään lukuparit ( x, e ), j = 1, 2,, n; i = 1, 2,, k ji j 2 pisteinä avaruudessa $. TKK (c) Ilkka Mellin (2004) 50

51 Regressiografiikka Residuaalien tutkiminen: Residuaalidiagrammit 2/2 Oikein täsmennetyn regressiomallin residuaalidiagrammeissa pisteet muodostavat vaakatasossa vasemmalta oikealle etenevät tasaleveät pistepilvet tai -parvet, joissa ei näy poikkeavia havaintoja. Residuaalidiagrammien pistepilvien käyristyminen viittaa regressiomallin rakenneosan väärään spesifikaatioon eli täsmennykseen: (i) Selitettävän muuttujan riippuvuus selittäjistä ei ole lineaarista. (ii) Mallissa ei ole oikeita selittäjiä. (iii) Selitettävä muuttuja ja/tai selittäjät eivät ole oikeassa funktionaalisessa muodossa. TKK (c) Ilkka Mellin (2004) 51

52 Regressiografiikka Residuaalien tutkiminen: Heteroskedastisuus Jos residuaalidiagrammien pistepilvet tai -parvet eivät ole tasaleveitä (esim. pilvet levenevät oikealle tai vasemmalle), regressiomallin jäännöstermi saattaa olla heteroskedastinen. Estimoidun mallin residuaalien heteroskedastisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatioon eli täsmennykseen. TKK (c) Ilkka Mellin (2004) 52

53 Regressiografiikka Aikasarjojen regressiomallit Aikasarjojen regressiomalleissa oletetaan, että havainnot on järjestetty ajassa niin, että havaintoindeksin j = 1, 2,, n arvot viittaavat peräkkäisiin ajanhetkiin. Huomautus: Aikasarjoissa havaintoindeksinä käytetään usein kirjainta t: t time TKK (c) Ilkka Mellin (2004) 53

54 Regressiografiikka Aikasarjojen regressiomallit: Sovitteiden ja residuaalien tutkiminen 1/3 Aikasarjojen regressiomallin spesifikaation hyvyyttä tutkitaan tavallisesti piirtämällä seuraavat aikasarjadiagrammit: (i) Piirretään selitettävän muuttujan havaitut arvot y, j = 1,2,..., n j ja estimoidun mallin sovitteet yˆ, j = 1,2,..., n j aikasarjoina samaan kuvioon. (ii) Piirretään estimoidun mallin residuaalit e, j = 1,2,..., n j aikasarjana. TKK (c) Ilkka Mellin (2004) 54

55 Regressiografiikka Aikasarjojen regressiomallit: Sovitteiden ja residuaalien tutkiminen 2/3 Aikasarjadiagrammit ovat pistediagrammeja, joissa muuttujan arvot piirretään aikaa vastaan. Tavallisesti peräkkäisiin havaintoihin liittyvät pisteet yhdistetään aikasarjadiagrammissa janalla. Siten edellisellä kalvolla mainitut aikasarjadiagrammien piirtäminen merkitsee seuraavien pistediagrammien piirtämistä: (i) (ii) Selittettävän muuttujan arvot: Sovitteet: Residuaalit: ( jy, j ), j= 1,2,..., n ( jy, ˆ ), j= 1,2,..., n j ( je, ), j= 1,2,..., n j TKK (c) Ilkka Mellin (2004) 55

56 Regressiografiikka Aikasarjojen regressiomallit: Sovitteiden ja residuaalien tutkiminen 3/3 Regressiomalli on sitä parempi, mitä lähempänä estimoidun mallin sovitteiden muodostama aikasarja yˆ, j = 1,2,, n j kulkee selitettävän muuttujan havaittujen arvojen muodostamaa aikasarjaa y, j = 1,2,, n j tai mikä on sama asia mitä pienempiä ovat residuaalit ej, j = 1,2,..., n Aikasarjadiagrammeista (i) ja (ii) (ks. edelliset kalvot) nähdään minä ajanhetkinä malli selittää selitettävän muuttujan käyttäytymistä hyvin ja minä huonosti. TKK (c) Ilkka Mellin (2004) 56

57 Regressiografiikka Aikasarjojen regressiomallit: Residuaalit ja regressiodiagnostiikka Jos residuaaliaikasarjan pistepilvi ei ole tasaleveä (esim. pilvi levenee oikealle tai vasemmalle), regressiomallin jäännöstermi saattaa olla heteroskedastinen. Residuaaliaikasarjan heteroskedastisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatioon eli täsmennykseen. Jäännöstermin korreloituneisuus tulee esille residuaaliaikasarjan sisäisessä rytmiikassa (autokorrelaatiorakenteessa). Residuaaliaikasarjan korreloituneisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatioon eli täsmennykseen. TKK (c) Ilkka Mellin (2004) 57

58 Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka >> Poikkeavat havainnot Parametrien vakioisuus Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Mallin ennustuskyky TKK (c) Ilkka Mellin (2004) 58

59 Poikkeavat havainnot Avainsanat Cookin etäisyys Hattumatriisi Leverage Lineaarinen regressiomalli Normaali havainto Poikkeava havainto Poistoresiduaali Residuaali Residuaalidiagrammi Sovite Standardoitu poistoresiduaali Standardoitu residuaali Vipuluku TKK (c) Ilkka Mellin (2004) 59

60 Poikkeavat havainnot Poikkeavat ja normaalit havainnot Poikkeavalla havainnolla (engl. outlier) tarkoitetaan havaintoa, joka eroaa jossakin mielessä merkitsevästi muista havainnoista. Tilastollisen analyysin kannalta havaintoa voidaan pitää poikkeavana, jos se vääristää tilastollisen analyysin tulokset: (i) Jos havainnon poistaminen muuttaa olennaisesti tilastollisen analyysin tuloksia, havainto on poikkeava. (ii) Jos havainnon poistaminen ei olennaisesti muuta tilastollisen analyysin tuloksia, havainto on normaali. TKK (c) Ilkka Mellin (2004) 60

61 Poikkeavat havainnot Poikkeavien havaintojen vaikutukset Regressioanalyysissa poikkeavat havainnot saattavat aiheuttaa seuraavia vaikeuksia: (i) Mallin valinta vaikeutuu. (ii) Mallin estimointi hankaloituu. (iii) Mallia koskeva tilastollinen päättely saattaa vääristyä. TKK (c) Ilkka Mellin (2004) 61

62 Poikkeavat havainnot Poikkeavien havaintojen tunnistaminen 1/2 Regressioanalyysissa poikkeavien havaintojen tunnistamiseen käytetään sekä graafisia menetelmiä että erityisesti niiden tunnistamiseen konstruoituja tunnuslukuja. Poikkeavat havainnot voidaan usein tunnistaa suoraan residuaalidiagrammeista. TKK (c) Ilkka Mellin (2004) 62

63 Poikkeavat havainnot Poikkeavien havaintojen tunnistaminen 2/2 Tässä kappaleessa tarkastellaan seuraavia poikkeavien havaintojen tunnistamiseen tarkoitettuja tunnuslukuja: Residuaalit Standardoidut residuaalit Poistoresiduaalit Standardoidut poistoresiduaalit Vipuluvut eli leverage-luvut Cookin etäisyydet TKK (c) Ilkka Mellin (2004) 63

64 Poikkeavat havainnot Yleinen lineaarinen malli: Määritelmä Olkoon yj = β0 + β1xj1+ β2xj2 + " + βkxjk + ε j, j = 1,2,, n yleinen lineaarinen malli, jossa y j = selitettävän muuttujan y satunnainen ja havaittu arvo havaintoyksikössä j x ji = selittävän muuttujan eli selittäjän x i havaittu arvo havaintoyksikössä j, i = 1, 2,, k β 0 = vakioselittäjän tuntematon regressiokerroin β i ε j = selittäjän x i tuntematon regressiokerroin = satunnainen ja ei-havaittu jäännös- eli virhetermi havaintoyksikössä j TKK (c) Ilkka Mellin (2004) 64

65 Poikkeavat havainnot Residuaalit: Määritelmä Olkoot b 0, b 1, b 2,, b k regressiokertoimien β 0, β 1, β 2,, β k PNS-estimaattorit. Määritellään estimoidun mallin sovitteet y kaavalla yˆ j = b0 + bx 1 j 1+ b2x j 2 + " + b k x jk, j = 1,2,, n Määritellään estimoidun mallin residuaalit e j kaavalla e = y yˆ j j j = y b bx b x " b x, j = 1,2,, n j 0 1 j1 2 j2 k jk ˆ j TKK (c) Ilkka Mellin (2004) 65

66 Poikkeavat havainnot Residuaalit: Poikkeavien havaintojen tunnistaminen Estimoidun mallin residuaaleja e j voidaan käyttää poikkeavien havaintojen tunnistamiseen. Voimakkaasti muista residuaaleista poikkeavat residuaalit saattavat viitata poikkeaviin havaintoihin. TKK (c) Ilkka Mellin (2004) 66

67 Poikkeavat havainnot Standardoidut residuaalit: Määritelmä 1/2 Koska estimoidun lineaarisen regressiomallin PNSresiduaalit e j ovat yleensä heteroskedastisia, regressiodiagnostiikassa tarkastellaan PNS-residuaalien sijasta usein standardoituja residuaaleja. Residuaalin e j, j = 1, 2,, n varianssi on jossa 2 2 D( ej) = σ (1 hjj) [ ] h jj = P jj on hattumatriisin P = X( XX ) 1 X j. diagonaalialkio. TKK (c) Ilkka Mellin (2004) 67

68 Poikkeavat havainnot Standardoidut residuaalit: Määritelmä 2/2 Standardoidut eli studentisoidut residuaalit Std(e j ), j = 1, 2,, n saadaan PNS-residuaaleista e j kaavalla e j Std( e j ) = ˆD( e j ) Standardoidun residuaalin Std(e j ) kaavassa 2 2 ˆD ( ej ) = s (1 hjj ) on residuaalin e j varianssin estimaattori, jossa n s = ej n k 1 j= 1 on jäännösvarianssin σ 2 harhaton estimaattori. TKK (c) Ilkka Mellin (2004) 68

69 Poikkeavat havainnot Standardoidut residuaalit: Poikkeavien havaintojen tunnistaminen Standardoituja residuaaleja Std(e j ) voidaan käyttää poikkeavien havaintojen tunnistamiseen. Jos estimoitu regressiomalli on riittävä kuvaamaan kaikkia havaintoja, standardoitujen residuaalien itseisarvot saavat vain pienellä todennäköisyydellä suurempia arvoja kuin Lukuarvoja suuremmat standardoitujen residuaalien itseisarvot saattavat viitata poikkeaviin havaintoihin. Standardoitujen residuaalien itseisarvoja voidaan verrata Studentin t-jakaumasta sopivasti valittuun kriittiseen rajaan. TKK (c) Ilkka Mellin (2004) 69

70 Poikkeavat havainnot Poistoresiduaalit: Määritelmä 1/2 Poikkeavia havaintoja voidaan etsiä poistoresiduaalien avulla: (i) Estimoidaan malli siten, että havainto j jätetään pois. (ii) Määrätään havaintoa j vastaava poistoresiduaali selitettävän muuttujan y havaitun arvon y j ja ilman havaintoa j estimoidun mallin muuttujalle y antaman arvon erotuksena (ennustevirheenä). Havaintoa j vastaava poistoresiduaali mittaa ilman havaintoa j estimoidun mallin kykyä ennustaa selitettävän muuttujan y arvo havainnossa j. TKK (c) Ilkka Mellin (2004) 70

71 Poikkeavat havainnot Poistoresiduaalit: Määritelmä 2/2 Poistoresiduaalit d j, j = 1, 2,, n saadaan PNSresiduaaleista e j kaavalla e j d j = 1 h jj jossa jj [ ] h = P on hattumatriisin P = X( XX ) 1 X j. diagonaalialkio. jj TKK (c) Ilkka Mellin (2004) 71

72 Poikkeavat havainnot Standardoidut poistoresiduaalit: Määritelmä 1/2 Poistoresiduaalin d j, j = 1, 2,, n varianssi on 2 2 σ D( d j ) = 1 hjj jossa [ ] h jj = P jj on hattumatriisin P = X( XX ) 1 X j. diagonaalialkio. TKK (c) Ilkka Mellin (2004) 72

73 Poikkeavat havainnot Standardoidut poistoresiduaalit: Määritelmä 2/2 Standardoidut eli studentisoidut poistoresiduaalit Std(d j ), j = 1, 2,, n saadaan poistoresiduaaleista d j kaavalla d j Std( d j ) = ˆD( d j ) jossa 2 s 2 ( j) ˆD ( d j ) 1 h = jj 2 on poistoresiduaalin d j varianssin estimaattori, jossa s on jäännösvarianssin σ 2 harhaton estimaattori mallista, josta havainto j on jätetty pois. ( j) TKK (c) Ilkka Mellin (2004) 73

74 Poikkeavat havainnot Standardoidut poistoresiduaalit: Poikkeavien havaintojen tunnistaminen Standardoituja poistoresiduaaleja Std(d j ) voidaan käyttää poikkeavien havaintojen tunnistamiseen. Jos estimoitu regressiomalli on riittävä kuvaamaan kaikkia havaintoja, standardoitujen poistoresiduaalien itseisarvot saavat vain pienellä todennäköisyydellä suurempia arvoja kuin Lukuarvoja suuremmat standardoitujen poistoresiduaalien itseisarvot saattavat viitata poikkeaviin havaintoihin. Standardoitujen poistoresiduaalien itseisarvoja voidaan verrata Studentin t-jakaumasta sopivasti valittuun kriittiseen rajaan. TKK (c) Ilkka Mellin (2004) 74

75 Poikkeavat havainnot Vipuluvut: Määritelmä 1/2 Poikkeavia havaintoja voidaan etsiä vipulukujen eli leverage-lukujen avulla. Havaintoa j vastaava vipuluku (leverage) h jj, j = 1, 2,, n on hattumatriisin P = X( XX ) 1 X j. diagonaalialkio: [ ] h = P jj jj TKK (c) Ilkka Mellin (2004) 75

76 Poikkeavat havainnot Vipuluvut: Määritelmä 2/2 Vipuluvut h jj ovat verrannollisia havaintopisteiden ( x, x,, x ) j1 j2 jk etäisyyksiin selittävien muuttujien havaintoarvojen aritmeettisten keskiarvojen muodostamasta pisteestä (,,, ) x1 x2 x k TKK (c) Ilkka Mellin (2004) 76

77 Poikkeavat havainnot Vipuluvut: Poikkeavien havaintojen tunnistaminen Jos havaintoa j vastaava vipuluku (leverage) h jj on selvästi muita suurempi, havainto j on syrjässä selittävien muuttujien muihin havaintoarvoihin nähden. Syrjässä olevat havainnot saattavat vääristää regressioanalyysin tulokset. TKK (c) Ilkka Mellin (2004) 77

78 Poikkeavat havainnot Cookin etäisyydet: Määritelmä 1/3 Poikkeavia havaintoja voidaan etsiä Cookin etäisyyksien avulla: (i) Estimoidaan malli niin, että kaikki havainnot ovat mukana. Lasketaan estimoidulle mallille sovitteet yˆl, l = 1, 2,, n. (ii) Estimoidaan malli jättämällä pois havainto j. Lasketaan ilman havaintoa j estimoidun mallin antama arvo yˆl ( j ) kaikille havaintoyksiköille l = 1, 2,, n. (iii) Verrataan lukuja ja y toisiinsa. y ˆl ˆl ( j ) TKK (c) Ilkka Mellin (2004) 78

79 Poikkeavat havainnot Cookin etäisyydet: Määritelmä 2/3 Cookin etäisyydet D j, j = 1, 2,, n saadaan kaavalla jossa D s j = n l= 1 1 ( yˆ yˆ ) l ( k+ 1) s n 2 2 = ej 1 j 1 n k = l( j) 2 2 on jäännösvarianssin σ 2 harhaton estimaattori, joka on määrätty, kun mallin estimoinnissa on käytetty kaikkia havaintoja. TKK (c) Ilkka Mellin (2004) 79

80 Poikkeavat havainnot Cookin etäisyydet: Määritelmä 3/3 Cookin etäisyydet D j, j = 1, 2,, n voidaan laskea myös kaavalla jossa D j Std( ej) hjj = k h Std(e j ) on havaintoa j vastaava standardoitu residuaali ja [ ] h jj = P jj on hattumatriisin P = X( XX ) 1 X j. diagonaalialkio. jj TKK (c) Ilkka Mellin (2004) 80

81 Poikkeavat havainnot Cookin etäisyydet: Poikkeavien havaintojen tunnistaminen Cookin etäisyyksiä D j voidaan käyttää poikkeavien havaintojen tunnistamiseen. Jos havaintoa j vastaava Cookin etäisyys D j > 1 tai on selvästi muiden havaintojen Cookin etäisyyttä suurempi, havainto kannattaa ottaa erikoistarkasteluun. TKK (c) Ilkka Mellin (2004) 81

82 Poikkeavat havainnot Tilastografiikan käyttö poikkeavien havaintojen tunnistamisessa 1/2 Poikkeavien havaintojen tunnistamiseen tarkoitettujen tunnuslukujen käyttöä voidaan usein helpottaa sopivilla graafisilla esityksillä. Tällöin käytetyn tunnusluvun havaintokohtaiset arvot T j, j = 1, 2,, n piirretään havaintonumeroa vastaan pistediagrammina (j, T j ), j = 1, 2,, n Poikkeavat havainnot erottuvat kuviosta tavallisesti helposti. TKK (c) Ilkka Mellin (2004) 82

83 Poikkeavat havainnot Tilastografiikan käyttö poikkeavien havaintojen tunnistamisessa 2/2 Pistediagrammissa (j, T j ), j = 1, 2,, n tunnusluku T j voi olla esimerkiksi mikä tahansa seuraavista tunnusluvuista: Residuaali Standardoitu residuaali Poistoresiduaali Standardoitu poistoresiduaali Vipuluku Cookin etäisyys TKK (c) Ilkka Mellin (2004) 83

84 Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot >> Parametrien vakioisuus Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Mallin ennustuskyky TKK (c) Ilkka Mellin (2004) 84

85 Parametrien vakioisuus Avainsanat Chow-testi Ennustaminen F-testi Lineaarinen regressiomalli Regressiokerroin Selitettävä muuttuja Selittävä muuttuja Vakioparametrisuusoletus TKK (c) Ilkka Mellin (2004) 85

86 Parametrien vakioisuus Vakioparametrisuusoletus yleisessä lineaarisessa mallissa Kun yleinen lineaarinen malli spesifioidaan muodossa yj = β0 + β1xj1+ β2xj2 + " + βkxjk + ε j, j = 1,2,, n spesifikaatioon sisältyy implisiittisesti seuraava mallin regressiokertoimia koskeva vakioparametrisuusoletus: Regressiokertoimet β 0, β 1, β 2,, β k ovat samat kaikille havainnoille j = 1, 2,, n. Lisäksi mallia koskeviin standardioletuksiin kuuluu homoskedastisuusoletus eli jäännösvarianssia koskeva vakioparametrisuusoletus: 2 Var( ε ) = σ, = 1,2,, j j n TKK (c) Ilkka Mellin (2004) 86

87 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testausasetelma 1/4 Jaetaan havainnot j = 1, 2,, n kahteen osaan: Osa 1: Osa 2: Oletetaan lisäksi, että j = 1, 2,, h (h kpl) j = h + 1, h + 2,, n ((n h) kpl) h k +1 Muodostetaan kaksi lineaarista regressiomallia: (i) Käytetään mallissa (1) havaintoja j = 1, 2,, h. (ii) Käytetään mallissa (2) havaintoja j = 1, 2,, n. TKK (c) Ilkka Mellin (2004) 87

88 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testausasetelma 2/4 Malli (1) voidaan esittää matriisein muodossa yh = Xhβh + εh jossa X h on h (k+1)-matriisi. Tehdään mallista (1) seuraavat oletukset: r( X ) = k + 1 h ε 0 σ I 2 h N h(, h ) TKK (c) Ilkka Mellin (2004) 88

89 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testausasetelma 3/4 Malli (2) voidaan esittää matriisein muodossa yn = Xnβn + εn jossa X n on n (k+1)-matriisi. Tehdään mallista (2) seuraavat oletukset: r( X ) = k + 1 n ε 0 σ I 2 n N n(, n ) TKK (c) Ilkka Mellin (2004) 89

90 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testausasetelma 4/4 Huomaa, että mallin (2) n (k + 1)-matriisi X n voidaan esittää muodossa Xh Xn = X2 jossa (n h) (k + 1)-matriisi X 2 on liittyy havaintoihin j = h + 1, h + 2,, n TKK (c) Ilkka Mellin (2004) 90

91 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testisuure Estimoidaan molemmat mallit (1) ja (2) PNSmenetelmällä. Olkoon SSE h = jäännösneliösumma mallista (1) SSE n = jäännösneliösumma mallista (2) Muodostetaan F-testisuure F n k SSE SSE = n h SSE 1 n h h TKK (c) Ilkka Mellin (2004) 91

92 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Chow-testi Jos nollahypoteesi H : β = β, σ = σ 0 pätee, testisuure 2 2 n h n h n k 1 SSEn SSEh F = n h SSEh noudattaa F-jakaumaa vapausastein (n h) ja (n k 1): F F( n h, n k 1) Suuret testisuureen arvot viittaavat siihen, että oletus parametrien vakioisuudesta ei päde. Testi tunnetaan kirjallisuudessa nimellä Chow-testi. TKK (c) Ilkka Mellin (2004) 92

93 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testisuureen toinen muoto 1/4 Ennustetaan selitettävän muuttujan y arvot havainnoissa j = h + 1, h + 2,, n regressiomallilla (1): yˆ = b + b x + b x + " + b x, j = h+ 1, h+ 2,, n jossa b j 0 1 j1 2 j2 k jk h = = ( b, b, b,, b ) k regressiokertoimien vektorin β PNS-estimaattori mallista (1) h TKK (c) Ilkka Mellin (2004) 93

94 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testisuureen toinen muoto 2/4 Olkoon u = ( u, u,, u ) h+ 1 h+ 2 n ennustevirheiden u = y yˆ, j = h+ 1, h+ 2,, n j j j muodostama (n h)-vektori. Vektorilla u on seuraavat stokastiset ominaisuudet: E( u) = Cov( u) = σ h ( I+ X2( X h X h ) X 2) jossa X 2 = havaintoihin j = h + 1, h +2,, n liittyvä osa matriisista X n TKK (c) Ilkka Mellin (2004) 94

95 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testisuureen toinen muoto 3/4 Olkoon lisäksi s 2 h = tavanomainen harhaton estimaattori 2 jäännösvarianssille σ h mallista (1) Tällöin matriisi 2 1 Ĉov( u) = s h ( I+ X2( X h X h ) X 2) on ennustevirheiden vektorin u kovarianssimatriisin Cov(u) estimaattori. TKK (c) Ilkka Mellin (2004) 95

96 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testisuureen toinen muoto 4/4 Chow-testisuure nollahypoteesille H : β = β, σ = σ n h n h voidaan edellä olevia merkintöjä käyttäen esittää muodossa 1 1 F = Ĉov( ) n u h u u Chow-testisuureella on siten seuraava tulkinta: Chow-testisuure testaa havainnoista j = 1, 2,, h estimoidun mallin (1) kykyä ennustaa selitettävän muuttujan y arvoja havainnoissa j = h + 1, h + 2,, n. TKK (c) Ilkka Mellin (2004) 96

97 Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot Parametrien vakioisuus >> Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Ennustuskyky TKK (c) Ilkka Mellin (2004) 97

98 Multikollineaarisuus Avainsanat Korrelaatiomatriisi Kovarianssimatriisi Lineaarinen regressiomalli Lineaarinen riippuvuus Matriisin aste Matriisin kuntoisuusluku Momenttimatriisi Multikollineaarisuus Ominaisarvo Selitettävä muuttuja Selittävä muuttuja Varianssin inflaatiotekijä TKK (c) Ilkka Mellin (2004) 98

99 Multikollineaarisuus Lineaarinen riippuvuus ja multikollineaarisuus 1/3 Olkoon y = Xβ + ε standardioletukset toteuttava yleinen lineaarinen malli, jossa X on selittäjien arvojen ja ykkösten muodostama täysiasteinen n (k + 1)-matriisi. Regressiokertoimien vektorin β PNS-estimaattori on b= ( XX ) 1 Xy PNS-estimaattorin b kovarianssimatriisi on 2 1 Cov( b) = σ ( XX ) TKK (c) Ilkka Mellin (2004) 99

100 Multikollineaarisuus Lineaarinen riippuvuus ja multikollineaarisuus 2/3 Yleisen lineaarinen mallin regressiokertoimien vektorin β PNS-estimaattorin ja sen kovarianssimatriisin kaavoista nähdään: Jos matriisi X ei ole täysiasteinen, PNS-estimaattoria ja sen kovarianssimatriisia on mahdotonta muodostaa em. kaavoilla. Matriisin X täysiasteisuus eli ehto r(x) = k + 1 merkitsee sitä, että matriisin X sarakkeiden on oltava lineaarisesti riippumattomia. TKK (c) Ilkka Mellin (2004) 100

101 Multikollineaarisuus Lineaarinen riippuvuus ja multikollineaarisuus 3/3 Jos yleisen lineaarisen mallin y = Xβ + ε selittävien muuttujien havaittujen arvojen muodostama n (k + 1)-matriisi X ei ole täysiasteinen eli r(x) < k + 1 PNS-estimointi ei ole tavanomaisessa mielessä mahdollista. Jos matriisi X on täysiasteinen eli r(x) = k + 1 mutta matriisin X sarakkeet ovat lähes lineaarisesti riippuvia, sanotaan, että mallin selittäjät ovat multikollineaarisia. TKK (c) Ilkka Mellin (2004) 101

102 Multikollineaarisuus Multikollineaarisuuden vaikutukset 1/2 Multikollineaarisuus saattaa hankaloittaa sekä regressiomallin estimointia että mallista tehtävää tilastollista päättelyä. Siten voimakas multikollineaarisuus saattaa hankaloittaa myös mallin valintaa. Koska multikollineaarisuus on suhteellinen ominaisuus toisin kuin lineaarinen riippuvuus voidaan puhua multikollineaarisuuden asteesta. TKK (c) Ilkka Mellin (2004) 102

103 Multikollineaarisuus Multikollineaarisuuden vaikutukset 2/2 Mitävähemmän selittäjät ovat multikollineaarisia, sitä itsenäisempiä ovat selittävät muuttujat selitettävän muuttujan käyttäytymisen selittäjinä. Jos selittäjät ovat voimakkaasti multikollineaarisia, ne kertovat jossakin mielessä samaa asiaa selitettävän muuttujan käyttäytymisestä. TKK (c) Ilkka Mellin (2004) 103

104 Multikollineaarisuus Varianssin inflaatiotekijä 1/3 Oletetaan, että selitettävää muuttujaa y selitetään lineaarisella regressiomallilla, jonka selittäjinä ovat muuttujat x 1, x 2,, x k. Olkoon b i selittäjän x i regressiokertoimen β i PNSestimaattori. Tällöin 2 1 σ Var( bi ) = 2 n 1 R 2 i ( x 1 ji x ) j= i 2 jossa R i on selitysaste lineaarisesta regressiomallista, jonka selitettävänä muuttujana on alkuperäisen mallin selittäjä x i ja selittäjinä ovat muut alkuperäisen mallin selittäjistä. TKK (c) Ilkka Mellin (2004) 104

105 Multikollineaarisuus Varianssin inflaatiotekijä 2/3 Regressiokertoimen b i varianssin kaavassa esiintyvää tekijää 1 VIFi =, i = 1,2,, k 2 1 Ri kutsutaan selittäjää x i vastaavaksi varianssin inflaatiotekijäksi. TKK (c) Ilkka Mellin (2004) 105

106 Multikollineaarisuus Varianssin inflaatiotekijä 3/3 Jos selittäjät x 1, x 2,, x k ovat ortogonaalisia eli korreloimattomia, ja VIF i = 1 kaikille i = 1, 2,, k Jos selittäjä x i voidaan esittää muiden selittäjien x 1, x 2,, x i 1, x i+1,, x k lineaarikombinaationa, 2 R = 1 ja R = 0 kaikille i = 1,2,, k 2 i i VIF i = + TKK (c) Ilkka Mellin (2004) 106

107 Multikollineaarisuus Varianssin inflaatiotekijän tulkinta 1/2 Kaavasta nähdään seuraavaa: (i) Var( b) = VIF i i n j= 1 2 σ ( x x ) ji Estimaattorin b i varianssi on sitä suurempi, mitä suurempi on vastaava varianssin inflaatiotekijä VIF i. (ii) Estimaattorin b i varianssi on sitä pienempi, mitä pienempi on vastaava varianssin inflaatiotekijä VIF i. i 2 TKK (c) Ilkka Mellin (2004) 107

108 Multikollineaarisuus Varianssin inflaatiotekijän tulkinta 2/2 Regressiomallin selittäjien voimakasta multikollineaarisuutta pidetään tavallisesti haitallisena ja selittäjien mahdollisimman suurta ortogonaalisuutta hyödyllisenä ominaisuutena regressioanalyysissa. Jos VIF i > 10 jollekin i = 1, 2,, k multikollineaarisuudesta saattaa olla haittaa. Puhtaissa koeasetelmissa, joissa selittävien muuttujien arvot voidaan valita, selittäjät pyritään saamaan ortogonaalisiksi (tai lähes ortogonaalisiksi). TKK (c) Ilkka Mellin (2004) 108

109 Multikollineaarisuus Momenttimatriisi 1/2 Selittäjien x 1, x 2,, x k havaittujen arvojen momenttimatriisin A = [ a ij ] i. rivin ja j. sarakkeen alkio a ij on muuttujien x i ja x j havaittujen arvojen tulomomentti: jossa n a = ( x x )( x x ) ij li i lj j l= 1 n n 1 1 x = x x = x i li j lj n l= 1 n l= 1 TKK (c) Ilkka Mellin (2004) 109

110 Multikollineaarisuus Momenttimatriisi 2/2 Selittäjien x 1, x 2,, x k havaittujen arvojen momenttimatriisi A voidaan esittää matriisein muodossa A= ( Z 1z )( Z 1z ) jossa = ZZ n zz Z = aitojen selittäjien x 1, x 2,, x k havaittujen arvojen muodostama n k-matriisi z = aitojen selittäjien x 1, x 2,, x k havaittujen arvojen aritmeettisten keskiarvojen muodostama k-vektori TKK (c) Ilkka Mellin (2004) 110

111 Multikollineaarisuus Otoskovarianssimatriisi 1/2 Selittäjien x 1, x 2,, x k havaittujen arvojen otoskovarianssimatriisin S = [ s ij ] i. rivin ja j. sarakkeen alkio s ij on muuttujien x i ja x j havaittujen arvojen otoskovarianssi: n 1 sij = ( xli xi )( xlj xj ) n 1 l= 1 jossa n n 1 1 xi = xli xj = xlj n l= 1 n l= 1 Erityisesti 2 s = s ii s ii i = s i TKK (c) Ilkka Mellin (2004) 111

112 Multikollineaarisuus Otoskovarianssimatriisi 2/2 Selittäjien x 1, x 2,, x k havaittujen arvojen otoskovarianssimatriisi S voidaan esittää matriisein muodossa S 1 1 = ( )( ) = n 1 Z 1z Z 1z n 1 A jossa Z = aitojen selittäjien x 1, x 2,, x k havaittujen arvojen muodostama n k-matriisi z = aitojen selittäjien x 1, x 2,, x k havaittujen arvojen aritmeettisten keskiarvojen muodostama k-vektori A = aitojen selittäjien x 1, x 2,, x k havaittujen arvojen muodostama k k-momenttimatriisi TKK (c) Ilkka Mellin (2004) 112

113 Multikollineaarisuus Otoskorrelaatiomatriisi 1/2 Selittäjien x 1, x 2,, x k havaittujen arvojen otoskorrelaatiomatriisin R = [ r ij ] i. rivin ja j. sarakkeen alkio r ij on muuttujien x i ja x j havaittujen arvojen otoskorrelaatio: sij rij = ss i j jossa s ij = muuttujien x i ja x j havaittujen arvojen otoskovarianssi s s i j = = s s ii jj = on muuttujan x i otoskeskihajonta = on muuttujan x j otoskeskihajonta TKK (c) Ilkka Mellin (2004) 113

114 Multikollineaarisuus Otoskorrelaatiomatriisi 2/2 Selittäjien x 1, x 2,, x k havaittujen arvojen otoskorrelaatiomatriisi R voidaan esittää matriisein muodossa jossa R S = D SD 1 1 s s = aitojen selittäjien x 1, x 2,, x k havaittujen arvojen muodostama otoskovarianssimatriisi D s = diag( s1, s2,, s k ) = selittäjien x 1, x 2,, x k havaittujen arvojen otoskeskihajontojen s 1, s 2,, s k muodostama diagonaalimatriisi TKK (c) Ilkka Mellin (2004) 114

115 Multikollineaarisuus Multikollineaarisuus ja selittäjien korreloituneisuus Selittäjien x 1, x 2,, x k multikollineaarisuutta voidaan tutkia paitsi tarkastelemalla selittäjiä vastaavia varianssin inflaatiotekijöitä tutkimalla myös seuraavien matriisien ominaisarvoja (ja ominaisvektoreita): (i) Aitojen selittäjien havaittujen arvojen n k-matriisista Z saatava k k-matriisi Z Z (ii) Selittäjien havaittujen arvojen momenttimatriisi A (ii) Selittäjien havaittujen arvojen kovarianssimatriisi S (iii) Selittäjien havaittujen arvojen korrelaatiomatriisi R Multikollineaarisuuden mittarina voidaan käyttää esimerkiksi matriisin kuntoisuuslukua eli suurimman ja pienimmän ominaisarvon suhdetta. TKK (c) Ilkka Mellin (2004) 115

116 Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot Parametrien vakioisuus Multikollineaarisuus >> Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Ennustuskyky TKK (c) Ilkka Mellin (2004) 116

117 Homoskedastisuus ja heteroskedastisuus Avainsanat Heteroskedastisuus Homoskedastisuus Jäännöstermi Jäännösvarianssi Lineaarinen regressiomalli Rakenneosa Residuaali Selitettävä muuttuja Selittävä muuttuja Sovite TKK (c) Ilkka Mellin (2004) 117

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Regressiodiagnostiikka TKK (c) Ilkka Mellin (2007) 1 Regressiodiagnostiikka >> Yleinen lineaarinen malli ja regressiodiagnostiikka

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2004) 1 Yleinen lineaarinen malli Usean selittäjän lineaarinen regressiomalli Yleisen lineaarisen mallin matriisisesitys Yleisen

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa TKK (c) Ilkka Mellin (2007) 1 Erityiskysymyksiä yleisen lineaarisen

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1 Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2007) 1 Yleinen lineaarinen malli >> Usean selittäjän lineaarinen regressiomalli

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Johdatus regressioanalyysiin Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla.

Lisätiedot

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Regressiomallin valinta TKK (c) Ilkka Mellin (2004) 1 Regressiomallin valinta Regressiomallin valinta: Johdanto Mallinvalintatestit Mallinvalintakriteerit Epälineaaristen riippuvuuksien

Lisätiedot

Regressiodiagnostiikka ja regressiomallin valinta

Regressiodiagnostiikka ja regressiomallin valinta Regressiodiagnostiikka ja regressiomallin valinta MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015

Lisätiedot

Regressiodiagnostiikka ja regressiomallin valinta

Regressiodiagnostiikka ja regressiomallin valinta Regressiodiagnostiikka ja regressiomallin valinta MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Regressiomallin valinta TKK (c) Ilkka Mellin (2007) 1 Regressiomallin valinta >> Regressiomallin valinta: Johdanto Mallinvalintatestit

Lisätiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

Yleinen lineaarinen malli

Yleinen lineaarinen malli MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015 Viikko 1: 1 Määritelmä ja standardioletukset 2

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Johdatus regressioanalyysiin TKK (c) Ilkka Mellin (2005) 1 Johdatus regressioanalyysiin Regressioanalyysin lähtökohdat ja tavoitteet Deterministiset mallit ja regressioanalyysi

Lisätiedot

2. Teoriaharjoitukset

2. Teoriaharjoitukset 2. Teoriaharjoitukset Demotehtävät 2.1 Todista Gauss-Markovin lause. Ratkaisu. Oletetaan että luentokalvojen standardioletukset (i)-(v) ovat voimassa. Huomaa että Gauss-Markovin lause ei vaadi virhetermien

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Johdatus regressioanalyysiin

Johdatus regressioanalyysiin Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Johdatus regressioanalyysiin TKK (c) Ilkka Mellin (2007) 1 Johdatus regressioanalyysiin >> Regressioanalyysin lähtökohdat ja tavoitteet

Lisätiedot

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme? TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (005) 1 Moniulotteisia todennäköisyysjakaumia Multinomijakauma Kaksiulotteinen normaalijakauma TKK (c) Ilkka

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt TKK (c) Ilkka Mellin (005) Koesuunnittelu TKK (c) Ilkka Mellin (005) : Mitä opimme? Tarkastelemme tässä luvussa seuraavaa kysymystä: Miten varianssianalyysissa tutkitaan yhden tekijän vaikutusta vastemuuttujaan,

Lisätiedot

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1 Kaksisuuntainen varianssianalyysi Heliövaara 1 Kaksi- tai useampisuuntainen varianssianalyysi Kaksi- tai useampisuuntaisessa varianssianalyysissa perusjoukko on jaettu ryhmiin kahden tai useamman tekijän

Lisätiedot

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015 Viikko 1: Yleinen lineaarinen malli 1 Määritelmä

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.4 Tilastollise aalyysi perusteet, kevät 7 9. lueto: Regressiomalli validoiti Kai Virtae Regressiomalli validoiista Estimoitu hieo regressiomalli: Kuvaako malli tutkittavaa ilmiötä oikei? Kuika hyvi

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Regressiodiagnostiikka Cooken etäisyys, Funktionaalinen muoto, Diagnostinen grafiikka, Diagnostiset testit, Heteroskedastisuus,

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli

Yhden selittäjän lineaarinen regressiomalli Ilkka Melli Tilastolliset meetelmät Osa 4: Lieaarie regressioaalyysi Yhde selittäjä lieaarie regressiomalli TKK (c) Ilkka Melli (007) Yhde selittäjä lieaarie regressiomalli >> Yhde selittäjä lieaarie regressiomalli

Lisätiedot

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio TKK (c) Ilkka Mellin (2005) 1 Tilastollinen riippuvuus ja korrelaatio Tilastollinen riippuvuus, korrelaatio ja regressio Kahden muuttujan

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin erusteet, kevät 2007 10. luento: Regressiomallin (selittäjien) valinta Kai Virtanen 1 Regressiomallin selittäjien valinnasta Mallista uuttuu selittäjiä => harhaiset regressiokertoimien

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Korrelaatiokertoinen määrittely 165

Korrelaatiokertoinen määrittely 165 kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1 Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin erusteet, kevät 007 Regressiomallin (selittäjien valinta Kai Virtanen 1 Regressiomallin selittäjien valinnasta Mallista uuttuu selittäjiä => harhaiset regressiokertoimien

Lisätiedot

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2017 Viikko 1: Yleinen lineaarinen malli 1 Määritelmä

Lisätiedot

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1 Kaksisuuntainen varianssianalyysi Vilkkumaa / Kuusinen 1 Motivointi Luennot 6 ja 7: yksisuuntaisella varianssianalyysilla testataan ryhmäkohtaisten odotusarvojen yhtäsuuruutta, kun perusjoukko on jaettu

Lisätiedot

Regressiodiagnostiikka. Regressiodiagnostiikka. Regressiodiagnostiikka: Mitä opimme? 2/2. Regressiodiagnostiikka: Mitä opimme? 1/2

Regressiodiagnostiikka. Regressiodiagnostiikka. Regressiodiagnostiikka: Mitä opimme? 2/2. Regressiodiagnostiikka: Mitä opimme? 1/2 TKK (c) Ilkka Melli (004) Regressiodiagostiikka Jodatus tilastotieteesee Regressiodiagostiikka Yleie lieaarie malli a regressiodiagostiikka Poikkeavat avaiot Regressiokertoimie vakioisuus Multikollieaarisuus

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

Tilastolliset menetelmät. β versio. Tilastolliset menetelmät. Ilkka Mellin. Teknillinen korkeakoulu, Matematiikan laboratorio

Tilastolliset menetelmät. β versio. Tilastolliset menetelmät. Ilkka Mellin. Teknillinen korkeakoulu, Matematiikan laboratorio β versio Tilastolliset menetelmät Ilkka Mellin Teknillinen korkeakoulu, Matematiikan laboratorio TKK @ Ilkka Mellin (2006) I Esipuhe Tämä moniste antaa perustiedot tilastollisista menetelmistä ja niiden

Lisätiedot

Tilastolliset menetelmät

Tilastolliset menetelmät Tilastolliset menetelmät Ilkka Mellin 1. korjattu painos Ilkka Mellin I Ilkka Mellin II Esipuhe Tämä moniste pyrkii antamaan perustiedot tilastollisista menetelmistä ja niiden soveltamisesta. Tämä on monisteen

Lisätiedot

Lohkoasetelmat. Heliövaara 1

Lohkoasetelmat. Heliövaara 1 Lohkoasetelmat Heliövaara 1 Kiusatekijä Kaikissa kokeissa, kokeen tuloksiin voi vaikuttaa vaihtelu joka johtuu kiusatekijästä. Kiusatekijä on tekijä, jolla mahdollisesti on vaikutusta vastemuuttujan arvoon,

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1 Lohkoasetelmat Vilkkumaa / Kuusinen 1 Motivointi 1/3 Kaksisuuntaisella varianssianalyysilla voidaan tutkia kahden tekijän A ja B vaikutusta sekä niiden yhdysvaikutusta tutkimuksen kohteeseen Kaksisuuntaisessa

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Lohkoasetelmat. Kuusinen/Heliövaara 1

Lohkoasetelmat. Kuusinen/Heliövaara 1 Lohkoasetelmat Kuusinen/Heliövaara 1 Kiusatekijä Kaikissa kokeissa kokeen tuloksiin voi vaikuttaa vaihtelu, joka johtuu kiusatekijästä. Kiusatekijä on tekijä, jolla on mahdollisesti vaikutusta vastemuuttujan

Lisätiedot

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteesee Yhde selittää lieaarie regressiomalli TKK (c) Ilkka Melli (2005) Yhde selittää lieaarie regressiomalli Yhde selittää lieaarie regressiomalli a sitä koskevat oletukset Yhde selittää

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset TA7, Ekonometrian johdantokurssi HARJOITUS 7 RATKAISUEHDOTUKSET 16.3.2015 1. Tutkitaan regressiomallia Y i = β 0 + X i + u i ja oletetaan, että tavanomaiset regressiomallin oletukset pätevät (Key Concept

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1 Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1 Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n

Lisätiedot

2. Tietokoneharjoitukset

2. Tietokoneharjoitukset 2. Tietokoneharjoitukset Demotehtävät 2.1 Jatkoa kotitehtävälle. a) Piirrä aineistosta pistediagrammi (KULUTUS, SAIRAST) ja siihen estimoitu regressiosuora. KULUTUS on selitettävä muuttuja. b) Määrää estimoidusta

Lisätiedot

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1 Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus KE (2014) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset testit ja testisuureet Virheet

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, kesä 2016 Laskuharjoitus 5, Kotitehtävien palautus laskuharjoitusten

Lisätiedot

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,

Lisätiedot

Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä

Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä TKK (c) Ilkka Mellin (2007) 1 Suurimman uskottavuuden menetelmä >> Suurimman uskottavuuden estimointimenetelmä Tarkentuvuus Asymptoottinen

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat: Mat-.9 Sovellettu todennäköisyyslasku A Mat-.9 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Moniulotteiset jakaumat Diskreetti jakauma, Ehdollinen jakauma, Ehdollinen odotusarvo, Jatkuva

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen

Lisätiedot

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Usean selittäjän lineaarinen regressiomalli Estimaatti, Estimaattori, Estimointi, Jäännösneliösumma, Jäännöstermi, Jäännösvarianssi,

Lisätiedot

2.1. Parametrien estimointi 2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista

2.1. Parametrien estimointi 2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista Moimuuttujameetelmät: Ilkka Melli. Yleise lieaarise malli määrittelemie.. ja malli oletukset.. Yleise lieaarise malli matriisiesitys. Yleise lieaarise malli parametrie estimoiti.. Parametrie estimoiti..

Lisätiedot

Koesuunnittelu 2 k -faktorikokeet. TKK (c) Ilkka Mellin (2005) 1

Koesuunnittelu 2 k -faktorikokeet. TKK (c) Ilkka Mellin (2005) 1 Koesuunnittelu 2 k -faktorikokeet TKK (c) Ilkka Mellin (2005) 2 k -faktorikokeet 2 2 -faktorikokeet 2 3 -faktorikokeet 2 k -faktorikokeet TKK (c) Ilkka Mellin (2005) 2 2 k -faktorikokeet: Mitä opimme?

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5 MS-A Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko Tilastollinen testaus Tilastollisten testaaminen Tilastollisen tutkimuksen kohteena olevasta perusjoukosta on esitetty jokin väite tai

Lisätiedot

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1 Vastepintamenetelmä Vilkkumaa / Kuusinen 1 Motivointi Varianssianalyysissa tutkitaan tekijöiden vaikutusta vasteeseen siten, että tekijöiden tasot on ennalta valittu. - Esim. tutkitaan kemiallisen prosessin

Lisätiedot

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat: Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Mallin valinta Painotettu PNS-menetelmä Alaspäin askellus, Askellus, Askeltava valikointi, Diagnostinen grafiikka, Diagnostiset

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. marraskuuta 2007 Antti Rasila () TodB 30. marraskuuta 2007 1 / 19 1 Lineaarinen regressiomalli ja suurimman uskottavuuden menetelmä Minimin löytäminen

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen

Lisätiedot

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3 Aiheet: Satunnaisvektorit ja moniulotteiset jakaumat Tilastollinen riippuvuus ja lineaarinen korrelaatio Satunnaisvektorit ja moniulotteiset

Lisätiedot

Moniulotteiset satunnaismuuttujat ja jakaumat

Moniulotteiset satunnaismuuttujat ja jakaumat Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat KE (2014) 1 Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat >> Kaksiulotteiset

Lisätiedot

Normaalijakaumasta johdettuja jakaumia

Normaalijakaumasta johdettuja jakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2007) 1 Normaalijakaumasta johdettuja jakaumia >> Johdanto χ 2 -jakauma F-jakauma

Lisätiedot