Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1

Koko: px
Aloita esitys sivulta:

Download "Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1"

Transkriptio

1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Regressiodiagnostiikka TKK (c) Ilkka Mellin (2007) 1

2 Regressiodiagnostiikka >> Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot Regressiokertoimien vakioisuus Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Mallin ennustuskyky TKK (c) Ilkka Mellin (2007) 2

3 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallit selitysmalleina Oletetaan, että tavoitteena on selittää selitettävän muuttujan y havaittujen arvojen vaihtelu selittävien muuttujien eli selittäjien x 1, x 2,, x k havaittujen arvojen vaihtelun avulla. Sitä varten selitettävän muuttujan y tilastolliselle riippuvuudelle selittäjistä x 1, x 2,, x k pyritään rakentamaan tilastollinen malli, jota kutsutaan regressiomalliksi. TKK (c) Ilkka Mellin (2007) 3

4 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallien yleinen muoto 1/3 Olkoon yi = f( xi1, xi2,, xik; β) + εi, i = 1,2,, n selitettävän muuttujan y regressiomalli selittäjien x 1, x 2,, x k suhteen. Tällöin y i = selitettävän muuttujan y satunnainen ja havaittu arvo havaintoyksikössä i x ij = selittävän muuttujan x j havaittu arvo havaintoyksikössä i, j = 1, 2,, k ε i = satunnainen ja ei-havaittu jäännös- eli virhetermi havaintoyksikössä i TKK (c) Ilkka Mellin (2007) 4

5 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallien yleinen muoto 2/3 Regressiomallissa yi = f( xi1, xi2,, xik; β) + εi, i = 1,2,, n selittäjien x 1, x 2,, x k havaittujen arvojen funktio f( xi1, xi2,, xik; β) muodostaa mallin systemaattisen osan eli rakenneosan ja jäännöstermi ε i muodostaa mallin satunnaisen osan. Mallin systemaattinen osa kuvaa selitettävän muuttujan y tilastollista riippuvuutta selittäjistä x 1, x 2,, x k. TKK (c) Ilkka Mellin (2007) 5

6 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallien yleinen muoto 3/3 Regressiomallissa yi = f( xi1, xi2,, xik; β) + εi, i = 1,2,, n mallin systemaattisen osan määräävä funktio f( xi1, xi2,, xik; β) riippuu parametrista β = (β 1, β 2,, β p ) joka tarkemmin määrää funktion f muodon. Huomautus: Tavallisesti parametrin β arvo on tuntematon ja on siksi estimoitava havainnoista. TKK (c) Ilkka Mellin (2007) 6

7 Yleinen lineaarinen malli ja regressiodiagnostiikka Onko malli oikea ja onko malli hyvä? Regressioanalyysin peruskysymykset: (i) Kuvaako malli selitettävän muuttujan ja selittäjien välistä riippuvuutta sisällöllisesti oikein? Kysymys 1 ei ole tilastotieteellinen ja siihen vastaaminen vaatii tutkittavaa ilmiötä kuvaavan taustateorian tuntemusta. (ii) Kuvaako malli selitettävän muuttujan ja selittäjien välistä riippuvuutta tilastollisesti oikein? Kysymys 2 on tilastotieteellinen ja siihen voidaan pyrkiä vastaamaan tilastotieteen keinoin. TKK (c) Ilkka Mellin (2007) 7

8 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallin hyvyys ja regressiodiagnostiikka 1/2 Regressiomallia pidetään tilastollisesti oikeana, jos mallista saadut estimointitulokset ovat sopusoinnussa mallia koskevien oletuksien kanssa. Siksi regressiomallia koskevien oletuksien tarkistaminen muodostaa keskeisen osan regressioanalyysin soveltamista. Regressiomallia koskevien oletuksien tarkistamista on tapana kutsua regressiodiagnostiikaksi. TKK (c) Ilkka Mellin (2007) 8

9 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallin hyvyys ja regressiodiagnostiikka 2/2 Regressiodiagnostiikassa käytetään seuraavia menetelmiä: Estimoinnin onnistumista havainnollistetaan tilastografiikalla. Estimoinnin onnistumista kuvataan diagnostisilla tunnusluvuilla. Mallia koskevia oletuksia testataan diagnostisilla testeillä. TKK (c) Ilkka Mellin (2007) 9

10 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallin spesifiointi eli täsmentäminen 1/2 Tilastollisen mallin muodon ja mallia koskevien oletuksien määrittelemistä kutsutaan mallin spesifioinniksi eli täsmentämiseksi. Määriteltyä mallia kutsutaan spesifikaatioksi tai täsmennykseksi. TKK (c) Ilkka Mellin (2007) 10

11 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallin spesifiointi eli täsmentäminen 2/2 Regressiomallin spesifioiminen tarkoittaa seuraavien valintojen tekemistä: (i) Mallin selitettävän muuttujan ja selittäjien valinta. (ii) Mallin systemaattisen eli rakenneosan funktionaalisen muodon ja parametroinnin valinta. (iii) Mallin selitettävän muuttujan ja selittäjien funktionaalisen muodon valinta. (iv) Mallin jäännöstermiä koskevien stokastisten oletuksien valinta. TKK (c) Ilkka Mellin (2007) 11

12 Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiomallin täsmentäminen: Kommentteja Valinnat (i)-(iii) liittyvät regressiomallin rakenneosan spesifiointiin. Valinta (iv) liittyy regressiomallin jäännöstermin spesifiointiin. Huomautus: Valinnat (i)-(iv) eivät ole toisistaan riippumattomia. TKK (c) Ilkka Mellin (2007) 12

13 Yleinen lineaarinen malli ja regressiodiagnostiikka Lineaariset regressiomallit Olkoon selitettävän muuttujan y regressiomalli selittäjien x 1, x 2,, x k suhteen muotoa yi = β0 + β1xi 1+ β2xi2 + + βkxik + εi, i = 1,2,, n Tällöin malli on lineaarinen sekä parametrien (regressiokertoimien) β 0, β 1, β 2,, β k että selittäjien x 1, x 2,, x k suhteen ja sitä kutsutaan yleiseksi lineaariseksi malliksi. TKK (c) Ilkka Mellin (2007) 13

14 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Määritelmä Olkoon yi = β0 + β1xi 1+ β2xi2 + + βkxik + εi, i = 1,2,, n yleinen lineaarinen malli, jossa y i = selitettävän muuttujan y satunnainen ja havaittu arvo havaintoyksikössä i x ij = selittävän muuttujan eli selittäjän x j havaittu arvo havaintoyksikössä i, j = 1, 2,, k β 0 = vakioselittäjän tuntematon regressiokerroin β j ε i = selittäjän x j tuntematon regressiokerroin = satunnainen ja ei-havaittu jäännös- eli virhetermi havaintoyksikössä i TKK (c) Ilkka Mellin (2007) 14

15 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Matriisiesitys Yleinen lineaarinen malli voidaan esittää matriisein muodossa y = Xβ + ε jossa y = selitettävän muuttujan y havaittujen arvojen muodostama satunnainen n-vektori X = selittäjien x 1, x 2,, x k havaittujen arvojen ja ykkösten muodostama n (k + 1)-matriisi β = regressiokertoimien muodostama tuntematon ja kiinteä eli ei-satunnainen (k + 1)-vektori ε = jäännöstermien muodostama ei-havaittu ja satunnainen n-vektori TKK (c) Ilkka Mellin (2007) 15

16 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Standardioletukset kiinteille selittäjille Jos yleisen lineaarisen mallin y = Xβ + ε selittäjät x 1, x 2,, x k ovat kiinteitä eli ei-satunnaisia muuttujia, mallia koskevat standardioletukset voidaan esittää matriisein seuraavassa muodossa: (i) Matriisin X alkiot ovat ei-satunnaisia vakioita. (ii) Matriisi X on täysiasteinen: r(x) = k + 1 (iii) E( ε) = 0 (iv)&(v) Homoskedastisuus- ja korreloimattomuusoletus: (vi) Cov( ε) 2 = σ I Normaalisuusoletus: ε 0 I 2 N n(, σ ) TKK (c) Ilkka Mellin (2007) 16

17 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Standardioletukset satunnaisille selittäjille Jos yleisen lineaarisen mallin y = Xβ + ε selittäjät x 1, x 2,, x k ovat satunnaismuuttujia, mallia koskevat standardioletukset voidaan esittää matriisein seuraavassa muodossa: (i) Matriisin X alkiot ovat satunnaismuuttujia. (ii) Matriisi X on täysiasteinen: r(x) = k + 1 (iii) E( ε X) = 0 (iv) &(v) Homoskedastisuus- ja korreloimattomuusoletus: (vi) 2 Cov( ε X) = σ I Normaalisuusoletus: 2 ( ε X) N n( 0, σ I) TKK (c) Ilkka Mellin (2007) 17

18 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Rakenneosa ja jäännösosa Yleisessä lineaarisessa mallissa y = Xβ + ε selitettävä muuttujan arvojen vektori y on esitetty kahden osatekijän summana. Mallin systemaattinen eli rakenneosa E( yx) = Xβ riippuu selittäjien havaituista arvoista. Jäännöstermi ε muodostaa mallin satunnaisen osan, joka ei riipu selittäjien havaituista arvoista. TKK (c) Ilkka Mellin (2007) 18

19 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Regressiokertoimien PNS-estimointi 1/2 Yleisen lineaarisen mallin yi = β0 + β1xi 1+ β2xi2 + + βkxik + εi, i = 1,2,, n regressiokertoimien β 0, β 1, β 2,, β k PNS- eli pienimmän neliösumman estimaattorit b 0, b 1, b 2,, b k minimoivat jäännös- eli virhetermien ε i neliösumman n n 2 2 εi = ( yi β0 β1xi1 β2xi2 βkxik) i= 1 i= 1 kertoimien β 0, β 1, β 2,, β k suhteen. TKK (c) Ilkka Mellin (2007) 19

20 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Regressiokertoimien PNS-estimointi 2/2 Yleisen lineaarisen mallin y = Xβ + ε regressiokertoimien vektorin β = (β 0, β 1, β 2,, β k ) PNS-estimaattori voidaan esittää matriisein muodossa b= ( XX ) 1 Xy TKK (c) Ilkka Mellin (2007) 20

21 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: PNS-estimaattorin ominaisuudet Yleisen lineaarisen mallin y = Xβ + ε regressiokertoimien vektorin β PNS-estimaattorilla b= ( XX ) 1 Xy on standardioletuksien (i)-(vi) pätiessä seuraavat stokastiset ominaisuudet: E( b) = β Cov( b) = σ ( XX ) 2 1 b β σ XX 2 1 N k+ 1(, ( ) ) TKK (c) Ilkka Mellin (2007) 21

22 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Sovitteet ja residuaalit 1/2 Olkoon b = (b 0, b 1, b 2,, b k ) regressiokertoimien vektorin β = (β 0, β 1, β 2,, β k ) PNS-estimaattori. Määritellään estimoidun mallin sovitteet yˆi kaavalla yˆi = b0 + bx 1 i 1+ b2x i b k x ik, i = 1,2,, n Määritellään estimoidun mallin residuaalit e i kaavalla ei = yi yˆ i = y b bx b x b x, i = 1,2,, n i 0 1 i1 2 i2 k ik TKK (c) Ilkka Mellin (2007) 22

23 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Sovitteet ja residuaalit 2/2 Sovitteiden muodostama n-vektori voidaan esittää matriisein muodossa yˆ = Xb= X( XX ) 1 Xy = Py Residuaalien muodostama n-vektori voidaan esittää matriisein muodossa 1 e= y yˆ = ( I X( XX ) X ) y = ( I P) y = My Huomautus: Koska residuaalit kuvaavat estimoidun regressiomallin ja havaintoarvojen yhteensopivuutta, monet regressiodiagnostiikan menetelmistä perustuvat estimoidun regressiomallin residuaaleihin tai niiden muunnoksiin. TKK (c) Ilkka Mellin (2007) 23

24 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Sovitteiden ja residuaalien ominaisuudet Sovitteiden muodostamalla n-vektorilla ŷ on seuraavat stokastiset ominaisuudet : E( yˆ ) = Xβ Cov( yˆ ) = σ P = σ X( XX ) X Residuaalien muodostamalla n-vektorilla e on seuraavat stokastiset ominaisuudet : E( e) = Cov( e) = σ M = σ ( I P) = σ ( I X( XX ) X ) Huomautus: Yllä olevan mukaan residuaalit e i ovat yleensä sekä heteroskedastisia että korreloituneita, vaikka jäännöstermit ε i on oletettu homoskedastisiksi ja korreloimattomiksi. TKK (c) Ilkka Mellin (2007) 24

25 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Projektiomatriisit P ja M Matriisit P= X( XX) X 1 1 M = I P= I X( XX ) X ovat symmetrisiä ja idempotentteja eli projektioita: 2 P = P P = P 2 M = M M = M Lisäksi PM = MP = 0 Matriisia P kutsutaan regressiodiagnostiikassa usein hattumatriisiksi. TKK (c) Ilkka Mellin (2007) 25

26 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Jäännösvarianssin estimointi Yleisen lineaarisen mallin jäännöstermien ε i varianssin eli jäännösvarianssin σ 2 harhaton estimaattori on n s = ei n k 1 i= 1 jossa e i = estimoidun mallin residuaali, i = 1, 2,, n n = havaintojen lukumäärä k = (aitojen) selittäjien x j lukumäärä TKK (c) Ilkka Mellin (2007) 26

27 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Mallin spesifiointi Yleistä lineaarista mallia y = Xβ + ε sovellettaessa pääkiinnostus kohdistuu mallin systemaattisen osan eli rakenneosan E( yx) = Xβ oikeaan spesifiointiin eli täsmentämiseen, koska juuri mallin rakenneosa kuvaa selitettävän muuttujan y riippuvuutta selittäjistä x 1, x 2,, x k. Virheet mallin rakenneosan spesifioinnissa johtavat virheellisiin johtopäätöksiin selitettävän muuttujan ja selittäjien välisestä riippuvuudesta. TKK (c) Ilkka Mellin (2007) 27

28 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheet mallin rakenneosassa 1/3 Spesifiointivirheitä lineaarisen mallin rakenneosassa: (i) Sovelletaan lineaarista mallia, vaikka selitettävän muuttujan y riippuvuus selittäjistä x 1, x 2,, x k ei ole lineaarista. (ii) Mallissa on väärät selittäjät: Mallista puuttuu selittäjiä. Mallissa on liikaa selittäjiä. (iii) Selitettävä muuttuja ja/tai selittäjät ovat mallissa väärässä funktionaalisessa muodossa. (iv) Oletetaan virheellisesti, että regressiokertoimet ovat vakioita. TKK (c) Ilkka Mellin (2007) 28

29 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheet mallin rakenneosassa 2/3 Kommentteja kohtiin (i)-(iv): (i) Epälineaaristen regressiomallien käsittely sivuutetaan tässä esityksessä. (ii) Selittäjien valinta on regressioanalyysin keskeisiä ja vaikeimpia ongelmia. Ks. lukua Regressiomallin valinta. (iii) Sopiva selitettävän muuttujan ja/tai selittäjien muunnos saattaa linearisoida selitettävän muuttujan ja selittäjien epälineaarisen riippuvuuden. Ks. lukua Regressiomallin valinta. (iv) Parametrien vakioisuutta on mahdollista testata. Ks. kappaletta Parametrien vakioisuus. TKK (c) Ilkka Mellin (2007) 29

30 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheet mallin rakenneosassa 3/3 Vain huolellinen perehtyminen tutkittavan ilmiön taustateoriaan mahdollistaa regressiomallin rakenneosan spesifioinnin oikein. Spesifiointivirheet regressiomallin rakenneosassa tulevat tavallisesti esiin estimoidun mallin residuaaleissa. TKK (c) Ilkka Mellin (2007) 30

31 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Mallin jäännöstermin spesifiointi Vaikka yleistä lineaarista mallia y = Xβ + ε sovellettaessa pääasiallinen kiinnostus kohdistuu mallin systemaattisen osan eli rakenneosan E( yx) = Xβ oikeaan spesifiointiin, on syytä huomata, että mallin jäännöstermille ε valittu spesifikaatio eli täsmennys vaikuttaa sekä estimointimenetelmän valintaan että mallista tehtävään tilastolliseen päättelyyn. TKK (c) Ilkka Mellin (2007) 31

32 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheet mallin jäännöstermissä 1/3 Spesifiointivirheitä lineaarisen mallin jäännöstermissä: (i) Oletetaan virheellisesti, että jäännöstermi ε on homoskedastinen ja korreloimaton. (ii) Oletetaan virheellisesti, että jäännöstermi ε on normaalinen. TKK (c) Ilkka Mellin (2007) 32

33 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheet mallin jäännöstermissä 2/3 Kommentteja kohtiin (i)-(ii): (i) Jos jäännöstermiä koskeva homoskedastisuustai korreloimattomuusoletus ei päde, regressiokertoimien PNS-estimaattorit eivät ole parhaita Gaussin ja Markovin lauseen mielessä. Ks. lukua Regressiomallin erityiskysymyksiä. (ii) Jos jäännöstermiä koskeva normaalisuusoletus ei päde, t-ja F-jakaumiin perustuva tilastolliset testit eivät välttämättä ole päteviä. TKK (c) Ilkka Mellin (2007) 33

34 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheet mallin jäännöstermissä 3/3 Spesifiointivirheet regressiomallin jäännöstermissä näkyvät tavallisesti estimoidun mallin residuaaleissa. Estimoidun mallin residuaaleissa havaittu heteroskedastisuus, korreloituneisuus tai epänormaalisuus ei kuitenkaan välttämättä merkitse sitä, että mallin jäännöstermi on spesifioitu väärin. Residuaalien heteroskedastisuus, korreloituneisuus tai epänormaalisuus saattavat indikoida myös sitä, että mallin rakenneosa on spesifioitu väärin. TKK (c) Ilkka Mellin (2007) 34

35 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Spesifiointivirheiden vaikutukset Regressioanalyysissa pääkiinnostus kohdistuu oikean spesifikaation löytämiseen regressiomallin systemaattiselle osalle eli rakenneosalle, koska juuri rakenneosa kuvaa selitettävän muuttujan riippuvuutta selittäjistä. Regressiomallin jäännöstermin spesifikaatio vaikuttaa kuitenkin voimakkaasti sekä mallin estimointiin että testaukseen. Sekä regressiomallin rakenneosan että jäännöstermin virheellinen spesifiointi näkyvät tavallisesti estimoidun mallin residuaaleissa. TKK (c) Ilkka Mellin (2007) 35

36 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Diagnostiset tarkistukset Regressiomalli on aina syytä alistaa seuraavien diagnostisten tarkistusten kohteeksi: (i) Onko havaintojen joukossa regressioanalyysin tuloksia vääristäviä poikkeavia havaintoja? (ii) Ovatko regressiokertoimet vakioita? (iii) Ovatko selittäjät itsenäisiä? (iv) Ovatko mallin jäännöstermit homoskedastisia? (v) Ovatko mallin jäännöstermit korreloimattomia? (vi) Ovatko mallin jäännöstermit normaalisia? TKK (c) Ilkka Mellin (2007) 36

37 Yleinen lineaarinen malli ja regressiodiagnostiikka Yleinen lineaarinen malli: Mallin ennustuskyvyn arviointi On syytä muistaa, että voimakkain testi mille tahansa tieteelliselle selitysmallille on sen kyky ennustaa. Siksi regressiomalleja sovellettaessa on aina syytä testata mallin ennustuskykyä tavanomaisten diagnostisten tarkistusten lisäksi. TKK (c) Ilkka Mellin (2007) 37

38 Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka >> Regressiografiikka Poikkeavat havainnot Parametrien vakioisuus Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Mallin ennustuskyky TKK (c) Ilkka Mellin (2007) 38

39 Regressiografiikka Regressiomallin hyvyys ja regressiografiikka Regressiomallin hyvyyttä voidaan tutkia mallista saatuja estimointituloksia havainnollistavien graafisten esitysten avulla. Regressiografiikan standardikuviot: (i) Kuviot, joiden avulla estimoidun mallin sovitteita verrataan selitettävän muuttujan havaittuihin arvoihin. (ii) Kuviot, joiden avulla havainnollistetaan estimoidun mallin residuaaleja. TKK (c) Ilkka Mellin (2007) 39

40 Regressiografiikka Sovitteiden tutkiminen: Pistediagrammien käyttö 1/2 Regressiomallin spesifikaation hyvyyttä voidaan tutkia vertaamalla estimoidun mallin sovitteita selitettävän muuttujan havaittuihin arvoihin piirtämällä niiden riippuvuutta havainnollistava pistediagrammi: Piirretään sovitteet selitettävän muuttujan havaittuja arvoja vastaan eli esitetään lukuparit ( y ˆ i, yi), i = 1,2,, n 2 pisteinä avaruudessa. TKK (c) Ilkka Mellin (2007) 40

41 Regressiografiikka Sovitteiden tutkiminen: Pistediagrammien käyttö 2/2 Regressiomalli on sitä parempi mitä lähempänä pisteet ( y ˆ i, yi), i = 1,2,, n ovat suoraa, jonka kulmakerroin = 1. Pisteiden ( y ˆ i, yi), i = 1,2,, n muodostaman pistepilven tai -parven käyristyminen viittaa regressiomallin rakenneosan väärään spesifikaatioon eli täsmennykseen. Poikkeavat havainnot erottuvat tavallisesti kaukana em. suorasta olevina pisteinä. TKK (c) Ilkka Mellin (2007) 41

42 Regressiografiikka Sovitteiden tutkiminen: Mallin hyvyyden mittaaminen Regressiomallin hyvyyden mittarina voidaan käyttää selitettävän muuttujan y havaittujen arvojen y i ja estimoidun mallin sovitteiden yˆi otoskorrelaatiokerrointa Cor( yy, ˆ) Jos estimoitu regressiomalli on lineaarinen ja mallissa on vakio, [ ] 2 2 Cor( yy, ˆ) = R jossa R 2 on estimoidun mallin selitysaste. TKK (c) Ilkka Mellin (2007) 42

43 Regressiografiikka Residuaalien tutkiminen: Residuaalidiagrammit 1/2 Regressiomallin spesifikaation hyvyyttä voidaan tutkia piirtämällä estimoidun mallin residuaaleista kuviot, joita kutsutaan residuaalidiagrammeiksi: (i) Piirretään residuaalit sovitteita vastaan eli esitetään lukuparit ( yˆ i, ei), i = 1,2,, n 2 pisteinä avaruudessa. (ii) Piirretään residuaalit eri selittäjien arvoja vastaan eli esitetään lukuparit ( xij, ei ), i = 1, 2,, n; j = 1, 2,, k 2 pisteinä avaruudessa. TKK (c) Ilkka Mellin (2007) 43

44 Regressiografiikka Residuaalien tutkiminen: Residuaalidiagrammit 2/2 Oikein täsmennetyn regressiomallin residuaalidiagrammeissa pisteet muodostavat vaakatasossa vasemmalta oikealle etenevät tasaleveät pistepilvet tai -parvet, joissa ei näy poikkeavia havaintoja. Residuaalidiagrammien pistepilvien käyristyminen viittaa regressiomallin rakenneosan väärään spesifikaatioon eli täsmennykseen: (i) Selitettävän muuttujan riippuvuus selittäjistä ei ole lineaarista. (ii) Mallissa ei ole oikeita selittäjiä. (iii) Selitettävä muuttuja ja/tai selittäjät eivät ole oikeassa funktionaalisessa muodossa. TKK (c) Ilkka Mellin (2007) 44

45 Regressiografiikka Residuaalien tutkiminen: Heteroskedastisuus Jos residuaalidiagrammien pistepilvet tai -parvet eivät ole tasaleveitä (esim. pilvet levenevät oikealle tai vasemmalle), regressiomallin jäännöstermi saattaa olla heteroskedastinen. Estimoidun mallin residuaalien heteroskedastisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatioon eli täsmennykseen. TKK (c) Ilkka Mellin (2007) 45

46 Regressiografiikka Aikasarjojen regressiomallit Aikasarjojen regressiomalleissa oletetaan, että havainnot on järjestetty ajassa niin, että havaintoindeksin i = 1, 2,, n arvot viittaavat peräkkäisiin ajanhetkiin. Huomautus: Aikasarjoissa havaintoindeksinä käytetään usein kirjainta t: t time TKK (c) Ilkka Mellin (2007) 46

47 Regressiografiikka Aikasarjojen regressiomallit: Sovitteiden ja residuaalien tutkiminen 1/3 Aikasarjojen regressiomallin spesifikaation hyvyyttä tutkitaan tavallisesti piirtämällä seuraavat aikasarjadiagrammit: (i) Piirretään selitettävän muuttujan havaitut arvot yi, i = 1,2,..., n ja estimoidun mallin sovitteet yˆ i, i = 1,2,..., n aikasarjoina samaan kuvioon. (ii) Piirretään estimoidun mallin residuaalit ei, i = 1,2,..., n aikasarjana. TKK (c) Ilkka Mellin (2007) 47

48 Regressiografiikka Aikasarjojen regressiomallit: Sovitteiden ja residuaalien tutkiminen 2/3 Aikasarjadiagrammit ovat pistediagrammeja, joissa muuttujan arvot piirretään aikaa vastaan. Tavallisesti ajassa peräkkäisiin havaintoihin liittyvät pisteet yhdistetään aikasarjadiagrammissa janalla. Siten edellisellä kalvolla mainitut aikasarjadiagrammien piirtäminen merkitsee seuraavien pistediagrammien piirtämistä: (i) Selittettävän muuttujan arvot: ( iy, i ), i= 1,2,..., n Sovitteet: ( iy, ˆi ), i= 1,2,..., n (ii) Residuaalit: ( ie, ), i= 1,2,..., n i TKK (c) Ilkka Mellin (2007) 48

49 Regressiografiikka Aikasarjojen regressiomallit: Sovitteiden ja residuaalien tutkiminen 3/3 Regressiomalli on sitä parempi, mitä lähempänä estimoidun mallin sovitteiden muodostama aikasarja yˆ i, i = 1,2,, n kulkee selitettävän muuttujan havaittujen arvojen muodostamaa aikasarjaa yi, i = 1,2,, n tai mikä on sama asia mitä pienempiä ovat residuaalit ei, i = 1,2,..., n Aikasarjadiagrammeista (i) ja (ii) (ks. edelliset kalvot) nähdään minä ajanhetkinä malli selittää selitettävän muuttujan käyttäytymistä hyvin ja minä huonosti. TKK (c) Ilkka Mellin (2007) 49

50 Regressiografiikka Aikasarjojen regressiomallit: Residuaalit ja regressiodiagnostiikka Jos residuaaliaikasarjan pistepilvi ei ole tasaleveä (esim. pilvi levenee oikealle tai vasemmalle), regressiomallin jäännöstermi saattaa olla heteroskedastinen. Residuaaliaikasarjan heteroskedastisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatioon eli täsmennykseen. Jäännöstermin korreloituneisuus tulee esille residuaaliaikasarjan sisäisessä rytmiikassa (autokorrelaatiorakenteessa). Residuaaliaikasarjan korreloituneisuus saattaa kuitenkin viitata myös mallin rakenneosan väärään spesifikaatioon eli täsmennykseen. TKK (c) Ilkka Mellin (2007) 50

51 Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka >> Poikkeavat havainnot Parametrien vakioisuus Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Mallin ennustuskyky TKK (c) Ilkka Mellin (2007) 51

52 Poikkeavat havainnot Poikkeavat ja normaalit havainnot Poikkeavalla havainnolla (engl. outlier) tarkoitetaan havaintoa, joka eroaa jossakin mielessä merkitsevästi muista havainnoista. Tilastollisen analyysin kannalta havaintoa voidaan pitää poikkeavana, jos se vääristää tilastollisen analyysin tulokset: (i) Jos havainnon poistaminen muuttaa olennaisesti tilastollisen analyysin tuloksia, havainto on poikkeava. (ii) Jos havainnon poistaminen ei olennaisesti muuta tilastollisen analyysin tuloksia, havainto on normaali. TKK (c) Ilkka Mellin (2007) 52

53 Poikkeavat havainnot Poikkeavien havaintojen vaikutukset Regressioanalyysissa poikkeavat havainnot saattavat aiheuttaa seuraavia vaikeuksia: (i) Mallin valinta vaikeutuu. (ii) Mallin estimointi hankaloituu. (iii) Mallia koskeva tilastollinen päättely saattaa vääristyä. TKK (c) Ilkka Mellin (2007) 53

54 Poikkeavat havainnot Poikkeavien havaintojen tunnistaminen 1/2 Regressioanalyysissa poikkeavien havaintojen tunnistamiseen käytetään sekä graafisia menetelmiä että erityisesti niiden tunnistamiseen konstruoituja tunnuslukuja. Poikkeavat havainnot voidaan usein tunnistaa suoraan residuaalidiagrammeista; ks. kappaletta Regressiografiikka. TKK (c) Ilkka Mellin (2007) 54

55 Poikkeavat havainnot Poikkeavien havaintojen tunnistaminen 2/2 Tässä kappaleessa tarkastellaan seuraavia poikkeavien havaintojen tunnistamiseen tarkoitettuja tunnuslukuja: Residuaalit Standardoidut residuaalit Poistoresiduaalit Standardoidut poistoresiduaalit Vipuluvut eli leverage-luvut Cookin etäisyydet TKK (c) Ilkka Mellin (2007) 55

56 Poikkeavat havainnot Yleinen lineaarinen malli: Määritelmä Olkoon yi = β0 + β1xi 1+ β2xi2 + + βkxik + εi, i = 1,2,, n yleinen lineaarinen malli, jossa y i = selitettävän muuttujan y satunnainen ja havaittu arvo havaintoyksikössä i x ij = selittävän muuttujan eli selittäjän x j havaittu arvo havaintoyksikössä i, j = 1, 2,, k β 0 = vakioselittäjän tuntematon regressiokerroin β j = selittäjän x j tuntematon regressiokerroin ε i = satunnainen ja ei-havaittu jäännös- eli virhetermi havaintoyksikössä i TKK (c) Ilkka Mellin (2007) 56

57 Poikkeavat havainnot Residuaalit: Määritelmä Olkoot b 0, b 1, b 2,, b k regressiokertoimien β 0, β 1, β 2,, β k PNS-estimaattorit. Määritellään estimoidun mallin sovitteet yˆi kaavalla yˆi = b0 + bx 1 i 1+ b2x i b k x ik, i = 1,2,, n Määritellään estimoidun mallin residuaalit e i kaavalla ei = yi yˆ i = y b bx b x b x, i = 1,2,, n i 0 1 i1 2 i2 k ik TKK (c) Ilkka Mellin (2007) 57

58 Poikkeavat havainnot Residuaalit: Poikkeavien havaintojen tunnistaminen Estimoidun mallin residuaaleja e i voidaan käyttää poikkeavien havaintojen tunnistamiseen. Voimakkaasti muista residuaaleista poikkeavat residuaalit saattavat viitata poikkeaviin havaintoihin. TKK (c) Ilkka Mellin (2007) 58

59 Poikkeavat havainnot Standardoidut residuaalit: Määritelmä 1/2 Koska estimoidun lineaarisen regressiomallin PNSresiduaalit e i ovat yleensä heteroskedastisia, regressiodiagnostiikassa tarkastellaan PNS-residuaalien sijasta usein standardoituja residuaaleja. Residuaalin e i, i = 1, 2,, n varianssi on 2 2 D( ei) = σ (1 hii) jossa h ii = [ P] ii on hattumatriisin P = X( XX ) 1 X i. diagonaalialkio. TKK (c) Ilkka Mellin (2007) 59

60 Poikkeavat havainnot Standardoidut residuaalit: Määritelmä 2/2 Standardoidut eli studentisoidut residuaalit Std(e i ), i = 1, 2,, n saadaan PNS-residuaaleista e i kaavalla ei Std( ei ) = ˆD( ei ) Standardoidun residuaalin Std(e i ) kaavassa 2 2 ˆD ( ei) = s (1 hii) on residuaalin e i varianssin estimaattori, jossa n s = ei n k 1 i= 1 on jäännösvarianssin σ 2 harhaton estimaattori. TKK (c) Ilkka Mellin (2007) 60

61 Poikkeavat havainnot Standardoidut residuaalit: Poikkeavien havaintojen tunnistaminen Standardoituja residuaaleja Std(e i ) voidaan käyttää poikkeavien havaintojen tunnistamiseen. Jos estimoitu regressiomalli on riittävä kuvaamaan kaikkia havaintoja, standardoitujen residuaalien itseisarvot saavat vain pienellä todennäköisyydellä suurempia arvoja kuin Lukuarvoja suuremmat standardoitujen residuaalien itseisarvot saattavat viitata poikkeaviin havaintoihin. Standardoitujen residuaalien itseisarvoja voidaan verrata Studentin t-jakaumasta sopivasti valittuun kriittiseen rajaan. TKK (c) Ilkka Mellin (2007) 61

62 Poikkeavat havainnot Poistoresiduaalit: Määritelmä 1/2 Poikkeavia havaintoja voidaan etsiä poistoresiduaalien avulla: (i) Estimoidaan malli siten, että havainto i jätetään pois. (ii) Määrätään havaintoa i vastaava poistoresiduaali selitettävän muuttujan y havaitun arvon y i ja ilman havaintoa i estimoidun mallin muuttujalle y antaman arvon erotuksena (ennustevirheenä). Havaintoa i vastaava poistoresiduaali mittaa ilman havaintoa i estimoidun mallin kykyä ennustaa selitettävän muuttujan y arvo havainnossa i. TKK (c) Ilkka Mellin (2007) 62

63 Poikkeavat havainnot Poistoresiduaalit: Määritelmä 2/2 Poistoresiduaalit d i, i = 1, 2,, n saadaan PNSresiduaaleista e i kaavalla ei di = 1 h ii jossa h ii = [ P] ii on hattumatriisin P = X( XX ) 1 X i. diagonaalialkio. TKK (c) Ilkka Mellin (2007) 63

64 Poikkeavat havainnot Standardoidut poistoresiduaalit: Määritelmä 1/2 Poistoresiduaalin d i, i = 1, 2,, n varianssi on 2 2 σ D( di ) = 1 hii jossa h ii = [ P] ii on hattumatriisin P = X( XX ) 1 X i. diagonaalialkio. TKK (c) Ilkka Mellin (2007) 64

65 Poikkeavat havainnot Standardoidut poistoresiduaalit: Määritelmä 2/2 Standardoidut eli studentisoidut poistoresiduaalit Std(d i ), i = 1, 2,, n saadaan poistoresiduaaleista d i kaavalla di Std( di ) = ˆD( di ) jossa 2 s 2 () i ˆD ( di ) = 1 hii 2 on poistoresiduaalin d i varianssin estimaattori, jossa s on jäännösvarianssin σ 2 () i harhaton estimaattori mallista, josta havainto i on jätetty pois. TKK (c) Ilkka Mellin (2007) 65

66 Poikkeavat havainnot Standardoidut poistoresiduaalit: Poikkeavien havaintojen tunnistaminen Standardoituja poistoresiduaaleja Std(d i ) voidaan käyttää poikkeavien havaintojen tunnistamiseen. Jos estimoitu regressiomalli on riittävä kuvaamaan kaikkia havaintoja, standardoitujen poistoresiduaalien itseisarvot saavat vain pienellä todennäköisyydellä suurempia arvoja kuin Lukuarvoja suuremmat standardoitujen poistoresiduaalien itseisarvot saattavat viitata poikkeaviin havaintoihin. Standardoitujen poistoresiduaalien itseisarvoja voidaan verrata Studentin t-jakaumasta sopivasti valittuun kriittiseen rajaan. TKK (c) Ilkka Mellin (2007) 66

67 Poikkeavat havainnot Vipuluvut: Määritelmä 1/2 Poikkeavia havaintoja voidaan etsiä vipulukujen eli leverage-lukujen avulla. Havaintoa i vastaava vipuluku (leverage) h ii, i = 1, 2,, n on hattumatriisin P = X( XX ) 1 X i. diagonaalialkio: [ ] h = P ii ii TKK (c) Ilkka Mellin (2007) 67

68 Poikkeavat havainnot Vipuluvut: Määritelmä 2/2 Vipuluvut h ii ovat verrannollisia havaintopisteiden ( xi1, xi2,, xik) etäisyyksiin selittävien muuttujien havaintoarvojen aritmeettisten keskiarvojen muodostamasta pisteestä ( x, x,, x k ) 1 2 TKK (c) Ilkka Mellin (2007) 68

69 Poikkeavat havainnot Vipuluvut: Poikkeavien havaintojen tunnistaminen Jos havaintoa i vastaava vipuluku (leverage) h ii on selvästi muita suurempi, havainto i on syrjässä selittävien muuttujien muihin havaintoarvoihin nähden. Syrjässä olevat havainnot saattavat vääristää regressioanalyysin tulokset. TKK (c) Ilkka Mellin (2007) 69

70 Poikkeavat havainnot Cookin etäisyydet: Määritelmä 1/3 Poikkeavia havaintoja voidaan etsiä Cookin etäisyyksien avulla: (i) Estimoidaan malli niin, että kaikki havainnot ovat mukana. Lasketaan estimoidulle mallille sovitteet yˆl, l = 1, 2,, n. (ii) Estimoidaan malli jättämällä pois havainto i. Lasketaan ilman havaintoa i estimoidun mallin antama arvo yˆl () i kaikille havaintoyksiköille l = 1, 2,, n. (iii) Verrataan lukuja ja y toisiinsa. y ˆl ˆl () i TKK (c) Ilkka Mellin (2007) 70

71 Poikkeavat havainnot Cookin etäisyydet: Määritelmä 2/3 Cookin etäisyydet D i, i = 1, 2,, n saadaan kaavalla n 2 ( yˆ ˆ 1 l y ()) l= l i Di = 2 ( k+ 1) s jossa n s = ei n k 1 i= 1 on jäännösvarianssin σ 2 harhaton estimaattori, joka on määrätty, kun mallin estimoinnissa on käytetty kaikkia havaintoja. TKK (c) Ilkka Mellin (2007) 71

72 Poikkeavat havainnot Cookin etäisyydet: Määritelmä 3/3 Cookin etäisyydet D i, i = 1, 2,, n voidaan laskea myös kaavalla Std( ei) hii Di = k+ 1 1 hii jossa Std(e i ) on havaintoa i vastaava standardoitu residuaali ja h ii = [ P] ii on hattumatriisin P = X( XX ) 1 X i. diagonaalialkio. TKK (c) Ilkka Mellin (2007) 72

73 Poikkeavat havainnot Cookin etäisyydet: Poikkeavien havaintojen tunnistaminen Cookin etäisyyksiä D i voidaan käyttää poikkeavien havaintojen tunnistamiseen. Jos havaintoa i vastaava Cookin etäisyys D i > 1 tai on selvästi muiden havaintojen Cookin etäisyyttä suurempi, havainto kannattaa ottaa erikoistarkasteluun. TKK (c) Ilkka Mellin (2007) 73

74 Poikkeavat havainnot Tilastografiikan käyttö poikkeavien havaintojen tunnistamisessa 1/2 Poikkeavien havaintojen tunnistamiseen tarkoitettujen tunnuslukujen käyttöä voidaan usein helpottaa sopivilla graafisilla esityksillä. Tällöin käytetyn tunnusluvun havaintokohtaiset arvot T i, i = 1, 2,, n piirretään havaintonumeroa vastaan pistediagrammina (i, T i ), i = 1, 2,, n Poikkeavat havainnot erottuvat kuviosta tavallisesti helposti. TKK (c) Ilkka Mellin (2007) 74

75 Poikkeavat havainnot Tilastografiikan käyttö poikkeavien havaintojen tunnistamisessa 2/2 Pistediagrammissa (i, T i ), i = 1, 2,, n tunnusluku T i voi olla esimerkiksi mikä tahansa seuraavista tunnusluvuista: Residuaali Standardoitu residuaali Poistoresiduaali Standardoitu poistoresiduaali Vipuluku Cookin etäisyys TKK (c) Ilkka Mellin (2007) 75

76 Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot >> Parametrien vakioisuus Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Mallin ennustuskyky TKK (c) Ilkka Mellin (2007) 76

77 Parametrien vakioisuus Vakioparametrisuusoletus yleisessä lineaarisessa mallissa Kun yleinen lineaarinen malli spesifioidaan muodossa yi = β0 + β1xi 1+ β2xi2 + + βkxik + εi, i = 1,2,, n spesifikaatioon sisältyy implisiittisesti seuraava mallin regressiokertoimia koskeva vakioparametrisuusoletus: Regressiokertoimet β 0, β 1, β 2,, β k ovat samat kaikille havainnoille i = 1, 2,, n. Lisäksi mallia koskeviin standardioletuksiin kuuluu homoskedastisuusoletus eli jäännösvarianssia koskeva vakioparametrisuusoletus: εi σ i n 2 Var( ) =, = 1,2,, TKK (c) Ilkka Mellin (2007) 77

78 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testausasetelma 1/4 Jaetaan havainnot i = 1, 2,, n kahteen osaan: Osa 1: i = 1, 2,, h hkpl Osa 2: i = h + 1, h + 2,, n (n h) kpl Oletetaan lisäksi, että h k +1 Muodostetaan kaksi lineaarista regressiomallia: (i) Käytetään mallissa (1) havaintoja i = 1, 2,, h. (ii) Käytetään mallissa (2) havaintoja i = 1, 2,, n. TKK (c) Ilkka Mellin (2007) 78

79 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testausasetelma 2/4 Malli (1) voidaan esittää matriisein muodossa yh = Xhβh + εh jossa X h on h (k+1)-matriisi. Tehdään mallista (1) seuraavat oletukset: r( Xh) = k ε N (, 0 σ I) h h h TKK (c) Ilkka Mellin (2007) 79

80 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testausasetelma 3/4 Malli (2) voidaan esittää matriisein muodossa yn = Xnβn + εn jossa X n on n (k+1)-matriisi. Tehdään mallista (2) seuraavat oletukset: r( Xn) = k ε N (, 0 σ I) n n n TKK (c) Ilkka Mellin (2007) 80

81 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testausasetelma 4/4 Huomaa, että mallin (2) n (k + 1)-matriisi X n voidaan esittää muodossa Xh Xn = X2 jossa (n h) (k + 1)-matriisi X 2 liittyy havaintoihin i = h + 1, h + 2,, n TKK (c) Ilkka Mellin (2007) 81

82 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testisuure Estimoidaan molemmat mallit (1) ja (2) PNSmenetelmällä. Olkoon SSE h = jäännösneliösumma mallista (1) SSE n = jäännösneliösumma mallista (2) Muodostetaan F-testisuure n k 1 SSEn SSEh F = n h SSE h TKK (c) Ilkka Mellin (2007) 82

83 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Chow-testi Jos nollahypoteesi 2 2 H 0 : βn = βh, σn = σh pätee, testisuure n k 1 SSEn SSEh F = n h SSEh noudattaa F-jakaumaa vapausastein (n h) ja (n k 1): F F( n h, n k 1) Suuret testisuureen arvot viittaavat siihen, että oletus parametrien vakioisuudesta ei päde. Testi tunnetaan nimellä Chow-testi. TKK (c) Ilkka Mellin (2007) 83

84 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testisuureen toinen muoto 1/4 Ennustetaan selitettävän muuttujan y arvot havainnoissa i = h + 1, h + 2,, n regressiomallilla (1): yˆ i = b0 + b1xi1+ b2xi2 + + bkxik, i = h+ 1, h+ 2,, n jossa bh= ( b0, b1, b2,, bk) = regressiokertoimien vektorin βh PNS-estimaattori mallista (1) TKK (c) Ilkka Mellin (2007) 84

85 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testisuureen toinen muoto 2/4 Olkoon u = ( uh+ 1, uh+ 2,, un) ennustevirheiden u ˆ i = yi yi, i = h+ 1, h+ 2,, n muodostama (n h)-vektori. Vektorilla u on seuraavat stokastiset ominaisuudet: E( u) = Cov( u) = σ h ( I+ X2( X h X h ) X 2) jossa X 2 = havaintoihin i = h + 1, h +2,, n liittyvä osa matriisista X n TKK (c) Ilkka Mellin (2007) 85

86 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testisuureen toinen muoto 3/4 Olkoon lisäksi 2 sh = tavanomainen harhaton estimaattori 2 jäännösvarianssille σ h mallista (1) Tällöin matriisi 2 1 Ĉov( u) = s h ( I+ X2( X h X h ) X 2) on ennustevirheiden vektorin u kovarianssimatriisin Cov(u) estimaattori. TKK (c) Ilkka Mellin (2007) 86

87 Parametrien vakioisuus Vakioparametrisuusoletuksen testaaminen: Testisuureen toinen muoto 4/4 Chow-testisuure nollahypoteesille 2 2 H 0 : βn = βh, σn = σh voidaan edellä olevia merkintöjä käyttäen esittää muodossa 1 1 F = Ĉov( ) n u h u u Siten Chow-testisuureella on seuraava tulkinta: Chow-testisuure testaa havainnoista i = 1, 2,, h estimoidun mallin (1) kykyä ennustaa selitettävän muuttujan y arvoja havainnoissa i = h + 1, h + 2,, n. TKK (c) Ilkka Mellin (2007) 87

88 Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot Parametrien vakioisuus >> Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Ennustuskyky TKK (c) Ilkka Mellin (2007) 88

89 Multikollineaarisuus Lineaarinen riippuvuus ja multikollineaarisuus 1/3 Olkoon y = Xβ + ε standardioletukset toteuttava yleinen lineaarinen malli, jossa X on selittäjien arvojen ja ykkösten muodostama täysiasteinen n (k + 1)-matriisi. Regressiokertoimien vektorin β PNS-estimaattori on b= ( XX ) 1 Xy PNS-estimaattorin b kovarianssimatriisi on 2 1 Cov( b) = σ ( XX ) TKK (c) Ilkka Mellin (2007) 89

90 Multikollineaarisuus Lineaarinen riippuvuus ja multikollineaarisuus 2/3 Yleisen lineaarinen mallin regressiokertoimien vektorin β PNS-estimaattorin ja sen kovarianssimatriisin kaavoista nähdään: Jos matriisi X ei ole täysiasteinen, PNS-estimaattoria ja sen kovarianssimatriisia on mahdotonta muodostaa em. kaavoilla. Matriisin X täysiasteisuus eli ehto r(x) = k + 1 merkitsee sitä, että matriisin X sarakkeiden on oltava lineaarisesti riippumattomia. TKK (c) Ilkka Mellin (2007) 90

91 Multikollineaarisuus Lineaarinen riippuvuus ja multikollineaarisuus 3/3 Jos yleisen lineaarisen mallin y = Xβ + ε selittävien muuttujien havaittujen arvojen muodostama n (k + 1)-matriisi X ei ole täysiasteinen eli r(x) < k + 1 PNS-estimointi ei ole tavanomaisessa mielessä mahdollista. Jos matriisi X on täysiasteinen eli r(x) = k + 1 mutta matriisin X sarakkeet ovat lähes lineaarisesti riippuvia, sanotaan, että mallin selittäjät ovat multikollineaarisia. TKK (c) Ilkka Mellin (2007) 91

92 Multikollineaarisuus Multikollineaarisuuden vaikutukset 1/2 Multikollineaarisuus saattaa hankaloittaa sekä regressiomallin estimointia että mallista tehtävää tilastollista päättelyä. Siten voimakas multikollineaarisuus saattaa hankaloittaa myös mallin valintaa. Koska multikollineaarisuus on suhteellinen ominaisuus toisin kuin lineaarinen riippuvuus voidaan puhua multikollineaarisuuden asteesta. TKK (c) Ilkka Mellin (2007) 92

93 Multikollineaarisuus Multikollineaarisuuden vaikutukset 2/2 Mitävähemmän selittäjät ovat multikollineaarisia, sitä itsenäisempiä ovat selittävät muuttujat selitettävän muuttujan käyttäytymisen selittäjinä. Jos selittäjät ovat voimakkaasti multikollineaarisia, ne kertovat jossakin mielessä samaa asiaa selitettävän muuttujan käyttäytymisestä. TKK (c) Ilkka Mellin (2007) 93

94 Multikollineaarisuus Varianssin inflaatiotekijä 1/3 Oletetaan, että selitettävää muuttujaa y selitetään lineaarisella regressiomallilla, jonka selittäjinä ovat muuttujat x 1, x 2,, x k. Olkoon b j selittäjän x j regressiokertoimen β j PNSestimaattori. Tällöin 2 1 σ Var( bj ) = 2 n 1 R 2 j ( x 1 ij x ) i= j 2 jossa R j on selitysaste lineaarisesta regressiomallista, jonka selitettävänä muuttujana on alkuperäisen mallin selittäjä x j ja selittäjinä ovat muut alkuperäisen mallin selittäjistä. TKK (c) Ilkka Mellin (2007) 94

95 Multikollineaarisuus Varianssin inflaatiotekijä 2/3 Regressiokertoimen b j varianssin kaavassa esiintyvää tekijää 1 VIFj =, j = 1,2,, k 2 1 R j kutsutaan selittäjää x j vastaavaksi varianssin inflaatiotekijäksi. TKK (c) Ilkka Mellin (2007) 95

96 Multikollineaarisuus Varianssin inflaatiotekijä 3/3 Jos selittäjät x 1, x 2,, x k ovat ortogonaalisia eli korreloimattomia, 2 R j = 0 kaikille j = 1,2,, k ja VIF j = 1 kaikille j = 1, 2,, k Jos selittäjä x j voidaan esittää muiden selittäjien x 1, x 2,, x j 1, x j+1,, x k lineaarikombinaationa, ja R = 1 2 j VIF j = + TKK (c) Ilkka Mellin (2007) 96

97 Multikollineaarisuus Varianssin inflaatiotekijän tulkinta 1/2 Kaavasta 2 σ Var( bj) = VIFj n 2 ( x 1 ij x ) i= j nähdään seuraavaa: (i) Estimaattorin b j varianssi on sitä suurempi, mitä suurempi on vastaava varianssin inflaatiotekijä VIF j. (ii) Estimaattorin b j varianssi on sitä pienempi, mitä pienempi on vastaava varianssin inflaatiotekijä VIF j. TKK (c) Ilkka Mellin (2007) 97

98 Multikollineaarisuus Varianssin inflaatiotekijän tulkinta 2/2 Regressiomallin selittäjien voimakasta multikollineaarisuutta pidetään tavallisesti haitallisena ja selittäjien mahdollisimman suurta ortogonaalisuutta hyödyllisenä ominaisuutena regressioanalyysissa. Jos VIF j > 10 jollekin j = 1, 2,, k multikollineaarisuudesta saattaa olla haittaa. Puhtaissa koeasetelmissa, joissa selittävien muuttujien arvot voidaan valita, selittäjät pyritään saamaan ortogonaalisiksi (tai lähes ortogonaalisiksi). TKK (c) Ilkka Mellin (2007) 98

99 Multikollineaarisuus Momenttimatriisi 1/2 Selittäjien x 1, x 2,, x k havaittujen arvojen momenttimatriisin A = [ a jl ] j. rivin ja l. sarakkeen alkio a jl on muuttujien x j ja x l havaittujen arvojen tulomomentti: jossa n a = ( x x )( x x ) jl ij j il l i= 1 n n 1 1 x = x x = x j ij l il n i= 1 n i= 1 TKK (c) Ilkka Mellin (2007) 99

100 Multikollineaarisuus Momenttimatriisi 2/2 Selittäjien x 1, x 2,, x k havaittujen arvojen momenttimatriisi A voidaan esittää matriisein muodossa A= ( Z 1z )( Z 1z ) = ZZ n zz jossa Z = aitojen selittäjien x 1, x 2,, x k havaittujen arvojen muodostama n k-matriisi z = aitojen selittäjien x 1, x 2,, x k havaittujen arvojen aritmeettisten keskiarvojen muodostama k-vektori TKK (c) Ilkka Mellin (2007) 100

101 Multikollineaarisuus Otoskovarianssimatriisi 1/2 Selittäjien x 1, x 2,, x k havaittujen arvojen otoskovarianssimatriisin S = [ s jl ] j. rivin ja l. sarakkeen alkio s jl on muuttujien x j ja x l havaittujen arvojen otoskovarianssi: n 1 sjl = ( xij xj )( xil xl ) n 1 i= 1 jossa n n 1 1 xj = xij xl = xil n i= 1 n i= 1 Erityisesti 2 s = s jj s jj = j s j TKK (c) Ilkka Mellin (2007) 101

102 Multikollineaarisuus Otoskovarianssimatriisi 2/2 Selittäjien x 1, x 2,, x k havaittujen arvojen otoskovarianssimatriisi S voidaan esittää matriisein muodossa S 1 1 = ( )( ) = n 1 Z 1z Z 1z n 1 A jossa Z = aitojen selittäjien x 1, x 2,, x k havaittujen arvojen muodostama n k-matriisi z = aitojen selittäjien x 1, x 2,, x k havaittujen arvojen aritmeettisten keskiarvojen muodostama k-vektori A = aitojen selittäjien x 1, x 2,, x k havaittujen arvojen muodostama k k-momenttimatriisi TKK (c) Ilkka Mellin (2007) 102

103 Multikollineaarisuus Otoskorrelaatiomatriisi 1/2 Selittäjien x 1, x 2,, x k havaittujen arvojen otoskorrelaatiomatriisin R = [ r jl ] j. rivin ja l. sarakkeen alkio r jl on muuttujien x j ja x l havaittujen arvojen otoskorrelaatio: s jl rjl = ss j l jossa s jl = muuttujien x j ja x l havaittujen arvojen otoskovarianssi sj = sjj = on muuttujan x j otoskeskihajonta s = s = on muuttujan x l otoskeskihajonta l ll TKK (c) Ilkka Mellin (2007) 103

104 Multikollineaarisuus Otoskorrelaatiomatriisi 2/2 Selittäjien x 1, x 2,, x k havaittujen arvojen otoskorrelaatiomatriisi R voidaan esittää matriisein muodossa 1 1 R = Ds SDs jossa S = aitojen selittäjien x 1, x 2,, x k havaittujen arvojen muodostama otoskovarianssimatriisi D s = diag( s1, s2,, s k ) = selittäjien x 1, x 2,, x k havaittujen arvojen otoskeskihajontojen s 1, s 2,, s k muodostama diagonaalimatriisi TKK (c) Ilkka Mellin (2007) 104

105 Multikollineaarisuus Multikollineaarisuus ja selittäjien korreloituneisuus Selittäjien x 1, x 2,, x k multikollineaarisuutta voidaan tutkia paitsi tarkastelemalla selittäjiä vastaavia varianssin inflaatiotekijöitä tutkimalla myös seuraavien matriisien ominaisarvoja (ja ominaisvektoreita): (i) Aitojen selittäjien havaittujen arvojen n k-matriisista Z saatava k k-matriisi Z Z (ii) Selittäjien havaittujen arvojen momenttimatriisi A (ii) Selittäjien havaittujen arvojen kovarianssimatriisi S (iii) Selittäjien havaittujen arvojen korrelaatiomatriisi R Matriisin multikollineaarisuuden mittarina voidaan käyttää matriisin kuntoisuuslukua eli suurimman ja pienimmän ominaisarvon suhdetta. TKK (c) Ilkka Mellin (2007) 105

106 Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot Parametrien vakioisuus Multikollineaarisuus >> Homoskedastisuus ja heteroskedastisuus Autokorrelaatio Normaalisuus Ennustuskyky TKK (c) Ilkka Mellin (2007) 106

107 Homoskedastisuus ja heteroskedastisuus Homoskedastisuusoletus Yleistä lineaarista mallia koskevan standardioletuksen (iv) mukaan kaikilla mallin jäännöstermeillä ε i on sama varianssi: 2 Var( εi ) = σ, i = 1,2,, n Tätä oletusta kutsutaan homoskedastisuusoletukseksi. Jos homoskedastisuusoletus ei päde, niin sanomme, että jäännöstermit ovat heteroskedastisia ja kirjoitamme 2 Var( εi) = σi, i = 1,2,, n Tällöin siis on olemassa indeksit i ja l siten, että 2 2 Var( ε ) = σ σ = Var( ε ) i i l l TKK (c) Ilkka Mellin (2007) 107

108 Homoskedastisuus ja heteroskedastisuus Heteroskedastisuuden vaikutukset Jos regressiomallin jäännöstermit ε i ovat heteroskedastisia, mallin regressiokertoimien PNS-estimaattorit eivät ole enää parhaita lineaaristen ja harhattomien estimaattoreiden joukossa. Tämä merkitsee sitä, että regressiokertoimien PNSestimaattoreiden varianssit ovat tarpeettoman suuria: (i) Regressiokertoimien luottamusväleistä tulee tarpeettoman leveitä. (ii) Regressiokertoimia koskevista testisuureiden arvoista tulee tarpeettoman pieniä. TKK (c) Ilkka Mellin (2007) 108

109 Homoskedastisuus ja heteroskedastisuus Heteroskedastisuuden havaitseminen Jäännöstermien heteroskedastisuus tulee usein esille estimoidun mallin hyvyyttä havainnollistavista residuaalidiagrammeista: (i) Piirretään standardoidut residuaalit sovitteita vastaan: ( yˆ i,std( ei)), i = 1,2,, n (ii) Aikasarjojen regressiomalleille residuaalit piirretään yleensä aikasarjana: ( ie, i ), i= 1,2,..., n Jos residuaalidiagrammin pisteiden vyö ei ole tasaleveä (esim. vyö levenee oikealle tai vasemmalle), regressiomallin jäännöstermi saattaa olla heteroskedastinen. TKK (c) Ilkka Mellin (2007) 109

110 Homoskedastisuus ja heteroskedastisuus Homoskedastisuuden testaaminen Olkoon yˆ i, i = 1,2,, n estimoidun lineaarisen mallin tuottama sovite ja ei, i = 1,2,, n vastaava residuaali. Määrätään selitysaste R 2 apuregressiosta 2 ei = α0 + α1ˆ yi + δi Jos homoskedastisuusoletus pätee, 2 nr 2 a χ (1) Suuret testisuureen nr 2 arvot johtavat homoskedastisuusoletuksen hylkäämiseen. TKK (c) Ilkka Mellin (2007) 110

111 Homoskedastisuus ja heteroskedastisuus Homoskedastisuuden testaaminen: Kommentteja Homoskedastisuustestit saattavat reagoida myös regressiomallin rakenneosan väärään spesifikaatioon. Siten homoskedastisuustestin testisuureen merkitsevä arvo ei saa automaattisesti johtaa toimenpiteisiin, joilla pyritään korjaamaan jäännöstermin heteroskedastisuus. TKK (c) Ilkka Mellin (2007) 111

112 Homoskedastisuus ja heteroskedastisuus Jäännösvarianssin stabiloivia muunnoksia Sopiva selitettävän muuttujan arvojen muunnos saattaa stabiloida jäännöstermien varianssin: Heteroskedastisuuden Stabiloiva tyyppi muunnos 2 σ vakio y = y 2 σ 2 σ 2 σ E( y) y = y [ ] [ ] ( ) E( y) 1 E( y) y = arcsin y 2 E( y) y = log( y) TKK (c) Ilkka Mellin (2007) 112

113 Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot Parametrien vakioisuus Multikollineaarisuus Homoskedastisuus ja heteroskedastisuus >> Autokorrelaatio Normaalisuus Ennustuskyky TKK (c) Ilkka Mellin (2007) 113

114 Autokorrelaatio Korreloimattomuusoletus Yleistä lineaarista mallia koskevan standardioletuksen (v) mukaan mallin jäännöstermit ε i ovat korreloimattomia: Cor( εi, ε l) = 0, i l Tätä oletusta kutsutaan korreloimattomuusoletukseksi. Jos Cor( εi, εl) 0, i l niin sanomme, että jäännöstermit ovat korreloituneita. TKK (c) Ilkka Mellin (2007) 114

115 Autokorrelaatio Korreloituneisuuden vaikutukset Jos regressiomallin jäännöstermit ε i ovat korreloituneita, mallin regressiokertoimien PNS-estimaattorit eivät ole enää parhaita lineaaristen ja harhattomien estimaattoreiden joukossa. Tämä merkitsee sitä, että regressiokertoimien PNSestimaattoreiden varianssit ovat tarpeettoman suuria: (i) Regressiokertoimien luottamusväleistä tulee tarpeettoman leveitä. (ii) Regressiokertoimia koskevista testisuureiden arvoista tulee tarpeettoman pieniä. TKK (c) Ilkka Mellin (2007) 115

116 Autokorrelaatio Korreloituneisuus ja aikasarjat Korreloituneisuus on aikasarjojen regressiomallien tavallinen ongelma. Aikasarjojen regressiomalleissa kiinnitetään huomio korreloituneisuuden lajiin, jota kutsutaan autokorrelaatioksi. Oletetaan, että havainnot ovat aikajärjestyksessä. Olkoon ε i lineaarisen mallin yi = β0 + β1xi 1+ β2xi2 + + βkxik + εi, i = 1,2,, n jäännöstermi. Koska havainnot ovat aikajärjestyksessä, jäännöstermit ε i muodostavat aikasarjan. TKK (c) Ilkka Mellin (2007) 116

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Regressiodiagnostiikka TKK (c) Ilkka Mellin (2004) 1 Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot Regressiokertoimien

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2007) 1 Yleinen lineaarinen malli >> Usean selittäjän lineaarinen regressiomalli

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa TKK (c) Ilkka Mellin (2007) 1 Erityiskysymyksiä yleisen lineaarisen

Lisätiedot

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2004) 1 Yleinen lineaarinen malli Usean selittäjän lineaarinen regressiomalli Yleisen lineaarisen mallin matriisisesitys Yleisen

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1 Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

Regressiodiagnostiikka ja regressiomallin valinta

Regressiodiagnostiikka ja regressiomallin valinta Regressiodiagnostiikka ja regressiomallin valinta MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015

Lisätiedot

Regressiodiagnostiikka ja regressiomallin valinta

Regressiodiagnostiikka ja regressiomallin valinta Regressiodiagnostiikka ja regressiomallin valinta MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Regressiomallin valinta TKK (c) Ilkka Mellin (2007) 1 Regressiomallin valinta >> Regressiomallin valinta: Johdanto Mallinvalintatestit

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Johdatus regressioanalyysiin Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla.

Lisätiedot

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Regressiomallin valinta TKK (c) Ilkka Mellin (2004) 1 Regressiomallin valinta Regressiomallin valinta: Johdanto Mallinvalintatestit Mallinvalintakriteerit Epälineaaristen riippuvuuksien

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

Yleinen lineaarinen malli

Yleinen lineaarinen malli MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015 Viikko 1: 1 Määritelmä ja standardioletukset 2

Lisätiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

2. Teoriaharjoitukset

2. Teoriaharjoitukset 2. Teoriaharjoitukset Demotehtävät 2.1 Todista Gauss-Markovin lause. Ratkaisu. Oletetaan että luentokalvojen standardioletukset (i)-(v) ovat voimassa. Huomaa että Gauss-Markovin lause ei vaadi virhetermien

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

Johdatus regressioanalyysiin

Johdatus regressioanalyysiin Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Johdatus regressioanalyysiin TKK (c) Ilkka Mellin (2007) 1 Johdatus regressioanalyysiin >> Regressioanalyysin lähtökohdat ja tavoitteet

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Regressiodiagnostiikka Cooken etäisyys, Funktionaalinen muoto, Diagnostinen grafiikka, Diagnostiset testit, Heteroskedastisuus,

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli

Yhden selittäjän lineaarinen regressiomalli Ilkka Melli Tilastolliset meetelmät Osa 4: Lieaarie regressioaalyysi Yhde selittäjä lieaarie regressiomalli TKK (c) Ilkka Melli (007) Yhde selittäjä lieaarie regressiomalli >> Yhde selittäjä lieaarie regressiomalli

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi

Lisätiedot

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Johdatus regressioanalyysiin TKK (c) Ilkka Mellin (2005) 1 Johdatus regressioanalyysiin Regressioanalyysin lähtökohdat ja tavoitteet Deterministiset mallit ja regressioanalyysi

Lisätiedot

Korrelaatiokertoinen määrittely 165

Korrelaatiokertoinen määrittely 165 kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.4 Tilastollise aalyysi perusteet, kevät 7 9. lueto: Regressiomalli validoiti Kai Virtae Regressiomalli validoiista Estimoitu hieo regressiomalli: Kuvaako malli tutkittavaa ilmiötä oikei? Kuika hyvi

Lisätiedot

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme? TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä

Lisätiedot

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1 Kaksisuuntainen varianssianalyysi Heliövaara 1 Kaksi- tai useampisuuntainen varianssianalyysi Kaksi- tai useampisuuntaisessa varianssianalyysissa perusjoukko on jaettu ryhmiin kahden tai useamman tekijän

Lisätiedot

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (005) 1 Moniulotteisia todennäköisyysjakaumia Multinomijakauma Kaksiulotteinen normaalijakauma TKK (c) Ilkka

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin erusteet, kevät 2007 10. luento: Regressiomallin (selittäjien) valinta Kai Virtanen 1 Regressiomallin selittäjien valinnasta Mallista uuttuu selittäjiä => harhaiset regressiokertoimien

Lisätiedot

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015 Viikko 1: Yleinen lineaarinen malli 1 Määritelmä

Lisätiedot

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio TKK (c) Ilkka Mellin (2005) 1 Tilastollinen riippuvuus ja korrelaatio Tilastollinen riippuvuus, korrelaatio ja regressio Kahden muuttujan

Lisätiedot

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt TKK (c) Ilkka Mellin (005) Koesuunnittelu TKK (c) Ilkka Mellin (005) : Mitä opimme? Tarkastelemme tässä luvussa seuraavaa kysymystä: Miten varianssianalyysissa tutkitaan yhden tekijän vaikutusta vastemuuttujaan,

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin erusteet, kevät 007 Regressiomallin (selittäjien valinta Kai Virtanen 1 Regressiomallin selittäjien valinnasta Mallista uuttuu selittäjiä => harhaiset regressiokertoimien

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1 Kaksisuuntainen varianssianalyysi Vilkkumaa / Kuusinen 1 Motivointi Luennot 6 ja 7: yksisuuntaisella varianssianalyysilla testataan ryhmäkohtaisten odotusarvojen yhtäsuuruutta, kun perusjoukko on jaettu

Lisätiedot

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1 Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,

Lisätiedot

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2017 Viikko 1: Yleinen lineaarinen malli 1 Määritelmä

Lisätiedot

Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä

Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä TKK (c) Ilkka Mellin (2007) 1 Suurimman uskottavuuden menetelmä >> Suurimman uskottavuuden estimointimenetelmä Tarkentuvuus Asymptoottinen

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1 Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus KE (2014) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset testit ja testisuureet Virheet

Lisätiedot

Tilastolliset menetelmät. β versio. Tilastolliset menetelmät. Ilkka Mellin. Teknillinen korkeakoulu, Matematiikan laboratorio

Tilastolliset menetelmät. β versio. Tilastolliset menetelmät. Ilkka Mellin. Teknillinen korkeakoulu, Matematiikan laboratorio β versio Tilastolliset menetelmät Ilkka Mellin Teknillinen korkeakoulu, Matematiikan laboratorio TKK @ Ilkka Mellin (2006) I Esipuhe Tämä moniste antaa perustiedot tilastollisista menetelmistä ja niiden

Lisätiedot

Tilastolliset menetelmät

Tilastolliset menetelmät Tilastolliset menetelmät Ilkka Mellin 1. korjattu painos Ilkka Mellin I Ilkka Mellin II Esipuhe Tämä moniste pyrkii antamaan perustiedot tilastollisista menetelmistä ja niiden soveltamisesta. Tämä on monisteen

Lisätiedot

Regressiodiagnostiikka. Regressiodiagnostiikka. Regressiodiagnostiikka: Mitä opimme? 2/2. Regressiodiagnostiikka: Mitä opimme? 1/2

Regressiodiagnostiikka. Regressiodiagnostiikka. Regressiodiagnostiikka: Mitä opimme? 2/2. Regressiodiagnostiikka: Mitä opimme? 1/2 TKK (c) Ilkka Melli (004) Regressiodiagostiikka Jodatus tilastotieteesee Regressiodiagostiikka Yleie lieaarie malli a regressiodiagostiikka Poikkeavat avaiot Regressiokertoimie vakioisuus Multikollieaarisuus

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1 Lohkoasetelmat Vilkkumaa / Kuusinen 1 Motivointi 1/3 Kaksisuuntaisella varianssianalyysilla voidaan tutkia kahden tekijän A ja B vaikutusta sekä niiden yhdysvaikutusta tutkimuksen kohteeseen Kaksisuuntaisessa

Lisätiedot

Lohkoasetelmat. Heliövaara 1

Lohkoasetelmat. Heliövaara 1 Lohkoasetelmat Heliövaara 1 Kiusatekijä Kaikissa kokeissa, kokeen tuloksiin voi vaikuttaa vaihtelu joka johtuu kiusatekijästä. Kiusatekijä on tekijä, jolla mahdollisesti on vaikutusta vastemuuttujan arvoon,

Lisätiedot

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen

Lisätiedot

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1 Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1 Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Lohkoasetelmat. Kuusinen/Heliövaara 1

Lohkoasetelmat. Kuusinen/Heliövaara 1 Lohkoasetelmat Kuusinen/Heliövaara 1 Kiusatekijä Kaikissa kokeissa kokeen tuloksiin voi vaikuttaa vaihtelu, joka johtuu kiusatekijästä. Kiusatekijä on tekijä, jolla on mahdollisesti vaikutusta vastemuuttujan

Lisätiedot

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset TA7, Ekonometrian johdantokurssi HARJOITUS 7 RATKAISUEHDOTUKSET 16.3.2015 1. Tutkitaan regressiomallia Y i = β 0 + X i + u i ja oletetaan, että tavanomaiset regressiomallin oletukset pätevät (Key Concept

Lisätiedot

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteesee Yhde selittää lieaarie regressiomalli TKK (c) Ilkka Melli (2005) Yhde selittää lieaarie regressiomalli Yhde selittää lieaarie regressiomalli a sitä koskevat oletukset Yhde selittää

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, kesä 2016 Laskuharjoitus 5, Kotitehtävien palautus laskuharjoitusten

Lisätiedot

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja

Lisätiedot

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Usean selittäjän lineaarinen regressiomalli Estimaatti, Estimaattori, Estimointi, Jäännösneliösumma, Jäännöstermi, Jäännösvarianssi,

Lisätiedot

2. Tietokoneharjoitukset

2. Tietokoneharjoitukset 2. Tietokoneharjoitukset Demotehtävät 2.1 Jatkoa kotitehtävälle. a) Piirrä aineistosta pistediagrammi (KULUTUS, SAIRAST) ja siihen estimoitu regressiosuora. KULUTUS on selitettävä muuttuja. b) Määrää estimoidusta

Lisätiedot

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat: Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Mallin valinta Painotettu PNS-menetelmä Alaspäin askellus, Askellus, Askeltava valikointi, Diagnostinen grafiikka, Diagnostiset

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,

Lisätiedot

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. marraskuuta 2007 Antti Rasila () TodB 30. marraskuuta 2007 1 / 19 1 Lineaarinen regressiomalli ja suurimman uskottavuuden menetelmä Minimin löytäminen

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

2.1. Parametrien estimointi 2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista

2.1. Parametrien estimointi 2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista Moimuuttujameetelmät: Ilkka Melli. Yleise lieaarise malli määrittelemie.. ja malli oletukset.. Yleise lieaarise malli matriisiesitys. Yleise lieaarise malli parametrie estimoiti.. Parametrie estimoiti..

Lisätiedot

1. Tutkitaan tavallista kahden selittäjän regressiomallia

1. Tutkitaan tavallista kahden selittäjän regressiomallia TA7, Ekonometrian johdantokurssi HARJOITUS 5 RATKAISUEHDOTUKSET 232215 1 Tutkitaan tavallista kahden selittäjän regressiomallia Y i = β + β 1 X 1,i + β 2 X 2,i + u i (a) Kirjoita regressiomalli muodossa

Lisätiedot

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5 MS-A Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko Tilastollinen testaus Tilastollisten testaaminen Tilastollisen tutkimuksen kohteena olevasta perusjoukosta on esitetty jokin väite tai

Lisätiedot

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1 Vastepintamenetelmä Vilkkumaa / Kuusinen 1 Motivointi Varianssianalyysissa tutkitaan tekijöiden vaikutusta vasteeseen siten, että tekijöiden tasot on ennalta valittu. - Esim. tutkitaan kemiallisen prosessin

Lisätiedot

Normaalijakaumasta johdettuja jakaumia

Normaalijakaumasta johdettuja jakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2007) 1 Normaalijakaumasta johdettuja jakaumia >> Johdanto χ 2 -jakauma F-jakauma

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH 8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH Osa aikasarjoista kehittyy hyvin erityyppisesti erilaisissa tilanteissa. Esimerkiksi pörssikurssien epävakaus keskittyy usein lyhyisiin

Lisätiedot