Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

Koko: px
Aloita esitys sivulta:

Download "Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1"

Transkriptio

1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Regressiomallin valinta TKK (c) Ilkka Mellin (2007) 1

2 Regressiomallin valinta >> Regressiomallin valinta: Johdanto Mallinvalintatestit Mallinvalintakriteerit Epälineaaristen riippuvuuksien linearisointi TKK (c) Ilkka Mellin (2007) 2

3 Regressiomallin valinta: Johdanto Regressiomallin selittäjien valinta Regressiomallin selittäjiksi on usein tarjolla joukko selittäjäkandidaatteja tai -ehdokkaita ja tilastollisen analyysin tehtävänä on löytää kandidaattien joukosta oikeat tai parhaat mahdolliset. Selittäjien valintaa regressiomallin kutsutaan tavallisesti mallin valinnaksi, vaikka oikeastaan kaikkea mikä liittyy mallin rakenneosan ja jäännöstermin spesifikaatioiden valintaan voidaan pitää on mallin valintana. TKK (c) Ilkka Mellin (2007) 3

4 Regressiomallin valinta: Johdanto Yleinen lineaarinen malli: Määritelmä Olkoon yi = β0 + β1xi 1+ β2xi2 + + βkxik + εi, i = 1,2,, n yleinen lineaarinen malli, jossa y i = selitettävän muuttujan y satunnainen ja havaittu arvo havaintoyksikössä i x ij = selittävän muuttujan eli selittäjän x j havaittu arvo havaintoyksikössä i, j = 1, 2,, k β 0 = vakioselittäjän tuntematon regressiokerroin β j ε i = selittäjän x j tuntematon regressiokerroin = satunnainen ja ei-havaittu jäännös- eli virhetermi havaintoyksikössä i TKK (c) Ilkka Mellin (2007) 4

5 Regressiomallin valinta: Johdanto Yleinen lineaarinen malli: Matriisiesitys Yleisen lineaarisen mallin matriisiesitys on muotoa y = Xβ + ε jossa y = selitettävän muuttujan y havaittujen arvojen muodostama satunnainen n-vektori X = selittäjien x 1, x 2,, x k havaittujen arvojen ja ykkösten muodostama n (k + 1)-matriisi β = regressiokertoimien muodostama tuntematon ja kiinteä eli ei-satunnainen (k + 1)-vektori ε = jäännöstermien muodostama ei-havaittu ja satunnainen n-vektori TKK (c) Ilkka Mellin (2007) 5

6 Regressiomallin valinta: Johdanto Yleinen lineaarinen malli: Standardioletukset kiinteille selittäjille Jos yleisen lineaarisen mallin y = Xβ + ε selittäjät x 1, x 2,, x k ovat kiinteitä eli ei-satunnaisia muuttujia, mallia koskevat standardioletukset voidaan esittää matriisein seuraavassa muodossa: (i) Matriisin X alkiot ovat ei-satunnaisia vakioita. (ii) Matriisi X on täysiasteinen: r(x) = k + 1 (iii) E( ε) = 0 (iv)&(v) Homoskedastisuus- ja korreloimattomuusoletus: 2 Cov( ε) = σ I (vi) Normaalisuusoletus: ε 0 I 2 N n(, σ ) TKK (c) Ilkka Mellin (2007) 6

7 Regressiomallin valinta: Johdanto Yleinen lineaarinen malli: Standardioletukset satunnaisille selittäjille Jos yleisen lineaarisen mallin y = Xβ + ε selittäjät x 1, x 2,, x k ovat satunnaismuuttujia, mallia koskevat standardioletukset voidaan esittää matriisein seuraavassa muodossa: (i) Matriisin X alkiot ovat satunnaismuuttujia. (ii) Matriisi X on täysiasteinen: r(x) = k + 1 (iii) E( ε X) = 0 (iv) &(v) Homoskedastisuus ja korreloimattomuusoletus: 2 Cov( ε X) = σ I (vi) Normaalisuusoletus: 2 ( ε X) N n( 0, σ I) TKK (c) Ilkka Mellin (2007) 7

8 Regressiomallin valinta: Johdanto Yleinen lineaarinen malli: Rakenneosa ja jäännösosa Yleisessä lineaarisessa mallissa y = Xβ + ε selitettävä muuttujan arvojen vektori y on esitetty kahden osatekijän summana. Mallin systemaattinen eli rakenneosa E( yx) = Xβ riippuu selittäjien havaituista arvoista. Jäännöstermi ε muodostaa mallin satunnaisen osan, joka ei riipu selittäjien havaituista arvoista. TKK (c) Ilkka Mellin (2007) 8

9 Regressiomallin valinta: Johdanto Yleinen lineaarinen malli: Regressiokertoimien PNS-estimaattorit 1/2 Yleisen lineaarisen mallin yi = β0 + β1xi 1+ β2xi2 + + βkxik + εi, i = 1,2,, n regressiokertoimien β 0, β 1, β 2,, β k PNS- eli pienimmän neliösumman estimaattorit b 0, b 1, b 2,, b k minimoivat jäännös- eli virhetermien ε i neliösumman n n 2 2 εi = ( yi β0 β1xi1 β2xi2 βkxik) i= 1 i= 1 kertoimien β 0, β 1, β 2,, β k suhteen. TKK (c) Ilkka Mellin (2007) 9

10 Regressiomallin valinta: Johdanto Yleinen lineaarinen malli: Regressiokertoimien PNS-estimaattorit 2/2 Yleisen lineaarisen mallin y = Xβ + ε regressiokertoimien vektorin β = (β 0, β 1, β 2,, β k ) PNS-estimaattori voidaan esittää matriisein muodossa b= ( XX ) 1 Xy TKK (c) Ilkka Mellin (2007) 10

11 Regressiomallin valinta: Johdanto Yleinen lineaarinen malli: PNS-estimaattoreiden ominaisuudet Yleisen lineaarisen mallin y = Xβ + ε regressiokertoimien vektorin β PNS-estimaattorilla b= ( XX ) 1 Xy on standardioletuksien (i)-(vi) pätiessä seuraavat stokastiset ominaisuudet: E( b) = β Cov( b) = σ ( XX ) 2 1 b β σ XX 2 1 N k+ 1(, ( ) ) TKK (c) Ilkka Mellin (2007) 11

12 Regressiomallin valinta: Johdanto Yleinen lineaarinen malli: Sovitteet ja residuaalit 1/2 Olkoon b = (b 0, b 1, b 2,, b k ) regressiokertoimien vektorin β = (β 0, β 1, β 2,, β k ) PNS-estimaattori. Määritellään estimoidun mallin sovitteet yˆi kaavalla yˆi = b0 + bx 1 i 1+ b2x i b k x ik, i = 1,2,, n Määritellään estimoidun mallin residuaalit e i kaavalla ei = yi yˆ i = y b bx b x b x, i = 1,2,, n i 0 1 i1 2 i2 k ik TKK (c) Ilkka Mellin (2007) 12

13 Regressiomallin valinta: Johdanto Yleinen lineaarinen malli: Sovitteet ja residuaalit 2/2 Sovitteiden muodostama n-vektori voidaan esittää matriisein muodossa yˆ = Xb= X( XX ) 1 Xy = Py Residuaalien muodostama n-vektori voidaan esittää matriisein muodossa 1 e= y yˆ = ( I X( XX ) X ) y = ( I P) y = My TKK (c) Ilkka Mellin (2007) 13

14 Regressiomallin valinta: Johdanto Sovitteiden ja residuaalien ominaisuudet Sovitteiden ja residuaalien muodostamilla vektoreilla on seuraavat stokastiset ominaisuudet: Sovitteiden muodostama vektori ŷ : E( yˆ ) = Xβ Cov( yˆ ) = σ P = σ X( XX ) X Residuaalien muodostama vektori e : E( e) = Cov( e) = σ M = σ ( I P) = σ ( I X( XX ) X ) Huomautus: Residuaalit e i ovat (lievästi) korreloituneita, vaikka jäännöstermit ε i on oletettu korreloimattomiksi. TKK (c) Ilkka Mellin (2007) 14

15 Regressiomallin valinta: Johdanto Jäännösvarianssin estimointi Jos yleisen lineaarisen mallin jäännös-eli virhetermejä ε i koskevat standardioletukset (i)-(v) pätevät, jäännösvarianssin Var(ε i ) = σ 2 harhaton estimaattori on n s = ei n k 1 i= 1 jossa e i = estimoidun mallin residuaali, i = 1, 2,, n n = havaintojen lukumäärä k = (aitojen) selittäjien x j lukumäärä TKK (c) Ilkka Mellin (2007) 15

16 Regressiomallin valinta: Johdanto Yleinen lineaarinen malli: Mallin spesifiointi Lineaarisen mallin y = Xβ + ε muotoilua ja siitä tehtävien oletusten valintaa kutsutaan mallin spesifioinniksi eli täsmentämiseksi. Oikean spesifikaation löytäminen mallin systemaattiselle osalle eli rakenneosalle E( yx) = Xβ on regressioanalyysin päätehtävä, koska juuri mallin rakenneosa kuvaa selitettävän muuttujan y riippuvuutta selittäjistä x 1, x 2,, x k. TKK (c) Ilkka Mellin (2007) 16

17 Regressiomallin valinta: Johdanto Yleinen lineaarinen malli: Mallin rakenneosan spesifiointi Lineaaristen regressiomallien estimointia, testausta ja ennustamista koskevat tulokset edellyttävät, että mallin rakenneosa on oikein spesifioitu. Virheet regressiomallin rakenneosan spesifioinnissa saattavat johtaa karkeisiin virheellisiin johtopäätöksiin selitettävän muuttujan ja selittäjien välisestä riippuvuudesta. Kun regressiomallin rakenneosalle etsitään oikeata spesifikaatiota, keskeisenä ongelmana on löytää malliin oikeat selittäjät. TKK (c) Ilkka Mellin (2007) 17

18 Regressiomallin valinta: Johdanto Miksi oikeiden selittäjien löytäminen on tärkeätä? Jos regressiomallista puuttuu siihen kuuluvia selittäjiä, mallin regressiokertoimien PNS-estimaattorit ovat (yleensä) harhaisia. Jos regressiomallissa on turhia selittäjiä, mallin regressiokertoimien PNS-estimaattorit ovat (yleensä) tehottomia, mikä merkitsee sitä, että kertoimien varianssit ovat tarpeettoman suuria. Huomautus: Estimaattorin harhaisuus on paljon vakavampi ongelma kuin estimaattorin tehottomuus. TKK (c) Ilkka Mellin (2007) 18

19 Regressiomallin valinta: Johdanto Miksi oikeiden selittäjien löytäminen on vaikeata? Oikeiden selittäjien löytäminen regressiomalliin on vaikeata. Hyvän regressiomallin jäännösneliösumma on pieni (selitysaste on korkea), mutta minkä tahansa selittäjän lisääminen malliin pienentää (ei ainakaan kasvata) jäännösneliösummaa (kasvattaa selitysastetta). Hyvän regressiomallin kaikki selittäjät ovat tilastollisesti merkitseviä, mutta minkä tahansa selittäjän poistaminen mallista tai lisääminen malliin saattaa muuttaa malliin jäävien tai siellä jo olevien selittäjien tilastollista merkitsevyyttä. TKK (c) Ilkka Mellin (2007) 19

20 Regressiomallin valinta: Johdanto Puuttuvien selittäjien ongelma 1/3 Olkoon oikea malli selittävälle muuttujalle y muotoa (1) y = Xβ 1 1+ X2β2+ ε Oletetaan, että estimoimme regressiokertoimien vektorin β 1 väärästä mallista (2) y = Xβ 1 1+ δ josta siis puuttuu osa oikean mallin (1) selittäjistä. Koska väärästä mallista (2) puuttuu osa oikean mallin (1) selittäjistä, väärän mallin (2) jäännöstermi on muotoa δ = X2β2 + ε Olkoon kerroinvektorin β 1 PNS-estimaattori väärästä mallista (2) 1 b1 = ( X 1X1) X 1y Estimaattori b 1 on (yleensä) harhainen (ks. seuraava kalvo). TKK (c) Ilkka Mellin (2007) 20

21 Regressiomallin valinta: Johdanto Puuttuvien selittäjien ongelma 2/3 Estimaattorin b 1 lauseke voidaan esittää muodossa 1 b = ( X X ) X y 1 1 = β1+ ( XX 1 1) XXβ ( XX 1 1) XXε 1 2 Estimaattori b 1 on yleensä harhainen: 1 E( b1) = β1+ ( XX 1 1) XXβ β1 ellei ehto 1 ( XX 1 1) XXβ = 0 päde. Tämäehto voi käytännössä toteutua vain kahdella tavalla: tai = ( XX) X( Xβ + X β + ε) β 2 = 0 XX 1 2 = 0 TKK (c) Ilkka Mellin (2007) 21

22 Regressiomallin valinta: Johdanto Puuttuvien selittäjien ongelma 3/3 Jos β 2 = 0 selitettävän muuttujan y havaitut arvot eivät riipu lineaarisesti matriisiin X 2 liittyvistä selittäjistä ja regressiokertoimien vektori β 1 voidaan estimoida harhattomasti mallista (2). Jos XX 1 2 = 0 matriisin X 1 sarakkeet ovat kohtisuorassa matriisin X 2 sarakkeita vastaan ja regressiokertoimien vektori β 1 voidaan estimoida harhattomasti mallista (2). Huomautus: Edellisen perusteella vektorin β komponentit voidaan ortogonaalisten selittäjien tapauksessa estimoida harhattomasti yhden selittäjän regressiomalleista. TKK (c) Ilkka Mellin (2007) 22

23 Regressiomallin valinta: Johdanto Ratkaisuja mallin valintaan Regressiomallin selittäjien valintaan on tarjolla kaksi erilaista menetelmää: (i) Mallinvalintatestejä käytettäessä malliin pyritään valitsemaan jotakin testausstrategiaa käyttäen kaikki tilastollisesti merkitsevät selittäjät. (ii) Mallinvalintakriteereitä käytettäessä malliin valitaan selittäjiksi kaikkien tarjolla olevien selittäjien joukosta sellainen osajoukko, joka optimoi käytetyn kriteerifunktion arvon. TKK (c) Ilkka Mellin (2007) 23

24 Regressiomallin valinta Regressiomallin valinta: Johdanto >> Mallinvalintatestit Mallinvalintakriteerit Epälineaaristen riippuvuuksien linearisointi TKK (c) Ilkka Mellin (2007) 24

25 Mallinvalintatestit Mallinvalintatestien idea 1/2 Hyvässä regressiomallissa kaikki regressiokertoimet ovat tilastollisesti merkitseviä. Regressiokertoimen β j merkitsevyyttä testataan tilastollisesti testaamalla nollahypoteesia H 0 : β j = 0 Jos nollahypoteesi H 0 jää voimaan, selitettävä muuttuja ei riipu lineaarisesti kerrointa β j vastaavasta selittäjästä. Jos nollahypoteesi H 0 hylätään testissä, selitettävä muuttuja riippuu lineaarisesti kerrointa β j vastaavasta selittäjästä, jolloin sanotaan, että regressiokerroin β j ja sitä vastaava selittäjä ovat tilastollisesti merkitseviä. TKK (c) Ilkka Mellin (2007) 25

26 Mallinvalintatestit Mallinvalintatestien idea 2/2 Selittäjän merkitsevyyttä testaavia tilastollisia testejä kutsutaan mallinvalinnassa mallinvalintatesteiksi. Regressiokertoimen tilastollista merkitsevyyttä testataan tavallisesti tavanomaisella t-testillä. Kun mallinvalinnassa käytetään mallinvalintatestejä, tavoitteena on ottaa malliin mukaan kaikki tilastollisesti merkitsevät selittäjät ja sulkea mallin ulkopuolelle kaikki tilastollisesti ei-merkitsevät selittäjät. Mallinvalintatestejä käytettäessä muodostetaan tavallisesti ensin lähtömalli, johon tilastollisesti merkitsevät selittäjät pyritään lisäämään ja josta ei-merkitsevät pyritään poistamaan. TKK (c) Ilkka Mellin (2007) 26

27 Mallinvalintatestit Mallinvalintatestien soveltamisen perusongelma Tilastollisesti merkitsevien selittäjien lisääminen malliin ja ei-merkitsevien selittäjien poistaminen mallista mallinvalintatestien perusteella ei kuitenkaan ole ongelmatonta, koska selittäjän tilastolliseen merkitsevyyteen vaikuttaa yleensä se, mitä muita selittäjiä mallissa on testaushetkellä. Siten testien suoritusjärjestys saattaa vaikuttaa siihen, mikä malli tulee valituksi. TKK (c) Ilkka Mellin (2007) 27

28 Mallinvalintatestit Selittäjän poistamisen vaikutukset Kun mallista poistetaan tilastollisesti ei-merkitseviä selittäjiä kohdataan usein seuraavat ongelmat: (i) Ei-merkitseviä selittäjiä poistettaessa poistamisjärjestys saattaa vaikuttaa lopputulokseen. (ii) Selittäjän poistaminen mallista saattaa muuttaa aikaisemmin ei-merkitsevänä poistetun selittäjäkandidaatin merkitseväksi, jos se otettaisiin takaisin malliin. TKK (c) Ilkka Mellin (2007) 28

29 Mallinvalintatestit Selittäjän lisäämisen vaikutukset Kun malliin lisätään tilastollisesti merkitseviä selittäjiä kohdataan usein seuraavat ongelmat: (i) Merkitseviä selittäjiä lisättäessä lisäämisjärjestys saattaa vaikuttaa lopputulokseen. (ii) Selittäjän lisääminen malliin saattaa muuttaa mallissa olevan, ennen uuden selittäjän lisäämistä merkitsevän selittäjän ei-merkitseväksi. TKK (c) Ilkka Mellin (2007) 29

30 Mallinvalintatestit Mallinvalintatestit ja askellusstrategiat Mallinvalintatestien soveltamisen ongelmat ovat johtaneet erilaisten askellusstrategioiden kehittämiseen. Tässä esitellään 2 strategiaa: (i) Askellus alaspäin (ii) Askeltava regressio Huomautus: Eri strategiat saattavat johtaa eri malleihin! TKK (c) Ilkka Mellin (2007) 30

31 Mallinvalintatestit Askellus alaspäin 1/2 Alaspäin askelluksessa käytettävä mallinvalintastrategia: (1) Otetaan lähtömalliin mukaan kaikki selittäjäkandidaatit. (2) Valitaan mallinvalintatesteissä käytettävä merkitsevyystaso Out. TKK (c) Ilkka Mellin (2007) 31

32 Mallinvalintatestit Askellus alaspäin 2/2 Alaspäin askelluksessa käytettävä mallinvalintastrategia: Askel muodostuu vaiheista (3)-(7). (3) Estimoidaan malli niillä selittäjillä, jotka ovat mallissa. (4) Testataan merkitsevyystasoa Out käyttäen kaikkien mallissa olevien selittäjien tilastollista merkitsevyyttä. (5) Jos kaikki mallissa olevat selittäjät ovat tilastollisesti merkitseviä, malli on valmis. (6) Poistetaan mallin ei-merkitsevistä selittäjistä se, jota vastaava p-arvo on suurin. (7) Palataan vaiheeseen (3). TKK (c) Ilkka Mellin (2007) 32

33 Mallinvalintatestit Askellus alaspäin: Kommentteja Vaihe (3) eli mallin estimointi uudelleen on välttämätön joka askeleessa. Tämä johtuu siitä, että lukuun ottamatta ortogonaalisten selittäjien tapausta estimointitulokset yleensä muuttuvat joka askeleessa. TKK (c) Ilkka Mellin (2007) 33

34 Mallinvalintatestit Askeltava regressio 1/4 Askeltavassa regressiossa käytettävä mallinvalintastrategia: (1) Muodostetaan lähtömalli. (2) Valitaan kaksi mallinvalintatesteissä käytettävää merkitsevyystasoa In ja Out. TKK (c) Ilkka Mellin (2007) 34

35 Mallinvalintatestit Askeltava regressio 2/4 Askeltavassa regressiossa käytettävä mallinvalintastrategia: Askel muodostuu vaiheista (3)-(9). (3) Estimoidaan malli niillä selittäjillä, jotka ovat mallissa. (4) Testataan vuorotellen merkitsevyystasoa In käyttäen kaikkien ko. askeleessa mallin ulkopuolella olevien selittäjäkandidaattien tilastollista merkitsevyyttä malliin lisättyinä. (5) Testataan merkitsevyystasoa Out käyttäen kaikkien mallissa olevien selittäjien tilastollista merkitsevyyttä. TKK (c) Ilkka Mellin (2007) 35

36 Mallinvalintatestit Askeltava regressio 3/4 Askeltavassa regressiossa käytettävä mallinvalintastrategia: Askel muodostuu vaiheista (3)-(9). (6) Jos malliin liitettynä tilastollisesti merkitseviä selittäjäkandidaatteja löytyy, lisätään malliin kandidaateista se, jota vastaava p-arvo on pienin. (7) Jos mallissa on tilastollisesti ei-merkityksellisiä selittäjiä, poistetaan niistä se, jota vastaava p-arvo on suurin. TKK (c) Ilkka Mellin (2007) 36

37 Mallinvalintatestit Askeltava regressio 4/4 Askeltavassa regressiossa käytettävä mallinvalintastrategia: Askel muodostuu vaiheista (3)-(9). (8) Jos malliin ei voida liittää uusia selittäjiä eikä siitä poistaa yhtään siinä olevaa selittäjää, malli on valmis. (9) Palataan vaiheeseen (3). TKK (c) Ilkka Mellin (2007) 37

38 Mallinvalintatestit Askellus alaspäin: Kommentteja Vaihe (3) eli mallin estimointi uudelleen on välttämätön joka askeleessa. Tämä johtuu siitä, että lukuun ottamatta ortogonaalisten selittäjien tapausta estimointitulokset yleensä muuttuvat joka askeleessa. TKK (c) Ilkka Mellin (2007) 38

39 Regressiomallin valinta Regressiomallin valinta: Johdanto Mallinvalintatestit >> Mallinvalintakriteerit Epälineaaristen riippuvuuksien linearisointi TKK (c) Ilkka Mellin (2007) 39

40 Mallinvalintakriteerit Mallinvalintakriteereiden idea 1/3 Hyvän regressiomallin jäännösneliösumma SSE on pieni tai mikä on sama asia selitysaste R 2 on korkea. Saattaisi olla houkutteleva ajatus valita tarjolla olevista selittäjäkandidaateista malliin ne, jotka minimoivat jäännösneliösumman (maksimoivat selitysasteen). TKK (c) Ilkka Mellin (2007) 40

41 Mallinvalintakriteerit Mallinvalintakriteereiden idea 2/3 Jäännösneliösumman minimointia (selitysasteen maksimointia) ei kuitenkaan voida käyttää mallin valintaan: (i) Jäännösneliösumma SSE pienenee tai ei ainakaan kasva (selitysaste R 2 kasvaa tai ei ainakaan pienene) aina, kun malliin lisätään selittäjä. (ii) Jäännösneliösumman minimointi (selitysasteen maksimointi) johtaa aina kaikkien tarjolla olevien selittäjien valintaan. TKK (c) Ilkka Mellin (2007) 41

42 Mallinvalintakriteerit Mallinvalintakriteereiden idea 3/3 Mallinvalintakriteereissä jäännösneliösummaan liitetään sakkofunktio, jonka arvo riippuu estimoitavien regressiokertoimien lukumäärästä. Sakkofunktio kasvattaa kriteerifunktio arvoa, elleivät malliin lisätyt selittäjät pienennä jäännösneliösummaa tarpeeksi paljon. Mallinvalintakriteereitä voidaan pitää tieteellisen päättelyn keskeisen periaatteen principle of parsimony kiteytyksinä tilastollisten mallien maailmaan. Principle of parsimony: Kahdesta erilaisesta, mutta yhtä hyvästä selityksestä tosiasioille yksinkertaisempi on parempi kuin monimutkaisempi. TKK (c) Ilkka Mellin (2007) 42

43 Mallinvalintakriteerit Mallinvalintakriteerit 1/3 Olkoon y = Xpβp + ε lineaarinen regressiomalli, jossa selittäjien lukumäärä on (vakioselittäjä mukaan luettuna) p = k + 1. Olkoon 1 bp = ( X pxp) X py regressiokertoimien vektorin β p PNS-estimaattori ja SSE p = ( y Xpbp)( y Xpbp) vastaava jäännösneliösumma. TKK (c) Ilkka Mellin (2007) 43

44 Mallinvalintakriteerit Mallinvalintakriteerit 2/3 Useimmat mallinvalintakriteerit voidaan esittää muodossa 2 C( p, n) = ˆ σ p + p f( n) jossa SSE 2 p ˆ σ p = n on jäännösvarianssin σ 2 suurimman uskottavuuden (SU-) estimaattori mallista, jossa on p selittäjää ja f(n) on positiivinen havaintojen ja havaintojen lukumäärän funktio. TKK (c) Ilkka Mellin (2007) 44

45 Mallinvalintakriteerit Mallinvalintakriteerit 3/3 Kriteerifunktiolla 2 C( p, n) = ˆ σ + p f( n) p on seuraavat ominaisuudet: (i) Jäännösvarianssin σ 2 2 SU-estimaattorin σˆ p arvo pienenee (tai ei ainakaan kasva), kun malliin lisätään selittäjä. (ii) Sakkofunktion p f(n) arvo kasvaa, kun malliin lisätään selittäjä. Kriteerifunktion C(p, n) arvo pienenee siis vain, jos 2 estimaattori σˆ p pienenee tarpeeksi paljon, kun malliin lisätään selittäjä. TKK (c) Ilkka Mellin (2007) 45

46 Mallinvalintakriteerit Mallinvalintakriteereiden käyttö mallin valinnassa Oletetaan, että tarjolla olevia selittäjäkandidaatteja on kaikkiaan q kappaletta. Mallinvalintakriteereitä sovelletaan seuraavalla tavalla: (i) Määrätään kriteerifunktion arvo kaikille mahdollisille selittäjäkandidaattien yhdistelmille eli kaikille malleille, joissa on p selittäjää, kun p = 1, 2,, q. (ii) Valitaan malliin selittäjiksi se selittäjäkandidaattien yhdistelmä, joka optimoi kriteerifunktion arvon. TKK (c) Ilkka Mellin (2007) 46

47 Mallinvalintakriteerit Mallinvalintakriteerin valitseminen 1/2 Kirjallisuus tuntee useita erilaisia mallinvalintakriteereitä. Tässä esitellään 5 kriteeriä: (i) Jäännösvarianssikriteeri (ii) Korjattu selityaste (iii) Mallowsin C p (iv) Akaiken informaatiokriteeri AIC (v) Schwarzin Bayeslainen informaatiokriteeri SBIC Teoreettisesti vahvimmat perustelut on esitetty C p -, AICja SBIC-kriteereille Huomautus: Eri kriteerit saattavat johtaa eri malleihin! TKK (c) Ilkka Mellin (2007) 47

48 Mallinvalintakriteerit Mallinvalintakriteerin valitseminen 2/2 Voidaan osoittaa, että sekä jäännösvarianssikriteerillä, korjatulla selitysasteella, Mallowsin C p -kriteerillä, AICkriteerillä että SBIC-kriteerillä on seuraava hyvyysominaisuus: Kriteerit tuottavat asymptoottisesti (havaintojen lukumäärän kasvaessa rajatta) mallin, joka on harhaton siinä mielessä, että mallista ei jää pois malliin kuuluvia selittäjiä. Tässä esiteltävistä kriteereistä kuitenkin vain SBICkriteeri tuottaa asymptoottisesti (havaintojen lukumäärän kasvaessa rajatta) mallin, joka on tehokas siinä mielessä, että mallissa ei ole turhia selittäjiä. TKK (c) Ilkka Mellin (2007) 48

49 Mallinvalintakriteerit Jäännösvarianssikriteeri 1/2 Jäännösneliösummaa SSE p ei sellaisenaan voida käyttää mallin valinnassa, koska se pienenee (tai ei ainakaan kasva) aina, kun malliin lisätään selittäjiä. 2 Määritellään jäännösvarianssikriteeri s p kaavalla 2 SSE ˆ 2 p σ 2 p s ˆ p = = σ p + p n p n p jossa 2 SSE ˆ p = nσ p = ( y Xpβ p)( y Xpβ p) on jäännösneliösumma mallista, jossa on p q selittäjää. TKK (c) Ilkka Mellin (2007) 49

50 Mallinvalintakriteerit Jäännösvarianssikriteeri 2/2 Jäännösvarianssikriteerin mukaan paras malli on se, joka minimoi kriteerifunktion 2 SSE ˆ 2 p σ 2 p s ˆ p = = σ p + p n p n p arvon. Huomautus: 2 Jäännösvarianssikriteerin s p arvo saattaa kasvaa, elleivät malliin lisätyt selittäjät pienennä estimoidun mallin jäännösneliösummaa SSE p tarpeeksi paljon. TKK (c) Ilkka Mellin (2007) 50

51 Mallinvalintakriteerit Korjattu selitysaste 1/2 Selitysastetta R 2 ei sellaisenaan voi käyttää mallin valinnassa, koska se kasvaa (tai ei ainakaan pienene) aina, kun malliin lisätään selittäjiä. 2 Määritellään korjattu selitysaste R p kaavalla 2 n 1 SSEp Rp = 1 n p SST jossa SSE p = ( y Xpb )( p y Xpbp) on jäännösneliösumma mallista, jossa on p q selittäjää ja 2 SST = ( n 1) s y on muuttujan y vaihtelua kuvaava kokonaisneliösumma. TKK (c) Ilkka Mellin (2007) 51

52 Mallinvalintakriteerit Korjattu selitysaste 2/2 Korjatun selitysasteen mukaan paras malli on se, joka maksimoi kriteerifunktion 2 n 1 SSE Rp = 1 n p SST arvon. Huomautuksia: p 2 (1) Korjatun selitysasteen R p arvo saattaa pienentyä, elleivät malliin lisätyt selittäjät kasvata estimoidun mallin selitysastetta tarpeeksi paljon. 2 (2) Korjatun selitysasteen R p maksimointi johtaa samaan malliin 2 kuin jäännösvarianssikriteerin minimointi. s p TKK (c) Ilkka Mellin (2007) 52

53 Mallinvalintakriteerit Mallowsin C p 1/3 Määritellään Mallowsin C p -kriteeri kaavalla SSEp Cp = + 2 p n 2 sq jossa 2 SSE ˆ p = nσ p = ( y Xpβ )( p y Xpβ p) on jäännösneliösumma mallista, jossa on p q selittäjää ja 2 ( n q) s q = SSE q missä q on kaikkien selittäjäkandidaattien lukumäärä. Mallowsin kriteerin mukaan paras malli on se, joka minimoi kriteerifunktion C p arvon. TKK (c) Ilkka Mellin (2007) 53

54 Mallinvalintakriteerit Mallowsin C p 2/3 Mallowsin C p -kriteeristä tunnetaan useita ekvivalentteja muotoja. Määritellään kriteerifunktiot C p ja C p kaavoilla 2 C p = SSEp + (2 p n) sq ja 2 s 2 q C ˆ p = σ p + 2 p n Kriteerifunktioiden Cp, C p, C pminimointi johtaa täsmälleen samaan malliin. TKK (c) Ilkka Mellin (2007) 54

55 Mallinvalintakriteerit Mallowsin C p 3/3 b q p Olkoon vektorin β q estimaattori, joka perustuu p q selittäjäkandidaattiin, millä tarkoitetaan sitä, että ne kertoimet, joita vastaavat selittäjät on jätetty pois mallista, p merkitään vektorissa b q nolliksi. p Mallowsin C p -kriteeri on vektorin β q estimaattorin b q prediktiivisen keskineliövirheen p p p PMSE( bq) = E ( bq βq) XX q q( bq βq) approksimatiivisesti harhaton estimaattori eli p E( C p) PMSE( bq ) jos mallin y = X β + ε harha on pieni. p p TKK (c) Ilkka Mellin (2007) 55

56 Mallinvalintakriteerit Akaiken informaatiokriteeri AIC 1/2 Määritellään Akaiken informaatiokriteeri AIC kaavalla 2 ˆ σ 2 p AIC = ˆ σ p + 2 p n jossa SSE 2 ˆ σ p = n p on jäännösvarianssin σ 2 SU-estimaattori mallista, jossa on p q selittäjää. Aikaiken informaatiokriteerin mukaan paras malli on se, joka minimoi kriteerifunktion AIC arvon. TKK (c) Ilkka Mellin (2007) 56

57 Mallinvalintakriteerit Akaiken informaatiokriteeri AIC 2/2 Akaiken informaatiokriteeri on approksimatiivisesti harhaton estimaattori mallin y = Xpβp + ε ns. Kullbackin ja Leiblerin informaatiolle. TKK (c) Ilkka Mellin (2007) 57

58 Mallinvalintakriteerit Schwarzin kriteeri SBIC 1/2 Määritellään Schwarzin kriteeri SBIC kaavalla 2 ˆ σ log( ) 2 p n SBIC = ˆ σ p + 2 p n jossa SSE 2 p ˆ σ p = n on jäännösvarianssin σ 2 SU-estimaattori mallista, jossa on p q selittäjää. Schwarzin kriteerin mukaan paras malli on se, joka minimoi kriteerifunktion SBIC arvon. TKK (c) Ilkka Mellin (2007) 58

59 Mallinvalintakriteerit Schwarzin kriteeri SBIC 2/2 Schwarzin kriteeri maksimoi approksimatiivisesti mallin y = Xpβp + ε posteriori-todennäköisyyden sopivasti valitulle priorijakaumien perheelle. TKK (c) Ilkka Mellin (2007) 59

60 Mallinvalintakriteerit Kommentteja mallin valintaongelman tilastollisiin ratkaisuihin 1/2 Mallin valinnassa käytettävät tilastolliset kriteerit: (i) Valittu malli selviää diagnostisista tarkistuksista; ks. lukua Regressiodiagnostiikka. (ii) Valitun mallin parametrit ovat tilastollisesti merkitseviä; ks. kappaletta Mallinvalintatestit. Mallia ei pidä kuitenkaan koskaan valita pelkästään tilastollisin kriteerein. TKK (c) Ilkka Mellin (2007) 60

61 Mallinvalintakriteerit Kommentteja mallin valintaongelman tilastollisiin ratkaisuihin 2/2 Mallin valinnassa käytettävät asialoogiset kriteerit: (i) Ovatko mallin parametrit tulkittavissa? (ii) Ovatko mallin parametrit oikean merkkisiä ja oikean kokoisia? (iii) Kuvaako malli todellisuutta mielekkäällä tavalla? Asialoogisia kriteereitä ei voida asettaa tilastotieteestä käsin. Vain tutkimuksen kohteena olevan ilmiön tuntemus ja ilmiötä koskeva teoria mahdollistavat asialoogisten kriteerien asettamisen. Malli pitää aina alistaa asialoogisiin tarkistuksiin. TKK (c) Ilkka Mellin (2007) 61

62 Regressiomallin valinta Regressiomallin valinta: Johdanto Mallinvalintatestit Mallinvalintakriteerit >> Epälineaaristen riippuvuuksien linearisointi TKK (c) Ilkka Mellin (2007) 62

63 Epälineaaristen riippuvuuksien linearisointi Regressiomallin linearisointi 1/4 Jos selitettävän muuttujan y tilastollinen riippuvuus selittäjistä x 1, x 2,, x k on epälineaarinen, riippuvuuden analysointi vaatii yleensä epälineaarisen regressiomallin rakentamista. Epälineaaristen regressiomallien käsittely sivuutetaan tässä. Joskus selitettävän muuttujan y ja selittävien muuttujien x 1, x 2,, x k välinen epälineaarinen tilastollinen riippuvuus voidaan kuitenkin linearisoida selitettävän muuttujan ja selittäjien sopivilla muunnoksilla niin, että linearisoinnin tuloksena syntynyt transformoitu malli toteuttaa yleisen lineaarisen mallin standardioletukset. TKK (c) Ilkka Mellin (2007) 63

64 Epälineaaristen riippuvuuksien linearisointi Regressiomallin linearisointi 2/4 Rajoitumme tässä linearisoivien muunnosten käytön kuvaamiseen yhden selittäjän tapauksessa. Olkoot y i, i = 1, 2,, n selitettävän muuttujan y havaittuja arvoja ja x i, i = 1, 2,, n selittävän muuttujan x havaittuja arvoja, jotka liittyvät kaikille i = 1, 2,, n samaan havaintoyksikköön. Oletetaan, että selitettävän muuttujan y tilastollinen riippuvuus selittäjästä x on epälineaarista. TKK (c) Ilkka Mellin (2007) 64

65 Epälineaaristen riippuvuuksien linearisointi Regressiomallin linearisointi 3/4 Sanomme, että selitettävän muuttujan y ja selittäjän x välinen epälineaarinen tilastollinen riippuvuus voidaan linearisoida, jos on olemassa bijektiiviset kuvaukset f ja g niin, että muunnetuille havaintoarvoille ( f( xi), g( yi)), i = 1,2,, n pätee regressiokertoimien β 0 ja β 1 suhteen lineaarinen esitys f( yi) = β0 + β1g( xi) + εi, i = 1,2,, n jossa jäännöstermit ε i toteuttavat yleisen lineaarisen mallin standardioletukset. TKK (c) Ilkka Mellin (2007) 65

66 Epälineaaristen riippuvuuksien linearisointi Regressiomallin linearisointi 4/4 Tällöin transformoituun malliin f( y ) = β + β g( x ) + ε, i = 1,2,, n i 0 1 i i voidaan soveltaa tavanomaisia lineaarisen mallin estimointi- ja testaustekniikoita. Parhaimmillaan linearisoivat muunnokset f ja g löytyvät taustateorian kuten fysiikan tai taloustieteen avulla; ks. kuitenkin seuraavat kalvot. TKK (c) Ilkka Mellin (2007) 66

67 Epälineaaristen riippuvuuksien linearisointi Linearisoivien muunnosten etsiminen I 1/2 Sopivien muunnosten etsimisissä voidaan käyttää apuna tilastografiikkaa: (i) Piirretään selitettävän muuttujan y ja selittäjän x havaituista arvoista pistediagrammi ( xi, yi), i = 1,2,, n (ii) Piirretään selitettävän muuttujan y ja selittäjän x havaittujen arvojen muunnoksista pistediagrammit ( gx ( i), f( yi)), i= 1,2,, n funktioiden f ja g kaikille mahdollisille kandidaateille. TKK (c) Ilkka Mellin (2007) 67

68 Epälineaaristen riippuvuuksien linearisointi Linearisoivien muunnosten etsiminen I 2/2 Muuttujien y ja x tilastollisen riippuvuuden epälineaarisuus näkyy pistediagrammin ( xi, yi), i = 1,2,, n pistepilven tai -parven käyristymisenä. Jos funktiot f ja g onnistuvat linearisoimaan muuttujien y ja x välisen epälineaarisen tilastollisen riippuvuuden, pistediagrammin ( gx ( i), f( yi)), i= 1,2,, n pistepilvessä tai -parvessa ei näy käyristymistä. TKK (c) Ilkka Mellin (2007) 68

69 Epälineaaristen riippuvuuksien linearisointi Linearisoivien muunnosten etsiminen II 1/2 Sopivien muunnosten f ja g etsimisessä saattaa auttaa myös seuraava tekniikka: (i) Estimoidaan transformoidut mallit f( yi) = β0 + β1g( xi) + εi, i = 1,2,, n funktioiden f ja g kaikille mahdollisille kandidaateille. (ii) Piirretään estimointituloksista seuraavat residuaalikuviot: Standardoidut residuaalit sovitteita vastaan: ( fˆ ( yi),std( ei)), i = 1,2,, n Standardoidut residuaalit selittäjän arvoja vastaan: ( x,std( e )), i = 1,2,, n i i TKK (c) Ilkka Mellin (2007) 69

70 Epälineaaristen riippuvuuksien linearisointi Linearisoivien muunnosten etsiminen II 2/2 Jos funktiot f ja g eivät onnistu linearisoimaan muuttujien y ja x epälineaarista tilastollista riippuvuutta, residuaalikuvioiden pistepilvissä näkyy käyristymistä. Sen sijaan, jos funktiot f ja g onnistuvat linearisoimaan muuttujien y ja x epälineaarisen tilastollisen riippuvuuden, residuaalikuvioiden pistepilvissä ei näy käyristymistä. TKK (c) Ilkka Mellin (2007) 70

71 Epälineaaristen riippuvuuksien linearisointi Linearisoivia muunnoksia 1/2 Alla oleva taulukko esittää sellaisia funktioiden f ja g kombinaatioita, joiden on tietyissä sovellustilanteissa havaittu tuottavan linearisoidun esityksen f( y) = β0 + β1g( x) muuttujien y ja x tilastolliselle riippuvuudelle. gx ( ) f( y) x 1 x log( x) y 1 y y = β0 + β1x y = β0 + β1 x y = β0 + β1log( x) 1 y = β0 + β1x 1 y = β0 + β1 x 1 y = β0 + β1log( x) log( y) log( y) = β + β x log( y) = β + β x log( y) = β + β log( x) TKK (c) Ilkka Mellin (2007) 71

72 Epälineaaristen riippuvuuksien linearisointi Linearisoivia muunnoksia 2/2 Olkoot funktiot f ja g kuten esityksessä f( y) = β + β g( x) 0 1 edellisellä kalvolla. Alla oleva taulukko esittää ratkaisuja muuttujan y suhteen. gx ( ) f( y) x 1 x log( x) y y = β + β x y = β + β x y = β + β log( x) β y y = y = y = 2 β β 0 0 β β 0 1 x β 0 β1 x+ β1 log( x) β + β β 1 β0 β1x β0 β1 x β0 β1 log( y) y = e e y = e e y = e x TKK (c) Ilkka Mellin (2007) 72

73 Epälineaaristen riippuvuuksien linearisointi Vaatimukset muunnoksille On syytä huomata, että ei riitä, että valitut muunnokset tuottavat lineaarisen mallin, joka sopii hyvin havaintoihin, vaan käytettävien muunnosten pitää toteuttaa selitettävän muuttujan ja selittäjän käyttäytymiseen liittyvät loogisuusehdot: (i) Muunnosfunktioiden määrittely-ja arvoalueiden pitää liittyä järkevällä tavalla selitettävän muuttujan ja selittäjän mahdollisten arvojen alueisiin. (ii) Muunnosfunktioiden asymptoottisen käyttäytymisen pitää vastata järkevällä tavalla selitettävän muuttujan ja selittäjän mahdollisten arvojen käyttäytymistä niiden äärialueilla. TKK (c) Ilkka Mellin (2007) 73

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Regressiomallin valinta TKK (c) Ilkka Mellin (2004) 1 Regressiomallin valinta Regressiomallin valinta: Johdanto Mallinvalintatestit Mallinvalintakriteerit Epälineaaristen riippuvuuksien

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin erusteet, kevät 2007 10. luento: Regressiomallin (selittäjien) valinta Kai Virtanen 1 Regressiomallin selittäjien valinnasta Mallista uuttuu selittäjiä => harhaiset regressiokertoimien

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2007) 1 Yleinen lineaarinen malli >> Usean selittäjän lineaarinen regressiomalli

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin erusteet, kevät 007 Regressiomallin (selittäjien valinta Kai Virtanen 1 Regressiomallin selittäjien valinnasta Mallista uuttuu selittäjiä => harhaiset regressiokertoimien

Lisätiedot

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa TKK (c) Ilkka Mellin (2007) 1 Erityiskysymyksiä yleisen lineaarisen

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1 Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2004) 1 Yleinen lineaarinen malli Usean selittäjän lineaarinen regressiomalli Yleisen lineaarisen mallin matriisisesitys Yleisen

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Johdatus regressioanalyysiin Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla.

Lisätiedot

Regressiodiagnostiikka ja regressiomallin valinta

Regressiodiagnostiikka ja regressiomallin valinta Regressiodiagnostiikka ja regressiomallin valinta MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015

Lisätiedot

Regressiodiagnostiikka ja regressiomallin valinta

Regressiodiagnostiikka ja regressiomallin valinta Regressiodiagnostiikka ja regressiomallin valinta MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Regressiodiagnostiikka TKK (c) Ilkka Mellin (2007) 1 Regressiodiagnostiikka >> Yleinen lineaarinen malli ja regressiodiagnostiikka

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Regressiodiagnostiikka TKK (c) Ilkka Mellin (2004) 1 Regressiodiagnostiikka Yleinen lineaarinen malli ja regressiodiagnostiikka Regressiografiikka Poikkeavat havainnot Regressiokertoimien

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

Yleinen lineaarinen malli

Yleinen lineaarinen malli MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015 Viikko 1: 1 Määritelmä ja standardioletukset 2

Lisätiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n

Lisätiedot

Johdatus regressioanalyysiin

Johdatus regressioanalyysiin Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Johdatus regressioanalyysiin TKK (c) Ilkka Mellin (2007) 1 Johdatus regressioanalyysiin >> Regressioanalyysin lähtökohdat ja tavoitteet

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1 Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,

Lisätiedot

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Johdatus regressioanalyysiin TKK (c) Ilkka Mellin (2005) 1 Johdatus regressioanalyysiin Regressioanalyysin lähtökohdat ja tavoitteet Deterministiset mallit ja regressioanalyysi

Lisätiedot

2. Tietokoneharjoitukset

2. Tietokoneharjoitukset 2. Tietokoneharjoitukset Demotehtävät 2.1 Jatkoa kotitehtävälle. a) Piirrä aineistosta pistediagrammi (KULUTUS, SAIRAST) ja siihen estimoitu regressiosuora. KULUTUS on selitettävä muuttuja. b) Määrää estimoidusta

Lisätiedot

2. Teoriaharjoitukset

2. Teoriaharjoitukset 2. Teoriaharjoitukset Demotehtävät 2.1 Todista Gauss-Markovin lause. Ratkaisu. Oletetaan että luentokalvojen standardioletukset (i)-(v) ovat voimassa. Huomaa että Gauss-Markovin lause ei vaadi virhetermien

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli

Yhden selittäjän lineaarinen regressiomalli Ilkka Melli Tilastolliset meetelmät Osa 4: Lieaarie regressioaalyysi Yhde selittäjä lieaarie regressiomalli TKK (c) Ilkka Melli (007) Yhde selittäjä lieaarie regressiomalli >> Yhde selittäjä lieaarie regressiomalli

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi

Lisätiedot

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat: Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Mallin valinta Painotettu PNS-menetelmä Alaspäin askellus, Askellus, Askeltava valikointi, Diagnostinen grafiikka, Diagnostiset

Lisätiedot

Regressiomallin valinta. Regressiomallin valinta. Regressiomallin valinta: Esitiedot. Regressiomallin valinta: Mitä opimme?

Regressiomallin valinta. Regressiomallin valinta. Regressiomallin valinta: Esitiedot. Regressiomallin valinta: Mitä opimme? TKK (c) Ilkka Melli (004) Regressiomalli valita Eälieaariste riiuvuuksie liearisoiti Johdatus tilastotieteesee Regressiomalli valita TKK (c) Ilkka Melli (004) Regressiomalli valita: Mitä oimme? Tässä luvussa

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. marraskuuta 2007 Antti Rasila () TodB 30. marraskuuta 2007 1 / 19 1 Lineaarinen regressiomalli ja suurimman uskottavuuden menetelmä Minimin löytäminen

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen

Lisätiedot

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1 Kaksisuuntainen varianssianalyysi Heliövaara 1 Kaksi- tai useampisuuntainen varianssianalyysi Kaksi- tai useampisuuntaisessa varianssianalyysissa perusjoukko on jaettu ryhmiin kahden tai useamman tekijän

Lisätiedot

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt TKK (c) Ilkka Mellin (005) Koesuunnittelu TKK (c) Ilkka Mellin (005) : Mitä opimme? Tarkastelemme tässä luvussa seuraavaa kysymystä: Miten varianssianalyysissa tutkitaan yhden tekijän vaikutusta vastemuuttujaan,

Lisätiedot

Identifiointiprosessi

Identifiointiprosessi Alustavia kokeita Identifiointiprosessi Koesuunnittelu, identifiointikoe Mittaustulosten / datan esikäsittely Ei-parametriset menetelmät: - Transientti-, korrelaatio-, taajuus-, Fourier- ja spektraalianalyysi

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1 Vastepintamenetelmä Vilkkumaa / Kuusinen 1 Motivointi Varianssianalyysissa tutkitaan tekijöiden vaikutusta vasteeseen siten, että tekijöiden tasot on ennalta valittu. - Esim. tutkitaan kemiallisen prosessin

Lisätiedot

Korrelaatiokertoinen määrittely 165

Korrelaatiokertoinen määrittely 165 kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1 Lohkoasetelmat Vilkkumaa / Kuusinen 1 Motivointi 1/3 Kaksisuuntaisella varianssianalyysilla voidaan tutkia kahden tekijän A ja B vaikutusta sekä niiden yhdysvaikutusta tutkimuksen kohteeseen Kaksisuuntaisessa

Lisätiedot

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1 Kaksisuuntainen varianssianalyysi Vilkkumaa / Kuusinen 1 Motivointi Luennot 6 ja 7: yksisuuntaisella varianssianalyysilla testataan ryhmäkohtaisten odotusarvojen yhtäsuuruutta, kun perusjoukko on jaettu

Lisätiedot

Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä

Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä TKK (c) Ilkka Mellin (2007) 1 Suurimman uskottavuuden menetelmä >> Suurimman uskottavuuden estimointimenetelmä Tarkentuvuus Asymptoottinen

Lisätiedot

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset TA7, Ekonometrian johdantokurssi HARJOITUS 7 RATKAISUEHDOTUKSET 16.3.2015 1. Tutkitaan regressiomallia Y i = β 0 + X i + u i ja oletetaan, että tavanomaiset regressiomallin oletukset pätevät (Key Concept

Lisätiedot

Lohkoasetelmat. Kuusinen/Heliövaara 1

Lohkoasetelmat. Kuusinen/Heliövaara 1 Lohkoasetelmat Kuusinen/Heliövaara 1 Kiusatekijä Kaikissa kokeissa kokeen tuloksiin voi vaikuttaa vaihtelu, joka johtuu kiusatekijästä. Kiusatekijä on tekijä, jolla on mahdollisesti vaikutusta vastemuuttujan

Lisätiedot

Lohkoasetelmat. Heliövaara 1

Lohkoasetelmat. Heliövaara 1 Lohkoasetelmat Heliövaara 1 Kiusatekijä Kaikissa kokeissa, kokeen tuloksiin voi vaikuttaa vaihtelu joka johtuu kiusatekijästä. Kiusatekijä on tekijä, jolla mahdollisesti on vaikutusta vastemuuttujan arvoon,

Lisätiedot

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Regressiodiagnostiikka Cooken etäisyys, Funktionaalinen muoto, Diagnostinen grafiikka, Diagnostiset testit, Heteroskedastisuus,

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4 MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4 Tehtävä 2.1. Jatkoa tietokonetehtävälle 1.2: (a) Piirrä aineistosta pisteparvikuvaaja (KULUTUS, SAIRAST) ja siihen

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

Harjoitus 3: Regressiomallit (Matlab)

Harjoitus 3: Regressiomallit (Matlab) Harjoitus 3: Regressiomallit (Matlab) SCI-C0200 Fysiikan ja matematiikan menetelmien studio SCI-C0200 Fysiikan ja matematiikan menetelmien studio 1 Harjoituksen aiheita Pienimmän neliösumman menetelmä

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi, kesä 2016 Laskuharjoitus 5, Kotitehtävien palautus laskuharjoitusten

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteesee Yhde selittää lieaarie regressiomalli TKK (c) Ilkka Melli (2005) Yhde selittää lieaarie regressiomalli Yhde selittää lieaarie regressiomalli a sitä koskevat oletukset Yhde selittää

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

Vastepintamenetelmä. Heliövaara 1

Vastepintamenetelmä. Heliövaara 1 Vastepintamenetelmä Kurssipalautteen antamisesta saa hyvityksenä yhden tenttipisteen. Palautelomakkeeseen tulee lähiaikoina linkki kurssin kotisivuille. Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä

Lisätiedot

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme? TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

5.7 Uskottavuusfunktioon perustuvia testejä II

5.7 Uskottavuusfunktioon perustuvia testejä II 5.7 Uskottavuusfunktioon perustuvia testejä II Tässä pykälässä pohditaan edellä tarkasteltujen kolmen testisuureen yleistystä malleihin, joiden parametri on useampiulotteinen, ja testausasetelmiin, joissa

Lisätiedot

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO Mat-2.104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat Usean selittäjän lineaarinen regressiomalli Estimaatti, Estimaattori, Estimointi, Jäännösneliösumma, Jäännöstermi, Jäännösvarianssi,

Lisätiedot

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1 Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1 Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n

Lisätiedot

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio TKK (c) Ilkka Mellin (2005) 1 Tilastollinen riippuvuus ja korrelaatio Tilastollinen riippuvuus, korrelaatio ja regressio Kahden muuttujan

Lisätiedot

1. Tutkitaan tavallista kahden selittäjän regressiomallia

1. Tutkitaan tavallista kahden selittäjän regressiomallia TA7, Ekonometrian johdantokurssi HARJOITUS 5 RATKAISUEHDOTUKSET 232215 1 Tutkitaan tavallista kahden selittäjän regressiomallia Y i = β + β 1 X 1,i + β 2 X 2,i + u i (a) Kirjoita regressiomalli muodossa

Lisätiedot

4.0.2 Kuinka hyvä ennuste on?

4.0.2 Kuinka hyvä ennuste on? Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki

Lisätiedot

Harjoitus 3: Regressiomallit (Matlab)

Harjoitus 3: Regressiomallit (Matlab) Harjoitus 3: Regressiomallit (Matlab) MS-C2107 Sovelletun matematiikan tietokonetyöt MS-C2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Pienimmän neliösumman menetelmä mallin sovittamisessa

Lisätiedot

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT imat-2.104 Tilastollisen analyysin perusteet / Tehtävät Aiheet: Avainsanat: Ysisuuntainen varianssianalyysi Bartlettin testi, Bonferronin menetelmä, F-testi, Jäännösneliösumma, χ 2 -testi, Koonaisesiarvo,

Lisätiedot

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (005) 1 Moniulotteisia todennäköisyysjakaumia Multinomijakauma Kaksiulotteinen normaalijakauma TKK (c) Ilkka

Lisätiedot

2. Uskottavuus ja informaatio

2. Uskottavuus ja informaatio 2. Uskottavuus ja informaatio Aluksi käsittelemme uskottavuus- ja log-uskottavuusfunktioita Seuraavaksi esittelemme suurimman uskottavuuden estimointimenetelmän Ensi viikolla perehdymme aiheeseen lisääkö

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

Koesuunnittelu Vastepintamenetelmä. TKK (c) Ilkka Mellin (2005) 1

Koesuunnittelu Vastepintamenetelmä. TKK (c) Ilkka Mellin (2005) 1 Koesuunnittelu Vastepintamenetelmä TKK (c) Ilkka Mellin (2005) 1 Vastepintamenetelmä Vastepintamenetelmä: Johdanto 2 k -faktorikokeet Vastefunktion kaarevuuden testaaminen 1. asteen vastepintamallin varianssianalyysihajotelma

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015 Viikko 1: Yleinen lineaarinen malli 1 Määritelmä

Lisätiedot

2.1. Parametrien estimointi 2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista

2.1. Parametrien estimointi 2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista Moimuuttujameetelmät: Ilkka Melli. Yleise lieaarise malli määrittelemie.. ja malli oletukset.. Yleise lieaarise malli matriisiesitys. Yleise lieaarise malli parametrie estimoiti.. Parametrie estimoiti..

Lisätiedot

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI TEORIA USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI Regressiomalleilla kuvataan tilanteita, jossa suureen y arvot riippuvat joukosta ns selittäviä muuttujia x 1, x 2,..., x p oletetun funktiomuotoisen

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Koesuunnittelu 2 k -faktorikokeet. TKK (c) Ilkka Mellin (2005) 1

Koesuunnittelu 2 k -faktorikokeet. TKK (c) Ilkka Mellin (2005) 1 Koesuunnittelu 2 k -faktorikokeet TKK (c) Ilkka Mellin (2005) 2 k -faktorikokeet 2 2 -faktorikokeet 2 3 -faktorikokeet 2 k -faktorikokeet TKK (c) Ilkka Mellin (2005) 2 2 k -faktorikokeet: Mitä opimme?

Lisätiedot

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL Mallin arviointi ja valinta Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL Sisältö Otoksen ennustevirheen estimointi AIC - Akaiken informaatiokriteeri mallin valintaan Parametrimäärän

Lisätiedot

Pienimmän neliösumman menetelmä (PNS)

Pienimmän neliösumman menetelmä (PNS) neliösumman Perusongelman kuvaus 1 Tarkastellaan neljää pitkää aikasarjaa q 1 = (q 11,q 21,...,q 10,1 ) T, q 2 = (q 12,q 22,...,q 10,2 ) T, q 3 = (q 13,q 23,...,q 10,3 ) T, ja p 1 = (p 11,p 21,...,p 10,1

Lisätiedot

Pienimmän Neliösumman menetelmä (PNS)

Pienimmän Neliösumman menetelmä (PNS) neliösumman Perusongelman kuvaus 1 Tarkastellaan neljää pitkää aikasarjaa q 1 = (q 11,q 21,...,q 10,1 ) T, q 2 = (q 12,q 22,...,q 10,2 ) T, q 3 = (q 13,q 23,...,q 10,3 ) T, ja p 1 = (p 11,p 21,...,p 10,1

Lisätiedot

031021P Tilastomatematiikka (5 op) viikko 6

031021P Tilastomatematiikka (5 op) viikko 6 031021P Tilastomatematiikka (5 op) viikko 6 Jukka Kemppainen Mathematics Division Satunnaismuuttujien välinen riippuvuus Kokeellisen tutkimuksen keskeinen tehtävä on selvittää mitattavien muuttujien välisiä

Lisätiedot

Pienimmän neliösumman menetelmä (PNS)

Pienimmän neliösumman menetelmä (PNS) neliösumman Perusongelman kuvaus 1 Tarkastellaan neljää pitkää aikasarjaa q 1 = (q 11,q 21,...,q 10,1 ) T, q 2 = (q 12,q 22,...,q 10,2 ) T, q 3 = (q 13,q 23,...,q 10,3 ) T, ja p 1 = (p 11,p 21,...,p 10,1

Lisätiedot

Pienimmän neliösumman menetelmä (PNS)

Pienimmän neliösumman menetelmä (PNS) neliösumman Perusongelman kuvaus 1 Tarkastellaan neljää pitkää aikasarjaa q 1 = (q 11,q 21,...,q 10,1 ) T, q 2 = (q 12,q 22,...,q 10,2 ) T, q 3 = (q 13,q 23,...,q 10,3 ) T, ja p 1 = (p 11,p 21,...,p 10,1

Lisätiedot

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2017 Viikko 1: Yleinen lineaarinen malli 1 Määritelmä

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Sisältö Riippumattomuus Jos P(A B) = P(A)P(B), niin tapahtumat A ja B ovat toisistaan riippumattomia. (Keskustelimme

Lisätiedot

Harha mallin arvioinnissa

Harha mallin arvioinnissa Esitelmä 12 Antti Toppila sivu 1/18 Optimointiopin seminaari Syksy 2010 Harha mallin arvioinnissa Antti Toppila 13.10.2010 Esitelmä 12 Antti Toppila sivu 2/18 Optimointiopin seminaari Syksy 2010 Sisältö

Lisätiedot