Regressiodiagnostiikka ja regressiomallin valinta MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016
Viikko 2: Regressiodiagnostiikka ja regressiomallin valinta 1 Regressiodiagnostiikka 2 Regressiomallin valinta
Sisältö 1 Regressiodiagnostiikka 2 Regressiomallin valinta
Regressiodiagnostiikka Regressioanalyysin peruskysymykset: Kuvaako malli selitettävän muuttujan ja selittäjien välistä riippuvuutta oikein 1 sisällöllisesti 2 tilastollisesti? Hyvä malli on sellainen, joka selittää havaintoja mahdollisimman kattavasti. Mallin hyvyyden tarkastelua kutsutaan regressiodiagnostiikaksi. Regressiodiagnostiikan menetelmiä: tilastografiikka diagnostiset tunnusluvut diagnostiset testit
Regressiomallin valinta Mallin määrittely tarkoittaa seuraavien valintojen tekemistä: 1 Selitettävän muuttujan ja selittäjien valinta. 2 Mallin rakenneosan funktionaalisen muodon ja parametrisoinnin valinta. 3 Selitettävän muuttujan ja selittäjien funktionaalisen muodon valinta. 4 Virhetermejä koskevien oletusten valinta. Huom Kohdat (1)-(3) liittyvät regressiomallin rakenneosan määrittelyyn ja kohta (4) liittyy regressiomallin virhetermin määrittelyyn. Mitkään näistä eivät ole riippumattomia toisistaan.
Rakennosan määrittelyvirheet (i) Käytetään lineaarista mallia, vaikka selitettävän muuttujan riippuvuus selittäjistä ei ole lineaarista. (ii) Mallissa on liikaa tai liian vähän selittäjiä. (iii) Mallin selittäjien funktionaalinen muoto on väärä. (iv) Oletetaan virheellisesti, että regressiokertoimet ovat vakioita. Huom Rakenneosan määrittelyssä tehdyt karkeat virheet havaitaan usein estimoidun mallin havaituista jäännöksistä.
Sopiiko lineaarinen malli kuvan aineistoon (aineisto 1)? y 80 90 100 110 120 90 95 100 105 110 x
Virhetermien määrittelyvirheet (i) Oletetaan virheellisesti homoskedastisuus tai korreloimattomuus. (ii) Oletetaan virheellisesti normaalijakautuneisuus. Huom Virhetermien määrittelyssä tehdyt karkeat virheet havaitaan usein estimoidun mallin havaituista jäännöksistä.
Yleisen lineaarisen mallin diagnostinen tarkastus Onko poikkeavia havaintoja? Ovatko regressiokertoimet vakioita? Ovatko selittäjät lineaarisesti riippumattomia? Ovatko virhetermit homoskedastisia ja korreloimattomia (mahdollisesti normaalijakautuneita)? Huom Jos aineisto on suuri, voi olla järkevää sovittaa malli vain osaan aineistosta ja testata jäljelle jäävällä aineistolla mallin ennustuskykyä.
Regressiografiikka: Pistediagrammi Sovitteiden ŷ ja havaittujen y arvojen muodostamien parien hajontakuvio aineistolle 1. Pisteparvessa lievää kaarevuutta. y 80 90 100 110 120 80 90 100 110 120 y^
Regressiografiikka: Pistediagrammi Pistediagrammi osoittaa poikkeavat havainnot (aineisto 2). y 40 50 60 70 80 40 45 50 55 60 y^
Regressiografiikka: Pistediagrammi Regressiomalli on sitä parempi mitä tasaisemmin pisteet ympäröivät suoraa, jonka kulmakerroin on 1. Pienikin kaarevuus hajontakuviossa viittaa rakenneosan väärään valintaan. Poikkeavat havainnot ovat tyypillisesti kaukana yllä mainitusta suorasta.
Regressiografiikka: Jäännösdiagrammi Sovitteiden ŷ tai selittäjän x j ja jäännösten e muodostamien pisteparien hajontakuvio (aineisto 1). Kaarevuus on selvä. e 0.5 0.0 0.5 1.0 80 90 100 110 120 y^
Regressiografiikka: Jäännösdiagrammi Poikkeavat havainnot erottuvat selkeästi (aineisto 2). e 5 0 5 10 15 20 25 40 45 50 55 60 y^
Regressiografiikka: Jäännösdiagrammi Oikein määritellyssä mallissa pisteet muodostavat suurin piirtein tasaleveän pisteparven vaaka-akselin ympärille. Poikkeavat havainnot näkyvät kaukana akselista. Pisteparven kaarevuus viittaa rakenneosan väärään valintaan. Jos pisteparvi ei ole suunnilleen tasaleveä joka puolella, niin virhetermi saattaa olla heteroskedastinen (eli varianssi riippuu selittäjän arvosta) tai rakenneosa väärin määritetty.
Poikkeavat havainnot Poikkeavalla havainnolla tarkoitetaan havaintoa, joka eroaa jossakin mielessä merkitsevästi muista havainnoista. Tilastollisen analyysin kannalta havaintoa voidaan pitää poikkeavana, jos se vaikuttaa voimakkaasti tilastollisen analyysin tuloksiin: Jos havainnon poistaminen muuttaa olennaisesti tilastollisen analyysin tuloksia, havainto on poikkeava Poikkeavia havaintoja ei saa poistaa ilman voimakkaita kontekstin tuntemukseen pohjautuvia perusteluja. Regressioanalyysissa poikkeavat havainnot saattavat aiheuttaa seuraavia vaikeuksia: Mallin valinta vaikeutuu Mallin estimointi hankaloituu Mallia koskeva tilastollinen päättely saattaa vääristyä
Poikkeavien havaintojen tunnistaminen: Cookin etäisyys Havaintoon y i liittyvä Cookin etäisyys on C i = n l=1 (ŷl ŷ i l )2 (k + 1)s 2, missä (ŷ 1,..., ŷ n ): Sovitteet kun mallin estimoinnissa käytetty kaikkia havaintoja. (ŷ i 1,..., ŷ i n): Sovitteet kun mallin estimoinnissa on käytetty kaikkia muita havaintoja paitsi havaintoa i. 8 Jos havaintoa i vastaava Cookin etäisyys C i > n 2(k+1) tai on selvästi muiden havaintojen Cookin etäisyyttä suurempi, havainto kannattaa ottaa erikoistarkasteluun.
Cookin etäisyys 80 90 100 110 120 y 90 95 100 105 110 x C 0.0 0.6 80 90 100 110 120 y Huomaa y-akselien suunnat.
Cookin etäisyys y 40 50 60 70 80 90 95 100 105 110 x C 0.0 0.6 40 50 60 70 80 y Huomaa y-akselien suunnat.
Miten käsitellä poikkeavia havaintoja? Jos poikkeavat havainnot ovat selvästi virheellisiä, esim. ihmisen pituudeksi on saatu 17.8m, niin ne on poistettava aineistosta tai ne on korjattava. Entä jos poikkeavat havainnot eivät ole virheellisiä? Vaihtoehtoja: 1 Kysytään asiantuntijalta mistä poikkeavat havainnot voisivat johtua. 2 Käytetään mallia, joka ottaa huomioon aineiston jakautumisen erilaisiin osiin. 3 Käytetään jotakin robustia estimointimenetelmää eli menetelmää, joka ei ole herkkä poikkeaville havainnoille. Yleispätevää toimintaohjetta ei voida antaa, mutta havaintoja ei saa poistaa ilman voimakkaita perusteluja. Mikäli havaintojen poistaminen on perusteltua ja poikkeavat havainnot poistetaan, niin ne tulee joka tapauksessa raportoida ja analysoida yksityiskohtaisesti.
Vakioparametrisuusoletuksen testaaminen Jos on syytä epäillä, että aineiston eri osiin sopisi eri lineaariset mallit, niin vakioparametrisuutta on syytä testata. Jos esimerkiksi tarkastellaan ruokavalion vaikutusta ihmisten verenpaineeseen, niin voi olla syytä selvittää ovatko vaikutukset naisilla ja miehillä keskimäärin samanlaiset. Testauksen tarkoituksena on selvittää, ovatko lineaarisen mallin parametrit samat aineiston kahdelle eri osajoukolle. Nollahypoteesi H 0 : parametrit ovat samat tarkasteltaville aineiston osille. Vaihtoehtoinen hypoteesi H 1 : aineiston eri osissa parametrit eivät ole samat. Testaamisen voi tehdä vertailemalla koko aineistoon sovitetun mallin ja aineiston eri osiin sovitettujen mallien jäännösneliösummia (SSE).
Vakioparametrisuusoletuksen testaaminen Oletetaan, että otosparit (x 1, y 1 ),...(x n, y n ) on jaettu kahteen ryhmään jonkin kriteerin perusteella, esimerkiksi naiset ja miehet. Oletetaan, että ryhmien otoskoot ovat h k + 1 ja n h k + 1. Järjestetään parit siten, että ensimmäinen ryhmä koostuu pareista (x 1, y 1 ),...(x h, y h ) ja toinen ryhmä pareista (x h+1, y h+1 ),...(x n, y n ).
Vakioparametrisuusoletuksen testaaminen Nollahypoteesia: aineiston osien 1 ja 2 avulla estimoidut parametrit ovat yhtä suuret voidaan testata permutaatiotestillä: 1 Oletetaan, että havainnot (x i, y i ) i=1,...,n on jaettu osiin: 1 Osa 1: (x i, y i ) i=1,...,h (h kpl) 2 Osa 2: (x i, y i ) i=h+1,...,n (n h kpl) 2 Lasketaan koko aineiston avulla estimoidun mallin jäännösneliösumma SSE. 3 Sovitetaan malli osiin 1 ja 2 erikseen, jolloin saadaan jäännösneliösummat SSE 1 ja SSE 2. 4 Lasketaan testisuure ( ) n 2(k + 1) Ch = k + 1 SSE (SSE 1 + SSE 2 ), (SSE 1 + SSE 2 ) missä k on selittävien muuttujien lukumäärä, eli x i = (x i1,..., x ik ).
Vakioparametrisuusoletuksen testaaminen 5 Lasketaan testisuureen empiirisen jakauman kvantiilit: 1 Permutoidaan otoksen osat 1 ja 2, eli käydään yksitellen läpi kaikki kokoa h olevat osajoukot (ja niihin liittyvät komplementtijoukot), jolloin saadaan ( n h) otosparia. 2 Lasketaan jokaiselle permutoimalla saadulle joukkoparille arvo Ch p = n 2(k 1) SSE (SSE p1 + SSE p2 ) k + 1 (SSE p1 + SSE p2 ) missä SSE p1 ja SSE p2 ovat permutaatiolla p = 1,..., m, m = ( n h) saatujen aineiston osien 1 ja 2 jäännösneliösummat. 3 Järjestetään arvot Ch p pienimmästä suurimpaan, jolloin saadaan empiirisen jakauman kaikki kvantiilit. 6 Verrataan alkuperäistä arvoa Ch empiirisen jakauman (1 α) kvantiillin Ch (1 α) m. 1 Jos Ch > Ch (1 α) m, niin nollahypoteesi, jonka mukaan parametrit ovat vakioita, hylätään merkitsevyystasolla α.
Vakioparametrisuusoletuksen testaaminen, kun ɛ N ( 0, σ 2) : Chow-testi Jos oletetaan, että jäännökset ovat N ( 0, σ 2) -jakautuneita, niin vakioparametrisuutta ei tarvitse tarkastella permutoimalla, vaan edellä käytetty testisuure Ch = ( n 2(k + 1) ) k + 1 SSE (SSE 1 + SSE 2 ). (SSE 1 + SSE 2 ) noudattaa F-jakaumaa vapausastein k + 1 ja n 2(k + 1). Siten tässä tapauksessa vakioparametrisuutta voidaan testata kuten edellä, mutta kohta (5) voidaan ohittaa, sillä F (k + 1, n 2(k + 1))-jakauman kvantiilit ovat suoraan saatavilla. R-komento q-kvantiilille: qf(q,k+1,n-2*(k+1)).
Vakioparametrisuusoletuksen testaaminen Huom Permutaatiotestissä kaikkien ( n k) permutaation laskeminen on yleensä mahdotonta. Valitsemalla m permutaatiota satunnaisesti antaa kohtuullisen tarkkoja tuloksia, mutta m on syytä valita suureksi (esim. 10000-20000) jos mahdollista. Entä jos testi osoittaa, että parametrit eivät ole samat eri osissa? Jaetaan aineisto osiin ja analysoidaan niitä erikseen. Käytetään (epälineaarista) mallia, joka sallii parametrien muuttumisen.
Multikollineaarisuus Sanotaan, että mallin selittäjät ovat multikollineaarisia jos matriisi X on täysiasteinen (r(x) = k + 1), mutta sen sarakkeet ovat kuitenkin melkein lineaarisesti riippuvia. Hankaloittaa mallin estimointia ja siitä tehtävää tilastollista päättelyä. Voimakas multikollineaarisuus saattaa hankaloittaa myös mallin valintaa. Multikollineaarisuus on suhteellinen ominaisuus, joten voidaan puhua multikollineaarisuuden asteesta. Jos multikollineaarisuudesta on haittaa, niin siihen voidaan pyrkiä vaikuttamaan esimerkiksi seuraavin keinoin: Mallista poistetaan mahdolliset turhat selittäjät. Selittäjiin sovelletaan sopivia muunnoksia.
Esimerkki: sementin rakenne ja lämpötila i x i1 x i2 x i3 x i4 y i 1 7 26 6 60 78.5 2 1 29 15 52 74.3 3 11 56 8 20 104.3 4 11 31 8 47 87.6 5 7 52 6 33 95.9 6 11 55 9 22 109.2 7 3 71 17 6 102.7 8 1 31 22 44 72.5 9 2 54 18 22 93.1 10 21 47 4 26 115.9 11 1 40 23 34 83.8 12 11 66 9 12 113.3 13 10 68 8 12 109.4 Taulukko : Selittäjät x 1, x 2, x 3, x 4 ovat neljän eri kemikaalin painoprosentit sementistä valmistetuissa klinkkerierissä, kun kehityslämpötila on y. (A.C. Davison, 2003)
Esimerkki: sementin rakenne ja lämpötila Matriisin X = [1 x 1 x 2 x 3 x 4 ] sarakkeet ovat lähes lineaarisesti riippuvia, sillä x 1 + x 2 + x 3 + x 4 = 99 97 95 97 98 97 97 98 96 98 98 98 98 98 1 1 1 1 1 1 1 1 1 1 1 1 1 = 98 1
Multikollineaarisuus: Varianssin inflaatiotekijä PNS-estimaattorin b j varianssi voidaan lausua muodossa: var(b j ) = 1 1 R 2 j σ 2 n i=1 ( xij x j ) 2 missä σ 2 = var ɛ ja Rj 2 on selitysaste lineaarisesta regressiomallista, jossa selitettävänä muuttujana on alkuperäisen mallin selittäjä x j selittäjinä ovat muut alkuperäisen mallin selittäjät Kaavassa esiintyvää tekijää VIF j = 1 1 R 2 j, j = 1, 2,..., k kutsutaan selittäjää x j vastaavaksi varianssin inflaatio-tekijäksi.
Multikollineaarisuus: Varianssin inflaatiotekijä var(b j ) = VIF j σ 2 n i=1 ( xij x j ) 2, VIF j = 1 1 R 2 j Estimaattorin b j varianssi on sitä suurempi, mitä suurempi on VIF j. Jos Rj 2 = 0 ja VIF j = 1 kaikille j = 1,..., k, niin selittäjät x 1, x 2,..., x k ovat ortogonaalisia (tämä on ideaalitilanne, johon pyritään jos selittäjien arvot voidaan valita). Jos Rj 2 = 1 ja VIF j = jollekin j = 1,..., k, niin selittäjä x j voidaan esittää muiden selittäjien x 1, x 2,..., x j 1, x j+1,..., x k lineaarikombinaationa. Jos VIF j > 10 jollekin j = 1,..., k, niin multikollineaarisuudesta saattaa olla haittaa.,
Multikollineaarisuutta voidaan tutkia myös tarkastelemalla muuttujien x 1,..., x k havaituista arvoista muodostettujen matriisien ominaisarvoja (ja ominaisvektoreita) Matriisia Z Z R k k missä Z R n k on selittäjien x 1,..., x k havaittujen arvojen muodostama matriisi Selittäjien x 1,..., x k havaittu momenttimatriisi A R k k Selittäjien x 1,..., x k havaittu kovarianssimatriisi S R k k Selittäjien x 1,..., x k havaittu korrelaatiomatriisi R R k k Matriisin multikollineaarisuuden mittarina voidaan käyttää matriisin kuntoisuuslukua eli suurimman ja pienimmän ominaisarvon suhdetta: jos luku on suuri, niin matriisi on multikollineaarinen.
Heteroskedastisuus Lineaarisen mallin virhetermit ɛ i ovat heteroskedastisia, kun varianssit eivät ole samat kaikilla selittäjän arvoilla. Silloin PNS-estimaattorit ovat harhattomia, mutta ne eivät enää ole parhaita lineaaristen ja harhattomien estimaattoreiden joukossa. Lisäksi jäännösvarianssin tavanomainen estimaattori on harhainen. Jos esim. jäännösvarianssi yliarvioidaan, niin Regressiokertoimien PNS-estimaattoreiden varianssit tulevat tarpeettoman suuriksi Regressiokertoimien luottamusväleistä tulee tarpeettoman leveitä. Regressiokertoimia koskevista testisuureiden arvoista tulee tarpeettoman pieniä. Virhetermien heteroskedastisuus nähdään usein jo jäännösdiagrammeista.
Heteroskedastisuus jäännösdiagrammista e 1.0 0.5 0.0 0.5 1.0 1.5 2.0 0 1 2 3 4 5 y^
Yksinkertainen testi homoskedastisuudelle Määrätään selitysaste R 2 a apuregressiosta e 2 i = α 0 + α 1 ŷ i + δ i. Nollahypoteesi H 0 : Homoskedastisuusoletus pätee, eli Testisuure: nr 2 a. H 0 : nr 2 a = 0. Jos testisuureen arvo poikkeaa selvästi nollasta, niin nollahypoteesi hylätään, eikä homoskedastisuutta voida olettaa.
Whiten testi homoskedastisuudelle Voimakkaampi kuin edellä käsitelty yksinkertainen testi. Perustuu selitysasteeseen R 2 a apuregressiosta, jossa selitettävänä muuttujana käytetään residuaalien neliöitä selittäjinä käytetään alkuperäisen mallin selittäjiä sekä niiden neliöitä ja ristituloja. Jos homoskedastisuusoletus pätee, niin nr 2 a 0, joten testin nollahypoteesi on H 0 : nr 2 a = 0. Suuret testisuureen nr 2 a arvot (verrattuna apuregressiossa estimoitavien parametrien lukumäärään) johtavat nollahypoteesin H 0 hylkäämiseen. Huom Testin voi suorittaa permutaatiotestillä ja bootstrapilla, mutta jos jäännökset ovat normaalijakautuneita, niin testisuure nr 2 a noudattaa χ 2 (p)-jakaumaa, missä p on apuregression muuttujiin liittyvien parametrien määrä.
Esimerkki Oletetaan, että alkuperäinen malli on Silloin apuregressio on y i = β 0 + β 1 x i1 + β 2 x i2 + ɛ i e 2 i = γ 0 + γ 1 x i1 + γ 2 x i2 + γ 3 x 2 i1 + γ 4x 2 i2 + γ 5x i1 x i2 + δ i
Mallin jäännökset ovat heteroskedastisia mitä sitten? Tehdään mallin selitettävään muuttujaan sopiva stabiloiva muunnos. Mallinnetaan heteroskedastisuus käyttäen yleistettyä PNS-menetelmää. Käytetään jotain muuta soveltuvaa menetelmää (kts kirjallisuus).
Jakaumaoletusten tarkastaminen Jos halutaan olettaa, että satunnaismuuttuja noudattaa jotakin parametristä jakaumaa, niin oletuksen sopivuus on syytä tarkastaa. 1 Visualisoidaan histogrammin avulla. 2 Tarkastellaan järjestyslukukuvaajaa, eli pistepareja ( F i, ˆF i ), missä ˆF i on datasta lasketut empiiriset kvantiilit ja F i teoreettiset kvantiilit vertailtavana olevasta jakaumasta. Kuvaaja vertaa havaittuja kvantiileja verrokkijakauman kvantiileihin, joten mikäli havainnot noudattavat verrokkijakaumaa, niin järjestyslukukuvaajan pisteet ovat suunnilleen samalla suoralla. 3 Käytetään jotakin testiä, esimerkiksi Kolmogorov-Smirnov. (Kurssi MS-A0501, Viikko 6 kalvot.) R-komentoja: hist(e), qqplot(z,e), qqnorm(e), ks.test(e, "jakauma", parametrit...)
Ennustuskyvyn testaaminen Oletetaan, että on käytettävissä havainnot (x i1,..., x ik, y i ), i = 1,..., n + h. Estimoidaan lineaarinen regressiomalli havainnoista i = 1,..., n PNS-estimaatti b. Ennustetaan sovitetulla mallilla arvoja y n+1,..., y n+h : ŷ i = x ib, i = n + 1,..., n + h, missä x i = (1, x i1,..., x ik ). Ennustevirheiden u i = y i ŷ i tunnusluvut: E[u i ] = 0 var(u i ) = σ 2 ( 1 + x i ( X X ) 1 x i ) cov(u) = σ 2( I + X h (X X ) 1 X ), missä X h = [x n+1,..., x n+h ].
Ennustuskyvyn testaaminen Nollahypoteesi H 0 : β 1 = β 2, σ 2 1 = σ2 2. β 1 on estimoitu havaintojen 1,..., n avulla. β 2 on estimoitu havaintojen n + 1,..., n + h avulla. Testisuure on χ 2 = n+h i=n+1 u 2 i s 2, jonka suuret arvot (suhteessa otoksen 2 kokoon) johtavat nollahypoteesin hylkäämiseen. (Samankaltainen kuin vakioparametrisuuden testaus.) Testi voidaan suorittaa permutaatiotestillä (ja bootstrapilla) ja jos jäännökset ovat normaalijakautuneita, niin testisuure noudattaa χ 2 -jakaumaa vapausastein h.
Sisältö 1 Regressiodiagnostiikka 2 Regressiomallin valinta
Regressiomallin valinta Lineaaristen regressiomallien estimointia, testausta ja ennustamista koskevat tulokset edellyttävät, että mallin rakenneosa on oikein määritetty. Virheet saattavat johtaa virheellisiin johtopäätöksiin selitettävän muuttujan ja selittäjien välisestä riippuvuudesta. Kun regressiomallin rakenneosalle etsitään oikeaa määrittelyä, keskeisenä ongelmana on löytää malliin oikeat selittäjät. Selittäjien valintaa regressiomallin kutsutaan tavallisesti mallin valinnaksi, vaikka oikeastaan kaikkea mikä liittyy mallin rakenneosan ja virhetermin määritykseen voidaan pitää mallin valintana.
Oikeiden selittäjien merkitys Jos mallissa on turhia selittäjiä, PNS-estimaattorit ovat (yleensä) tehottomia ja regressiokertoimien varianssit ovat tarpeettoman suuria. Jos mallista puuttuu selittäjiä, PNS-estimaattorit ovat (yleensä) harhaisia Harhaisuus on paljon vakavampi ongelma kuin tehottomuus. Hyvän regressiomallin jäännösneliösumma on pieni (eli selitysaste on korkea) ja kaikki selittäjät ovat tilastollisesti merkitseviä. Mutta: Minkä tahansa selittäjän lisääminen malliin pienentää (tai ei ainakaan kasvata) jäännösneliösummaa Minkä tahansa selittäjän poistaminen tai lisääminen saattaa muuttaa muiden selittäjien tilastollista merkitsevyyttä Oikeiden selittäjien löytäminen regressiomalliin voi olla vaikeaa.
Puuttuvien selittäjien ongelma Olkoon oikea malli y = X 1 β 1 + X 2 β 2 + ɛ, mutta estimoimme vektorin b 1 väärästä mallista y = X 1 β 1 + ɛ. Silloin Osa selittäjistä puuttuu, joten väärän mallin (2) virhetermi on muotoa: δ = X 2 β 2 + ɛ. Estimaattori b 1 on b 1 = β 1 + ( X 1 X 1) 1X 1 X 2 β 2 + ( X 1 X 1) 1X 1 ɛ, joka on harhaton vain jos β 2 = 0 tai X 1 X 2β 2 = 0.
Mallinvalintatestien idea Pyritään valitsemaan malliin kaikki tilastollisesti merkitsevät selittäjät käyttäen jotakin testausstrategiaa Esim Askellus taaksepäin -strategia Selittäjän x j tilastollista merkitsevyyttä testataan käyttämällä nollahypoteesina H 0 : β j = 0 Selittäjien lisääminen/poistaminen ei ole ongelmatonta Selittäjän tilastolliseen merkitsevyyteen vaikuttaa yleensä se, mitä muita selittäjiä mallissa on testaushetkellä. Testien suoritusjärjestys saattaa vaikuttaa siihen, mikä malli tulee valituksi, esim: Merkitsevän selittäjän lisääminen muuttaa mallissa olevan merkitsevän selittäjän ei-merkitseväksi ei-merkitsevän selittäjän poistaminen muuttaa aikaisemmin ei-merkitsevänä poistetun selittäjäkandidaatin merkitseväksi. Eri strategiat johtavat usein eri malleihin.
Mallinvalintastrategiat: Askellus taaksepäin 1 Otetaan lähtömalliin mukaan kaikki selittäjäkandidaatit. 2 Valitaan testissä käytettävä merkitsevyystaso α p. 3 Estimoidaan malli niillä selittäjillä, jotka ovat mallissa mukana. 4 Testataan merkitsevyystasoa α p käyttäen kaikkien mallissa mukana olevien selittäjien tilastollista merkitsevyyttä. 5 Jos kaikki mallissa olevat selittäjät ovat tilastollisesti merkitseviä, malli on valmis. 6 Poistetaan mallin ei-merkitsevistä selittäjistä se, jota vastaava p-arvo on suurin (se selittäjä, joka on vähiten merkitsevä). 7 Palataan vaiheeseen (3). Huom Mallin estimointi uudelleen (3) on välttämätön joka askeleessa, koska estimointitulokset yleensä muuttuvat joka askeleessa.
Mallinvalintakriteereiden idea Hyvän mallin jäännösneliösumma on pieni (eli selitysaste korkea) Jäännösneliösumma SSE pienenee (tai ei ainakaan kasva), kun malliin lisätään mikä tahansa muuttuja selittäjäksi. Siten SSE:n minimointi (tai R 2 :n maksimointi) johtaa aina kaikkien tarjolla olevien selittäjien valintaan Mallinvalintakriteereissä jäännösneliösummaan liitetään sakkofunktio, jonka arvo riippuu estimoitavien regressio-kertoimien lukumäärästä. Sakkofunktio kasvattaa kriteerifunktion arvoa, elleivät malliin lisätyt selittäjät pienennä jäännösneliösummaa tarpeeksi paljon. Principle of parsimony: Kahdesta erilaisesta, mutta yhtä hyvästä selityksestä tosiasioille yksinkertaisempaa on pidettävä parempana
Mallinvalintakriteerit: Yleinen muoto Olkoon y = Xβ p + ɛ lineaarinen regressiomalli. 1 p = k + 1 on estimoitavien parametrien lukumäärä. 2 PNS-estimaattori b p = ( X X ) 1 X y. 3 Jäännösneliösumma: SSE p = ( ) ( ) y Xb p y Xbp 4 Jäännösneliösumman suurimman uskottavuuden estimaattori ˆσ 2 p = SSE p /n. Monet mallinvalintakriteerit voidaan esittää muodossa joka pyritään minimoimaan. C(p, ˆσ 2 p),
Mallinvalintakriteereitä Korjattu selitysaste: R p 2 = 1 n 1 SSE p n p SST, SST = (n 1)s2 y. Hyvän mallin korjattu selitysaste on mahdollisimman suuri. Esimerkki (Akaiken informaatio-kriteeri): Jos virhetermit ovat normaalijakautuneet, niin AIC (Akaike information criterion) mallille voidaan esittää muodossa C(p, ˆσ 2 p) = log(ˆσ 2 p) + 2p n, missä ˆσ 2 p on jäännösneliösumma mallista jossa on p = k + 1 estimoitavaa parametria.
Regressiomallin linearisointi Jos selitettävän muuttujan y tilastollinen riippuvuus selittäjistä on epälineaarinen, riippuvuuden analysointi vaatii yleensä epälineaarisen regressiomallin rakentamista. Joskus voidaan kuitenkin linearisoida selitettävän muuttujan ja selittäjien sopivilla muunnoksilla siten, että muunnosten avulla saatu malli toteuttaa yleisen lineaarisen mallin standardioletukset. Rajoitumme tässä linearisoivien muunnosten käytön kuvaamiseen yhden selittäjän tapauksessa
Regressiomallin linearisointi Epälineaarinen tilastollinen riippuvuus voidaan linearisoida, jos on olemassa bijektiiviset kuvaukset f ja g niin, että muunnetuille havaintoarvoille f (x i ), g(y i ), i = 1,..., n pätee f (y i ) = β 0 + β 1 g(x i ) + ɛ i, i = 1,..., n jossa jäännöstermit ɛ i toteuttavat yleisen lineaarisen mallin standardioletukset. Tähän muunnettuun malliin voidaan soveltaa tavanomaisia lineaarisen mallin estimointi- ja testaustekniikoita. Linearisoivien muunnosten f ja g etsiminen: taustateorian avulla (esim. fysiikka, taloustiede,...) Tilastografiikka, tunnetut muunnokset
Linearisoivien muunnosten etsiminen Muuttujien y ja x tilastollisen riippuvuuden epälineaarisuus näkyy siinä, että pistediagrammin (x i, y i ), i = 1,..., n pistepilvi on käyrä. Jos funktiot f ja g onnistuvat linearisoimaan epälineaarisen tilastollisen riippuvuuden, käyryyttä ei näy piste- ja residuaalidiagrammeissa: ( g(xi ), f (y i ) ), i = 1,..., n ( f (yi ), e i ), i = 1,..., n ( g(xi ), e i ), i = 1,..., n.
Linearisoivien muunnosten etsiminen g(x) f (y) x 1/x log x y y = β 0 + β 1 x y = β 0 + β 1 /x y = β 0 + β 1 log x 1/y 1/y = β 0 + β 1 x 1/y = β 0 + β 1 /x 1/y = β 0 + β 1 log x log y log y = β 0 + β 1 x log y = β 0 + β 1 /x log y = β 0 + β 1 log x g(x) f (y) x 1/x log x y y = β 0 + β 1 x y = β 0 + β 1 /x y = β 0 + β 1 log(x) 1 1/y y = ) y = β 1 (x+ β 0 β 0 β 1 + 1 y = ( 1 ) β 2 β 0 x+ β 1 1 β β 1 log x+ β 0 0 β 1 log y y = e β 0e β 1x y = e β 0e β 1/x y = e β 0x β 1
Ensi viikolla: 1 Stationaariset stokastiset prosessit 1 Määritelmä 2 Autokorrelaatiofunktio 3 Osittaisautokorrelaatiofunktio 4 Viive- ja differenssioperaattorit 5 Integroituvuus eli differenssistationaarisuus 6 Spektri 2 ARMA-mallit 1 Puhtaasti stokastinen prosessi 2 Erilaiset SARMA mallit
Luentokalvot pohjautuvat osittain Mellinin ja Liesiön aiempien vuosien kalvoihin.