Regressiodiagnostiikka ja regressiomallin valinta

Regressiodiagnostiikka ja regressiomallin valinta MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015

Viikko 2: Regressiodiagnostiikka ja regressiomallin valinta 1 Regressiodiagnostiikka 2 Regressiomallin valinta

Sisältö 1 Regressiodiagnostiikka 2 Regressiomallin valinta

Regressiodiagnostiikka Regressioanalyysin peruskysymykset: Kuvaako malli selitettävän muuttujan ja selittäjien välistä riippuvuutta oikein 1 sisällöllisesti 2 tilastollisesti? Malli on tilastollisesti sopiva, jos estimointitulokset sopivat yhteen oletusten kanssa. Oletusten tarkastamista sanotaan regressiodiagnostiikaksi. Regressiodiagnostiikan menetelmiä: tilastografiikka diagnostiset tunnusluvut diagnostiset testit

Regressiomallin valinta Mallin määrittely tarkoittaa seuraavien valintojen tekemistä: 1 Selitettävän muuttujan ja selittäjien valinta. 2 Mallin rakenneosan funktionaalisen muodon ja parametroinnin valinta. 3 Selitettävän muuttujan ja selittäjien funktionaalisen muodon valinta. 4 Jäännöstermejä koskevien oletusten valinta. Huom Kohdat (1)-(3) liittyvät regressiomallin rakenneosan määrittelyytn ja kohta (4) liittyy regressiomallin jäännöstermin määrittelyyn. Mitkään näistä eivät ole riippumattomia toisistaan.

Rakennosan määrittelyvirheet (i) Käytetään lineaarista mallia, vaikka selitettävän muuttujan riippuvuus selittäjistä ei ole lineaarista. (ii) Mallissa on liikaa tai liian vähän selittäjiä. (iii) Mallin selittäjien funktionaalinen muoto on väärä. (iv) Oletetaan virheellisesti, että regressiokertoimet ovat vakioita. Huom Rakenneosan määrittelyssä tehdyt karkeat virheet havaitaan usein estimoidun mallin havaituista jäännöksistä.

Sopiiko lineaarinen malli kuvan aineistoon? y 80 90 100 110 120 90 95 100 105 110 x

Jäännöstermien määrittelyvirheet (i) Oletetaan virheellisesti homoskedastisuus tai korreloimattomuus. (ii) Oletetaan virheellisesti normaalijakautuneisuus. Huom Jäännöstermien määrittelyssä tehdyt karkeat virheet havaitaan usein estimoidun mallin havaituista jäännöksistä.

Yleisen lineaarisen mallin diagnostinen tarkastus Onko poikkeavia havaintoja? Ovatko regressiokertoimet vakioita? Ovatko selittäjät lineaarisesti riippumattomia? Ovatko jäännöstermit homoskedastisia ja korreloimattomia (mahdollisesti normaalijakautuneita)? Huom Jos aineisto on suuri, voi olla järkevää sovittaa malli vain osaan aineistosta ja testata jäljelle jäävällä aineistolla mallin ennustuskykyä.

Regressiografiikka: Pistediagrammi Sovitteiden ŷ ja havaittujen y arvojen muodostamien pisteparien hajontakuvio. Pisteparvessa lievää kaarevuutta. y 80 90 100 110 120 80 90 100 110 120 y^

Regressiografiikka: Pistediagrammi Pistediagrammi osoittaa poikkeavat havainnot. y 40 50 60 70 80 40 45 50 55 60 y^

Regressiografiikka: Pistediagrammi Regressiomalli on sitä parempi mitä tasaisemmin pisteet ympäröivät suoraa, jonka kulmakerroin on 1. Pienikin kaarevuus hajontakuviossa viittaa rakenneosan väärään valintaan. Poikkeavat havainnot ovat tyypillisesti kaukana yllä mainitusta suorasta.

Regressiografiikka: Jäännösdiagrammi Sovitteiden ŷ tai selittäjän x j ja jäännösten e muodostamien pisteparien hajontakuvio. Kaarevuus on selvä. e 0.5 0.0 0.5 1.0 90 95 100 105 110 x

Regressiografiikka: Jäännösdiagrammi Poikkeavat havainnot erottuvat selkeästi. e 5 0 5 10 15 20 25 90 95 100 105 110 x

Regressiografiikka: Jäännösdiagrammi Oikein määritellyssä mallissa pisteet muodostavat suurin piirtein tasaleveän pisteparven vaaka-akselin ympärille. Poikkeavat havainnot näkyvät kaukana akselista. Pisteparven kaarevuus viittaa rakenneosan väärään valintaan. Jos pisteparvi ei ole suunnilleen tasaleveä joka puolella, niin jäännöstermi saattaa olla heteroskedastinen tai rakenneosa väärin määritetty.

Poikkeavat havainnot Poikkeavalla havainnolla tarkoitetaan havaintoa, joka eroaa jossakin mielessä merkitsevästi muista havainnoista. Tilastollisen analyysin kannalta havaintoa voidaan pitää poikkeavana, jos se vaikuttaa voimakkaasti tilastollisen analyysin tuloksiin: Jos havainnon poistaminen muuttaa olennaisesti tilastollisen analyysin tuloksia, havainto on poikkeava Poikkeavia havaintoja ei saa poistaa ilman voimakkaita kontekstin tuntemukseen pohjautuvia perusteluja. Regressioanalyysissa poikkeavat havainnot saattavat aiheuttaa seuraavia vaikeuksia: Mallin valinta vaikeutuu Mallin estimointi hankaloituu Mallia koskeva tilastollinen päättely saattaa vääristyä

Poikkeavien havaintojen tunnistaminen: Cookin etäisyys Havaintoon y i liittyvä Cookin etäisyys on C i = n l=1 (ŷl ŷ i l )2 (k + 1)s 2, missä (ŷ 1,..., ŷ n ): Sovitteet kun mallin estimoinnissa käytetty kaikkia havaintoja. (ŷ i 1,..., ŷ i n): Sovitteet kun mallin estimoinnissa on käytetty kaikkia muita havaintoja paitsi havaintoa i. 8 Jos havaintoa i vastaava Cookin etäisyys D i > n 2(k+1) tai on selvästi muiden havaintojen Cookin etäisyyttä suurempi, havainto kannattaa ottaa erikoistarkasteluun.

Cookin etäisyys 80 90 100 110 120 y 90 95 100 105 110 x C 0.0 0.6 80 90 100 110 120 y

Cookin etäisyys y 40 50 60 70 80 90 95 100 105 110 x C 0.0 0.6 40 50 60 70 80 y

Miten käsitellä poikkeavia havaintoja? Jos poikkeavat havainnot ovat selvästi virheellisiä, esim. ihmisen pituudeksi on saatu 17.8m, niin ne on poistettava aineistosta tai ne on korjattava. Entä jos poikkeavat havainnot eivät ole virheellisiä? Vaihtoehtoja: 1 Kysytään asiantuntijalta mistä poikkeavat havainnot voisivat johtua. 2 Käytetään mallia, joka ottaa huomioon aineiston jakautumisen erilaisiin osiin. 3 Käytetään jotakin robustia estimointimenetelmää eli menetelmää, joka ei ole herkkä poikkeaville havainnoille. Yleispätevää toimintaohjetta ei voida antaa, mutta havaintoja ei saa poistaa ilman voimakkaita perusteluja. Mikäli havaintojen poistaminen on perusteltua ja poikkeavat havainnot poistetaan, niin ne tulee joka tapauksessa raportoida ja analysoida yksityiskohtaisesti.

Vakioparametrisuusoletuksen testaaminen Jos on syytä epäillä, että aineiston eri osiin sopisi eri lineaariset mallit, niin vakioparametrisuutta on syytä testata. Jos esimerkiksi tarkastellaan ruokavalion vaikutusta ihmisten verenpaineeseen, niin voi olla syytä selvittää ovatko vaikutukset naisilla ja miehillä keskimäärin samanlaiset. Testauksen tarkoituksena on selvittää, ovatko lineaarisen mallin parametrit samat aineiston kahdelle eri osajoukolle. Nollahypoteesi H 0 : parametrit ovat samat tarkasteltaville aineiston osille. Vaihtoehtoinen hypoteesi H 1 : aineiston eri osissa parametrit eivät ole samat. Testaamisen voi tehdä vertailemalla koko aineistoon sovitetun mallin ja aineiston eri osiin sovitettujen mallien jäännösneliosummia (SSE).

Vakioparametrisuusoletuksen testaaminen Nollahypoteesia: aineiston osien 1 ja 2 avulla estimoidut parametrit ovat yhtä suuret voidaan testata permutaatiotestillä: 1 Oletetaan, että havainnot (x i, y i ) i=1,...,n on jaettu osiin: 1 Osa 1: (x i, y i ) i=1,...,h (h kpl, h k + 1) 2 Osa 2: (x i, y i ) i=h+1,...,n (n h kpl) 2 Lasketaan koko aineiston avulla estimoidun mallin jäännösneliösumma SSE. 3 Sovitetaan malli osiin 1 ja 2 erikseen, jolloin saadaan jäännösneliösummat SSE 1 ja SSE 2. 4 Lasketaan testisuure ( ) n 2(k + 1) Ch = k + 1 SSE (SSE 1 + SSE 2 ), (SSE 1 + SSE 2 ) missä k on selittävien muuttujien lukumäärä, eli x i = (x i1,..., x ik ).

Vakioparametrisuusoletuksen testaaminen 6 Lasketaan testisuureen empiirisen jakauman kvantiilit: 1 Permutoidaan otoksen osat 1 ja 2, eli käydään yksitellen läpi kaikki kokoa h olevat osajoukot (ja niihin liittyvät komplementtijoukot), jolloin saadaan ( n h) otosparia. 2 Lasketaan jokaiselle permutoimalla saadulle joukkoparille arvo Ch p = n 2(k 1) SSE (SSE p1 + SSE p2 ) k + 1 (SSE p1 + SSE p2 ) missä SSE p1 ja SSE p2 ovat permutaatiolla p = 1,..., m, m = ( n h) saatujen aineiston osien 1 ja 2 jäännösneliösummat. 3 Järjestetään arvot Ch p pienimmästä suurimpaan, jolloin saadaan empiirisen jakauman kaikki kvantiilit. 7 Verrataan alkuperäistä arvoa Ch empiirisen jakauman (1 α) kvantiillin Ch (1 α) m. 1 Jos Ch > Ch (1 α) m, niin nollahypoteesi, jonka mukaan parametrit ovat vakioita, hylätään merkitsevyystasolla α.

Vakioparametrisuusoletuksen testaaminen, kun ɛ N ( 0, σ 2) : Chow-testi Jos oletetaan, että jäännökset ovat N ( 0, σ 2) -jakautuneita, niin vakioparametrisuutta ei tarvitse tarkastella permutoimalla, vaan edellä käytetty testisuure Ch = ( n 2(k + 1) ) k + 1 SSE (SSE 1 + SSE 2 ). (SSE 1 + SSE 2 ) noudattaa F-jakaumaa vapausastein k + 1 ja n 2(k + 1). Siten tässä tapauksessa vakioparametrisuutta voidaan testata kuten edellä, mutta kohta (5) voidaan ohittaa, sillä F (k + 1, n 2(k + 1))-jakauman kvantiilit ovat suoraan saatavilla. R-komento q-kvantiilille: qf(q,k+1,n-2*(k+1)).

Vakioparametrisuusoletuksen testaaminen Huom Permutaatiotestissä kaikkien ( n k) permutaation laskeminen on yleensä mahdotonta. Valitsemalla m permutaatiota satunnaisesti antaa kohtuullisen tarkkoja tuloksia, mutta m on syytä valita suureksi (esim. 10000-20000) jos mahdollista. Entä jos testi osoittaa, että parametrit eivät ole samat eri osissa? Jaetaan aineisto osiin ja analysoidaan niitä erikseen. Käytetään (epälineaarista) mallia, joka sallii parametrien muuttumisen.

Multikollineaarisuus Sanotaan, että mallin selittäjät ovat multikollineaarisia jos matriisi X on täysiasteinen (r(x) = k + 1), mutta sen sarakkeet ovat kuitenkin melkein lineaarisesti riippuvia. Hankaloittaa mallin estimointia ja siitä tehtävää tilastollista päättelyä. Voimakas multikollineaarisuus saattaa hankaloittaa myös mallin valintaa. Multikollineaarisuus on suhteellinen ominaisuus, joten voidaan puhua multikollineaarisuuden asteesta. Jos multikollineaarisuudesta on haittaa, niin siihen voidaan pyrkiä vaikuttamaan esimerkiksi seuraavin keinoin: Mallista poistetaan mahdolliset turhat selittäjät. Selittäjiin sovelletaan sopivia muunnoksia.

Esimerkki: sementin rakenne ja lämpötila i x i1 x i2 x i3 x i4 y i 1 7 26 6 60 78.5 2 1 29 15 52 74.3 3 11 56 8 20 104.3 4 11 31 8 47 87.6 5 7 52 6 33 95.9 6 11 55 9 22 109.2 7 3 71 17 6 102.7 8 1 31 22 44 72.5 9 2 54 18 22 93.1 10 21 47 4 26 115.9 11 1 40 23 34 83.8 12 11 66 9 12 113.3 13 10 68 8 12 109.4 Taulukko : Selittäjät x 1, x 2, x 3, x 4 ovat neljän eri kemikaalin painoprosentit sementistä valmistetuissa klinkkeriessä, kun kehityslämpötila on y. (A.C. Davison, 2003)

Esimerkki: sementin rakenne ja lämpötila Matriisin X = [1 x 1 x 2 x 3 x 4 ] sarakkeet ovat lähes lineaarisesti riippuvia, sillä x 1 + x 2 + x 3 + x 4 = 99 97 95 97 98 97 97 98 96 98 98 98 98 0.98 1 1 1 1 1 1 1 1 1 1 1 1 1 = 0.98 1

Multikollineaarisuus: Varianssin inflaatiotekijä PNS-estimaattorin b j varianssi voidaan lausua muodossa: var(b j ) = 1 1 R 2 j σ 2 n i=1 ( xij x j ) 2 missä σ 2 = var ɛ ja Rj 2 on selitysaste lineaarisesta regressiomallista, jossa selitettävänä muuttujana on alkuperäisen mallin selittäjä x j selittäjinä ovat muut alkuperäisen mallin selittäjät Kaavassa esiintyvää tekijää VIF j = 1 1 R 2 j, j = 1, 2,..., k kutsutaan selittäjää x j vastaavaksi varianssin inflaatio-tekijäksi.

Multikollineaarisuus: Varianssin inflaatiotekijä var(b j ) = VIF j σ 2 n i=1 ( xij x j ) 2, VIF j = 1 1 R 2 j Estimaattorin b j varianssi on sitä suurempi, mitä suurempi on VIF j. Jos Rj 2 = 0 ja VIF j = 1 kaikille j = 1,..., k, niin selittäjät x 1, x 2,..., x k ovat ortogonaalisia (tämä on ideaalitilanne, johon pyritään jos selittäjien arvot voidaan valita). Jos Rj 2 = 1 ja VIF j = jollekin j = 1,..., k, niin selittäjä x j voidaan esittää muiden selittäjien x 1, x 2,..., x j 1, x j+1,..., x k lineaarikombinaationa. Jos VIF j > 10 jollekin j = 1,..., k, niin multikollineaarisuudesta saattaa olla haittaa.,

Multikollineaarisuutta voidaan tutkia myös tarkastelemalla muuttujien x 1,..., x k havaituista arvoista muodostettujen matriisien ominaisarvoja (ja ominaisvektoreita) Matriisia Z Z R k k missä Z R n k on selittäjien x 1,..., x k havaittujen arvojen muodostama matriisi Selittäjien x 1,..., x k havaittu momenttimatriisi A R k k Selittäjien x 1,..., x k havaittu kovarianssimatriisi S R k k Selittäjien x 1,..., x k havaittu korrelaatiomatriisi R R k k Matriisin multikollineaarisuuden mittarina voidaan käyttää matriisin kuntoisuuslukua eli suurimman ja pienimmän ominaisarvon suhdetta: jos luku on suuri, niin matriisi on multikollineaarinen.

Heteroskedastisuus Kun lineaarisen mallin jäännöstermit ɛ i ovat heteroskedastisia, PNS-estimaattorit ovat harhattomia, mutta ne eivät enää ole parhaita lineaaristen ja harhattomien estimaattoreiden joukossa. Lisäksi jäännösvarianssin tavanomainen estimaattori on harhainen. Jos esim. jäännösvarianssi yliarvioidaan, niin Regressiokertoimien PNS-estimaattoreiden varianssit tulevat tarpeettoman suuriksi Regressiokertoimien luottamusväleistä tulee tarpeettoman leveitä. Regressiokertoimia koskevista testisuureiden arvoista tulee tarpeettoman pieniä. Jäännöstermien heteroskedastisuus nähdään usein jo residuaalidiagrammeista (edellä)

Yksinkertainen testi homoskedastisuudellle Määrätään selitysaste R 2 a apuregressiosta e 2 i = α 0 + α 1 ŷ i + δ i. Nollahypoteesi H 0 : Homoskedastisuusoletus pätee, eli Testisuure: nr 2 a. H 0 : nr 2 a = 0. Jos testisuureen arvo poikkeaa selvästi nollasta, niin nollahypoteesi hylätään, eikä homoskedastisuutta voida olettaa.

Whiten testi homoskedastisuudelle Voimakkaampi kuin edellä käsitelty yksinkertainen testi. Perustuu selitysasteeseen R 2 a apuregressiosta, jossa selitettävänä muuttujana käytetään residuaalien neliöitä selittäjinä käytetään alkuperäisen mallin selittäjiä sekä niiden neliöitä ja ristituloja. Jos homoskedastisuusoletus pätee, niin nr 2 a 0, joten testin nollahypoteesi on H 0 : nr 2 a = 0. Suuret testisuureen nr 2 a arvot (verrattuna apuregressiossa estimoitavien parametrien lukumäärään) johtavat nollahypoteesin H 0 hylkäämiseen. Huom Testin voi suorittaa permutaatiotestillä ja bootstrapilla, mutta jos jäännökset ovat normaalijakautuneita, niin testisuure nr 2 a noudattaa χ 2 (p)-jakaumaa, missä p on apuregression muuttujiin liittyvien parametrien määrä.

Esimerkki Oletetaan, että alkuperäinen malli on Silloin apuregressio on y i = β 0 + β 1 x i1 + β 2 x i2 + ɛ i e 2 i = γ 0 + γ 1 x i1 + γ 2 x i2 + γ 3 x 2 i1 + γ 4x 2 i2 + γ 5x i1 x i2 + δ i

Mallin jäännökset ovat heteroskedastisia mitä sitten? Tehdään mallin selitettävään muuttujaan sopiva stabiloiva muunnos. Mallinnetaan heteroskedastisuus käyttäen yleistettyä PNS-menetelmää. Käytetään jotain muuta soveltuvaa menetelmää (kts kirjallisuus).

Jakaumaoletusten tarkastaminen Jos halutaan olettaa, että satunnaismuuttuuja noudattaa jotakin parametristä jakaumaa, niin oletuksen sopivuus on syytä tarkastaa. 1 Visualisoidaan histogrammin avulla. 2 Tarkastellaan ( ) järjestyslukukuvaajaa, eli pistepareja E[Zi ], e i, missä jäännökset e1,..., e n on järjestetty pienimmästä suurimpaan ja Z 1,..., Z n on järjestetty otos vertailtavana olevasta jakaumasta. Kuvaaja vertaa havaittuja kvantiileja verrokkijakauman kvantiileihin, joten mikäli havainnot noudattavat verrokkijakaumaa, niin järjestyslukukuvaajan pisteet ovat suunnilleen samalla suoralla. 3 Käytetään jotakin testiä, esimerkiksi Kolmogorv-Smirnov. (Kurssi MS-A0501, Viikko 6 kalvot.) R-komentoja: hist(e), qqplot(z,e), qqnorm(e), ks.test(e, "jakauma", parametrit...)

Ennustuskyvyn testaaminen Oletetaan, että on käytettävissä havainnot (x i1,..., x ik, y i ), i = 1,..., n + h. Estimoidaan lineaarinen regressiomalli havainnoista i = 1,..., n PNS-estimaatti b. Ennustetaan sovitetulla mallilla arvoja y n+1,..., y n+h : ŷ i = x ib, i = n + 1,..., n + h, missä x i = (1, x i1,..., x ik ). Ennustevirheiden u i = y i ŷ i tunnusluvut: E[u i ] = 0 var(u i ) = σ 2 ( 1 + x i ( X X ) 1 x i ) cov(u) = σ 2( I + X h (X X ) 1 X ), missä X h = [x n+1,..., x n+h ].

Ennustuskyvyn testaaminen Nollahypoteesi H 0 : β 1 = β 2, σ 2 1 = σ2 2. β 1 on estimoitu havaintojen 1,..., n avulla. β 2 on estimoitu havaintojen n + 1,..., n + h avulla. Testisuure on χ 2 = n+h i=n+1 u 2 i s 2, jonka suuret arvot (suhteessa otoksen 2 kokoon) johtavat nollahypoteesin hylkäämiseen. (Samankaltainen kuin vakioparametrisuuden testaus.) Testi voidaan suorittaa permutaatiotestillä (ja bootstrapilla) ja jos jäännökset ovat normaalijakautuneita, niin testisuure noudattaa χ 2 -jakaumaa vapausastein h.

Sisältö 1 Regressiodiagnostiikka 2 Regressiomallin valinta

Regressiomallin valinta Lineaaristen regressiomallien estimointia, testausta ja ennustamista koskevat tulokset edellyttävät, että mallin rakenneosa on oikein määritetty. Virheet saattavat johtaa virheellisiin johtopäätöksiin selitettävän muuttujan ja selittäjien välisestä riippuvuudesta. Kun regressiomallin rakenneosalle etsitään oikeaa määrittelyä, keskeisenä ongelmana on löytää malliin oikeat selittäjät. Selittäjien valintaa regressiomallin kutsutaan tavallisesti mallin valinnaksi, vaikka oikeastaan kaikkea mikä liittyy mallin rakenneosan ja jäännöstermin määritykseen voidaan pitää mallin valintana.

Oikeiden selittäjien merkitys Jos mallissa on turhia selittäjiä, PNS-estimaattorit ovat (yleensä) tehottomia ja regressiokertoimien varianssit ovat tarpeettoman suuria. Jos mallista puuttuu selittäjiä, PNS-estimaattorit ovat (yleensä) harhaisia Harhaisuus on paljon vakavampi ongelma kuin tehottomuus. Hyvän regressiomallin jäännösneliösumma on pieni (eli selitysaste on korkea) ja kaikki selittäjät ovat tilastollisesti merkitseviä. Mutta: Minkä tahansa selittäjän lisääminen malliin pienentää (tai ei ainakaan kasvata) jäännösneliösummaa Minkä tahansa selittäjän poistaminen tai lisääminen saattaa muuttaa muiden selittäjien tilastollista merkitsevyyttä Oikeiden selittäjien löytäminen regressiomalliin voi olla vaikeaa.

Puuttuvien selittäjien ongelma Olkoon oikea malli y = X 1 β 1 + X 2 β 2 + ɛ, mutta estimoimme vektorin b 1 väärästä mallista y = X 1 β 1 + ɛ. Silloin Osa selittäjistä puuttuu, joten väärän mallin (2) jäännöstermi on muotoa: δ = X 2 β 2 + ɛ. Estimaattori b 1 on b 1 = β 1 + ( X 1 X 1) 1X 1 X 2 β 2 + ( X 1 X 1) 1X 1 ɛ, joka on harhaton vain jos β 2 = 0 tai X 1 X 2β 2 = 0.

Mallinvalintatestien idea Pyritään valitsemaan malliin kaikki tilastollisesti merkitsevät selittäjät käyttäen jotakin testausstrategiaa Esim Askellus alaspäin -strategia Selittäjän x j tilastollista merkitsevyyttä testataan käyttämällä nollahypoteesina H 0 : β j = 0 Selittäjien lisääminen/poistaminen ei ole ongelmatonta Selittäjän tilastolliseen merkitsevyyteen vaikuttaa yleensä se, mitä muita selittäjiä mallissa on testaushetkellä. Testien suoritusjärjestys saattaa vaikuttaa siihen, mikä malli tulee valituksi, esim: Merkitsevän selittäjän lisääminen muuttaa mallissa olevan merkitsevän selittäjän ei-merkitseväksi ei-merkitsevän selittäjän poistaminen muuttaa aikaisemmin ei-merkitsevänä poistetun selittäjäkandidaatin merkitseväksi. Eri strategiat johtavat usein eri malleihin.

Mallinvalintastrategiat: Askellus taaksepäin 1 Otetaan lähtömalliin mukaan kaikki selittäjäkandidaatit. 2 Valitaan testissä käytettävä merkitsevyystaso α p. 3 Estimoidaan malli niillä selittäjillä, jotka ovat mallissa mukana. 4 Testataan merkitsevyystasoa α p käyttäen kaikkien mallissa mukana olevien selittäjien tilastollista merkitsevyyttä. 5 Jos kaikki mallissa olevat selittäjät ovat tilastollisesti merkitseviä, malli on valmis. 6 Poistetaan mallin ei-merkitsevistä selittäjistä se, jota vastaava p-arvo on suurin (se selittäjä, joka on vähiten merkitsevä). 7 Palataan vaiheeseen (3). Huom Mallin estimointi uudelleen (3) on välttämätön joka askeleessa, koska estimointitulokset yleensä muuttuvat joka askeleessa.

Mallinvalintakriteereiden idea Hyvän mallin jäännösneliösumma on pieni (eli selitysaste korkea) Jäännösneliösumma SSE pienenee (tai ei ainakaan kasva), kun malliin lisätään mikä tahansa muuttuja selittäjäksi. Siten SSE:n minimointi (tai R 2 :n maksimointi) johtaa aina kaikkien tarjolla olevien selittäjien valintaan Mallinvalintakriteereissä jäännösneliösummaan liitetään sakkofunktio, jonka arvo riippuu estimoitavien regressio-kertoimien lukumäärästä. Sakkofunktio kasvattaa kriteerifunktion arvoa, elleivät malliin lisätyt selittäjät pienennä jäännösneliösummaa tarpeeksi paljon. Principle of parsimony: Kahdesta erilaisesta, mutta yhtä hyvästä selityksestä tosiasioille yksinkertaisempaa on pidettävä parempana

Mallinvalintakriteerit: Yleinen muoto Olkoon y = Xβ p + ɛ lineaarinen regressiomalli. 1 p = k + 1 on estimoitavien parametrien lukumäärä. 2 PNS-estimaattori b p = ( X X ) 1 X y. 3 Jäännösneliösumma: SSE p = ( ) ( ) y Xb p y Xbp 4 Jäännösneliösumman suurimman uskottavuuden estimaattori ˆσ 2 p = SSE p /n. Monet mallinvalintakriteerit voidaan esittää muodossa joka pyritään minimoimaan. C(p, ˆσ 2 p),

Mallinvalintakriteereitä Korjattu selitysaste: R p 2 = 1 n 1 SSE p n p SST, SST = (n 1)s2 y. Hyvän mallin korjattu selitysaste on mahdollisimman suuri. Mallowsin C p mallinvalintakriteeri: C p = SSE p s 2 q + 2p n, s 2 q = SSE q n q, missä SSE q on jäännösneliösumma mallista, jossa on kaikki q käytettävissä olevaa selittäjää mukana.

Regressiomallin linearisointi Jos selitettävän muuttujan y tilastollinen riippuvuus selittäjistä on epälineaarinen, riippuvuuden analysointi vaatii yleensä epälineaarisen regressiomallin rakentamista. Joskus voidaan kuitenkin linearisoida selitettävän muuttujan ja selittäjien sopivilla muunnoksilla siten, että muunnosten avulla saatu malli toteuttaa yleisen lineaarisen mallin standardioletukset. Rajoitumme tässä linearisoivien muunnosten käytön kuvaamiseen yhden selittäjän tapauksessa

Regressiomallin linearisointi Epälineaarinen tilastollinen riippuvuus voidaan linearisoida, jos on olemassa bijektiiviset kuvaukset f ja g niin, että muunnetuille havaintoarvoille f (x i ), g(y i ), i = 1,..., n pätee f (y i ) = β 0 + β 1 g(x i ) + ɛ i, i = 1,..., n jossa jäännöstermit ɛ i toteuttavat yleisen lineaarisen mallin standardioletukset. Tähän muunnettuun malliin voidaan soveltaa tavanomaisia lineaarisen mallin estimointi- ja testaustekniikoita. Linearisoiven muunnosten f ja g etsiminen: taustateorian avulla (esim. fysiikka, taloustiede,...) Tilastografiikka, tunnnetut muunnokset

Linearisoivien muunnosten etsiminen Muuttujien y ja x tilastollisen riippuvuuden epälineaarisuus näkyy siinä, että pistediagrammin (x i, y i ), i = 1,..., n pistepilvi on käyrä. Jos funktiot f ja g onnistuvat linearisoimaan epälineaarisen tilastollisen riippuvuuden, käyryyttä ei näy piste- ja residuaalidiagrammeissa: ( g(xi ), f (y i ) ), i = 1,..., n ) (ˆf (yi ), e i, i = 1,..., n ( ) g(xi ), e i, i = 1,..., n.

Linearisoivien muunnosten etsiminen g(x) f (y) x 1/x log x y y = β 0 + β 1 x y = β 0 + β 1 /x y = β 0 + β 1 log x 1/y 1/y = β 0 + β 1 x 1/y = β 0 + β 1 /x 1/y = β 0 + β 1 log x log y log y = β 0 + β 1 x log y = β 0 + β 1 /x log y = β 0 + β 1 log x g(x) f (y) x 1/x log x y y = β 0 + β 1 x y = β 0 + β 1 /x y = β 0 + β 1 log(x) 1 1/y y = ) y = β 1 (x+ β 0 β 0 β 1 + 1 y = ( 1 ) β 2 β 0 x+ β 1 1 β β 1 log x+ β 0 0 β 1 log y y = e β 0e β 1x y = e β 0e β 1/x y = e β 0x β 1

Ensi viikolla: 1 Stationaariset stokastiset prosessit 1 Määritelmä 2 Autokorrelaatiofunktio 3 Osittaisautokorrelaatiofunktio 4 Viive- ja differenssioperaattorit 5 Integroituvuus eli differenssistationaarisuus 6 Spektri 2 ARMA-mallit 1 Puhtaasti stokastinen prosessi 2 Erilaiset SARMA mallit

Luentokalvot pohjautuvat osittain Mellinin ja Liesiön aiempien vuosien kalvoihin.