MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016
Tilastolliset aikasarjat voidaan jakaa kahteen ryhmään: 1 Autoprojektiiviset aikasarjamallit hyödyntävät pelkästään aikasarjan omaa historiaa (esim. ARMA-mallit). 2 hyödyntävät aikasarjan oman historian lisäksi sen riippuvuutta muista aikasarjoista ja niiden historiasta.
Tavallinen lineaarinen regressiomalli Tarkastellaan yhden selittäjän lineaarista regressiomallia y t = α + βx t + ɛ t, t T missä selitettävä muuttuja y t ja selittäjä x t ovat aikasarjoja ja jäännöstermi toteuttaa standardioletukset satunnaisen selittäjän tapauksessa, 1 E[ɛ t x t ] = 0, t T 2 var(ɛ t x t ) = σ 2, t T 3 cor(ɛ t, ɛ s x t, x s ) = 0, t s. Tällöin selitettävän muuttujan y t ehdollinen odotusarvo ehdolla x t = x on E[y t x t = x] = α + βx.
Tavallinen lineaarinen regressiomalli: Tasapaino Oletetaan, että selittäjä x s on sama vakio x kaikille s t: x t = x, s t Silloin selitettävän muuttujan y s (ehdollinen) odotusarvo on vakio kaikille s t: E[y s x s = x] = α + βx = y. Sanotaan, että malli on tasapainossa ja sen tasapainotila on (x, y).
Tavallinen lineaarinen regressiomalli: Sopeutuminen y t = α + βx t + ɛ t, t T, Oletetaan että selittäjä kasvaa yhdellä yksiköllä hetkellä t + 1: x t+1 = x + 1. Silloin selitettävän muuttujan y t+1 ehdollinen odotusarvo on E[y t+1 x t+1 = x + 1] = α + β(x + 1) = y + β. Selitettävän muuttujan arvo pysyy samana niin kauan kunnes selittävän muuttujan arvo taas muuttuu, eli malli on hetkellä t + 1 tasapainotilassa (x + 1, y + β).
Tavallinen lineaarinen regressiomalli: Staattisuus y t = α + βx t + ɛ t, t T, Malli siirtyy uuteen tasapainotilaan välittömästi selittäjän muuttuessa. Regressiokerroin β kuvaa selittäjän x t arvossa tapahtuvan yhden yksikön kokoisen lisäyksen välitöntä vaikutusta selitettävän muuttujan y t ehdolliseen odotusarvoon. Lineaarinen regressiomalli on staattinen: Selitettävän muuttujan (ehdollinen) odotusarvo ei muutu, elleivät selittäjien saamat arvot muutu. Selitettävän muuttujan (ehdollinen) odotusarvo reagoi selittäjien arvojen muutoksiin välittömästi, ilman viivettä.
: Idea Halutaan malli, jossa selitettävän muuttujan (ehdollinen) odotusarvo reagoi selittäjien arvojen muutoksiin vähitellen tai asteittain. Tällaisia malleja kutsutaan dynaamisiksi regressiomalleiksi. Yksinkertaisin dynaaminen regressiomalli on jakautuneen viiveen (distributed lag) malli, jossa selitettävän muuttujan y t arvo riippuu selittäjän x t arvoista myös edellisillä ajanhetkillä.
Jakautuneen viiveen malli Yksinkertainen jakautuneen viiveen malli määritellään asettamalla y t = α + β 0 x t + β 1 x t 1 +... + β p x t p + ɛ t, t = p + 1, p + 2,..., missä jäännöstermi ɛ t toteuttaa standardioletukset ehdolla x t,..., x t p. Mallissa on p + 1 selittäjää, mutta selittäjät ovat muuttujan x viiveitä. Selitettävän muuttujan arvo ajanhetkellä t riippuu Selittäjän arvosta ajanhetkellä t. Selittäjän lähihistoriasta, eli sen arvoista ajanhetkeä t välittömästi edeltävinä ajanhetkinä t 1,..., t p. Selitettävän muuttujan y t ehdollinen odotusarvo on E[y t x t, x t 1,..., x t p ] = α + β 0 x t + β 1 x t 1 +... + β p x t p.
Jakautuneen viiveen malli y t = α + β 0 x t + β 1 x t 1 +... + β p x t p + ɛ t, t = p + 1, p + 2,..., Huom Prosessin (y t ) t T mallintaminen jakautuneen viiveen mallilla prosessin (x t ) t T suhteen edellyttää, että prosessien välinen yhteys on ajan suhteen stationaarinen, eli kertoimet riippuvat vain viiveistä, ei ajanhetkistä: Voidaan ajatella, että kertoimet ovat y:n derivaattoja x:n suhteen eri viiveillä, β s = y t x t s = y t+s x t. Ilman tätä ehtoa kertoimet β 0,..., β p riippuisivat ajasta, eikä pelkästään aikavälin pituudesta s, joka tekisi mallin käytöstä vaikeaa.
Jakautuneen viiveen malli: Tasapaino y t = α + β 0 x t + β 1 x t 1 +... + β p x t p + ɛ t, t = p + 1, p + 2,..., Oletetaan, että selittäjän arvo x s on sama vakio x kaikille s {t p,..., t}, x s = x, s {t p,..., t}. Silloin selitettävän muuttujan y t ehdollinen odotusarvo on E[y t x t, x t 1,..., x t p ] = α + β 0 x + β 1 x +... + β p x = α + βx = y, missä β = β 0 + β 1 +... + β p. Malli on tasapainossa ja sen tasapainotila on (x, y).
Jakautuneen viiveen malli: Sopeutuminen y t = α + β 0 x t + β 1 x t 1 +... + β p x t p + ɛ t, t = p + 1, p + 2,..., Oletetaan, että x t+1 = x + 1. Tavallinen yhden selittäjän lineaarinen regressiomalli sopeutuu uuteen tasapainoon välittömästi. Jakautuneen viiveen mallin määrittelemän systeemin sopeutuminen uuteen tasapainoon kestää muutoksen jälkeen vielä p ajanhetkeä.
Jakautuneen viiveen malli: Sopeutuminen Kun selittäjä kasvaa yhdellä yksiköllä ajanhetkellä t + 1 ja pysyy sen jälkeen samana, { x kun s {t p,..., t} x s = x + 1 kun s = t + 1, t + 2..., niin E[y t x t,..., x t p ] = α + β 0 x + β 1 x +... + β p x = α + βx = y E[y t+1 x t+1,..., x t p+1 ] = α + β 0 (x + 1) + β 1 x +... + β p x E[y t+2 x t+2,..., x t p+2 ] = α + β 0 (x + 1) + β 1 (x + 1) + β 2 x +... + β p x.. E[y t+p+1 x t+p,..., x t ] = α + β 0 (x + 1) +... + β p 1 (x + 1) + β p x E[y t+p+1 x t+p+1,..., x t+1 ] = α + β 0 (x + 1) +... + β p (x + 1) = y + β
Jakautuneen viiveen malli: Sopeutuminen Jos selittäjän arvo x + 1 ei muutu enää ajanhetken t + 1 jälkeen, niin selittettävän muuttujan y s ehdollinen odotusarvo E[y s x s,..., x s p ] = α + β 0 (x + 1) +... + β p (x + 1) = y + β ei enää muutu, kun s t + p + 1 jälkeen. Siten jakautuneen viiveen malli on päässyt uuteen tasapainoon ajanhetkellä t + p + 1 ja uutena tasapainotilana on (x + 1, y + β)
Jakautuneen viiveen malli: Regressiokertoimien tulkinta Jakautuneen viiveen mallin y t = α + β 0 x t + β 1 x t 1 +... + β p x t p + ɛ t, t = p + 1, p + 2,..., regressiokertoimia voidaan tulkita seuraavasti: (i) kerroin β 0 kuvaa selittävän muuttujan saaman yhden yksikön kokoisen lisäyksen välitöntä vaikutusta selitettävään muuttujaan. (ii) Regressiokertoimien summa β = β 0 + β 1 +... + β p kuvaa selittävän muuttujan yhden yksikön kokoisen lisäyksen pitkän ajan vaikutusta selitettävään muuttujaan.
Jakautuneen viiveen malli: parametrien estimointi Jakautuneen viiveen mallin y t = α + β 0 x t + β 1 x t 1 +... + β p x t p + ɛ t, t = p + 1, p + 2,..., parametrit voidaan estimoida lineaarisella regressiolla. Ongelmia: 1 selittäjän multikollineaarisuus, jos prosessi (x t ) t T on autokorreloitunut. 2 jos aikasarjasta (x t ) t T on n havaintoa, niin käytettävissä on n p havaintoa p + 2 parametrin estimoimiseksi (kertoimien β 0,..., β p lisäksi vakioparametri α). vapausasteita jää n 2p 2: yhden parametrin lisääminen pienentää estimointiin käytettävissä olevan aineiston kokoa yhdellä. Jälkimmäisen ongelman voi ratkaista asettamalla rajoitteita kertoimille β i, esimerkiksi lineaarisesti vähenevät β i :t, β i = p + 1 i p + 1 β 0, i = 1, 2,..., p.
Jakautuneen viiveen malli: yleinen muoto Jakautuneen viiveen mallissa voidaan teoriassa ajatella, että y t riippuu prosessien ( ) x 1t t T,..., ( x kt koko historiasta, jolloin )t T y t = α + β 1i x 1(t i) + β 2i x 2(t i) +... + β ki x k(t i) + ɛ t, i=0 i=0 missä (ɛ t ) y T WN ( 0, σ 2). i=0 Jos äärettömän moni kertoimista β ji poikkeaa nollasta (esimerkiksi eksponentiaalisesti väheneviä, β ji = β j0 δ i j, δ j < 1), niin prosessi y t ei saavuta koskaan uutta tasapainotilaa.
Yksinkertainen ARMAX-malli ARMAX-malli on ARMA-mallin ja regressiomallin yhdistelmä, jossa tarkasteltava prosessi y t riippuu missä prosessin historiasta tulevasta autoregressiivisestä osasta kohinan liukuvasta keskiarvosta ulkopuolisesta (eksogeenisesta) muuttujasta x t. p q b y t = ɛ t + φ i y t i + θ i ɛ t i + η i x t i, i=1 (ɛ t ) t T WN(0, σ 2 ), i=1 φ 1,..., φ p ovat AR-osan parametrit, θ 1,..., θ q ovat MA-osan parametrit ja i=0 η 0,..., η b ovat eksogeeniseen muutujaan x t liittyvät parametrit.
ARMAX-malli Kuten ARMA malleissa, myös ARMAX malleissa voidaan huomioida myös kausivaihtelut ja lisäksi ulkopuolisia muuttujia voi olla useampia. ARMAX-malli voidaan esittää yleisemmin muodossa k Φ(L)y t = Θ(L)ɛ t + H j (L)x jt, missä Φ(L), Θ(L) ja H i (L) ovat samantyyppiset viivepolynomit kuin ARMA-mallien tapauksessa ja selittäjinä käytetään muuttujia x i, joista on havaittu aikasarjat x j = (x j1, x j2,...x jt ), kaikilla j = 1,..., k. j=1
ARIMAX-malli ARIMAX-malli vastaa ARIMA-mallia, mutta siinä on mukana yksi tai useampia eksogeenisiä muuttujia. ARIMAX-mallia noudattavan prosessin y t (jonkin asteen) h differenssit D h y t siis noudattavat ARMAX-mallia ja parametrit estimoidaan differensseille samaan tapaan kuin ARIMA-mallien tapauksessakin. R: arima(), arimax().
Aiemmin käsitellyt ARIMAX-mallit ovat jo melko yleistä muotoa olevia malleja, mutta ne eivät sovi pitkän ajan ennustamiseen ja ovat lineaarisia selittäjien suhteen. Yleisemmin voimme tarkastella malleja f (y t ) = g ( (y s ) {s t 1}, (x s ) {s t} ) + ɛt, missä d-ulotteinen y t = (y 1t,..., y dt ) riippuu omasta historiastaan ja k-ulotteisesta aikasarjasta (x t ) t T, x t = (x 1t,..., x kt ), t T, epälineaarisesti funktioiden f ja g kautta. Käytännössä joudutaan usein käyttämään tämänkaltaisia prosesseja, mutta yleisen teorian kehittäminen niille on vaikeaa. Funktiot f ja g on tunnettava ensin, ja sen jälkeen analyysi tehdään tapauskohtaisesti