TEORIA STOKASTISET PROSESSIT Satunnaisuutta sisältävän tapahtumasarjan kulkua koskevaa havaintosarjaa sanotaan aikasarjaksi. Sana korostaa empiirisen, kokeellisesti havaitun tiedon luonnetta. Aikasarjan syntymekanismia kuvaavia teoreettista malleja kutsutaan aikasarjamalleiksi. Stokastiset prosessit ovat aikasarjan todennäköisyysteoreettisia kuvaus- ja selitystapoja. {z 1, z 2, z 3,...} jono sat. muuttujia. Näiden muodostama jono yhdessä niitä koskevan todennäköisyysinformaation kanssa muodostaa stokastisen prosessin. Prosessi voi olla myös jatkuvan muuttujan t indeksoima {z(t), t T } Stokastisen prosessin todennäköisyysrakenteen määräävät satunnaismuuttujien {z k } jakaumat sekä niiden välisiä kytkentöjä kuvaavat satunnaisvektoreiden {z i, z i+1,... z j } yhteisjakaumat. Moniulotteisen satunnaismuuttujan jakaumista lue kirjallisuudesta. Kovarianssi Aikasarjojen analyysissä tärkeä käsite on kovarianssi, jolla kuvataan kahden satunnaismuuttujan välisen tn-kytkennän voimakkuutta. Jos X, Y ovat satunnaismuuttujia, määritellään kovarianssi, varianssi ja korrelaatio cov(x, Y ) = E[(X EX)(Y EY )] var(x) = cov(x, X) = E(X EX) 2 ρ(x, Y ) = cov(x,y ) cov(x,x) cov(y,y ) Odotusarvon ominaisuuksista seuraa laskusäännöt cov(x + Y, Z) = cov(x, Z) + cov(y, Z) cov(ax, Z) = a cov(x, Z) cov(x, Z) = cov(z, X) Tunnusluvut Stokastisen prosessin todennäköisyysrakennetta kuvaavat tunnusluvut µ t = E(Z t ) odotusarvo γ t,s = cov(z t, Z s ) autokovarianssifunktio Näistä johdetaan edelleen σ 2 t = γ t,t varianssi ρ t,s = γ t,s γt,t γ s,s korrelaatio Stationaarisuus Aikasarjaa tai stokastista prosessia, jonka satunnaisuuden rakenne säilyy samanlaisena ajan mukana, sanotaan stationaariseksi. Tarkemmin sanoen aikasarja on vahvasti stationaarinen, jos vektorin {Z j, Z j+1, Z j+2,..., Z j+k } yhteisjakauma on riippumaton j:sta. Aikasarjaa sanotaan stationaariseksi, jos
1. µ t = vakio 2. γ t,t+k = vakio = γ k ts. ei riipu t:stä Stationaariselle aikasarjalle määritellään autokorrelaatiofunktio ρ k, jota havainnollistaa autokorrelogrammi. ρ k 0 k Seuraavassa esitellään tärkeitä perustapauksia Valkoinen kohina (White Noise) Olkoon {a t } = jono identtisesti jakautuneita riippumattomia n(0, σ 2 )-satunnaismuuttujia (normaalijakauma, vakiovarianssi) Jono {Z 1, Z 2,...}, missä Z t = a t, on silloin stokastinen prosessi, ns valkoinen kohina. Jos t s, niin riippumattomuusoletuksen mukaan cov(z t, Z s ) = 0 ja cov(z t, Z t ) = var(z t ) = σ 2 joten prosessin autokovarianssifunktio on { σ 2 t = s γ t,s = 0 t s Satunnaissysäykset a t voivat edustaa tuotantoprosessiin kohdistuvia kysyntä-sysäyksiä, varastotilanteen muutoksia, rahoitushyödykkeiden kurssiheilahduksia, mekaanisen laitteen värähteleviä asentomuutoksia tai säätöpoikkeamia. Valkoineen kohina soveltuu kuvaamaan "täysin satunnaista"prosessia, jossa havaintoon eivät vaikuta aikaisemat arvot lainkaan. Random Walk Olkoon {a t } valkoinen kohina, jolle siis µ t = E(a t ) = 0 Määritellään jono Z t seuraavasti
Z 1 = a 1 Z 2 = a 1 + a 2 Z 3 = a 1 + a 2 + a 3. Z t = Z t 1 + a t Tämä on ns Random walk prosessi. Se kuvaa satunnaissysäysten kumuloituvaa vaikutusta. Autokovarianssifunktio voidaan johtaa kovarianssin laskusääntöjen avulla γ t,s = tσ 2, kun 1 t s Seuraavassa kuviossa on simuloitu satunnaiskulkuja. 2 1,5 1 0,5 0-0,5-1 -1,5-2 -2,5-3 -3,5 Moving average Johdantona niinsanottujen ARMA-mallien tarkasteluun tarkastellaan esimerkkiä, jossa aikasarjan ajatellaan syntyvän satunnaisten sykäysten a t yhteisvaikutuksena siten, että prosessin arvo muodostuu nykyisen sysäyksen ja edellisellä ajanhetkellä vaikuttaneen sysäyksen yhteisvaikutuksena. Olettakaamme, että Z t on tuotantomäärä, a t kysyntä jaksolla t ja jostain tuotantotavan aiheuttamasta syystä keskimäärin puolet edellisen jakson kysynnän arvosta katsotaan "jäävän varastoon"ja siten vähentävän tuotantotarvetta jaksolla t. Johdetaan tämän prosessin autokovarianssifunktio. Z t = a t 1 2 a t 1 µ = E(Z t ) = E(a t ) 1 2 E(a t 1) = 0 D 2 (Z t ) = D 2 (a t ) + ( 1 2 )2 D 2 (a t ) = σ 2 + 1 4 σ2 = 1.25σ 2 cov(z t, Z t 1 ) = cov(a t 1 2 a t 1, a t 1 1 2 a t 2) = cov(a t, a t 1 ) 1 2 cov(a t, a t 2 ) 1 2 cov(a t 1, a t 1 ) + 1 4 cov(a t 1, a t 2 ) = 1 2 cov(a t 1, a t 1 ) = 1 2 σ2 cov(z t, Z t 2 ) = cov(a t 1 2 a t 1, a t 2 1 2 a t 3) = 0
Autokovarianssifuntio on siten { 1 γ t,s = 2 σ2 t s = 1 0 t s > 1 Autokorrelaatiofunktio on { 0.4 t s = 1 ρ t,s = 0 t s > 1 Matti Poutiainen 27.6.2003
TEORIA AR-, MA- ja ARMA-MALLIT MA(1) prosessi Edellisessä kappaleessa esitelty stokastinen prosessi on esimerkki MA(1) aikasarjasta, jonka yleinen muoto on Z t = a t θa t 1 Stokastiset tunnusluvut MA(1) prosessille johdetaan edellisen esimerkin tapaan. µ t = E(Z t ) = 0 γ 0 = D 2 (Z t ) = σ 2 (1 + θ 2 ) γ 1 = θσ 2 θ 1+θ 2 ρ 1 = γ k = ρ k = 0 kun k > 0 Prosessin todennäköisyysrakenteen määrää parametri θ. Mallin käyttäytymistä voi havainnollistaa Excel-työkalun avulla kokeilemalla eri parametriarvojen vaikutusta. Huomaa: 0.5 ρ 1 0.5 ja ρ 1 ( 1 θ ) = ρ 1(θ) Havainnollistetaan simulaation avulla. MA(1) θ=0,6 3 2 Z(t) 1 t 0-1 -2-3 -4
MA(1) θ=-0,4 3 2 Z(t) 1 0 t -1-2 -3-4 MA(2) prosessi Joskus on aihetta olettaa, että aikasarjan nykyhetkiseen arvoon vaikuttaa edellisen satunnaissysäyksen a t 1 lisäksi myös sitä edellinen ajanhetki, ts termi a t 2. Tilannetta voisi kuvata MA(2) mallilla, jonka muoto on seuraava Z t = a t θ 1 a t 1 θ 2 a t 2 Stokastiset tunnusluvut tälle mallille johdetaan kovarianssin laskusääntöjen perustella. Soveltuu harjoitustehtäväksi. γ 0 = D 2 (a t θ 1 a t 1 θ 2 a t 2 ) = (1 + θ 2 1 + θ 2 2)σ 2 γ 1 = ( θ 1 + θ 1 θ 2 )σ 2 γ 2 = θ 2 σ 2 γ 3 = γ 4 =... = 0 ρ 1 = θ1+θ1θ2 1+θ 2 1 +θ2 2 ρ 2 = θ2 1+θ1 2+θ2 2 ρ k = 0, kun k 3 Esim. Jos θ 1 = 1 ja θ 2 = 0.6 saadaan seuraava aikasarjamalli, ja sille autorrelaatiorakenne. Z t = a t a t 1 + 0.6a t 2 ρ 1 = 0.678 ρ 2 = 0.257 MA(1) ja MA(2) aikasarjamallien käyttäytymistä voi jäljitellä laskennallisen simuloinnin avulla kokeilemalla parametrien arvojen vaikutusta.
Ohessa kaksi MA(2)-simulaatiota. MA(2) θ1=1,2 θ2=-0,4 6 4 Z(t) 2 0-2 t -4-6 MA(2) θ1=-1,2 θ2=0,3 6 5 Z(t) 4 3 2 1 0-1 -2 t -3-4 MA(q) prosessi
Jos aikasarjan arvoon kytkeytyvät satunnaissysäykset viiveillä 1,2,...,q saadaan tulokseksi MA(q)prosessi. Sen autokorrelaatiofunktio on ρ k = θ k+θ 1θ 1+k +θ 2θ 2+k +...+θ q k θ q 1+θ 2 1 +θ2 2 +...+θ2 q = 0 kun k > q k q Seuraava kuvio esittää MA(q) autokorrelogrammia q:n eri arvoilla. MA(1) MA(2) 1 k 1 2 k MA(q) 1 q k AR(1) prosessi Aikaisempien ajanhetkien kytkentävaikutus voidaan kuvata myös toisella tavalla. Joskus voidaan ajatella, että stokastisen prosessin nykyinen arvo Z t selittyy sarjan edellisen toteutuneen arvon ja nykyhetkisen satunnais-sysäyksen yhteisvaikutuksena φz t 1 + a t. Tässä parametin φ avulla ilmaistaan paino, jolla edellinen arvo vaikuttaa. Ohessa AR(1) mallin havainnollistus simulaationa.
AR(1) φ=0,85 6 4 Z(t) 2 0-2 t -4-6 Johdetaan tämän prosessin tunnusluvut. Huomaa: aina jos EX = EY = 0 niin cov(x, Y ) = E[(X EX)(Y EY )] = E(XY ). Koska E(Z t ) = 0 jokaisella t, niin E(Z t Z t k ) = cov(z t Z t k ) = γ k Z t = φz t 1 + a t ( ) D 2 Z t = φ 2 D 2 Z t 1 + D 2 (a t ) γ 0 = φ 2 γ o + σ 2 γ 0 = σ2 1 φ 2 Kerrotaan (*) puolittain Z t k :lla ja otetaan od.arvo E(Z t Z t k ) = φe(z t 1 Z t k ) + E(a t Z t k ) γ k = φγ k 1 = ρ k = φk 1 φ σ 2 2 cov(z k,z 0) cov(z k,z k ) cov(z = γ k 0,Z 0) γ 0 Mallissa käytetään edellisen ajanhetken arvoa nykyhetken arvon selittäjänä. Tätä ajatusta kutsutaan autoregressioksi ja mallia AR(1) prosessiksi. Ohessa AR(1) autokorrelogrammi. = φ k
ρ k = φ k 1 k ρ k = φ k, φ<0
Huomaa, että kaikkien aikaisempien ajanhetkien satunnaissysäysten vaikutus suodattuu nykyhetkeen: Z t = φz t 1 + a t = φ(φz t 2 + a t 1 ) + a t = a t + θa t 1 + θ 2 a t 2. = a t + θa t 1 + θ 2 a t 2 + + θ k a t k + Voidaan osoittaa, että sarja on stationaarinen vain jos φ < 1. Tästä johtuen aikaisempien termien vaikutus pienenee eksponentiaalisesti ja käytännössä menneisyys "unohtuu"pian. AR(2) prosessi KUn selittäjiksi valitaan sarjan kaksi edellistä arvoa, sadaan AR(2) malli. Z t = φ 1 Z t 1 + φ 2 Z t 2 + a t Ohessa AR(2) simulaatio. AR(2) φ1=0,7 φ2=0,25 4 2 Z(t) 0-2 t -4-6 -8-10 Tutkimalla ns karakteristisen polynomin 1 φ 1 x φ 2 x 2 juuria tälle prosessille voidaa johtaa stationaarisuusehto: φ 1 + φ 2 < 1, φ 2 φ 1 < 1, φ 2 < 1 Kertomalla mallin yhtälö puolittain Z t k :lla ja ottamalla puolittain kovarianssi saadaan. Alempi pätee, koska ρ k = γ/γ 0 γ k = φ 1 γ k 1 + φ 2 γ k 2 ρ k = φ 1 ρ k 1 + φ 2 ρ k 2
Indeksin arvoilla k = 1, 2 saadaan yhtälöpari, ns Yule-Walker yhtälöt (huomaa, että ρ k = ρ k ). Tätä yhtälöparia hyödynnetaan aikasarjamallin kertoimien φ 1, φ 2 arvojen estimoinnissa. AR(p) prosessi ρ 1 = φ 1 ρ 0 + φ 2 ρ 1 ρ 2 = φ 1 ρ 1 + φ 2 ρ 0 Kun aikasarjan nykyarvon selittäjiksi otetaan aikaisemmat termit viiveillä k = 1, 2,..., p saadaan AR(p) malli Määritellään ns karakteristinen yhtälö Z t = φ 1 Z t 1 + φ 2 Z t 2 + + φ p Z t p a t 1 φ 1 x φ 2 x 2 c φ p x p = 0 Voidan osoittaa, että stationaarisuusehto määräytyy yhtälön juurista x i. Prosessi on stationaarinen, jos x i < 1 i Autokorrelaatiofunktio saa vaihtelevia muotoja. ρ k 0 k Kertomalla mallin yhtälö puolittain Z t k :lla ja ottamalla puolittain kovarianssi saadaan Yule-Walker yhtälöryhmä. Tätä hyödynnetaan kertoimien φ 1,, φ p arvojen estimoinnissa. ρ 1 = φ 1 + φ 2 ρ 1 + + φ p ρ p 1 ρ 2 = φ 1 ρ 1 + φ 2 + + φ p ρ p 2. ρ p = φ 1 ρ p 1 + φ 2 ρ p 2 + + φ p
ARMA(p,q) Jos malliin sisällytetään sekä AR- että MA-tyyppisen mallin termejä, päädytään ns ARMA-prosessiin. Z t = φ 1 Z t 1 +φ 2 Z t 2 + + φ p Z t p a t θ 1 a t 1 θ 2 a t 2 θ q a t q Yksinkertaisin tällainen olisi ARMA(1,1) prosessi Ohessa ARMA(1,1) simulaatio. Z t = φz t 1 + a t θa t 1 ARMA(1,1) 8 6 Z(t) 4 2 t 0-2 -4-6 MA(1) sarjan invertointi Seuraava päättely näyttää, miten MA(1) sarja voidaan myös tulkita "päättymättömäksi"autoregressiiviseksi sarjaksi Z t = a t θa t 1 a t = Z t + θa t 1 sijoitus = Z t + θ([z t 1 + θa t 2 ]. = Z t + θz t 1 + θ 2 Z t 2 + Z t = θz t 1 θ 2 Z t 2 + a t MA(q) sarjan invertointi
Edellä kuvattu invertointi voidaan tehdä myös MA(q) mallille tietyin ehdoin. Z t = a t θ 1 a t 1 θ 2 a t 2 θ q a t q Prosessin karakeristinen yhtälö on 1 θ 1 x θ 2 x 2 θ q x q = 0 Jos sen kaikki juuret x i > 1, voidaan ratkaista kertoimet π j sitten, että Z t = π 1 Z t 1 + π 2 S t 2 + + a t = 1 π jz t j + a t Matti Poutiainen 9.12.2003
TEORIA PACF JA MALLIN IDENTIFIONTI Osittaisautokorrelaatiofunktio PACF Aikasarjan peräkkäisten termien välinen riippuvuus aiheuttaa "ketjun", jossa termistä Z t termiin Z t+k kohdistuu vaikutus riippuvuksien (Z t Z t+1 ), (Z t+1 Z t+2 ), välityksellä. Tämän lisäksi termi Z t voi vaikuttaa termiin Z t+k myös suoraan. Tämän suoran vaikutuksen arviointiin liittyy käsite osittaisautokorrelaatio. φ kk = corr(z t, Z t k Z t 1,, Z t k+1 ) Z t Z t+k φ kk φ kk kuvaa havaintojen Z t k, Z t välistä kytkentää josta väliin jäävien muuttujien vaikutus on eliminoitu. Osittaisautokorrelaatiofunktio PACF on autokorrellatiofunktion ACF ohella prosessille ominainen ja sitä karakterisoiva ominaisuus. Otosautokorrelaatio Aikasarjan synnyttävä satunnaismekanismi on havaitsijan kannalta tuntematon. Tämän stokastisen ilmön rakenne, sen tilastolliset tunnusluvut, kuten odotusarvo µ t ja autokorrelaatiot ρ k jne ovat suureita, joiden tarkkoja arvoja ei voida yleensä tietää.
Olkoon aikasarjan havaittu data: Y 1, Y 2, Y 3,, Y t. Tästä aineistosta voidaan laskea seuraavat empiiriset kertoimet, joita kutsutaan otos-autokorrelaatioiksi. r k = n k 1 (Y t Y )(Y t+k Y ) n 1 (Yt Y )2 Havaittu r k on todellisen tuntemattoman korrelaation ρ k estimaatti. [Vrt. x ja µ, s ja σ, r ja ρ] Havaittu autokorrelaatiofunktio (otos-acf) poikkeaa siten jonkin verran ARMA-mallin teoreettisesta ACF:stä. MA(3) ACF Otos ACF Havaitun aikasarjan ja sen rakenteen selittämiseen valitun teoreettisen mallin (stokastisen prosessin) välinen yhteys ja samalla niiden eroavuus on tärkeä asia. Jos oletus valitusta selitysmallista pitää paikkasta tarkasti, silloin aikasarjan autokorrelaatiofunktio tiedetään. Käytännössä vastaavuus on vain osittaista. Havaintojen ja mallin yhteensopivuutta voidaan arvioida vertaamalla miten toteutuneesta mittaussarjasta lasketut otos-autokorrelaatiot osuvat yhteen teoreettisen mallin mukaisen autokorrelaatiofunktion kanssa. ACF, PACF JA MALLIN IDENTIFIOINTI Eräät ACF- ja PACF proilin tyypilliset piirteet voivat auttaa mallin identioinnissa MA(q) prosessin ACF sisältää tyypillisesti q kappaletta 0:sta eroavia arvoja ja autokorrrelatiot viiveillä q + 1 ovat kaikki nollia. MA(q) prosessin PACF sen sijaan kostuu päättymättömästä jonosta 0:sta eroavia piikkejä. AR(p) prosessin ACF on tyypillisesti päättymätön jono autokorrelaatio-kertoimia, PACF sisältää max p kappaletta 0:sta eroavia arvoja ja viiveitä p + 1 vastaavat arvot ovat nollia.
MA(3) AR(2) Diagnostiikkaa Havaitun aikasarjan taustalla olevan stokastisen prosessin rakenteen "arvailua"sanotaan mallin identi- oinniksi. Datan diagnostinen tarkastelu sisältää mm seuraavia osia muodosta otos ACF ja otos PACF tutki, muistuttavatko nämä tunnettuja esimerkkejä tarkista stationaarisuus-oletus suorita tarvittaessa dierointi ARMA-malli olettaa, että aikasarja on stationaarinen. Jos näin ei ole, ARMA-malli ei sovellu aikasarjan selittämiseen. Ei-stationaarisuus saattaa ilmeta ACF proilia tutkimalla. Matti Poutiainen 9.12.2003
ARMA-mallin sovittaminen empiiriseen havaintoaineistoon tarkoittaa mallin kertoimien θ k ja φ j arvojen määrittämistä siten, että malli ja havainto-data sopivat yhteen niin tarkasti kuin mahdollista. Mallin kertoimien estimointiin on kehitetty erilaisia likimääräisiä menetelmiä. TEORIA MALLIN SOVITUS PARAMETRIEN ESTIMOINNILLA Momenttimenetelmä AR(1)-tapauksessa Data annettu, estimoi φ! Z t = φz t 1 + a t Tiedetään, että MA(1) prosessille φ = ρ 1 estimatti todelliselle korrelaatiolle eli ˆρ 1 = r 1. Lisäksi datasta laskettu otos-autokorrelaatio on hyvä Tämän vuoksi asetetaan ˆφ = r 1 ja MA(1) mallin parametrille on saatu datasta johdettu estimaatti. Momenttimenetelmä AR(2)-tapauksessa Jos sovitetaan MA(2) mallia annettuun havaintodataan, tehtävänä estimoida kertimet φ 1, φ 2. Estimoinnissa lähdetään Yule-Walker yhtälöistä. Tiedetään { ρ1 = φ 1 + ρ 1 φ 2 ρ 2 = ρ 1 φ 1 + φ 2 Estimointi: Asetetaan ρ r 1, ρ 2 r 2 eli korvataan autokorrelaatio-kertoimet niiden estimaateilla ja ratkaistaan yhtälöparista φ 1, φ 2. Vastaava Yule-Walker yhtälöryhmään perustuva menetelmä soveltuu myös AR(p) mallin kertoimien estimointiin. PNS-menetelmä AR(1)-tapauksessa AR(p) mallin kertoimien määritykseen soveltuu myös tunnettu pienimmän neliösumman menetelmä. Tästä havainnolistuksena seuraava Z t µ = φ[z t 1 µ] + a t Muodostetaan virheneliösumma SS(φ, µ) = n 2 [(Z t µ) φ(z t 3 µ)] 2 Minimoidaan virheneliösumma, ratkaisuna saadaan PNS-estimointi MA(1)-tapauksessa ˆµ = Z, ˆφ = pns estimaatti PNS-menetelmän soveltaminen johtaa yleensä haastavaan numeeriseen tehtävään. Tästä esimerkkinä MA(1) mallin identiointi. Z t = a t θa t 1
Invertointi Z t = θz t 1 θ 2 Z t 2 + a t Virheneliösumma SS(θ) = a 2 t = [Z t + θz t 1 + θ 2 Z t 2 + ] 2 Oletetaan a 0 = 0, jolloin a 1 = Z 1 a 2 = Z 2 + θa 1 a 3 = Z 3 + θa 2. a n = Z n + θa n 1 Etsitään numeerisella optimihakumenetelmällä θ:lle arvo jolle SS(θ) MIN! Tilastolliset ohjelmakirjastot (mm Statgraphics) sisältävät laskentatyökalut, jotka suorittavat ARMA(p,q)- mallin kertoimien numeerisen ratkaisemisen yllä kuvattujen esimerkkien tapaan. Matti Poutiainen 9.12.2003