WETA907 Johdantoa aikasarja-analyysiinanalyysiin Introduction to Time Series Analysis Timo J. Marjomäki Jyväskylän yliopisto Reading: : Chatfield, C. 1989: The analysis of time series: An introduction. Chapman & Hall. Course TILA220 Aikasarjoja Time series http://www.robjhyndman.com/tsdl/ Esimerkki: populaatio- dynamiikka muikku (Coregonus albula) Runsauden vuotuiset indeksit A) ln(r) B) Ln(residual of SB-R model) C) ln(larvae) D) Ln(SB) where R= recruitment SB=spawning biomass vuosi 1
Esimerkki: taloustiede economics Muikun vuosisaalis ja hinta (ammattikalastus) 000 000 saalis, tonnia hinta, p/kg ref. 1992 Lähde. RKTL UNIT PRICE, p/kg Yiel d, tons 3000 2000 1000 0 1979 1980 1981 1982 1983 198 198 1986 1987 1988 1989 1990 1991 1992 1993 199 199 1996 1997 1998 1999 2000 2001 2002 2003 /l VUOSI see http://www.economicswebinstitute.org/ecdata.htm for economic series Esimerkki: Limnologia Kyrönjoen kokonaisfosforipotoisuus Total Phosphorus concentration, micro-g 00 00 300 200 100 0 2.1.197 2.1.1976 1.1.1977 1.1.1978 2.1.1979 2.1.1980 1.1.1981 2.1.1982 2.1.1983 2.1.198 2.1.198 2.1.1986 2.1.1987 2.1.1988 2.1.1989 2.1.1990 2.1.1991 3.1.1992 2.1.1993 2.1.199 3.1.199 3.1.1996 2.1.1997 2.1.1998 3.1.1999 3.1.2000 2.1.2001 3.1.2002 3.1.2003 3.1.200 Määritelmiä Definitions Aikasarja = ajallisesti järjestettyjen havaintojen joukko Miksi tarvitaan erityistä analyysiä Sisältö: Havaintojen järjestyksellä voi olla merkitystä Tilastotiede: havainnot eivät ole riippumattomia Kahdenlaisia aikasarjoja: Jatkuvia (continuous) Epä-jatkuvia (discrete) Kaksi vastakkaista syytä analysoida Ilmiön ajallinen vaihtelu on kiinnostavaa Esim. Lämpiääkö ilmasto todella Halutaan poistaa ajallinen vaihtelu, jotta nähdään jotakin muuta Esim. poistetaan vedenlaatuaikasarjasta vuodenaikaisvaihtelu, jotta nähdään paremmin uuden puhdistamon vaikutus 2
Mitä aikasarjoilla voidaan tehdä Kuvata Describe: : plotataan muuttujat ajan suhteen Nähdään taso, trendi, syklit, poikkeavat havainnot ym. Selittää Explain: : selitetään muuttujan muutosta ajalla Ennustaa Forecast: : menneisyyden ja nykyhaviantojen avulla arvataan tulevaisuutta Säädellä Control: : yritetään vaikuttaa ilmiöön Tarkkailla Monitor: : suunitellaan ja toteutetaan Muunnoksia, taas! Transformations Tilastokäsittelyn vuoksi usein joudutaan tekemään havainnoille muunnoksia, esim. koska: Halutaan vakioida varianssi Esim. jos s.d.(x) average (x) ->ln(x) or log Tehdään multiplikatiivisesta (kerrannaisesta) kausivaihtelusta additiivista (summautuvaa) x t =m t * s t * t -> Log(x t ) = log(m t ) + log(s t ) + log( t ) Normalisoidaan satunnaisvaihtelu Aikasarjan vaihtelun komponentit: Components of variability 1. Trendi (T) Trend 2. Kausivaihtelu (S) Seasonal 3. Sykli (C) Cycle. epäsäännöllinen (I), satunnainen, virhevaihtelu irregular Kun 1-3 poistettu ja varianssi vakioitu = stationaarinen 1-3 removed and constant var -> stationarity 3
Aikasarjan variaation komponentit: 1. trendi Trend Trend is a long term movement in a time series, the underlying direction (an upward or downward tendency) and rate of change in a time series, when allowance has been made for the other components. a general systematic linear or (most often) nonlinear component that changes over time and does not repeat or at least does not repeat within the time range captured by our data (e.g., a plateau followed by a period of exponential growth). Aikasarjan variaation komponentit : trendin estimointi regressiolla estimating trend using regression Suora Line m t =a+bt Käyrä, esim. polynomi Curve m t =a+bt+ct 2 + nb p Esimerkki: ln(p), Kyrönjoki 6. 2.1.197 2.1.1976 1.1.1977 1.1.1978 2.1.1979 2.1.1980 1.1.1981 2.1.1982 2.1.1983 2.1.198 2.1.198 2.1.1986 2.1.1987 2.1.1988 2.1.1989 2.1.1990 2.1.1991 3.1.1992 2.1.1993 2.1.199 3.1.199 3.1.1996 2.1.1997 2.1.1998 3.1.1999 3.1.2000 2.1.2001 3.1.2002 3.1.2003 3.1.200 6.. 3. 3 y = -1E-22x 6 + 2E-17x - 2E-12x + 7E-08x 3-0.0018x 2 + 23.29x - 1261 R 2 = 0.1 EXCEL: kuvassa Right-click pisteiden päällä>valitse Add trend line->valitse Polynomial->valitse polynomin aste, tässä 6.
Aikasarjan variaation komponentit : trendi Filteröinti (filtering of high frequency variability) pienentää vaihtelua, trendi näkyy selvemmin MA=moving average,, liukuva keskiarvo y t =(x t-q + x t + x t+q )/(2q-1) Esim. Kausivaihtelun iht poisto, pituus s SPSS: Transform->Create time series -> Weighted smoothing,, painotettu y t =(a t-q x t-q + a t x t + a t+q x t+q )/(2q-1) a=weight Esimerkki: ln(p), Kyrönjoki 6. 2.1.197 2.1.1976 1.1.1977 1.1.1978 2.1.1979 2.1.1980 1.1.1981 2.1.1982 2.1.1983 2.1.198 2.1.198 2.1.1986 2.1.1987 2.1.1988 2.1.1989 2.1.1990 2.1.1991 3.1.1992 2.1.1993 2.1.199 3.1.199 3.1.1996 2.1.1997 2.1.1998 3.1.1999 3.1.2000 2.1.2001 3.1.2002 3.1.2003 3.1.200 6.. 3. 3 EXCEL: in figure Right-click on any point->select Add trend line->select Moving average->give sequence length Huom: EXCELissä perustuu aikaisempiin havaintoihin, tässä 2 kpl Aikasarjan variaation komponentit : trendin poisto differensoimalla removing trend by differencing Y t = x t+1 t+1 =x t+1 -x t SPSS: Transform->Create time series -> E.g. linear trend with no seasonality x t = a + b*t+ t x t+1 =(a+b*(t+1)+ t-1 )-(a+b*(t)+ t )=b+ t-1 - t
Aikasarjan variaation komponentit: 2. Kausivaihtelu Seasonality Vuoden-, kuukauden-, viikon- tai vuorokaudenajasta tms. johtuvaa Mikä tahansa (jakson sisäinen) säännöllinen vaihtelu Any regular fluctuation E.g. temperature outside: annual, daily Esimerkki: ln(p), Kyrönjoki 6. 1.1.1997 1.1.1998 1.1.1999 1.1.2000 1.1.2001 1.1.2002 1.1.2003 2.1.200 6.. 3. Yleensä P-kuormitus vähäistä talvella ja suurinta syyssateiden aikaan Aikasarjan variaation komponentit : kausivaihtelun estimointi estimating seasonality S=kausivaihtelujakson pituus Estimointi: Määrittele termit s 1, s 2,, s S s t =keskimääräinen poikkeama keskitasosta, esim. trendistä tai jos ei trendiä niin yleiskeskiarvosta s t =average deviation from mean, trend etc. 6
Aikasarjan variaation komponentit : kausivaihtelun poisto differensoinnilla removing seasonality by differencing y t = s x t = x t x t-s = m t -m t-s + t - t-s Aikasarjan variaation komponentit : 3. Sykli Cycle Kuvaa säännöllistä (regular)) vaihtelua Ei-kausittainen vaihtelu, jolla tietty jakso Ero kausivaihteluun: sykli yleensä pidempijaksoinen (ja jakson pituus voi vaihdella) Aikasarjan variaation komponentit :. Epäsäännöllinen (irregular) Jää jäljelle kun edelliset poistetaan Joskus kiinnostavin Esim. Kyrönjoki Kysymys: Aiheuttiko ruoppaus P-huuhtoumaa Menetelmä: Poistetaan trendi, kausivaihtelu ja ulkopuolisen muuttujan esim. sateen selittämä vaihtelu->jäljelle jäänyt vaihtelu voi johtua ruoppauksesta Kontrollialueiden avulla osoitetaan, että epäsäännölliset muutokset leimallisia juuri ruopatulle alueelle (BACI) 7
Aikasarjat ja korrelaatio: autokorrelaatio autocorrelation r k =autocorrelation with time lag k= correlation between observation at moment t and the observation at moment t+k Siis muuttujan virhetermit (residual error) tietyn ajan välein korreloivat Poistetaan trendi, kausivaihtelu jne. Aikasarjat ja korrelaatio autokorrelaation merkitsevyys random (non-autocorrelated autocorrelated) series of n observations r k N(0, 1/n)-> 9 % of the estimates of correlation - 2/ n 2/ n Caution: if you calculate autocorrelations for several lags, then Risk of finding at leats 1 r k significantly different from 0 increases riski=1 =1-0.9 m m = number of estimated correlations Bonferroni Aikasarjat ja korrelaatio autocorrelaation in SPSS Graphs->Time Series->Autocorrelations 1,0 VAR00001 1,0 VAR00001,, 0,0 0,0 ACF -, -1,0 1 3 7 9 11 13 1 2 6 8 10 12 1 16 Conf idence Limits Coef f icient Partial ACF -, -1,0 1 3 7 9 11 13 1 2 6 8 10 12 1 16 Confidence Limits Coeff icient Lag Number Lag Number ACF: Correlates the values of a series with the values lagged by 1 or more cases. Autocorrelations are calculated for lags of 1, 2,..., up to a specified number. Partial ACF: Correlates the values of a series with the values lagged by 1 or more cases, after the effects of correlations at the intervening lags have been removed. 8
Aikasarjat ja korrelaatio kahden aikasarjamuuttujan ristikorrelaatio cross-correlation correlation (function) CCF Normaalisti muuttujien assosiaatio Pearson- korrelaatiolla Aikasarjoissa vaikutukset voivat olla viiveisiä r xy (k)=ristikorrelaatio viiveellä k= korrelaoidaan usean aikasarjan arvot viiveellä k, esim. Mja1:n tämän vuoden arvoja verrataan mja2:n ensi vuoden arvoon (k=1). Poistetaan trendi, kausivaihtelu ym. Merkitsevyys kuten edellä Aikasarjat ja korrelaatio cross-correlation correlation in SPSS Graphs->Time-Series->Cross-correlations 1,0 X with Y, 0,0 -, Confidence Limits CCF -1,0-7 - -3-1 1 3 7-6 - -2 0 2 6 Coefficient Lag Number Lyhyesti: AR, MA, ARMA, ARIMA, SARIMA Erilaisia aikasarjamalleja SPSS:ssä autoregressiivinen malli (autoregressive models, AR) liikkuvan keskiarvon malli (moving average, MA) autoregressiivinen liikkuvan keskiarvon malli (ARMA) autoregressiivinen integroiva liikkuvan (tai liukuvan) keskiarvon malli (ARIMA). SPSS Analyze->Time Series->autoregression OR ARIMA 9
Lyhyesti: spektrianalyysi spectrum analysis Aikaulottuvuuden sijasta käsitellään taajuusulottuvuutta Aikasarja = eri taajuisten värähtelyiden summa Xt= + j=1,,k R j cos( j t+ j )+Z t (omega) =taajuus (frequency) R =laajuus (amplitude) (theta) =vaihe (phase) Z =stationaarinen satunnaissarja Lyhyesti: in SPSS Graph->Time Series->Spectral Periodogram 3 2 1,,,3,2,1,0,0,03,02,01,00,00,003,002 Periodogram of RAN 0,0,1 Frequency,2,3,,,6 Periodogram: Unsmoothed plot of spectral amplitude Periodogram of RAN (plotted on a 3 2 logarithmic scale) 1 against either,,,3,2 frequency or period.,1 Low-frequency,0,0,03 variation characterizes,02,01 a smooth series.,00,00,003,002 Variation spread 1 8 2 6 10 evenly across all frequencies indicates Period "white noise." Periodogram 20 0 60 10