805324A (805679S) Aikasarja-analyysi (Syksy 2016) Sari Lasanen
1. Kurssin tiedot Osaamistavoitteet: Kurssin onnistuneen suorittamisen jälkeen opiskelija tuntee aikasarja-analyysin peruskäsitteet (mm. trendi, kausivaihtelu, syklisyys, autokovarianssi) sekä perusmenetelmät osaa mallintaa erilaisia aikasarjoja ja arvioida malleja kriittisesti hallitsee aikasarjojen tilastollisen ennustamisen alkeet kykenee käytännön laskentaan tilastollisten ohjelmistojen avulla omaa aikasarja-analyysin osalta valmiudet toimia datatieteen tehtävissä Kirjallisuus: Chatfield, C. The Analysis of Time Series, an Introduction. Chapman and Hall (2004) Shumway, R.H. and Stoffer, D.S. Time Series Analysis and Its Applications: With R Examples. Springer (2011) Hamilton, J.D. Time series analysis. Princeton University Press (1994) Kurssin kotisivut: noppa.oulu.fi https://noppa.oulu.fi/noppa/kurssi/805324a/etusivu i
Luennoitsija: Sari Lasanen, huone MA332, sari.lasanen@oulu.fi Luennot Harjoitukset MA 12-14 TO 14-16 KE 14-16 Tentti (24 pistettä) Yliopistotentti 12.12.2016 4 tehtävää a 6 pistettä: Määritelmät. Käsitteet. Todennäköisyyslaskenta. Harjoitustyö (24 pistettä). Joka harjoituksessa on harjoitustyöosio. Läsnäolopakkoa harjoituksissa ei ole. Yhteispisteet (max 48) Kurssiarvosana (1-5) 0-23 Hylätty 24-28 1 29-33 2 34-38 3 39-43 4 44-48 5 ii
2. Johdanto Aikasarja syntyy, kun muuttujan arvoja kerätään peräkkäisillä ajanhetkillä. Lämpötila C 0 5 10 15 1920 1925 1930 1935 1940 Vuosi Kuva 2.1: Kuukauden keskilämpötila Nottingham Castlessa (R: nottem) Yllä olevasta kuvaajasta nähdään, että esimerkiksi tammikuun keskilämpötila vaihtelee vuodesta toiseen. Kun data sisältää epäsäännölistä ajallista vaihtelua, siirrytään datan tarkastelussa usein tilastollisiin menetelmiin, joissa dataa kuvaillaan säännöllisten mallien lisäksi myös satunnaismallien avulla. Aikasarja-analyysi käsittää aikasarjojen mallittamisen sekä tilastollisen päättelyn menetelmiä. 2.1 Aikasarja Tarkastellaan muuttujaa, jonka arvoa ajanhetkellä t merkitään X t. sano- Olkoon t k lukujono, jonka alkioille pätee t k < t k+1 kaikilla k. Lukujonoa X tk taan aikasarjaksi. Aikasarja on tasavälinen, jos t k+1 t k = t k +1 t k jokaisella k k. Tasavälisen aikasarjan aika-asteikko on mahdollista skaalata niin, että t 1 = 1, t 2 = 2, t 3 = 3,... Tällöin on luontevaa käyttää aikasarjasta merkintää X t, missä t = 1, 2, 3,... (2.1.1) Käytetään jatkossa teorian tarkastelussa merkintää (2.1.1)! Miten pitkä aika on eri havaintojen välillä? Onko ajalla t nyt yksikköä, kuten vuosi, kuukausi tai minuutti? Mitä ajattelet tästä? 1
Kuva 2.2: Esimerkki tasavälisistä ja epätasavälisistä ajanhetkistä. Huomautus 2.1.1. Aikasarja voi olla kerätty esim. vuosittain, kuukausittain, päivittäin, tunneittain...,.. mikrosekunneittain. Muita kirjallisuudessa esiintyviä merkintätapoja: X k, x tk, X(k). Parametrin t ei aina tarvitse edustaa aikaa, vaan se voi olla esimerkiksi myös etäisyys. Soveltavassa kirjallisuudessa voi joskus kohdata aikasarjan, missä aikaparametri on jatkuva eli sallitaan kaikki t > 0. Tällaiset yhden muuttujan satunnaisfunktiot määritellään matematiikassa stokastisina prosesseina. Esimerkki 2.1. Tarkastellaan aikasarjaa X t = 1 2 + 1 2 t + häiriö, missä eri t:n arvoilla olevat häiriötermit ovat keskenään riippumattomia U(0, 1) jakautuneita satunnaismuuttujia. Kun t = 2, niin X 2 = 1 2 + 1 2 2 + häiriö. Lisää kuvaan 2.3 suora y = 1 2 + 1 2 x. Mikä on muutujan y arvo, kun x saa arvon 2 1 2? Mainitse jokin arvo, jota aikasarjan piste X 3, ei voi saada (todennäköisyydellä 1). Mikä on aikasarjan X t havaintojen aikaväli? Onko ajalle t annettu yksikköä? Time changes everything except something within us which is always surprised by change. Thomas Hardy 2
Taulukko 2.1: Esimerkki aikasarjasta X t t 1 2 3 4 5 6 7 8 1 + 1 t 1.00 1.50 2.00 2.50 3.00 3.50 4.00 4.50 2 2 Häiriö 0.20 0.90 0.83 0.55 0.05 0.80 0.47 0.95 Aikasarja X t 1.20 2.40 2.83 3.05 3.05 4.30 4.47 5.45 X t 1 2 3 4 5 1 2 3 4 5 6 7 8 Aika t Kuva 2.3: Aikasarja X t = 1 2 + 1 2 t + häiriö 2.2 Esimerkkejä aikasarjoista Aikasarjoja kerätään esimerkiksi taloudessa (esim. pörssikurssit, valuuttakurssit), luonnonilmiöissä ja -vaihteluissa (esim. ilmastodata, sää, kalakannat), kaupallisessa toiminnassa (tuotteen kysyntä, raaka-aineen hinta), yhteiskunnassa (esim. työllisyys, rikollisuustilastot), terveysalalla (potilaan verenpaine, syöpärekisterit), liikenteestä (ruuhkaisuus, onnettomuustilastot), digitaalisissa mittauksissa (sensoriin liitetyt dataloggerit). Aikasarja-analyysin tavoitteita: Eksploratiivinen analyysi (aikasarjan oleellisten piirteiden löytäminen ) Selittävät tekijät (kausivaihtelu,riippuvuuus toisesta aikasarjasta) Ennustaminen Without data you re just another person with an opinion. W. Edwards Deming 3
Esimerkki 2.2. Liikenneonnettomuuksissa menehtyneiden ajoneuvon kuljettajien kuukausittainen lukumäärä Iso-Britanniassa 1969-1980 (R: UKDriverDeaths) Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 1969 1687 1508 1507 1385 1632 1511 1559 1630 1579 1653 2152 2148 1970 1752 1765 1717 1558 1575 1520 1805 1800 1719 2008 2242 2478 1971 2030 1655 1693 1623 1805 1746 1795 1926 1619 1992 2233 2192 1972 2080 1768 1835 1569 1976 1853 1965 1689 1778 1976 2397 2654 1973 2097 1963 1677 1941 2003 1813 2012 1912 2084 2080 2118 2150 1974 1608 1503 1548 1382 1731 1798 1779 1887 2004 2077 2092 2051 1975 1577 1356 1652 1382 1519 1421 1442 1543 1656 1561 1905 2199 1976 1473 1655 1407 1395 1530 1309 1526 1327 1627 1748 1958 2274 1977 1648 1401 1411 1403 1394 1520 1528 1643 1515 1685 2000 2215 1978 1956 1462 1563 1459 1446 1622 1657 1638 1643 1683 2050 2262 1979 1813 1445 1762 1461 1556 1431 1427 1554 1645 1653 2016 2207 1980 1665 1361 1506 1360 1453 1522 1460 1552 1548 1827 1737 1941 1981 1474 1458 1542 1404 1522 1385 1641 1510 1681 1938 1868 1726 1982 1456 1445 1456 1365 1487 1558 1488 1684 1594 1850 1998 2079 1983 1494 1057 1218 1168 1236 1076 1174 1139 1427 1487 1483 1513 1984 1357 1165 1282 1110 1297 1185 1222 1284 1444 1575 1737 1763 Lukumäärä X tk 1400 2000 2600 1970 1972 1974 1976 1978 1980 Aika t k Harvey, A. C. and Durbin, J. (1986) The effects of seat belt legislation on British road casualties: A case study in structural time series modelling. Journal of the Royal Statistical Society series B, 149, 187 227. Wikipedia lainaus: In the UK, a requirement for anchorage points was introduced in 1965, followed by the requirement in 1968 to fit three-point belts in the front outboard positions on all new cars and all existing cars back to 1965. Successive UK Governments proposed, but failed to deliver, seat belt legislation throughout the 1970s. Front seat belts were compulsory equipment on all new cars registered in the UK from 1972, although it did not become compulsory for them to be worn until 1983. Rear seat belts were compulsory equipment from 1986. However, it has never been a legal requirement for cars registered before those dates to be fitted with seat belts. Vähentääkö turvavyölainsäädäntö autoilijoiden tieliikennekuolemia?...kuinka paljon? Esimerkki 2.3. Biologinen data kerätään usein aikasarjana. Data-analyysillä voidaan tehdä mm. lääketieteellisesti merkittäviä havaintoja kerätyistä aikasarjoista. Biologista dataa edustavat mm. puun vuosittainen kasvu ja potilaan päivittäinen verenpaine. Alla on kahden majavan kehon lämpö eri vuorokauden aikoina. 4
Taulukko 2.2: Majava 1 aikasarjan alku k = 1,..., 10 Aika t k 08:40 08:50 09:00 09:10 09:20 09:30 09:40 09:50 10:00 10:10 Aikasarja X tk 36.33 36.34 36.35 36.42 36.55 36.69 36.71 36.75 36.81 36.88 Taulukko 2.3: Majava 2, aikasarjan alku k = 1,..., 10 Aika s k 09:30 09:40 09:50 10:00 10:10 10:20 10:30 10:40 10:50 11:00 Aikasarja Y sk 36.58 36.73 36.93 37.15 37.23 37.24 37.24 36.9 36.95 36.89 lämpö 36.5 37.0 37.5 38.0 Majava 1 Majava 2 10 15 20 25 tunnit Majavan 1 ja Majavan 2 aikasarjoja on merkitty eri symboleilla: aikaa t k ja s k sekä aikasarjoja vastaavasti X k ja Y k. 1 Kunkin majavan data on tasavälisesti kerätty: t k t k 1 = s k s k 1 = 10 min jokaisella k = 1, 2, 3,... Majavaa 1 on seurattu kaummin kuin Majavaa 2: Majavan 1 data alkaa ajanhetkellä t 1 = 8 : 40 ja Majavan 2 data alkaa ajanhetkellä s 1 = 9 : 30. 2 Vältä vaikeudet: Varmista biologisen datan yhteydessä datan keruun eettisyys! http://www.tenk.fi/fi/ohjeet-ja-julkaisut Noudata aina datan käsittelyyn ja säilytykseen liittyvää ohjeistusta! (Luottamuksellisuus, yksityisyyden suoja) We are drowning in information and starving for knowledge. Rutherford D. Roger 1 Mitä muita oleellisesti erilaisia merkintätapoja voisi olla usealle aikasarjalle? 2 Voisiko tästä olla haittaa? 5
Esimerkki 2.4. Aikasarjoja kerätään paljon taloustieteessä: datan avulla pyritään ymmärtämään mm. markkinoiden käytöstä sekä esim.liiketaloudessa kehittämään hyödykkeiden tuotantoa kulutuksen mukaan. Kuva 2.4: Päivittäinen pörssi-indeksi (DAX) Frankfurtin pörssin sulkeutumisaikaan (R:EuStockMarkets). DAX 2000 3000 4000 5000 6000 1992 1993 1994 1995 1996 1997 1998 Aika (Vuosina) Kuvaaja on epäsäännöllinen. Epäsäännöllisyyttä pyritään aikasarja-analyysissä mallintamaan satunnaisuuden avulla. The statistician cannot evade the responsibility for understanding the process he applies or recommends.- Sir Ronald A. Fisher Esimerkki 2.5. Tähtitiede on aikasarjojen suurtuottaja. Nasan arkistoissa odottaa EDELLEEN ensimmäinen aurinkokunnan ulkopuolinen eksokuu löytäjäänsä! Dataa löytyy täältä: Exoplanet archive Esimerkki 2.6. Bisnesanalytiikka. Google. Big data. 6
3. Aikasarjamalleja 3.1 Stokastiset prosessit Aikasarjojen mallitus perustuu stokastisiin prosesseihin. Määritelmä 3.1. Olkoon (Ω, Σ, P ) todennäköisyysavaruus. Olkoon I Z. Sanotaan, että kuvaus I Ω (t, ω) X t (ω) R on (diskreetti) stokastinen prosessi X t, jos kuvaus ω X t (ω) on satunnaismuuttuja jokaisella t I. Diskreetti stokastinen prosessi on erityisesti kokoelma samalla todennäköisyysavaruudella määriteltyjä satunnaismuuttujia. Indeksit t I ovat ajanhetkiä. Indeksijoukko I on tavallisesti joko N, jolloin stokastinen prosessi on tai Z, jolloin stokastinen prosessi on X 1, X 2, X 3,......, X 3, X 2, X 1, X 0, X 1, X 2, X 3,... Tärkeä esimerkki stokastisista prosesseista on valkoinen kohina. Määritelmä 3.2. Stokastista prosessia ε t sanotaan valkoiseksi kohinaksi, jos ε t ja ε s ovat tilastollisesti riippumattomia 1 kaikilla t s, E[ε t ] = 0 ja E[ε 2 t ] = σ 2 jokaisella t, missä σ > 0. Stokastisen prosessin ja satunnaisvektorien välinen suurin ero on, että stokastinen prosessi koostuu äärettömän monesta satunnaismuuttujasta. Esimerkki 3.1. Olkoon ε t Gaussinen valkoinen kohina, jolle ε t N0, 1) jokaisella t. Lasketaan todennnäköisyys sille, että ɛ t [ 1, 1] jokaisella t. Käytetään hyväksi eri komponenttien riippumattomuutta: P ( { 1 ɛ t 1}) = P ({ 1 ɛ 1 1} { 1 ɛ t 1}) t=1 Näin jatkamalla voidaan näyttää, että P ( { 1 ɛ t 1}) = t=1 t=2 = P ({ 1 ɛ 1 1})P ( { 1 ɛ t 1}) P ( 1 ɛ t 1) = t=1 t=2 ( 1 2π 1 1 Usein vaaditaan, että ε t ja ε s ovat pelkästään korreloimattomia 1 exp( 1 2 x2 )dx) = 0 7
Kuva 3.1: Näyte Gaussisesta valkoisest kohinasta ε t N(0, 1) Valkoinen kohina ε t 2 1 0 1 2 0 20 40 60 80 Aika t Voimme tehdä saman laskun myös yleiselle välille [ a, a], missä 0 < a <. Todennäköisyys sille, että Gaussisen valkoisen kohinan komponentit ovat yhtäaikaa rajoitettuja on siis nolla. Toisin sanoen P (sup t ɛ t < a) = 0. Valkoinen kohina on myös tässä mielessä hyvin epäsäännöllistä. Huomautus 3.1.1. Stokastiselle prosessille ei voi kirjoittaa yhteistodennäköisyystiheysfunktiota samaaan tapaan kuin satunnaisvektoreille. Sen sijaan äärellisulotteisten reunajakaumien F Xt1,...,X tk tiheysfunktiot ovat määriteltävissä. Stokastisten prosessien olemassaolo voidaan näyttää äärellisulotteisten reunajakaumien avulla. Tämän havaitsi ensimmäisenä Kolmogorov, jonka mukaan tulos on nimetty. (Tulosta ei esitetä tällä kurssilla) Määritelmä 3.3. Olkoon X t, t I, stokastinen prosessi. Sanotaan, että µ t on stokastisen prosessin X t odotusarvo, jos µ t = E[X t ] jokaisella t I. Sanotaan, että C : I I R on stokastisen prosessin kovarianssifunktio, jos C(t, s) = E[(X t µ t )(X s µ s )] jokaisella t, s I. Sanotaan, että Γ t on stokasisen prosessin X t jokaisella t, t τ I. Γ t (τ) = C(t, t τ) autokovarianssifunktio, jos Esimerkki 3.2. Olkoon ε t valkoinen kohina, jolle ε t N(0, σ 2 ) jokaisella t = 1, 2, 3,.... Olkoon X t = 2 + t 2 + 3ε t. Laske prosessin X t odotusarvo ja kovarianssifunktio, mikäli mahdollista. 8