Tilastotieteessä aikasarja tarkoittaa yleensä sarjaa, jossa peräkkäisten havaintojen aikaväli on aina sama.



Samankaltaiset tiedostot
Aki Taanila AIKASARJAENNUSTAMINEN

Dynaamiset regressiomallit

Signaalit ja järjestelmät aika- ja taajuusalueissa

Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus. Intelin osakekurssi. (Pörssi-) päivä n = 20 Intel_Volume. Auringonpilkkujen määrä

Numeeriset menetelmät

Spektri- ja signaalianalysaattorit

L9: Rayleigh testi. Laskuharjoitus

Signaalimallit: sisältö

Ennustaminen ARMA malleilla ja Kalmanin suodin

6.2.3 Spektrikertymäfunktio

Numeerinen integrointi

L9: Rayleigh testi. Laskuharjoitus

Dynaamiset regressiomallit

SIGNAALITEORIAN KERTAUSTA 1

Identifiointiprosessi

805324A (805679S) Aikasarja-analyysi Harjoitus 5 (2016)

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

S Laskennallinen Neurotiede

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

MS-C2128 Ennustaminen ja aikasarja-analyysi ARMA esimerkkejä

3. Tietokoneharjoitukset

1 Vastaa seuraaviin. b) Taajuusvasteen

Havaitsevan tähtitieteen peruskurssi I. Datan käsittely. Jyri Lehtinen. kevät Helsingin yliopisto, Fysiikan laitos

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Markov-prosessit (Jatkuva-aikaiset Markov-ketjut)

Johtuuko tämä ilmastonmuutoksesta? - kasvihuoneilmiön voimistuminen vaikutus sääolojen vaihteluun

Projektisuunnitelma ja johdanto AS Automaatio- ja systeemitekniikan projektityöt Paula Sirén

2) Aliohjelma, jonka toiminta perustuu sivuvaikutuksiin: aliohjelma muuttaa parametrejaan tai globaaleja muuttujia, tulostaa jotakin jne.

Koordinaatistot 1/6 Sisältö ESITIEDOT: reaaliluvut

SMG-2100: SÄHKÖTEKNIIKKA

Trigonometriset funktiot

pisteet Frekvenssi frekvenssi Yhteensä

1. Tilastollinen malli??

Mat Dynaaminen optimointi, mallivastaukset, kierros 5

Mapu I Laskuharjoitus 2, tehtävä 1. Derivoidaan molemmat puolet, aloitetaan vasemmasta puolesta. Muistetaan että:

Johdatus f90/95 ohjelmointiin. H, R & R luvut 1-3

805324A (805679S) Aikasarja-analyysi Harjoitus 6 (2016)

Jaksollisen signaalin spektri

SMG-2100: SÄHKÖTEKNIIKKA

Sovellettu todennäköisyyslaskenta B

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

2. kl:n DY:t. Lause. Yleisesti yhtälöllä ẍ = f(ẋ, x, t) on (sopivin oletuksin) aina olemassa 1-käs. ratkaisu. (ẋ dx/dt, ẍ d 2 x/dt 2.

9. Tila-avaruusmallit

Aikasarjamallit. Pekka Hjelt

spektri taajuus f c f c W f c f c + W

Jakso 6: Värähdysliikkeet Tämän jakson tehtävät on näytettävä viimeistään torstaina

Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto

13. Taylorin polynomi; funktioiden approksimoinnista. Muodosta viidennen asteen Taylorin polynomi kehityskeskuksena origo funktiolle

6.8 Erityisfunktioiden sovelluksia

Ilkka Mellin Aikasarja-analyysi Aikasarjat

Lajittelumenetelmät ilmakehän kaukokartoituksen laadun tarkkailussa (valmiin työn esittely)

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Viikon aiheet. Funktion lineaarinen approksimointi

Lukujonot Z-muunnos Z-muunnoksen ominaisuuksia Z-käänteismuunnos Differenssiyhtälöt. Z-muunnos. 5. joulukuuta Z-muunnos

763306A JOHDATUS SUHTEELLISUUSTEORIAAN 2 Ratkaisut 1 Kevät y' P. α φ

Yhtälön ratkaiseminen

Funktioiden approksimointi ja interpolointi

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Kysynnän ennustaminen muuttuvassa maailmassa

MS-A0202 Differentiaali- ja integraalilaskenta 2 (SCI) Luento 1: Parametrisoidut käyrät ja kaarenpituus

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Kvantitatiiviset menetelmät

pitkittäisaineistoissa

MS-A0102 Differentiaali- ja integraalilaskenta 1

Säätötekniikkaa. Säätöongelma: Hae (mahdollisesti ulostulon avulla) ohjaus, joka saa systeemin toimimaan halutulla tavalla

Kuva 3.1: Näyte Gaussisesta valkoisest kohinasta ε t N(0, 1) Aika t

T Luonnollisten kielten tilastollinen käsittely

MTTTP1, luento KERTAUSTA

MS-A010{3,4} (ELEC*) Differentiaali- ja integraalilaskenta 1 Luento 4: Derivaatta

Diskriminanttianalyysi I

Harjoitus 7: NCSS - Tilastollinen analyysi

4. Tietokoneharjoitukset

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Identifiointiprosessi

Harjoitus 2: Matlab - Statistical Toolbox

763306A JOHDATUS SUHTEELLISUUSTEORIAAN 2 Ratkaisut 2 Kevät 2017

MS-A0202 Differentiaali- ja integraalilaskenta 2 (SCI) Luento 2: Usean muuttujan funktiot

Lukujonot Z-muunnos Z-muunnoksen ominaisuuksia Z-käänteismuunnos Differenssiyhtälöt. Z-muunnos. 1. joulukuuta Z-muunnos

Viikon 5 harjoituksissa käytämme samoja aikasarjoja kuin viikolla 4. Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus

4. Tietokoneharjoitukset

MTTTP1, luento KERTAUSTA

Maksimit ja minimit 1/5 Sisältö ESITIEDOT: reaalifunktiot, derivaatta

Batch means -menetelmä

k = 1,...,r. L(x 1 (t), x

6.5.2 Tapering-menetelmä

Vastaavasti voidaan määritellä korkeamman kertaluvun autoregressiiviset prosessit.

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Luento 13: Periodinen liike. Johdanto Harmoninen värähtely Esimerkkejä F t F r

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Derivaatan sovellukset (ääriarvotehtävät ym.)

Jatkuvat satunnaismuuttujat

Signaalien datamuunnokset. Digitaalitekniikan edut

Signaalien datamuunnokset

STOKASTISET PROSESSIT

TASAVIRTAPIIRI - VASTAUSLOMAKE

Ch7 Kvanttimekaniikan alkeita. Tässä luvussa esitellään NMR:n kannalta keskeiset kvanttimekaniikan tulokset.

Jos havaitaan päivän ylin lämpötila, mittaustuloksissa voi esiintyä seuraavantyyppisiä virheitä:

TTY Mittausten koekenttä. Käyttö. Sijainti

1/6 TEKNIIKKA JA LIIKENNE FYSIIKAN LABORATORIO V

Transkriptio:

Aikasarjat Tilastotieteessä aikasarja tarkoittaa yleensä sarjaa, jossa peräkkäisten havaintojen aikaväli on aina sama. Aikasarja on laajassa mielessä stationäärinen (wide sense stationary, WSS), jos odotusarvo on riippumaton origon valinnasta: E(t) = E(t + τ). Aikasarja on tiukasti stationäärinen (strict sense stationary, SSS), jos mitattavan suureen todennäköisyysjakauma on riippumaton origon valinnasta. Aikasarja-analyysin perusvaiheet: - Havaintojen tasoittaminen tai muu suodattaminen. - Hitaasti muuttuvien vaihtelujen eli trendin poistaminen. Tätä vaihtelua voidaan kuvata esimerkiksi suoralla tai korkeamman asteen polynomilla. - Jaksollisen vaihtelun selvittäminen. Tilastotieteessä jakso on usein vuodenaikojen mukainen kausivaihtelu tai muu tunnettu jakso. - Tulevien arvojen ennustaminen ja niiden todennäköisyysjakauman arvioiminen.

Aineiston tasoittaminen Yksinkertaisin keino: havaittu arvo korvataan painotetulla keskiarvolla g i = αf i + (1 α)g i 1, missä f i on uusi havaittu arvo, g i 1 viimeisin jo muunnettu arvo ja α jokin vakio 0 < α < 1. Mitä lähempänä ykköstä α on, sitä tarkemmin lopputulos seuraa alkuperäistä käyrää. Kun painoa pienennetään, saadaan tasaisempi käyrä, mutta samalla amplitudi pienenee ja vaihteluissa tapahtuu vaihesiirto. Sopii myös reaaliaikaisiin sovelluksiin, koska tasoitukseen käytetään kullakin hetkellä vain jo havaittuja arvoja. Liukuva keskiarvo: g i = K k= K missä painojen summa w k = 1. w k f i+k, Ei aiheuta vaiheen muuttumista. Jotta saataisiin samantasoinen tasoitus kuin edellisellä menetelmällä, tarvitaan yleensä enemmän pisteitä. Tasoitettuja arvoja ei voi tallettaa alkuperäisten päälle. Koska tarvitaan sekä menneitä että tulevia arvoja, ei sovellu ennustamiseen. Liukuva keskiarvo voidaan laskea myös pelkästään aikaisemmista arvoista g i = 2K+1 k=0 jolloin mukaan tulee taas vaihesiirto. w k f i k,

Regressio- ja autoregressiomalli Systemaattista vaihtelua voidaan kuvata mallilla, jossa muuttujana on pelkästään aika. Malli voidaan yleistää myös muotoon f(t) = i a i φ i (t,x), missä kantafunktiot φ i ovat täysin mielivaltaisia funktioita. Ne voivat riippua paitsi ajasta myös mistä tahansa muista suureista x. Kantafunktioiden argumentit voivat olla peräisin myös muista aikasarjoista. Silloin kysymyksessä on regressiomalli. Regressiomalli soveltuu, jos ilmiöiden välillä on todella jokin muukin syy-yhteys kuin pelkästään tilastollinen. (Vrt. jäätelönmyynnin ja hukkumisonnettomuuksien korrelaatio.) Jos jokin kantafunktio riippuu toisen aikasarjan arvosta samalla hetkellä (tai tulevaisuudessa), sen laskemiseksi on pystyttävä ennustamaan toisenkin aikasarjan kehitys. (Jotta jäätelökioskin pitäjä osaisi tilata sopivan jäätelövaraston huomista varten, hänen pitäisi ennustaa ensin, kuinka monta henkeä huomenna tulee hukkumaan.) Jos kantafunktiot riippuvat ennustettavan muuttujan aikaisemmista arvoista, kyseessä on autoregressiomalli, esimerkiksi f(t + 1) = 2f(t) f(t 1), Jos aineistossa esiintyy jakso T, voitaisiin kaikkein yksinkertaisemmassa tapauksessa käyttää mallia f(t + 1) = f(t + 1 T). Jos systemaattinen vaihtelu ei ole sinimuotoista, sitä voi olla vaikea esittää muutamalla Fourier n sarjan termillä. Sen sijaan autoregressiomallin mukainen ennuste voidaan laskea samalla tavoin, olipa vaihtelu minkä muotoista tahansa.

Periodin määrittäminen Ongelmia: - Etsittävän jaksollisuuden lisäksi aineistossa esiintyy muutakin vaihtelua. - Aineistossa on aukkoja tai havaintojakso on lyhyt etsittävään jaksoon verrattuna. - Aineistossa on useita riippumattomia jaksoja, jotka joissakin tapauksissa saattavat johtaa virheellisiin tuloksiin. - Jakson pituus ei ole vakio, vaan muuttuu ajan mittaan. - Vaihe muuttuu ajan mukana. - Mittausten ajoissa esiintyvä jaksollisuus saattaa aiheuttaa ylimääräisiä näennäisiä jaksoja. Esimerkiksi muuttuvaa tähteä havaitaan vain muutama tunti keskimäärin yhden tähtivuorokauden välein.

Fourier n muunnos Muunnos esittää aineiston eri taajuuskomponentteja, joten maksimi jonkin taajuuden kohdalla on osoitus vastaavasta jaksollisuudesta. Jos vaihtelu noudattaa sinikäyrää, Fourier n muunnoksessa näkyy vain yksi maksimi. Jos muoto poikkeaa sinikäyrästä, aineiston kuvaamiseen tarvitaan myös korkeampia taajuuksia ja muunnokseen ilmestyy piikkejä myös perustaajuuden monikertojen kohdalle. Joissakin tilanteissa saatetaan saada virheellisiä jaksoja, jos aineistossa esiintyy kaksi tai useampia lähekkäisiä jaksoja.

Autokorrelaatio Nykyisen havainnon ja k aika-askelta myöhemmän havainnon välistä riippuvuutta kuvaa autokorrelaatio N k 1 R(k) = f i f i+k, N k 1 missä N on havaintojen määrä. Kun tämä lasketaan viiveen k eri arvoilla, k = 1,..., N 2, saadaan autokorrelaatiofunktio. Jotta tämä olisi mielekästä, aikasarjan on oltava oltava ainakin laajassa mielessä stationäärinen. Ennen autokorrelaatiofunktion laskemista aineistosta kannattaa vähentää trendi. Etsityn jakson monikerrat näkyvät aina autokorrelaatiofunktiossa. Jos havainnot ovat puhdasta valkoista kohinaa, peräkkäiset arvot eivät ole lainkaan korreloituneita. Jos aineistossa esiintyy ajan suhteen jatkuvaa vaihtelua, peräkkäiset arvot ovat lähellä toisiaan, ja voimakkain korrelaatio vallitsee peräkkäisten pisteiden (k = 1) välillä. Pieniä k:n arvoja vastaavat suuret korrelaatiot eivät kuitenkaan johdu mistään jaksollisuudesta. Vasta seuraava paikallinen maksimi on osoitus ilmiön jaksollisuudesta. i=1

Rakennefunktiot Autokorrelaatio mittaa suureiden x(t + τ) ja x(t) välistä riippuvuutta niiden tulon odotusarvon avulla. Tulojen sijasta vodaan tutkia erotusta x(t + τ) x(t). Ensimmäisen asteen rakennefunktio (structure function) on D(τ) = 1 N (x(t + τ) x(t)) 2. tai D(τ) = 1 T T/2 T/2 (x(t + τ) x(t)) 2 dt. Korkeamman asteen rakennefunktiot: D n (τ) = 1 T T/2 T/2 ( n ( ( 1) k n ) 2 x(t + kτ)) dt. k k=1 Toisen asteen rakennefunktio tunnetaan Allanin varianssina, ja sitä käytetään laajalti kuvaamaan systeemien stabiilisuutta. Riittää, että erotukset ovat stationäärisiä. Rakennefunktio voidaan laskea, vaikka autokorrelaatiofunktio viiveen funktiona ei olisi mielekäs. Rakennefunktio on määritelty aikasarjalle myös, jos keskiarvo ja varianssi eivät ole määriteltyjä. Rakennefunktioita voidaan siis soveltaa useampaan aikasarjaan kuin autokorrelaatiofunktioita.

Vaihedispersiomenetelmä verrataan oletetun jakson T päässä olevia arvoja toisiinsa. Jos ne ovat lähellä toisiaan, saadaan pieni arvo poikkeamaa kuvaavalle mitalle d(t) = 1 w(t i,t j ) y i y j 2, S missä i S = i j w(t i,t j ) j Funktio w valitaan siten, että se on likimain nolla muualla paitsi aikaeron ollessa lähellä jakson pituutta tai sen monikertaa, ts. w(t i,t j ) on selvästi positiivinen vain, kun t i t j kt, k = 0,1,2,... Kun dispersio d piirretään jakson T funktiona, saadaan käyrä, jonka minimit vastaavat aikasarjan jaksoja.

Epätasavälisyys Tähtitieteessä havainnot eivät yleensä ole tasavälisiä. Mikäli kyseessä on vain muutama puuttuva piste ja muutokset eivät ole suuria, puuttuvat pisteet voidaan interpoloida. Yleisemmässä tapauksessa tämä ei useinkaan ole järkevää. Mikäli datassa olevat aukot ovat pitkiä, lyhyitä ja pitkiä aikaskaaloja voi joutua analysoimaan erikseen tasaväliseen dataan soveltuvin menetelmin. Havaintotiheyttä voi pyrkiä tasoittamaan luokittelemalla mittaukset sopivan mittaisiin aikaväleihin ja laskemalla ko. aikavälin mittaiset keskiarvot kuten allaolevista esimerkeistä ilmenee. Autokorrelaatiofunktio: (Edelson ja Krolik, Ap. J., 333, 646, 1988). Jokaiselle havaitulle aikaviiveelle on vain yksi mittaus, joten autokorrelaatiofunktiolle ei saada kunnon arviota. Muodostetaan sopivan mittaisia aikaluokkia, ja kunkin aikaluokan korrelaatiofunktion arvo on tämän luokan keskimääräinen korrelaatio ja luokan sisäisestä hajonnasta saadaan virhearvio. Rakennefunktioiden laskemista epätasavälisessä datassa ei ole paljoa tutkittu. Periaatteessa rakennefunktioille voidaan käyttää samanlaista luokittelua kuin käytettiin autokorrelaatiofunktioille Edelsonin ja Krolikin menetelmässä. Fourier n muunnos: Deeming: Fourier analysis with unequally-spaced data, Astrophysics and Space Science 36 137 158 (1975). Tehospektri: Scargle, Ap.J., 263, 835, 1982; Lomb, Ap. Space Sci., 39, L147, 1976. P(ω) = 1 2 ( [ x i cos(ω(t i t 0 ))] 2 cos2 (ω(t i t 0 )) ) + [ x i sin(ω(t i t 0 ))] 2 sin 2, (ω(t i t 0 )) missä t 0 = 1 ( ) 2ω arctan sin2ωti. cos 2ωti

program lomb implicit none integer, parameter :: n=100 real, parameter :: pi=3.141592654 real, dimension(n) :: t, x, noise, f, P real :: w, k=4.0 integer i read (*,*) w call random_number(t) call random_number(noise) x=sin(k*2*pi*t)+w*noise do i=1,n f(i)=0.1*i P(i)=period(t, x, n, f(i)) write(*,*) f(i),p(i) end do contains real function period(t, x, n, f)! Lombin periodogrammi taajuudella f! t(1:n)=aika, x(1:n)=havaitut arvot integer, intent(in) :: n real, dimension(n), intent(in) :: t, x real, intent(in) :: f real, parameter :: pi=3.141592654 real s1, s2, s3, s4, mean, var, tau, omega integer i omega=2*pi*f! x:n keskiarvo ja varianssi mean = sum(x)/n var= sum((x-mean)**2)/(n-1)! tau tau = sum(sin(2*omega*t))/sum(cos(2*omega*t)) tau = atan(tau)/(2*omega)! P(omega) s1 = sum((x-mean)*cos(omega*(t-tau))) s2 = sum(cos(omega*(t-tau))**2) s3 = sum((x-mean)*sin(omega*(t-tau))) s4 = sum(sin(omega*(t-tau))**2) period = (s1**2/s2 + s3**2/s4)/(2*var) end function end program