6. Tietokoneharjoitukset

Samankaltaiset tiedostot
4. Tietokoneharjoitukset

4. Tietokoneharjoitukset

805324A (805679S) Aikasarja-analyysi Harjoitus 6 (2016)

Viikon 5 harjoituksissa käytämme samoja aikasarjoja kuin viikolla 4. Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

9. Tila-avaruusmallit

Ennustaminen ARMA malleilla ja Kalmanin suodin

3. Tietokoneharjoitukset

Inversio-ongelmien laskennallinen peruskurssi Luento 4

Lause 4.2. Lineearinen pienimmän keskineliövirheen estimaattoi on lineaarinen projektio.

2. Teoriaharjoitukset

Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus. Intelin osakekurssi. (Pörssi-) päivä n = 20 Intel_Volume. Auringonpilkkujen määrä

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Sovellettu todennäköisyyslaskenta B

805324A (805679S) Aikasarja-analyysi Harjoitus 3 (2016)

Sovellettu todennäköisyyslaskenta B

6.5.2 Tapering-menetelmä

4.0.2 Kuinka hyvä ennuste on?

Osa 2: Otokset, otosjakaumat ja estimointi

Dynaamiset regressiomallit

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Esimerkki: Tietoliikennekytkin

Moniulotteisia todennäköisyysjakaumia

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Mallipohjainen klusterointi

MS-A0004/MS-A0006 Matriisilaskenta Laskuharjoitus 6 / vko 42

Sovellettu todennäköisyyslaskenta B

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Ominaisarvot ja ominaisvektorit 140 / 170

9. laskuharjoituskierros, vko 12-13, ratkaisut

Estimointi. Vilkkumaa / Kuusinen 1

MS-A0207 Differentiaali- ja integraalilaskenta 2 (Chem) Yhteenveto, osa I

ARMA mallien rakentaminen, Kalmanin suodatin

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Dynaamiset regressiomallit

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Dynaamisten systeemien teoriaa. Systeemianalyysilaboratorio II

3. Teoriaharjoitukset

Harjoitustyö 3. Heiluri-vaunusysteemin parametrien estimointi

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Vastepintamenetelmä. Kuusinen/Heliövaara 1

MS-A0003/A0005 Matriisilaskenta Laskuharjoitus 3 /

Fourier-analyysi, I/19-20, Mallivastaukset, Laskuharjoitus 7

Mat Dynaaminen optimointi, mallivastaukset, kierros 1

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

TEKNILLINEN KORKEAKOULU Systeemianalyysin laboratorio. Mat Systeemien Identifiointi. 4. harjoitus

Differentiaali- ja integraalilaskenta 1 Ratkaisut 5. viikolle /

v AB q(t) = q(t) v AB p(t) v B V B ṗ(t) = q(t) v AB Φ(t, τ) = e A(t τ). e A = I + A + A2 2! + A3 = exp(a D (t τ)) (I + A N (t τ)), A N = =

Regressioanalyysi. Kuusinen/Heliövaara 1

Harjoitus 3: Regressiomallit (Matlab)

Inversio-ongelmien laskennallinen peruskurssi Luento 7 8

Yleistä. Aalto-yliopisto Perustieteiden korkeakoulu Matematiikan ja systeemianalyysin laitos

5.7 Uskottavuusfunktioon perustuvia testejä II

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Vastaavasti voidaan määritellä korkeamman kertaluvun autoregressiiviset prosessit.

Oletetaan ensin, että tangenttitaso on olemassa. Nyt pinnalla S on koordinaattiesitys ψ, jolle pätee että kaikilla x V U

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Harha mallin arvioinnissa

JAKSO 2 KANTA JA KOORDINAATIT

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

Mat Tilastollisen analyysin perusteet, kevät 2007

Matriisien tulo. Matriisit ja lineaarinen yhtälöryhmä

x = ( θ θ ia y = ( ) x.

Laskuharjoitus 9, tehtävä 6

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

ẋ(t) = s x (t) + f x y(t) u x x(t) ẏ(t) = s y (t) + f y x(t) u y y(t),

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

TIINA SOKURI VINO KALMANIN SUODATIN. Kandidaatintyö

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Valintahetket ja pysäytetyt martingaalit

Todennäköisyyden ominaisuuksia

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

pitkittäisaineistoissa

Harjoitus 3: Regressiomallit (Matlab)

V ar(m n ) = V ar(x i ).

Sovellettu todennäköisyyslaskenta B

Lineaarialgebra ja differentiaaliyhtälöt Laskuharjoitus 1 / vko 44

Sovellettu todennäköisyyslaskenta B

1. Tilastollinen malli??

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Myyräkuumeen ja myyrärunsauden välisen suhteen mallintaminen tila-avaruusmalleilla

2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio

Kaksisuuntainen varianssianalyysi. Heliövaara 1

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

MS-C1340 Lineaarialgebra ja

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

805306A Johdatus monimuuttujamenetelmiin, 5 op

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Transkriptio:

6. Tietokoneharjoitukset 6.1 Tiedostossa Const.txt on eräällä Yhdysvaltalaisella asuinalueella aloitettujen rakennusurakoiden määrä kuukausittain, aikavälillä 1966-1974. Urakoiden määrä on skaalattu asuinalueen asukasmäärällä. (a) Visualisoi aineisto. Näyttääkö aikasarja stationaariselta? Mihin komponentteihin aikasarjan voisi yrittää jakaa? (b) Tee aikasarjalle ositus funktion stl avulla. Toisin sanoen jaa aikasarja trendi-, kausija satunnaiskomponentteihin. (c) Käytä seuraavaa suodatinta trendin estimoimiseen: y t = 1 24 (x t 6 + 2x t 5 + 2x t 4 +... + 2x t +... + 2x t+4 + 2x t+5 + x t+6 ). Piirrä saatu estimaatti, funktion stl antama estimaatti ja alkuperäinen aikasarja samaan kuvaan. Miten trendin estimaatit eroavat toisistaan? (d) Poista aikasarjasta trendi ja kausivaihtelu differenssien avulla. Tee saadulle aikasarjalle ositus funktion stl avulla. Ratkaisu. (a) Kuvan 2 perusteella aikasarja ei näytä stationaariselta. Yritetään jakaa aikasarja trendikomponenttiin (m t ), kausikomponenttiin (s t ) ja satunnaiskomponenttiin (e t ): x t = m t + s t + e t, missä m t = β 0 + β 1 t +... + β k t k on jokin polynomi astetta k. (b) Ositus saadaan komennoilla: CONST<- read.table("const.txt",header=t,sep=",",row.names=1) const <- ts(const,start=1966, frequency=12) const.stl <- stl(const[,1], s.window="periodic") # s.window-parametrin avulla voidaan määrät kausivaihtelun # estimoimiseen käyettyä menetelmää plot(const.stl) 1 / 7

remainder 20 10 0 10 20 trend 100 140 180 seasonal data 50 100 150 200 40 20 0 10 20 30 1966 1968 1970 1972 1974 time Kuva 1: Aikasarja Const jaettuna komponentteihin. (c) Suodatin saadaan kätevästi funktion filter avulla. Kuvasta 2 nähdään että funktion stl estimoima trendi on lähes identtinen suhteessa tehtävän suodattimeen. Suodattimen estimaatti on kuitenkin hieman vähemmän sileä suhteessa funktioon stl, joka nähdään kuvaa suurentamalla. const.filt <- filter(const, c(1,rep(2,11),1)/24 ) trend <- const.stl$time.series[,2] plot(const,lty=3) lines(trend, col="blue") lines(const.filt, lty=2, col="red") legend("topleft", legend=c("time series","filter","stl"), col=c(1,"red","blue"), lty=c(3,2,1)) 2 / 7

Time series Filter STL 50 100 150 200 1966 1968 1970 1972 1974 Time Kuva 2: Alkuperäinen aikasarja harmaalla, stl funktion estimoima trendi sinisellä ja tehtävän suodattimen estimaatti punaisella. (d) Lasketaan differenssi DD 12 ja katsotaan miltä ositus näyttää. Kuvan 3 ylimmän kuvan ja Kuvan 4 perusteella aikasarja näyttää stationaariselta. Osituksessa sovitetaan ensin kausikomponentti ja jäljelle jääneestä komponentista estimoidaan trendi. Tästä syystä, trendi ei näytä kovin sileältä. const.diff <- diff(diff(const, lag=12)) const.diff.stl <- stl(const.diff[,1], s.window="periodic") plot(const.diff.stl) 3 / 7

remainder 40 20 0 20 trend 5 0 5 seasonal 3 2 1 0 1 2 3 data 40 20 0 20 1968 1970 1972 1974 time Kuva 3: Aikasarja DD 12 Const jaettuna komponentteihin. Time series STL 40 20 0 20 1968 1970 1972 1974 Time Kuva 4: DD 12 Const harmaalla ja stl funktion estimoima trendi sinisellä. 4 / 7

6.2 Tiedostossa Alkokuolema.txt on alkoholiin liittyvien kuolemien määrä vuosittain Suomessa per 100 000 henkilöä ikäluokalle 40-49 vuotiaat. Aineisto on kerätty vuosilta 1969-2007. Vastaava aineisto löytyy myös Suomen Tilastokeskuksen sivulta. Oletetaan että havainnoille y 1,... y n pätee y t N(µ t, σ 2 w), kaikille t = 1,..., n, missä µ t on satunnaiskävely trendillä muotoa µ t+1 = µ t + ν + ε t, ja ε t N(0, σ 2 ε). Oletetaan että alkutilasta µ 1 ja kulmakertoimesta ν ei tiedetä mitään. Estimoi parametri ν Kalman suodattimen avulla ja ennusta aikasarjaa yksi vuosi eteenpäin. Ratkaisu. Dynaamisen systeemin tila-avaruusesitys on: x t+1 = F x t + Rε t+1, y t = H T x t + w t, missä ylempää yhtälöä kutsutaan tilayhtälöksi ja alempaa havaintoyhtälöksi. Vektori y t sisältää havainnot ajanhetkellä t ja vektori x t on yleensä havaitsematon tilamuuttuja. Matriisi F on tilansiirtomatriisi ajanhetkien t ja t+1 välillä ja ε t+1 on kyseisen tilansiirron satunnainen komponentti. Matriisi H kuvaa havaintovektorin ja tilavektorin välistä yhteyttä ajanhetkellä t ja w t on kyseisen ajanhetken mittausvirhe. Esitystä kutsutaan Gaussiseksi tila-avaruusesitykseksi, kun oletetaan että ε t N(0, T ), w t N(0, Q) ja x 1 N(0, P 1 ). siten että ε t, w s ja x 1 ovat pareittain riippumattomia toisistaan kaikilla ajanhetkillä t ja s. Tehtävässä Gaussinen tila-avaruusesitys on muotoa ( ) ( ) ( ) ( ) µt+1 1 1 µt 1 x t+1 = = + ε ν t+1 0 1 ν t 0 t y t = ( 1 0 ) x t + w t = ( 1 0 ) ( ) µ t + w ν t, t missä ε t N(0, σ 2 ε) ja w t N(0, σ 2 w) ja x 1 = ( µ 1 ν 1 ) T N(0, P1 ). Paketin KFAS käyttämät merkinnät poikkeavat hieman tällä kurssilla käytetyistä. Lisäksi matriisi P 1 määritellään kahdessa osassa. Asettamalla parametrin P 1 nollamatriisiksi ja P identiteettimatriisiksi, vastaa alkuarvausta että kovarianssimatriisi on identiteettimatriisi. Alla määritelty tarvittavat matriisit mallia varten ja suoritettu estimoiminen. install.packages("kfas") library(kfas) alko <-ts(read.table("alkokuolema.txt"),start=1969) 5 / 7

Zt <- matrix(c(1, 0), 1, 2) #Vastaa vektorin H transpoosia Ht <- matrix(na) #Vastaa w_t varianssia Tt <- matrix(c(1, 0, 1, 1), 2, 2) #Vastaa matriisia F Rt <- matrix(c(1, 0), 2, 1) Qt <- matrix(na) #Vastaa epsilon_t varianssia P1 <- matrix(0, 2, 2) P1inf <- diag(2) # -1 kaavassa määrää että mallissa ei estimoida vakiota, model_gaussian <- SSModel(alko~-1+SSMcustom(Z = Zt, T=Tt, R = Rt, Q=Qt, P1=P1, P1inf=P1inf), H=Ht) fit_gaussian <- fitssm(model_gaussian, inits = c(0, 0)) fit_gaussian$model$q # muuttujan epsilon_t varianssin SU-estimaatti fit_gaussian$model$h # muuttujan w_t varianssin SU-estimaatti out_gaussian <- KFS(fit_gaussian$model) plot(alko) lines(out_gaussian$a[,1],col="red") Täten suurimman uskottavuuden estimaateiksi saadaan 9.5 varianssille σ 2 w ja 4.3 varianssille σ 2 ε. Parametrin ν estimaatiksi saadaan 0.84. Huomaa että vaikka mallissa ν on oletettu vakioksi (tilayhtälön alempi rivi), se estimoidaan uudestaan jokaiselle ajanhetkelle. Parametrin estimaatit eri ajanhetkinä saadaan komennolla: out_gaussian$a[,2] Kuvaan 5 on piirretty Kalman suodattimen yhden askeleen ennusteet, ja kuvasta nähdään myös vuoden 2008 ennuste. Huomaa että monen askeleen ennusteet Kalman suodattimella tuottavat yleensä suhteellisen leveät luottamusvälit eli toisin sanoen epäluotettavat pitkän aikavälin ennusteet. Lisää Kalman suodattimista kurssilla MS-E2129 - Systeemien identifiointi. 6.3 Anna kurssipalautetta! Etsi sähköpostistasi kurssin palautekysely ja anna palautetta kurssista. Palautetta hyödynnetään kaikkien tilastotieteen ja stokastiikan kurssien kehittämisessä. 6 / 7

x 20 30 40 50 60 1970 1980 1990 2000 Time Kuva 5: Alkuperäinen aikasarja mustalla ja yhden askeleen ennusteet punaisella. 7 / 7