Auringonpilkkujen jaksollisuus

Samankaltaiset tiedostot
Viikon 5 harjoituksissa käytämme samoja aikasarjoja kuin viikolla 4. Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus

4. Tietokoneharjoitukset

4. Tietokoneharjoitukset

Dynaamiset regressiomallit

ARMA mallien ominaisuudet ja rakentaminen

MS-C2128 Ennustaminen ja aikasarja-analyysi ARMA esimerkkejä

ARMA mallien ominaisuudet ja rakentaminen

Harjoitus 7 : Aikasarja-analyysi (Palautus )

Ilkka Mellin Aikasarja-analyysi ARMA-mallit

3. Tietokoneharjoitukset

Stationaariset stokastiset prosessit ja ARMA-mallit

805324A (805679S) Aikasarja-analyysi Harjoitus 6 (2016)

ARMA mallien rakentaminen, johdatus dynaamisiin regressiomalle

Identifiointiprosessi

Työ 2: 1) Sähkönkulutuksen ennustaminen SARIMAX-mallin avulla 2) Sähkön hankinnan optimointi

805324A (805679S) Aikasarja-analyysi Harjoitus 3 (2016)

ARMA mallien rakentaminen, Kalmanin suodatin

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

Aikasarjamallit. Pekka Hjelt

Työvoiman tarpeen ennustaminen SARIMA-aikasarjamallilla

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä

STOKASTISET PROSESSIT

Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus. Intelin osakekurssi. (Pörssi-) päivä n = 20 Intel_Volume. Auringonpilkkujen määrä

Ilkka Keskiväli Kiinan energiankäytön aikasarja-analysointi

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari

Identifiointiprosessi

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Vastaavasti voidaan määritellä korkeamman kertaluvun autoregressiiviset prosessit.

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

ARIMA- ja GARCH-mallit sekä mallin sovittaminen osakeaineistoon

Laboratoriotyö 2: Sähkönkulutuksen ennustaminen ja hankinnan optimointi

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

Harjoitus 7: NCSS - Tilastollinen analyysi

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Kuva 3.1: Näyte Gaussisesta valkoisest kohinasta ε t N(0, 1) Aika t

Identifiointiprosessi II

Erikoistyö: Alkoholin kulutusmenojen ennustaminen

Sovellettu todennäköisyyslaskenta B

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Regressioanalyysi. Kuusinen/Heliövaara 1

6.5.2 Tapering-menetelmä

Väliestimointi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Laskuharjoitus 9, tehtävä 6

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Testaa onko myrkkypitoisuus eri ryhmissä sama. RATK. Lasketaan kaikkien havaintoarvojen summa: k T i = = 486.

Sovellettu todennäköisyyslaskenta B

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Ilkka Mellin Aikasarja-analyysi Stationaariset stokastiset prosessit

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Laboratoriotyö 2: Sähkönkulutuksen ennustaminen ja hankinnan optimointi

Koska Box Jenkins-malleja on käsitelty kurssilla Mat Ennustaminen ja aikasarjaanalyysi, ei työohjeessa esitellä ARIMA-mallien perusasioita.

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Ennustaminen ARMA malleilla ja Kalmanin suodin

Mat Tilastollisen analyysin perusteet, kevät 2007

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

ABHELSINKI UNIVERSITY OF TECHNOLOGY

3. Teoriaharjoitukset

Dynaamisten systeemien identifiointi 1/2

6. Tietokoneharjoitukset

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

pitkittäisaineistoissa

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

Estimointi. Vilkkumaa / Kuusinen 1

Harjoitus 9: Excel - Tilastollinen analyysi

4.0.2 Kuinka hyvä ennuste on?

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Avaruussää ja Auringon aktiivisuusjakso: Aurinko oikuttelee

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Aki Taanila AIKASARJAENNUSTAMINEN

Mat Tilastollisen analyysin perusteet, kevät 2007

HAVAITUT JA ODOTETUT FREKVENSSIT

2. Tietokoneharjoitukset

Sovellettu todennäköisyyslaskenta B

2. TILASTOLLINEN TESTAAMINEN...

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

TIE- JA VESIRAKENNUSHALLITUS TUTKIMUSKESKUS INSINÖÖRITOIMISTO PENTTI POLVINEN KY TVH HELSINKI ii / / / - 1)

Osa 2: Otokset, otosjakaumat ja estimointi

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Harha mallin arvioinnissa

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Sovellettu todennäköisyyslaskenta B

805306A Johdatus monimuuttujamenetelmiin, 5 op

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Transkriptio:

Mat-2.108 Sovelletun matematiikan erikoistyöt 16.1.2004 Auringonpilkkujen jaksollisuus Teknillinen korkeakoulu Systeemianalyysin laboratorio Keijo Jaakola 51624B 1

1. Johdanto...3 2. Aikasarjamalleja...3 2.1. ARIMA-malli...3 2.2. SARIMA-malli...3 2.3. SARIMAX-malli...4 3. Aikasarjamallin rakentaminen ja valitseminen...4 3.1. Boxin ja Jenkinsin menetelmä...4 3.2. Aikasarjamallin valitseminen...6 4. Data...6 5. Auringonpilkkudatan analysointi...7 5.1. Analysoinnissa käytettävä ohjelmisto...7 5.2 Tutkittavan aikasarjan valinta...7 5.3 Mallin valinta ja estimointi...10 5.4 Diagnostiset testit...11 5.5 Mallien arviointi kuvaajien ja ennusteiden avulla...11 6. Pohdinta ja yhteenveto...13 7. Viitteet...14 Liitteet...14 2

1. Johdanto Auringon epätasainen pyörimisliike ja ylemmän pintakerroksen virtaukset ilmeisesti vaikuttavat erittäin voimakkaiden magneettikenttien muodostumiseen tietyille alueille Auringon pinnalla. Nämä kohdat ovat ympäristöään viileämpiä voimakkaan paikallisen magneettikentän vaikutuksesta. Viileät kohdat näkyvät ympäristöään tummempina auringonpilkkuina. Auringonpilkkujen lämpötila on noin 3800 K, mikä on noin 1000 K ympäristöään alempi. Tyypillisen auringonpilkun läpimitta on noin 10000 km ja elinikä vaihtelee koosta riippuen muutamasta päivästä jopa kuukausiin. Aurinko on sitä aktiivisempi, mitä enemmän auringonpilkkuja on. Maapallolla Auringon aktiivisuus näkyy revontulina ja magneettisina myrskyinä jolloin saattaa esiintyä häiriöitä mm. radioliikenteessä ja voimalinjoissa. Auringonpilkkujen määrää on rekisteröity vuodesta 1610 alkaen. Vuonna 1843 saksalainen Heinrich Schwabe keksi, että auringonpilkkujen määrä vaihtelee jaksollisesti 11 vuoden välein [1]. Joskus auringonpilkut katoavat lähes kokonaan vuosikymmeniksi. Viimeksi tällainen ajanjakso oli 1800-luvun alussa. Tässä työssä on tarkoitus tutkia auringonpilkkujen lukumäärää aikasarja-analyysin keinoin ja muodostaa mahdollisimman hyvä SARIMA-malli. Mallin rakentamisessa käytetään NCSS 2001-ohjelmistoa. 2. Aikasarjamalleja 2.1. ARIMA-malli ARIMA malli koostuu AR- ja MA-osasta (AR=autoregression, MA=moving average). AR-prosessin arvo ajanhetkellä t riippuu prosessin edellisistä arvoista ja jäännöstermistä a t (valkoista kohinaa). MA-prosessin arvo ajanhetkellä t riippuu jäännöstermin arvosta ajanhetkellä t ja sitä ennen. Käytetään ARIMA(p,d,q)-mallille seuraavaa notaatiota: d Φ ( B ) z = Θ ( B) a, (1) p t q t missä z t on mallitettava suure, a t on valkoista kohinaa, viiveoperaattori Bz t = z t-1, p differensointi = (1-B) ja viivepolynomit Φ B) = (1 φ B... φ B ) ja p ( 1,1 1, p q Θ B) = (1 θ B... θ B ) sisältävät mallin parametrit. Data määrää kertaluvut q ( 1,1 1, q p, d ja q. AR- ja MA-osiin otetaan tilastollisesti merkitsevät parametrit, ellei ole erityistä syytä muuhun. 2.2. SARIMA-malli SARIMA-mallilla mallitetaan kausivaihtelua. ARIMA-malli voidaan ymmärtää SARIMA-mallin erikoistapaukseksi, jossa kausivaihtelun pituus on yksi. Mikäli kausivaihtelun pituus on s, käytetään ARIMA(p,d,q,P,D,Q)-mallia 3

Φ ( Θ a, (2) P s d D s B ) Φ p ( B) s zt = ΘQ ( B ) q ( B) missä z t on mallitettava suure, a t on valkoista kohinaa, viiveoperaattori B s z t = z t-s, differensointi = (1-B), kausidifferensointi = (1-B s ) ja viivepolynomit s s Ps p Φ B ) = (1 φ B... φ B ), Φ B) = (1 φ B... φ B ), P ( s,1 s, P s t p ( 1,1 1, p s s Qs q Θ B ) = (1 θ B... θ B ) ja Θ B) = (1 θ B... θ B ) sisältävät Q ( s,1 s, Q q ( 1,1 1, q mallin parametrit. Data määrää kertaluvut p, d, q, P, D ja Q. Jos kauden pituus on suuri datan kokonaispituuteen nähden, kertaluvuille P, D ja Q ei ole mahdollista käyttää suuria arvoja, vaan usein P = D = Q = 1. AR- ja MA-osiin otetaan tilastollisesti merkitsevät parametrit, ellei ole erityistä syytä muuhun. 2.3. SARIMAX-malli SARIMAX-malli (Seasonal ARIMA with external variable) on SARIMA-malli, jossa on ulkoinen selittäjä. Malli on muuten sama kuin (2), mutta siihen tulee oikealle puolelle ulkoinen selittäjä x t differensiointien ja viiveiden kanssa. 3. Aikasarjamallin rakentaminen ja valitseminen Aikasarjamallin rakentaminen on aina syytä aloittaa piirtämällä tarkasteltava aikasarja. Kuvion avulla saadaan käsitys aikasarjan pääpiirteistä: trendin, kausivaihtelun, äkillisten muutosten, yms. esiintymisestä ja siitä vaikuttaako aikasarja stationaariselta. Aikasarjamallin rakentamisessa käytetään yleisesti Boxin ja Jenkinsin menetelmää. 3.1. Boxin ja Jenkinsin menetelmä Boxin ja Jenkinsin menetelmä koostuu kolmesta työvaiheesta: 1. Mallin identifiointi 2. Mallin estimointi 3. Diagnostiset tarkistukset 3.1.1. Mallin identifiointi Ensimmäinen tehtävä on määrittää onko aikasarja stationaarinen, koska ARMA-mallit ovat stationaaristen aikasarjojen malleja. Aikasarja on stationaarinen, jos i) odotusarvo ja varianssi eivät riipu ajanhetkestä ja ii) Autokovarianssi riippuu vain ajanhetkien välistä, ei ajanhetkestä itsestään. Aikasarjan stationaarisuutta voi tutkia mm. seuraavilla tavoilla: 1) Tutkimalla aikasarjan kuvaa. Aikasarjassa ei saa näkyä -kehityksellisiä piirteitä (trendi) -kausivaihtelua 4

-sisäisten riippuvuusrakenteiden muutoksia 2) Tutkimalla autokorrelaatio- (akf) ja osittaisautokorrelaatiofunktioita (oakf). Stationaarisen ARMA-mallin akf ja oakf vaimenevat aina vähintään eksponentiaalista vauhtia. 3) Erilaisilla testeillä, esim. yksikköjuuritesti. Jos aikasarja ei ole stationaarinen, niin se saadaan stationaariseksi differensioimalla. Differensiointien kertalukujen valinta tehdään edellä olevien tutkimusten perusteella, esimerkiksi jos aikasarjassa on lineaarinen trendi, kertaluku on yksi ja jos aikasarjassa on 11 vuoden jakso niin kertaluku on 11. Differensiointien kanssa on syytä olla varovainen, sillä signaali-kohina-suhde saattaa differensioitaessa olennaisesti heikentyä, varsinkin kohinaisessa datassa. Seuraavaksi valitaan viivepolynomien asteluvut. Valinta tehdään akf:n ja oakf:n perusteella. Taulukosta 1 nähdään ARMA(p,q)-mallien korrelaatiofunktioiden ominaisuudet. Taulukko 1. ARMA(p,q)-mallien korrelaatiofunktioiden ominaisuudet Malli Autokorrelaatiofunktio Osittaisautokorrelaatiofunktio AR(p) Vaimenee eksponentiaalisesti Katkos viipeellä p MA(q) Katkos viipeellä q Vaimenee eksponentiaalisesti ARMA(p,q) Vaimenee eksponentiaalisesti Vaimenee eksponentiaalisesti SARMA-mallien akf ja oakf käyttäytyvät kausiviipeillä s, 2s, 3s, kuten vastaavien ARMA-mallien akf ja oakf. 3.1.2. Mallin estimointi ARMA-mallin estimoinnissa käytetään pääasiassa epälineaarista pienimmän neliösumman tai suurimman uskottavuuden menetelmää. Kun parametrit on estimoitu, tarkastetaan niiden merkitsevyys. Parametrien, jotka eivät ole merkitseviä, poisjättämistä tulee harkita tapauskohtaisesti. 3.1.3. Diagnostiset tarkistukset Diagnostiset tarkistukset perustuvat mallin residuaalien tutkimiseen. Malli on riittävä selittämään aikasarjan käyttäytymisen, jos residuaalit muistuttavat valkoista kohinaa. Residuaalien ominaisuuksia voidaan tutkia samalla tavalla kuin aikasarjaa itseään. Residuaalien valkoisuutta voi tutkia mm. seuraavilla tavoilla. 1) Tutkimalla residuaalisarjan kuvaa. Residuaalien pitäisi olla riittävän satunnaisia ja korreloimattomia. Residuaalit voidaan plotata sovitteen (fit) funktiona. 2) Tutkimalla residuaalisarjan autokorrelaatio- ja osittaisautokorrelaatiofunktioita. 3) Erilaisilla testeillä, esim. Boxin ja Piercen Q-testisuure (Portmanteau-testi). Residuaalien korreloimattomuutta voidaan testata Boxin ja Piercen Q-testisuureella 5

2 2 2 Q = n( r + r +... + r ), (3) K 1 2 K missä n on havaintojen lukumäärä ja r i on residuaalien autokorrelaatio viiveellä i. on selvästi sitä suurempi mitä enemmän residuaalit ovat autokorreloituneita. Jos 2 nollahypoteesi residuaalien korreloimattomuudesta pätee, testisuure QK ~ χ K m, missä m = estimoitujen parametrien lukumäärä spesifioidussa SARMA-mallissa. Suuret testisuureen arvot johtavat nollahypoteesin hylkäämiseen. Q K Jos residuaalit eivät ole valkoista kohinaa, mennään takaisin vaiheeseen 1 mallin identifiointi. Jos residuaalit ovat valkoista kohinaa, malli on riittävä ja mallia voidaan käyttää ennustamiseen, säätöön jne. Jos malli ei tuota riittävän hyviä tuloksia, voidaan harkita jonkin muun malliluokan tai menetelmän käyttöönottoa. 3.2. Aikasarjamallin valitseminen Mallia rakentaessa on hyvä kuljettaa mukana useampia malleja ja tehdä valinta näiden kesken vasta lopuksi. Eri mallien paremmuutta voidaan tutkia erilaisin mallinvalintakriteerein kuten AIC (Akaike Information Criterion) ja SBC (SBC=BIC=Scwartz Bayesian criterion). SBC sakottaa AIC:tä enemmän lisäparametreista. Näin ollen SBC:n valitsema malli on AIC:tä vähäparametrisempi. Aikasarjan valinnassa voi käyttää muitakin informaatiokriteereitä, kuten HQC (Hannan-Quinn criterion) ja FPE (Final Prediction Error criterion). Näiden ohella mallinvalinnan apuna kannattaa käyttää riittävyystarkasteluja ja esimerkiksi mallin ennustuskyvyn tutkimista. Jotta valittu malli olisi riittävä eivät mallin residuaalit saisi poiketa merkitsevästi valkoisesta kohinasta. Mallit joiden residuaalit eivät ole valkoista kohinaa hylätään. Muiden mallien välillä valinta tehdään tärkeiksi valittujen kriteerien perusteella. Ennustuskykyä voidaan mitata katkaisemalla aikasarja ennen loppua ja estimoimalla parametrit katkaistun sarjan avulla. Sitten vain ennustetaan ja verrataan ennusteita tiedossa oleviin arvoihin. Ennusteita kannattaa tehdä aikasarjan eri kohdissa, sillä malli voi ennustaa sattumalta oikein yksittäisen pätkän. 4. Data Auringonpilkkudata on viitteestä [2] otettuja suhteellisia auringonpilkkulukuja vuosien 1749-1983 tammikuilta. Suhteellinen auringonpilkkuluku R lasketaan Wolfin kaavalla R = k(f + 10g), (4) missä g on havaittavien pilkkuryhmien lukumäärä, f on yksittäisten pilkkujen lukumäärä ja k on havaitsijan ja teleskoopin tehokkuuteen liittyvä kerroin. Auringonpilkkuluku saadaan yhdistämällä eri puolilla maailmaa sijaitsevien yli 50 tarkkailuaseman havainnot. Kuukausittainen auringonpilkkuluku on saatu ottamalla keskiarvo kuukauden joka päivä lasketuista auringonpilkkuluvuista. 6

5. Auringonpilkkudatan analysointi 5.1. Analysoinnissa käytettävä ohjelmisto TKK:n koneilla on vain muutama tilastolliseen analysointiin soveltuva ohjelmisto: Excel, Statistix ja NCSS 2001. Tässä työssä on käytetty NCSS 2001 ohjelmistoa, missä on laajimmat aikasarja-analyysi toiminnot näistä kolmesta. NCSS 2001 on kuitenkin varsin puutteellinen ohjelma aikasarjamallinnukseen, eikä siinä ole juuri minkäänlaisia testejä. Esimerkiksi aikasarjan stationaarisuutta testaavia testejä ei ole ollenkaan, joten stationaarisuus päätellään tässä työssä kuvaajan avulla. Mallin hyvyyttä tutkittaessa ohjelmisto laskee vain Boxin ja Piercen Q-testisuureen (kaava 3, tunnetaan myös nimellä Portmanteau testi) 5.2 Tutkittavan aikasarjan valinta Aikasarjan kuvaaja on piirretty kuvaan 1. Kuvaan on piirretty myös aikasarjan autokorrelaatiofunktio (akf) ja osittaisautokorrelaatiofunktio (oakf). 7

Auringonpilkkuluku 250 200 150 100 50 0 1749 1760 1771 1782 1793 1804 1815 1826 1837 1848 1859 1870 1881 1892 1903 1914 1925 1936 1947 1958 1969 1980 vuosi Autocorrelations of C2 (0,0,11,1,0) Partial Autocorrelations of C2 (0,0,11,1,0) 1,0 1,0 Autoc orrelations 0,5 0,0-0,5 Partial Autocorrelations 0,5 0,0-0,5-1,0 0,0 12,8 25,5 38,3 51,0 Time -1,0 0,0 12,8 25,5 38,3 51,0 Time Kuva 1. Suhteellinen auringonpilkkuluku vuosien 1749-1983 tammikuilta, akf ja oakf. Kuvasta 1 nähdään, että aikasarjassa on jaksollista vaihtelua. Yleisesti tunnetaan, että auringonpilkkujen määrä vaihtelee keskimäärin 11 vuoden jaksoissa. Kuvasta nähdään, että jakson pituus kuitenkin vaihtelee paljon ollen pisimmillään 15 vuotta (1788-1803). Tämä vaihtelu vaikeuttaa merkittävästi SARIMA-mallin sovittamista. Kuvasta nähdään myös, että jakson pituus vaihtelee paljon varsinkin alkupään havainnoissa (n. 80 ensimmäistä havaintoa). Tarkastellaan vaihtoehtoisena mallina mallia, jossa SARIMA-malli sovitetaan havaintoihin vuosilta 1829-1983 (80 ensimmäistä havaintoa jätetty pois). 8

Aikasarja ei ole stationaarinen, koska siinä esiintyy kausivaihtelua. Tämä nähdään myös akf:n kuvaajasta (kuva 1), mikä ei vaimene vähintään eksponentiaalisesti, kuten stationaarisilla aikasarjoilla pitäisi. Differentioimalla jakson pituudella, saadaan jaksollinen vaihtelu poistettua. Kuvassa 2 on aikasarja differentioituna kauden pituudella (11 vuotta) ja differentioidun aikasarjan akf ja oakf. Kausidifferentioitu aikasarja (D11) 200 150 100 50 0-50 1749 1760 1771 1782 1793 1804 1815 1826 1837 1848 1859 1870 1881 1892 1903 1914 1925 1936 1947 1958 1969 1980-100 -150-200 v uosi Autocorrelations of C2 (0,1,11,1,0) Partial Autocorrelations of C2 (0,1,11,1,0) 1,0 1,0 Autoc orrelations 0,5 0,0-0,5 Partial Autoc orrelations 0,5 0,0-0,5-1,0-1,0 0,0 12,8 25,5 38,3 51,0 0,0 12,8 25,5 38,3 51,0 Time Time Kuva 2. Kausidifferentioitu aikasarja ja sen akf ja oakf. 9

Kausidifferentioidun aikasarjan kuvaaja näyttää stationaariselta. Myös akf:n ja oakf:n kuvaajat tukevat ajatusta, että kausidifferentioitu aikasarja olisi stationaarinen; molemmat funktiot vähenevät eksponentiaalisesti. Valitaan kausidifferentioitu aikasarja tutkittavaksi aikasarjaksi. 5.3 Mallin valinta ja estimointi Auringonpilkkujen lukumäärää ei voida selittää millään maapallon ilmiöllä, joten malliin ei tule ulkoista selittäjää. Mallin parametrit valitaan akf:n ja oakf:n avulla. Piikit akf:ssa tarkoittavat MA-osia, ja piikit oakf:ssa tarkoittavat vastaavasti AR-osia. Kuvasta 2 nähdään, että molemmissa kuvaajissa on piikki kohdassa 1 eli malliin tulee AR1- ja MA1-osa. Malli on tällöin ARIMA(1,0,1,0,11,0) (kaava 2). Taulukossa 2 on NCSS 2001:n tulostus parametrien estimaateista ja merkitsevyyksistä. Taulukko 2. ARIMA(1,0,1,0,11,0)-mallin parametrien estimaatit, keskivirheet ja merkitsevyys (kaikki havainnot mukana, v1749-1983). Model Estimation Section Parameter Parameter Standard Prob Name Estimate Error T-Value Level AR(1) 0,350211 0,113894 3,0749 0,002106 MA(1) -0,268 0,11776-2,2758 0,022856 Sekä AR- että MA-osa ovat merkitseviä (P<0,05), joten ne voidaan pitää mallissa. Vaihtoehtoisessa mallissa on mukana havainnot vuosilta 1829-1983. Katkaistun aikasarjan akf ja oakf ovat lähes samanlaiset kuin katkaisemattoman aikasarjankin, joten malliin tulee AR1- ja MA1-osa. Sovittamalla ARIMA(1,0,1,0,11,0) malli havaintoihin vuosilta 1829-1983, saadaan taulukon 3 mukaiset tulokset. Taulukko 3. ARIMA(1,0,1,0,11,0)-mallin parametrien estimaatit, keskivirheet ja merkitsevyys (mukana havainnot v1829-1983). Model Estimation Section Parameter Parameter Standard Prob Name Estimate Error T-Value Level AR(1) 0,246582 0,174568 1,4125 0,157796 MA(1) -0,26447 0,174458-1,5159 0,129532 Kumpikaan termi ei ole merkitsevä. Poistetaan mallista suuremman P-arvon omaava termi eli AR-osa. Taulukossa 4 on tulokset mallista ARIMA(0,0,1,0,11,0). Taulukko 3. ARIMA(0,0,1,0,11,0)-mallin parametrien estimaatit, keskivirheet ja merkitsevyys (mukana havainnot v1829-1983). Model Estimation Section Parameter Parameter Standard Prob Name Estimate Error T-Value Level MA(1) -0,49609 7,38E-02-6,7225 0 10

MA1-osa on merkitsevä. Valitaan tarkasteltavaksi mallit ARIMA(1,0,1,0,11,0) ja ARIMA(0,0,1,0,11,0), joista ensimmäinen on kaikille havainnoille ja jälkimmäinen havainnoille vuosilta 1829-1983. 5.4 Diagnostiset testit Malli on riittävä selittämään aikasarjan käyttäytymisen, jos residuaalit muistuttavat valkoista kohinaa. NCSS 2001:ssä ainoa testi residuaalien korreloimattomuudelle on Boxin ja Piercen Q-testi. ARIMA(1,0,1,0,11,0)-mallille testi antoi 6:lla eri viiveellä tulokseksi, että malli on riittävä ja 40:llä eri viiveellä, että malli ei ole riittävä. ARIMA(0,0,1,0,11,0)-mallille vastaavat luvut olivat 40 ja 7. Ohjelman tulostukset ovat liitteessä 1. Aikasarjan alkupäässä esiintyvä jakson pituuden vaihtelu aiheuttaa sen, että ARMA(1,0,1,0,11,0)-malli ei ole riittävä. Katkaistuun aikasarjaan sovitettu ARIMA(0,0,1,0,11,0)-malli sen sijaan on riittävä. Residuaalien korreloimattomuus tosin hylättiin 7:llä viiveellä, mutta niissäkin hylkääminen tapahtui niukasti (P-arvot 0,02-0,499). 5.5 Mallien arviointi kuvaajien ja ennusteiden avulla Auringonpilkkudataa oli kirjassa [2] vuoteen 1983 asti. Internetistä löytyy aurinkopilkkulukuja aina vuoteen 2003 [3]. Tämän datan avulla voidaan tutkia mallien ennustuskyky. Kuvaan 3 on piirretty aikasarja, ARMA(1,0,1,0,11,0)-mallin sovite ja sen antama ennustus. Kuvaan 4 on piirretty vastaavat asiat ARIMA(0,0,1,0,11,0)-mallille. Molemmilla malleilla sovitteisiin tuli muutama lievästi negatiivinen arvo. Näille pisteille annettiin arvoksi nolla. 11

aikasarja, sovite ja ennuste 250 200 150 100 50 0 1749 1769 1789 1809 1829 1849 1869 1889 1909 1929 1949 1969 1989 aikasarja sovite Kuva 3. Aikasarja, ARMA(1,0,1,0,11,0)-mallin sovite ja sen antama ennustus aikasarja, sovite ja ennuste 250 200 150 100 50 0 1829 1849 1869 1889 1909 1929 1949 1969 1989 v uosi aikasarja sovite Kuva 4. Aikasarja, ARMA(0,0,1,0,11,0)-mallin sovite ja sen antama ennustus 12

Kuvista nähdään, että molempien mallien sovite kulkee melko lähellä oikeaa dataa. ARMA(0,0,1,0,11,0)-mallilla sovite kulkee hieman lähempänä oikeaa dataa kuin ARMA(1,0,1,0,11,0)-mallilla saatu sovite, minkä voisi päätellä myös Boxin ja Piercen Q-testin avulla. Mallit ennustavat arvot vuosille 1984-2003. ARMA(0,0,1,0,11,0)-mallin antama ennuste on hiukan lähempänä oikeaa dataa (keskineliövirhe=2726) kuin ARMA(1,0,1,0,11,0)-mallin ennuste (keskineliövirhe=2714). 6. Pohdinta ja yhteenveto Ensi silmäyksellä auringonpilkkuaikasarjan kuvaaja näyttää säännöllisesti aaltoilevalta helposti ennustettavissa olevalta aikasarjalta. ARIMA-mallin sovituksen kannalta jakson pituuden vaihtelu kuitenkin tuo ongelmia. Jakson pituus vaihtelee välillä 8-15 vuotta, joten differensiointi kertaluvulla 11 on hiukan kyseenalaista. Suurin osa jaksoista kuitenkin on 11 vuotta pitkiä ja jakson pituus vaihtelee lähinnä aikasarjan alussa. Tästä johtuen ARIMA-malli sovitettiin myös aikasarjaan, josta alkupään havainnot oli jätetty pois. Näin saatu ARIMA-malli onkin riittävä. Väistämättä herää kysymys miksi jakson pituus vaihtelee aikasarjan alussa. Auringossa on kenties voinut tapahtua pieniä muutoksia 1700-luvun lopussa, jotka ovat aiheuttaneet jakson pituuden muutoksen. Ensimmäisenä kuitenkin tulee mieleen, että käytössä olleet mittalaitteet eivät varmaan noihin aikoihin olleet kovin kehittyneitä. Noita asioita voisi olla hyvä tutkia tarkemmin, mutta jotta työmäärä pysyisi kohtuullisena, se jätetään tässä työssä tekemättä. Mallin valinta tehtiin Boxin ja Piercen Q-testin avulla, koska se on ainoa testi, jonka NCSS 2001-ohjelmisto tekee. Pelkästään Boxin ja Piercen Q-testiin mallin valintaa ei kuitenkaan kannata perustaa, koska testin mukaan esimerkiksi ARIMA(4,1,5,2,11,1) on erittäin hyvä malli, vaikkakin vain osa termeistä on merkitseviä. ARIMA-malli saadaan tietysti sopimaan havaintoihin sitä paremmin mitä enemmän termejä otetaan, mutta mallin pitäisi olla mahdollisimman vähäparametrinen eikä merkityksettömiä muuttujia saisi olla. Boxin ja Piercen Q-testi ei rankaise parametrien lukumäärästä toisin kuin esimerkiksi jotkin informaatiokriteerit (esim. AIC ja SBC). Tässä työssä mukaan otettavat termit valittiin akf:n ja oakf:n avulla, jolloin malli pysyi vähäparametrisena. Tällaisia aikasarja-analyysejä olisi hyvä tehdä jollain vähän kehittyneemmällä ohjelmistolla, jossa olisi enemmän testejä. Esimerkiksi SASohjelmisto on monipuolinen ohjelmisto, josta löytyy mm. testejä stationaarisuudelle ja informaatiokriteerien laskeminen. Parhaimmaksi malliksi valittiin ARMA(0,0,1,0,11,0)-malli, joka sovitettiin havaintoihin vuosilta 1829-1983. Koko sarjaan ei mikään ARIMA-malli sopinut kovin hyvin. Voisikin olla paikallaan yrittää sovittaa havaintoihin jotain epälineaarista mallia. 13

7. Viitteet [1] http://www.srl.utu.fi/auxdoc/torsti/af/af00.pdf [2] Andrews, D.F., (Herzberg, A.M.), 1985. Data: a collection of problems from many fields for the student and research worker. s.64-74. [3] http://science.msfc.nasa.gov/ssl/pad/solar/greenwch/spot_num.txt Liitteet 1) NCSS 2001:n tulostus mallille ARIMA(1,0,1,0,11,0) (mukana havainnot vuosilta 1749-1983): Autocorrelation Plot Section 1,0 Autocorrelations of Residuals Autocorrelations 0,5 0,0-0,5-1,0 0,0 12,3 24,5 36,8 49,0 Lag Portmanteau Test Section C2-MEAN Portmanteau Prob Lag DF Test Value Level Decision (0.05) 3 1 0,08 0,780579 Adequate Model 4 2 2,56 0,277709 Adequate Model 5 3 5,92 0,115338 Adequate Model 6 4 6,51 0,164311 Adequate Model 7 5 7,20 0,206042 Adequate Model 8 6 10,34 0,111017 Adequate Model 9 7 18,45 0,010086 Inadequate Model 10 8 20,13 0,009845 Inadequate Model 11 9 37,74 0,000019 Inadequate Model 12 10 37,80 0,000041 Inadequate Model 13 11 38,30 0,000070 Inadequate Model 14 12 40,21 0,000066 Inadequate Model 15 13 47,07 0,000009 Inadequate Model 16 14 47,07 0,000019 Inadequate Model 17 15 47,14 0,000035 Inadequate Model 18 16 48,49 0,000040 Inadequate Model 19 17 48,74 0,000066 Inadequate Model 14

20 18 49,25 0,000098 Inadequate Model 21 19 49,26 0,000168 Inadequate Model 22 20 54,88 0,000043 Inadequate Model 23 21 54,92 0,000073 Inadequate Model 24 22 55,94 0,000087 Inadequate Model 25 23 56,27 0,000130 Inadequate Model 26 24 58,75 0,000096 Inadequate Model 27 25 59,02 0,000143 Inadequate Model 28 26 59,50 0,000196 Inadequate Model 29 27 59,81 0,000279 Inadequate Model 30 28 59,83 0,000429 Inadequate Model 31 29 60,09 0,000602 Inadequate Model 32 30 60,70 0,000757 Inadequate Model 33 31 61,27 0,000953 Inadequate Model 34 32 62,27 0,001060 Inadequate Model 35 33 62,58 0,001412 Inadequate Model 36 34 63,08 0,001768 Inadequate Model 37 35 63,08 0,002495 Inadequate Model 38 36 65,07 0,002115 Inadequate Model 39 37 72,81 0,000399 Inadequate Model 40 38 75,09 0,000313 Inadequate Model 41 39 75,43 0,000415 Inadequate Model 42 40 75,45 0,000592 Inadequate Model 43 41 75,73 0,000780 Inadequate Model 44 42 76,13 0,000989 Inadequate Model 45 43 76,92 0,001131 Inadequate Model 46 44 77,41 0,001385 Inadequate Model 47 45 77,79 0,001732 Inadequate Model 48 46 79,50 0,001575 Inadequate Model NCSS 2001:n tulostus mallille ARIMA(0,0,1,0,11,0) (mukana havainnot vuosilta 1829-1983): Autocorrelation Plot Section 1,0 Autocorrelations of Residuals Autocorrelations 0,5 0,0-0,5-1,0 0,0 12,3 24,5 36,8 49,0 Lag Portmanteau Test Section C5-MEAN Portmanteau Prob Lag DF Test Value Level Decision (0.05) 2 1 1,70 0,192203 Adequate Model 3 2 1,96 0,376103 Adequate Model 4 3 5,68 0,128029 Adequate Model 5 4 6,12 0,190040 Adequate Model 15

6 5 6,39 0,270438 Adequate Model 7 6 6,67 0,352183 Adequate Model 8 7 9,53 0,216506 Adequate Model 9 8 9,55 0,298197 Adequate Model 10 9 10,47 0,314081 Adequate Model 11 10 17,24 0,069249 Adequate Model 12 11 17,28 0,099849 Adequate Model 13 12 17,55 0,129939 Adequate Model 14 13 22,04 0,054750 Adequate Model 15 14 23,52 0,052326 Adequate Model 16 15 23,90 0,066871 Adequate Model 17 16 24,45 0,080211 Adequate Model 18 17 24,81 0,099013 Adequate Model 19 18 24,85 0,129055 Adequate Model 20 19 28,57 0,072976 Adequate Model 21 20 31,21 0,052449 Adequate Model 22 21 32,52 0,051840 Adequate Model 23 22 35,49 0,034402 Inadequate Model 24 23 38,82 0,020772 Inadequate Model 25 24 39,35 0,025102 Inadequate Model 26 25 39,77 0,030810 Inadequate Model 27 26 39,87 0,040180 Inadequate Model 28 27 40,13 0,049853 Inadequate Model 29 28 41,27 0,050736 Adequate Model 30 29 41,76 0,058994 Adequate Model 31 30 42,45 0,065454 Adequate Model 32 31 43,31 0,069973 Adequate Model 33 32 43,90 0,078300 Adequate Model 34 33 47,65 0,047568 Inadequate Model 35 34 47,68 0,059803 Adequate Model 36 35 47,99 0,070625 Adequate Model 37 36 48,15 0,084815 Adequate Model 38 37 49,68 0,079515 Adequate Model 39 38 50,79 0,080187 Adequate Model 40 39 54,47 0,050977 Adequate Model 41 40 55,39 0,053490 Adequate Model 42 41 55,48 0,065021 Adequate Model 43 42 55,69 0,076669 Adequate Model 44 43 55,78 0,091444 Adequate Model 45 44 55,82 0,108941 Adequate Model 46 45 55,91 0,127781 Adequate Model 47 46 55,95 0,149296 Adequate Model 48 47 55,95 0,174027 Adequate Model 16