Sampsa Laine, Ari Mäkelä EPÄLINEAARISEN MARKKINAMALLINNUKSEN KÄYTETTÄVYYS NORD POOL HINTAKEHITYKSEN ENNUSTAMISESSA 1/14
SISÄLLYSLUETTELO Johdanto...3 Menetelmäkuvaus...4 Kokeelliset tulokset...5 Käytetyt työkalut...9 Johtopäätökset...11 LIITTEET Liite A. Menetelmien vertailua toisiinsa Liite B. Datan esikäsittely suodatuksella ja differenssillä 2/14
Johdanto Sähköyhtiöiden on suojauduttava hintariskeiltä ostamalla termiinejä, joiden hinta määräytyy kelluvilla markkinoilla. Tämän markkinan analyysi ja, mikäli mahdollista, ennustaminen, antaa mahdollisuuden suuriin säästöihin: oikein ajoitetun termiinikaupan kustannusvaikutus voi olla satojatuhansia tai miljoonia euroja. Analyysin suorittamiseen on kaksi päävaihtoehtoa: tekninen ja fundamenttianalyysi. Teknisessä analyysissä mallinnetaan aiempaa hinnanmuodostusta ja tehdään sen perusteella ennustemalleja; tekninen analyysi ei ota huomioon esimerkiksi sademääriä. Fundamenttianalyysissä tutkitaan muiden kuin aiemman hintahistorian vaikutusta tuleviin hintoihin analysoiden esimerkiksi sademääriä ja lämpötiloja markkina-alueella. Tämä dokumentti perustuu fundamenttianalyysiin. Data-analyysiä, esimerkiksi fundamenttianalyysiä, voidaan tehdä markkinamonitoroinnin ja ennustimien keinoin. Monitorien tavoite on esittää käyttäjälleen päätöksen teon kannalta mahdollisimman oleellista tietoa. Itse markkinaennusteen laatiminen jää käyttäjän tehtäväksi. Monitori saattaa esimerkiksi kertoa, että vesivarannot ovat poikkeuksellisen alhaalla, ja sääennuste lupaa kylmää. Ennustavat mallit pyrkivät suoraan ennustamaan, mikä on sähkön hinta tulevaisuudessa. Ennustin saattaa esimerkiksi ennustaa neljän prosentin nousua sähkön hintaan. Molemmissa menetelmissä on hyvät puolensa: ihmisellä on ylivertainen kokemus ja ymmärrys tietokoneeseen verrattuna, mikä painottaa monitorien käyttöä; toisaalta, tietokoneet ovat hyviä seulomaan suuria tietomassoja ja laskemaan niistä korrelaatiota ja malleja. Tässä dokumentissa esitetään menetelmä, joka ottaa molemmista menetelmistä niiden hyvät puolet. Menetelmän rakentamisessa tukeudutaan Laineen väitöskirjassaan 1 esittämiin teeseihin: menetelmän tulee antaa tietoa asiasta, jonka käyttäjä on määritellyt tärkeäksi; menetelmän on siedettävä virhemittauksia ja epälinearisuuksia; ja menetelmän on oltava käyttäjälleen helppotajuinen. Myös tämä dokumentti on laadittu ymmärrettäväksi: emme esitä yhtään kaavaa tai viljele algoritmien nimiä. Tässä dokumentissa on neljä osaa: menetelmäkuvaus, kokeelliset tulokset, käytetyt työkalut ja johtopäätökset. 1 http://lib.tkk.fi/diss/2003/isbn9512266709/ 3/14
Menetelmäkuvaus Menetelmä on esitetty Kuva 1. Analyysiin syötetään tiedot fundamenttidatan ja hintadatan historiasta. Tässä työssä olemme käyttäneet noin kahden vuoden datoja. Fundamenttidatan analyysissä seuraava vaihe on ottaa sokkona kaikki summat ja erotukset eri muuttujien välillä, jotta saadaan paljastettua eri muuttujien yhteisvaikutuksia. Hintadatasta poistetaan volatiliteettia suodattamalla sitä. Tämä tehdään, jotta analyysissä voidaan käyttää hinnan muutosta sen absoluuttiarvon sijaan. Muutos on hyvä kohdesuure, koska termiinikaupan jokapäiväinen päätöksenteko pohjautuu sähkön hinnan muutoksiin, ei sen tasoon suhteessa pitkään historiaan. Oleellista on myös siirtää termiinin hintadatan aikaleimoja, jotta saadaan malli, jolla voidaan ennustaa tulevaisuuteen. Viivästystä voidaan tehdä esim. kaksi päivää, jolloin saadaan kahden päivän ennuste. Kun data on saatu esikäsiteltyä analyysiä varten, tehdään muuttujavalinta, jossa etsitään ne fundamenttimuuttujat, jotka parhaiten ennustavat hintadatan kehitystä. Tässä työssä tyypillinen etsittävä muuttujamäärä on viidestä kahteenkymmeneen. Fundamenttidata Piirteenirroitus Hintadata Suodatus, differenssi, viivästys Muuttujavalinta Luokitus Ennustin Kuva 1. Menetelmän kuvaus Edellisen jälkeen käsissämme on fundamenttimuuttujista johdettuja summia, erotuksia, yms..., jotka pitävät sisällään informaatiota sähkön hinnan muutoksista. Näiden muuttujien avulla rakennetaan luokitin, joka mallintaa fundamenttimuuttujien vaikutuksen hintaan. Kun saamme uuden mittauspisteen, luokitin kertoo, mihin luokkaan se kuuluu, minkä jälkeen voimme historiasta katsoa, miten hinta on vastaavissa tapauksissa kehittynyt. Tämä mahdollistaa nykytilan analyysin historian valossa, sekä ennustimen luomisen, toisaalta asiantuntijan analyysin tulosten kautta, toisaalta automaattisesti luotujen numeroennusteiden kautta. Yllä oleva analyysiprosessi on tilastomatematiikassa hyvin perinteinen. Erona perinteeseen ovat käyttämämme algoritmit, joiden avulla luomme menetelmästä vikasietoisen sekä ymmärrettävän. Perustelemme väitettämme liitteessä A esitetyllä vertailulla. Esitetyssä sovelluksessa ymmärrettävyys on hyvin tärkeää, koska sähkömarkkinaan vaikuttaa fundamenttitietojen lisäksi kaikissa pörsseissä läsnäoleva spekulatiivinen peli. Tämä peli on vain ihmisten ymmärrettävissä. Mielestämme on tärkeää tarjota käyttäjälle esittämämme ennusteen lisäksi myös selkeästi ilmaistuna ennusteemme perusteet, jotta käyttäjä voi liittää ne päätöksentekoprosessiinsa. Toinen merkittävä etu menetelmän ymmärrettävyydessä on käyttäjän mahdollisuus rakentaa omia malleja, jotka parhaiten kiteyttävät hänen ymmärryksensä sähkömarkkinasta. 4/14
Kokeelliset tulokset Esitämme käyttämämme datan, analyysimme kulun sekä tulokset. Emme pyri raportissamme tieteelliseen tarkkuuteen, lisätietoja saa kirjoittajilta. Tavoitteemme on esitellä analyysimenetelmämme esimerkin avulla. Analysoitu data sisältää 539 päiväkeskiarvoa väliltä 2.1.2004 ja 28.2.2006. Yhteenvedot käyttämistämme muuttujaryhmistä on esitetty Taulukko 1. Analyysin kohdemuuttuja on Closing Price(ENOQ2-06) eli sähkötermiinin hinta. Taulukko 1. Käyttämämme muuttujaryhmät Muuttujaryhmä Säätiedot Sähkön tuotanto-, kulutus- ja siirtotiedot Hintatiedot Esimerkki Lämpötila ja sademäärä eri pohjoismaissa Kulutus Suomessa, tuotanto Norjassa ja siirto Norjasta Tanskaan Termiinituotteiden hinta, öljyn hinta, päästöoikeuksien hinta Muuttujien analyysi alkaa suodatuksella, jossa muuttujista poistetaan kohinaa, sekä joidenkin muuttujien kohdaalla differenssin ottamisella, jotta saadaan esille arvojen muutokset. Nämä operaatiot on esitelty liitteessä B. Tuotanto ja säätiedoille tehtiin lisäksi kaikki mahdolliset summat ja erotukset, jotta analyysiin saadaan esimerkiksi tieto Suomessa tuotetun ja täällä käytetyn sähkön erotuksesta eri ajanhetkinä. Analyysi jatkuu muuttujavalinnalla, jossa haetaan ne muuttujat, jotka merkittävimmällä tavalla ennustaavat termiinien hinnan kehitystä. Muuttujavalinnan löytämät muuttujat on esitetty Taulukossa 2. Tämän muuttujavalinnan perusteella Norjan ja Ruotsin sademäärät ja vesivarannot, sekä öljyn hinta, ovat merkittävimpiä tekijöitä termiinimarkkinoilla. Taulukko 2. Muuttujavalinnan löytämät muuttujat Muuttujan nimi Median level(norway) ( % )+Daily Sum: sademäärä (12h)) ( mm ) Median level(sweden) ( % )+Whole Country(Sweden) ( % ) Median level(norway) ( % ) Monthly Average Prec(bergen) ( mm )+Daily Avg.: Precipitation(trondheim) ( mm ) Whole Country(Norway) ( % )+Daily Avg.: Temperature(bergen) ( C ) Daily Avg.: (Nymex Brent Crude Oil Future) ( USD ) Arvio Sähkön hintaan vaikuttaa Norjan vesivarannot sekä Suomen sademäärät Toinen merkittävä tekijä on Ruotsin vesivarannot. Muuttujavalita vahvistaa Norjan vesivarantoja ottamalla muuttujan vielä sinällään. Norjan sademäärät otetaan myös vielä toisesta näkökulmasta. Lämpötilat ovat oleellinen tekijä. Öljyn hinta kuvaa energiamarkkinan tilaa laajemmin. Teimme luokittimen SOM-tekniikalla, jota esitellään yksinkertaisin esimerkein Laineen väitöskirjassa. Luokituksen tulos on Figure 2, jossa esitämme termiinien hintakehityksen kuluneen kahden vuoden aikana. Luokituksessa ei ole käytetty hintatietoa itseään, vaan se on tehty Taulukko 5/14
2 muuttujilla. Tarkastellaan esimerkiksi klusteria kuusi (väriltään vaalean sininen). Klusterille on tyypillistä melko muuttumaton hinta. Figure 3 osoittaa, että tälle klusterille on tyypillistä Ruotsin vesivarojen keskimäärin korkea taso ja Kuopion korkea lämpötila. Figure 2. Hintakehityksen luokittelu fundamenttimuuttujien avulla Figure 3. Summamuuttuja Ruotsin keskimääräisistä vesivarannoista ja Kuopion lämpötilasta Edellä esitetyt kuvat näyttävät pitkiä trendejä, mutta eivät selkeästi esitä lajittimen lyhyen ajan tarkkuutta. Figure 4 (kts seuraava sivu) esittää hinnan muutokset päivästä toiseen, suodatettuna muutaman päivän keskiarvoksi. Jos arvo on positiivinen, hinta on noussut, ja päinvastoin. Toteutunut arvo on esitetty sinisellä; signaalin erottaa myös sen suurehkosta heilahtelusta. Kuva esittää myös työkalun antaman hinnanmuutosennusteen (punainen käyrä) sekä ennusteen varmuusrajat (keltainen ja vihreä käyrä. Tämä kuva osoittaa millä tarkkuudella hinnanmuutoksia voidaan kuvata, ja millä tarkkuudella ennuste voidaan esittää. Mitä kapeampi ennusteputki, sitä tarkemmin työkalu katsoo voivansa ennustaa. 6/14
Figure 4. Hinnan heilahtelu ja työkalun antama ennuste virherajoineen Katsotaan tarkemmin yhtä muuttujaa, joka on Norjan keskimääräiset vesivarannot ja Linköpingin sademäärä. Sininen väri kuvaa kertoja, jolloin sähkön hinta on alentunut, punainen kertoja, jolloin se on noussut. Visuaalinen analyysi osoittaa, joskaan ei systemaattisesti, että suurimpien sadehuippujen aikaan sähkön hinta on lähipäivinä laskenut. Toisaalta, jos hinta on ollut vahvassa nousussa, kuten välillä 270-388 (katso kuvaa Figure 2), sadepiikitkään eivät ole saaneet hintaa laskuun. 7/14
Figure 5. Norjan vesivarat ja Linköpingin sademäärän summa. Sinisellä merkityissä kohdissa sähkön hinta on alentunut Termiini-markkinoilla. Huomattakoon, että yllä olevat analyysit ovat alustavia, eikä niiden teossa ole käytetty merkittävää määrää sähkömarkkina-asiantuntemusta. Esitetty analyysi perustuu tilastollisiin löydöksiin. Toinen merkittävä seikka on se, että malli on opetettu samalla datalla, jolla sen suorituskykyä tarkastellaan. Koska tulokset ovat silti mielekkäitä, analyysiä lienee syytä jatkaa. 8/14
Käytetyt työkalut Data on kerätty ja analyysiin tomitettu Intstream Oy:n ohjelmistolla ja työkaluilla. Data-analyysi on tehty Data Rangers Oy:n analyysiohjelmistolla. Analyysiprosessien määrittelytyökalu on esitetty Figure 6. Tässä työssä tarvittu datan esikäsittely on tehty tällä analyysiprosessilla. Termiinien hintadata ladataa vasemmalla alhaalla olevalla komponentilla, minkä jälkeen data suodatetaan, siitä otetaan derivaatta ja sitä viivästetään. Muulle datalle tehdään suodatus ja lasketaan kaikki summat ja erotukset. Datan yhdistämisen jälkeen siitä valitaan ne, noin sata, muuttujaa, jotka tallennetaan varsinaista analyysiä varten. Työkalu on suunniteltu tavallisia käyttäjiä varten: analyysiprosessin suunnittelu ei vaadi koodausosaamista. Se toki vaatii data-analyysiosaamista sen verran, että tietää, millaisia data-analyysioperaatioita tietyn tehtävän tekeminen vaatii. Tätä varten käyttäjän pitää osata data-analyysin perusteet. Figure 6. Data-analyysiprosessin määrittely graafisella työkalulla Analyysi suoritetaan Figure 7 työkalulla (kuva seuraavalla sivulla). Työkalu on samanlainen kuin Windowsin Wizardit (=Velhot), joilla voidaan asentaa esimerkiksi tulostin. Myös tässä käyttäjä tekee ruudun osoittamat valinnat ja painaa Next, kun on valmis. Kuvassa näkyy analyysiprosessin loppuun määritelty hajontakuvan (XY-plot) piirtotyökalu. Työkalun paras puoli on se, että käyttäjän ei tarvitse osata data-analyysin perusteita. Käyttäjä voi yhdistää data-analyysin tehon omaan toimialaosaamiseensa. 9/14
Figure 7. Analyysi suoritetaan Velho-työkalulla, joka ohjaa käyttäjänsä analyysiprosessin läpi 10/14
Johtopäätökset Esittämämme data-analyysiprosessi on löytänyt selkeitä markkinasääntöjä termiinien hintakehityksen yleispiirteille. Työllä on kaksi selkeätä hyötyä: analyysin tekijä oppii merkittävällä tavalla termiinimarkkinan kehityksestä; analyysi tuottaa ennusteita sähkömarkkinan kehitykselle. Kun tietokone-ennusteet yhdistetään markkinaosaajan kokemukseen, päästäneen nykyistä tarkempaan ymmärrykseen markkinan tilasta ja tulevasta kehityksestä. Jos tällä päästään termiinien ostamisen optimaaliseen ajoitukseen, säästetään merkittäviä määriä rahaa. Analyysissä on muutamia puutteita: mallia ei ole testattu riittävästi eikä sen luomisessa ole vielä käytetty sähkömarkkinan laajaa tuntemusta. Koska tulokset ovat rohkaisevia ja jatkotyön vaatima osaaminen on olemassa, on työtä syytä jatkaa. 11/14
Liite A. Menetelmien vertailua toisiinsa Vaihe Menetelmä Vikasietoinen Ymmärrettävä Valitsimme Piirteenirroitus PCA Ei ole: harhautuu virhemittauksista, vaatii datan siivoamisen. Ei ole: vaatii avaruuden projisoinnin. Piirteenirroitus Muuttujavalinta Muuttujavalinta Luokitus Luokitus Ennustin Ennustin Summat, erotukset Lineaarinen regressio tai PLS Ei-parametrinen menetelmä n-uloitteinen klusterointi On: pisteet eivät vaikuta toisiinsa. Melko: PLS on melko vikasietoinen, joskin edelleen lineaarinen. On: hajapisteet tai epälineaarisuudet eivät vaikuta. On: monet algoritmit selviävät hajapisteistä, yms. SOM-klusterointi On: pärjää epälineaarisuuksien ja hajapisteiden kanssa. Lineaarinen regressio, PLS Todennäköisyyslaskenta Melko: PLS on melko vikasietoinen. On: eiparametrinen malli ei tee oletuksia. On: plus- ja miinuslasku on tuttua. Ei ole: vaatii matriisioperaatioiden ymmärtämistä. On: menetelmän perusteet eivät vaadi tilastollista koulutusta. Ei ole: tuotettu moniuloitteinen matriisi vaatii erillisen analyysin. On: luokituksen tulos voidaan lukea 2-uloitteiselta kartalta. Ei ole: vaatii matriisioperaatioita, ja tuloksena tulee vain yksi luku. On: ennusteen lisäksi käyttäjä saa varmuusrajat. X X X X 12/14
Liite B. Datan esikäsittely suodatuksella ja differenssillä Suodatus tasoittaa signaalin alla esitetyllä tavalla: alkuperäisen signaalin (sininen) nopea vaihtelu poistuu ja esiin saadaan hitaammat, pidemmän tähtäimen muutokset. Tässä analyysissä termiinien hintatiedot suodatettiin siten, että suodoksen ajankohdan t arvoon vaikuttavat vain se itse ja muutamat arvot tulevaisuudesta; muille signaaleille tehtiin suodatus niin, että tiedot poimittiin historiasta. Tämä on tarpeen, jotta termiinidatan tulevaisuustietoa ei tihku nykypäivään; tämä helpottaisi analyysiä virheellisellä tavalla. 7000 6000 5000 4000 tuote X 3000 2000 1000 0 20 40 60 80 aika neljänneksissä Differenssi on kuvattu alla olevassa kuvassa. Sininen signaali on jälleen alkuperäinen. Signaali on hetkeen 12 asti nousussa. Tämän takia myös sen differenssi eli ensimmäinen derivaatta on positiivinen, kuten oikealla olevasta y-akselista voidaan lukea. Differenssi painuu pakkaselle samaan aikaan kun sininen signaali alkaa pudota. 310 10 Tuote Y euro/tn 300 290 280 5 0-5 270 0 5 10 15 20-10 aika neljänneksissä 13/14
14/14