ielaitos Satu Innamaa, Matti Pursula Liikennemäärän ja nopeuden lyhyen aikavälin ennustaminen............ ielaitoksen selvityksiä 54/ Helsinki IEHALLINO Liikenteen palvelut
ISSN 788-37 ISBN 951-76-7-9 IEL 364 Edita Oy Helsinki Julkaisua myy: ielaitos, julkaisumyynti Puhelin 4 44 53 elefax 4 44 65 S-posti elsa.juntunen@tieh.fi ielaitos IEHALLINO Liikenteen palvelut PL 33 51 HELSINKI Puhelinvaihde 4 44 15
ielaitoksen selvityksiä 54/ Satu Innamaa, Matti Pursula Liikennemäärän ja nopeuden lyhyen aikavälin ennustaminen ielaitos IEHALLINO Helsinki
Satu Innamaa, Matti Pursula: Liikennemäärän ja nopeuden lyhyen aikavälin ennustaminen. Helsinki. ielaitos, ielaitoksen selvityksiä 54/. 11 s. + liitt. 3 s. ISBN 951-76-7-9. ISSN 788-37. IEL 364. Asiasanat: liikenne-ennusteet, ennusteet, telematiikka, liikenteen hallinta, liikenteen ohjaus, liikennevirta Aiheluokka: 11,, IIVISELMÄ Dynaamiset liikenneinformaatio- ja liikenteenohjausjärjestelmät eivät voi toimia reaktiivisesti, vaan niiden täytyy osata ennakoida ja sopeuttaa strategiansa ajoissa muuttuviin liikennetilanteisiin. utkimuksen tarkoituksena oli selvittää eri tekijöiden vaikutuksia lyhyen aikavälin liikennetilanne-ennusteisiin. Ennusteet on tehty MLP-neuroverkkojen avulla. Ennustemalleja tehtiin ensisijaisesti Länsiväylälle. utkimuksessa haluttiin selvittää, minkälainen on lyhyen aikavälin liikennetilanne-ennusteen kannalta optimaalinen neuroverkko. ämän jälkeen optimoitiin muita ennustemalliin liittyviä tekijöitä, kuten syötteitä, ennustejakson pituutta ja poikkileikkausten sijaintia. Lopuksi neuroverkkoon perustuvia malleja verrattiin naiiviin malliin ja Länsiväylällä kerättyjä kokemuksia sovellettiin kaksikaistaisessa kohteessa, valtatiellä 3 Valkeakoskella. Parhaaksi aktivaatiofunktioyhdistelmäksi osoittautui piilokerroksen hyperbolinen tangentti yhdistettynä tulostuskerroksen lineaariseen funktioon. Syöteaineistossa annettujen liikennetietojen aikasarjan pituus osoittautui tärkeämmäksi kuin niiden poikkileikkauksien määrä, joilta tietoa kerätään. Päivätyyppi- ja kellonaikatiedot eivät parantaneet ennusteita. Nopeuskeskihajontatiedot sitä vastoin paransivat alhaisimpien nopeuksien ennusteita. Puolen tunnin ennustemallin tulokset olivat kauttaaltaan hieman huonompia kuin 15 minuuttia ennustavan mallin. Kun poikkileikkausten määrä on rajallinen, on olemassa etäisyys (tässä kohteessa 8 metriä), jota lähemmäksi lisätietopoikkileikkausta ei kannata sijoittaa ennustepoikkileikkauksesta. Neuroverkkomalleille tehtiin vertailumalliksi malli, joka perustui liikenteen säännönmukaisuuteen. ämä ns. naiivi malli ei voi ennustaa alhaisia ruuhkanopeuksia, jollei ruuhka ole toistuvaa. Olennainen ero mallien välillä on se, että neuroverkkomalli on mahdollista opettaa reagoimaan satunnaisiin häiriötilanteisiin, toisin kuin naiivi malli. Kaksikaistaiselle tielle tehdyn ennustemallin perusteella havaittiin, että on tärkeämpää saada liikennetiedot kahdesta pisteestä kuin että tiedot saataisiin molemmilta suunnilta. Vastaantulevan liikenteen tietojen vaikutus mallin tekemän ennusteen hyvyyteen oli suhteellisen pieni. ehdyn kokeilun perusteella vaikuttaisi siltä, että Länsiväylältä kerättyjä kokemuksia voidaan soveltaa suurelta osin suoraan myös kaksikaistaisilla teillä.
Satu Innamaa, Matti Pursula: Liikennemäärän ja nopeuden lyhyen aikavälin ennustaminen. [Short-erm Prediction of Flow and Speed]. Helsinki. Finnish National Road Administration, Finnra Reports 54/. 11 p. + app. 3 p. ISBN 951-76-7-9. ISSN 788-37. IEL 364. Keywords: traffic forecasts, prediction, traffic telematics, traffic management, traffic control, traffic flow ABSRAC Dynamic traffic information and control systems cannot function reactively but they should anticipate traffic situations and adjust their strategy to the changes in advance. he purpose of the research work was to study the influence of different factors to the short-term forecasts of the traffic situations. he forecasts were made with MLP neural networks. he prediction models were made primarily to Länsiväylä. An objective of the research work was to find out the optimal structure of the neural network for the short term prediction of traffic situation. After this, other factors related to the prediction model were optimised, like inputs, the length of the prediction period, and the location of the cross-sections. Finally the models based on neural networks were compared to a naïve model and the experience gathered from Länsiväylä were applied to a two-lane environment, in the main road 3 in Valkeakoski. he best combination of activation functions was a hyperbolic tangent for the hidden layer and a linear function for the output layer. he length of the timeseries of the traffic information in the input turned out to be more important than the number of cross-sections where the data is collected. he type of day and time of day information did not improve forecasts. However, the information about the standard deviation of the speed improved the forecasts of the lowest speeds. he results made by the model predicting 3 minutes ahead were throughout little worse than the results of the model predicting 15 minutes ahead. When the number of cross-sections is limited, there is a minimum for the distance (in this case 8 meters) between the prediction cross-section and the extra information cross-section. A model based on the regular variations of the traffic was done as a comparison model to the neural network models. his so called naïve model cannot predict low rush hour speeds unless the congestion is recurrent. he essential difference between the models is that the neural network model can be trained to react to random incidents and non-recurrent congestion, unlike the naïve model. Based on the model made for a two-lane road it could be discovered that it is more important to get the traffic information from two points than to get it from both directions. he impact of the traffic going to the opposite direction was relatively small to the performance of the model. Based on the experiment it seems that most of the experience gathered from Länsiväylä can be applied also in two-lane roads.
ALKUSANA ielaitos sekä Liikenne- ja viestintäministeriö (LVM) ovat tilanneet tutkimuksen automaattisista liikenteenohjaus- ja liikenneinformaatiojärjestelmistä osana LVM:n ERA Liikenteen telematiikan rakenteiden tutkimus- ja kehittämisohjelmaa 1998. ämä tutkimus on valmistunut osana ko. toimeksiantoa. utkimuksesta vastasi diplomi-insinööri Satu Innamaa eknillisen korkeakoulun liikennelaboratoriosta ohjaajanaan professori Matti Pursula. utkimusapulaisena toimi tekniikan ylioppilas Kerkko Vanhanen. utkimuksen etenemistä valvoi asiantuntijaryhmä, johon kuuluivat tekniikan tohtori Jussi Sauna-aho LVM:stä, diplomi-insinöörit Kari Hiltunen ielaitoksen tiestötiedot-yksiköstä, Sami Luoma ielaitoksen liikenteen palvelut -yksiköstä ja Pekka Rajala Uudenmaan tiepiiristä sekä tekniikan tohtorit Risto Kulmala V:ltä ja Iisakki Kosonen KK:lta. Neuraalilaskennassa on hyödynnetty CSC - ieteellinen Laskenta Oy:n myöntämiä resursseja. HUOM. ähän raporttiversioon on korjattu painetussa raportissa havaitut virheet. Raportin taulukoissa 5, 9, 13, 15, 7 9, 35 39 ja 44 46 sekä kuvissa ja 1 oli pieniä mm. pyöristämisestä aiheutuneita virheitä. Lisäksi taulukoissa 17, 19, 1,, 4, 6, 3, 3 ja 34 sekä kuvissa 15, 16 ja 19 oli suurempia virheitä. Näissä esitetyt tulokset olivat todellisia kertaluokkaa huonompia. Johtopäätöksissä päivä- ja kellonaikatiedot saavan mallin tulokset muuttuivat liikennemäärämallien osalta ja lisätietojen todettiin korjattujen tulosten perusteella parantavan liikennemääräennusteita.
7 Sisältö IIVISELMÄ 3 ABSRAC 4 ALKUSANA 5 1 Johdanto 9 Lyhyen aikavälin liikennetilanne-ennusteissa käytettyjä menetelmiä 1.1 Menetelmien välisiä vertailuja 1. Sijoittelu ja simulointi 11.3 Kalman-suodatus 1.4 Neuroverkot ja sumea päättely 14.5 Muita neuroverkkomalleja 14 3 Malli ja aineisto 16 3.1 Kohteet ja käytettävissä oleva aineisto 16 3. Valittu malli 18 4 MLP-verkko ja sen opettaminen 19 4.1 Monikerrosperseptroniverkko 19 4.1.1 Yleistä 19 4.1. Aineiston muokkaus 4.1.3 Kerrosten ja neuronien määrät 1 4.1.4 Aktivaatiofunktiot 4. Vastavirta-algoritmiin perustuva opetus 5 utkimusasetelma ja hypoteesit 5 6 Optimaalinen neuroverkko 7 6.1 Perusennustemalli 7 6. Yksi malli vs. hajautettu malli 35 6..1 Oma malli kullekin ennustejaksolle 35 6.. Erilliset liikennemäärä- ja nopeusmallit 38 6..3 Mallien välinen vertailu 4
8 7 Muiden tekijöiden optimoiminen 46 7.1 Päivä- ja kellonaikatiedot lisäsyötteinä 46 7. Nopeuskeskihajonta lisäsyötteenä 56 7.3 Ennustejakson pituus 61 7.4 Poikkileikkausten sijainti 67 7.4.1 Kaksi poikkileikkausta 67 7.4. Kolme poikkileikkausta 7 7.4.3 Lisätietopoikkileikkauksilla saavutettava etu 7 8 Naiivi vertailumalli 74 9 Ruuhkan ennustaminen 78 1 Sovellus kaksikaistaiselle tielle 84 1.1 Yleistä84 1. Opetusalgoritmi 85 1.3 Liikennemäärä- ja nopeusennusteiden tulokset 85 1.4 Jonoprosenttiennusteiden tulokset 88 11 Johtopäätöksiä 91 1 Yhteenveto 95 Lähdeluettelo 98 Käytetyt symbolit 1 LIIEE Pääkomponenttianalyysi
JOHDANO 9 1 Johdanto Dynaamiset liikenneinformaatio- ja liikenteenohjausjärjestelmät eivät voi toimia reaktiivisesti, vaan niiden täytyy osata ennakoida ja sopeuttaa strategiansa ajoissa muuttuviin liikennetilanteisiin. Myös nykytilanteen tuntemiseen tarvitaan ennuste, koska liikennetiedot saadaan järjestelmän käyttöön aina pienellä viiveellä. Suomessa käytössä olevat järjestelmät eivät vielä tee ennusteita liikennetilanteen kehityksestä. Erityisesti ruuhkaan perustuvassa ohjauksessa tämä olisi kuitenkin tärkeää ja tästä syystä on tarpeen selvittää yksinkertaisia ennustamismenetelmiä. Olemassa olevat ennustamismenetelmät on kehitetty pääosin matka-aikojen ja liikennemäärien ennustamiseen. Nämä parametrit, kuten myös liikennetiheys- ja pistenopeusennusteet, sopivat hyvin ruuhkavaroitus- ja liikenteenohjausjärjestelmien tarpeisiin. ämän tutkimuksen tarkoituksena oli selvittää eri tekijöiden vaikutuksia lyhyen aikavälin liikennetilanne-ennusteisiin. Ennusteet on tehty monikerrosperseptronineuroverkkojen (MLP-verkot) avulla. Jotta saataisiin tehtyä optimaalinen ennustemalli, täytyy etsiä paras neuroverkko ja optimaalinen tapa kerätä liikennedataa. Malliin liittyviä selvitettäviä asioita ovat mm. aineiston esikäsittelymenetelmä, neuroverkon aktivaatiofunktiot ja se, sovelletaanko yksittäistä vai hajautettua mallia. Lisäksi selvitetään ennustejakson pituuden ja mittausjärjestelyihin liittyvistä asioista poikkileikkausten määrän ja sijainnin vaikutusta tuloksiin. Selvityksen luvussa on esitelty lyhyen aikavälin liikenne-ennusteisiin käytettyjä malleja. Asiasta on kerrottu tarkemmin aiemmassa tutkimuksessa (Innamaa 1999). Luvussa 3 on esitelty valittu malli, ennusteiden kohde ja käytettävissä oleva data. Luvussa 4 on esitetty tarkemmin MLP-neuroverkko ja siihen liittyvät asiat. Hypoteesit sekä tutkimusasetelma on esitetty luvussa 5. Luvussa 6 on etsitty optimaalista neuroverkkoa ja luvussa 7 yritetty optimoida muita ennustemalliin liittyviä tekijöitä. Luvussa 9 on selvitetty, kuinka hyvin ruuhkatilanteiden dynaamisia muutoksia voidaan ennustaa. Luvussa 8 on esitelty vertailuksi tehty naiivi ennustemalli ja luvussa 1 on kokeiltu, kuinka Länsiväylällä saadut tulokset voidaan soveltaa kaksikaistaiselle tielle. Luvussa 11 on esitetty johtopäätöksiä. Liite 1 esittelee pääkomponenttianalyysin periaatteet.
LYHYEN AIKAVÄLIN LIIKENNEILANNE-ENNUSEISSA KÄYEYJÄ MENEELMIÄ 1 Lyhyen aikavälin liikennetilanne-ennusteissa käytettyjä menetelmiä.1 Menetelmien välisiä vertailuja Dynaamisten liikenneinformaatio- tai liikenteenohjausjärjestelmien täytyy osata ennakoida liikennetilanteet ja sopeuttaa strategiansa ajoissa. Se, että järjestelmä pystyy jatkuvasti päivittämään liikennemäärä- ja matka-aikaennusteita useita minuutteja eteenpäin käyttämällä reaaliaikaista liikennedataa, on ehdoton dynaamisen liikenteenohjauksen ja liikennetietojärjestelmien toiminnan edellytys. (Smith & Demetsky 1997.) Smith & Demetskyn (1997) tekemässä vertailussa tutkittiin kahta uutta liikenteen ennustamismenetelmää, jotka perustuivat neuroverkkoon ja ei-parametriseen regressiomalliin (lähin naapuri -menetelmä), sekä kahta perinteistä mallia, jotka perustuivat aikaisempaan keskiarvoon ja aikasarjoihin. Mallien tavoitteena oli ennustaa liikennemäärä seuraavalle 15 minuutille, kun tunnettiin liikennemäärätiedot viimeiseltä 15 minuutilta. aulukossa 1 on esitetty yhteenveto mallien heikkouksista ja vahvuuksista moottoritieliikenteen ennustamisessa. aulukko 1. Keskiarvo-, ARIMA-, neuroverkko- ja lähin naapuri -mallin välinen vertailu (Smith & Demetsky 1997). Malli Vahvuudet Heikkoudet Keskiarvo Helppo ottaa käyttöön Ei kykene vastaamaan odottamattomiin Nopea laskea tapahtumiin ARIMA Aikasarjasovellus Puuttuvat havainnot tuottavat austalla vahva teoria ongelmia Neuroverkko Sopiva monimutkaisten, ei-lineaaristen riippuvaisuuksien kuvaamiseen Lähin naapuri Ei vaadi oletuksia olemassa olevista riippuvaisuuksista Hahmontunnistussovellukset Black box -malli Monimutkainen opettamisproseduuri Naapureiden löytämisen hankaluus Smith & Demetsky (1997) vertailivat mallien hyvyyttä neljän parametrin avulla: absoluuttisella virheellä, jakaumavirheellä, mallin käyttöönottamisen helppoudella ja mallin siirrettävyydellä. Lähin naapuri menetelmä osoittautui paremmaksi kuin muut. oiseksi parhaaksi tuli neuroverkko ja kolmanneksi jäi -keskiarvomalli. Vaikkei ARIMA-mallia voitu käyttää vajaalla datalla, se arvioitiin hieman keskiarvomallia paremmaksi. Parhaaksi osoittautuneen lähin naapuri -menetelmän tulosten absoluuttinen keskivirhe oli merkitsevästi pienempi kuin muiden mallien. Keskiarvomallilla saatiin suurimmat absoluuttiset keskivirheet, vaikkei sillä ollutkaan taipumusta yli- tai aliarvioida ennusteitaan vahvasti. ARIMA-mallin absoluuttiset virheet olivat samaa suuruusluokkaa kuin muilla malleilla, mutta se yli- tai aliarvioi ennusteitaan usein huomattavasti. ARIMA-mallia ei kuitenkaan voitu käyttää vajaalla datalla,
LYHYEN AIKAVÄLIN LIIKENNEILANNE-ENNUSEISSA KÄYEYJÄ MENEELMIÄ 11 mikä rajasi sen käyttöä huomattavasti. Neuroverkko osoittautui vertailussa toiseksi parhaaksi. Mallin ongelmana oli kuitenkin huomattava jakaumavirhe, jonka aiheuttaja oli todennäköisesti neuroverkon opetus. Neuroverkon siirrettävyys osoittautui huonoksi. (Smith & Demetsky 1997.) Smith & Demetsky (1994) tekivät jo aikaisemmin vastaavanlaisen vertailun neuroverkko-, ARIMA- ja keskiarvomallin välillä. ämän vertailun tulokset olivat hyvin samansuuntaisia. Keskiarvomalli toimi hyvin tavallisina päivinä, muttei kyennyt reagoimaan epätavallisiin tilanteisiin, jotka vaikuttivat liikennemääriin. ARIMA-mallin ennuste tuntui laahaavan jatkuvasti yhden tarkastelujakson jäljessä. Malli myös tuntui liioittelevan ennustetta voimakkaasti ylös- tai alaspäin. Neuroverkkomalli selviytyi ennustamisesta tarkasti, erityisesti ruuhkahuipun aikana, eikä ennuste kärsinyt ARIMA-mallin ongelmista. Lee ym. (1998) ovat tehneet vertailun erilaisten matkanopeuksien lyhyen aikavälin ennustamismenetelmien välillä. He vertasivat usean selittäjän ensimmäisen asteen regressiomallia, ARIMA-mallia, vastavirta-algoritmilla opetettua neuroverkkomallia, jossa oli yksi piilokerros, ja Kalman-suodatinmallia. Heidän tulostensa mukaan neuroverkko- ja Kalman-suodatinmalli tekivät tarkempia ennusteita kuin regressio- tai ARIMA-malli. Kalman-suodatinmalli oli jonkin verran parempi kuin neuroverkko, mutta neuroverkko antoi parempia tuloksia, kun malli siirrettiin alkuperäisestä kohteestaan muualle.. Sijoittelu ja simulointi Hobeika & Ozbay (1991) kehittivät simulointiin perustuvan liikenteensijoittelumallin, jonka päätarkoitus oli testata erilaisia reittiohjausstrategioita, jotta liikenneverkko saataisiin toimimaan parhaalla mahdollisella tavalla. Mallin antamia tuloksia voitiin käyttää matka-aika- ja viivytysennusteina reaaliaikaisissa liikennetietojärjestelmissä. Malli käytti iteratiivista prosessia ennustaessaan liikennemääriä ja jonoja sitä mukaa, kun ne muuttuivat. Malli perustui siihen, että simulointimallin tuloksena saatuja tietoja käytettiin hyödyksi liikenteen sijoittelussa, jolloin löydettiin nopein mahdollinen reitti kullekin lähtöpaikka-määräpaikkaparille verkolla. Menettely toistettiin, kunnes saavutettiin tasapaino. (Hobeika & Ozbay 1991.) Myös Stephanedes ym. (199a) käyttivät liikenteen sijoittelua ja simulointia ennustamiseen. Menetelmä perustui iteratiiviseen palautesilmukkaan sijoittelu- ja simulointivaiheen välillä. Sijoitteluvaihe jakoi matkat verkolle ja simulointivaihe tuotti yksityiskohtaista tietoa liikenneverkon toiminnasta. Silmukka lakkasi toimimasta, kun kahdella peräkkäisellä iterointikierroksella tulokseksi saadut linkkien matka-ajat olivat riittävän lähellä toisiaan. Stephanedes ym. (199a) saivat tulokseksi, että useimmissa tapauksissa simulointi-/sijoittelumenetelmän avulla saadut tulokset olivat lähempänä havaittuja tuloksia kuin perinteisillä liikenteen sijoittelumenetelmillä saadut tulokset. Mene-
LYHYEN AIKAVÄLIN LIIKENNEILANNE-ENNUSEISSA KÄYEYJÄ MENEELMIÄ 1 telmän moduulirakenne ja simulointivaihe olivat sen vahvuus, koska tutkittua liikenneverkkoa voitiin kuvata sille parhaiten sopivalla simulointi- ja sijoittelumallilla. Mallin antamat tulokset olivat sitä tarkempia mitä sopivammilla komponenteilla estimointia suoritettiin ja mitä tarkempi lähtöpaikka-määräpaikkamatriisi oli..3 Kalman-suodatus Rotterdamin liikenteenseurantajärjestelmää varten suunniteltiin ruuhkan ennustamisjärjestelmä, jonka tavoitteena oli ennustaa suunnittain erään tielinkin kokonaisliikennemäärä, ruuhkatilanne ja keskimääräinen matka-aika. Järjestelmän päätavoitteena oli tuottaa ennusteita reaaliaikaisesti siten, että ennusteet olivat riittävän tarkkoja ja että järjestelmä kykeni tuottamaan ennusteita kaikissa olosuhteissa (satunnaisessa ruuhkassa, onnettomuuksien ja tietöiden aikana jne.). Järjestelmän oli myös kyettävä ottamaan ennusteissaan huomioon dynaamiset liikenteenohjaustoimenpiteet ja niiden vaikutukset. ehtävään valittiin DYNA- DMS-malli. Malli oli yhdistelmä tilastollisesta liikennemallista ja dynaamisesta - sijoittelumallista. (Ben-Akiva ym. 199.) Erittäin lyhyen aikavälin (1-1 minuuttia) ennusteiden tekemiseen käytettiin tilastollista mallia. Kaksi pääsyytä mallin valitsemiseen olivat sen nopeus ja tulosten tarkkuus tämäntyyppisissä ennusteissa. Näissä erittäin lyhyen aikavälin ennusteissa reitinvalinnalla ei ole suurta merkitystä, minkä takia tilastollisen mallin melko yksinkertainen kuljettajan reitinvalintaproseduuri ei vaikuttanut tuloksiin. Ennustamiseen valittiin Kalman-suodatin, koska se suodattaa liikennemittaukset reaaliajassa, tuntuu luonnolliselta valinnalta ennusteiden tuottamiseen, on joustava, kalibroi itse itsensä eikä siinä ole stationaarisuusoletuksia ja koska se pitää luonnostaan sisällään häiriöiden havainnoinnin. (Ben-Akiva ym. 199.) Kalman-suodattimen perusajatus on siinä, että haluttujen muuttujien arvot ennustetaan aiempaan tutkittavasta järjestelmästä olevaan informaatioon perustuen siihen hetkeen asti, kunnes uusi mittaus on käytettävissä. Kun uusi mittaustulos sitten saadaan käyttöön, muuttujan estimaattia korjataan mittauksen ja ennusteen väliseen erotukseen verrannollisena. (Karvonen ym. 198.) ilastollista menetelmää täydentämään valittiin dynaaminen liikenteensijoittelumalli (DA), jonka tehtävänä oli tehdä pidemmän aikavälin ennusteita. ällaisissa ennusteissa kuljettajan reitinvalinnalla oli suurempi merkitys. DA:ssa oli kuitenkin kaksi haittapuolta: mallit olivat hitaita ja ne tarvitsivat dynaamisen lähtöpaikka-määräpaikkamatriisin lähtötiedoikseen. (Ben-Akiva ym. 199.) Lopuksi ennusteet yhdistettiin siten, että saatu ennuste oli mahdollisimman tarkka. ämä tehtiin laskemalla ennusteista painotettu keskiarvo siten, että painokertoimet vaihtelevat ennustejakson pituuden mukaan ja yhdistetyn ennusteen varianssi minimoitui. (Ben-Akiva ym. 199.)
LYHYEN AIKAVÄLIN LIIKENNEILANNE-ENNUSEISSA KÄYEYJÄ MENEELMIÄ 13 Stephanedes ym. (199b, Stephanedes 1991, Kwon 1991) kehittivät moottoritieliikenteen kysynnälle ja jakautumiselle ennustusalgoritmin, joka tunnisti liikennevirran ominaisuudet reaaliajassa ja jota voitiin käyttää dynaamisessa liikenteenohjauksessa ja ajoneuvojen opastamisessa. Myös heidän mallinsa käytti liikenteen jakauman ennustamisessa rekursiivista parametrien tunnistamista, joka perustui laajennettuun Kalman-suodattimeen. Malli jaettiin kahteen osamalliin. Niistä ensimmäinen ennusti jokaista aikajaksoa kohti rampille saapuvien ajoneuvojen osuuden niistä ajoneuvoista, joiden olisi mahdollista tulla rampille. oinen osamalli käytti tietokannan tietoja niiden ajoneuvojen määrän ennustamiseen, joiden olisi mahdollista tulla rampille. Mallin parametrejä päivitettiin jatkuvasti laajennetun Kalman-suodattimen avulla käyttämällä ennustemalleja havaintoyhtälöinä. (Stephanedes ym. 199b, Stephanedes 1991, Kwon 1991.) Mallin keskimääräinen liikenteenjakauman ennustevirhe vaihteli välillä 5,4-8,8 prosenttia. ennustevirhe niiden ajoneuvojen määrässä, joiden olisi ollut mahdollista tulla rampille, oli korkea: 6,1-13,4 prosenttia. Jälkimmäisen virheen suuruus saattaa johtua siitä, ettei ennusteessa käytetty hyväksi ylävirran liikennetietoja. (Stephanedes ym. 199b, Stephanedes 1991, Kwon 1991.) Ashok & Ben-Akiva (1993) kehittivät periaatteet reaaliaikaiseen aikariippuvaisten lähtöpaikka-määräpaikkamatriisien estimoimiseen ja ennustamiseen. Ongelma muotoiltiin Kalman-suodattimeksi, jossa tilavektori koostui eroista, joita lähtöpaikka-määräpaikkaparien välisissä liikennemäärissä oli edellisiin estimaatteihin verrattuna. Lähtöpaikka-määräpaikkaparien välisten liikennevirran vaihteluiden ennusteita muokattiin kunkin aikajakson lopulla saatujen linkkikohtaisten liikennelaskentojen tulosten perusteella. ässä prosessissa käytettiin hyödyksi tietoja verkolla jo olevien ajoneuvojen matka-ajoista ja reitinvalinnasta. Sen lisäksi, että lähtöpaikka-määräpaikkamatriisit generoitiin kulloisellekin nykyhetkelle, mallin avulla voitiin tehdä ennusteita tulevasta ja päivittää aikaisempia matriiseja. Lähtöpaikka-määräpaikkamatriisin estimointimoduli päivitti ( suodatti ) sijoitteluestimaatteja vertaamalla linkkien liikennelaskentojen tuloksia estimaattien liikennemäärien kanssa. ämän jälkeen estimoinnit tehtiin seuraaville aikajaksoille ja prosessi jatkui. (Ashok & Ben-Akiva 1993.) Ashok & Ben-Akiva (1993) havaitsivat, että suodatettu estimaatti oli huomattavasti lähempänä todellisia arvoja kuin vastaavat tietokannan tietoihin perustuvat estimaatit. Ennusteen laatu heikkeni progressiivisesti ja ennustetuilla estimaateilla oli taipumus konvergoida tietokannan tietoihin perustuvien estimaattien kanssa, kun ennusteaika piteni. Suodattimen toiminnan testaamiseksi he kokeilivat ennusteprosessia huonon tietokannan omaavalle datalle siten, että tehtiin useampi suodatus. He saivat tulokseksi, ettei suodatettujen estimaattien laatu ole erityisen herkkä tietokannan tietojen laadulle.
LYHYEN AIKAVÄLIN LIIKENNEILANNE-ENNUSEISSA KÄYEYJÄ MENEELMIÄ 14.4 Neuroverkot ja sumea päättely Matsui & Fujita (1998) ovat kehittäneet neuroverkkoihin ja sumeaan päättelyyn perustuvan matka-ajan ennustamismenetelmän moottoriteiden liikenneinformaatiojärjestelmien käyttöön. Mallissa käytettiin ennusteen syötetietoina matka-aikaa ajoneuvon lähtöhetkellä ja tiejaksolla olevien ajoneuvojen lukumäärää. Malliin tehtiin sumeaa päättelyä varten useita ohjaussääntöjä. Säännöt esitettiin numeerisessa muodossa neuroverkkoja varten. Myös raja-arvot määriteltiin neuroverkon avulla. Jos-osan selkeillä joukoilla oli sumean joukon piirteitä, koska ne korvasivat sumean logiikan jäsenyysfunktion neuroverkolla. Säännön sitten-osa koostui myös neuroverkosta..5 Muita neuroverkkomalleja Kwon & Stephanedes (1994) rakensivat neuroverkkomallin liikennemäärien ennustamiseen moottoritien poistumisrampeilla 5 minuutin jaksoissa. Ennustemalli rakennettiin kolmikerroksisena vastavirta-algormitmiin perustuvana neuroverkkona. Mallissa oli syöte- ja vastekerrosten välissä yksi piilokerros. Mallia rakennettaessa oletettiin, että poistumisrampin liikennemäärä oli riippuvainen sekä ylä- että alavirran liikenneolosuhteista. Malli opetettiin sekä tarkastelupäivän että aikaisempien päivien liikennemäärädatalla, jolloin neuroverkko antoi vasteena halutun liikennemäärän. (Kwon & Stephanedes 1994.) Kwon & Stephanedes (1994) vertasivat neuroverkkomallia 1) olemassa olevaan UCS--malliin, joka on erikseen kalibroitu kiinteäparametrinen, aikaisemmista tiedoista koottua tietokantaa ja nykyistä aineistoa käyttävä malli, ja ) mukautuvaparametriseen malliin, joka ennusti liikennemäärät Kalman-suodattimen avulla. Jälkimmäinen vertailumalli koostui kahdesta alamallista: ensimmäinen oli suunniteltu normaaleihin liikenneolosuhteisiin ja se käytti hyväkseen sekä tietokantaa että nykyistä aineistoa, malleista toinen oli suunniteltu poikkeuksellisiin tilanteisiin, joissa tietokannan tietoihin perustuva kysyntämalli erosi huomattavasti tarkasteluhetkellä mitatusta, ja se käytti ainoastaan nykyistä aineistoa. Mallin parametrit oli sovitettu neuroverkon opetusdatan avulla. Vertailussa mallien tekemille ennusteille laskettiin keskimääräinen absoluuttinen virhe ja keskineliövirhe. UCS--malli oli jokaisessa vertailussa huonoin. Mukautuvaparametrinen malli ja neuroverkkomalli tekivät vuorotellen pienimmät virheet. Neuroverkon keskimääräinen absoluuttinen virhe ja keskineliövirhe olivat kuitenkin hieman pienempiä kuin mukautuvaparametrisella mallilla. (Kwon & Stephanedes 1994.) Myös Zhang ym. (1997) kehittivät neuroverkkoon perustuvan ennustemallin dynaamisten liikenteenohjausjärjestelmien tarpeisiin. Neuroverkko rakennettiin mallintamaan Papageorgioun laajentamaa Paynen kontinuumimallia (Papageorgiou ym. 199). Ennustamiseen käytetty neuroverkko perustui vastavirtaalgoritmiin ja se koostui syöte- ja vastekerrosten lisäksi kahdesta piilokerrok-
LYHYEN AIKAVÄLIN LIIKENNEILANNE-ENNUSEISSA KÄYEYJÄ MENEELMIÄ 15 sesta. Mallin syötteet ja vasteet valittiin käytetyn liikennemallin mukaisesti. Syötteinä olivat tarkasteluhetken nopeus tarkasteltavalla tiejaksolla ja sitä edeltävällä tiejaksolla, liikennetiheys tarkasteltavalla tiejaksolla ja sitä seuraavalla tiejaksolla ja rampille tulevien ajoneuvojen liikennemäärä ja vasteena nopeus tarkasteltavalla tiejaksolla ennustehetkellä. Mallia opetettaessa syötteet annettiin sekä liikenne- että neuroverkkomallille. Mallien antamia vasteita verrattiin ja erotus syötettiin takaisin neuroverkkoon, jolloin verkko korjasi painokertoimia ja kynnysarvoja omien oppimissääntöjensä mukaisesti. Näin neuroverkko oppi mallintamaan liikennettä valitun liikennemallin mukaisesti. Malli opetettiin simuloinnin avulla saadulla datalla. (Zhang ym. 1997.)
MALLI JA AINEISO 16 3 Malli ja aineisto 3.1 Kohteet ja käytettävissä oleva aineisto Ennustemalleja tehtiin ensisijaisesti Länsiväylälle Espoon ja Helsingin rajalle. Länsiväylälle kehitettyjä menetelmiä testattiin kuitenkin myös kaksikaistaisessa kohteessa, valtatiellä 3 Valkeakoskella. Länsiväylän ennustemallit kehitettiin Länsiväylän ruuhkaohjausjärjestelmän poikkileikkaukselle 11 Helsingin suuntaan (kuva 1). Kyseisen poikkileikkauksen lisäksi mallien tekemisessä voitiin käyttää hyväksi liikennetietoja kuudelta muulta poikkileikkaukselta. Näistä neljä sijaitsee ennen ko. poikkileikkausta ja kaksi sen jälkeen. Länsiväylän aineisto oli ajalta 1.5. 3.6.1999, jolloin muuttuvat nopeusrajoitukset ja varoitusmerkit eivät olleet vielä käytössä tällä osuudella. 675 m 373 m 8 m 4 m 383 m 398 m 699 m apiola MO4 Karhusaari Espooseen K6 K8 K9 K1 K11 K1 K14 MO1 MO MO3 Helsinkiin 3 m 418 m 83 m 7 m 387 m 4 m 39 m 19 m 559 m Kuva 1. Ennustemallit kehitettiin ennustamaan liikennettä Länsiväylän ruuhkavaroitusjärjestelmän poikkileikkauksessa 11. Länsiväylän aineistossa oli ongelmana induktioilmaisimista saadun aineiston huono laatu. Saaduista ilmaisuista oli virheellisiä keskimäärin 38 48 prosenttia (taulukko ). Virheilmaisuista selvästi yleisin oli virhe 6, joka tarkoitti sitä, että ajoneuvon liike oli epätasainen tai poikkeava, jolloin ajoneuvon pituus ei ollut mitattavissa. Käytännössä tämä tarkoittaa voimakkaasti kiihdyttänyttä tai jarruttanutta ajoneuvoa. ehdyissä ennustemalleissa oli kuitenkin tavoitteena ennustaa järjestelmän mittaama liikennemäärä ja keskinopeus - ottamatta kantaa arvojen oikeellisuuteen.
MALLI JA AINEISO 17 aulukko. Havaintojen määrä ja virheellisten ilmaisujen osuus prosentteina poikkileikkauksittain Länsiväylällä ajalta 1.5. 3.6.1999. Havaintojen lukumäärä (N) ja keskimääräinen virheellisten havaintojen osuus (e%) on laskettu molemmille suunnille yhteensä. Pienin ja suurin virheellisten havaintojen osuus (e min %, e max %) on laskettu päivittäisistä havainnoista. K6 K8 K9 K1 K11 K1 K14 e% 47 39 48 47 38 45 47 e min% 46 37 47 46 34 43 4 e max% 48 4 5 5 44 48 49 N 44 14 4 557 3 449 57 95 57 45 53 881 56 977 utkimus perustuu viiden minuutin liikennemäärä- ja nopeushavaintoihin. Havaintomatriisia rakennettaessa yksittäiset puuttuvat havainnot (kyseisen viisiminuuttisen aikana ei ollut riittävän monta virheetöntä havaintoa) ekstrapoloitiin edeltävästä ja seuraavasta havainnosta lineaarisesti. Mikäli puuttuvia havaintoja oli enemmän kuin yksi peräkkäin, ekstrapolointiin ei ryhdytty. Keskinopeus laskettiin ainoastaan virheettömien havaintojen perusteella, mutta liikennemääräestimaatissa olivat mukana kaikki havainnot. Aineistoa oli käytettävissä sekä poikkileikkaus- että kaistakohtaisena. Valtatiellä 3 Valkeakoskella ennusteet tehtiin Pispantallissa sijaitsevan liikenteen automaattisen mittauspisteen (LAM-pisteen) 433 suunnalle 1 (ampere) (kuva ). Ennustetta varten saatiin lisätietoja myös LAM-pisteestä 4, joka sijaitsee Jutikkalassa. LAM-pisteiden välinen etäisyys oli 17,6 kilometriä. ampere Valkeakoski Valkeakoski Hämeenlinna Sääksmäki LAM 433 LAM 4 oijala oijala Kuva. Valtatien 3 jakso, jolla ennustemallin tekemistä kokeiltiin kaksikaistaiselle tielle. Ennustemallit tehtiin LAM-pisteelle 433 ja malli sai lisätietoja LAM-pisteestä 4. Ennustemallin tekoa varten valtatieltä 3 oli käytettävissä LAM-pisteiden ajoneuvokohtaiset liikennetiedot touko-lokakuulta 1999. Ajoneuvokohtainen aineisto muutettiin viiden minuutin liikennemäärä- ja keskinopeushavainnoiksi. Mallin tekoon käytetyistä havainnoista poistettiin ne viisiminuuttiset, joiden aikana yksikään ajoneuvo ei ollut ohittanut LAM-pistettä.
MALLI JA AINEISO 18 3. Valittu malli Sijoitteluun ja simulointiin perustuvat ennustemalli voi olla varteenotettava vaihtoehto kohteessa, jossa verkkonäkökulma on tärkeä. Koska nyt kehitettävän mallin kohteena oli yksittäinen tie, jolla ei juurikaan ole vaihtoehtoisia reittejä, muut menetelmät vaikuttavat lupaavammilta vaihtoehdoilta. Edellä kuvatuissa vertailututkimuksissa neuroverkko menestyi erittäin hyvin ja neuroverkkomallit olivat parempia kuin esim. ARIMA-mallit (Smith & Demetsky 1997 ja 1994, Lee ym. 1998). Neuroverkko oli erityisen hyvä ruuhkan ennustamisessa, josta perinteisemmät ennustemallit suoriutuivat huonosti. utkimuksissa neuroverkkojen ongelmat liittyivät opettamiseen tai siihen, että neuroverkko oli siirretty alkuperäisestä paikasta toiseen. Neuroverkon ominaisuuksiin kuuluu se, että se oppii kunkin ongelman omat erityispiirteet, ja näin ollen ajatus neuroverkkoon perustuvan ennustemallin siirtämisestä alkuperäisestä paikastaan toiseen, ilman uutta opettamista, ei ole järkevä. Opettamiseen täytyy käyttää aikaa ja se täytyy tehdä huolella. Kalmansuodatukseen perustuvat mallit menestyivät vertailuissa yhtä hyvin kuin neuroverkkomallit. Kalman-suodatinmalli tarvitsee kuitenkin taustalleen jonkin muun mallin (Ben-Akiva ym. 199), minkä takia nyt tehdyssä tutkimuksessa päädyttiin ennustemenetelmäksi valitsemaan monikerrosperseptroni-neuroverkko (MLPverkko). MLP-verkon etuna on myös sen käytön yksinkertaisuus, kun verkko on ensin saatu opetettua. Neuroverkkomallia on tässä työssä verrattu naiiviin malliin, joka perustuu liikenteen säännöllisiin aikavaihteluihin.
MLP-VERKKO JA SEN OPEAMINEN 19 4 MLP-verkko ja sen opettaminen 4.1 Monikerrosperseptroniverkko 4.1.1 Yleistä Perseptronilla tarkoitetaan kuvan 3 mukaista neuronia, joka jakaa syöteavaruuden kahteen osaan (luokkiin 1 ja ). Monikerrosperseptroniverkko (multi-layer perceptron network, MLP) on eteenpäin syöttävä neuroverkko (feedforward network), joka koostuu useammasta kerroksesta perseptroneja. Eteenpäin syöttävä verkko koostuu kahdesta tai useammasta keskinäisesti toisensa poissulkevista neuronien tai kerrosten muodostamasta joukosta. (Schalkoff 199.) x 1 x... w w 1... w n w i x i Aktivaatiofunktio (ϕ) y Vaste x n Syötteet Neuroni y = f(x 1, x,, x n ) =ϕ( w i x i ) Kuva 3. Perseptroni. Kerroksista ensimmäinen (syötekerros) ottaa vastaan verkolle annettavat syötteet ja kerroksista viimeinen (vaste- tai tulostuskerros) antaa verkon vasteen. Näiden kahden äärimmäisen kerroksen välissä on nolla, yksi tai useampia piilokerroksia (kuva 4). Linkit (tai painot, w) yhdistävät kunkin kerroksen neuronin kaikkiin seuraavan (mutta ainoastaan seuraavan) kerroksen neuroneihin. Yhteys on yksisuuntainen (vrt. eteenpäin syöttävä) (Schalkoff 199). Neuroni välittää eteenpäin seuraavan neuronikerroksen neuroneille sen arvon y j, jonka aktivaatiofunktio ϕ saa neuronin syötteiden y i painotetulla summalla. y j = ϕ j m i = w ji y i Yhtälöissä w ji on neuronien i ja j välinen painokerroin ja m syötteiden määrä. Aktivaatiofunktiolla tarkoitetaan funktiota, joka rajoittaa vasteen arvoa (Haykin 1999).
MLP-VERKKO JA SEN OPEAMINEN.............................. Syötekerros ulostuskerros Piilokerrokset Kuva 4. Monikerroksinen eteenpäin syöttävä neuroverkko. 4.1. Aineiston muokkaus Kun neuroverkkoa opetetaan aineistolla, jossa parametreille tyypilliset arvot ovat lukuarvoltaan hyvin erilaisia, aineisto on hyvä skaalata tai normeerata. Näin neuroverkon opetusta saadaan tehostettua (Demuth & Beale 1998). Skaalaamisella tarkoitetaan sitä, että kunkin parametrin arvoja muutetaan siten, että ne vaihtelevat vakiovälillä, kuten [, 1] tai [-1, 1]. Normeerauksessa aineisto muokataan siten, että sillä on vakiokeskiarvo ja -keskihajonta (esim. keskiarvona nolla ja keskihajontana yksi). Joskus syöteparametrien määrä on suuri, mutta syötevektorien komponentit korreloivat keskenään. ällaisissa tilanteissa on hyvä vähentää syöteavaruuden dimensiota (Demuth & Beale 1998). Jos vektori yksinkertaisesti katkaistaan, neuroverkon tekemä keskimääräinen neliövirhe tulee yhtä suureksi kuin katkaistujen elementtien varianssien summa. Olisi siis parempi löytää sellainen muunnos, joka olisi optimaalinen keskimääräinen neliövirhe -mielessä. Pääkomponenttianalyysi on eräs tällainen menetelmä (Haykin 1999). Pääkomponenttianalyysissä syötevektorien komponentit muokataan kohtisuoriksi siten, etteivät ne enää korreloi keskenään. Kohtisuorat komponentit järjestetään variaatiokertoimen mukaiseen suuruusjärjestykseen (ensimmäiseksi se, jolla on suurin kerroin). Lopuksi karsitaan ne komponentit, jotka selittävät vähiten aineiston vaihtelusta (Demuth & Beale 1998). Pääkomponenttianalyysiä on esitelty tarkemmin liitteessä 1. Kuvassa 5 on esimerkki pääkomponenttianalyysistä kahdessa dimensiossa. On hyvä muistaa, että vaikka tässä yksinkertaisessa esimerkissä aineiston klusterit on helppo erottaa toisistaan ilman pääkomponenttianalyysiäkin, tilanne ei aina ole yhtä selvä moniulotteisemmissa käytännön ongelmissa.
MLP-VERKKO JA SEN OPEAMINEN 1 Kuva 5. Kaksiulotteinen pistejoukko ja sen tiheysfunktiot, jotka projisoituvat akseleille 1 ja. Akselin 1 projektiossa varianssi on maksimissaan ja tämän akselin tiheysfunktiosta voidaan selvästi erottaa aineiston kaksijakoisuus. (Haykin 1999.) 4.1.3 Kerrosten ja neuronien määrät Neuroverkkoa tehtäessä pitää ensin päättää neuronikerrosten ja niissä olevien neuronien määrät. Syötekerroksia on aina yksi ja sen neuronien määrä on sama kuin syöteparametrien lukumäärä. Vastaavasti tulostuskerroksia on yksi ja se koostuu yhtä monesta neuronista kuin verkolla on vasteparametrejä. Piilokerroksia sen sijaan voi olla nolla tai useampia. Piilokerros yhdistää edeltävän ja seuraavan kerroksen syötteet ja vasteet uudelleen siten, että aineisto luokittuu paremmin. Piilokerroksilla voidaan myös tuoda esille verkon eri syötteiden väliset yhteydet (Schalkoff 199). Jos järjestelmä on niin kutsuttu musta laatikko (tunnetaan syötteet ja vasteet, muttei sitä mitä järjestelmässä tapahtuu), siihen kannattaa yleensä laittaa yksi piilokerros. Useampaa piilokerrosta voi perustella, jos järjestelmän toimintaa tunnetaan (Oja 1998). Nyt tehdyssä tutkimuksessa piilokerrosten määräksi valittiin aina yksi. Piilokerroksen neuronien lukumäärän yläraja saadaan määriteltyä Widrow:n säännön avulla, jonka mukaan opetusjoukon koon tulisi olla vähintään kymmenen kertaa verkon painokertoimien (eli estimoitavien parametrien) lukumäärä. Jos meillä on opetusvektoria, saadaan piilokerroksen neuronien maksimimäärä (N h ) ratkaistua syöte- ja tulostuskerroksen neuronien (N i ja N o ) määrän avulla. (Oja 1998.)
MLP-VERKKO JA SEN OPEAMINEN ( N i + 1) N N h h = + ( N 1 1 N + i h + 1) N N N o o + 1 o = 1 1 4.1.4 Aktivaatiofunktiot Yksinkertaisin aktivaatiofunktio on porrasfunktio, joka voi olla esimerkiksi muotoa + 1 ϕ( u) = 1 jos u jos u < Yksinkertaisuudestaan huolimatta porrasfunktio ei sovi moniin sovelluksiin differentioitumattomuutensa takia. Sen sijaan käytetään yleensä hieman monimutkaisempia aktivaatiofunktioita, joilla on etuna differentioituvuus. ällaisia ovat esimerkiksi sigmoidinen tai lineaarinen funktio. yypillisiä esimerkkejä sigmoidisista funktioista ovat logistinen funktio tai hyperbolinen tangenttifunktio. Logistisen funktion arvot liikkuvat välillä [, 1] ja se on muotoa 1 ϕ( u) = 1 + e βu Hyperbolinen tangenttifunktio taas saa arvot väliltä [-1, 1] ja se on muotoa e ϕ( u) = tanh( βu) = e βu βu e + e βu βu Kerroin β kuvaa sigmoidisen funktion jyrkkyyttä origossa. Jos β on hyvin suuri, molemmat funktiot lähestyvät porrasfunktiota. (Oja 1998.) 4. Vastavirta-algoritmiin perustuva opetus MLP-verkko voidaan opettaa usealla eri menetelmällä, joista yksi on vastavirtaalgoritmi (back-propagation algorithm). Neuroverkon tulostuskerroksessa olevan neuronin j vasteen virhe n:nnellä opetuskierroksella (n:nnen opetusvektorin jälkeen) e j (n) on määritelty toivotun vasteen d j (n) ja verkon antaman vasteen y j (n) välisenä erotuksena. e (n) = d (n) y j j j (n) Neuronin j hetkellinen virhe-energian määrä on yhtä suuri kuin ½ ( n). Vastaavasti kokonaisenergian hetkellinen määrä E(n) saadaan summaamalla ½ ( n) -termit yli kaikkien tulostuskerroksen neuronien. e j e j
MLP-VERKKO JA SEN OPEAMINEN 3 = C j e j n n E ) ( 1 ) ( Yhtälössä joukko C pitää sisällään kaikki tulostuskerroksen neuronit. Merkitään :llä opetusjoukon opetusvektoreiden määrää. neliövirheen energia saadaan summaamalla E(n) yli n:n ja normeeraamalla se joukon koon suhteen. = = n av n E E 1 ) ( 1 Hetkellinen virhe-energia, ja näin ollen myös keskimääräinen virhe-energia, on kaikkien verkon vapaiden parametrien funktio. ietylle opetusjoukolle E av edustaa kustannusfunktiota, jonka avulla kuvataan opetuksen etenemistä. Oppimisprosessin tavoitteena on säätää verkon vapaat parametrit siten, että E av minimoituu. (Hayden 1999.) Kuvitellaan monikerrosperseptroniverkko. Kun neuronista j menee aktivaatiofunktioon ϕ signaali v j (n), neuronin vasteena on y j (n). ( ) ) ( ) ( ) ( ) ( ) ( n v n y n y n w n v j j j m i i ji j = ϕ = = Kullakin opetuskierroksella painoja w ji (n) korjataan w ji (n):n verran, joka on verrannollinen osittaisdifferentiaaliin E(n)/ w ji (n). Ketjusäännön avulla gradientti saadaan seuraavanlaiseen muotoon. ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( n w n v n v n y n y n e n e n E n w n E ji j j j j j j ji = Osittaisdifferentiaali E(n)/ w ji (n) on herkkyystekijä, joka määrää optimiratkaisun hakusuunnan painoavaruudessa. Yhtälön ratkaisu saadaan ratkaisemalla osaongelmat. ) ( )) ( '( ) ( ) ( )) ( '( 1) ( ) ( ) ( ) ( n y n v n e n y n v n e n w n E i j j j i j j j ji ϕ ϕ = = Korjaustermin w ji (n) suuruus määritellään delta-säännön avulla. ) ( ) ( ) ( n w n E n w ji ji = η Yhtälössä η on vastavirta-algoritmin oppimisaste (learning rate). Negatiivinen etumerkki selittyy gradientin pienenemisellä painoavaruudessa. (Haykin 1999.) Perusvastavirta-algoritmi on siis gradienttimenetelmä. Algoritmista on kuitenkin olemassa lukuisia sovelluksia, jotka konvergoivat nopeammin kuin perusgradi-
MLP-VERKKO JA SEN OPEAMINEN 4 enttimenetelmä. Näitä ovat esimerkiksi konjugaattigradienttimenetelmä, Newtonin menetelmä ja siitä johdettu Levenberg-Marquardt:in menetelmä. (Demuth & Beale 1998.) Newtonin menetelmässä parametrien (X) päivitys tehdään seuraavan yhtälön mukaisesti. x x k + 1 = k H 1 k g k Yhtälössä H k on hyvyysindeksin (performance) Hessen matriisi (toiset derivaatat) nykyisillä painojen ja harhakertoimien arvoilla ja g gradientti. Newtonin menetelmää käytetään usein vaihtoehtona konjugaattigradienttimenetelmälle, kun neuroverkko halutaan opettaa tavallista gradienttimenetelmää nopeammin. Newtonin menetelmä konvergoi usein nopeammin kuin konjugaattigradienttimenetelmä, mutta valitettavasti Hessen matriisin laskeminen eteenpäin syöttävälle neuroverkolle on usein erittäin työlästä. Levenberg-Marquardt-algoritmia suunniteltaessa tavoitteena oli löytää sellainen perusgradienttimenetelmää nopeampi opetusalgoritmi, joka ei vaadi Hessen matriisin laskemista. Kun hyvyysfunktio on neliösummamuodossa, Hessen matriisi H voidaan approksimoida seuraavalla tavalla. H J J Nyt gradientti g voidaan laskea seuraavan yhtälön mukaisesti. g = J e Yhtälöissä J on Jacobin matriisi, joka koostuu verkon tekemien virheiden ensimmäisistä derivaatoista suhteessa painoihin ja harhatermeihin ja e vektori, joka koostuu verkon virheistä. Jacobin matriisi voidaan laskea perusvastavirtaalgoritmilla, mikä on huomattavan paljon yksinkertaisempaa kuin Hessen matriisin laskeminen. (Demuth & Beale 1998.) Levenberg-Marquardt-algoritmi käyttää hyväkseen tätä Hessen matriisin approksimaatiota, jolloin parametrejä päivitetään seuraavan yhtälön mukaisesti. [ J J I] J e x k = xk µ 1 + 1 + Jos skalaari µ on nolla, saadaan tulokseksi Newtonin menetelmä Hessen matriisin approksimaatiolla. Kun µ on suuri, tuloksena on gradienttimenetelmä pienellä askelkoolla. Newtonin menetelmä on nopeampi ja tarkempi virheen minimin läheisyydessä, minkä takia tavoitteena on siirtyä gradienttimenetelmästä Newtonin menetelmään mahdollisimman nopeasti. ästä syystä µ pienenee jokaisen onnistuneen askeleen (hyvyysfunktion arvo laskee) jälkeen ja sitä kasvatetaan ainoastaan silloin, kun askel muuten kasvattaisi hyvyysfunktion arvoa. ällä tavoin hyvyysfunktion arvo pienenee jokaisella iteraatiokierroksella. (Demuth & Beale 1998.)
UKIMUSASEELMA JA HYPOEESI 5 5 utkimusasetelma ja hypoteesit Ennustepoikkileikkauksen liikennetilanne on saapuvan liikennemäärän, ruuhkan sijainnin, tien välityskyvyn ym. ominaisuuksien lisäksi riippuvainen vallitsevista keli- ja sääolosuhteista. Myös aggregointijakson pituudella on merkitystä, sillä pitkä jakso tasaa vaihteluita. Se taas, mitä lisäarvoa muiden poikkileikkausten liikennetiedoista on syötetietoina mallille, on riippuvainen näiden lisätietopoikkileikkausten sijainnista suhteessa ruuhkapisteisiin tai ramppeihin ja siitä, mikä on ennustejakson pituus. Ennustemallia tehtäessä tulisi periaatteessa selvittää kaikkien em. tekijöiden vaikutukset malliin sen lisäksi, että on tarpeen etsiä optimaalinen mallinnusmenetelmä (neuroverkko tms.). ässä selvityksessä sää- ja kelitiedot piti jättää tutkimuksen ulkopuolelle, koska aineistossa ei ollut suuria sää- tai kelivaihteluita (aineisto kerättiin touko-kesäkuussa). Myöskin lyhyempien aggregointi- ja ennustejaksojen vaikutus jää selvittämättä aineiston ongelmien vuoksi (mm. havaintojen määrä ei riitä minuutin aggregointijaksoon). Lisätietopoikkileikkausten optimaalisen sijainnin määrittämisessä rajoittavana tekijänä oli koealueen lyhyys (noin kolme kilometriä). Muiden tekijöiden vaikutuksia sitä vastoin voitiin selvittää ainakin jossain laajuudessa. utkimuksessa haluttiin ensin selvittää, minkälainen on lyhyen aikavälin liikennetilanne-ennusteen kannalta optimaalinen neuroverkko. ällä tarkoitetaan sitä, mikä aineiston esikäsittelymenetelmä kannattaisi valita, minkälaiset aktivaatiofunktiot laittaa neuroverkkoon tai että kannattaako malli jakaa osamalleihin. ämän jälkeen optimoitiin muita ennustemalliin liittyviä tekijöitä, kuten syötteitä, ennustejakson pituutta ja poikkileikkausten sijaintia. Lopuksi neuroverkkoon perustuvia malleja verrattiin naiiviin malliin ja Länsiväylällä kerättyjä kokemuksia sovellettiin kaksikaistaisessa kohteessa valtatiellä 3. Optimaalinen neuroverkko yritettiin siis löytää selvittämällä optimaalinen aineiston esikäsittelymenetelmä, neuroverkon aktivaatiofunktioyhdistelmä ja osamallijako. Erilaisia vaihtoehtoja kokeiltiin hieman erilaisilla aineistoilla, jotta nähtiin ominaisuuksien vahvuudet erilaisissa tilanteissa. Aineiston esikäsittelymenetelmävaihtoehdoiksi valittiin skaalaus ja normeeraus yhdistettynä pääkomponenttianalyysiin. Aktivaatiofunktiovaihtoehtoina käytettiin lineaarista funktiota, logistista funktiota ja hyperbolista tangenttia. Osamalleihin jakamisen kannattavuutta selvitettiin vertaamalla yksittäistä mallia, joka teki kaikki ennusteet, osamalleihin jaettuihin malleihin, joissa yksittäinen osamalli teki ennusteen joko yksittäiselle ennustejaksolle tai suureelle. Alla ovat asiaan liittyvät tutkimushypoteesit. Syötedatan dimensioiden vähentäminen pääkomponenttianalyysin avulla kannattaa silloin, kun syöteparametrejä on paljon. Aktivaatiofunktioyhdistelmien välillä ei ole eroa ennusteen tarkkuuden kannalta.
UKIMUSASEELMA JA HYPOEESI 6 Osamalleihin jaetun ennustemallin tulokset ovat vähintään yhtä hyviä kuin jakamattoman mallin. Ennustemallia yritettiin lisäksi optimoida tutkimalla erilaisia syötteitä, ennustusjakson pituutta ja poikkileikkausten sijaintia. Perus liikennemäärä- ja keskinopeusaikasarjojen lisäksi syötteinä kokeiltiin kellonaika- ja viikonpäivätietojen antamista eri muodoissa (joko aika- ja päivätietoina tai kyseisten hetkien keskimääräisinä liikennemäärä- ja keskinopeustietoina) sekä nopeuden keskihajontaa. Perusmallit tehtiin ennustamaan liikennetilanne 15 minuuttia eteenpäin. arkoitus oli selvittää, kuinka ennusteen laatu muuttuu, kun ennustejakson pituus kasvaa 3 minuuttiin. Perusmallit tehtiin oletuksella, että käytettävissä on tiheästi asennettuja ilmaisimia. arkoitus oli kuitenkin selvittää, miten poikkileikkaukset kannattaisi sijoittaa silloin, kun niiden määrä on rajallinen. Alla ovat asiaan liittyvät tutkimushypoteesit. Kellonaika- ja päivätiedot parantavat ennusteita. Sillä, miten kellonaika- ja päivätiedot annetaan, ei ole merkitystä ennusteen laadun kannalta. Nopeuskeskihajontatiedot parantavat etenkin nopeusennusteita. Ennusteen tarkkuus huononee ennustejakson pituuden kasvaessa. Mitä kauempana lisätietopoikkileikkaus sijaitsee ennustepoikkileikkauksesta, sitä tarkempia ovat ennusteet suhteellisen lyhyistä etäisyyksistä puhuttaessa. On olemassa jokin etäisyys, jota lähemmäksi poikkileikkauksia ei kannata sijoittaa silloin, kun niiden määrä on rajallinen. Selvityksen lopussa neuroverkkomallin antamia ennusteita verrattiin naiivin ennustemallin antamiin tuloksiin. Lisäksi testattiin, kuinka hyvin ruuhka-ajan liikennettä kyettiin ennustamaan. Länsiväylältä saatuja kokemuksia sovellettiin kaksikaistaisessa kohteessa. Alla on asiaan liittyviä tutkimushypoteeseja. Neuroverkkomallin antamat ennusteet ovat tarkempia kuin naiivin mallin, koska naiivi malli ei pysty reagoimaan odottamattomiin liikenteenhäiriöihin. Ruuhka-ajan havainnoilla opetettu malli antaa parempia ruuhka-ajan ennusteita kuin koko päivän aineistolla opetettu malli. Kaksikaistaisella tiellä mallille kannattaa antaa syötteeksi tiedot myös vastaantulevasta liikenteestä. Länsiväylältä saatuja kokemuksia voidaan soveltaa suurelta osin suoraan myös kaksikaistaisella tiellä.
OPIMAALINEN NEUROVERKKO 7 6 Optimaalinen neuroverkko 6.1 Perusennustemalli Länsiväylän aineisto oli käytettävissä sekä poikkileikkaus- että kaistakohtaisina arvoina. Ennustemallin syötetiedoiksi valittiin poikkileikkauskohtainen aineisto, jottei piilokerroksen neuronien määrä pienenisi liikaa. Aineisto jaettiin kolmeen osaan. Yhdestä neljäsosasta tehtiin validointidata, yhdestä neljäsosasta testidata ja puolet datasta jätettiin opetusdataksi. Opetusdatan kooksi saatiin 1 67 havaintoa, validointidatan 813 ja testidatan 814 havaintoa. Opetusdata koostui niistä havainnoista, joiden perusteella neuroverkko yritti oppia mallinnettavaa ilmiötä. Validointidata taas oli aineisto, jonka perusteella yritettiin havaita, milloin opetus oli edennyt niin pitkälle, ettei neuroverkko enää oppinut yleisiä mallinnettavaan ilmiöön liittyviä ominaisuuksia, vaan alkoi opetella käytetyn opetusjoukon erityispiirteitä. ämä ilmeni tilanteena, jolloin opetusjoukon virhe pieneni, mutta validointijoukon virhe alkoi kasvaa. estijoukko oli kolmas aineisto ja sitä ei käytetty opetusprosessissa millään tavalla. Sen tarkoituksena oli testata, kuinka hyvin opetuksessa onnistuttiin eli kuinka hyvin neuroverkko toimi. Syötedatana kokeiltiin kolmea erilaista poikkileikkauskohtaista aineistoa: ensimmäisessä oli viimeisen 15 minuutin liikennemäärä- ja nopeustiedot kaikilta seitsemältä poikkileikkaukselta (4 syöteparametriä, eli kolme liikennemäärä- ja kolme keskinopeushavaintoa jokaisesta poikkileikkauksesta), toisessakin aineistossa poikkileikkauksia oli seitsemän, mutta aineisto oli ainoastaan viimeiseltä kymmeneltä minuutilta (8 syöteparametriä) ja kolmannessa datassa tiedot olivat jälleen 15 viimeiseltä minuutilta, mutta ainoastaan viideltä poikkileikkaukselta (3 syöteparametriä). Karsituiksi tulivat poikkileikkaukset 14 ja 6. Näin päästiin kokeilemaan vaihtokauppaa vähemmän tiedon, mutta useamman neuronin, ja enemmän tiedon, mutta vähempien neuronien välillä. utkimuksessa aineisto muokattiin kahdella eri tavalla: toinen aineisto skaalattiin välille [-1, 1] ja toinen normeerattiin nollakeskiarvoiseksi ja yksihajontaiseksi. Normeeratulle aineistolle tehtiin lisäksi pääkomponenttianalyysi, jolla sen dimensiota saatiin pienemmäksi. Pääkomponenttianalyysissä karsittiin ne komponentit, jotka selittivät alle prosentin aineiston vaihteluista. Nyt tehdyssä tutkimuksessa piilokerrosten lukumääräksi valittiin yksi ja se koostui Widrow:n säännön mukaisesta määrästä neuroneja alaspäin pyöristettynä (esim. N hmax = 4,8 N h = 4). Perusennustemallien syöte- ja piilokerroksen neuronien määrät on esitetty taulukossa 3.