Samankaltaisia ongelmia esiintyy mm. puskurinhallinnan yhteydessä: on päätettävä,

Samankaltaiset tiedostot
Estojärjestelmä (loss system, menetysjärjestelmä)

Littlen tulos. Littlen lause sanoo. N = λ T. Lause on hyvin käyttökelpoinen yleisyytensä vuoksi

Esimerkki: Tietoliikennekytkin

Liikenneongelmien aikaskaalahierarkia

Demonstraatiot Luento

Estynyt puheluyritys menetetään ei johda uusintayritykseen alkaa uusi miettimisaika: aika seuraavaan yritykseen Exp(γ) pitoaika X Exp(µ)

Demonstraatiot Luento 7 D7/1 D7/2 D7/3

Syntymä-kuolema-prosessit

Numeeriset menetelmät TIEA381. Luento 12. Kirsi Valjus. Jyväskylän yliopisto. Luento 12 () Numeeriset menetelmät / 33

Syntymä-kuolema-prosessit

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

Diskreettiaikainen dynaaminen optimointi

Markov-kustannusmallit ja kulkuajat

Markov-ketjut pitkällä aikavälillä

Mat Dynaaminen optimointi, mallivastaukset, kierros 5

MS-A0004/A0006 Matriisilaskenta

J. Virtamo Jonoteoria / Prioriteettijonot 1

Harjoitus Tarkastellaan luentojen Esimerkin mukaista työttömyysmallinnusta. Merkitään. p(t) = hintaindeksi, π(t) = odotettu inflaatio,

T Rinnakkaiset ja hajautetut digitaaliset järjestelmät Stokastinen analyysi

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

Numeeriset menetelmät TIEA381. Luento 7. Kirsi Valjus. Jyväskylän yliopisto. Luento 7 () Numeeriset menetelmät / 43

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

1 Rajoittamaton optimointi

Algoritmit 2. Luento 13 Ti Timo Männikkö

Jatkuva-aikaisten Markov-prosessien aikakehitys

Odotusjärjestelmät. Aluksi esitellään allaolevan kuvan mukaisen yhden palvelimen jonoon liittyvät perussuureet.

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

min x x2 2 x 1 + x 2 1 = 0 (1) 2x1 1, h = f = 4x 2 2x1 + v = 0 4x 2 + v = 0 min x x3 2 x1 = ± v/3 = ±a x 2 = ± v/3 = ±a, a > 0 0 6x 2

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

y + 4y = 0 (1) λ = 0

4. Lasketaan transienttivirrat ja -jännitteet kuvan piiristä. Piirielimien arvot ovat C =

J. Virtamo Jonoteoria / Prioriteettijonot 1

f (28) L(28) = f (27) + f (27)(28 27) = = (28 27) 2 = 1 2 f (x) = x 2

Investointimahdollisuudet ja investoinnin ajoittaminen

Jatkuva-aikaisia Markov-prosesseja

Projektin arvon aleneminen

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kun järjestelmää kuvataan operaattorilla T, sisäänmenoa muuttujalla u ja ulostuloa muuttujalla y, voidaan kirjoittaa. y T u.

STOKASTISET PROSESSIT Peruskäsitteitä

Dynaamisten systeemien teoriaa. Systeemianalyysilaboratorio II

Matematiikan tukikurssi

Kimppu-suodatus-menetelmä

Dierentiaaliyhtälöistä

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

J. Virtamo Jonoteoria / Jonoverkot 1

Martingaalit ja informaatioprosessit

Luento 1: Optimointimallin muodostaminen; optimointitehtävien luokittelu

Yhtälöryhmät 1/6 Sisältö ESITIEDOT: yhtälöt

Gaussin ja Jordanin eliminointimenetelmä

Tampere University of Technology

Lineaarinen yhtälöryhmä

Insinöörimatematiikka D

Fourier-analyysi, I/19-20, Mallivastaukset, Laskuharjoitus 7

Demo 1: Simplex-menetelmä

j n j a b a c a d b c c d m j b a c a d a c b d c c j

Jonojen matematiikkaa

Mat Dynaaminen optimointi, mallivastaukset, kierros 1

Mat Dynaaminen optimointi, mallivastaukset, kierros Johdetaan välttämättömät ehdot funktionaalin. g(y(t), ẏ(t),...

ESTON LASKENTA VERKOSSA

Batch means -menetelmä

Markov-ketjut pitkällä aikavälillä

Numeeriset menetelmät TIEA381. Luento 5. Kirsi Valjus. Jyväskylän yliopisto. Luento 5 () Numeeriset menetelmät / 28

Matematiikan tukikurssi

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

OPTIMAALINEN INVESTOINTIPÄÄTÖS

Mat Investointiteoria Laskuharjoitus 3/2008, Ratkaisut

Informaation arvo. Ohjelmistotekniikan laitos OHJ-2550 Tekoäly, kevät

ax + y + 2z = 0 2x + y + az = b 2. Kuvassa alla on esitetty nesteen virtaus eräässä putkistossa.

y (0) = 0 y h (x) = C 1 e 2x +C 2 e x e10x e 3 e8x dx + e x 1 3 e9x dx = e 2x 1 3 e8x 1 8 = 1 24 e10x 1 27 e10x = e 10x e10x

Differentiaali- ja integraalilaskenta 1 Ratkaisut 5. viikolle /

Dynaamiset regressiomallit

MS-C1340 Lineaarialgebra ja

Moniulotteisia todennäköisyysjakaumia

[xk r k ] T Q[x k r k ] + u T k Ru k. }.

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

v AB q(t) = q(t) v AB p(t) v B V B ṗ(t) = q(t) v AB Φ(t, τ) = e A(t τ). e A = I + A + A2 2! + A3 = exp(a D (t τ)) (I + A N (t τ)), A N = =

MAB3 - Harjoitustehtävien ratkaisut:

J. Virtamo Liikenneteoria ja liikenteenhallinta / Jonoverkot 1

5 Differentiaaliyhtälöryhmät

2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio

Johdatus diskreettiin matematiikkaan Harjoitus 5, Ratkaise rekursioyhtälö

Malliratkaisut Demot

1 Komparatiivinen statiikka ja implisiittifunktiolause

Osa IX. Z muunnos. Johdanto Diskreetit funktiot

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

Numeeriset menetelmät

Numeeriset menetelmät

Sekalaiset tehtävät, 11. syyskuuta 2005, sivu 1 / 13. Tehtäviä

Luento 1: Optimointimallin muodostaminen; optimointitehtävien luokittelu

MS-A010{3,4,5} (ELEC*, ENG*) Differentiaali- ja integraalilaskenta 1 Luento 2: Sarjat

Generoivat funktiot, Poisson- ja eksponenttijakaumat

Liikenneteorian tehtävä

Suorista ja tasoista LaMa 1 syksyllä 2009

Lineaariavaruudet. Span. Sisätulo. Normi. Matriisinormit. Matriisinormit. aiheita. Aiheet. Reaalinen lineaariavaruus. Span. Sisätulo.

(c) Kuinka suuri suhteellinen virhe painehäviön laskennassa tehdään, jos virtaus oletetaan laminaariksi?

763306A JOHDATUS SUHTEELLISUUSTEORIAAN 2 Ratkaisut 1 Kevät y' P. α φ

7. Olemassaolo ja yksikäsitteisyys Galois n kunta GF(q) = F q, jossa on q alkiota, määriteltiin jäännösluokkarenkaaksi

MS-A010{3,4} (ELEC*) Differentiaali- ja integraalilaskenta 1 Luento 2: Sarjat

Normaaliryhmä. Toisen kertaluvun normaaliryhmä on yleistä muotoa

Transkriptio:

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 1 MARKOVIN PÄÄTÖSPROSESSIT Aikaisemmin Markovin prosesseja käsiteltäessä on lähdetty siitä, että systeemin mahdolliset tilat ja näiden väliset tilasiirtymänopeudet on annettu. Tehtävänä tällöin on ollut lähinnä selvittää, mitkä ovat järjestelmän tasapainotodennäköisyydet tai mahdollisesti miten tilatodennäköisyydet kehittyvät annetusta alkutilasta lähtien. Näiden avulla voidaan laskea kiinnostavia suureita kuten esto- tai ylivuototodennäköisyyksiä. Usein järjestelmän operoinnissa voidaan kuitenkin tehdä valintoja. Järjestelmän toiminta ei ole edeltäkäsin kokonaan kiinnitetetty, vaan sen käyttäytyminen riippuu valitusta toimintapolitiikasta. Tällöin tehtäväksi muodostuu sellaisen optimaalisen politiikan määrittely, joka maksimoi jonkin tavoitefunktion arvon. Esimerkiksi reititystehtävät johtavat tämäntyyppiseen ongelmanasetteluun. Kun verkon tila (käynnissä olevat yhteydet) tunnetaan, tehtävänä on päättää, otetaanko tiettyyn luokkaan (lähde- ja kohdepisteet, muut mahdolliset attribuutit) kuuluva yhteys kuljetettavaksi ja jos otetaan, mitä kautta se reititetään. Tavoitteena voi olla maksimoida (pitkällä tähtäimellä) esim. kuljetettujen yhteyksien lukumäärä tai kuljetetun liikenteen määrä (yhteysminuutit). Samankaltaisia ongelmia esiintyy mm. puskurinhallinnan yhteydessä: on päätettävä, missä järjestyksessä paketteja lähetetään, mitä paketteja hylätään puskurin täyttyessä jne.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 2 Markovin päätösprosessit (MDP, Markov decision processes) Markovin päätösprosessien teoria tutkii edellä kuvatun kaltaisia päätöksentekotehtäviä silloin, kun järjestelmää stokastiselta kannalta voidaan kuvata Markovin prosessina. Siinä yhdistyvät Dynaaminen ohjelmointi (Bellman, 1957) Markovin prosessien teoria (Howard, 1960) Markovin prosessissa systeemin tila X S voi hypätä tilasta i tilaan j annetulla todennäköisyydellä p i,j. Se miten tilaan i on tultu, ei vaikuta mitenkään seuraavaan eikä myöhempiinkään tilasiirtymiin. Markovin päätösprosesseissa jokaisen tilasiirtymän jälkeen, oltaessa uudessa tilassa, voidaan tehdä jokin päätös tai toimenpide (action), johon liittyy jokin välitön tuotto-/kustannusvaikutus ja joka lisäksi vaikuttaa seuraavaan tilasiirtymätodennäköisyyteen. Esimerkiksi, kun verkosta poistuu yhteys tai sinne on juuri otettu uusi yhteys, voidaan samantien päättää, mitä tässä tilassa oltaessa mahdollisesti saapuville uusille kutsuille tehdään (hylätään/hyväksytään/mille reitille ohjataan). Tämä päätös selvästi vaikuttaa siihen, mitkä tilasiirtymät ovat mahdollisia tai yleisemmin mitkä ovat eri siirtymien todennäköisyydet; itse siirtymä tapahtuu kuitenkin stokastisesti, koska kutsujen saapumis- jä päättymisprosessit ovat stokastisia.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 3 Markovin päätösprosessit (jatkoa) Tehtävänä on siis etsiä optimaalinen politiikka siten, että tuottojen odotusarvo maksimoituu (tai kustannusten odotusarvo minimoituu; on samantekevää kummasta tehtävästä puhutaan). Markovisuusoletusten vallitessa on selvää, että kussakin tilassa valittava edullisin toimenpide riippuu vain tilasta itsestään. Yleisestikin tietty politiikka, olipa se optimaalinen tai ei, määrittelee kussakin tilassa valittavan toimenpiteen. Kun kuhunkin tilaan on liitetty tietty toimenpide, joka puolestaan määrää seuraavan tilasiirtymän todennäköisyydet, ovat nämä todennäköisyydet vain ko. tilasta riippuvia ja systeemi kokonaisuudessaan muodostaa Markovin prosessin. Kuhunkin politiikkaan liittyy erilainen Markovin prosessi. Erityisen kiinnostuksen kohteena on siis sellaisen politiikan etsiminen, johon liittyvällä Markovin prosessilla on maksimaalinen keskimääräinen tuotto. Samalla tavalla kuin Markovin prosessit yleensä jaetaan myös Markovin päätösprosessit diskreettiaikaisiin ja jatkuva-aikaisiin päätösprosesseihin.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 4 Diskreettiaikaiset MDP:t Järjestelmän tila voi muuttua vain diskreeteillä ajanhetkillä t = 1, 2,.... Kun järjestelmä on tullut tilaan i, on tehtävä jokin päätös a (action), joka kuuluu tilassa i mahdollisten toimenpiteiden A i joukkoon, a A i. Päätökseen a liittyy välitön tuotto r i (a). Tuotto voi olla myös stokastinen, jolloin r i (a) tarkoittaa sen odotusarvoa. Seuraavalla ajanhetkellä järjestelmä siirtyy uuteen tilaan j tilasiirtymätodennäköisyydellä p i,j (a), joka riippuu tilassa i valitusta toimenpiteestä a. Tilasiirtymätodennäköisyydet eivät kuitenkaan riipu siitä, miten tilaan i on tultu (markovisuus). Lisäksi rajoitutaan tarkastelemaan vain aikahomogeenisiä systeemejä, joissa r i (a) ja p i,j (a) eivät myöskään riipu ajanhetkestä t. Politiikka α määrittelee, mikä toimenpide a = a i (α) kussakin tilassa i valitaan mahdollisten toimenpiteiden joukosta. Tällöin tilassa i käyntiin liittyvä tuotto r i (a i (α)) sekä tilasiirtymätodennäköisyydet p i,j (a i (α)) ovat politiikan α ja asianomaisten tilojen funktioita, ja käytetään näille lyhyyden vuoksi merkintöjä r i (α) ja p i,j (α).

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 5 Diskreettiaikaisen MDP:n tasapainojakauma Kun politiikka α on annettu, tilasiirtymätodennäköisyydet p i,j (α) ovat kiinteitä. Yleisten oletusten vallitessa näiden tilasiirtymätodennäköisyyksien määrittelemällä Markovin ketjulla on tasapainojakauma; tilatodennäköisyydet π i (α). Tasapainojakauma ratkaistaan, kuten minkä tahansa Markovin ketjun tapauksessa, tasapainoyhtälöistä täydennettynä normiehdolla: i π i (α) = j π i (α) = 1 eli vektorimuodossa π j (α)p j,i (α) π(α) = π(α)p(α) π(α) e T = 1 missä π(α) = (π 1 (α), π 2 (α),...) P(α) = p 1,1 (α) p 1,2 (α)... p 2,1 (α) p 2,2 (α)........ e = (1, 1,...) Näistä yhtälöistä voidaan π(α) ratkaista. Ratkaisu voidaan kirjoittaa muodossa π(α) = e(p(α) I + E) 1, missä I on identiteettimatriisi ja E on matriisi, jonka kaikki elementit ovat ykkösiä.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 6 Diskreettiaikaisen MDP:n keskituotto Kun tasapainojakauma π(α) on ratkaistu, voidaan heti kirjoittaa järjestelmän keskimääräinen tuotto r(α) eli tuoton odostuarvo yhtä askelta kohden, r(α) = i π i (α) r i (α) = π(α) r T (α), missä r(α) = (r 1 (α), r 2 (α),...). Tehtävänä on etsiä optimaalinen politiikka α, joka maksimoi keskimääräisen tuoton α = argmax r(α) eli r(α ) r(α), α α Koska politiikan määrittely on luonteeltaan diskreetti, ei optimipolitiikan etsiminen ole aivan suoraviivaista, vaikka periaatteessa r(α) voidaankin selvittää jokaiselle politiikalle. Optimin hakemiseen tarvitaan tiettyä systematiikkaa. Käytettävissä ovat mm. seuraavat lähestymistavat 1. Politiikkaiterointi 2. Arvoiterointi 3. Lineaarinen ohjelmointi Jatkossa keskitytään lähinnä politiikkaiterointiin. Tätä varten joudutaan tutkimaan suuretta, joka tunnetaan nimellä tilan i suhteellinen arvo.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 7 Tilojen suhteelliset arvot Suure r(α) kertoo keskimääräisen tuoton yhdellä askeleella politiikan α vallitessa. Nyt halutaan tutkia, mitä voidaan sanoa tuoton kertymästä, jos meillä on lisätieto siitä, että järjestelmä on alkuhetkellä tilassa i. Merkitään V n (i, α) = kertyvän tuoton odotusarvo n:ltä askeleelta, kun systeemi lähtee tilasta i Ensimmäisellä askeleella (alkutilassa) tuotto on r i (α) = e i r T (α), missä e i = (0,..., 0, }{{ 1 }, 0,..., 0) komponentti i Ensimmäisen askeleen jälkeen tilatodennäköisyysvektori on e i P(α). Vastaavasti tuoton odotusarvo toisella askeleella on e i P(α) r T (α). Yleisesti on V n (i, α) = e i ( I + P(α) + P 2 (α) +... + P n 1 (α) ) r T (α) Tiedetään, että alkutilasta riippumatta tilatodennäköisyydet lähenevät tasapainojakaumaa, e i P n (α) π(α), kun n

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 8 Tilojen suhteelliset arvot (jatkoa) n:n kasvaessa lisätermit V n (i, α):ssa lähenevät arvoa π(α) r T (α) = r(α). Riittävän monen askeleen jälkeen alkutila unohtuu ja tuottoa kertyy askelta kohden tuottokeskiarvon verran. V n (i, α) on kuvan osoittama summa. Vain alkupään tuottokertymä riippuu alkutilasta. Alkutransientin kokonaisvaikutus voidaan laskea kullekin tilalle. Määritellään tilan i suhteellinen arvo v i (α) v i (α) = lim n (V n (i, α) n r(α)) 0 1 2 3 4 5 6 7 r Tilan i suhteellinen arvo kertoo, kuinka paljon suurempi äärettömän aikahorisontin tuottokertymän odotusarvo on, kun systeemi lähtee alkutilasta i, verrattuna keskimääräiseen tuottokertymään.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 9 Howardin yhtälö Tilojen suhteelliset arvot voidaan ratkaista Howardin yhtälöistä v i (α) = r i (α) r(α) + j p i,j (α) v j (α) i Määrittelemällä v(α) = (v 1 (α), v 2 (α),...) yhtälö voidaan kirjoittaa vektorimuodossa v(α) = r(α) r(α)e + v(α)p T (α) Komponenttimuotoinen Howardin yhtälö voidaan tulkita seuraavasti. Lähtien alkutilasta i: Tuottokertymän poikkeama keskiarvoon nähden ensimmäisellä askeleella on r i (α) r(α); tämä otetaan eksplisiittisesti huomioon. Tästä eteenpäin käytetään hyväksi markovisuutta; ehdollistettuna siihen, että systeemi siirtyy tilaan j, tuottokertymän poikkeama toisesta askeleesta eteenpäin on v j (α). Koska p i,j (α) on todennäköisyys, että siirrytään tilaan j, antaa summa (ehdollistamattoman) odotusarvon tuottokertymän poikkeamalle toisesta askeleesta eteenpäin.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 10 Huomioita Howardin yhtälöstä Tasapainoyhtälön ja Howardin yhtälön vertailu Tasapainoyhtälössä π j = π i p i,j i tilan i todennäköisyys hajoitetaan ja työnnetään eteenpäin. Howardin yhtälön viimeisessä termissä p i,j v j tulevien polkujen tuotot kerätään j taaksepäin. p i, j j p i, j j, v j π i i i Huomaa tästä johtuva ero: πp vs. vp T.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 11 Huomioita Howardin yhtälöstä (jatkoa) Koska j p i,j = 1, Howardin yhtälöt voidaan kirjoittaa muodossa r i (α) r(α) + j p i,j (α)(v j (α) v i (α)) = 0, i Vain erotukset v j (α) v i (α) esiintyvät yhtälössä. Suhteelliset arvot v i (α) jäävät vakioyhteenlaskettavaa vaille määräämättömiksi. Jatkon kannalta määräämättömällä vakioyhteenlaskettavalla ei ole merkitystä; vain suhteellisten arvojen erot ovat tärkeitä. Voidaan mielivaltaisesti asettaa esim. v 1 (α) = 0. Tämän jälkeen tuntemattomia arvoja v i (α) on yksi vähemmän kuin yhtälöitä. Mutta myös r(α) on tuntematon; kaikkiaan tuntemattomia on yhtä monta kuin yhtälöitä; r(α) ratkeaa muiden mukana.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 12 Huomioita Howardin yhtälöstä (jatkoa) Se arvo r(α), joka määräytyy Howardin yhtälön ratkaisuna (arvojen v 2 (α), v 3 (α),... ohella), on automaattisesti sama kuin rπ T (α). Tämä nähdään kertomalla (pistetulo) Howardin yhtälö oikealta π T (α):lla (lyhyyden vuoksi jätetään riippuvuus politiikasta α merkitsemättä): v = r re + vp T π T v π T = r π T r e π T } {{ } 1 +v P T π T }{{} (π P) T =π T = r π T r + v π T r = r π T

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 13 Politiikkaiterointi Howardin yhtälö määrää tilojen suhteelliset arvot v i (α), kun politiikka α on annettu. Politiikkaa voidaan parantaa valitsemalla kussakin tilassa i toimenpide a seuraavasti a i = argmax a {r i (a) r(α) + j p i,j (a) v j (α)} Idea tässä on se, että yksittäinen päätös tehdään maksimoiden tuoton odotusarvo, ottaen huomioon päätöksen välitön vaikutus sekä sen vaikutus seuraavaan tilasiirtymään, mutta olettaen, että siitä eteenpäin kaikki päätökset tehdään vanhan politiikan α mukaan. Valitsemalla toimenpide a i ylläolevan mukaisesti aina kussakin tilassa päädytään uuteen politiikkaan α. Uudella politiikalla α voidaan (ainakin periaatteessa) ratkaista keskimääräinen tuotto r(α ) ja tilojen suhteelliset arvot v i (α ). Voidaan osoittaa, että uusi politiikka α on aina parempi kuin lähtökohtana oleva politiikka α eli että r(α ) r(α). Politiikkaiteraatiossa iteraatiota jatketaan, kunnes mikään ei enää muutu. Yleensä politiikkaiteraatio konvergoi melko nopeasti.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 14 Arvoiterointi Arvoiteraatiossa käsitellään kumulatiivista tuottoa V n (i) lähtien alkutilasta i. Nyt on mukavinta indeksoida aika siten, että alkuhetken indeksi on n. Viimeistä hetkeä merkitään indeksillä 0 ja asetetaan V 0 (i) = 0, i. Optimaalisen politiikan määrääminen (terminaalituotoilla V 0 (i) = 0) tapahtuu dynaamisen ohjelmoinnin tapaan edeten loppuhetkestä 0 kohti alkuhetkeä n. Kysytään, mikä toimenpide kannataa ensimmäisellä askeleella (hetki n) valita, systeemin ollessa tilassa i, ja mikä on vastaava tuoton odotusarvo V n (i) optimaalisella politiikalla. Asia ratkaistaan rekursiivisesti olettaen, että vastaava tehtävä on jo ratkaistu seuraavalle askeleelle (hetki n 1) ja, että optimipolitiikan tuotto-odotusarvot kyseisestä hetkestä loppuun asti V n 1 (i) tunnetaan kaikille tiloille i hetekllä n 1. Rekursioaskeleen määrittelee yhtälö (rekursiona alku: V 0 (i) = 0, i) V n (i) = max a {r i (a) + j p i,j (a)v n 1 (j)} Sulkulauseke edustaa tuotto-odotusarvoa, kun hetkellä n ollaan tilassa i ja valitaan toimenpide a, ja siitä hetkestä eteenpäin toimitaan optimaalisesti. Hetkellä n tilassa i optimaalinen toimenpide a on se, joka maksimoi sulkulausekkeen. Maksimin arvo on tuoton odotusarvo toimittaessa joka askeleella (n, n 1, n 2,..., 1) optimaalisesti.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 15 Arvoiterointi (jatkoa) Arvoiteraatiossa tapahtuu optimipolitiikan ja tilojen arvojen määrääminen rinnakkain. Kun n kasvaa ja ollaan yhä kauempana terminaalipisteestä: Arvoiteraation määräämä toimenpidevalinta tulee riippumattomaksi aika-askeleesta n ja riippuu vain tilasta i; kyseinen valinta vastaa (jatkuvan tilan) optimipolitiikkaa α. Tuotto-odostusarvot lähenevät muotoa: V n (i) v i (α ) + n r(α ) + c, missä c on jokin vakio. Jos viimeksi mainittu muoto sijoitetaan takaisin arvoiteraatioyhtälöön, saadaan v i (α ) = max a {r i (a) r(α ) + j p i,j (a)v j (α )} joka on optimaalisuusehto sekä politiikalle α että suhteellisille arvoille v i (α ) ja keskituotolle r(α ). Optimipolitiikka α on se politiikka, joka kussakin tilassa i valitsee maksimin toteuttavan toimenpiteen a. Maksimoiva toimenpide riippuu arvoista v i, jotka puolestaan yhtälön mukaan riippuvat siitä, mikä kyseinen maksimoiva toimenpide on.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 16 Arvoiterointi (jatkoa) Optimipolitiikan ja siihen liittyvien suhteellisten arvojen mutkikkaasta riippuvuudesta ei varsinaisessa arvoiteroinnissa tarvitse välittää. Kumulatiivisten tuottojen V n (i) rekursiivinen laskenta arvoiteraatioyhtälöstä on helppo tehdä. Politiikkaiteraatiossa politiikan ja arvojen määrääminen on erotettu toisistaan: Toimenpidevalinta tehdään annetun politiikan α mukaan (ei maksimoiden), jolloin yhtälö on Howardin yhtälö suhteellisten arvojen määräämiseksi. Näillä suhteellisilla arvoilla määrätään uusi politiikka maksimoiden lauseke. Politiikka- ja arvoiteraatioiden vertailua Vaikka politiikkaiterointi voi vaikuttaa mutkikkaammalta, se on tehokkaaampi: tiettyyn politiikkaan liittyvät tilojen suhteelliset arvot lasketaan kerralla ratkaisemalla lineaarinen Howardin yhtälöryhmä. Arvoiteraatiossa tämän lineaarisen yhtälöryhmän ratkaisukin efektiivisesti tapahtuu iteroimalla, mikä on hidasta (joskin tähän limitettynä koko ajan samalla optimoidaan politiikka). Arvoiteraatiossa tarvitaan paljon enemmän iteraatiokierroksia.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 17 Jatkuva-aikaiset MDP:t Edellä esitetyt tarkastelut voidaan suhteellisen suoraviivaisesti siirtää jatkuva-aikaisiin Markovin päätösprosesseihin. Jokaisessa tilassa i valitaan tietty toimenpide a, joka riippuu vain tästä tilasta. Tila i ja siinä valittu toimenpide a yhdessä määräävät tuottonopeuden r i (a) sekä siirtymänopeudet q i,j (a) muihin tiloihin j. Annettu politiikka α määrää valinnan a jokaisessa tilassa i, a = a i (α), jolloin tuottonopeus ja siirtymänopeudet ovat tilan ja politiikan funktioita. Merkitään näitä jälleen lyhyyden vuoksi r i (α):lla ja q i,j (α):lla. Politiikkaan α liittyvät tilojen suhteelliset arvot v i (α) määräytyvät jälleen Howardin yhtälöstä, joka analogisesti aikaisemmin kirjoitetun muodon kanssa kuuluu r i (α) r(α) + j =i q i,j (α)(v j (α) v i (α)) = 0, i v i (α) = tilan i suhteellinen arvo r i (α) = tuottonopeus tilassa i r(α) = keskimääräinen tuottonopeus politiikalla α

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 18 Jatkuva-aikaisen MDP:n Howardin yhtälö Myös jatkuva-aikainen Howardin yhtälö voidaan kirjoittaa vektorimuodossa. Tätä varten muokataan ensin edellistä yhtälöä q i,j (α)(v j (α) v i (α)) = q i,j (α)v j (α) q i,j v i (α) = j =i j =i j =i }{{} q i,i j q i,j (α)v j (α) Saadaan r(α) r(α)e + v(α)q T (α) = 0 Q on tilasiirtymänopeuksista q i,j muodostettu siirtymänopeusmatriisi, Q = (q i,j ) Politiikka α eksplisiittisesti määrää siirtymänopeusmatriisin Q(α). v(α) ja r(α) määräytyvät tämän jälkeen Howardin yhtälöstä. Vertailun vuoksi on jälleen hyvä muistaa, että politiikkaa α vastaavat tasapainotodennäköisyydet π(α) määräytyvät tasapainoyhtälöstä π(α)q(α) = 0 (huomaa ero Q vs. Q T )

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 19 Huomioita Howardin yhtälöstä v i (α):t jäävät vakioyhteenlaskettavaa vaille määräämättä. Jos v(α):aan lisätään c e, missä c on vakio, yhtälö säilyy samana, koska eq T = (Q e T ) T = 0 (Q:n rivisummat ovat nollia). Voidaan asettaa esim. v 1 (α) = 0, jolloin yhtälöstä ratkeavat v 1 (α), v 2 (α),... sekä r(α). Näin saatu r(α) on automaattisesti sama kuin keskimääräinen tuottonopeus r(α)π T (α) Tämä nähdään kertomalla Howardin yhtälö oikealta π T :llä: r π T r e π T } {{ } 1 +v Q T π T }{{} (πq) T =0 = 0 r = r π T

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 20 Tilojen suhteelliset arvot Tilan i suhteellinen arvo v i edustaa jälleen alkutilasta i lähtien syntyvän tuottokertymän odotusarvon ja keskimääräisen tuottokertymän erotusta. Lähdettäessä tilasta i tilatodennäköisyysvektori on alkuhetkellä π(0) = e i (i:s komponentti on yksi, muut nollia). Tästä eteenpäin ajasta riippuvan todennäköisyysvektroin kehitys on, d dtπ(t) = π(t) Q, eli π(t) = π(0)e Qt ja tuottonopeus hetkellä t on siten rπ T (t) = re QTt e T i. Olkoon V i (t) tuottokertymä (tuottonopeuden aikaintegraali) välillä (0, t) lähtien alkutilasta i ja olkoon V(t) näistä muodostettu vektori. Helposti nähdään, että V(t) = r t 0 eqtu du jolloin v = lim t (V(t) r t e) Jälkimmäinen, vakiotermi ei muuta Howardin yhtälöä. Osoitetaan, että rajalla t ensimmäinen termi V(t) toteuttaa Howardin yhtälön: V(t)Q T = r t 0 eqtu du Q T = r/ t 0 eqtu = r( e QT t }{{} I) (r π T ) e r = r e r π T e r r e + V(t)Q T 0 kun t v toteuttaa Howardin yhtälön

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 21 Politiikkaiteraatio Politiikkaiteraatiossa lähdetään liikkeelle jostakin politiikasta α ja ratkaistaan siihen liittyvät tilojen suhteelliset arvot v i (α) ja keskimääräinen tuottonopeus r(α) Howardin yhtälöstä. Tämän jälkeen määrätään uusi politiikka, jossa kussakin tilassa i valitaan se toimenpide a, joka toteuttaa maksimin max {r a i(a) r(α) + q i,j (a)(v j (α) v i (α))} j =i Nämä valinnat määrittelevät uuden politiikan α. Tämän politiikan mukaisella siirtymänopeusmatriisilla Q(α ) ratkaistaan Howardin yhtälöstä uudet arvot v i (α ) ja r(α ) ja määrätään uusi politiikka ylläolevan yhtälön mukaisesti. Näin jatketaan, kunnes mikään ei muutu.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 22 Arvoiteraatio Arvoiteraatiossa tarkastellaan kumulatiivista tuottoa V i (t) äärellisellä aikavälillä ( t, 0), kun alkuhetkellä t systeemi on tilassa i. Indeksi t mittaa aikaa loppupisteestä 0 taaksepäin. Loppupisteessä t = 0 kumulatiivisilla tuotoilla on terminaaliarvot V i (0) = 0, i. Taaksepäin etenevä rekursioyhtälö saa jatkuvassa ajassa differentiaaliyhtälön muodon d dt V i(t) = max a {r i (a) + j =i q i,j (a)(v j (t) V i (t))} Tämä määrää sekä optimaalisen toimenpidevalinnan kussakin tilassa i (ja ajanhetekellä ( t)) sekä tähän optimipolitiikkaan liittyvät kumulatiivisten tuottojen odotusarvot V i (t) optimaalisella politiikalla.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 23 Arvoiteraatio (jatkoa) Kun arvoiteraatioyhtälöä integroidaan riittävän pitkälle taaksepäin (suureen arvoon t), tullaan jatkuvaan tilaan, jossa toimenpidevalinta riippuu vain tilasta i (ei ajasta t), ja tämä valinta vastaa optimipolitiikkaa α. Vastaavasti kumulatiivinen tuotto kasvaa vakionopeudella ajan funktiona V i (t) = v i (α ) + r(α ) t + c, missä c on jokin vakio. Kun tämä sijoitetaan arvoiteraatioyhtälöön, tämä saa muodon max a {r i (a) r(α ) + j =i q i,j (a)(v j (α ) v i (α ))} = 0 joka on optimaalisuusehto sekä politiikalle α että suhteellisille arvoille v i (α ) ja keskimääräiselle tuottonopeudelle r(α ). Käytännössä on helpointa tarkastella kumulatiivisia tuottoja ja ratkaista differentiaaliyhtälö riittävän pitkälle tai erottaa politiikan ja arvojen määrääminen politiikkaiteraation mukaisesti.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 24 Esimerkki 1. Tilojen suhteelliset arvot M/M/ -järjestelmässä Politiikkana on tämän järjestelmän vakio-oletusten mukaisesti vapaa pääsy: jokainen saapuva kutsu otetaan vastaan (saa oman johdon). Oletetaan, että tuottoa kertyy jokaisesta käynnissä olevasta yhteydestä vakionopeudella 1 (minuuttiveloitus, esim. senttiä/min). Kun systeemi on tilassa n (n yhteyttä käynnissä), tuottonopeus on n. Jatkuva-aikainen Howardin yhtälö tilalle n voidaan kirjoittaa suoraan n a + λ(v n+1 v n ) + µn(v n 1 v n ) = 0 Tässä on jo käytetty hyväksi sitä tietoa, että keskimääräinen tuottonopeus on sama kuin keskimäärin systeemissä olevien yhteyksien lukumäärä, joka on a = λ/µ. Merkitään u n = µv n. Tällöin yhtälö saa muodon n a + a(u n+1 u n ) + n(u n 1 u n ) = 0 eli a(u n+1 u n 1) = n(u n u n 1 1) Yhtälön ratkaisu on u n+1 u n = 1 eli u n = n + c, n = 0, 1,...

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 25 Esimerkki 1. (jatkoa) Vakion c arvo (joka ei ole tärkeä) kiinnittyy vaatimuksesta n π nu n = 0 n π nn + c n π n = a + c = 0 c = a Ratkaisu on u n = n a 5 Tulos voidaan ymmärtää helposti fysikaalisesti : Miehityksen odotusarvo m(t) = E[N(t)] M/M/ järjestelmässä noudattaa aina (alkutilajakaumasta riippumatta) yhtälöä d dt m(t) = λ µm(t) m(t) = (m(0) a)e µt + a 4 3 2 1 0 0.5 1 1.5 2 2.5 Tällöin mistä tahansa alkutilasta n lähtien (jolloin m(0) = n) tuottokertymän odotusarvo keskimääräiseen kertymään nähden on (m(t) a)dt = (m(0) a) e µt dt = 1 (n a) 0 0 µ m(t) 1/µ t

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 26 Esimerkki 2. Tilojen suhteelliset kustannukset M/M/1-jonossa Kun halutaan kehittää menetelmiä viiveen minimoimiseksi M/M/1-jonossa, on tarkoituksenmukaista ottaa tarkasteltavaksi kustannukset (ei tuotot). Asiakasta kohti kertyväksi kustannukseksi otetaan asiakkaan kokonaisviipymäaika jonossa. Tällöin tilassa n (asiakasta jonossa) kustannusten kertymänopeus on n. Jonojärjestelmässä halutaan minimoida m(t)dt, missä m(t) = E[N(t)]. Menetysjärjestelmässä integraali edustaa kuljetetun liikenteen odotusarvoa ja se halutaan maksimoida. Eston ja viipymisajan minimoinnit ovat vastakkaisia tavoitteita. Howardin yhtälö on jälleen helppo kirjoittaa (politiikkana vapaa pääsy jonoon): n ρ 1 ρ + λ(v n+1 v n ) + µ1 n>0 (v n 1 v n ) = 0 missä on käytetty hyväksi sitä, että keskimääräinen kustannusnopeus on sama kuin keskimääräinen jononpituus, jonka tiedetään olevan ρ/(1 ρ), ρ = λ/µ. (Yhtälö voidaan ratkaista ilmankin tätä tietoa).

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 27 Esimerkki 2. (jatkoa) Merkitään u n = µv n. Tällöin yhtälö on n ρ 1 ρ + ρ(u n+1 u n ) + 1 n>0 (u n 1 u n ) = 0 ρ (u n+1 u n n + 1 1 ρ ) = 1 n>0(u n u n 1 ) n 1 ρ u n+1 u n = n + 1 1 ρ v n+1 v n = n + 1 µ λ v n = 1 2 n(n + 1) µ λ kun asetetaan v 0 = 0 Fysikaalinen tulkinta: Miehityksen odotusarvo m(t) = E[N(t)] M/M/1-järjestelmässä käyttäytyy likimain kuvan mukaisesti. m(t) m(0)-( µ - λ)t ½ m(0) m(0)/( µ - λ) Lähdettäessä suuresta miehityksestä n, m(t) pienenee aluksi lineaarisesti. Kolmioalueen pinta-ala on alkumiehityksen neliöllinen funktio. ρ /(1- ρ) t

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 28 Esimerkki 3. Optimireititys kahden M/M/1-jonon tapauksessa Paketteja saapuu poissonisesti nopeudella λ. Saapuva µ paketti voidaan reitittää kumman tahansa jonon kautta. Jonojen miehitykset n 1 ja n 2 ovat aina tiedossa. 1 λ Tehtävänä on määritellä reitityspolitiikka siten, että µ 2 pitkällä tähtäimellä pakettien viipymä jonossa minimoituu. Otetaan lähtökohdaksi seuraava peruspolitiikka (0-politiikka): Saapuva paketti ohjataan todennäköisyydellä p jonoon 1 ja todennäköisyydellä 1 p jonoon 2. Jonoihin tulee tällöin poissoniset virrat intensiteeteillä λ 1 = pλ ja λ 2 = (1 p)λ. Jonot ovat riippumattomia M/M/1-jonoja ja keskimääräinen viipymä jonossa on p µ 1 pλ + 1 p µ 2 (1 p)λ Voidaan suorittaa staattinen optimointi parametrin p suhteen. Merkitään x = µ 2 /µ 1. Lauseke minimoituu arvolla p = p, p = 1, λ (1 x)µ 1 1 1 + x + x 1 + x (1 x) µ 1 λ, λ > (1 x)µ 1

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 29 Esimerkki 3. (jatkoa) Parannetaan peruspolitiikkaa suorittamalla yksi politiikkaiterointi. Arvioidaan kunkin reitityspäätöksen vaikutukset käyttämällä 0-politiikalla laskettuja tilojen suhteellisia kustannuksia. Koska 0-politiikan vallitessa jonot ovat riippumattomia M/M/1-jonoja, suhteellisille kustannuksille pätevät edellisessä esimerkissä lasketut arvot. Reititysvaihtoehtojen 2 ja 1 kustannusero on (ensimmäinen termi on kustannuskertymän lisäys, jos paketti pannaan jonoon 2, eli jonolle 2 laskettu v n2 +1 v n2, ja jälkimmäinen termi on vastaava suure jonolle 1) n 2 + 1 n 1 + 1 Jos 0, paketti kannattaa panna jonoon 1, jos < 0, paketti µ 2 λ 2 µ 1 λ 1 kannattaa panna jonoon 2. Päätössuora, joka erottaa eri reititysvaihtoehtoja vastaavat miehitysalueet, saadaan asettamalla lauseke nollaksi: n 2 "1" n 2 = µ 2 λ 2 µ 1 λ 1 (n 1 + 1) 1 JSQ-politiikassa (join the shortest queue) päätössuora menee diagonaalia pitkin. JSQ-politiikka ei kuitenkaan ole optimaalinen. Nyt selvitetty päätössuorakaan ei määrittele optimaalista politiikkaa, vaan on tulos ensimmäisestä politiikkaiteraatiosta. n 1 "2"

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 30 Esimerkki 3. (jatkoa) Iteraation jatkaminen tästä eteenpäin on mahdollista vain ratkaisemalla Howardin yhtälö numeerisesti. Oheinen kuva on saatu katkaisemalla tila-avaruus alueeseen n 1 < 20 ja n 2 < 20 (vain osa alueesta näkyvissä) ja ratkaisemalla Howardin yhtälö numeerisesti parametreilla λ = 1, µ 1 = 2, µ 2 = 1. Iteraatio suppeni (vakioitui) neljällä kierroksella. Lopullinen optimaalinen politiikka ilmenee pisteiden värityksestä: vihreä (vaalea) piste: ohjaa paketti jonoon 2 punainen (tumma) piste: ohjaa paketti jonoon 1. 10 8 6 4 2 JSQ 1st policy iteration 2 4 6 8 10 Staattisen optimaalisen politiikan (p = 0.828) mukaan toimittaessa paketin keskimääräinen viipymä systeemissä on 0.914. JSQ-politiikka tuottaa arvon 0.853. Optimoidusta staattisesta politiikasta ensimmäisellä politiikkaiteraatiolla saadun politiikn vastaava arvo on 0.730. Tämä on jo hyvin lähellä optimaalisen politiikan arvoa 0.724.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 31 Esimerkki 4. Tilojen suhteelliset kustannukset M/M/m/m-järjestelmässä Esimerkissä 1 tarkasteltiin äärettömän monen palvelijan M/M/ systeemiä ja laskettiin tilojen suhteelliset arvot, kun arvon mittana käytettiin kuljetetun liikenteen määrää. Nyt otetaan tutkittavaksi äärellinen M/M/m/m-järjestelmä eli (Erlangin) menetysjärjestelmä, jossa käytettävissä on m palvelinta (johtoa). Kaikki kutsut hyväksytään, jos tilaa on. Nytkin voitaisiin laskea tilojen suhteelliset arvot käyttäen mittana kuljetetun liikenteen määrää. Seuraavassa lasketaan kuitenkin tilojen suhteelliset kustannukset käyttäen mittana estyvän liikenteen määrää. Teknisesti laskut eroavat hiukan toisistaan tuottoa laskettaessa tilan n tuottonopeus on n, n estokustannuksia laskettaessa kustannusnopeus tilassa n = m on λ ja muissa tiloissa n < m kustannusnopeus on 0; systeemin ollessa estotilassa n = m kutsuja estyy odotusarvoisesti nopeudella λ (itse asiassa, jotta tämä olisi yhteismitallinen tuottotarkastelun kanssa, λ pitäisi vielä kertoa yhden yhteyden tuoton odotusarvolla, joka yksikköaikaveloituksen vallitessa on sama kuin yhteyden keskimääräinen kesto 1/µ; vakiotekijällä ei kuitenkaan tarkasteluissa ole merkitystä, ja se jätetään tässä pois). Sovellusten kannalta ei ole merkitystä sillä, kumpaa tarkastelua käytetään; kuljetetun liikenteen maksimointi on ekvivalentti tehtävä estyneen liikenteen minimoinnin kanssa.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 32 Esimerkki 4. (jatkoa) Äsken sanotun perusteella voidaan kirjoittaa Howardin yhtälöt: λ r + µm(v m 1 v m ) = 0 (viimeinen tila, ei siirtymiä ylöspäin) r + λ(v n+1 v n ) + µn(v n 1 v n ) = 0, n = 0,..., m 1 Näissä r on keskimääräinen kustannusnopeus. Yhtälöissä voidaan asettaa v 0 = 0, jolloin niistä ratkeavat r ja v 1,..., v m. Etukäteen tosin jo tiedetään että r = λe(m, a). Yhtälöiden mekaaninen ratkaiseminen jätetään harjoitustehtäväksi. Sen sijaan on mielenkiintoista todeta, että tämän tehtävän ratkaisu voidaan johtaa suoraan päättelemällä. Erityisesti johdetaan päättelemällä erotuksen n = v n+1 v n arvo. Aikaisemmin annetun määritelmän mukaan voidaan kirjoittaa n = lim (V n+1 (t) V n (t)) t missä V n (t) = E[estotapahtumien lkm välillä (0, t), kun hetkellä 0 systeemi on tilassa n]

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 33 Esimerkki 4. (jatkoa) Tarkastellaan suureita V n (t) ja V n+1 (t) oheisten kuvien avulla. Kun systeemi lähtee tilasta n, kestää jonkin aikaa ennen kuin se ensimmäisen kerran siirtyy tilaan n+1. Merkitään tämän ensimmäisen siirtymisen ajankohtaa t n:llä. Välillä (0, t n ) ei tapahdu estymisiä. Kun systeemi on siirtynyt tilaan n+1, se on samassa asemassa kuin systeemi, joka alunperin lähti tilasta n + 1 (markovisuus!). Kuvissa tummennetut, samankestoiset alueet ovat siten tilastollisesti identtisiä ja niissä tapahtuvien estymisten odotusarvot ovat samat. Päätellään, että V n+1 V n on sama kuin estotapahtumien lukumäärän odotusarvo aikavälissä (t t n, t) järjestelmässä, joka lähti tilasta n+1. 14 12 10 n8 6 4 2 0 14 12 10 n+1 8 6 4 2 0 t n * 2 4 6 8 10 12 14 2 4 6 8 10 12 14 Kun t, alkutila ei enää vaikuta systeemin käyttäytymiseen välissä (t t n, t), vaan systeemi on tasapainossa ja estotodennäköisyys on E(m, a). Koska kyseisessä välissä tulee keskimäärin λe[t n] kutsua, on n = λe[t n ]E(m, a) t t-t n * t

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 34 Esimerkki 4. (jatkoa) Päätellään vielä E[t n ]. Tarkastellaan tätä varten järjestelmää, jonka kapasiteetti on n. Välittömästi eston jälkeen systeemi on tilassa n. Seuraava estyminen tapahtuu hetkellä, jolloin systeemi olisi noussut tilaan n + 1. Estoväli tässä rajoitetun kapasiteetin systeemissä on siten samoinjakautunut kuin t n suuremmassa systeemissä (aika siirtymiseen tilasta n tilaan n + 1). E[t n ] = E[estoväli] = 1 λe(n, a), (λe(n, a) on estofrekvenssi) n x estyneen kutsun saapumishetki x x x Sijoittamalla tämä edelliseen kaavaan saadaan lopulta yksinkertaisuudessaan kaunis tulos n = v n+1 v n = E(m, a) E(n, a) Koska n m, on n 1. Muistutetaan vielä, että tämä suure kertoo, kuinka paljon enemmän estymisiä tapahtuu odotusarvoisesti M/M/m/m-järjestelmässä, joka lähtee alkutilasta n+1, verrattuna järjestelmään, joka lähtee tilasta n. Jos järjestelmä on tilassa n ja siihen otetaan tarjottu kutsu, niin suure n kertoo tästä tulevaisuudessa aiheutuvan haitan odotusarvon. Tulosta käytetään seuraavassa reititystehtävän käsittelyyn.

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 35 Dynaaminen tilariippuva reititys piirikytkentäisessä verkossa Tarkastellaan reitityksen perusongelmaa kuvan mukaisessa kolmioverkossa. Kaikkien linkkien kapasiteetit C j, niille tarjotut liikenneintensiteetit a j ja kunkinhetkiset miehitykset n j oletetaan tunnetuiksi. C j = linkin j kapasiteetti n j = linkin j miehitys = linkille j tarjottu liikenneintensiteetti a j A C a 2 a 3 n 2, C 2 n 3, C 3 Peruspolitiikkana on, että tarjottuja kutsuja kuljetetaan vain suoria linkkejä pitkin. Tällöin systeemissä on kolme erillistä menetysjärjestelmää, ja jokaiselle niistä pätevät edellisessä esimerkissä lasketut suhteelliset tilakustannukset. Nyt halutaan ensimmäisen politiikaiteroinnin avulla selvittää, mikä olisi hyvä politiikka kutsujen vaihtoehtoisreititykselle. Tarkastellaan asiaa erityisesti linkille 1 tarjottujen kutsujen kannalta. Ongelma on siis seuraava: Linkkille 1 tarjotaan kutsu tilanteessa, jossa linkkien miehitykset ovat n 1, n 2 ja n 3. Kysymys on, hylätäänkö vai hyväksytäänkö tarjottu kutsu. Jos se hyväksytään, kysytään mitä kautta se kannattaa reitittää suoraa reittiä AB (linkki 1) vaihtoehtoista reittiä ACB (linkki 2 + linkki 3) n 1, C 1 a 1 B

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 36 Dynaaminen tilariippuva reititys (jatkoa) Optimoinnin tavoitteena on välitettyjen kutsujen lukumäärän maksimointi eli estyvien kutsujen lukumäärän minimointi (ääretön aikahorisontti). Vaihtoehtoisreitin käyttö kuluttaa enemmän verkon resursseja (varaa johdon kahdelta eri linkiltä) ja voi potentiaalisesti aiheuttaa paljonkin tulevan liikenteen menetystä. Etukäteen ei ole lainkaan selvää, millä edellytyksillä vaihtoehtoisreitin käyttö on kannattavaa. Ensimmäsen politiikkaiteroinnin mukaan toimittaessa jokainen yksittäinen toimenpide tehdään minimoiden tästä yhdestä päätöksestä seuraavat kustannukset sellaisina kuin miltä ne näyttävät toimittaessa tämän päätöksen jälkeen peruspolitiikan mukaisesti. Hyväksyttäessä uusi kutsu linkille j tästä aiheutuu tulevaisuudessa lisäestoa, jonka odotusarvo on E(n j, a j )/E(m j, a j ). Politiikka Koska kutsun hyväksymisestä suoralle linkille 1 aiheutuva haitta on < 1 aina, kun kutsu mahtuu linkille eli m 1 < n 1, kun taas kutsun kuljettamisesta saatava hyöty on 1, kutsu kannattaa aina ottaa suoralle linkille, jos se suinkin on mahdollista. Jos suora linkki on täynnä, on tutkittava vaihtoehtoisreitin eri linkeillä yhteensä syntyvää kustannuslisää. Vaihtoehtoisreitin käyttö kannattaa, jos seuraava ehto on voimassa: E(m 2, a 2 ) E(n 2, a 2 ) + E(m 3, a 3 ) E(n 3, a 3 ) < 1

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 37 Dynaaminen tilariippuva reititys (jatkoa) Jos vaihtoehtoisreitin linkit ovat jo melko täynnä, ehdon E(m 2, a 2 ) E(n 2, a 2 ) + E(m 3, a 3 ) E(n 3, a 3 ) < 1 vasemman puolen termit ovat lähellä ykköstä ja summa voi olla ykköstä suurempi. Ehto määrittelee eräänlaisen dynaamisen trunk reservation -periaatteen. Vaihtoehtoisreitille on jätettävä riittävästi tilaa tuoretta suoraa liikennettä varten. Kuvassa nähdään n -funktion käyttäytyminen systeemin kapasiteetin ollessa m = 30. Jos oletetaan, että vaihtoehtoisreitin molemmat 0.6 linkit ovat samanlaisia (m = 30) nähdään, että tyypillisesti vaihtoehtoisreitin linkeillä pitää olla 0.4 a=30 tilaa ( n 0.5) muutama johto, jotta reittiä kannattaa käyttää: a=10 0.2 a=20 0 2 johtoa, jos a = 20, 6 johtoa, jos a = 30. 5 10 15 20 25 30 1 0.8 C=30 n

J. Virtamo 38.3141 Teleliikenneteoria / Markovin päätösprosessit 38 Huomioita dynaamisesta tilariippuvasta reitityksestä Johdettu politiikka ei ole lopullinen optimi, vaan vasta ensimmäisen politiikkaiteraation tulos. Todellinen optimipoliikka syntyy, kun päätöksiä tehtäessä tulevaisuuden kustannusvaikutuksetkin arvioidaan optimipolitiikkaa (jota ei vielä tunneta) käyttäen. Dynaamisen tilariippuvan reitityksen toteutus on teknisesti vaativa, koska se edellyttää sekä täydellistä tilatietoa että saapumisintensiteettien arvioimista. Käytännössä voidaan soveltaa robustimpaa kapasiteetin varausmenetelmää (trunk reservation), jossa tuoreelle liikenteelle tehdään kiinteä varaus.