Diskreettiaikainen dynaaminen optimointi

Diskreettiaikainen dynaaminen optimointi Usean kauden tapaus 2 kauden yleistys Ääretön loppuaika Optimaalinen pysäytys Optimointiopin seminaari - Syksy 2000 /

Ongelma t 0 x 0 t- t T x t- + x t + x T u t- p t- (x t-, u t- ) F t- (x t x t-, u t- ) u t p t (x t, u t ) F t (x t+ x t, u t ) O T (x T ) Optimointiopin seminaari - Syksy 2000 /2

Notaatio Diskreetit ajan hetket t: t 0, t,..., T-, T Tila x t (Markov) Ohjaus u t Hetkellinen tuotto p t (x t, u t ) Tilan siirto todennäköisyys F t (x t+ x t, u t ) Diskonttauskerroin /(+?) Loppuaika T ja lopputuotto (jakauma) O T (x T ) Optimointiopin seminaari - Syksy 2000 /3

Ratkaisu Ongelmana valita u t t=0,,2,... T- siten että kokonaistuoton odotusarvo maksimoituu max u E[ T t= 0 π t ( xt, u (+ ) t t ) + Ω( xt ) T (+ ) ] Jaetaan ongelma kahteen osaan: max( π t ( xt, ut ) + E[ Ft + ( xt+ )]) ut + Tuoton odotusarvo tilasta x t+ valittaessa ohjaukset optimaalisesti Optimointiopin seminaari - Syksy 2000 /4

Ratkaistaan u t Saadaan F t (x t ) Ft ( xt ) = max( π t ( xt, ut ) + E[ Ft + ( xt+ )]) ut + Belmannin yhtälö, antaa rekursiivisen kaavan F:lle Ohjaukset u t+, u t+2,... oletetaan optimaalisiksi Alkuarvo (loppuarvo) F:lle saadaan loppuajan tuotosta F T ( xt ) = max( π T ( xt, ut ) + u T + E[ Ω Tästä saadaan F T-2 ratkaisemalla u T-2, ja niin edelleen T ( x T )]) Optimointiopin seminaari - Syksy 2000 /5

Eli aloitetaan lopusta ja lasketaan ajassa taaksepäin Saadaan F t (x t ) F t+ (x t+ ):stä u t (x t ) Jatketaan kunnes on saatu u 0 = optimaalinen päätös alussa F 0 = optimaalisen tuoton odotusarvo (ratkaisu) Jos ei satunnaisuutta voidaan laskea u 0? x? u? x 2?... Optimointiopin seminaari - Syksy 2000 /6

Ääretön loppuaika F t saadaan F t+ :stä Tarvittaisiin F:lle alkuarvo O T (x T ) Ongelmalla rekursiivinen rakenne ja F ei riipu ajan hetkestä F t (x t )? F(x t ) Oltava: F,?, p eivät riipu ajasta Nyt millä tahansa t F( xt ) = max( π( xt, ut ) + E[ F( xt+ )]) ut + Optimointiopin seminaari - Syksy 2000 /7

Edelleen koska t:n arvolla ei väliä merkitään x t =x x t+ =x u t =u F( x) = max( π( x, u) + E[ F( x' ) x, u]) u + Bellmannin yhtälö äärettömälle tehtävälle Ongelmana löytää funktio F, joka toteuttaa annetun yhtälön Optimointiopin seminaari - Syksy 2000 /8

Ratkaistaan F iteroimalla Otetaan alkuarvaus F () (x), sijoitetaan se edellisen yhtälöön ja ratkaistaan u () (x) Sijoitetaan u () (x) ja saadaan F (2) (x) Jatketaan kunnes F (), F (2),... suppenee Suppenemisen takaa tekijä /(+?) < Saadaan F(x) ja u(x) u 0 (x 0 ) Optimointiopin seminaari - Syksy 2000 /9

Optimaalinen pysäytys Loppuaika T ei ole kiinnitetty u=[jatka, lopeta] aiempien esitelmien aiheissa [sijoita, odota] Jos lopetetaan saadaan lopputuotto ja jos jatketaan tuottovirta odottamisesta ja päädytään uuteen samanlaiseen päätöstilanteeseen Bellmannin yhtälö saa muodon p(x) : tuottovirta odottamisesta O(x) : tuotto lopettamisesta F ( x) = max( Ω( x), π( x) + E[ F ( x' ) x]) + Optimointiopin seminaari - Syksy 2000 /0

Optimaalinen pysäytys Optimaalinen päätös jatkaa tai pysäyttää voi olla mielivaltainen funktio tilasta x Joissain tehtävissä on rakenne jolla muodostuu raja-arvo x * siten että jatka, kun x<x *, lopeta, kun x>x * Ehtona x:n positiivinen sarjakorrelaatio ja d { π( x) + E[ Ω( x' ) x] Ω( x)} < dx + Jos O(x) riippuu ajasta myös x * riippuu ajasta O t (x), x * (t) 0 Optimointiopin seminaari - Syksy 2000 /

Kotitehtävä Tuotantokapasiteetti alussa x 0 =5 Kapasiteettia voidaan lisätä, ohjaus u t, t=0, x t+ =x t +u t Tuottovirta p(x t, u t )= x t -u t 2 Lopputuotto O 2 (x 2 )=0x 2 Diskonttokorko?=0% Laske optimaaliset ohjaukset u 0, u ja saatava tuotto F 0 Optimointiopin seminaari - Syksy 2000 /2