Introducción a la programación dinámica estocástica

(1)

Introducci´ on a la programaci´ on din´ amica estoc´ astica

Hans Alayo 21 de diciembre de 2016

1. Introducci´ on

La programación dinámica brinda la teor´ıa matemática necesaria para la toma secuencial de decisiones bajo incertidumbre. El matemático Richard Bellman inventó la programación dinámica en 1953 y desde all´ı ha sido utilizada con éxito en campos como la f´ısica, biolog´ıa, computación, eco- nom´ıa, administración y cualquier clase de problema estocástico factible de ser discretizado y secuencializado, en donde la información acerca de los parámetros con incertidumbre se vuelven disponibles en etapas.

La solución del algoritmo de programación dinámica brinda pol´ıticas ópti- mas, es decir una regla de decisión que nos dice cómo actuar en cada estado a medida que ocurren realizaciones de las incertidumbres en cada etapa. A este tipo de soluciones se le conoce también como solución en lazo cerrado, lo que contrasta con las soluciones en lazo abierto que solamente nos dicen como actuar en cada etapa sin tomar en cuenta la nueva información. Para el caso determin´ıstico la solución en lazo abierto y lazo cerrado son igual de buenas, es para el caso estocástico en donde el algoritmo de programación dinámica muestra toda su versatilidad.

El presente tutorial presenta el tema de forma practica con un ejemplo sen- cillo¹ desarrollado a mano en donde se tiene que optimizar el manejo de un embalse de agua. Se presentan los casos determin´ıstico y estoc´astico del problema. Finalmente, se presenta la soluci´on de ambos problemas implementados en el sofware Scilab.

1Este tutorial se motiv´o en gran parte en las presentaciones del profesor Michel De Lara (http://cermics.enpc.fr/ delara/), profesor de la ´Ecole des Ponts ParisTech que en varias

(2)

2. Programaci´ on din´ amica determin´ıstica

Los problemas estudiados por la programaci´on din´amica tienen la siguiente estructura:

Un sistema din´amico en tiempo discreto:

x_t+1= f_t(x_t, u_t) t = 0, 1, . . . , T − 1 (1) Donde:

• t es el tiempo discreto.

• x_t es el estado del sistema en el periodo t, puede existir restricciones xt∈ Ω(t).

• u_tes el vector de controles del sistema, es decir las decisiones que se toman en cada etapa y que pertenecen a un conjunto ut∈ Γ(t).

• T es el horizonte de tiempo.

Una funci´on de costo aditiva/acumulativa sobre el tiempo.

T −1

X

t=0

g_t(x_t, u_t) + g_T(x_T) (2)

En resumen, el problema queda expresado de la siguiente forma:

min ´o max

T −1

X

t=0

gt(xt, ut, wt) + gT(xT) s.t.

xt+1= ft(xt, ut) t = 0, . . . , T − 1

xt∈ Ω(t) t = 0, . . . , T

ut∈ Γ(t) t = 0, . . . , T − 1

(3)

Luego el problema se reduce a determinar una pol´ıtica ´optima π = {u₀, u₁, . . . u_{T −1}}.

El principio de optimalidad de Bellman dice que dada una secuencia ópti- ma de decisiones, toda subsecuencia de ella es, a su vez, óptima.Luego, si definimos una función valor como la siguiente expresión :

Vt0(xt0) = sup ´o inf{

T −1

Xgt(xt, u, t) + gt(xT)} (4)

(3)

Aplicando el principio de optimalidad se obtiene la ecuaci´on de Belman para el caso determin´ıstico:

Vt(xt) = sup ´o inf{gt(xt, ut) + Vt+1(xt+1)} (5)

En donde V_T(x_T) = g_T(x_T) hacia atr´as podemos obtener la trayectoria

´ optima.

3. Optimizaci´ on del uso de un embalse - caso de- termin´ıstico

Como ejemplo ilustrativo, se tiene el problema de optimizar el uso de un embalse de agua. El embalse tiene un stock de agua almacenado s_t en cada etapa. con un volumen m´ınimo de 0 unidades y un volumen m´aximo de 3 unidades. En cada etapa el volumen descargado puede ser turbinado por un generador hidr´aulico y se obtiene un pago p_t por cada unidad descargada.

Asimismo, en cada etapa se tiene un afluente de volumen de agua a_t. Luego, se debe determinar la cantidad de volumen a descargar qt en cada etapa de modo de maximizar el beneficio total. Se utiliz´o un horizonte T = 4. Los datos del problema se resumen en la Tabla 11:

Tabla 1: Datos del ejemplo Par´ametro Valor

smin 0

smax 3

p_t {1, 2, 4, 1}

at {1, 2, 0, 1}

st entero

q_t entero

Luego, la dinámica del embalse está dada por la siguiente ecuación:

st+1= st+ at− q_t (6)

Las restricciones del problema son las siguientes:

(4)

s_min ≤ s_t≤ s_max (7)

q_t≤ s_t (8)

Entonces, el problema queda expresado por la siguiente expresi´on:

max

3

X

t=0

p_tq_t+ V₄(s₄) s.t.

s_t+1= s_t+ a_t− q_t t = 0, . . . , 3 qt≤ s_t t = 0, . . . , 3 smin≤ s_t≤ s_max t = 0, . . . , 4

(9)

A partir de aqu´ı empieza el algoritmo de programación dinámica (recursión hacia atrás), usando V4(s4) = 0.

V₃(s₃) = max{p₃q₃+ V₄(s₄)} (10) Luego tabulamos para cada estado los valores de p₃q₃+V₄(s₄) con los posibles controles e identificamos el m´aximo de modo que hallamos V3 y se cumpla que q₃ ≤ s₃ y p₃ = 1:

Tabla 2: Valores de p3q3+ V4(s4) s₃ /q₃ 0 1 2 3

0 0 - - -

1 0 1 - -

2 0 1 2 -

3 0 1 2 3

Luego para cada estado s3 identificamos el control que maximiza V3, en la Tabla se ha encerrado en un c´ırculo los máximos V₃ para cada estado, y para los controles fuera de las restricciones se colocó un guion. Entonces, se guardó la siguiente información: para cada estado cuánto vale la función V₃(s₃) y cuál es el control óptimo q₃^∗.

(5)

Tabla 3: Valores de V3

s₃ V₃(s₃) q^∗₃

0 0 0

1 1 1

2 2 2

3 3 3

Luego realizamos el mismo calculo para la etapa anterior, considerando que s₃ = s₂+ a₂− q₂:

V₂(s₂) = max{p₂q₂+ V₃(s₂+ a₂− q₂)} (11) Tabulamos para cada estado los valores de p₂q₂+ V₃(s₂ + 0 − q₂) con los posibles controles e identificamos el m´aximo V₃de modo que q₃ ≤ s₃, p₂= 4 y a2 = 0; para clarificar el ejemplo realizaremos algunos c´alculos con detalle.

Para s₂ = 3 y q₂ = 1 se tiene lo siguiente:

p₂q₂+ V₃(s₂+ a₂− q₂) = 4q₂+ V₃(s₂+ 0 − q₂)

= 4 · 1 + V3(3 + 0 − 1)

= 4 + V3(2)

= 4 + 2 = 6

(12)

En el penultimo paso se recurri´o al valor de V₃(2) guardado en la Tabla 3.

Entonces se tabula los valores de p₂q₂+ V₃(s₂+ a₂− q₂):

Tabla 4: Valores de p₂q₂+ V₃(s₂+ a₂− q₂) s2 /q2 0 1 2 3

0 0 - - -

1 1 4 - -

2 2 5 8 -

3 3 6 9 12

Luego identificamos los m´aximos valores de las tabulaciones:

(6)

s₂ V₂(s₂) q^∗₂

0 0 0

1 4 1

2 8 2

3 12 3

Luego realizamos el mismo c´alculo para la etapa anterior, considerando que s₂ = s₁+ a₁− q₁:

V₁(s₁) = max{p₁q₁+ V₂(s₁+ a₁− q₁)} (13)

Tabla 6: Valores de p1q1+ V2(s1+ a1− q₁) s1 /q1 0 1 2 3

0 8 - - -

1 12 10 - -

2 - 14 12 -

3 - - 16 14

s₁ V₁(s₁) q^∗₁

0 8 0

1 12 0

2 14 1

3 16 2

Por ´ultimo, se tabulan los valores de V₀ para la etapa inicial:

V0(s0) = max{p0q0+ V1(s0+ a0− q₀)} (14)

(7)

Tabla 8: Valores de p0q0+ V1(s0+ a0− q₀) s0 /q0 0 1 2 3

0 12 - - -

1 14 13 - -

2 16 15 14 - 3 - 17 16 15

s₀ V₀(s₀) q^∗₀

0 12 0

1 14 0

2 16 0

3 17 1

Luego si se sabe que el estado inicial s₀ = 2 el valor óptimo es de V₀(2) = 16 y el control óptimo inicial es q₀(2) = 0. Iterando sobre la dinámica se obtiene la trayectoria óptima de st. Resumiendo las tablas anteriores se tiene la siguiente tabla de pol´ıticas:

Tabla 10: Valores de qt(st) s / q t = 0 t = 1 t = 2 t = 3

0 0 0 0 0

1 0 0 1 1

2 0 1 2 2

3 1 2 3 3

Con s0 = 2 la pol´ıtica ´optima es π^∗= {0, 2, 3, 0}

(8)

4. Programaci´ on din´ amica estoc´ astica

El caso estocástico es un caso más interesante porque la solución del algoritmo permite tener soluciones en lazo cerrado. Los problemas de programación dinámica para el caso estocástico tienen la siguiente estructura:

Un sistema din´amico en tiempo discreto:

xt+1 = ft(xt, ut, wt) t = 0, 1, . . . , T − 1 (15) Donde:

• t es el tiempo discreto.

• x_t es el estado del sistema en el periodo t, puede existir restricciones x_t∈ Ω(t).

• u_tes el vector de controles del sistema, es decir las decisiones que se toman en cada etapa y que pertenecen a un conjunto u_t∈ Γ(t).

• w_t es el par´ametro aleatorio con cierta distribuci´on de probabili- dad.

• T es el horizonte de tiempo.

Una funci´on de costo aditiva/acumulativa sobre el tiempo, paa el caso estoc´astico se usa el valor esperado.

E{

T −1

X

t=0

g_t(x_t, u_t, w_t) + g_T(x_T)} (16)

En resumen, el problema queda expresado de la siguiente forma:

min ´o max E{

T −1

X

t=0

g_t(x_t, u_t) + g_T(x_T)}

s.t.

x_t+1= f_t(x_t, u_t, w_t) t = 0, . . . , T − 1

x_t∈ Ω(t) t = 0, . . . , T

ut∈ Γ(t) t = 0, . . . , T − 1

(17)

Para el caso estoc´astico se define la siguiente funci´on valor:

(9)

Vt0(xt0) = sup ´o inf E{

T −1

X

t=t0

gt(xt, u, t, wt) + gt(xT)} (18) Aplicando el principio de optimalidad se obtiene la ecuaci´on de Belman para el caso estoc´astico:

V_t(x_t) = sup ´o inf E{g_t(x_t, u_t, w_t) + V_t+1(x_t+1)} (19)

En donde VT(xT) = gT(xT).

5. Optimizaci´ on del uso de un embalse - caso es- toc´ astico

Para el caso estoc´astico tenemos los mismos datos que el caso determin´ıstico con la diferencia que los afluentes ahora pueden tomar dos valores (dos escenarios k = 1, 2) en cada etapa:

Tabla 11: Datos del ejemplo Par´ametro Valor

smin 0

smax 3

p_t {1, 2, 4, 1}

a_k,t

1, 2, 0, 1 0, 1, 2, 0

Probabilidades prob(k = 1) = 0, 4 prob(k = 2) = 0, 6

st entero

q_t entero

Entonces, el problema queda expresado por la siguiente expresi´on:

(10)

max E{

3

X

t=0

p_tq_t+ V₄(s₄)}

s.t.

s_t+1= s_t+ a_t− q_t t = 0, . . . , 3 qt≤ s_t t = 0, . . . , 3 smin≤ s_t≤ s_max t = 0, . . . , 4

(20)

A partir de aqu´ı empieza el algoritmo de programación dinámica (recursión hacia atrás), usando V4(s4) = 0, p3 = 1.

V3(s3) = max E{p3q3+ V4(s4)} = max {0,4p3q3+ 0,6p3q3} = max{p₃q3} (21) Luego tabulamos para cada estado los valores de p₃q₃ con los posibles controles e identificamos el m´aximo de mode que hallamos V3 y se cumpla que q₃ ≤ s₃ y p₃ = 1:

Tabla 12: Valores de p3q3

s₃ /q₃ 0 1 2 3

0 0 - - -

1 0 1 - -

2 0 1 2 -

3 0 1 2 3

Luego para cada estado s₃ identificamos el control que maximiza V₃, en la Tabla se ha encerrado en un c´ırculo los máximos V₃ para cada estado, y para los controles fuera de las restricciones se colocó un guion. Entonces, se guardó la siguiente información: para cada estado cuánto vale la función V₃(s₃) y cuál es el control óptimo q₃^∗.

(11)

s₃ V₃(s₃) q^∗₃

0 0 0

1 1 1

2 2 2

3 3 3

Luego realizamos el mismo c´alculo para la etapa anterior, considerando que s₃ = s₂+ a_2,k− q₂:

V2(s2) = max{0, 4[p2q2+ V3(s2+ a2,1− q₂)] + 0, 6[p2q2+ V3(s2+ a2,2− q₂)]}

(22) Tabulamos para cada estado los valores de la expresión a maximizar con los posibles controles e identificamos el máximo V₃ de modo que q₃ ≤ s₃, p2 = 4, a2,1 = 0 y a2,2 = 2; para clarificar el ejemplo realizaremos algunos cálculos con detalle. Para s₂= 2 y q₂ = 1 se tiene lo siguiente:

0, 4[p2q2+ V3(s2+ a2,1− q₂)]

+0, 6[p2q2+ V3(s2+ a2,2− q₂)] = p2q2+ 0,4V3(s2+ 0 − q2) +0, 6V3(s2+ 2 − q2)]

= 4 · 1 + 0, 4V₃(2 + 0 − 1) +0, 6V3(2 + 2 − 1)

= 4 + 0, 4V3(1) + 0, 6V3(3)

= 4 + 0, 4 + 0, 6 · 3 = 6, 2

(23)

En el pen´ultimo paso se recurri´o a los valores de V₃ guardados en la Tabla 13. Entonces se tabula el resto de los valores:

Tabla 14: Valores de funci´on a optimizar

s2 /q2 0 1 2 3

0 1,2 - - -

1 2,2 5,2 - -

2 - 6,2 9,2 -

3 - - 10,2 13,2

(12)

s₂ V₂(s₂) q^∗₂

0 1,2 0

1 5,2 1

2 9,2 2

3 13,2 3

Siguiendo el mismo procedimiento se tiene la siguiente tabla de pol´ıtica

´

optimas:

Tabla 16: Valores de q_t(s_t) s / q t = 0 t = 1 t = 2 t = 3

0 0 0 0 0

1 0 0 1 1

2 0 1 2 2

3 1 2 3 3

6. Implementaci´ on computacional

Ambos casos presentados anteriormente fueron implementados en el software Scilab, se incluyó una etapa en la programación en donde se verifica que los controles y estados se encuentran dentro de las restricciones. Los códigos se presentan a continuación:

(13)

//Dynamic Programming example //Data

a= [1 2 0 1];

price=[1 2 4 1];

Smin=0;

Smax=3;

Horizon=3;

//Backward recursion

V= zeros(4,Horizon+2); //Define value function u= zeros(4,Horizon+1); //Define optimal controls for t=Horizon:-1:0

for s=0:Smax for q=0:Smax

if (q>s) | (s+a(t+1)-q >Smax) | (s+a(t+1)-q <Smin) then f(q+1)=-1/%eps;

else

f(q+1)=price(t+1)*q + V(s+a(t+1)-q +1,t+2);

end end

[V(s+1,t+1),index ]=max(f,’r’);

u(s+1,t+1)=index-1;

end end

//Trace back x=zeros(Horizon);

x(0+1)=2;

for t=1:Horizon+1 pi(t)=u(x(t)+1,t);

x(t+1)=x(t)+a(t)-pi(t);

end

(14)

//Stochastic Dynamic Programming example //Data

Scenarios=2;

a= [1 2 0 1;

0 1 2 0];

p=[0.4 0.6];

price=[1 2 4 1];

Smin=0;

Smax=3;

Horizon=3;

//Backward recursion

V= zeros(4,Horizon+2); //Define value function u= zeros(4,Horizon+1); //Define optimal controls for t=Horizon:-1:0

for s=0:Smax for q=0:Smax

suma=0;

for j=1:Scenarios

if (q>s) | (s+a(j,t+1)-q >Smax) | (s+a(j,t+1)-q <Smin) then suma=-1/%eps;

break else

suma=p(j)*(price(t+1)*q + V(s+a(j,t+1)-q +1,t+2))+suma;

end end f(q+1)=suma;

end

[V(s+1,t+1),index ]=max(f,’r’);

u(s+1,t+1)=index-1;

end end

(15)

Referencias

[1] Richard Bellman. Dynamic Programming. Princeton, University Press, 1957.

[2] Dimitri P. Bertsekas. Dynamic Programming and Stochastic Control.

Academic Press, New York. 1976

[3] Michel De Lara and Luc Doyen. Sustainable Management of Natural Resources. Mathematical Models and Methods. Springer-Verlag, Berlin.

2008