UNIVERSIDAD DE SONORA T E S I S

(1)

UNIVERSIDAD DE SONORA

Divisi´on de Ciencias Exactas y Naturales

Departamento de Matem´aticas

Optimalidad Asint´otica en Procesos de Control de Markov

T E S I S

Que para obtener el t´ıtulo de:

Licenciado en Matem´aticas Presenta:

Estephania Pivac Alcaraz

Director de tesis: Dr. Jes´us Adolfo Minj´arez Sosa

Hermosillo, Sonora, M´exico Diciembre de 2015

(2)

(3)

SINODALES

Dr. Eugene Gordienko

Departamento de Matem´aticas, Universidad de Sonora.

M.C. Carmen Geraldi Higuera Chan

Dr. Jes´us Adolfo Minj´arez Sosa

Dr. Oscar Vega Amaya

(4)

(5)

“Que Dios reparta suerte y va por ustedes.”

Con inmenso amor, a mi mam´a.

(6)

(7)

Agradecimientos

Quiero comenzar agradeciendo a Dios por darme la oportunidad de lograr esta meta y estar un paso mas cerca de lograr mi sueño, por todo el conjunto de accidentes que a lo largo de mi vida me llevaron a tomar las decisiones que he tomado y a ser lo que soy, y principalmente quiero agra- decerle por la familia que me dió, porque mi familia es mi inspiración y mi fuerza para seguir adelante.

Quiero agradecer a mi familia por todo su amor, por apoyarme incondi- cionalmente, por animarme, por estar en las buenas y en las malas, y por nunca dudar de m´ı. En especial le doy gracias a mi mamá que hizo hasta lo imposible por mandarme a estudiar, por ser la única persona que desde el inicio me apoyó en mi decisión de estudiar matemáticas, y simple y sen- cillamente por ser la mejor mamá que Dios pudo darme. A mis hermanas:

a Leonelita por todo su amor y su ternura, a Camile por su apoyo y sus ocurrencias, y a Carolina por ser mi defensora y confidente. A mi papá por todo el apoyo que me brindó. A mi abuelita por su cariño y por siempre sentirse orgullosa de m´ı. A mi primo Giovanni por ser el hermano mayor que nunca tuve, por su ejemplo y sus consejos.

Le doy gracias a mi director de tesis, Dr. Adolfo Minjarez Sosa, por su tiempo, su esfuerzo y su paciencia. Muchas gracias por su apoyo, para m´ı fue todo un honor trabajar con usted. Tambi´en agradezco a mis sinodales: Dr.

Eugene Gordienko, M.C. Carmen Geraldi Higuera Chan y Dr. Oscar Vega Amaya, por su tiempo y su disposici´on a lo largo de la revisi´on del trabajo.

También quiero darle las gracias a todos mis profesores por su motiva- ción y sus enseñanzas; a mis amigos y a mis compañeros de carrera, por ayudarme, por todas sus risas, su tiempo, su confianza y por hacer que dis- frutara aún más esta etapa.

i

(8)

Agradezco a Carolina Martinez y a Carmen Higuera, por su compañ´ıa, su ayuda y su amistad, soy muy afortunada de tenerlas en mi vida. Por últi- mo le doy gracias a Pedro Morghen Lopez, por ser y estar, por motivarme y apoyarme, por sus consejos, por su cariño y por hacerme feliz.

Estephania Pivac Alcaraz Hermosillo, Sonora. Diciembre 2015

(9)

´ Indice general

Agradecimientos I

Introducci´on V

1. Procesos de control de Markov 1

1.1. Modelo de control markoviano . . . . 1

1.2. Pol´ıticas de control admisibles . . . . 3

1.3. ´Indice de funcionamiento . . . . 5

1.4. Problema de control ´optimo . . . . 6

1.5. Ejemplo: sistema de producci´on/inventario . . . . 7

2. Criterio de costo descontado 9 2.1. Introducci´on . . . . 9

2.2. Condiciones . . . . 10

2.3. Ecuaci´on de Optimalidad . . . . 11

2.4. Existencia de pol´ıticas ´optimas . . . . 14

2.5. Aproximaciones . . . . 19

2.5.1. Algoritmo de Iteraci´on de valores . . . . 19

2.5.2. Aproximaci´on por medio de sucesiones de costos . . . 20

3. Optimalidad asint´otica 27 3.1. La funci´on de discrepancia . . . . 28

3.2. Optimalidad asint´otica . . . . 32

3.3. Optimalidad asint´otica y algoritmos de aproximaci´on . . . . . 35

3.3.1. Pol´ıtica Iteraci´on de Valores . . . . 35

3.3.2. Pol´ıtica bajo sucesiones de costos . . . . 37

3.3.3. Pol´ıtica bajo sucesi´on recursiva de costos . . . . 38

3.4. Optimalidad en el l´ımite . . . . 40 iii

(10)

A. Variables Aleatorias Discretas 43 A.1. Esperanza de v.a.’s discretas . . . . 43 A.2. Esperanza condicional de v.a.’s discretas . . . . 44 A.3. Convergencia de v. a.’s discretas . . . . 45

B. Teorema del Punto Fijo 47

C. Teoremas de Convergencia 53

(11)

Introducci´ on

La Teor´ıa de Control Óptimo trata con problemas de optimización de sistemas que evolucionan en el tiempo. Este hecho es lo que la diferencia de los problemas de optimización comunes, y por lo tanto sus aplicaciones se presentan en problemas donde es necesario controlar sistemas dinámicos que aparecen, por ejemplo, en áreas como Econom´ıa, Finanzas, Biolog´ıa e Ingenier´ıa, y cuyo objetivo es determinar las acciones o decisiones de control que debe tomar un controlador para optimizar dicho sistema.

Las acciones durante la evoluci´on del sistema se eligen por medio de reglas o sucesiones de funciones llamadas pol´ıticas de control, cuyo comportamiento o respuesta al sistema lo mide un funcional de costo al cual se le conoce como ´Indice de funcionamiento.

Al problema de encontrar una pol´ıtica que minimice un ´ındice de funcionamiento se le llama Problema de Control Óptimo. Si el sistema involucra elementos aleatorios para describir la dinámica diremos que tenemos un Pro- blema de Control Óptimo Estocástico el cual es el tema de esta tesis.

Una clase de sistemas de control estocástico la constituyen los Proce- sos de Control de Markov cuya teor´ıa se basa en la técnica de Programa- ción Dinámica Estocástica. El estudio de estos procesos se puede dividir de acuerdo al tipo de espacios de estados y de control: numerables o espacios generales; y según el criterio de optimalidad que define el ´ındice de funcionamiento: costo total esperado, costo descontado y costo promedio por etapa.

En este trabajo nos centraremos en el estudio de los Procesos de Con- trol de Markov con espacios numerables bajo el criterio de costo descontado acotado.

En t´erminos generales, el estudio del problema de control ´optimo bajo v

(12)

el criterio de costo descontado consiste primero en mostrar que la función de costo óptimo, digamos V^∗, satisface una ecuación de la forma

V^∗ = T V^∗,

donde T es un operador, a la cual se le conoce como Ecuación de Optimali- dad. Después, como segundo paso, se debe de resolver un problema de opti- mización para calcular la pol´ıtica óptima. La solución a ambos problemas no es trivial, y por lo tanto es necesario desarrollar métodos de aproximación tanto para V^∗ como para la pol´ıtica óptima. Estos métodos de aproximación consisten en definir apropiadamente una sucesión de funciones {un} tal que u_n→ V^∗, y más aún, en cada paso de la aproximación resolver un problema de optimización para encontrar una función f_n que determine el control en la etapa n:

a_n= f_n(·).

El objetivo principal de este trabajo es proponer algunos métodos de aproximación de V^∗ y analizar la optimalidad de las pol´ıticas de control π = {f_n} que producen dichos métodos.

Sin embargo, una caracter´ıstica que tiene el ´ındice de costo descontado es que los controles seleccionados en las primeras etapas, digamos n ≤ m para algún m ∈ N, son los que tienen mayor peso. Pero por otro lado, la información más confiable sobre V^∗ que proporcionan los algoritmos de aproximación (u_n → V^∗) se obtiene en las últimas etapas, n > m. Esta contradicción implica que en general este tipo de pol´ıticas no necesariamen- te son óptimas, y por lo tanto su optimalidad será analizada en un sentido asintótico, dando lugar a las llamadas pol´ıticas asintóticamente óptimas.

La optimalidad asintótica ha sido estudiada en otros contextos, como por ejemplo en problemas de control adaptado [ver [2], [4], [8], [9], [13]]. Re- gularmente en estos problemas se supone que la distribución de la variable aleatoria que define la dinámica del sistema es desconocida. Entonces se de- ben implementar métodos de estimación y control para definir las pol´ıticas.

De igual forma, estos métodos de estimación proporcionan información más confiable sobre la distribución desconocida en las últimas etapas, lo cual implica que estas pol´ıticas no sean óptimas.

El trabajo est´a estructurado de la siguiente manera:

En el primer cap´ıtulo se presentan los elementos b´asicos necesarios para definir el problema de control ´optimo (PCO).

(13)

INTRODUCCI ÓN vii En el segundo cap´ıtulo se establecen las condiciones bajo las cuales exis- ten pol´ıticas óptimas para el PCO y se presentan algoritmos de aproxima- ción.

En el tercer cap´ıtulo se estudia la optimalidad asint´otica y la optimalidad en el l´ımite.

Finalmente comentaremos sobre la bibliograf´ıa utilizada.

Para los elementos básicos se utilizaron [1], [4] y [12]; para los resultados de optimalidad asintótica y algoritmos de aproximación se usaron [5] y [6], y el resto de la bibliograf´ıa nos sirvió de consulta y apoyo para desarrollar el trabajo.

(14)

(15)

Cap´ıtulo 1

Procesos de control de Markov

En este cap´ıtulo presentamos los elementos necesarios para definir el problema de control óptimo. Con este fin, primero describiremos el modelo de control de Markov as´ı como la familia de pol´ıticas de control. Presentaremos también los ´ındices de funcionamiento más comunes que miden el comportamiento de las pol´ıticas de control. Finalmente presentamos un ejemplo de un sistema de producción/inventario.

1.1. Modelo de control markoviano

Definici´on 1.1.1 Un modelo de control markoviano (MCM) en tiempo dis- creto, es un arreglo

(X, A, {A(x) : x ∈ X}, P, c), (1.1) que consta de los siguientes elementos:

X representa el espacio de estados, y supondremos que es un conjunto numerable.

A es el espacio de controles o acciones, y supondremos que es un conjunto numerable.

{A(x) : x ∈ X} es la familia de conjuntos de controles (o acciones) admisibles. Es decir, cada estado x ∈ X tiene asociado un conjunto no vac´ıo A(x) ⊂ A, cuyos elementos son los controles admisibles cuando

1

(16)

el sistema se encuentra en el estado x.

Para cada x ∈ X y a ∈ A(x) definimos

K := {(x, a) : x ∈ X, a ∈ A(x)} (1.2) al cual llamaremos el conjunto de pares estado-acci´on admisibles.

P representa la ley de transici´on entre los estados. Es decir, P_x,y(a) := P [x_t+1= y|x_t= x, a_t= a].

Adem´as,

(i) P_x,y(a) ≥ 0 ∀ x, y ∈ X, a ∈ A(x);

(ii) X

y∈X

P_x,y(a) = 1.

c : K → R representa la funci´on de costo por etapa.

Un modelo de control Markoviano representa un sistema estocástico con- trolado que se observa en cada tiempo t ∈ N0 que llamaremos etapas de decisión. Denotando por x_t = x ∈ X y at ∈ A(x), el estado del sistema y el control (o acción) aplicado al tiempo t, respectivamente, la evolución del sistema la podemos describir de la siguiente manera. Si el sistema se encuentra en el estado x_t= x ∈ X al tiempo t y se aplica el control at= a ∈ A(x), entonces dos cosas ocurren:

1. Se produce un costo c(x, a).

2. El sistema evoluciona al estado xt+1 ∈ X de acuerdo a la ley de transici´on P .

Una vez que el sistema se encuentra en el estado x_t+1= x⁰, se elige un nuevo control a⁰ ∈ A(x⁰) y el proceso anterior se repite.

Si el número de etapas de decisión es finito, decimos que el MCM tiene horizonte de planeación finito y en otro caso decimos que el horizonte de planeación es infinito.

Observaci´on 1.1.2

En muchas aplicaciones, la evolución del sistema está determinada por una ecuación en diferencias de la forma

xt+1= F (xt, at, ξt) (1.3)

(17)

1.2. POLÍTICAS DE CONTROL ADMISIBLES 3 donde {ξ_t} es una sucesión de variables aleatorias independientes e iden- ticamente distribuidas, con valores en algún conjunto numerable S, y F : X × A × S → X es una función conocida.

Si φ es la funci´on de probabilidad com´un de las variables aleatorias ξ_t, es decir,

φ(k) = P [ξt= k] ∀ k ∈ S, t ∈ N0, (1.4) entonces para cada (x, a) ∈ K tenemos

P_x,x⁰(a) = P [xt+1= x⁰|x_t= x, at= a] = X

k∈S_x0

φ(k),

donde

S_x⁰ := {s ∈ S : F (x, a, s) = x⁰}.

De lo anterior podemos concluir que si la evolución del sistema está repre- sentada por la ecuación en diferencias (1.3) entonces la ley de transición entre los estados esta determinada por la función de probabilidad φ.

1.2. Pol´ıticas de control admisibles

Definici´on 1.2.1 Dado un MCM y t ∈ N0, definimos el espacio de historias admisibles hasta la etapa t mediante

H0 := X y

Ht:= K^t× X para t ∈ N.

Un elemento en Ht es un vector o t-historia de la forma ht= (x0, a0, ..., xt−1, at−1, xt) con (x_k, a_k) ∈ K para k = 0, 1, ..., t − 1 y xt∈ X.

Definimos el conjunto

F := {f : X → A | f (x) ∈ A(x), x ∈ X}.

A cada elemento de F se le llama selector.

Definici´on 1.2.2

(18)

(a) Una pol´ıtica de control es una sucesi´on π = {f_t} de funciones f_t: Ht→ A tal que f_t(h_t) ∈ A(x_t) ∀ h_t∈ Ht, t ∈ N0.

(b) Una pol´ıtica de control Markoviana es una sucesi´on π = {ft}, donde f_t∈ F ∀ t ∈ N0.

(c) Una pol´ıtica Markoviana es estacionaria si existe f ∈ F tal que ft= f ∀ t ∈ N0. De acuerdo a la Definici´on 1.2.2, una pol´ıtica determina el control o

decisi´on que se aplica en cada etapa; es decir, at = ft(ht), at = ft(xt) o a_t= f (x_t), seg´un sea el caso.

Denotaremos por Π al conjunto de todas las pol´ıticas e identificaremos el conjunto de pol´ıticas estacionarias con el conjunto F.

En el caso particular de un MCM con horizonte de planeaci´on finito N , una pol´ıtica es de la forma π = {f₀, f₁, ..., f_{N −1}}.

En un MCM con horizonte de planeaci´on N < ∞, definimos el espacio muestral como

Ω_N := K^N × X, cuyos elementos son las trayectorias de la forma

ω = (x₀, a₀, ..., x_{N −1}, a_{N −1}, x_N)

con (xk, ak) ∈ K si k = 0, 1, ..., N − 1 y xN ∈ X; y en el caso en que N = ∞, el espacio muestral se define como Ω = K^∞, y las trayectorias son de la forma ω = (x₀, a₀, ...), con (x_k, a_k) ∈ K.

Para un estado inicial x ∈ X y una pol´ıtica π = {f0, f1, ...} ∈ Π, existe una probabilidad denotada por P_x^π definida en una familia de subconjuntos de Ω tal que las variables xk y ak satisfacen

P_x^π[x0 = x] = 1,

P_x^π[x_t+1 = y|h_t, a_t] = P_x_t_,y(a_t) (1.5) En el caso de horizonte finito N < ∞, la probabilidad P_x^π se define expl´ıcitamente por

P_x^π(x0, a0, ..., xN −1, aN −1, xN) = δx(x0)Px0,x1(a0) · · · PxN −1xN(aN −1)

(19)

1.3. ´INDICE DE FUNCIONAMIENTO 5 donde a_k = f_k(x₀, a₀, ..., x_k), k = 0, 1, ..., N − 1 y δ_x(·) representa la probabilidad concentrada en x.

Observaciones 1.2.3

(a) Denotamos por E_x^π al operador esperanza respecto a P_x^π, es decir, si W es una variable aleatoria definida en Ω, su valor esperado est´a dado por

E_x^π[W ] =X

ω∈Ω

W (ω)P_x^π(ω).

(b) Si v es una funci´on de xt+1 entonces E_x^π[v(xt+1)|ht, at] =X

y∈X

v(y)Pxt,y(at) (1.6)

1.3. ´Indice de funcionamiento

Como se hab´ıa mencionado antes, un ´ındice de funcionamiento, tambi´en llamado criterio de optimalidad, es una funci´on que de cierta manera “mide” el comportamiento del sistema al utilizar diferentes pol´ıticas de control, dado el estado incial.

A continuaci´on se presentan tres ´ındices de funcionamiento usuales cuando se utiliza la pol´ıtica π dado que el estado inicial es x₀ = x.

Definici´on 1.3.1 Sean x ∈ X y π ∈ Π. Se define:

(a) El costo total esperado hasta la N-´esima etapa por

J_N(π, x) := E_x^π[

N −1

X

t=0

c(x_t, a_t) + c_N(x_N)],

donde c_N(x) es una funci´on definida para cada x ∈ X, y representa un

“costo terminal”.

(20)

(b) El costo total esperado α-descontado mediante V_α(π, x) := E_x^π[

∞

X

t=0

α^tc(x_t, a_t)], (1.7) donde α ∈ (0, 1) representa el factor de descuento.

(c) El costo promedio esperado por J (π, x) := l´ım sup

N →∞

1 NE_x^π[

N −1

X

t=0

c(x_t, a_t)].

En este trabajo nos centraremos en el estudio de MCM con ´ındice de costo descontado. La motivación para el estudio de este ´ındice de funcionamiento proviene del análisis de problemas en las áreas de econom´ıa y finanzas donde V_α tiene una interpretación monetaria. En este caso, se in- cluye un factor de descuento α al costo, ya que cierta cantidad de dinero en el presente tiene menor valor en el futuro. De hecho, en muchos problemas, el factor de descuento α se interpreta como α = _1+i¹ , donde i representa la tasa de interés. Entonces, α^t representa el valor presente de la moneda t per´ıodos después, es decir: un costo de L unidades en el tiempo t equivale a un costo presente de α^tL unidades.

1.4. Problema de control ´optimo

Con todos los elementos descritos anteriormente, podemos plantear el problema de control ´optimo (PCO) de la siguiente manera:

Dado un modelo de control de Markov (X, A, {A(x) : x ∈ X}, P, c) una familia de pol´ıticas de control admisibles Π y uno de los ´ındices de funcionamiento de la Definici´on 1.3.1 al cual representamos por w(π, x), el PCO consiste en encontrar una pol´ıtica π^∗ ∈ Π tal que

w(π^∗, x) = ´ınf

π∈Πw(π, x), ∀ x ∈ X. (1.8) Por ejemplo, para el caso descontado, el PCO es encontrar π^∗ ∈ Π tal que

V_α(π^∗, x) = ´ınf

π∈ΠV_α(π, x) =: V^∗(x), x ∈ X.

En este caso a π^∗ se le llama pol´ıtica α-óptima y V^∗(·) es la función de valor óptimo.

(21)

1.5. EJEMPLO: SISTEMA DE PRODUCCI ´ON/INVENTARIO 7

1.5. Ejemplo: sistema de producci´on/inventario

Consideremos el siguiente sistema de producci´on/inventario.

Al inicio de cada per´ıodo, se observa el nivel de inventario (cantidad) de determinado art´ıculo que hay en un almacén o tienda, y en base a esta infor- mación se decide ordenar a la unidad de producción, una cantidad adicional de art´ıculos o conservar el nivel de inventario. Suponemos que se satisfacen las siguientes condiciones:

1. El almac´en tiene una capacidad finita de C unidades.

2. La solicitud de art´ıculos adicionales se hace al inicio de cada per´ıodo y se surte inmediatamente.

3. Los costos y precio de venta del art´ıculo no var´ıan en diferentes per´ıodos.

Definamos las siguientes variables. Para cada t ∈ N0:

x_trepresenta el nivel de inventario del art´ıculo al inicio de la etapa t.

a_t representa la cantidad de art´ıculos solicitados a la unidad de producci´on, a fin de abastecer la unidad de inventario al inicio de la etapa t.

ξ_t representa la demanda durante la etapa t, y suponemos que {ξ_t} es una sucesión de variables aleatorias i. i. d. (con valores en N0), y función de probabilidad común φ.

De lo anterior observamos que:

X = A = {0, 1, ..., C}.

Dado que el sistema tiene capacidad finita C, si xt = x, entonces solo tiene sentido solicitar a la unidad de producci´on una cantidad de art´ıculos a_t= a ∈ A(x) = {0, 1, ..., C − x}. As´ı, cada x ∈ X tiene asociado un conjunto no vac´ıo A(x) ⊂ A de controles admisibles cuando el sistema se encuentra en el estado x.

Entonces, la din´amica de las variables de estado puede modelarse mediante el sistema de ecuaciones en diferencias (ver observaci´on 1.1.2)

xt+1 = (xt+ at− ξ_t)⁺= m´ax(xt+ at− ξ_t, 0), (1.9) con t ∈ N0 y x0 = ˜x ∈ X.

(22)

Supongamos que la evoluci´on de este sistema se ha observado hasta la etapa t, de manera que se conoce la historia correspondiente mediante los valores espec´ıficos de x0, a0, x1, a1, ..., xt, at, y supongamos adem´as que en particular, x_t= x y a_t= a.

Notemos que la probabilidad de que xt+1= y dada la historia hasta la etapa t (t-historia), depende ´unicamente del ´ultimo estado observado (x_t = x) y del control respectivo (a_t = a), sin importar la (t − 1)- historia del sistema, ni el valor de t.

En efecto, usando (1.9) tenemos que para todo x, y ∈ X, a ∈ A(x) y t ∈ N0

P [xt+1= y|x0, a0, x1, a1, ..., xt−1, at−1, xt= x, at= a]

= P [(xt+ at− ξ_t)⁺ = y|ht−1, at−1, xt= x, at= a]

= P [(xt+ at− ξ_t)⁺ = y|xt= x, at= a]

= P_x,y(a),

lo cual representa la ley de transici´on del sistema.

Además, como las v.a’s ξ_tson i.i.d. con función de probabilidad común φ(·), se sigue que

P [xt+1= y|xt= x, at= a] = P [(xt+ at− ξ_t)⁺= y|xt= x, at= a]

= P [(x + a − ξt)⁺= y]

= X

k∈Sy

φ(k),

(1.10) donde Sy := {s ∈ N0 : (xt+ at− s)⁺= y}.

Finalmente, definiendo las constantes λ y h como sigue λ : precio (unitario) de producci´on,

h : costo (unitario) de almacenamiento, (1.11) tenemos que la funci´on de costo por etapa, queda determinada por

c(x, a) = λa + hE_φ(x + a − ξ_t)⁺ .

(23)

Cap´ıtulo 2

Criterio de costo descontado

2.1. Introducci´on

En este cap´ıtulo vamos a analizar el problema de control óptimo asociado al criterio de costo total esperado α-descontado. Este análisis se realizará por medio de la ecuación de optimalidad, para lo cual demostraremos que la fun- ción de valor óptimo es la única solución. En base a este hecho mostramos la existencia de pol´ıticas óptimas. Finalmente introduciremos algunos algoritmos de aproximación para la función de valor.

Para una f´acil referencia introducimos de nuevo los elementos que defi- nen el PCO en el caso descontado.

Para x ∈ X y π ∈ Π, definimos el costo total esperado α-descontado al usar la pol´ıtica π cuando el estado inicial es x₀ = x, por

V_α(π, x) := E_x^π[

∞

X

t=0

α^tc(x_t, a_t)] (2.1)

donde α ∈ (0, 1) es el factor de descuento.

En este caso, el PCO respectivo consiste en encontrar una pol´ıtica π^∗ ∈ Π tal que minimice la funci´on V_α(π, x), es decir,

Vα(π^∗, x) = ´ınf

π∈ΠVα(π, x) ∀ x ∈ X.

9

(24)

Además la función de valor óptimo, a la cual llamaremos función de valor α-óptimo, cuando el estado inicial es x₀ = x queda definida como

V^∗(x) := ´ınf

π∈ΠVα(π, x), x ∈ X. (2.2) Entonces, llamaremos a π^∗ una pol´ıtica α-´optima.

2.2. Condiciones

En lo que resta del trabajo vamos a suponer que se cumplen las siguientes condiciones:

Hip´otesis 2.2.1

(a) Para cada x ∈ X, A(x) es un conjunto finito.

(b) Existe una constante M > 0 tal que

|c(x, a)| ≤ M, ∀ (x, a) ∈ K. (2.3)

La Hip´otesis 2.2.1 implica que V_α(·, ·) est´a bien definido, como lo esta- blece el siguiente resultado.

Proposición 2.2.2 La Hipótesis 2.2.1 (b) implica que el ´ındice Vα(π, x) en (2.1) está acotado.

Demostraci´on. Para cada t ∈ N0 definamos las v.a.’s Xt y Yt como sigue Xt:= α^tc(xt, at) y Yt:= |Xt|.

Entonces

P [Xt≤ Y_t] = 1 ∀ t ∈ N0, lo cual implica, para cada x ∈ X y π ∈ Π

|E_x^π[X_t]| ≤ E_x^π[Y_t] ∀ t ∈ N0. Ahora, de (2.3) se sigue que

E_x^π[Yt] ≤ M α^t< ∞ ∀ t ∈ N0,

(25)

2.3. ECUACI ´ON DE OPTIMALIDAD 11 y por lo tanto, para cada x ∈ X y π ∈ Π:

|V_α(π, x)| =

∞

X

t=0

E_x^π[α^tc(x_t, a_t)]

≤ M

∞

X

t=0

α^t= M

1 − α < ∞ ∀ x ∈ X y π ∈ Π,

(2.4)

debido a que α ∈ (0, 1).

Hemos probado que si la función de costo es una función acotada, entonces el ´ındice de funcionamiento también es acotado. Esta propiedad nos faci- litará el análisis puesto que nos permite apoyarnos en la teor´ıa de funciones sobre espacios lineales normados para establecer los principales resultados de optimalidad α-descontada.

Denotaremos por B(X) al espacio lineal normado de todas las funciones acotadas v : X → R con la norma

kvk := sup

x∈X

|v(x)|. (2.5)

Observaci´on 2.2.3 Como consecuencia se tiene que:

(a) B(X) es un espacio de Banach (ver Ap´endice B, Teorema B.0.8).

(b) De (2.2) y la Proposici´on 2.2.2 se tiene que V^∗∈ B(X), y

|V^∗(x)| ≤ M

1 − α ∀ x ∈ X. (2.6)

2.3. Ecuaci´on de Optimalidad

Definición 2.3.1 Diremos que una función u ∈ B(X) es una solución de la ecuación de optimalidad α-descontada (EO) si

u(x) = m´ın

a∈A(x)







c(x, a) + αX

y∈X

u(y)P_x,y(a)







∀ x ∈ X. (2.7)

El objetivo es demostrar que, bajo la Hipótesis 2.2.1, la función de valor α-óptimo satisface la EO, lo cual nos permitirá mostrar la existencia de pol´ıticas óptimas para el modelo MCM (1.1). Para tal fin introduciremos nueva notación, as´ı como también algunos resultados preliminares.

(26)

Primeramente, para cada u ∈ B(X) definimos los operadores

T u(x) := m´ın

a∈A(x)







c(x, a) + αX

y∈X

u(y)Px,y(a)







∀ x ∈ X, (2.8)

y para f ∈ F

Tfu(x) := c(x, f ) + αX

y∈X

u(y)Px,y(f ). (2.9) Asimismo, definimos

T^tu := T [T^t−1u], t ∈ N, (2.10) y para cada f ∈ F,

T_f^tu := T_f[T_f^t−1u], t ∈ N, donde T⁰u = u y T_f⁰u = u.

Observaciones 2.3.2 (a) Observemos que en t´erminos del operador T , la EO queda expresada como

u = T u, u ∈ B(X).

(b) La Hip´otesis 2.2.1 (a) garantiza que existe f ∈ F tal que T u = T_fu, u ∈ B(X).

(c) De la hip´otesis 2.2.1 (b), se tiene que para cada u ∈ B(X) y t ∈ N0

T^tu ∈ B(X) y adem´as

T_f^tu ∈ B(X), f ∈ F.

Los dos resultados que se muestran a continuaci´on resaltan algunas pro- piedades importantes de ambos operadores, T y T_f, previamente definidos.

Proposición 2.3.3 Bajo la Hipótesis 2.2.1 (b), T y T_f (f ∈ F) son operadores de contracción módulo α sobre B(X) con la norma (2.5), esto es, para cada par de funciones u, v ∈ B(X):

(a) ||T u − T v|| ≤ α||u − v||, y

(27)

2.3. ECUACI ´ON DE OPTIMALIDAD 13 (b) ||T_fu − T_fv|| ≤ α||u − v||.

Demostraci´on.

(a) Primero tenemos que para cada u, v ∈ B(X), x ∈ X y a ∈ A(x) se cumple

c(x, a) + αX

y∈X

u(y)P_x,y(a)

= c(x, a) +



αX

y∈X

v(y)P_x,y(a) − αX

y∈X

v(y)P_x,y(a)



+ αX

y∈X

u(y)P_x,y(a)

≤ c(x, a) + αX

y∈X

v(y)Px,y(a) + αX

y∈X

|u(y) − v(y)|P_x,y(a)

≤ c(x, a) + αX

y∈X

v(y)Px,y(a) + α sup

y∈X

|u(y) − v(y)|.

Ahora, tomando el m´ınimo sobre A(x) en ambos lados de la desigualdad y de acuerdo con (2.5) y (2.8), vemos que para cada x ∈ X:

T u(x) ≤ T v(x) + α||u − v||, Lo cual es equivalente a la expresi´on

T u(x) − T v(x) ≤ α||u − v|| ∀ x ∈ X. (2.11) Luego, siguiendo un procedimiento completamente an´alogo es posible observar que adem´as se tiene

T v(x) − T u(x) ≤ α||u − v|| ∀ x ∈ X, (2.12) de manera que de (2.11) y (2.12) obtenemos

|T u(x) − T v(x)| ≤ α||u − v|| ∀ x ∈ X. (2.13) Finalmente, tomando el supremo sobre X en (2.13) se obtiene la afir- maci´on de la parte (a).

(b) Para la parte (b) la demostraci´on sigue un esquema similar al previo.

Observación 2.3.4 Una consecuencia de la Proposición 2.3.3 y el inciso (a) del Teorema de Punto Fijo de Banach B.0.10 (Ver Apéndice B), es que ambos operadores, T y Tf, tienen un único punto fijo en B(X).

(28)

2.4. Existencia de pol´ıticas ´optimas

Los resultados que se presentan en esta sección están orientados a mostrar que la única solución a la EO es la función de valor óptimo, as´ı como a mostrar la existencia de pol´ıticas óptimas.

Proposici´on 2.4.1

(a) El punto fijo del operador T_f es V_α(f, ·), es decir,

Vα(f, x) = TfVα(f, x) ∀ x ∈ X. (2.14) (b) Una pol´ıtica π = {ft} es α-´optima si, y solo si, Vα(π, x) es punto fijo

del operador T . Demostraci´on.

(a) Nótese que utilizando (2.1), junto con los Teoremas A.1.3, A.1.4 (c) y A.2.4 (véase Apéndice A) se obtiene lo siguiente

V_α(f, x) : = E_x^f

"_∞ X

t=0

α^tc(x_t, a_t)

#

= c(x, f ) + αE_x^f

"_∞ X

t=1

α^t−1c(xt, at)

#

= c(x, f ) + αE_x^f

"

E_x^f

"_∞ X

t=1

α^t−1c(xt, at)|x1, a1

##

= c(x, f ) + αE_x^f[Vα(f, x1)]

= c(x, f ) + αX

y∈X

Vα(f, y)Px,y(f ) ∀ x ∈ X, f ∈ F.

Es decir, se cumple (2.14), y en consecuencia, V_α(f, ·) es el punto fijo de T_f.

(b) Primero, supongamos que

u(x) = Vα(π, x)

(29)

2.4. EXISTENCIA DE POL´ITICAS ´OPTIMAS 15 es punto fijo de T para alguna π ∈ Π.

Entonces,

u(x) = m´ın

a∈A(x)







c(x, a) + αX

y∈X

u(y)Px,y(a)







. (2.15)

Sea π⁰ = {f_t⁰} una pol´ıtica arbitraria. Obs´ervese que, de acuerdo con (1.6), se cumple lo siguiente

E_x^π⁰[α^t+1u(x_t+1)|h_t, a_t] = α^t+1X

y∈X

u(y)P_x_t_,y(f_t⁰(h_t)).

De aqu´ı y por (2.15), n´otese que

E_x^π⁰[α^t+1u(xt+1)|ht, at] = α^t+1X

y∈X

u(y)Pxt,y f_t⁰(ht) ± α^tc xt, f_t⁰(ht)

= α^t



c x_t, f_t⁰(h_t) + αX

y∈X

u(y)P_x_t_,y f_t⁰(h_t)





−α^tc xt, f_t⁰(ht)

≥ α^tu(xt) − α^tc xt, f_t⁰(ht) . Es decir,

α^tc(xt, f_t⁰(ht)) ≥ α^tu(xt) − E_x^π⁰[α^t+1u(xt+1)|ht, at], de lo cual, por los Teoremas A.1.4(c) y A.2.4 se tiene

E_x^π⁰[α^tc(xt, at)] ≥ α^tE_x^π⁰[u(xt)] − α^t+1E_x^π⁰[u(xt+1)],

expresi´on en la que, sumando de ambos lados desde t = 0 hasta n, vemos que

E_x^π⁰[u(x0)] − αⁿ⁺¹E_x^π⁰[u(xn+1)] ≤ E_x^π⁰[

n

X

t=0

α^tc(xt, at)].

(30)

Tomando l´ımite cuando n → ∞, debido a que u(x) es acotada y α ∈ (0, 1), de obtiene que

u(x) ≤ V_α(π⁰, x),

´ esto es,

V_α(π, x) ≤ V_α(π⁰, x).

Como π⁰ es arbitraria,

V_α(π, x) = V^∗(x) Por consiguiente, π es una pol´ıtica α-´optima.

Ahora, sup´ongase que π es una pol´ıtica α-´optima, es decir, u(x) = V_α(π, x) = V^∗(x).

Demostraremos que

u ≥ T u y u ≤ T u. (2.16)

Para demostrar la primera desigualdad en (2.16) consid´erese la expresi´on

u(x) = E_x^π

"_∞ X

t=0

α^tc(xt, at)

# , de la cual, por el Teorema A.2.4 vemos que

u(x) = c(x, f₀) + αE_x^π[V_α(π⁰, x₁)], donde π⁰= {f_t}_t∈N, es decir, π = {f₀, π⁰} = {f₀, f₁, . . .}.

De aqu´ı,

u(x) ≥ c(x, f0) + αE_x^π[u(x1)]

por lo que se obtiene

u(x) ≥ m´ın

a∈A(x)







c(x, a) + αX

y∈X

u(y)P_x,y(a)





 ,

lo cual demuestra que u ≥ T u.

(31)

2.4. EXISTENCIA DE POL´ITICAS ´OPTIMAS 17 Con el fin de demostrar la segunda desigualdad en (2.16), sea g ∈ F arbitraria, y definiendo la pol´ıtica

π⁰ = {g, π}

se tiene que

u(x) ≤ V_α(π⁰, x), de donde

u(x) ≤ c(x, g) + αE_x^π⁰[Vα(π, x1)].

Como u(x₁) = V_α(π, x₁), entonces u(x) ≤ c(x, g) + αX

y∈X

u(y)Px,y(g),

y, dado que g ∈ F es arbitraria, entonces

u(x) ≤ m´ın

a∈A(x)







c(x, a) + αX

y∈X

u(y)P_x,y(a)





 ,

lo cual conduce a que u ≤ T u.

Teorema 2.4.2 Si se satisface la hip´otesis 2.2.1, entonces:

(a) V^∗ es la ´unica soluci´on acotada de la EO.

(b) π = {f } es una pol´ıtica α-´optima si y s´olo si f minimiza el lado derecho de la EO, es decir,

V^∗(x) = c(x, f ) + αX

y∈X

V^∗(y)P_x,y(f ).

Demostraci´on.

(a) Debido a que T es un operador de contracci´on y B(X) es un espacio de Banach, entonces por el Teorema de Punto Fijo existe u ∈ B(X) tal que

u(x) = T u(x)

= m´ın

a∈A(x)







c(x, a) + αX

y∈X

u(y)Px,y(a)





 .

(32)

Sea g ∈ F tal que

u(x) = T_gu(x).

Luego, por la Proposici´on 2.4.1 (a) se tiene u(x) = V_α(g, x),

lo cual implica que π = g es una pol´ıtica α-´optima, y entonces u(x) = V^∗(x).

(b) Primero supongamos que π = {f } es una pol´ıtica α-´optima. Entonces, de la Proposici´on 2.4.1 (b) se tiene

T V_α(f, x) = V_α(f, x) = V^∗(x), (2.17) es decir,

m´ın

a∈A(x)







c(x, a) + αX

y∈X

V_α(f, y)P_x,y(a)







= m´ın

a∈A(x)







c(x, a) + αX

y∈X

V^∗(y)P_x,y(a)





 y, dado que por la Proposici´on 2.4.1 (a)

Vα(f, x) = T_fVα(f, x), por (2.17) tenemos

c(x, f ) + αX

y∈X

V^∗(y)P_x,y(f ) = m´ın

a∈A(x)







c(x, a) + αX

y∈X

V^∗(y)P_x,y(a)





 .

Por consiguiente, f minimiza el lado derecho de la EO.

Supongamos ahora que f minimiza el lado derecho de la EO. En tal situaci´on

V^∗(x) = T_fV^∗(x), y, como por la Proposici´on 2.4.1 (a) se tiene V^∗(x) = Vα(f, x), entonces π = {f } es una pol´ıtica α-´optima.