UNIVERSIDAD DE SONORA T E S I S

En esta tesis, se estudian problemas de control óptimo asociados con procesos de control markovianos (PCM) y juegos semimarkovianos (JSM) de suma cero con índice promedio, núcleos de transición débilmente continuos en espacios de Borel y funciones de costo o pago ilimitadas. La respuesta del sistema a las políticas de control se mide mediante un índice de desempeño. Por tanto, el problema de control óptimo es encontrar una política de control que optimice la velocidad de operación.

En un juego de suma cero, el sistema está controlado por dos jugadores que eligen sus variables de control de forma independiente y simultánea. El problema de optimización consiste en encontrar estrategias de control para ambos jugadores que garanticen un equilibrio entre las ganancias de uno y las pérdidas del otro.

Introducción

La condición de Lyapunov garantiza que los procesos controlados por políticas estacionarias tengan propiedades de ergodicidad y estabilidad. Las condiciones de continuidad y compacidad garantizan la existencia de "minimizadores" medibles para algunos problemas de optimización estática. En la Sección 1.6 demostraremos, bajo las condiciones descritas en el párrafo anterior, la existencia de una solución a la ecuación de optimización del costo promedio utilizando "argumentos de punto fijo".

Modelo de control markoviano

MODELO DE CONTROL MARKOVIANO 3 (c) A cada x 2 lo llamaremos conjunto de pares admisibles. Supondremos que K pertenece al álgebra de -Borel del producto cartesiano X A. d) la evolución del sistema está dada por el núcleo estocástico Q(j; ) sobre X dado K:. Cuando se ha producido la transición, se elige una nueva acción a1 =b2A(y) con un precio C(y; b); y el proceso se repite hasta el infinito, generándose el proceso controlado.

Políticas de control

Con el fin de simplificar la notación, identificaremos una política estacionaria aleatoria con el núcleo estocástico '2 definiéndola y en consecuencia también denotaremos la clase formada por dichas políticas como . El siguiente teorema garantiza la existencia del proceso f(xn; an)g con las distribuciones marginales determinadas por la distribución del estado inicial del sistema, la ley de transición Q(j; ) y la política =f ngn2N0 con la que se seleccionan los controles. . Para cada 2 P(X) y cada política 2 existe una medida de probabilidad P y un proceso estocástico f(xn; an)gn2N0... ambos definidos sobre el espacio medible ( ;F) que tiene las siguientes propiedades para cada n2N0 completado :.

Problema de control óptimo en costo promedio

Un enfoque para garantizar la existencia de políticas estacionarias óptimas de costo promedio es probar la existencia de soluciones a la ecuación de optimización (costo promedio). Diremos que la ecuación de optimización se satisface si existe una función constante y medible h:X !R tal que. Diremos que un selector f 2 F es una minimización de la ecuación de optimización si f(x) alcanza in...mo en (1.4) para todox2X, es decir,

La relación entre la ecuación de optimización y su minimizador con el problema de control óptimo se muestra en el siguiente teorema. Por otro lado, dado que f 2 F es una minimización de la ecuación de optimización, la ecuación se satisface.

Condiciones de optimalidad

En las siguientes secciones, se demostrará la existencia de políticas óptimas estacionarias demostrando la existencia de una solución de la ecuación de optimización que satisfaga la condición (1.5), así como la existencia de sus minimizadores. Las propiedades del núcleo se derivan directamente de la definición de Q(^ j; ) y la propiedad C2(b). Sólo necesitamos verificar que se cumple la condición (') > 0 para ' 2: Esta condición es consecuencia directa de la proposición [8, Proposición D.8, p. Además de las condiciones C2 y C3, también asumiremos que el modelo de control satisface el siguiente conjunto de condiciones de continuidad y compacidad.

CONDICIONES DE ÓPTIMALIDAD 19 Observación 1.5.12 (Teorema de elección) Sea v : K!R una función acotada inferior desde...hasta. a) Siv es semicontinua inferior y la aplicación x7!A(x) es semicontinua superior, entonces la función v es semicontinua inferior y está acotada inferior. A(x) es continua, por lo que v es continua y existe g 2F tal que. a) Si u2LW(X), entonces Qu es semicontinuo inferiormente en K.

Existencia de políticas estacionarias óptimas

La envolvente semicontinua inferior de una función v en un espacio métrico (Y; d) se define como. Para definir el sistema JSM de suma cero, es necesario desarrollar un modelo de juego semi-Markoviano, conjuntos de estrategias para cada jugador y una tasa de pago (en costo promedio). Estas clases de condiciones y algunos resultados derivados de ellas se verán en la sección 2.5, mientras que en la sección 2.6 demostraremos la existencia de estrategias de equilibrio para el JSM mediante “argumentos de punto fijo”.

En este trabajo, también utilizaremos la condición de continuidad débil del núcleo de transición para JSM de suma cero en el pago promedio utilizando el enfoque de "argumentos de punto fijo" utilizado en [23]. Definición 2.2.1 Un juego semi-Markov (JSM) de suma cero para dos jugadores consta de objetos. Definición 2.3.1 Una estrategia de control 1 =f n1gn2N0 para el primer jugador es una serie de núcleos estocásticos n1 en un Hn dado tal que.

Las estrategias para el segundo jugador y la clase 2 de estas estrategias se definen de manera similar, reemplazando A por B. En este capítulo, las estrategias más interesantes son las estacionarias elegidas al azar y se definen de la siguiente manera: para cada x 2 x2X. Si se cumple la igualdad en (2.2), diremos que el juego tiene un valor y para la función :X !R que define.

El estándar W kW y los grupos BW(X), LW(X) y CW(W) se definen del mismo modo que en el apartado 1.5 del capítulo primero. Definición C.0.21 A -...la medida de la madre está en Definición C.0.26 La cadena de Markov fxtg es recursiva de Harris positiva si es recursiva de Harris y admite una única medida de probabilidad invariante.

Juego semi-markoviano de suma cero 27

El modelo de juego semi-markoviano

Para plantear un problema de optimización en un juego semi-Markov, es necesario definir un modelo semi-Markov del juego, los conjuntos de estrategias admisibles para los jugadores y el índice de desempeño bajo el cual se propondrá el equilibrio del juego. . Intuitivamente, nuestro modelo J representa un sistema dinámico que evoluciona en el tiempo de la siguiente manera: el juego comienza en el estado x0 =x2 (jugador 2). Entonces el juego permanece en el estado x0 durante un tiempo aleatorio 1 =l 2R+ determinado por la función de distribución G(jx0; a0; b0), es decir,.

El primer jugador recibe pagador(x; a; b; l) del segundo jugador y el juego pasa al estado x1 =y2X según la medida de probabilidad Q(jx0; a0; b0), es decir,. El juego permanece en el estado y durante un tiempo aleatorio 2 = k 2 R+ dado por G(jy; c; d), por lo que el primer jugador recibe un pago (y; c; d; k) del segundo jugador. Ahora bien, para cada n 2 N el conjunto de historias admisibles hasta el grado es el conjunto Hn.

Estrategias de juego

El criterio del Teorema 2.3.3 representa la distribución inicial del juego; si la medida se concentra en un estado x0 =x2X, es decir.

El índice de pago promedio

El enfoque que utilizaremos para asegurar la existencia de equilibrios en juegos semimarkovianos consiste en establecer condiciones para la existencia de soluciones de la denominada ecuación de Shapley. La siguiente afirmación muestra la relación entre la ecuación de Shapley y la existencia de estrategias óptimas. El proceso de estado fxngn2N0 es una cadena de Markov con un núcleo de transición en el paso Q'1;'2(j).

Condiciones de optimalidad

En el siguiente teorema veremos una serie de resultados importantes, incluida la existencia de una medida de probabilidad invariante. Si D1 y D2 también se cumplen, entonces:. f) existe una función única h'1;'2 2 BW(X) que satisface la ecuación de Poisson. A(x) es semicontinua superior y A(x) es completa para cada x 2

Los teoremas de selección garantizan la existencia de selectores medibles, como se muestra en la Observación 1.5.12. Pero en el caso de juegos con dos o más jugadores ya no podemos garantizar la existencia de estrategias deterministas, por lo que los selectores deben tomar valores en espacios de probabilidad. Con lo que se ha discutido en esta sección, ahora estamos preparados para demostrar la existencia de estrategias óptimas estacionarias.

Existencia de estrategias estacionarias óptimas

Entonces T es un operador de contracción del propio LA(X) con módulo y existe h 2 LW(X) tal que h =T h.

Ejemplo

Dado que B es... finito, para verificar... que se cumple este conjunto de condiciones, podemos suponer sin pérdida de generalidad que B = fG1g. Demostremos que Q es débilmente continua y R es semicontinua sobre K. Obsérvese que existe M >0 tal que jykj M para cada k 2 N. y+c z)+ es continua y dominada por M +a, entonces de la dominada teorema de convergencia tiene.

Observaciones …nales

R es semicontinuo y finitamente acotado, por lo que existe una secuencia de funciones (un)n2N en Cb(Y) tal que a "u (si u es s.c.s. Además, d0 es una métrica en Y equivalente a d, es decir, podemos usar d0 en lugar de d en términos de topología. Una correspondencia ' de X a Y es una función que asigna a cada x en X un elemento '(x) del conjunto potencia 2Y, es decir ' es una función con dominio y contradominio 2Y. Para representar una correspondencia de X a Y usaremos la notación ':X Y. Definimos la gráfica de ' como un conjunto.

Diremos que V es una vecindad de x si hay un A abierto tal que x 2 A V. De manera similar, S es una vecindad de F si hay un O abierto tal que F O S. Los conjuntos de A y O se llaman vecindades abiertas de x y F, respectivamente. Se dice que es 'semicontinua superiormente en x2X si para cada vecindad U de '(x) existe una vecindad V de x tal que. Se dice que es 'semicontinuamente inferior en x2X si para cada conjunto abierto U tal que U \'(x)6=?, existe una vecindad V de x tal que.

La correspondencia 'es semicontinua superior (menor) en el Teorema B.0.16 SeanX;. En este caso también se dice que la medida' es una medida de irreductibilidad para el proceso fxtg. Si además satisface (X) = 1, entonces diremos que es una medida de probabilidad invariante para la cadena de Markov fxtg.

77 Teorema C.0.25 Si fxtg es recursivo de Harris, entonces existe una medida invariante que es única aparte de las constantes multiplicativas. Teorema C.0.27 La cadena de Markov fxtg es recursiva de Harris positiva si y sólo si para cada B 2 B(X) existe una constante aB tal que. Observación C.0.28 Si es una cadena de Harris recurrente positiva de Markovfxtges y su medida de probabilidad invariante, entonces.