En el capítulo 2 presentaremos los elementos del modelo de campo medio M y el correspondiente problema de control óptimo. En el capítulo 3 estudiamos el modelo de control de Markov asociado al sistema de N objetos con probabilidad positiva de existencia.
Introducci´ on
Descripci´ on del sistema de objetos
Usando (1.2) es posible escribir la ley de transición K de cada objeto en términos de la función F de la siguiente manera. Esto implica que el número de variables aleatorias uniformes en (1.7) coincide con el número N. 1.9) La demostración de la existencia de HN se realizó mediante un procedimiento.
N -Modelo de control de Markov
Sin embargo, en el resto de este trabajo asumiremos que la dinámica del sistema viene dada por la función HN que determinamos en (1.8) y (1.9).
Optimalidad en el N -MCM
Criterio de optimalidad descontado y PCO
Para cualquier política de control πN ∈ ΠN y estado inicial MN(0) = m ∈ PN(S), definimos el costo total descontado esperado como. Por tanto, el problema de control óptimo para el sistema de N objetos (N-PCO) consiste en encontrar una política πN∗ ∈ΠN tal que.
Existencia de pol´ıticas ´ optimas
Por lo tanto, para resolver el N-PCO, basta con considerar sólo la clase de políticas de Markov ΠNM. Como resultado, es necesario buscar métodos alternativos para resolver el problema de control.
Demostraci´ on del Lema 1.2.1
Algoritmo de iteración de valor para el modelo de campo medio de campo medio. Probaremos que la función de valor Ve es una solución de la ecuación de optimización, es decir.
Control en sistemas de interacci´ on de objetos bajo un esquema de campo
El modelo de control de campo medio
Supongamos que tenemos un sistema de control determinista {m(t)} que toma valores en P(S), cuya evolución viene dada por la ecuación en diferencias. Dado que el proceso {m(t)} es determinista, está completamente determinado por la secuencia de acciones {at} ⊂A y el estado inicial m(0) = m ∈ P(S). Más adelante mostraremos que el proceso {MN(t)}definido en (1.9) converge en probabilidad a {m(t)}donde(t) satisface (2.2).
Optimalidad en el campo medio
Decimos que π∗ es la política óptima para el modelo de control de campo medio M. Debido a la compacidad del espacio A, la continuidad de la función de costos r y el hecho de que la función H es continua (ver Proposición 1.4.7) conducen al siguiente resultado (ver [10]) .. a) La función de valor v∗ satisface la ecuación de optimización del campo medio v∗(m) = m´ın. Sea {(m(t), at)} una secuencia de pares estado-acción correspondientes a la aplicación de la política estacionaria π∗ ={f∗} ∈ΠM.
Establezcamos que π∗ es una política debido al principio de optimización y a los argumentos de programación dinámica. La función de valor y la política óptima están bien caracterizadas por el teorema 2.3.1 y la observación 2.3.2.
Convergencia en el campo medio
- Demostraci´ on del Teorema 2.4.5
Como el lado derecho de la última desigualdad no depende de la clase j, lo tenemos. La hipótesis 2.4.2 dice que, considerando N ∼ ∞, el controlador elige la misma acción mediante una política de Markov π = {ft} ∈ ΠM en el campo medio, cuando el sistema está en un estado muy cercano. Si eso falla, y si la Hipótesis 2.4.2 no se cumple, impondremos la siguiente hipótesis.
Es decir, en la hipótesis 2.4.4 estamos asumiendo que el costo por paso depende de las acciones sólo a través de la dinámica de los procesos {MN(t)} y {m(t)}. Dado que la dinámica de proporciones en el modelo N está dada por la función HN mostrada en (1.6), esto nos permite garantizar que el proceso {MN(t)}t∈N. Por otro lado, de las definiciones de las funciones de discrepancia ΦN y Φ dadas respectivamente en (1.18) y (2.7) tenemos.
Algoritmo de iteraci´ on de valores para el modelo de campo medio
Algoritmo de iteración de valor para la variable de índice descontado. En este apartado presentaremos las condiciones que garantizan la existencia de las pólizas. óptimo para obtener el problema de control óptimo del modelo MfN. Utilizando el algoritmo de iteración de valores, demostraremos que Ve es una solución a la ecuación de optimización y demostraremos la existencia de una política estacionaria. Supongamos que se cumple la hipótesis 3.4.2. a) La función de valor Ve es la única solución en C+(PN(S)) que satisface la ecuación de optimización. 3.26) Dado que πN es arbitrario, concluimos que.
Supongamos que se cumple la hipótesis 3.4.2. a) ev∗ es la única solución de la ecuación de optimización del modelo Mα, es decir. En esta sección, analizaremos la desviación de optimización de la política óptima ϕ∗ del modelo Mα cuando se utiliza en el proceso original. Finalmente, para ilustrar el método de solución, resolvemos el problema de control en el ejemplo de estrategias de mercado aplicando el algoritmo de iteración de valor.
Luego, utilizando el algoritmo de iteración de valores del Capítulo 2, calcularemos la función de valor en el campo medio.
Sistema de N objetos con horizonte aleatorio 36
Modelo de Control Markoviano para el sistema con N objetos y horizonte
3.3) Nuestro objetivo es demostrar la existencia de políticas óptimas para un PCO asociado a un índice de desempeño de la forma (3.1). Para ello propondremos un nuevo modelo M∗, basado en los elementos de MN, en el que definiremos el problema de control. Sean PN(S)∗ =PN(S)∪ {m∗} y A∗ =A∪ {a∗} donde m∗ es un estado ficticio que representa el estado donde el sistema se extingue y a∗ una acción arbitraria correspondiente am ∗ .
Considerando la historia del sistema, el controlador elige una acción en = a ∈ A∗(m) y se genera un costo r∗(m, a). Si m ∈PN(S), entonces a ∈ A, y con probabilidad 1−α(m) el sistema se detiene, es decir, el sistema pasa al estado m∗ y permanecerá allí con costo cero. Para cada políticaπN ∈ΠN y estado inicialMN(0) = m∈PN(S)∗, el costo total esperado con horizonte aleatorio τ toma la forma.
El problema de control óptimo asociado al modelo de control consiste en encontrar una política óptima πN∗ ∈ΠN tal que.
Planteamiento del problema en el modelo M N
Usando este procedimiento inductivo en n, cada uno de los sumandos de Vτ se puede escribir como uno de Ve, como se muestra (3.12). De lo anterior podemos concluir que hemos transformado el problema que nos interesa en el análisis del índice de desempeño (3.10). En la siguiente sección daremos las condiciones bajo las cuales se garantiza una solución al Problema de Control Óptimo del modelo M.f.
El algoritmo de iteraci´ on de valores para el ´ındice con descuento variable 41
- El modelo de control de campo medio con α dependiente del estado 46
- Convergencia en el α-campo medio
El algoritmo de iteración de valor para el índice de descuento variable. Mediante el algoritmo de iteración de valores demostraremos que Ve es la solución de la ecuación de optimización y demostraremos la existencia de una política estacionaria. Ecuación de optimización para MfN) Una función medible v : PN(S)→R se dice que es una solución a la ecuación de optimización para el modelo MfN si satisface. De los resultados obtenidos en el Teorema 3.4.4, podemos observar que, similar a lo que se hizo en el Capítulo 1, la solución al Problema de Control Óptimo del modelo MfN quedó en términos de una integral de orden N.
Para una política de control y un estado inicial, definimos el costo total descontado para el modelo de campo medio α como . 3.29). Decimos que ϕ∗ es la política óptima para el modelo de control α-campo medioMa. Para la demostración del teorema 3.5.3 se aplicará un procedimiento análogo al presentado en el teorema 2.4.5.
La demostración del Teorema 3.5.3 se deriva del mismo razonamiento presentado en el Teorema 2.4.5, utilizando los límites presentados en el Teorema 3.5.7.
Introducci´ on
Modelo de consumo-inversi´ on
Si suponemos que ρ es la densidad de la tasa de rendimiento ξt, la ley de transición K para todo t ∈ N toma la forma. Por otro lado, asumiremos que la función de costos por etapa:P(S)×A →R es de la forma r(m, a) =r(m) para todo a∈ A, y asumiremos que es Lipschitz acotado y uniforme con Lr constante; es decir, para alguna constante R >0.
Modelo de reforestaci´ on
La dinámica de las proporciones HN se puede determinar mediante la construcción presentada en el capítulo 1, específicamente en la ecuación (1.9). Sea XnN(t) la edad del enésimo árbol en el momento t, y sea MiN(t) la proporción de árboles de edad i= 1,2,3,4 que ocupan tierra en ese momento. El propietario del terreno, que se supone es el controlador central, tala al final de cada tiempo t una proporción (i)t,i= 1,2,3,4 de los árboles de cada grupo de edad.
Dado que los árboles pierden su valor después de 4 años cuando mueren, tenemos M4(t)−. Supondremos que cuando un árbol es talado o muere, inmediatamente se coloca un nuevo árbol en su lugar. Para definir la dinámica del modelo de campo medio, consideremos que la proporción de árboles que mueren en cada etapa viene dada por el parámetro θ ∈ [0,1). Dado que las dinámicas HN y H se obtuvieron mediante procedimientos diferentes a los presentados en el trabajo, la convergencia demostrada en el Teorema 2.4.1 no se sigue inmediatamente en este caso.
Por tanto, es necesario adaptar los argumentos para la demostración del Teorema 2.4.1 a este ejemplo, que presentamos a continuación.
Modelo SIM
Estrategias de Marketing
A partir del estudio de Marketing se estimaron proporciones de respuesta de los clientes según la estrategia adoptada por la empresa. Como podemos ver en (4.8), el producto mK(a) se utiliza constantemente en las ecuaciones del algoritmo de iteración de valores, por lo que, antes de continuar, procedemos a determinar su valor. Juegos de Markov de suma cero con factores de descuento estocásticos dependientes de la acción del estado: existencia de estrategias óptimas.
11] Carmen G Higuera-Chan. Modelos de control de campo medio para sistemas estoc´asticos de interacci´on de objetos con distribución´on desconocida. A mean-field approach for discounted zero-sum games in a class of systems of interacting objects [art´ıculo sometido]. Discrete-time control for systems of interacting objects with unknown random disturbance distributions: A mean-field approach. Applied Mathematics and Optimization.
Iteration Algorithms in Markov decision processes with state action dependent discount factor and unbounded costs.