De hecho, la transformación se basa en la existencia de una función que define la dinámica del sistema de CO en el espacio de medición. El Capítulo 1 presenta la teoría básica de PCM y los resultados en el caso del CO.
Introducci´ on
Procesos de Control de Markov
El estado del sistema y la acción aplicada en el momento t se denotan por xt y t, respectivamente. Hay situaciones en las que la evolución del sistema está determinada por una ecuación en diferencias de la forma.
Pol´ıticas de Control
Recuerde que F denota el conjunto de todos los votantes mensurables de Φ tales que. Los conjuntos de políticas de Markov aleatorias y estacionarias se denotan por ΠRM y ΠRS, respectivamente, y tenga en cuenta eso.
Criterio de Costo Descontado con Horizonte Infinito
Más adelante se demostrará que la función de valor óptimo, tal como se definió anteriormente, es una solución del EO. Además, la función de valor óptimo V∗ es la solución mínima no negativa del EO, es decir:
Procesos de Control de Markov Parcialmente Obsrvables 19
Modelo de Control Parcialmente Observable
A partir de aquí se obtiene una nueva observación y1 según el kernel K(·|a0, x1) y considerando esta observación se selecciona el control a1 y se repite el proceso. Considere un sistema como en (2.1), donde xt, yt yt toman sus respectivos valores en los espacios de Borel X, Y y A. Entonces se define una política para el PCM-PO como una secuenciaπ={πt}, de modo que, para cada t,πt se establece un núcleo estocástico sobre AdadoHt.
Además, como en el capítulo anterior, una política de control determinista {πt} puede definirse como una secuencia de funciones medibles por Ht que toman valores en A. Nuevamente, para el conjunto de todas las políticas lo denotaremos por Π, tomando en cuenta el contexto actual. El problema del control de PO se plantea de manera similar al considerar el conjunto de políticas Π y suponer que x0 tiene una distribución ν ∈Z.
Transformaci´ on a un Problema de Control Completamente Observable 22
Es decir, para alguna política π, una distribución inicial a priori ν0=ν∈ZyB∈ B(X),. y t) el álgebra σ-´de la historia observada, tenemos. Entonces, de acuerdo con la definición de política en el caso plenamente observable visto en el capítulo anterior, una política de información o I-política es una secuencia δ = {δt} tal que para cada t, δt(da|it) es una núcleo estocástico sobre un determinado It. Una secuencia {ft} de funciones medibles ft : Z → A se denomina política de Markov I en el sentido habitual, y tenga en cuenta que el conjunto de todas las políticas de Markov I es un subconjunto de .
Además, como es habitual, una política I de Markov {ft} en la que ft=f es independiente se denomina política I estacionaria, y nos referiremos a ella como política I estacionaria∞. Consideraremos ∆ como un subgrupo de Π; es decir, consideraremos una política I δ ∈ ∆ como una política π ∈ Π. Así, δ y πδ son equivalentes en el sentido de que, para cualquier t ≥0, πδt asigna a A la misma probabilidad condicional que la asignada por δt.
Modelo de Control CO
De las proposiciones 2.4 y 2.5 se deduce que una política I es óptima para el problema de control CO si, y sólo si, es óptima para el problema original PO. En otras palabras, los resultados del problema CO se pueden utilizar para obtener la solución del problema PO, reemplazando políticas con políticas I. Seguiremos este enfoque en la siguiente sección para obtener políticas óptimas para el problema de control de PO.
I-Pol´ıticas ´ Optimas
Finalmente, se muestra que el modelo de control de CO satisface las condiciones del Capítulo 1 para asegurar la existencia de políticas óptimas y que la función de valor óptimo es la solución mínima para el OE. Howzis está completamente determinado por la nueva función de costo por etapa. es el costo total descontado y. la función de valor óptimo. Ahora como en el caso anterior, para asegurar que la función de valor óptimo (3.21) sea la solución mínima del EO (3.22) y asegurar la existencia de una política... a) A( x) es compacta ∀ x∈X y x7→A(x) son semicontinuos superiores.
Una multifunción ϕ de X en A es una función cuyos valores ϕ(x), para cada x∈X, son subconjuntos no vacíos de A. Una multifunción ϕ de X en A se dice compacta (cerrada) si ϕ( x ) es un subconjunto compacto (cerrado) de A para cada x∈X. Sea ϕ una multifunción Borel-A compacta y medible de
Sistemas de Inventarios Parcialmente Observables 29
Descripci´ on de un Sistema de Inventarios
Un sistema de producción-inventario, o sistema de inventario, modela la dinámica de una empresa comercial con el fin de optimizar sus costos de acuerdo a ciertos criterios de desempeño, siendo el costo descontado el más utilizado en este tipo de sistemas. Así, al inicio de la empresa el nivel de inventario es xt+at y la demanda registrada durante ese período es ξt, el proceso de perturbaciones aleatorias, que generalmente se supone que es v.a. Por lo tanto, el nivel de inventario al inicio del siguiente período, suponiendo que se pierde la demanda insatisfecha al final de cada período, se puede expresar como xt+1 = (xt+at−ξt)+, t= 1,2, .
Por lo tanto, para los dos problemas que estudiamos en este capítulo, consideramos un sistema que evoluciona según una ecuación en diferencias.
El Modelo Zero Balance Walk
Entonces, el problema de inventario parcialmente observado para el modelo ZBW es encontrar una política óptimaπ∗, es decir, una políticaπ∗ que satisfaga . En el primero de ellos, mostraremos que E[ϕ(xt)|Yt] puede escribirse en términos de Yt−1, que será la clave en el Lema 3.3, para expresar esta expectativa condicional en términos de t'densidad y demanda. función de distribución. 0 F(w+at−1)κt−1(w)dw , donde la primera igualdad se obtiene aplicando la definición de θ; El segundo se obtiene aplicando el Teorema de Fubini en la segunda suma; y el tercero continúa aplicando los cambios de varibalesz0 :=at−1−syz00 :=w+at−1−sen a los denominadores del primer y segundo sumando, respectivamente.
Luego introducimos la ecuación de optimización para establecer explícitamente la forma del operador Ta. 3.10). Finalmente, demostrar que la función de valor óptimo (3.8) es una solución mínima en L({0,1} ×D) de la ecuación de optimización (3.13) y asegurar su existencia. Para tener una política óptima para este problema, es necesario verificar las condiciones del Teorema 1.15, es decir, finalmente obtendremos la prueba (c) del Lema 3.4 y la Observación 3.5 que se dan a continuación sobre las propiedades de los operadores θ y ρ.
Demanda Parcialmente Observada
Es decir, si ξn≤xn+an, entonces la demanda fue completamente satisfecha y por lo tanto observada. Por otro lado, si ξn > xn+an, el inventario no fue suficiente para satisfacer toda la demanda durante ese periodo y por lo tanto se observó parcialmente; en este caso, la venta fue xn+cualquier ξn−(xn+an) demanda insatisfecha. Como en el ejemplo anterior, esencialmente el problema es encontrar una relación recursiva para el proceso {κn}, donde κn es la densidad condicional de demandaxn dada la historia observada, es decir
En el primer caso, la demanda es mayor o igual al nivel de stock pedido y por tanto no se tiene en cuenta. En el segundo caso, la demanda se observa con el valor ξn=yn y por tanto κn+1(x) =p(x|yn). Dado que ηn es una variable aleatoria Yn-medible arbitraria y lo que está entre paréntesis también es Yn-medible, obtenemos por definición la expectativa condicional.
Demostraciones
En este trabajo se estudió la teoría general de los procesos de control de Markov parcialmente observables y se presentaron aplicaciones a los sistemas de inventario. Para ello se aplicó una técnica estándar que consiste en transformar el problema de control. Gran parte del trabajo sobre procesos de control parcialmente observables se centra en crear condiciones que garanticen la existencia de políticas.
Sin embargo, otros se centran en proporcionar la transformación de forma explícita, lo cual es posible bajo condiciones específicas en el modelo de control o en ejemplos muy específicos. Un aspecto que es importante resaltar es que, bajo el esquema estándar, la solución a un problema de control parcialmente observable se obtiene por . Además, se pueden investigar extensiones a otros problemas como procesos de control adaptativo, control minimax y juegos estocásticos parcialmente observables.
Espacios y Funciones
Debido a la dualidad entre funciones l.s.c. ves l.s.c. si y sólo si u.s.c.), se puede obtener un resultado similar a la Proposición A.3 para funciones u.s.c. Supongamos que {zn} es una secuencia en P(X) que converge débilmente a z ∈P(X), y {vn} es una secuencia de funciones no negativas y l.s.c. Debido a las propiedades de integral y valor absoluto, se verifica que efectivamente el operador en (A.1) define una tasa.
K´ erneles Estoc´ asticos
En consecuencia, una medida de probabilidad Q(dx|z) en X, para cada z ∈ Z, es un núcleo estocástico si y sólo si la función h:Z →P(X) definida por. Sea Q(dx|y) un núcleo estocástico en X dado Y; Sea f(x, y) una función real medible en X×Y y sea f0 :Y →R la función definida por.
Multifunciones y Selectores Medibles
P(W|Z): familia de todos los núcleos estocásticos enW dadoZ P(X): espacio de todas las medidas de probabilidad enX. B(X): espacio de funciones medibles y acotadas en X C(X): espacio de funciones continuas y acotadas en X. D: conjunto de funciones de densidad κ definidas en [0,∞) tales que. 2] Bensoussan, A., Cakanyildirim, M. y Sethi, S.P., Sistemas de inventario parcialmente observados: el caso de la ejecución de saldo cero, SIAM J.
3] Bensoussan, A., Cakanyildirim, M., Minj´arez-Sosa, J.A., and Sethi, S.P., Inventory problems with partially observed requirements and lost sales, J. 4] Bensoussan, A., Cakanyildirim, M. , Minj´ arez-Sosa, J.A., Sethi, S.P., and Shi, R., Partially observed inventory systems: the case of rain control, SIAM J. 5] Bensoussan, A., Cakanyildirim, M., Minj´arez-Sosa , J.A., Sethi, S.P. , and Shi , R. , An incomplete information inventory model with the presence of inventories or backorders as observations only , J .
Tabla de Notaciones 65
Conjuntos y Espacios
Espacios de Funciones
K´ ernesles Estoc´ asticos
Notaci´ on