Estimación de distribuciones de probabilidad para problemas de aprendizaje por refuerzo con espacios de acciones continuos
44
0
0
Texto completo
(2) Resumen En este documento se propone una familia de algoritmos de actor crı́tico para la solución de problemas de aprendizaje por refuerzo con espacios de acciones continuos. Estos algoritmos se basan en la idea de definir el actor como una distribución de probabilidad. En esta investigación se proponen métodos para la definición y actualización del actor. Los algoritmos son evaluados en dos problemas continuos y se comparan con el algoritmo del estado del arte, encontrando que las reglas de actualización propuestas son válidas..
(3) Para Carmen..
(4) Agradecimientos Para comenzar quiero agradecer al profesor Fernando Lozano por su excelente labor como asesor, le agradezco por su exigencia y por la formación académica y personal que me brindó durante mis estudios de pregrado y maestrı́a. En segundo lugar, le agradezco a Reinaldo Uribe ya que su guı́a y apoyo fueron imprescindibles en el desarrollo de este proyecto e hicieron posible conseguir los resultados obtenidos. Quisiera agradecer también a mis papás, pues ellos han sido el soporte fundamental de mi vida. También le agradezco a mi hermano por la confianza que siempre deposita en mı́. A Juan Pablo le doy gracias por ser quien me da ánimo cuando ya no lo tengo, y quien me da esperanza cuando yo siento que la pierdo. Le agradezco a Andrea Sánchez por ser mi gran amiga y por todos los momentos de distracción. Agradezco también al seminario de Machine Learning, dirigido por el profesor Fernando Lozano, porque allı́ se discutieron tópicos fundamentales sobre el desarrollo de este trabajo. Finalmente, le agradezco a todos mis amigos, familiares y profesores por todo el apoyo que he recibido por parte de ellos..
(5) Índice general 1. Introducción. 1. 2. Marco Teórico. 3. 2.1. El Problema de Aprendizaje por Refuerzo . . . . . . . . . . . . . . . . . . . . . .. 3. 2.1.1. Interacción Agente-Ambiente . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 2.1.2. La Polı́tica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 2.1.3. Función de Valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 2.2. Algoritmos de Actor–Crı́tico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 2.3. Aprendizaje por Refuerzo con Espacios de Acciones Continuos . . . . . . . . . .. 7. 2.4. CACLA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 3. Prob-CAC. 11. 3.1. Prob-CAC Discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.2. Prob-CAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.2.1. Método 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.2.2. Método 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.2.3. Método 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.3. Resultados Experimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.4. Juego de la Bola . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.4.1. CACLA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.4.2. Prob-CAC Discreto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19. 3.4.3. Prob-CAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.4.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.5. Problema de Persecución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.5.1. CACLA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.5.2. Prob-CAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24.
(6) vi. Contents. 4. Conclusiones. 29. Bibliografı́a. 31.
(7) Índice de figuras 2.1. Interacción del agente y el ambiente. (Sutton and Barto, 1998) . . . . . . . . . .. 3. 2.2. Arquitectura de Actor–Crı́tico. (Sutton and Barto, 1998) . . . . . . . . . . . . . .. 6. 3.1. Gráfica del juego de la bola. Caso en el que la posición inicial es s = 0, la meta está en s ∈ [0.9, 1], y la región de pérdida es s ∈ (1, ∞). . . . . . . . . . . . . . . 18 3.2. Función de recompensa diseñada para el problema que se ilustra con la figura 3.1. 19 3.3. Recompensa promedio obtenida para las polı́ticas generadas durante el entrenamiento en el Juego de la Bola para los algoritmos implementados.. . . . . . . . . 20. 3.4. Actualización de la polı́tica realizada por Prob-CAC con la actualización del método 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.5. Estado inicial de cada episodio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.6. Recompensa recibida por CACLA resolviendo la tarea de evasión del obstáculo en el problema de Persecución. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.7. Polı́tica conseguida por CACLA después de 10000 episodios de entrenamiento. . 25 3.8. Polı́tica obtenida por Prob-CAC con el método 1 de actualización . . . . . . . . . 26 3.9. Polı́tica obtenida por Prob-CAC con el método 2 de actualización. . . . . . . . . 27.
(8)
(9) Capı́tulo 1. Introducción Aprendizaje por refuerzo (RL) es un área dentro de Machine Learning que estudia el aprendizaje basándose en la experiencia propia de un agente. Estos métodos son pertinentes para solucionar problemas sobre los que se tiene poca información y por lo tanto es necesario que el agente aprenda basándose en su propia experiencia. La teorı́a de RL está desarrollada para problemas discretos, pero muchas de las aplicaciones del mundo real ocurren en espacios continuos. Es por esto que la capacidad de abordar problemas continuos es una caracterı́stica deseable en los algoritmos de solución. En este documento, se propone una familia de algoritmos que busca solucionar el problema de RL cuando el espacio de acciones es continuo. Esta familia de algoritmos se basa en una arquitectura de actor-crı́tico, en donde el actor se define como una distribución de probabilidad sobre el espacio de estados-acciones. A diferencia del método propuesto, los acercamientos que se encuentran en la literatura para la solución de este problema, hacen uso de métodos de aproximación o algoritmos de descenso de gradiente para el ajuste de parámetros del actor. La familia de algoritmos propuesta, junto al algoritmo del estado del arte, se prueba en dos experimentos. Encontrando que las reglas de actualización propuestas son coherentes en la solución del problema. Este documento se organiza de la siguiente manera: en la sección 2 se encuentra el marco teórico, en éste se hace una descripción del problema de RL, de los algoritmos de actor crı́tico y de los problemas con espacios continuos; en la sección 3 se describen la familia de algoritmos propuesta; en la sección 4 se muestran dos experimentos realizados y sus respectivos resultados; y finalmente, en la sección 5 se plantean las conclusiones..
(10)
(11) Capı́tulo 2. Marco Teórico 2.1.. El Problema de Aprendizaje por Refuerzo. En el problema de aprendizaje por refuerzo consiste en que un agente que está inmerso en un ambiente, experimenta para encontrar las mejores acciones que puede tomar tal que maximice una señal de recompensa que recibe durante el aprendizaje.. 2.1.1.. Interacción Agente-Ambiente. El agente y el ambiente interactúan en una secuencia discreta de pasos de tiempo. En cada paso de tiempo t, el agente recibe una representación del estado del ambiente st ∈ S, en donde S es el conjunto de posibles estados; con base en st , el agente selecciona una acción at ∈ Ast , en donde Ast es el conjunto de acciones posibles en st . Un paso de tiempo después, como consecuencia de la acción tomada, el agente recibe una recompensa numérica rt+1 ∈ R, y pasa al estado st+1 ∈ S. En la figura 2.1 se muestra un diagrama de la interacción entre el agente y el ambiente. (Sutton and Barto, 1998) Un proceso de este tipo es una secuencia de estados, acciones y recompensas con una. Agente estado. st. acción. recompensa. at. rt rt+1 st+1. Ambiente. Figura 2.1: Interacción del agente y el ambiente. (Sutton and Barto, 1998).
(12) 2. Marco Teórico. 4. dinámica determinada por las probabilidades de transición Pass0 y las recompensas esperadas Rass0. Pass0 = P (st+1 = s0 |st = s, at = a),. (2.1). Rass0 = E(rt |st = s, st+1 = s0 , at = a).. (2.2). Esto indica que el proceso puede no ser determinı́stico y aún si se toma la misma acción en un estado, el estado siguiente puede no ser el mismo ni tampoco la recompensa. Este proceso se asume estacionario: las probabilidades de transición entre estados y las recompensas no cambian a lo largo del tiempo. (Sutton and Barto, 1998; Kaelbling et al., 1996). 2.1.2.. La Polı́tica. En este modelo, se define una polı́tica como un mapeo π, determinı́stico o estocástico, de estados a acciones. En este mapeo, πt (s, a) es la probabilidad de seleccionar la acción a en el instante t, dado que el estado actual es s. La polı́tica es modificada como resultado de la experiencia del agente en el ambiente, y cada método de aprendizaje por refuerzo especifica cómo el agente realiza este cambio. (Sutton and Barto, 1998) Se puede definir formalmente el objetivo del agente como el de encontrar la polı́tica óptima π∗ :. π ∗ = arg máx E π. X . t≥t0. rt |st0 = s. . (2.3). . que, empezando desde el estado s, maximice el valor esperado de la suma de las recompensas recibidas. (Sutton and Barto, 1998) En otras palabras, el objetivo del agente es determinar qué acciones tomar en qué estados de modo que se obtenga, en el largo plazo, la recompensa total más grande posible.. 2.1.3.. Función de Valor. Las funciones de valor son funciones de los estados que estiman qué tan bueno es para el agente estar en un estado dado (o qué tan bueno es escoger una acción determinada en un estado dado). Aquı́ la noción de “qué tan bueno” se define en términos de las recompensas que se espera conseguir en el futuro. Teniendo en cuenta que la recompensa esperada depende.
(13) 2.2 Algoritmos de Actor–Crı́tico. 5. de las acciones que el agente tome, las funciones de valor se definen con respecto a polı́ticas particulares. Formalmente el valor del estado s bajo la polı́tica π, se define como ( V π (s) = Eπ. ∞ X. ) γ k rt+k+1 |st = s. ,. (2.4). k=0. en donde Eπ {} denota el valor esperado dado que el agente está siguiendo la polı́tica π. Se debe tener en cuenta que el valor del estado terminal, si hay alguno, es siempre cero. La función de la ecuación (2.4) recibe el nombre de la función de valor de estado para la polı́tica π. (Sutton and Barto, 1998) Una descripción más detallada del problema de aprendizaje por refuerzo se encuentra en (Sutton and Barto, 1998; Kaelbling et al., 1996). 2.2.. Algoritmos de Actor–Crı́tico. Los algoritmos de actor crı́tico son métodos de diferencias temporales que se utilizan para solucionar problemas de aprendizaje por refuerzo. En particular, este algoritmo busca combinar las ventajas de los métodos de sólo-actor y sólo-crı́tico y para esto usa estructuras separadas que explı́citamente representan de forma independiente la polı́tica y la función de valor. (Konda and Tsitsiklis, 2003) La estructura de la polı́tica se conoce como el actor, ya que ésta es usada para seleccionar acciones; y la función de valor estimada es conocida como el crı́tico, porque evalúa las acciones tomadas por el actor. (Sutton and Barto, 1998) El aprendizaje en los algoritmos de actor crı́tico es en la polı́tica: el crı́tico debe aprender y criticar la polı́tica que está siguiendo el actor. La crı́tica toma la forma del error T D. Ésta es una señal escalar que es la única salida del crı́tico y que conduce el aprendizaje del actor y del crı́tico , tal como se muestra en la figura 2.2. (Sutton and Barto, 1998; Konda and Tsitsiklis, 2003) En un estado particular st el actor selecciona una acción at , lo que conduce al ambiente a un nuevo estado st+1 . Entonces el crı́tico evalúa el nuevo estado V (st+1 ) y la recompensa recibida rt+1 , y con ésto emite una señal que se usará para evaluar la acción que se acaba de seleccionar (Sutton and Barto, 1998). Esta señal de evaluación es el error T D:. T D = rt+1 + γV (st+1 ) − V (st ). (2.5).
(14) 2. Marco Teórico. 6. Política Actor. Error TD. Critico Estado. Función de Valor. Acción. Recompensa. Ambiente. Figura 2.2: Arquitectura de Actor–Crı́tico. (Sutton and Barto, 1998). en donde V es la función de valor que actualmente implementa el crı́tico, y γ es un factor de descuento. Se tiene entonces que si el error T D es positivo, la tendencia a seleccionar la acción at deberı́a ser reforzada, pues la recompensa recibida más el valor del estado siguiente son mayores que el valor del estado actual; mientras que si es negativo, la tendencia deberı́a ser debilitada. (Sutton and Barto, 1998) De manera general el algoritmo de Actor-Crı́tico de describe en el algoritmo 1. Algoritmo 1 Actor–Crı́tico Inicializar el Crı́tico C Inicializar el Actor A Repita Genere estado inicial st Repita Obtenga una acción del Actor: a ← A(st ) Obtenga el estado siguiente st+1 (st , a) Obtenga la recompensa r(st+1 , st , a) Obtenga el error TD: T D(st+1 , st , a) Actualice el Actor A(A, st , a, T D) Actualice el Crı́tico C(C, st , a, r) Actualice el estado actual: st ← st+1 hasta Estado Final ; hasta Número de Episodios;.
(15) 2.3 Aprendizaje por Refuerzo con Espacios de Acciones Continuos. 7. Los algoritmos de actor-crı́tico son preferidos a la hora de tratar con problemas con espacios continuos, ya que el hecho de que éstos aproximen de forma independiente la función de valor y las polı́ticas facilita la obtención de polı́ticas generalizables. (Xu et al., 2011). 2.3.. Aprendizaje por Refuerzo con Espacios de Acciones Continuos. Bajo ciertos supuestos, la teorı́a es exitosa resolviendo el problema de RL. Sin embargo, ésta asume que es posible enumerar los estados y las acciones; y esto, excepto en ambientes muy pequeños, significa requerimientos de memoria imprácticos. (Kaelbling et al., 1996) Esto se debe a que los métodos de RL estiman el valor de pares estado–acción, y la formulación estándar de éstos, que normalmente es tabular, deja de ser apropiada cuando los agentes lidian con tareas en las que los espacios de estados y/o de acciones son continuos (Millan et al., 2002). Ası́, ya que en la práctica el número de estados y/o acciones puede ser muy grande o incluso infinito, la teorı́a de aprendizaje debe hacerse útil para esa generalización. (van Hasselt, 2011; Kaelbling et al., 1996; Melo and Lopes, 2008; Montazeri et al., 2011; Xu et al., 2011) Un gran problema en la aplicación de RL en dominios continuos es la falta de técnicas para representar y actualizar el aprendizaje de forma eficiente (Vollmer et al., 2010). Es por esto que los problemas con espacios de estados infinitos son un reto en el desarrollo de algoritmos y en el análisis de garantı́as de convergencia (Melo and Lopes, 2008). Los algoritmos requeridos deben aprender a escoger acciones de un espacio de acciones, que puede ser infinitamente grande; optimizando un señal de recompensa en un espacio de estados, que también puede ser infinitamente grande; en donde el resultado de una acción puede ser estocástico. (van Hasselt, 2011) Las propiedades deseadas en tales algoritmos son que: (1) deben ser aplicable en diferentes instancias del problema general, (2) deben ser eficiente computacionalmente, tal que éste pueda ser usado en aplicaciones en tiempo real, y (3) deben tener una buena eficiencia de muestreo, tal que pueda aprender una buena polı́tica de selección de acciones con experiencia limitada. (van Hasselt, 2011) Para la solución de problemas con espacios de estados y/o acciones grandes o infinitos se han tenido dos acercamientos principales. Uno de ellos está basado en el uso de métodos de regresión, en los que se usan muestras de datos para estimar la función de valor. Tales algoritmos pueden tener la ventaja de que existen numerosos métodos de regresión disponibles de la literatura de.
(16) 2. Marco Teórico. 8. machine learning con sólidas propiedades de convergencia. (van Hasselt, 2011; Melo and Lopes, 2008; Montazeri et al., 2011; Xu et al., 2011; Vollmer et al., 2010; Kaelbling et al., 1996) El segundo acercamiento que se ha tenido es el uso de los métodos de gradiente para aproximar la función de valor. En este caso, la función de valor se entiende como un producto interno de algunas funciones base y un vector de pesos. En este caso, se busca encontrar el vector de pesos óptimo haciendo descenso de gradiente en el algoritmo de diferencias temporales. (Montazeri et al., 2011; Melo and Lopes, 2008; Kaelbling et al., 1996) Otra posible solución es la de abordar el problema discretizando el espacio de acciones y el espacio de estados y aplicar algoritmos discretos (Vollmer et al., 2010). Esta solución se considera fallida pues se ha encontrado que un conjunto a priori de acciones discretas es poco probable que contenga una acción óptima para cada estado posible, a menos que la granularidad sea tan fina y tan grande que el aprendizaje no converja en un tiempo razonable. En tales casos, algoritmos con espacios de acciones discretos se vuelven inestables y se pierden las garantı́as de convergencia. (Millan et al., 2002) La solución que se estudia en este documento es la de definir el actor como una distribución de probabilidad explicita en el espacio estados-acciones. Una propuesta similar a ésta se hace en (Lazaric et al., 2007); aunque en ésta, el algoritmo se limita a espacios de estados discretos.. 2.4.. CACLA. CACLA es un algoritmo de actor crı́tico introducido en la literatura en (IEE, 2007) para la solución de problemas de RL continuos. Este algoritmo, a diferencia de los demás, es el único que puede trabajar con problemas en donde el espacio de estados también puede ser continuo. Es por esto que se escoge como punto de referencia en las pruebas realizadas con la familia de algoritmos propuestos en este trabajo. El crı́tico aproxima la función de valor V π , en donde π es la polı́tica actual; y el actor, tiene como salida una acción –que puede ser de múltiples dimensiones– para cada estado. Durante el entrenamiento se asume que hay exploración, tal que la acción tomada en un paso es diferente a la acción generada por el actor. (van Hasselt, 2011) En este algoritmo una polı́tica es, normalmente, una distribución gausiana centrada en la salida del actor. Esta polı́tica se actualiza teniendo en cuenta solamente el signo del error T D. CACLA en cada iteración evalúa si la acción recientemente tomada es mejor o peor que la acción que se considera óptima. De modo que si la acción escogida resulta ser mejor, se actualiza la.
(17) 2.4 CACLA. 9. acción óptima cambiándola por la acción previamente escogida. Esta es la razón por la que se hace necesaria la exploración, ya que si se toma la acción que produce el actor, los parámetros del algoritmo nunca cambiarı́an. (van Hasselt, 2011) El actor es una función de aproximación que se actualiza en lı́nea. Sin embargo, en las implementaciones hechas, la actualización del actor se hace en bloque. Lo anterior no empeora el desempeño del algoritmo, por el contrario, ésta es una mejora sugerida por los autores en (van Hasselt, 2011). Algoritmo 2 CACLA (van Hasselt, 2011) Inicializar θ0 , ψ0 , s0 Para t ∈ {0, 1, 2, . . .} haga Seleccione at ∼ π (st , ψt ) Ejecute at , observe rt+1 y st+1 T Dt = rt+1 + γVt (st+1 ) − Vt (st ) θt+1 = θt + αt (st ) T Dt ∇θ Vt (st ) Si T Dt > 0 entonces ψt+1 = ψt + βt (st ) (at − Ac (st , ψt )) ∇ψ Ac (st , ψt ) fin Si st+1 es terminal entonces Reinicialice st+1 fin fin Una descripción de CACLA se muestra en el algoritmo 2. En este algoritmo, θ son los parámetros del crı́tico, ψ son los parámetros del actor, s es el estado, a es la acción, r es la recompensa, t es el paso de tiempo, V es la función de valor de estados, Ac es el actor, y α y β son parámetros del algoritmo. CACLA tiene dos grandes problemas: el primero, que actualiza el actor solamente cuando recibe un error T D positivo, esto puede hacer lento el aprendizaje si el algoritmo se enfrenta a una tarea en donde en promedio sólo se reciban señales T D < 0; y el segundo, que la actualización no tiene en cuenta la magnitud del error T D, entonces éste actualiza de igual manera si se recibe un error T D ≈ 0 o un error T D >> 0..
(18)
(19) Capı́tulo 3. Prob-CAC En esta sección se presenta el algoritmo Prob-CAC que se propone para la solución de problemas de RL con espacios de acciones continuos. En un algoritmo de actor crı́tico, a partir de una polı́tica completamente exploratoria, el actor debe ir progresivamente cambiando la polı́tica de modo que acciones que resulten buenas sean seleccionadas de forma más frecuente, y viceversa Lazaric et al. (2007). Esta frecuencia en la selección de una acción se puede asociar a la probabilidad de selección. Esta es la idea que inspira el algoritmo que se presenta en este documento. Prob-CAC es un algoritmo diseñado para la solución de problemas de RL en donde el espacio de acciones es continuo. En este algoritmo el crı́tico se representa con un aproximador de funciones, en el caso de espacios de estados continuos; o por una tabla, en el caso discreto. El actor es representado con una distribución de probabilidad definida sobre el espacio de estados-acciones. Es por esto que el nombre Prob-CAC viene de Probabilistic Continuous Actor Critic. La propuesta que se hace es que en cada iteración la distribución de probabilidad se actualice de acuerdo al error T D que se recibe para cada par estado-acción. De modo que si el error T D es positivo, la probabilidad de seleccionar tal acción en tal estado aumente; si es negativo, disminuya; y que la magnitud de éste se tenga en cuenta en el cambio de probabilidad. Teniendo en cuenta lo anterior, para definir Prob-CAC se hace necesario especificar dos aspectos principales: la inicialización y actualización de la distribución de probabilidad. A continuación se hace la descripción de la familia de algoritmos propuesta..
(20) 3. Prob-CAC. 12. 3.1.. Prob-CAC Discreto. En esta versión del algoritmo, para la construcción del actor se hace necesario la discretización del espacio de acciones A –y el espacio de estados S, en el caso en el que éste sea continuo–. Lo anterior es debido a que la idea principal del algoritmo es la de asignar a cada conjunto de acciones un valor que indica cuál es la probabilidad de que una de las acciones de ese conjunto sea seleccionada en cada uno de los posibles estados –o grupos de estados en el caso continuo–. El actor se construye de modo que todas las acciones, o grupos de ellas, tengan inicialmente la misma probabilidad de ser seleccionadas. Durante el entrenamiento, las probabilidades de cada par estado–(grupo de acciones), P (a, s), se actualizan de acuerdo al error T D que se obtiene al ejecutar la acción ã ∈ a en un estado s y recibir una recompensa r. Con este fin, se propone la siguiente actualización: TD 1 + Po (ak |s ) 2 Pn (ak |s ) = 1 − T D Po (ak |s ) + T D 2 2. si T D < 0 (3.1) si T D ≥ 0. en donde, Po (ak |s ) es la probabilidad de seleccionar una acción del k–ésimo conjunto de acciones en el estado s; y Pn (ak |s ), es la nueva probabilidad calculada en función de T D y Po (ak |s ). La actualización propuesta garantiza que Pn (ak |s ) > Po (ak |s ), cuando el error T D es positivo; Pn (ak |s ) < Po (ak |s ), cuando es negativo; y Pn (ak |s ) = Po (ak |s ), cuando es cero. Con esta regla de actualización también se asegura que, si T D > 0, el nuevo valor de probabilidad es más grande (pequeño) que el anterior mientras más grande sea la magnitud del error T D, cuando éste es positivo (negativo). Con la ecuación (3.1) se actualiza la probabilidad de seleccionar una acción dentro conjunto ak , cuando se está en el estado s. Teniendo en cuenta que en cada iteración una de las probabilidades cambia, es necesario definir cómo cambian las probabilidades de los demás grupos de acciones de modo que se garantice que el conjunto de valores conserva las propiedades de distribución de probabilidad. Es deseable también que la nueva distribución sea cercana en algún criterio a la distribución anterior, pues se requiere incluir la nueva información que se tiene sobre un par estado-acción particular, pero sin perder el conocimiento que se ha adquirido sobre el resto del espacio durante el aprendizaje..
(21) 3.1 Prob-CAC Discreto. 13. Una forma de conseguir esto es minimizando la divergencia Kullback-Leibler (KL) entre las dos distribuciones. La divergencia KL es una métrica usada en estadı́stica que cuantifica la diferencia entre dos distribuciones de probabilidad Cover and Thomas (1991); van Hasselt (2011). En este sentido, minimizar la divergencia entre las dos distribuciones permite obtener como nueva distribución de probabilidad, la que tenga la mayor información mutua con respecto a la distribución anterior. Esto se traduce en que la distribución se actualiza para la información recientemente recibida pero olvidando la mı́nima cantidad de información. En este orden de ideas, para determinar el valor de las probabilidades de los otros conjuntos de acciones, se resuelve el problema de optimización. mı́n DKL dt+1 , dt. . sujeto a: X dt+1 =1 i. (3.2). i. dt+1 =b k dt+1 ≥0 i que minimiza la divergencia KL entre dos distribuciones discretas, garantizando que los valores encontrados son una distribución de probabilidad y que la probabilidad del k-ésimo conjunto es un valor b determinado por la ecuación (3.1). Resolviendo analı́ticamente el problema de optimización con multiplicadores de lagrange se encuentra que la actualización de todas las probabilidades se consiguen multiplicando los valores anteriores por una constante β =. m n,. en dónde m = 1 − b, y n = 1 − dtk .. Este algoritmo utiliza el error T D como señal de control para aumentar o disminuir la probabilidad para un conjunto de pares estado-acción, el resto de valores en la distribución de probabilidad se modifican de forma óptima conservando la mayor cantidad de información posible entre iteración e iteración. Con lo anterior, es posible pensar que este proceder conduzca a la obtención de una polı́tica que, dado un estado, asigne valores de probabilidad grandes a las acciones que, a largo plazo, generen recompensas altas; y valores pequeños de probabilidad a las que no..
(22) 3. Prob-CAC. 14. 3.2.. Prob-CAC. En este caso la distribución de probabilidad se define como una mezcla de gausianas. Se escoge este tipo de distribución porque es muy flexible y requiere de pocos parámetros. Esta FDP es una mezcla de n gausianas, cada gausiana es de dimensión igual a la dimensión del espacio de estados-acciones D y tiene una matriz de covarianza diagonal con valor α. Habiendo definido el número de gausianas n y la varianza α, el actor se convierte en una función de densidad de probabilidad (FDP) F t (x) =. 1 n (2πα)D/2. n X. T 1 exp − x − µti x − µti 2α i=1. (3.3). que varı́a solamente con cambios en las medias µi de las gausianas que se hacen durante las iteraciones t del algoritmo. De modo que la inicialización y la actualización del actor consisten en la inicialización y la variación del conjunto de n vectores. Para realizar el muestro de una FDP como la definida en la ecuación 3.3 se propone el método de muestreo que se muestra en el apéndice de este documento. La actualización de las medias de la FDP debe hacerse de modo tal que si el error T D es positivo la probabilidad de escoger la acción seleccionada en el estado actual aumente; y en caso contrario, disminuya. A continuación, se presentan tres métodos para realizar los pasos de actualización.. 3.2.1.. Método 1. Se propone que el actor se actualice acercando o alejando las medias de las gausianas del punto del espacio correspondiente a tal estado y acción teniendo en cuenta el error T D. Esta aproximación busca con alejar o acercar las medias que la probabilidad en un punto particular aumente o disminuya de acuerdo a la señal de crı́tica recibida, y a la distancia euclidiana entre el punto y las medias. De modo que cada gausiana se desplaza una distancia distinta. Para la actualización cuando, para un punto x del espacio estados-acciones, se tiene un error T D se propone la siguiente forma convexa:. µt+1 = x × λi + µti × (1 − λi ) i. (3.4).
(23) 3.2 Prob-CAC. 15. que asume que el error T D es un valor entre -1 y 1. Para la actualización, λi se define como: (. T D × (1 − li ). si T D ≥ 0. T D × L × (1 − li ). si T D < 0. λi =. (3.5). en donde li es la distancia euclidiana normalizada de forma tal que la más grande entre todas las distancias sea uno, y L es la distancia más pequeña que hay entre las medias y los puntos en la frontera del espacio de estados-acciones en la dirección de x − µti . Partiendo de una polı́tica exploratoria, en donde hay gausianas distribuidas por todo el espacio de estados-acciones, el algoritmo de RL se diseña para mover las gausianas buscando una polı́tica óptima. Ası́ que éste deberı́a agruparlas en lugares del espacio que correspondan a pares estados-acciones que generen grandes recompensas a largo plazo; ası́ como también, apartarlas de los lugares que sean pobres en términos de la recompensa recibida. Es la idea anterior la que inspira este algoritmo, pues éste a partir de la información que recibe sobre un punto particular del espacio, atrae o aleja las gausianas. La magnitud del movimiento depende de tres cosas especı́ficas: la magnitud del error T D; la distancia de la gausiana al punto del espacio recientemente visitado, porque no se quiere alterar en mayor medida lugares distantes debido a que esto puede significar pérdida de la información; y por último, la distancia con las fronteras del espacio estados-acciones, pues es deseable mantener todas las gausianas de la mezcla dentro del espacio de estados-acciones, que es sobre el que se define la FDP.. 3.2.2.. Método 2. Este segundo método sigue el mismo principio de Prob-CAC Discreto. Ya que se busca actualizar el valor que toma la FDP para el punto en el espacio recientemente visitado teniendo en cuenta el error T D. Una vez fijado este valor se desea actualizar la función en el resto del espacio de modo tal que las dos distribuciones se parezcan en alguna medida. En este caso, la función de la ecuación (3.1) no necesariamente es válida para la definición del valor que toma la FDP en el punto especificado, pues la imagen de la FDP propuesta no está contenida en el intervalo contemplado por esta función. Sin embargo, la función de actualización debe definirse con la misma filosofı́a: incrementar el valor que toma la FDP en el punto determinado si el error T D recibido es positivo, disminuir el valor en el caso contrario y además el cambio debe ser proporcional a la magnitud de esta señal..
(24) 3. Prob-CAC. 16. En cuanto a la medida de similaridad de las distribuciones entre iteración e iteración, se desearı́a usar también la divergencia KL, sin embargo no se puede obtener una expresión analı́tica de ésta cuando la distribución es una mezcla de gausianas Kampa et al. (2011). Es por esto que se propone como medida de similaridad la divergencia Cauchy-Schwarz (CS). Ésta también es una medida de entropı́a, es simétrica, positiva y es igual a cero sólo cuando las dos distribuciones son iguales Principe (2010). La divergencia CS para dos distribuciones f (x) y g(x) se define como: 2 f (x)g(x)dx R f 2 (x)dx g 2 (x)dx R. DCS (f, g) = −log R. (3.6). Corrigiendo algunos errores que presenta la referencia Kampa et al. (2011), se presenta de forma explı́cita la divergencia CS para una mezcla de gausianas: DCS F t , F t+1 = n X n T X 1 t+1 t+1 − log c1 µti − µj exp − µti − µj 4α i=1 j=1 n X X 1 1 t t T t t exp − µi − µl µi − µl + log nc1 + 2c1 2 4α i=2 l<i +. 1 log 2. nc1 + 2c1. T 1 t+1 t+1 t+1 t+1 × exp − µj − µl µj − µl 4α j=2 l<j n X X. (3.7). con c1 = −2α. n X n X. T 1 t t+1 t µi − µt+1 µ − µ exp − i j∗ j∗ 4α i=1 j ∗ =1. (3.8). De esta manera, el problema de optimización que se resuelve para la actualización del actor es. mı́n DCS F t , F t+1 t+1. . µ. sujeto a: F t+1 (x) = p l ≤ µt+1 ≤u i. (3.9).
(25) 3.3 Resultados Experimentales. 17. en donde x es el par estado-acción actual, l y u son respectivamente las cotas inferior y superior de la medias de la distribución de probabilidad. Este problema de optimización es un problema no convexo con restricciones de igualdad no lineales y restricciones de desigualdad de caja.. 3.2.3.. Método 3. En este método se propone resolver el siguiente problema de optimización:. mı́n δ. n X. δiT δi. i=1. sujeto a:. (3.10). F t+1 (x) = p l ≤ µt+1 ≤u i con µt+1 = δi + µti . i Teniendo como única diferencia con el método anterior la función objetivo del problema de optimización. Con esta función se busca minimizar el cambio de las medias entre iteraciones, pero ajustando la probabilidad en el punto deseado x, según halla sido la señal de crı́tica recibida. De modo que este método se propone para seguir el principio deseado: incorporar la información recibida actualizando puntos del espacio de los que se tengan señales de crı́tica, buscando cambiar lo menos posible la distribución de probabilidad para los demás puntos del espacio entre iteraciones. A diferencia del problema de la ecuación 3.9, la función objetivo propuesta en este método sı́ es convexa, cualidad que permite resolver los problemas de optimización de forma más fácil y rápida.. 3.3.. Resultados Experimentales. En esta sección se proponen dos problemas de RL con espacios continuos de acciones y de estados, estos problemas se utilizarán para comprar los algoritmos propuestos y CACLA, que es el algoritmo del estado del arte. El primer experimento es un problema simple que se utiliza para evaluar las capacidades de los algoritmos en términos de actualización de la polı́tica y maximización de la recompensa.
(26) 3. Prob-CAC. 18. 0. 0.2. 0.4. 0.6. 0.8. 1. Figura 3.1: Gráfica del juego de la bola. Caso en el que la posición inicial es s = 0, la meta está en s ∈ [0.9, 1], y la región de pérdida es s ∈ (1, ∞).. recibida. El segundo experimento, es un problema introducido en (IEE, 2007); para este problema en la referencia se reportan resultados exitosos de CACLA, por lo que se busca estudiar el desempeño de los algoritmos propuestos en esta tarea.. 3.4.. Juego de la Bola. Considere el juego en el que se tiene una bola en un espacio unidimensional y un jugador tiene la meta de empujar la bola hacia adelante con el fin de llegar a una región determinada. Una partida de este juego inicia con la bola en una posición aleatoria. El jugador habrá perdido la partida si la bola llega más allá de la región objetivo, y la habrá ganado si la posición final de la bola es dentro de la región de interés. El juego termina una vez el agente haya o llegado a la meta o se haya pasado de la región deseada. En la figura 3.1 se muestra un caso particular del juego, en donde la meta (en azul) es la región comprendida entre 0.9 y 1; y la región de pérdida (en rojo) es la comprendida entre 1+ y ∞. Este juego es un problema de RL en donde el estado st es la posición de la bola en el instante t, la acción at es la distancia que el jugador mueve la bola, y la recompensa se puede definir como una función: (1) que toma un valor positivo para los estados que pertenecen a la meta, (2) que toma valores negativos para todos los estados que pertenecen a la región de pérdida, y (3) que toma el valor de cero para los demás casos. En la figura 3.2 se muestra una función de recompensa que puede ser aplicada al problema de la figura 3.1. Se implementó la familia de algoritmos de Prob-CAC y CACLA con el fin de resolver esta tarea de RL. Todos los algoritmos implementados utilizaron como crı́tico una red neuronal de 3 neuronas en una única capa escondida. Esta red se entrena con bloques de 50 datos. Estos parámetros de número de neuronas y tamaño de bloque se determinaron experimentalmente. A continuación se especifican los detalles de implementación..
(27) 3.4 Juego de la Bola. 0.5 0.0 −1.0 −0.5. Recompensa. 1.0. 19. 0.0. 0.5. 1.0. 1.5. Estado. Figura 3.2: Función de recompensa diseñada para el problema que se ilustra con la figura 3.1.. 3.4.1.. CACLA. En la implementación hecha, el actor y el crı́tico de CACLA son representados, cada uno, por una red neuronal. Las actualizaciones de los pesos de las redes neuronales se hacen teniendo como punto de partida los pesos anteriores y utilizando bloques de datos generados durante el entrenamiento. La red neuronal del actor tiene 10 neuronas en su capa escondida, y se entrena con bloques de 50 datos.. 3.4.2.. Prob-CAC Discreto. En este caso, teniendo en cuenta que el espacio de estados-acciones es de dimensión 2, este espacio se discretiza en cuadrados de lado 0.05 para la definición del actor.. 3.4.3.. Prob-CAC. Para los métodos de Prob-CAC se genera como polı́tica inicial una mezcla de n = 5 gausianas con covarianza α = 0,035. Para los métodos 2 y 3 el bloque de restricciones usado fue de tamaño 50. Estos parámetros se fijan mediante experimentación.. 3.4.4.. Resultados. En la figura 3.3 se muestran los resultados obtenidos para los diferentes algoritmos implementados. Estas curvas son el promedio de 20 simulaciones realizadas desde la polı́tica inicial (episodio 0) hasta la polı́tica final conseguida en el episodio número 5000. Las simulaciones se realizaron cada 50 episodios y en éstas se promedia la recompensa que se obtiene para 100 episodios..
(28) 3. Prob-CAC. 0.0. Método 1 Método 3 CACLA Discreto. −0.8 −0.6 −0.4 −0.2. Recompensa Promedio. 0.2. 0.4. 20. 0. 1000. 2000. 3000. 4000. 5000. Episodio. Figura 3.3: Recompensa promedio obtenida para las polı́ticas generadas durante el entrenamiento en el Juego de la Bola para los algoritmos implementados.. Dentro de los resultados obtenidos, se destaca que la versión discreta de Prob-CAC es el único de los algoritmos que resuelve el problema dentro de los 5000 episodios de entrenamiento, consiguiendo este resultado rápidamente, en comparación a los demás métodos. CACLA por su parte, en el inicio es más lento que los demás algoritmos, pues tarda 1000 episodios en conseguir recompensas que los demás logran en menos de 200, sin embargo, éste continúa mejorando su polı́tica después de este punto; otro aspecto a destacar es que CACLA, después de cierto número de episodios empeora la polı́tica que consigue. Se encuentra que la versión continua de Prob-CAC actualizada con el método 1 mejora la polı́tica inicial de forma rápida (en los primeros 200 episodios), pero ésta no mejora más durante los demás episodios. Por otro lado, la versión actualizada con el método 3 también realiza un inicio rápido, para después continuar mejorando pero de forma más lenta. Aunque pareciera que el algoritmo que actualiza con el método 3 es lento, éste consigue en pocos episodios la mejor polı́tica que puede obtener dada su expresividad. En la figura 3.4 se muestra la actualización de la polı́tica que hace el método 3 después de 36 episodios de entrenamiento. En esta figura, las curvas negras son las lı́neas de contorno de la distribución inicial, las curvas verdes son las de la distribución actualizada, y los puntos graficados son los pares estado acción visitados durante el entrenamiento. Estos puntos se.
(29) 3.4 Juego de la Bola. 21. Figura 3.4: Actualización de la polı́tica realizada por Prob-CAC con la actualización del método 3.. grafican rojos si el error T D < 0, azules si T D > 0, y el radio de éstos es proporcional a la magnitud del error T D. Se encuentra que después de esta actualización se han ubicado las medias del actor en la región óptima (que es por debajo de la diagonal) obedeciendo las indicaciones dada por los errores T D. En la tabla 3.1 se muestra el tiempo promedio requerido por cada algoritmo para realizar un entrenamiento de 500 episodios. Se encuentra que el tiempo requerido por los diferentes algoritmos es comparable a excepción de los que resuelven problemas de optimización en la actualización del actor. Se encuentra también que el tiempo que tarda el algoritmo con la actualización del método 2 es excesivamente alto, razón por la que no se tiene en cuenta para las pruebas de la figura 3.3..
(30) 3. Prob-CAC. 22. Algoritmo. Tiempo Requerido. Prob-CAC Método 1. 0.965 seg. Prob-CAC Método 2. 25704.86 seg. Prob-CAC Método 3. 119.18 seg. Prob-CAC Discreto. 0.366 seg. CACLA. 1.547 seg. Tabla 3.1: Tiempo promedio requerido por cada algoritmo para realizar un entrenamiento de 500 episodios.. 3.5.. Problema de Persecución. Este problema de RL se introduce en (IEE, 2007). En este problema se busca que un agente persiga un objetivo que se mueve siguiendo la trayectoria circular. El objetivo se mueve en contra del sentido de las manecillas del reloj y tarda 40 pasos en retornar a la posición inicial. Un episodio de este problema termina cuando el objetivo ha regresado a la posición inicial. En la figura 3.5 se ilustra el estado inicial del problema, que es el agente y el objetivo en las posiciones (5.0, 5.0) y (1.0, 5.0), respectivamente. El escenario es el área contenida en el cuadrado de 10 × 10. Éste incluye un obstáculo que el agente no puede atravesar. Cuando el agente trata de salirse del escenario o atravesar el obstáculo, las nuevas coordenadas de éste son las del punto en el que éste golpea la frontera, asumiendo un movimiento directo y continuo. (IEE, 2007) En la figura 3.5 el punto rojo representa al objetivo y el azul al agente persecutor. El cuadrado que está encerrando el área de 10 × 10 representa los lı́mites del escenario. El cı́rculo de radio 4, centrado en (4,5, 5,0), representa la trayectoria que sigue el objetivo. La región gris es el obstáculo que el agente no puede atravesar. Las posiciones del agente persecutor y del objetivo son vectores de dos dimensiones de valores reales. Un estado es un vector de cuatro dimensiones que contiene las posiciones del agente y del 4. objetivo, s ∈ [0, 10] . Las acciones son vectores de dos dimensiones, a ∈ R2 , que representan la posición objetivo del agente en el siguiente paso. No es necesario que las componentes de las acciones estén en el intervalo de [0, 10], ya que el agente nunca podrá salir del área de 10 × 10. La recompensa que debe ser maximizada es el negativo de la distancia entre el agente y el objetivo, más un ruido gaussiano con media 0 y desviación estándar de 0,1. (IEE, 2007) A continuación se muestran los resultados obtenidos y algunos detalles de implementación..
(31) 3.5 Problema de Persecución. 6. 8. 10. 23. ●. 0. 2. 4. ●. 0. 2. 4. 6. 8. 10. Figura 3.5: Estado inicial de cada episodio.. 3.5.1.. CACLA. En esta implementación, para representar al crı́tico se utiliza una red neuronal de una capa escondida, con 12 neuronas en la capa escondida y una salida. El entrenamiento de esta red neuronal se hace cada vez que se complete un bloque de 500 datos. Para el entrenamiento de esta red se hacen 50 iteraciones de backpropagation. Por otro lado, el actor es una red neuronal de doce neuronas en la capa escondida, que se actualiza con bloques de 3000 datos y 20 pasos de backpropagation. Durante el aprendizaje se utiliza un factor de exploración σ = 1. Con un actor de estas caracterı́sticas se consigue aprender a esquivar el obstáculo del problema de persecución, esto significa que CACLA, partiendo de una polı́tica que sabe ir a la posición en donde se encuentra el objetivo, logra aprender a esquivar el obstáculo y a moverse hacia donde el objetivo se va a mover. En la figura 3.6 se muestra la recompensa recibida por CACLA resolviendo la tarea de esquivar en el problema de persecución durante 15000 episodios de entrenamiento. Esta figura incluye el promedio de 20 repeticiones. El resultado obtenido muestra que CACLA resuelve la tarea rápidamente, cerca del episodio 2500; pero después de éste empeora la polı́tica encontrada, haciendo que se consiga una recompensa más pequeña con el paso del tiempo. En la figura 3.7 se muestra una polı́tica conseguida por CACLA después de 10000 episodios de entrenamiento para la solución de la tarea de evasión del obstáculo en el problema de.
(32) 3. Prob-CAC. −60 −80 −100. Recompensa Recibida. −40. 24. 0. 5000. 10000. 15000. Episodios. Figura 3.6: Recompensa recibida por CACLA resolviendo la tarea de evasión del obstáculo en el problema de Persecución.. persecución. En esta figura se muestran 9 escenarios, en cada uno de ellos se muestra el objetivo en una posición distinta dentro de la trayectoria. Las lı́neas que se muestran son flechas. Cada una de las flechas indica hacia donde se moverı́a el agente si partiera desde uno de los 121 puntos que se ponen en la gráfica para cada escenario. Con esta polı́tica, el agente consigue hacer dos cosas: moverse a una posición cercana a donde se va a mover el objetivo y esquivar el obstáculo. Aunque en (IEE, 2007) se presentan resultados de CACLA en este experimento, con la información suministrada por los autores es imposible comparar el resultado obtenido, ya que éstos escalan las recompensas sin indicar la función que se utiliza para este fin.. 3.5.2.. Prob-CAC. Con el fin de determinar si las reglas de actualización realizaban cambios coherentes en la FDP, se implementaron las versiones continuas de Prob-CAC con los métodos de actualización 1 y 2. La prueba que se realizó consistı́a en que, partiendo de una polı́tica aleatoria con pocas gausianas, determinar si las reglas de actualización permitı́an obtener polı́ticas que, a pesar de la poca expresividad del actor, consigan mejoras en términos de recompensa recibida. Los parámetros de la mezcla de gausiana que se usaron son: n = 4 y α = 1. A continuación, se muestran los resultados obtenidos:.
(33) 3.5 Problema de Persecución. 25. ●. ● ●. ●. ●. ●. ● ●. ●. Figura 3.7: Polı́tica conseguida por CACLA después de 10000 episodios de entrenamiento..
(34) 3. Prob-CAC. 26. Figura 3.8: Polı́tica obtenida por Prob-CAC con el método 1 de actualización. Método 1 En las figuras 3.8 y 3.9 se muestra la polı́tica conseguida después de 100 episodios de entrenamiento para los métodos de actualización 1 y 2. Esta polı́tica se obtiene partiendo de una aleatoria. Los resultados de las figuras 3.8 y 3.9 sugieren que las reglas de actualización funcionan de forma coherente, pues las polı́ticas conseguidas son las de moverse hacia dentro del cı́rculo, por debajo y por encima del obstáculo, lo que es buena idea en términos de recompensa recibida en el largo plazo..
(35) 3.5 Problema de Persecución. Figura 3.9: Polı́tica obtenida por Prob-CAC con el método 2 de actualización.. 27.
(36)
(37) Capı́tulo 4. Conclusiones Las reglas de actualización para los algoritmos Prob-CAC resultan ser coherentes con los requerimientos definidos para la actualización de la distribución de probabilidad que representa al actor. Pues éstos varı́an el valor que toma en la FDP para un punto en el espacio, teniendo en cuenta la magnitud y el error T D. Como se observa en la figura 3.4, estas reglas de actualización permiten obtener rápidamente (en pocos episodios) polı́ticas óptimas para el tipo de actor definido. La versión discreta de la familia de algoritmos propuesta presenta un funcionamiento satisfactorio en el problema mostrado. Ya que ésta es rápida y siempre consigue polı́ticas efectivas. Sin embargo, como se habı́a mencionado anteriormente, una aproximación de discretización en RL continuo no es propicia para múltiples dimensiones y/o para problemas en donde la discretización requiera una granularidad muy fina. La comparación realizada en la figura 3.3 entre los métodos propuestos y CACLA no es del todo justa puesto que la polı́tica de CACLA es determinı́stica en tanto que la familia de algoritmos propuesta genera una polı́tica estocástica. Es posible generar una polı́tica determinı́sitca con base en las polı́ticas estocásticas obtenidas con la que se esperarı́a obtener resultados comparables a los del algoritmo discreto. Se encuentra que las polı́ticas iniciales deben procurar cubrir todo el espacio de estadosacciones, prefiriendo los valores de covarianza grandes y no un gran número de gausianas. Este requerimiento es necesario para garantizar la exploración inicial, de modo que el algoritmo reciba señales T D de diferentes lugares del espacio y que el muestreo no se reduzca solamente a los lugares en donde se inicializan las gausianas..
(38) 4. Conclusiones. 30. La sugerencia de no preferir altos números números de gausianas se debe a que mientras más gausianas se utilizan, más tarda el algoritmo en realizar las iteraciones de actualización. Se encuentra que el hecho de que el algoritmo CACLA no tenga en cuenta la magnitud del error T D hace que éste actualice mal su polı́tica, y después de tener polı́ticas buenas, las deteriore con las actualizaciones que realiza. Vale la pena mencionar, que en el aprendizaje en los algoritmos de actor-crı́tico, la polı́tica inicial juega un papel trascendental. Pues para el crı́tico es difı́cil aprender el valor de polı́ticas equı́vocas, y esto hace que se generen señales de crı́tica T D erróneas. Teniendo en cuenta que la señal T D conduce el entrenamiento del actor, si el crı́tico no genera buenas señales, la polı́tica se actualiza de forma incorrecta, lo que se convierte en un cı́rculo vicioso. Los resultados obtenidos se consideran un buen primer paso en el área de investigación del problema de aprendizaje por refuerzo en espacios continuos. Ya que se encuentra que las reglas de actualización realizan de forma satisfactoria el trabajo asignado. Como trabajo futuro se propone más experimentación en diferentes problemas y el análisis de pruebas de convergencia. También, se requiere realizar investigación en métodos de optimización que permitan obtener soluciones computacionalmente más eficientes, cumpliendo con las caracterı́sticas de las soluciones deseadas: que permitan realizar actualizaciones sobre valores especı́ficos de la FDP conservando medidas de similaridad. Sin embargo, se reconoce que estas tareas propuestas para el trabajo futuro requieren una dedicación significativa en tiempo, pues éstas requieren la selección de modelo de cada uno de los algoritmos para cada problema en particular, lo que toma mucho tiempo de dedicación y computación..
(39) Bibliografı́a Thomas M. Cover and Joy A. Thomas. Elements of information theory. Wiley-Interscience, New York, NY, USA, 1991. ISBN 0-471-06259-6. 13 Reinforcement Learning in Continuous Action Spaces, 2007. IEEE, Symposium on Approximate Dynamic Programming and Reinforcement Learning. 8, 18, 22, 24 Leslie Pack Kaelbling, Michael L. Littman, and Andrew W. Moore. Reinforcement learning: a survey. Journal of Artificial Intelligence Research, 4:237–285, 1996. 4, 5, 7, 8 Kittipat Kampa, Erion Hasanbelliu, and Jose C. Principe. Closed-form cauchy-schwarz pdf divergence for mixture of gaussians. In Conference on Neural Networks (IJCNN), The 2011 International Joint, pages 2578 – 2585, July 2011. 16 Vijay R. Konda and John N. Tsitsiklis. On actor-critic algorithms. SIAM J. Control Optim., 42(4):1143–1166, April 2003. ISSN 0363-0129. doi: 10.1137/S0363012901385691. URL http: //dx.doi.org/10.1137/S0363012901385691. 5 Alessandro Lazaric, Marcello Restelli, and Andrea Bonarini.. Reinforcement learning in. continuous action spaces through sequential monte carlo methods. In Advances in Neural Information Processing Systems, 2007. 8, 11 Francisco S. Melo and Manuel Lopes. Fitted natural actor-critic: A new algorithm for continuous state-action mdps ?, 2008. 7, 8 Jose del R. Millan, Daniele Posenato, and Eric Dedieu. Continuous-action q-learning. Machine Learning, 49:247–265, 2002.. ISSN 0885-6125.. URL http://dx.doi.org/10.1023/A:. 1017988514716. 10.1023/A:1017988514716. 7, 8 Hesam Montazeri, Sajjad Moradi, and Reza Safabakhsh. Continuous state/action reinforcement learning: A growing self-organizing map approach. Neurocomput., 74(7):1069–1082, March.
(40) BIBLIOGRAFÍA. 32. 2011. ISSN 0925-2312. doi: 10.1016/j.neucom.2010.11.012. URL http://dx.doi.org/10. 1016/j.neucom.2010.11.012. 7, 8 Jose C. Principe. Information Theoretic Learning: Renyi’s Entropy and Kernel Perspectives. Springer, 2010. 16 Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction. The MIT Press, 1998. vii, vii, 3, 4, 5, 6 Hado van Hasselt.. Reinforcement Learning: State of the Art. Reinforcement Learning in. Continuous State and Action Spaces, chapter 7. Reinforcement Learning in Continuous State and Action Spaces, pages 207–242. Springer, 2011. URL http://homepages.cwi. nl/~hasselt/papers/RL_in_Continuous_Spaces.pdf. 7, 8, 9, 13 Christian Vollmer, Erik Schaffernicht, and Horst-Michael Gross.. Exploring continuous. action spaces with diffusion trees for reinforcement learning. In Proceedings of the 20th international conference on Artificial neural networks: Part II, ICANN’10, pages 190–199, Berlin, Heidelberg, 2010. Springer-Verlag. ISBN 3-642-15821-8, 978-3-642-15821-6. URL http://dl.acm.org/citation.cfm?id=1889001.1889029. 7, 8 Xin Xu, Chunming Liu, and Dewen Hu. Continuous-action reinforcement learning with fast policy search and adaptive basis function selection. Soft Comput., 15(6):1055–1070, June 2011. ISSN 1432-7643. doi: 10.1007/s00500-010-0581-3. URL http://dx.doi.org/10. 1007/s00500-010-0581-3. 7, 8.
(41)
(42)
(43)
(44)
(45)
Documento similar