Estimación de distribuciones de probabilidad para problemas de aprendizaje por refuerzo con espacios de acciones continuos

Texto completo

(1)Estimación de Distribuciones de Probabilidad para Problemas de Aprendizaje por Refuerzo con Espacios de Acciones Continuos. por Mónica Adriana Rodrı́guez Guevara. Tesis presentada al Departamento de Ingenierı́a Eléctrica y Electrónica en cumplimiento de parte de los requisitos de Maestrı́a en Ingenierı́a. Área Ingenierı́a Electrónica y de Computadores. Universidad de los Andes, Colombia. Enero, 2013..

(2) Resumen En este documento se propone una familia de algoritmos de actor crı́tico para la solución de problemas de aprendizaje por refuerzo con espacios de acciones continuos. Estos algoritmos se basan en la idea de definir el actor como una distribución de probabilidad. En esta investigación se proponen métodos para la definición y actualización del actor. Los algoritmos son evaluados en dos problemas continuos y se comparan con el algoritmo del estado del arte, encontrando que las reglas de actualización propuestas son válidas..

(3) Para Carmen..

(4) Agradecimientos Para comenzar quiero agradecer al profesor Fernando Lozano por su excelente labor como asesor, le agradezco por su exigencia y por la formación académica y personal que me brindó durante mis estudios de pregrado y maestrı́a. En segundo lugar, le agradezco a Reinaldo Uribe ya que su guı́a y apoyo fueron imprescindibles en el desarrollo de este proyecto e hicieron posible conseguir los resultados obtenidos. Quisiera agradecer también a mis papás, pues ellos han sido el soporte fundamental de mi vida. También le agradezco a mi hermano por la confianza que siempre deposita en mı́. A Juan Pablo le doy gracias por ser quien me da ánimo cuando ya no lo tengo, y quien me da esperanza cuando yo siento que la pierdo. Le agradezco a Andrea Sánchez por ser mi gran amiga y por todos los momentos de distracción. Agradezco también al seminario de Machine Learning, dirigido por el profesor Fernando Lozano, porque allı́ se discutieron tópicos fundamentales sobre el desarrollo de este trabajo. Finalmente, le agradezco a todos mis amigos, familiares y profesores por todo el apoyo que he recibido por parte de ellos..

(5) Índice general 1. Introducción. 1. 2. Marco Teórico. 3. 2.1. El Problema de Aprendizaje por Refuerzo . . . . . . . . . . . . . . . . . . . . . .. 3. 2.1.1. Interacción Agente-Ambiente . . . . . . . . . . . . . . . . . . . . . . . . .. 3. 2.1.2. La Polı́tica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 2.1.3. Función de Valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 2.2. Algoritmos de Actor–Crı́tico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 2.3. Aprendizaje por Refuerzo con Espacios de Acciones Continuos . . . . . . . . . .. 7. 2.4. CACLA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. 3. Prob-CAC. 11. 3.1. Prob-CAC Discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.2. Prob-CAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.2.1. Método 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.2.2. Método 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.2.3. Método 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.3. Resultados Experimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.4. Juego de la Bola . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.4.1. CACLA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.4.2. Prob-CAC Discreto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19. 3.4.3. Prob-CAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.4.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.5. Problema de Persecución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.5.1. CACLA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.5.2. Prob-CAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24.

(6) vi. Contents. 4. Conclusiones. 29. Bibliografı́a. 31.

(7) Índice de figuras 2.1. Interacción del agente y el ambiente. (Sutton and Barto, 1998) . . . . . . . . . .. 3. 2.2. Arquitectura de Actor–Crı́tico. (Sutton and Barto, 1998) . . . . . . . . . . . . . .. 6. 3.1. Gráfica del juego de la bola. Caso en el que la posición inicial es s = 0, la meta está en s ∈ [0.9, 1], y la región de pérdida es s ∈ (1, ∞). . . . . . . . . . . . . . . 18 3.2. Función de recompensa diseñada para el problema que se ilustra con la figura 3.1. 19 3.3. Recompensa promedio obtenida para las polı́ticas generadas durante el entrenamiento en el Juego de la Bola para los algoritmos implementados.. . . . . . . . . 20. 3.4. Actualización de la polı́tica realizada por Prob-CAC con la actualización del método 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.5. Estado inicial de cada episodio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.6. Recompensa recibida por CACLA resolviendo la tarea de evasión del obstáculo en el problema de Persecución. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.7. Polı́tica conseguida por CACLA después de 10000 episodios de entrenamiento. . 25 3.8. Polı́tica obtenida por Prob-CAC con el método 1 de actualización . . . . . . . . . 26 3.9. Polı́tica obtenida por Prob-CAC con el método 2 de actualización. . . . . . . . . 27.

(8)

(9) Capı́tulo 1. Introducción Aprendizaje por refuerzo (RL) es un área dentro de Machine Learning que estudia el aprendizaje basándose en la experiencia propia de un agente. Estos métodos son pertinentes para solucionar problemas sobre los que se tiene poca información y por lo tanto es necesario que el agente aprenda basándose en su propia experiencia. La teorı́a de RL está desarrollada para problemas discretos, pero muchas de las aplicaciones del mundo real ocurren en espacios continuos. Es por esto que la capacidad de abordar problemas continuos es una caracterı́stica deseable en los algoritmos de solución. En este documento, se propone una familia de algoritmos que busca solucionar el problema de RL cuando el espacio de acciones es continuo. Esta familia de algoritmos se basa en una arquitectura de actor-crı́tico, en donde el actor se define como una distribución de probabilidad sobre el espacio de estados-acciones. A diferencia del método propuesto, los acercamientos que se encuentran en la literatura para la solución de este problema, hacen uso de métodos de aproximación o algoritmos de descenso de gradiente para el ajuste de parámetros del actor. La familia de algoritmos propuesta, junto al algoritmo del estado del arte, se prueba en dos experimentos. Encontrando que las reglas de actualización propuestas son coherentes en la solución del problema. Este documento se organiza de la siguiente manera: en la sección 2 se encuentra el marco teórico, en éste se hace una descripción del problema de RL, de los algoritmos de actor crı́tico y de los problemas con espacios continuos; en la sección 3 se describen la familia de algoritmos propuesta; en la sección 4 se muestran dos experimentos realizados y sus respectivos resultados; y finalmente, en la sección 5 se plantean las conclusiones..

(10)

(11) Capı́tulo 2. Marco Teórico 2.1.. El Problema de Aprendizaje por Refuerzo. En el problema de aprendizaje por refuerzo consiste en que un agente que está inmerso en un ambiente, experimenta para encontrar las mejores acciones que puede tomar tal que maximice una señal de recompensa que recibe durante el aprendizaje.. 2.1.1.. Interacción Agente-Ambiente. El agente y el ambiente interactúan en una secuencia discreta de pasos de tiempo. En cada paso de tiempo t, el agente recibe una representación del estado del ambiente st ∈ S, en donde S es el conjunto de posibles estados; con base en st , el agente selecciona una acción at ∈ Ast , en donde Ast es el conjunto de acciones posibles en st . Un paso de tiempo después, como consecuencia de la acción tomada, el agente recibe una recompensa numérica rt+1 ∈ R, y pasa al estado st+1 ∈ S. En la figura 2.1 se muestra un diagrama de la interacción entre el agente y el ambiente. (Sutton and Barto, 1998) Un proceso de este tipo es una secuencia de estados, acciones y recompensas con una. Agente estado. st. acción. recompensa. at. rt rt+1 st+1. Ambiente. Figura 2.1: Interacción del agente y el ambiente. (Sutton and Barto, 1998).

(12) 2. Marco Teórico. 4. dinámica determinada por las probabilidades de transición Pass0 y las recompensas esperadas Rass0. Pass0 = P (st+1 = s0 |st = s, at = a),. (2.1). Rass0 = E(rt |st = s, st+1 = s0 , at = a).. (2.2). Esto indica que el proceso puede no ser determinı́stico y aún si se toma la misma acción en un estado, el estado siguiente puede no ser el mismo ni tampoco la recompensa. Este proceso se asume estacionario: las probabilidades de transición entre estados y las recompensas no cambian a lo largo del tiempo. (Sutton and Barto, 1998; Kaelbling et al., 1996). 2.1.2.. La Polı́tica. En este modelo, se define una polı́tica como un mapeo π, determinı́stico o estocástico, de estados a acciones. En este mapeo, πt (s, a) es la probabilidad de seleccionar la acción a en el instante t, dado que el estado actual es s. La polı́tica es modificada como resultado de la experiencia del agente en el ambiente, y cada método de aprendizaje por refuerzo especifica cómo el agente realiza este cambio. (Sutton and Barto, 1998) Se puede definir formalmente el objetivo del agente como el de encontrar la polı́tica óptima π∗ :. π ∗ = arg máx E π.  X . t≥t0. rt |st0 = s.  . (2.3). . que, empezando desde el estado s, maximice el valor esperado de la suma de las recompensas recibidas. (Sutton and Barto, 1998) En otras palabras, el objetivo del agente es determinar qué acciones tomar en qué estados de modo que se obtenga, en el largo plazo, la recompensa total más grande posible.. 2.1.3.. Función de Valor. Las funciones de valor son funciones de los estados que estiman qué tan bueno es para el agente estar en un estado dado (o qué tan bueno es escoger una acción determinada en un estado dado). Aquı́ la noción de “qué tan bueno” se define en términos de las recompensas que se espera conseguir en el futuro. Teniendo en cuenta que la recompensa esperada depende.

(13) 2.2 Algoritmos de Actor–Crı́tico. 5. de las acciones que el agente tome, las funciones de valor se definen con respecto a polı́ticas particulares. Formalmente el valor del estado s bajo la polı́tica π, se define como ( V π (s) = Eπ. ∞ X. ) γ k rt+k+1 |st = s. ,. (2.4). k=0. en donde Eπ {} denota el valor esperado dado que el agente está siguiendo la polı́tica π. Se debe tener en cuenta que el valor del estado terminal, si hay alguno, es siempre cero. La función de la ecuación (2.4) recibe el nombre de la función de valor de estado para la polı́tica π. (Sutton and Barto, 1998) Una descripción más detallada del problema de aprendizaje por refuerzo se encuentra en (Sutton and Barto, 1998; Kaelbling et al., 1996). 2.2.. Algoritmos de Actor–Crı́tico. Los algoritmos de actor crı́tico son métodos de diferencias temporales que se utilizan para solucionar problemas de aprendizaje por refuerzo. En particular, este algoritmo busca combinar las ventajas de los métodos de sólo-actor y sólo-crı́tico y para esto usa estructuras separadas que explı́citamente representan de forma independiente la polı́tica y la función de valor. (Konda and Tsitsiklis, 2003) La estructura de la polı́tica se conoce como el actor, ya que ésta es usada para seleccionar acciones; y la función de valor estimada es conocida como el crı́tico, porque evalúa las acciones tomadas por el actor. (Sutton and Barto, 1998) El aprendizaje en los algoritmos de actor crı́tico es en la polı́tica: el crı́tico debe aprender y criticar la polı́tica que está siguiendo el actor. La crı́tica toma la forma del error T D. Ésta es una señal escalar que es la única salida del crı́tico y que conduce el aprendizaje del actor y del crı́tico , tal como se muestra en la figura 2.2. (Sutton and Barto, 1998; Konda and Tsitsiklis, 2003) En un estado particular st el actor selecciona una acción at , lo que conduce al ambiente a un nuevo estado st+1 . Entonces el crı́tico evalúa el nuevo estado V (st+1 ) y la recompensa recibida rt+1 , y con ésto emite una señal que se usará para evaluar la acción que se acaba de seleccionar (Sutton and Barto, 1998). Esta señal de evaluación es el error T D:. T D = rt+1 + γV (st+1 ) − V (st ). (2.5).

(14) 2. Marco Teórico. 6. Política Actor. Error TD. Critico Estado. Función de Valor. Acción. Recompensa. Ambiente. Figura 2.2: Arquitectura de Actor–Crı́tico. (Sutton and Barto, 1998). en donde V es la función de valor que actualmente implementa el crı́tico, y γ es un factor de descuento. Se tiene entonces que si el error T D es positivo, la tendencia a seleccionar la acción at deberı́a ser reforzada, pues la recompensa recibida más el valor del estado siguiente son mayores que el valor del estado actual; mientras que si es negativo, la tendencia deberı́a ser debilitada. (Sutton and Barto, 1998) De manera general el algoritmo de Actor-Crı́tico de describe en el algoritmo 1. Algoritmo 1 Actor–Crı́tico Inicializar el Crı́tico C Inicializar el Actor A Repita Genere estado inicial st Repita Obtenga una acción del Actor: a ← A(st ) Obtenga el estado siguiente st+1 (st , a) Obtenga la recompensa r(st+1 , st , a) Obtenga el error TD: T D(st+1 , st , a) Actualice el Actor A(A, st , a, T D) Actualice el Crı́tico C(C, st , a, r) Actualice el estado actual: st ← st+1 hasta Estado Final ; hasta Número de Episodios;.

(15) 2.3 Aprendizaje por Refuerzo con Espacios de Acciones Continuos. 7. Los algoritmos de actor-crı́tico son preferidos a la hora de tratar con problemas con espacios continuos, ya que el hecho de que éstos aproximen de forma independiente la función de valor y las polı́ticas facilita la obtención de polı́ticas generalizables. (Xu et al., 2011). 2.3.. Aprendizaje por Refuerzo con Espacios de Acciones Continuos. Bajo ciertos supuestos, la teorı́a es exitosa resolviendo el problema de RL. Sin embargo, ésta asume que es posible enumerar los estados y las acciones; y esto, excepto en ambientes muy pequeños, significa requerimientos de memoria imprácticos. (Kaelbling et al., 1996) Esto se debe a que los métodos de RL estiman el valor de pares estado–acción, y la formulación estándar de éstos, que normalmente es tabular, deja de ser apropiada cuando los agentes lidian con tareas en las que los espacios de estados y/o de acciones son continuos (Millan et al., 2002). Ası́, ya que en la práctica el número de estados y/o acciones puede ser muy grande o incluso infinito, la teorı́a de aprendizaje debe hacerse útil para esa generalización. (van Hasselt, 2011; Kaelbling et al., 1996; Melo and Lopes, 2008; Montazeri et al., 2011; Xu et al., 2011) Un gran problema en la aplicación de RL en dominios continuos es la falta de técnicas para representar y actualizar el aprendizaje de forma eficiente (Vollmer et al., 2010). Es por esto que los problemas con espacios de estados infinitos son un reto en el desarrollo de algoritmos y en el análisis de garantı́as de convergencia (Melo and Lopes, 2008). Los algoritmos requeridos deben aprender a escoger acciones de un espacio de acciones, que puede ser infinitamente grande; optimizando un señal de recompensa en un espacio de estados, que también puede ser infinitamente grande; en donde el resultado de una acción puede ser estocástico. (van Hasselt, 2011) Las propiedades deseadas en tales algoritmos son que: (1) deben ser aplicable en diferentes instancias del problema general, (2) deben ser eficiente computacionalmente, tal que éste pueda ser usado en aplicaciones en tiempo real, y (3) deben tener una buena eficiencia de muestreo, tal que pueda aprender una buena polı́tica de selección de acciones con experiencia limitada. (van Hasselt, 2011) Para la solución de problemas con espacios de estados y/o acciones grandes o infinitos se han tenido dos acercamientos principales. Uno de ellos está basado en el uso de métodos de regresión, en los que se usan muestras de datos para estimar la función de valor. Tales algoritmos pueden tener la ventaja de que existen numerosos métodos de regresión disponibles de la literatura de.

(16) 2. Marco Teórico. 8. machine learning con sólidas propiedades de convergencia. (van Hasselt, 2011; Melo and Lopes, 2008; Montazeri et al., 2011; Xu et al., 2011; Vollmer et al., 2010; Kaelbling et al., 1996) El segundo acercamiento que se ha tenido es el uso de los métodos de gradiente para aproximar la función de valor. En este caso, la función de valor se entiende como un producto interno de algunas funciones base y un vector de pesos. En este caso, se busca encontrar el vector de pesos óptimo haciendo descenso de gradiente en el algoritmo de diferencias temporales. (Montazeri et al., 2011; Melo and Lopes, 2008; Kaelbling et al., 1996) Otra posible solución es la de abordar el problema discretizando el espacio de acciones y el espacio de estados y aplicar algoritmos discretos (Vollmer et al., 2010). Esta solución se considera fallida pues se ha encontrado que un conjunto a priori de acciones discretas es poco probable que contenga una acción óptima para cada estado posible, a menos que la granularidad sea tan fina y tan grande que el aprendizaje no converja en un tiempo razonable. En tales casos, algoritmos con espacios de acciones discretos se vuelven inestables y se pierden las garantı́as de convergencia. (Millan et al., 2002) La solución que se estudia en este documento es la de definir el actor como una distribución de probabilidad explicita en el espacio estados-acciones. Una propuesta similar a ésta se hace en (Lazaric et al., 2007); aunque en ésta, el algoritmo se limita a espacios de estados discretos.. 2.4.. CACLA. CACLA es un algoritmo de actor crı́tico introducido en la literatura en (IEE, 2007) para la solución de problemas de RL continuos. Este algoritmo, a diferencia de los demás, es el único que puede trabajar con problemas en donde el espacio de estados también puede ser continuo. Es por esto que se escoge como punto de referencia en las pruebas realizadas con la familia de algoritmos propuestos en este trabajo. El crı́tico aproxima la función de valor V π , en donde π es la polı́tica actual; y el actor, tiene como salida una acción –que puede ser de múltiples dimensiones– para cada estado. Durante el entrenamiento se asume que hay exploración, tal que la acción tomada en un paso es diferente a la acción generada por el actor. (van Hasselt, 2011) En este algoritmo una polı́tica es, normalmente, una distribución gausiana centrada en la salida del actor. Esta polı́tica se actualiza teniendo en cuenta solamente el signo del error T D. CACLA en cada iteración evalúa si la acción recientemente tomada es mejor o peor que la acción que se considera óptima. De modo que si la acción escogida resulta ser mejor, se actualiza la.

(17) 2.4 CACLA. 9. acción óptima cambiándola por la acción previamente escogida. Esta es la razón por la que se hace necesaria la exploración, ya que si se toma la acción que produce el actor, los parámetros del algoritmo nunca cambiarı́an. (van Hasselt, 2011) El actor es una función de aproximación que se actualiza en lı́nea. Sin embargo, en las implementaciones hechas, la actualización del actor se hace en bloque. Lo anterior no empeora el desempeño del algoritmo, por el contrario, ésta es una mejora sugerida por los autores en (van Hasselt, 2011). Algoritmo 2 CACLA (van Hasselt, 2011) Inicializar θ0 , ψ0 , s0 Para t ∈ {0, 1, 2, . . .} haga Seleccione at ∼ π (st , ψt ) Ejecute at , observe rt+1 y st+1 T Dt = rt+1 + γVt (st+1 ) − Vt (st ) θt+1 = θt + αt (st ) T Dt ∇θ Vt (st ) Si T Dt > 0 entonces ψt+1 = ψt + βt (st ) (at − Ac (st , ψt )) ∇ψ Ac (st , ψt ) fin Si st+1 es terminal entonces Reinicialice st+1 fin fin Una descripción de CACLA se muestra en el algoritmo 2. En este algoritmo, θ son los parámetros del crı́tico, ψ son los parámetros del actor, s es el estado, a es la acción, r es la recompensa, t es el paso de tiempo, V es la función de valor de estados, Ac es el actor, y α y β son parámetros del algoritmo. CACLA tiene dos grandes problemas: el primero, que actualiza el actor solamente cuando recibe un error T D positivo, esto puede hacer lento el aprendizaje si el algoritmo se enfrenta a una tarea en donde en promedio sólo se reciban señales T D < 0; y el segundo, que la actualización no tiene en cuenta la magnitud del error T D, entonces éste actualiza de igual manera si se recibe un error T D ≈ 0 o un error T D >> 0..

(18)

(19) Capı́tulo 3. Prob-CAC En esta sección se presenta el algoritmo Prob-CAC que se propone para la solución de problemas de RL con espacios de acciones continuos. En un algoritmo de actor crı́tico, a partir de una polı́tica completamente exploratoria, el actor debe ir progresivamente cambiando la polı́tica de modo que acciones que resulten buenas sean seleccionadas de forma más frecuente, y viceversa Lazaric et al. (2007). Esta frecuencia en la selección de una acción se puede asociar a la probabilidad de selección. Esta es la idea que inspira el algoritmo que se presenta en este documento. Prob-CAC es un algoritmo diseñado para la solución de problemas de RL en donde el espacio de acciones es continuo. En este algoritmo el crı́tico se representa con un aproximador de funciones, en el caso de espacios de estados continuos; o por una tabla, en el caso discreto. El actor es representado con una distribución de probabilidad definida sobre el espacio de estados-acciones. Es por esto que el nombre Prob-CAC viene de Probabilistic Continuous Actor Critic. La propuesta que se hace es que en cada iteración la distribución de probabilidad se actualice de acuerdo al error T D que se recibe para cada par estado-acción. De modo que si el error T D es positivo, la probabilidad de seleccionar tal acción en tal estado aumente; si es negativo, disminuya; y que la magnitud de éste se tenga en cuenta en el cambio de probabilidad. Teniendo en cuenta lo anterior, para definir Prob-CAC se hace necesario especificar dos aspectos principales: la inicialización y actualización de la distribución de probabilidad. A continuación se hace la descripción de la familia de algoritmos propuesta..

(20) 3. Prob-CAC. 12. 3.1.. Prob-CAC Discreto. En esta versión del algoritmo, para la construcción del actor se hace necesario la discretización del espacio de acciones A –y el espacio de estados S, en el caso en el que éste sea continuo–. Lo anterior es debido a que la idea principal del algoritmo es la de asignar a cada conjunto de acciones un valor que indica cuál es la probabilidad de que una de las acciones de ese conjunto sea seleccionada en cada uno de los posibles estados –o grupos de estados en el caso continuo–. El actor se construye de modo que todas las acciones, o grupos de ellas, tengan inicialmente la misma probabilidad de ser seleccionadas. Durante el entrenamiento, las probabilidades de cada par estado–(grupo de acciones), P (a, s), se actualizan de acuerdo al error T D que se obtiene al ejecutar la acción ã ∈ a en un estado s y recibir una recompensa r. Con este fin, se propone la siguiente actualización:  TD   1 + Po (ak |s )  2 Pn (ak |s ) =    1 − T D Po (ak |s ) + T D 2 2. si T D < 0 (3.1) si T D ≥ 0. en donde, Po (ak |s ) es la probabilidad de seleccionar una acción del k–ésimo conjunto de acciones en el estado s; y Pn (ak |s ), es la nueva probabilidad calculada en función de T D y Po (ak |s ). La actualización propuesta garantiza que Pn (ak |s ) > Po (ak |s ), cuando el error T D es positivo; Pn (ak |s ) < Po (ak |s ), cuando es negativo; y Pn (ak |s ) = Po (ak |s ), cuando es cero. Con esta regla de actualización también se asegura que, si T D > 0, el nuevo valor de probabilidad es más grande (pequeño) que el anterior mientras más grande sea la magnitud del error T D, cuando éste es positivo (negativo). Con la ecuación (3.1) se actualiza la probabilidad de seleccionar una acción dentro conjunto ak , cuando se está en el estado s. Teniendo en cuenta que en cada iteración una de las probabilidades cambia, es necesario definir cómo cambian las probabilidades de los demás grupos de acciones de modo que se garantice que el conjunto de valores conserva las propiedades de distribución de probabilidad. Es deseable también que la nueva distribución sea cercana en algún criterio a la distribución anterior, pues se requiere incluir la nueva información que se tiene sobre un par estado-acción particular, pero sin perder el conocimiento que se ha adquirido sobre el resto del espacio durante el aprendizaje..

(21) 3.1 Prob-CAC Discreto. 13. Una forma de conseguir esto es minimizando la divergencia Kullback-Leibler (KL) entre las dos distribuciones. La divergencia KL es una métrica usada en estadı́stica que cuantifica la diferencia entre dos distribuciones de probabilidad Cover and Thomas (1991); van Hasselt (2011). En este sentido, minimizar la divergencia entre las dos distribuciones permite obtener como nueva distribución de probabilidad, la que tenga la mayor información mutua con respecto a la distribución anterior. Esto se traduce en que la distribución se actualiza para la información recientemente recibida pero olvidando la mı́nima cantidad de información. En este orden de ideas, para determinar el valor de las probabilidades de los otros conjuntos de acciones, se resuelve el problema de optimización. mı́n DKL dt+1 , dt. . sujeto a: X dt+1 =1 i. (3.2). i. dt+1 =b k dt+1 ≥0 i que minimiza la divergencia KL entre dos distribuciones discretas, garantizando que los valores encontrados son una distribución de probabilidad y que la probabilidad del k-ésimo conjunto es un valor b determinado por la ecuación (3.1). Resolviendo analı́ticamente el problema de optimización con multiplicadores de lagrange se encuentra que la actualización de todas las probabilidades se consiguen multiplicando los valores anteriores por una constante β =. m n,. en dónde m = 1 − b, y n = 1 − dtk .. Este algoritmo utiliza el error T D como señal de control para aumentar o disminuir la probabilidad para un conjunto de pares estado-acción, el resto de valores en la distribución de probabilidad se modifican de forma óptima conservando la mayor cantidad de información posible entre iteración e iteración. Con lo anterior, es posible pensar que este proceder conduzca a la obtención de una polı́tica que, dado un estado, asigne valores de probabilidad grandes a las acciones que, a largo plazo, generen recompensas altas; y valores pequeños de probabilidad a las que no..

(22) 3. Prob-CAC. 14. 3.2.. Prob-CAC. En este caso la distribución de probabilidad se define como una mezcla de gausianas. Se escoge este tipo de distribución porque es muy flexible y requiere de pocos parámetros. Esta FDP es una mezcla de n gausianas, cada gausiana es de dimensión igual a la dimensión del espacio de estados-acciones D y tiene una matriz de covarianza diagonal con valor α. Habiendo definido el número de gausianas n y la varianza α, el actor se convierte en una función de densidad de probabilidad (FDP) F t (x) =. 1 n (2πα)D/2. n X. T 1 exp − x − µti x − µti 2α i=1. (3.3). que varı́a solamente con cambios en las medias µi de las gausianas que se hacen durante las iteraciones t del algoritmo. De modo que la inicialización y la actualización del actor consisten en la inicialización y la variación del conjunto de n vectores. Para realizar el muestro de una FDP como la definida en la ecuación 3.3 se propone el método de muestreo que se muestra en el apéndice de este documento. La actualización de las medias de la FDP debe hacerse de modo tal que si el error T D es positivo la probabilidad de escoger la acción seleccionada en el estado actual aumente; y en caso contrario, disminuya. A continuación, se presentan tres métodos para realizar los pasos de actualización.. 3.2.1.. Método 1. Se propone que el actor se actualice acercando o alejando las medias de las gausianas del punto del espacio correspondiente a tal estado y acción teniendo en cuenta el error T D. Esta aproximación busca con alejar o acercar las medias que la probabilidad en un punto particular aumente o disminuya de acuerdo a la señal de crı́tica recibida, y a la distancia euclidiana entre el punto y las medias. De modo que cada gausiana se desplaza una distancia distinta. Para la actualización cuando, para un punto x del espacio estados-acciones, se tiene un error T D se propone la siguiente forma convexa:. µt+1 = x × λi + µti × (1 − λi ) i. (3.4).

(23) 3.2 Prob-CAC. 15. que asume que el error T D es un valor entre -1 y 1. Para la actualización, λi se define como: (. T D × (1 − li ). si T D ≥ 0. T D × L × (1 − li ). si T D < 0. λi =. (3.5). en donde li es la distancia euclidiana normalizada de forma tal que la más grande entre todas las distancias sea uno, y L es la distancia más pequeña que hay entre las medias y los puntos en la frontera del espacio de estados-acciones en la dirección de x − µti . Partiendo de una polı́tica exploratoria, en donde hay gausianas distribuidas por todo el espacio de estados-acciones, el algoritmo de RL se diseña para mover las gausianas buscando una polı́tica óptima. Ası́ que éste deberı́a agruparlas en lugares del espacio que correspondan a pares estados-acciones que generen grandes recompensas a largo plazo; ası́ como también, apartarlas de los lugares que sean pobres en términos de la recompensa recibida. Es la idea anterior la que inspira este algoritmo, pues éste a partir de la información que recibe sobre un punto particular del espacio, atrae o aleja las gausianas. La magnitud del movimiento depende de tres cosas especı́ficas: la magnitud del error T D; la distancia de la gausiana al punto del espacio recientemente visitado, porque no se quiere alterar en mayor medida lugares distantes debido a que esto puede significar pérdida de la información; y por último, la distancia con las fronteras del espacio estados-acciones, pues es deseable mantener todas las gausianas de la mezcla dentro del espacio de estados-acciones, que es sobre el que se define la FDP.. 3.2.2.. Método 2. Este segundo método sigue el mismo principio de Prob-CAC Discreto. Ya que se busca actualizar el valor que toma la FDP para el punto en el espacio recientemente visitado teniendo en cuenta el error T D. Una vez fijado este valor se desea actualizar la función en el resto del espacio de modo tal que las dos distribuciones se parezcan en alguna medida. En este caso, la función de la ecuación (3.1) no necesariamente es válida para la definición del valor que toma la FDP en el punto especificado, pues la imagen de la FDP propuesta no está contenida en el intervalo contemplado por esta función. Sin embargo, la función de actualización debe definirse con la misma filosofı́a: incrementar el valor que toma la FDP en el punto determinado si el error T D recibido es positivo, disminuir el valor en el caso contrario y además el cambio debe ser proporcional a la magnitud de esta señal..

(24) 3. Prob-CAC. 16. En cuanto a la medida de similaridad de las distribuciones entre iteración e iteración, se desearı́a usar también la divergencia KL, sin embargo no se puede obtener una expresión analı́tica de ésta cuando la distribución es una mezcla de gausianas Kampa et al. (2011). Es por esto que se propone como medida de similaridad la divergencia Cauchy-Schwarz (CS). Ésta también es una medida de entropı́a, es simétrica, positiva y es igual a cero sólo cuando las dos distribuciones son iguales Principe (2010). La divergencia CS para dos distribuciones f (x) y g(x) se define como: 2 f (x)g(x)dx R f 2 (x)dx g 2 (x)dx R. DCS (f, g) = −log R. (3.6). Corrigiendo algunos errores que presenta la referencia Kampa et al. (2011), se presenta de forma explı́cita la divergencia CS para una mezcla de gausianas: DCS F t , F t+1 =   n X n T X 1 t+1 t+1  − log c1 µti − µj exp − µti − µj 4α i=1 j=1   n X X 1 1 t t T t t  exp − µi − µl µi − µl  + log nc1 + 2c1 2 4α i=2 l<i +. 1 log 2. nc1 + 2c1.  T 1 t+1 t+1 t+1 t+1  × exp − µj − µl µj − µl 4α j=2 l<j n X X. (3.7). con c1 = −2α. n X n X. T 1 t t+1 t µi − µt+1 µ − µ exp − i j∗ j∗ 4α i=1 j ∗ =1. (3.8). De esta manera, el problema de optimización que se resuelve para la actualización del actor es. mı́n DCS F t , F t+1 t+1. . µ. sujeto a: F t+1 (x) = p l ≤ µt+1 ≤u i. (3.9).

(25) 3.3 Resultados Experimentales. 17. en donde x es el par estado-acción actual, l y u son respectivamente las cotas inferior y superior de la medias de la distribución de probabilidad. Este problema de optimización es un problema no convexo con restricciones de igualdad no lineales y restricciones de desigualdad de caja.. 3.2.3.. Método 3. En este método se propone resolver el siguiente problema de optimización:. mı́n δ. n X. δiT δi. i=1. sujeto a:. (3.10). F t+1 (x) = p l ≤ µt+1 ≤u i con µt+1 = δi + µti . i Teniendo como única diferencia con el método anterior la función objetivo del problema de optimización. Con esta función se busca minimizar el cambio de las medias entre iteraciones, pero ajustando la probabilidad en el punto deseado x, según halla sido la señal de crı́tica recibida. De modo que este método se propone para seguir el principio deseado: incorporar la información recibida actualizando puntos del espacio de los que se tengan señales de crı́tica, buscando cambiar lo menos posible la distribución de probabilidad para los demás puntos del espacio entre iteraciones. A diferencia del problema de la ecuación 3.9, la función objetivo propuesta en este método sı́ es convexa, cualidad que permite resolver los problemas de optimización de forma más fácil y rápida.. 3.3.. Resultados Experimentales. En esta sección se proponen dos problemas de RL con espacios continuos de acciones y de estados, estos problemas se utilizarán para comprar los algoritmos propuestos y CACLA, que es el algoritmo del estado del arte. El primer experimento es un problema simple que se utiliza para evaluar las capacidades de los algoritmos en términos de actualización de la polı́tica y maximización de la recompensa.

(26) 3. Prob-CAC. 18. 0. 0.2. 0.4. 0.6. 0.8. 1. Figura 3.1: Gráfica del juego de la bola. Caso en el que la posición inicial es s = 0, la meta está en s ∈ [0.9, 1], y la región de pérdida es s ∈ (1, ∞).. recibida. El segundo experimento, es un problema introducido en (IEE, 2007); para este problema en la referencia se reportan resultados exitosos de CACLA, por lo que se busca estudiar el desempeño de los algoritmos propuestos en esta tarea.. 3.4.. Juego de la Bola. Considere el juego en el que se tiene una bola en un espacio unidimensional y un jugador tiene la meta de empujar la bola hacia adelante con el fin de llegar a una región determinada. Una partida de este juego inicia con la bola en una posición aleatoria. El jugador habrá perdido la partida si la bola llega más allá de la región objetivo, y la habrá ganado si la posición final de la bola es dentro de la región de interés. El juego termina una vez el agente haya o llegado a la meta o se haya pasado de la región deseada. En la figura 3.1 se muestra un caso particular del juego, en donde la meta (en azul) es la región comprendida entre 0.9 y 1; y la región de pérdida (en rojo) es la comprendida entre 1+ y ∞. Este juego es un problema de RL en donde el estado st es la posición de la bola en el instante t, la acción at es la distancia que el jugador mueve la bola, y la recompensa se puede definir como una función: (1) que toma un valor positivo para los estados que pertenecen a la meta, (2) que toma valores negativos para todos los estados que pertenecen a la región de pérdida, y (3) que toma el valor de cero para los demás casos. En la figura 3.2 se muestra una función de recompensa que puede ser aplicada al problema de la figura 3.1. Se implementó la familia de algoritmos de Prob-CAC y CACLA con el fin de resolver esta tarea de RL. Todos los algoritmos implementados utilizaron como crı́tico una red neuronal de 3 neuronas en una única capa escondida. Esta red se entrena con bloques de 50 datos. Estos parámetros de número de neuronas y tamaño de bloque se determinaron experimentalmente. A continuación se especifican los detalles de implementación..

(27) 3.4 Juego de la Bola. 0.5 0.0 −1.0 −0.5. Recompensa. 1.0. 19. 0.0. 0.5. 1.0. 1.5. Estado. Figura 3.2: Función de recompensa diseñada para el problema que se ilustra con la figura 3.1.. 3.4.1.. CACLA. En la implementación hecha, el actor y el crı́tico de CACLA son representados, cada uno, por una red neuronal. Las actualizaciones de los pesos de las redes neuronales se hacen teniendo como punto de partida los pesos anteriores y utilizando bloques de datos generados durante el entrenamiento. La red neuronal del actor tiene 10 neuronas en su capa escondida, y se entrena con bloques de 50 datos.. 3.4.2.. Prob-CAC Discreto. En este caso, teniendo en cuenta que el espacio de estados-acciones es de dimensión 2, este espacio se discretiza en cuadrados de lado 0.05 para la definición del actor.. 3.4.3.. Prob-CAC. Para los métodos de Prob-CAC se genera como polı́tica inicial una mezcla de n = 5 gausianas con covarianza α = 0,035. Para los métodos 2 y 3 el bloque de restricciones usado fue de tamaño 50. Estos parámetros se fijan mediante experimentación.. 3.4.4.. Resultados. En la figura 3.3 se muestran los resultados obtenidos para los diferentes algoritmos implementados. Estas curvas son el promedio de 20 simulaciones realizadas desde la polı́tica inicial (episodio 0) hasta la polı́tica final conseguida en el episodio número 5000. Las simulaciones se realizaron cada 50 episodios y en éstas se promedia la recompensa que se obtiene para 100 episodios..

(28) 3. Prob-CAC. 0.0. Método 1 Método 3 CACLA Discreto. −0.8 −0.6 −0.4 −0.2. Recompensa Promedio. 0.2. 0.4. 20. 0. 1000. 2000. 3000. 4000. 5000. Episodio. Figura 3.3: Recompensa promedio obtenida para las polı́ticas generadas durante el entrenamiento en el Juego de la Bola para los algoritmos implementados.. Dentro de los resultados obtenidos, se destaca que la versión discreta de Prob-CAC es el único de los algoritmos que resuelve el problema dentro de los 5000 episodios de entrenamiento, consiguiendo este resultado rápidamente, en comparación a los demás métodos. CACLA por su parte, en el inicio es más lento que los demás algoritmos, pues tarda 1000 episodios en conseguir recompensas que los demás logran en menos de 200, sin embargo, éste continúa mejorando su polı́tica después de este punto; otro aspecto a destacar es que CACLA, después de cierto número de episodios empeora la polı́tica que consigue. Se encuentra que la versión continua de Prob-CAC actualizada con el método 1 mejora la polı́tica inicial de forma rápida (en los primeros 200 episodios), pero ésta no mejora más durante los demás episodios. Por otro lado, la versión actualizada con el método 3 también realiza un inicio rápido, para después continuar mejorando pero de forma más lenta. Aunque pareciera que el algoritmo que actualiza con el método 3 es lento, éste consigue en pocos episodios la mejor polı́tica que puede obtener dada su expresividad. En la figura 3.4 se muestra la actualización de la polı́tica que hace el método 3 después de 36 episodios de entrenamiento. En esta figura, las curvas negras son las lı́neas de contorno de la distribución inicial, las curvas verdes son las de la distribución actualizada, y los puntos graficados son los pares estado acción visitados durante el entrenamiento. Estos puntos se.

(29) 3.4 Juego de la Bola. 21. Figura 3.4: Actualización de la polı́tica realizada por Prob-CAC con la actualización del método 3.. grafican rojos si el error T D < 0, azules si T D > 0, y el radio de éstos es proporcional a la magnitud del error T D. Se encuentra que después de esta actualización se han ubicado las medias del actor en la región óptima (que es por debajo de la diagonal) obedeciendo las indicaciones dada por los errores T D. En la tabla 3.1 se muestra el tiempo promedio requerido por cada algoritmo para realizar un entrenamiento de 500 episodios. Se encuentra que el tiempo requerido por los diferentes algoritmos es comparable a excepción de los que resuelven problemas de optimización en la actualización del actor. Se encuentra también que el tiempo que tarda el algoritmo con la actualización del método 2 es excesivamente alto, razón por la que no se tiene en cuenta para las pruebas de la figura 3.3..

(30) 3. Prob-CAC. 22. Algoritmo. Tiempo Requerido. Prob-CAC Método 1. 0.965 seg. Prob-CAC Método 2. 25704.86 seg. Prob-CAC Método 3. 119.18 seg. Prob-CAC Discreto. 0.366 seg. CACLA. 1.547 seg. Tabla 3.1: Tiempo promedio requerido por cada algoritmo para realizar un entrenamiento de 500 episodios.. 3.5.. Problema de Persecución. Este problema de RL se introduce en (IEE, 2007). En este problema se busca que un agente persiga un objetivo que se mueve siguiendo la trayectoria circular. El objetivo se mueve en contra del sentido de las manecillas del reloj y tarda 40 pasos en retornar a la posición inicial. Un episodio de este problema termina cuando el objetivo ha regresado a la posición inicial. En la figura 3.5 se ilustra el estado inicial del problema, que es el agente y el objetivo en las posiciones (5.0, 5.0) y (1.0, 5.0), respectivamente. El escenario es el área contenida en el cuadrado de 10 × 10. Éste incluye un obstáculo que el agente no puede atravesar. Cuando el agente trata de salirse del escenario o atravesar el obstáculo, las nuevas coordenadas de éste son las del punto en el que éste golpea la frontera, asumiendo un movimiento directo y continuo. (IEE, 2007) En la figura 3.5 el punto rojo representa al objetivo y el azul al agente persecutor. El cuadrado que está encerrando el área de 10 × 10 representa los lı́mites del escenario. El cı́rculo de radio 4, centrado en (4,5, 5,0), representa la trayectoria que sigue el objetivo. La región gris es el obstáculo que el agente no puede atravesar. Las posiciones del agente persecutor y del objetivo son vectores de dos dimensiones de valores reales. Un estado es un vector de cuatro dimensiones que contiene las posiciones del agente y del 4. objetivo, s ∈ [0, 10] . Las acciones son vectores de dos dimensiones, a ∈ R2 , que representan la posición objetivo del agente en el siguiente paso. No es necesario que las componentes de las acciones estén en el intervalo de [0, 10], ya que el agente nunca podrá salir del área de 10 × 10. La recompensa que debe ser maximizada es el negativo de la distancia entre el agente y el objetivo, más un ruido gaussiano con media 0 y desviación estándar de 0,1. (IEE, 2007) A continuación se muestran los resultados obtenidos y algunos detalles de implementación..

(31) 3.5 Problema de Persecución. 6. 8. 10. 23. ●. 0. 2. 4. ●. 0. 2. 4. 6. 8. 10. Figura 3.5: Estado inicial de cada episodio.. 3.5.1.. CACLA. En esta implementación, para representar al crı́tico se utiliza una red neuronal de una capa escondida, con 12 neuronas en la capa escondida y una salida. El entrenamiento de esta red neuronal se hace cada vez que se complete un bloque de 500 datos. Para el entrenamiento de esta red se hacen 50 iteraciones de backpropagation. Por otro lado, el actor es una red neuronal de doce neuronas en la capa escondida, que se actualiza con bloques de 3000 datos y 20 pasos de backpropagation. Durante el aprendizaje se utiliza un factor de exploración σ = 1. Con un actor de estas caracterı́sticas se consigue aprender a esquivar el obstáculo del problema de persecución, esto significa que CACLA, partiendo de una polı́tica que sabe ir a la posición en donde se encuentra el objetivo, logra aprender a esquivar el obstáculo y a moverse hacia donde el objetivo se va a mover. En la figura 3.6 se muestra la recompensa recibida por CACLA resolviendo la tarea de esquivar en el problema de persecución durante 15000 episodios de entrenamiento. Esta figura incluye el promedio de 20 repeticiones. El resultado obtenido muestra que CACLA resuelve la tarea rápidamente, cerca del episodio 2500; pero después de éste empeora la polı́tica encontrada, haciendo que se consiga una recompensa más pequeña con el paso del tiempo. En la figura 3.7 se muestra una polı́tica conseguida por CACLA después de 10000 episodios de entrenamiento para la solución de la tarea de evasión del obstáculo en el problema de.

(32) 3. Prob-CAC. −60 −80 −100. Recompensa Recibida. −40. 24. 0. 5000. 10000. 15000. Episodios. Figura 3.6: Recompensa recibida por CACLA resolviendo la tarea de evasión del obstáculo en el problema de Persecución.. persecución. En esta figura se muestran 9 escenarios, en cada uno de ellos se muestra el objetivo en una posición distinta dentro de la trayectoria. Las lı́neas que se muestran son flechas. Cada una de las flechas indica hacia donde se moverı́a el agente si partiera desde uno de los 121 puntos que se ponen en la gráfica para cada escenario. Con esta polı́tica, el agente consigue hacer dos cosas: moverse a una posición cercana a donde se va a mover el objetivo y esquivar el obstáculo. Aunque en (IEE, 2007) se presentan resultados de CACLA en este experimento, con la información suministrada por los autores es imposible comparar el resultado obtenido, ya que éstos escalan las recompensas sin indicar la función que se utiliza para este fin.. 3.5.2.. Prob-CAC. Con el fin de determinar si las reglas de actualización realizaban cambios coherentes en la FDP, se implementaron las versiones continuas de Prob-CAC con los métodos de actualización 1 y 2. La prueba que se realizó consistı́a en que, partiendo de una polı́tica aleatoria con pocas gausianas, determinar si las reglas de actualización permitı́an obtener polı́ticas que, a pesar de la poca expresividad del actor, consigan mejoras en términos de recompensa recibida. Los parámetros de la mezcla de gausiana que se usaron son: n = 4 y α = 1. A continuación, se muestran los resultados obtenidos:.

(33) 3.5 Problema de Persecución. 25. ●. ● ●. ●. ●. ●. ● ●. ●. Figura 3.7: Polı́tica conseguida por CACLA después de 10000 episodios de entrenamiento..

(34) 3. Prob-CAC. 26. Figura 3.8: Polı́tica obtenida por Prob-CAC con el método 1 de actualización. Método 1 En las figuras 3.8 y 3.9 se muestra la polı́tica conseguida después de 100 episodios de entrenamiento para los métodos de actualización 1 y 2. Esta polı́tica se obtiene partiendo de una aleatoria. Los resultados de las figuras 3.8 y 3.9 sugieren que las reglas de actualización funcionan de forma coherente, pues las polı́ticas conseguidas son las de moverse hacia dentro del cı́rculo, por debajo y por encima del obstáculo, lo que es buena idea en términos de recompensa recibida en el largo plazo..

(35) 3.5 Problema de Persecución. Figura 3.9: Polı́tica obtenida por Prob-CAC con el método 2 de actualización.. 27.

(36)

(37) Capı́tulo 4. Conclusiones Las reglas de actualización para los algoritmos Prob-CAC resultan ser coherentes con los requerimientos definidos para la actualización de la distribución de probabilidad que representa al actor. Pues éstos varı́an el valor que toma en la FDP para un punto en el espacio, teniendo en cuenta la magnitud y el error T D. Como se observa en la figura 3.4, estas reglas de actualización permiten obtener rápidamente (en pocos episodios) polı́ticas óptimas para el tipo de actor definido. La versión discreta de la familia de algoritmos propuesta presenta un funcionamiento satisfactorio en el problema mostrado. Ya que ésta es rápida y siempre consigue polı́ticas efectivas. Sin embargo, como se habı́a mencionado anteriormente, una aproximación de discretización en RL continuo no es propicia para múltiples dimensiones y/o para problemas en donde la discretización requiera una granularidad muy fina. La comparación realizada en la figura 3.3 entre los métodos propuestos y CACLA no es del todo justa puesto que la polı́tica de CACLA es determinı́stica en tanto que la familia de algoritmos propuesta genera una polı́tica estocástica. Es posible generar una polı́tica determinı́sitca con base en las polı́ticas estocásticas obtenidas con la que se esperarı́a obtener resultados comparables a los del algoritmo discreto. Se encuentra que las polı́ticas iniciales deben procurar cubrir todo el espacio de estadosacciones, prefiriendo los valores de covarianza grandes y no un gran número de gausianas. Este requerimiento es necesario para garantizar la exploración inicial, de modo que el algoritmo reciba señales T D de diferentes lugares del espacio y que el muestreo no se reduzca solamente a los lugares en donde se inicializan las gausianas..

(38) 4. Conclusiones. 30. La sugerencia de no preferir altos números números de gausianas se debe a que mientras más gausianas se utilizan, más tarda el algoritmo en realizar las iteraciones de actualización. Se encuentra que el hecho de que el algoritmo CACLA no tenga en cuenta la magnitud del error T D hace que éste actualice mal su polı́tica, y después de tener polı́ticas buenas, las deteriore con las actualizaciones que realiza. Vale la pena mencionar, que en el aprendizaje en los algoritmos de actor-crı́tico, la polı́tica inicial juega un papel trascendental. Pues para el crı́tico es difı́cil aprender el valor de polı́ticas equı́vocas, y esto hace que se generen señales de crı́tica T D erróneas. Teniendo en cuenta que la señal T D conduce el entrenamiento del actor, si el crı́tico no genera buenas señales, la polı́tica se actualiza de forma incorrecta, lo que se convierte en un cı́rculo vicioso. Los resultados obtenidos se consideran un buen primer paso en el área de investigación del problema de aprendizaje por refuerzo en espacios continuos. Ya que se encuentra que las reglas de actualización realizan de forma satisfactoria el trabajo asignado. Como trabajo futuro se propone más experimentación en diferentes problemas y el análisis de pruebas de convergencia. También, se requiere realizar investigación en métodos de optimización que permitan obtener soluciones computacionalmente más eficientes, cumpliendo con las caracterı́sticas de las soluciones deseadas: que permitan realizar actualizaciones sobre valores especı́ficos de la FDP conservando medidas de similaridad. Sin embargo, se reconoce que estas tareas propuestas para el trabajo futuro requieren una dedicación significativa en tiempo, pues éstas requieren la selección de modelo de cada uno de los algoritmos para cada problema en particular, lo que toma mucho tiempo de dedicación y computación..

(39) Bibliografı́a Thomas M. Cover and Joy A. Thomas. Elements of information theory. Wiley-Interscience, New York, NY, USA, 1991. ISBN 0-471-06259-6. 13 Reinforcement Learning in Continuous Action Spaces, 2007. IEEE, Symposium on Approximate Dynamic Programming and Reinforcement Learning. 8, 18, 22, 24 Leslie Pack Kaelbling, Michael L. Littman, and Andrew W. Moore. Reinforcement learning: a survey. Journal of Artificial Intelligence Research, 4:237–285, 1996. 4, 5, 7, 8 Kittipat Kampa, Erion Hasanbelliu, and Jose C. Principe. Closed-form cauchy-schwarz pdf divergence for mixture of gaussians. In Conference on Neural Networks (IJCNN), The 2011 International Joint, pages 2578 – 2585, July 2011. 16 Vijay R. Konda and John N. Tsitsiklis. On actor-critic algorithms. SIAM J. Control Optim., 42(4):1143–1166, April 2003. ISSN 0363-0129. doi: 10.1137/S0363012901385691. URL http: //dx.doi.org/10.1137/S0363012901385691. 5 Alessandro Lazaric, Marcello Restelli, and Andrea Bonarini.. Reinforcement learning in. continuous action spaces through sequential monte carlo methods. In Advances in Neural Information Processing Systems, 2007. 8, 11 Francisco S. Melo and Manuel Lopes. Fitted natural actor-critic: A new algorithm for continuous state-action mdps ?, 2008. 7, 8 Jose del R. Millan, Daniele Posenato, and Eric Dedieu. Continuous-action q-learning. Machine Learning, 49:247–265, 2002.. ISSN 0885-6125.. URL http://dx.doi.org/10.1023/A:. 1017988514716. 10.1023/A:1017988514716. 7, 8 Hesam Montazeri, Sajjad Moradi, and Reza Safabakhsh. Continuous state/action reinforcement learning: A growing self-organizing map approach. Neurocomput., 74(7):1069–1082, March.

(40) BIBLIOGRAFÍA. 32. 2011. ISSN 0925-2312. doi: 10.1016/j.neucom.2010.11.012. URL http://dx.doi.org/10. 1016/j.neucom.2010.11.012. 7, 8 Jose C. Principe. Information Theoretic Learning: Renyi’s Entropy and Kernel Perspectives. Springer, 2010. 16 Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction. The MIT Press, 1998. vii, vii, 3, 4, 5, 6 Hado van Hasselt.. Reinforcement Learning: State of the Art. Reinforcement Learning in. Continuous State and Action Spaces, chapter 7. Reinforcement Learning in Continuous State and Action Spaces, pages 207–242. Springer, 2011. URL http://homepages.cwi. nl/~hasselt/papers/RL_in_Continuous_Spaces.pdf. 7, 8, 9, 13 Christian Vollmer, Erik Schaffernicht, and Horst-Michael Gross.. Exploring continuous. action spaces with diffusion trees for reinforcement learning. In Proceedings of the 20th international conference on Artificial neural networks: Part II, ICANN’10, pages 190–199, Berlin, Heidelberg, 2010. Springer-Verlag. ISBN 3-642-15821-8, 978-3-642-15821-6. URL http://dl.acm.org/citation.cfm?id=1889001.1889029. 7, 8 Xin Xu, Chunming Liu, and Dewen Hu. Continuous-action reinforcement learning with fast policy search and adaptive basis function selection. Soft Comput., 15(6):1055–1070, June 2011. ISSN 1432-7643. doi: 10.1007/s00500-010-0581-3. URL http://dx.doi.org/10. 1007/s00500-010-0581-3. 7, 8.

(41)

(42)

(43)

(44)

(45)