Convergencia del algoritmo Bellman-ascenso dual libre de modelo

8. Dualidad

10.2. Validación del algoritmo Bellman-ascenso dual libre de modelo

10.2.3. Convergencia del algoritmo Bellman-ascenso dual libre de modelo

Por último, pasamos a probar el algoritmo BDA-MF completo, según la implementa- ción mostrada en el algoritmo 10.6. Ahora, la velocidad de convergencia dependerá de los siguientes parámetros:Nepi,αD,αT D y. Con el objetivo de estudiar la influencia de cada

parámetro en la convergencia global del algoritmo, se llevaron a cabo diferentes pruebas variando cada uno de ellos, y promediando los resultados de 50 experimentos indepen- dientes. De nuevo, dado que conocemos la política óptima a la que deberemos converger retomaremos el criterio de convergencia que se empleó en la primera prueba, basado en el error cuadrático medio de la política obtenida respecto de la óptima esperada. Los resultados que se obtuvieron fueron los mostrados en la figura 10.4.

Como comentario general en vista de los resultados, de nuevo podemos garantizar la convergencia a la política óptima.

Entrando en los detalles particulares de cada gráfica, vemos en la figura 10.4 (a), que parece haber un punto de inflexión de mayor velocidad de convergencia cuando se simulanNepi= 50 episodios en cada etapa del algoritmo. El hecho de que con 60 episodios

el comportamiento sea peor, puede ser debido a que, como la etapa de predicción y de control están altamente acopladas, a partir de 50 episodios la aproximación del gradiente comienza a ser demasiado ruidosa. En consecuencia, este error se propaga a la estimación de dy la política derivada de la variable dual empieza a empeorar.

En base a los resultados mostrados en la figura 10.4 (b), se deduce que el algoritmo funciona adecuadamente para valores de altos, comprendidos entre 0.3 y 0.7. Es decir,

(a) Variación del número de episodios. (b) Variación del parámetro de exploración.

Figura 10.4: Error en la política al variar los parámetros característicos del algoritmo BDA-MF

este algoritmo funciona bien con mucha exploración, nunca llegando al extremo en que todo es exploración ( = 1), caso en el cual, como se puede apreciar, empeora la convergencia. Como cabía esperar, se observa también que cuando únicamente se explota la información disponible (= 0), no es capaz de encontrar la política óptima, pues no hay manera de aprender el modelo del entorno. De alguna manera, este último caso equivale a re-aprender lo que ya se conoce, sin posibilidad de aumentar el conocimiento sobre el entorno del problema.

En la figura 10.4 (c) se aprecia un comportamiento similar al que ocurría en la figura (a): parece haber un punto de inflexión cuando α_{T D} = 0,4. Una vez más, se piensa que esto sea debido al fuerte acoplo entre las etapas de predicción y control, ya que si aumentamosαT D, aumentará también el ruido en las estimación dev. Puesto que la etapa

de que para valores deαT D grandes (en este caso mayores que 0.4), el ruido que presenta

v sea tal que empeore la aproximación del gradiente, y en consecuencia la estimación de dy la política derivada de ella.

Finalmente, de la figura 10.4 (d) se concluye que cuanto menor esαD, más rápida es la

convergencia. En principio, esta idea puede parecer contraintuitiva, pues en los métodos de gradiente, cuanto menor es el paso de aprendizaje, más lenta es la convergencia. Se cree que este efecto pueda estar causado por el acoplo entre las etapas de predicción y control por el siguiente motivo: en la situación inicial, la estima que se tiene de v dista mucho de ser buena. Con una mala estimación de v, si se ejecuta la fase de control con un paso αD alto, se determinará una política mala muy rápido. De este modo, el algo-

ritmo deberá reajustarse desde una configuración peor hasta lograr alcanzar la óptima. Sin embargo, si αD se escoge pequeño, aun partiendo de una mala estimación de v, la

política convergerá de manera progresiva hacia la política óptima.

De este modo, se da por comprobada la validez del algoritmo Bellman-ascenso dual libre del modelo desarrollado para resolver problemas de aprendizaje por refuerzo. Además de validar el algoritmo, se ha podido conocer también el proceso típico de calibración, y de qué manera influye cada variable en el comportamiento global. Todas estas nociones serán tenidas en cuenta en lo que resta del capítulo, de cara a evaluar el algoritmo con otros problemas típicos de aprendizaje por refuerzo.

10.3. Evaluación del algoritmo

Para concluir el capítulo, se va a evaluar el algoritmo primal-dual novel desarrollado a través de la ejecución en dos problemas tipo, cada uno de ellos con dos versiones: una en la que la matriz de transición es determinista y otra en la que se le añade cierto carácter aleatorio. Para cada problema que se estudie, enfrentaremos los resultados obtenidos con aquellos alcanzados mediante dos soluciones ampliamente extendidas en la actualidad: SARSA y Q-learning. De este modo, se pretende comparar el algoritmo BDA-MF con el estado del arte.

Con el objetivo de situar al lector en el contexto de cada problema, antes de mostrar los resultados de cada ejecución se presentará el problema a resolver al igual que se hizo en el caso del MDPrandom walk empleado durante la fase de validación del algoritmo.

In document Estudio y desarrollo de algoritmos de aprendizaje por refuerzo a partir de la teoría de optimización dual (página 127-129)