Aprendizaje por Refuerzo y Juegos de Lenguaje

Parte I MARCO TE ´ ORICO

3. Fundamentos Computacionales

3.1. Aprendizaje por Refuerzo y Juegos de Lenguaje

El aprendizaje por refuerzo es una técnica muy utilizada desde hace varias décadas en el área de la robótica por lo que el interés se desplazará aqu´ı hacia una discusión sobre su aportación en el ámbito del lenguaje. Para una revisión y repaso más generalista se puede acudir al apéndice B.

En su aplicación al lenguaje el aprendizaje por refuerzo está normalmente asocia- do a los juegos de lenguaje que ya se introdujeron en el cap´ıtulo de Fundamentos del Lenguaje. Como ya se comentó en dicho cap´ıtulo los juegos de lenguaje son la base de algunas explicaciones de la evolución del lenguaje humano desde una perspectiva cultural, debido a que permiten implementar de forma relativamente sencilla modelos con los que simular la emergencia de un lenguaje en poblaciones de agentes artificiales. Para Steels (2012) la idea de la modelización a través de juegos de lenguaje en los que están implicados agentes o robots fisicos (embodiment ) es de hecho un paradigma para investigar y probar teor´ıas acerca de dicha evolución del lenguaje cultural, siendo por tanto una alternativa a los estudios lingü´ısticos y psicológicos del lenguaje. Esta perspectiva se comparte esencialmente en los modelos de lenguaje que se propondrán posteriormente.

Tal y como sugiere Steels la ventaja de los juegos de lenguaje es que proponen una actividad cooperativa en la que intervienen tres elementos: una población de agentes artificiales o robots, un contexto y un propósito o una intención comunicativa. Vistos de esta forma los juegos de lenguaje en su implementación computacional mantienen la idea original de Wittgenstein(1958) sobre la práctica del uso del lenguaje ya que implican entre otras cosas un proceso de atención conjunta que involucra objetos

3.1 Aprendizaje por Refuerzo y Juegos de Lenguaje y actividades sobre las que interesa comunicarse. Se han propuesto diferentes tipos de juegos de lenguaje, como los juegos de referencia o los juegos de acci´on (ver

Steels (2012) para detalles) y tambi´en se expondr´a en su momento en esta tesis

una versión de los mismos en función de los intereses particulares de los modelos de lenguaje propuestos. En los juegos de referencia, entre los que se encuentran los que Steels denomina juegos de nombre (naming games), el hablante intenta llamar la atención del oyente sobre un objeto del mundo nombrando caracter´ısticas del objeto. Si el objeto es reconocible entonces se podrá usar su nombre propio. Por su parte, en los juegos de acción el objetivo para el hablante es que el oyente realice alguna acción determinada, como recoger un objeto, levantar un brazo o dirigirse hacia alguna localización. Estos juegos son interesantes porque permiten estudiar la emergencia de verbos o nombres para acciones. En cualquier caso, sean del tipo que sean, lo esencial en los juegos es que se produzcan interacciones entre los partici- pantes que permitan la emergencia del lenguaje que mejor se adapte a la intención y al contexto en curso. Esta emergencia surgirá entonces de forma auto-organizada gracias al alineamiento de los sistemas de comunicación de los miembros del grupo como consecuencia de las citadas interacciones. En su implementación práctica en sistemas computacionales los juegos de lenguaje se realizan habitualmente entre todos los miembros de la población de agentes, pero suelen desarrollarse en rondas que involucran a dos agentes: uno en el papel de hablante y otro en el de oyente. Sin embargo, en los modelos de lenguaje que se proponen en esta tesis el esquema de los juegos es ligeramente diferente y se desarrolla según el siguiente patrón genérico:

1. La escena referencial es observada conjuntamente por todos los robots del equipo. 2. Para cada situación lingü´ıstica que puede observarse en la escena cada robot genera una sentencia que la describe. Para la construcción de las sentencias se utiliza una gramática.

3. Las sentencias generadas por todos los robots se comparan entre s´ı y se anotan las coincidencias.

4. Se mide la eficiencia comunicativa del equipo como el número de diálogos satis- factorios frente al número total de diálogos (en los modelos basados en aprendizaje por refuerzo) o como el número de coincidencias (en el modelo basado en evolución).

La principal diferencia entre este esquema y el habitual es que aqu´ı no se diferencia entre hablante y oyente, por lo que el proceso de comprensión del lenguaje juega un papel menos importante que el de su producción. No obstante en el modelo de lenguaje basado en evolución s´ı se analiza la comprensión de sentencias, aunque no se tiene en cuenta de cara al éxito en el consenso. Respecto a la comparación de sentencias puede hacerse por pares de robots o entre un robot y el resto del equipo. En cualquier caso todos los robots del equipo deben participar en los juegos de lenguaje.

El esquema que proponen los juegos de lenguaje por tanto establece una base para la emergencia del lenguaje pero lo realmente útil es ampliar dicho esquema con algún mecanismo que permita a los agentes o robots aprender durante el propio proceso de emergencia del lenguaje y es en este punto precisamente en el que el aprendizaje por refuerzo puede ser una técnica sumamente útil. Como se ha expli- cado en una ronda de un juego de lenguaje participan dos robots o todos los robots intercambiando experiencias comunicativas que pueden ser exitosas o fallidas. En el primer caso normalmente se recompensa a uno de los agentes, a los dos o a todo el equipo en función de la configuración de la ronda, mientras que en el segundo a veces no se hace nada y en otras ocasiones se penaliza también a uno, a ambos o a todos. Precisamente en el tipo de tratamiento que se da a las recompensas y los castigos en los juegos de lenguaje es donde se encuentran las principales diferencias entre las propuestas de los distintos autores. El éxito en una experiencia comunicativa depende del tipo de lenguaje que se esté tratando de desarrollar. En el caso de los juegos de nombre se produce éxito si el oyente usa el nombre correcto del objeto en función de las caracter´ısticas que el hablante le proporciona. En un juego de acción se medir´ıa el éxito en función de que el oyente realice la acción que quiere el hablante. En términos cuantitativos la mayor´ıa de las propuestas que utilizan juegos de lenguaje se han dirigido hacia el estudio de la emergencia de un vocabulario o léxico, midiendo el éxito según se logre alcanzar un vocabulario consensuado por todo el equipo. Sin pretender ser exhaustivo ya se comentaron en la introducción algunas propuestas de Steels en este sentido, pero también algunos disc´ıpulos suyos

como Vogt (2000) o Looveren (2005) han trabajado sobre la base de los juegos de

lenguaje. El primero propone la búsqueda de un consenso léxico arraigado (groun- ded ) en robots móviles mientras que el segundo diseña y analiza el rendimiento de una serie de juegos de lenguaje pre-gramaticales. El trabajo de Looveren es incre- mental y va analizando casos cada vez más complejos, desde los juegos de nombre de una sola palabra hasta los juegos sintácticos sencillos, pasando por los juegos de nombre con varias palabras. Por su parte, Maravall et al. (2012) analiza el uso del aprendizaje por refuerzo en una tarea de consenso léxico con equipos de robots. El estudio de la sintaxis mediante juegos de lenguaje está bastante menos extendido, encontrándose enSpranger y Steels (2012) una aproximación semánticamente orien- tada sobre los or´ıgenes de la estructura sintáctica. Las aproximaciones semánticas sobre la emergencia de una gramática se basan en la hipótesis de que la principal fuente de la estructura jerárquica del lenguaje se debe al hecho de que la semántica es composicional.

Volviendo a la cuestión del aprendizaje por refuerzo en los juegos de lenguaje la idea consiste básicamente en asignar un sistema de recompensas o penalizaciones que permita un aprendizaje efectivo durante el proceso de emergencia del lenguaje. La influencia del aprendizaje por refuerzo en la evolución del lenguaje se ha analizado principalmente en el ámbito de los juegos de señalización, ideados porLewis(1969).

3.1 Aprendizaje por Refuerzo y Juegos de Lenguaje Los juegos de señalización son una forma de juego comunicativo más restringido que los juegos de lenguaje pero tienen la ventaja de que permiten estudiar fácilmente el impacto de distintas estrategias de aprendizaje por refuerzo. En la implementación original de los juegos de señalización, en primer lugar una entidad denominada natu- raleza determina el tipo de la información y posteriormente el emisor elige una señal en función del tipo que env´ıa al receptor. Por su parte el receptor selecciona una respuesta cuando recibe la señal. Si la respuesta corresponde con la señal, la recompensa que reciben emisor y receptor es 1. Si no coinciden la recompensa es 0. Lewis denominó equilibrio óptimo o sistema de señalización a un estado de consenso com- partido en el que las correspondencias tipo-señal o señal-respuesta son únicas. Sin embargo, existen otros estados de equilibrio que son sub-óptimos porque implican que el emisor utiliza la misma señal para diferentes tipos. En el equilibrio óptimo la tasa de éxito de señalización, medida como la probabilidad de que los agentes tengan una interacción satisfactoria, es 1. En un equilibrio sub-óptimo dicha tasa será menor que 1. La existencia de muchos estados de equilibrio sub-óptimo no es aconsejable porque dificultan la búsqueda de un estado óptimo, haciendo que algunos algoritmos de aprendizaje queden atascados en estos sub-estados. En Catteeuw y Manderick (2013) se lleva a cabo un interesante estudio acerca del tipo de equilibrio que se puede alcanzar en función de la estrategia de aprendizaje que se utilice. De esta forma, los l´ımites del aprendizaje por refuerzo en juegos de señalización son analizados sobre la base de tres modelos distintos: Roth-Erev learning, Q-learning y Learning Au- tomata. Los dos primeros son métodos del tipo valor-acción (ver apéndiceB) y para cada pareja estado-acción “(e,a)” tienen un valor “qe,a” que indica lo apropiado

que resulta realizar la acción “a” en el estado “e”. Estos métodos tienen una regla de actualización y una regla de selección de acciones. La primera determina como se actualizan los valores de acción en función de la experiencia y la segunda determina qué acción seleccionar a partir del estado actual mediante el cálculo de la probabilidad “pe,a” de realizar la acción “a” en el estado “e” para todo el conjunto de

acciones “a”. La idea es que las acciones satisfactorias incrementen su probabilidad de elección y se seleccionen más habitualmente. La diferencia entre los dos primeros métodos de aprendizaje se encuentra básicamente en la forma en que actualizan el valor “qe,a” cada vez que toman una decisión. Por su parte el tercer algoritmo,

Learning Automata, actualiza directamente una distribución de probabilidades sobre las acciones, de manera que elige las acciones en función de esta distribución. Este método de aprendizaje fue propuesto por Narendra y Thathachar (1974) y tiene como esquema más conocido el denominado algoritmo de Recompensa-Inacción LRI

(ver apéndiceB para detalles y ecuaciones concretas). Como se verá posteriormente este algoritmo es el utilizado en los modelos de lenguaje basados en aprendizaje por refuerzo. Lo que interesa resaltar aqu´ı del trabajo deCatteeuw y Manderick (2013) es que sus resultados experimentales confirman que los tres modelos de aprendizaje por refuerzo alcanzan la convención señalizadora en tiempos razonablemente rápi-

dos, al tiempo que evitan muchos equilibrios sub-óptimos incluso para juegos de señalización con más de dos tipos de información y distribución de tipos no uni- forme. Estudios similarmente detallados del aprendizaje por refuerzo en juegos de señalización pueden encontrarse en Argiento et al. (2009), quienes prueban que un juego de señalización con 2 estados, 2 términos y 2 actos converge a un sistema de señalización, es decir, un equilibrio óptimo. Por su parte, Barret y Zollman (2009) presentan un modelo de lenguaje en el que el olvido de algunas experiencias pasadas puede resultar beneficioso.

El análisis de la convergencia de un algoritmo de refuerzo es importante porque permite afrontar el proceso de aprendizaje con ciertas garant´ıas de éxito, es decir, ofrece fundamentos para pensar que los robots lograrán alcanzar un consenso o convención sobre el lenguaje. De ah´ı que los estudios anteriores faciliten la elección de estrategias para el aprendizaje del lenguaje. En el ámbito de los juegos de lenguaje no hay estudios tan exhaustivos sobre las condiciones de convergencia como los resaltados para los juegos de señalización pero tanto Steels (2001) como Maravall

et al.(2012) proporcionan mecanismos de aprendizaje que ofrecen buenos resultados

experimentales en cuanto al consenso de vocabularios. En el caso de Steels (2001), cuando el oyente está de acuerdo con el hablante se produce un incremento en el peso de la asociación significado-s´ımbolo que se ha utilizado, tanto en el oyente como en el hablante. Al mismo tiempo, ambos decrementan el peso de las otras asociaciones significado-s´ımbolo que compet´ıan con la utilizada. Si oyente y hablante no están de acuerdo ambos decrementan el peso de las asociaciones elegidas. En el caso de

Maravall et al. (2012) las asociaciones se representan mediante matrices y en caso

de éxito los coeficientes correspondientes de las matrices de asociación de hablante y oyente se incrementan al tiempo que los coeficientes competidores se decrementan en la misma magnitud. De forma similar, los coeficientes implicados en un fracaso se decrementan en los dos interlocutores. Esta actualización adicional que se hace en ambas propuestas se denomina inhibición lateral y ha resultado ser un elemento clave para el proceso convergencia.

En resumen, el proceso de aprendizaje por refuerzo que se considera en esta tesis se aplicará sobre el concepto de juegos de lenguaje con la novedad de que aqu´ı se busca un consenso sintáctico y que el aprendizaje se aplicará por tanto a las reglas de producción de una gramática, que será el mecanismo de representación para la generación del lenguaje. La elección del algoritmo de Recompensa-Inacción que incluye un mecanismo de inhibición lateral permitirá afrontar el proceso de emergencia del lenguaje sintáctico con garant´ıas de convergencia.

In document Auto-Emergencia de Comunicación Sintáctica en Entornos Estáticos y Dinámicos para Grupos de Robots mediante Evolución Gramatical y Aprendizaje por Refuerzo (página 62-66)