Parte I MARCO TE ´ ORICO
3. Fundamentos Computacionales
3.1. Aprendizaje por Refuerzo y Juegos de Lenguaje
El aprendizaje por refuerzo es una t´ecnica muy utilizada desde hace varias d´ecadas en el ´area de la rob´otica por lo que el inter´es se desplazar´a aqu´ı hacia una discusi´on sobre su aportaci´on en el ´ambito del lenguaje. Para una revisi´on y repaso m´as generalista se puede acudir al ap´endice B.
En su aplicaci´on al lenguaje el aprendizaje por refuerzo est´a normalmente asocia- do a los juegos de lenguaje que ya se introdujeron en el cap´ıtulo de Fundamentos del Lenguaje. Como ya se coment´o en dicho cap´ıtulo los juegos de lenguaje son la base de algunas explicaciones de la evoluci´on del lenguaje humano desde una perspectiva cultural, debido a que permiten implementar de forma relativamente sencilla mo- delos con los que simular la emergencia de un lenguaje en poblaciones de agentes artificiales. Para Steels (2012) la idea de la modelizaci´on a trav´es de juegos de len- guaje en los que est´an implicados agentes o robots fisicos (embodiment ) es de hecho un paradigma para investigar y probar teor´ıas acerca de dicha evoluci´on del lenguaje cultural, siendo por tanto una alternativa a los estudios ling¨u´ısticos y psicol´ogicos del lenguaje. Esta perspectiva se comparte esencialmente en los modelos de lenguaje que se propondr´an posteriormente.
Tal y como sugiere Steels la ventaja de los juegos de lenguaje es que proponen una actividad cooperativa en la que intervienen tres elementos: una poblaci´on de agentes artificiales o robots, un contexto y un prop´osito o una intenci´on comunicativa. Vistos de esta forma los juegos de lenguaje en su implementaci´on computacional mantienen la idea original de Wittgenstein(1958) sobre la pr´actica del uso del lenguaje ya que implican entre otras cosas un proceso de atenci´on conjunta que involucra objetos
3.1 Aprendizaje por Refuerzo y Juegos de Lenguaje y actividades sobre las que interesa comunicarse. Se han propuesto diferentes tipos de juegos de lenguaje, como los juegos de referencia o los juegos de acci´on (ver
Steels (2012) para detalles) y tambi´en se expondr´a en su momento en esta tesis
una versi´on de los mismos en funci´on de los intereses particulares de los modelos de lenguaje propuestos. En los juegos de referencia, entre los que se encuentran los que Steels denomina juegos de nombre (naming games), el hablante intenta llamar la atenci´on del oyente sobre un objeto del mundo nombrando caracter´ısticas del objeto. Si el objeto es reconocible entonces se podr´a usar su nombre propio. Por su parte, en los juegos de acci´on el objetivo para el hablante es que el oyente realice alguna acci´on determinada, como recoger un objeto, levantar un brazo o dirigirse hacia alguna localizaci´on. Estos juegos son interesantes porque permiten estudiar la emergencia de verbos o nombres para acciones. En cualquier caso, sean del tipo que sean, lo esencial en los juegos es que se produzcan interacciones entre los partici- pantes que permitan la emergencia del lenguaje que mejor se adapte a la intenci´on y al contexto en curso. Esta emergencia surgir´a entonces de forma auto-organizada gracias al alineamiento de los sistemas de comunicaci´on de los miembros del grupo como consecuencia de las citadas interacciones. En su implementaci´on pr´actica en sistemas computacionales los juegos de lenguaje se realizan habitualmente entre to- dos los miembros de la poblaci´on de agentes, pero suelen desarrollarse en rondas que involucran a dos agentes: uno en el papel de hablante y otro en el de oyente. Sin embargo, en los modelos de lenguaje que se proponen en esta tesis el esquema de los juegos es ligeramente diferente y se desarrolla seg´un el siguiente patr´on gen´erico:
1. La escena referencial es observada conjuntamente por todos los robots del equipo. 2. Para cada situaci´on ling¨u´ıstica que puede observarse en la escena cada robot genera una sentencia que la describe. Para la construcci´on de las sentencias se utiliza una gram´atica.
3. Las sentencias generadas por todos los robots se comparan entre s´ı y se anotan las coincidencias.
4. Se mide la eficiencia comunicativa del equipo como el n´umero de di´alogos satis- factorios frente al n´umero total de di´alogos (en los modelos basados en apren- dizaje por refuerzo) o como el n´umero de coincidencias (en el modelo basado en evoluci´on).
La principal diferencia entre este esquema y el habitual es que aqu´ı no se diferencia entre hablante y oyente, por lo que el proceso de comprensi´on del lenguaje juega un papel menos importante que el de su producci´on. No obstante en el modelo de lenguaje basado en evoluci´on s´ı se analiza la comprensi´on de sentencias, aunque no se tiene en cuenta de cara al ´exito en el consenso. Respecto a la comparaci´on de sentencias puede hacerse por pares de robots o entre un robot y el resto del equipo. En cualquier caso todos los robots del equipo deben participar en los juegos de lenguaje.
El esquema que proponen los juegos de lenguaje por tanto establece una base para la emergencia del lenguaje pero lo realmente ´util es ampliar dicho esquema con alg´un mecanismo que permita a los agentes o robots aprender durante el propio proceso de emergencia del lenguaje y es en este punto precisamente en el que el aprendizaje por refuerzo puede ser una t´ecnica sumamente ´util. Como se ha expli- cado en una ronda de un juego de lenguaje participan dos robots o todos los robots intercambiando experiencias comunicativas que pueden ser exitosas o fallidas. En el primer caso normalmente se recompensa a uno de los agentes, a los dos o a todo el equipo en funci´on de la configuraci´on de la ronda, mientras que en el segundo a veces no se hace nada y en otras ocasiones se penaliza tambi´en a uno, a ambos o a todos. Precisamente en el tipo de tratamiento que se da a las recompensas y los castigos en los juegos de lenguaje es donde se encuentran las principales diferencias entre las propuestas de los distintos autores. El ´exito en una experiencia comunica- tiva depende del tipo de lenguaje que se est´e tratando de desarrollar. En el caso de los juegos de nombre se produce ´exito si el oyente usa el nombre correcto del objeto en funci´on de las caracter´ısticas que el hablante le proporciona. En un juego de acci´on se medir´ıa el ´exito en funci´on de que el oyente realice la acci´on que quiere el hablante. En t´erminos cuantitativos la mayor´ıa de las propuestas que utilizan juegos de lenguaje se han dirigido hacia el estudio de la emergencia de un vocabulario o l´exico, midiendo el ´exito seg´un se logre alcanzar un vocabulario consensuado por todo el equipo. Sin pretender ser exhaustivo ya se comentaron en la introducci´on algunas propuestas de Steels en este sentido, pero tambi´en algunos disc´ıpulos suyos
como Vogt (2000) o Looveren (2005) han trabajado sobre la base de los juegos de
lenguaje. El primero propone la b´usqueda de un consenso l´exico arraigado (groun- ded ) en robots m´oviles mientras que el segundo dise˜na y analiza el rendimiento de una serie de juegos de lenguaje pre-gramaticales. El trabajo de Looveren es incre- mental y va analizando casos cada vez m´as complejos, desde los juegos de nombre de una sola palabra hasta los juegos sint´acticos sencillos, pasando por los juegos de nombre con varias palabras. Por su parte, Maravall et al. (2012) analiza el uso del aprendizaje por refuerzo en una tarea de consenso l´exico con equipos de robots. El estudio de la sintaxis mediante juegos de lenguaje est´a bastante menos extendido, encontr´andose enSpranger y Steels (2012) una aproximaci´on sem´anticamente orien- tada sobre los or´ıgenes de la estructura sint´actica. Las aproximaciones sem´anticas sobre la emergencia de una gram´atica se basan en la hip´otesis de que la principal fuente de la estructura jer´arquica del lenguaje se debe al hecho de que la sem´antica es composicional.
Volviendo a la cuesti´on del aprendizaje por refuerzo en los juegos de lenguaje la idea consiste b´asicamente en asignar un sistema de recompensas o penalizaciones que permita un aprendizaje efectivo durante el proceso de emergencia del lenguaje. La influencia del aprendizaje por refuerzo en la evoluci´on del lenguaje se ha analizado principalmente en el ´ambito de los juegos de se˜nalizaci´on, ideados porLewis(1969).
3.1 Aprendizaje por Refuerzo y Juegos de Lenguaje Los juegos de se˜nalizaci´on son una forma de juego comunicativo m´as restringido que los juegos de lenguaje pero tienen la ventaja de que permiten estudiar f´acilmente el impacto de distintas estrategias de aprendizaje por refuerzo. En la implementaci´on original de los juegos de se˜nalizaci´on, en primer lugar una entidad denominada natu- raleza determina el tipo de la informaci´on y posteriormente el emisor elige una se˜nal en funci´on del tipo que env´ıa al receptor. Por su parte el receptor selecciona una respuesta cuando recibe la se˜nal. Si la respuesta corresponde con la se˜nal, la recom- pensa que reciben emisor y receptor es 1. Si no coinciden la recompensa es 0. Lewis denomin´o equilibrio ´optimo o sistema de se˜nalizaci´on a un estado de consenso com- partido en el que las correspondencias tipo-se˜nal o se˜nal-respuesta son ´unicas. Sin embargo, existen otros estados de equilibrio que son sub-´optimos porque implican que el emisor utiliza la misma se˜nal para diferentes tipos. En el equilibrio ´optimo la tasa de ´exito de se˜nalizaci´on, medida como la probabilidad de que los agentes tengan una interacci´on satisfactoria, es 1. En un equilibrio sub-´optimo dicha tasa ser´a menor que 1. La existencia de muchos estados de equilibrio sub-´optimo no es aconsejable porque dificultan la b´usqueda de un estado ´optimo, haciendo que algunos algoritmos de aprendizaje queden atascados en estos sub-estados. En Catteeuw y Manderick (2013) se lleva a cabo un interesante estudio acerca del tipo de equilibrio que se puede alcanzar en funci´on de la estrategia de aprendizaje que se utilice. De esta forma, los l´ımites del aprendizaje por refuerzo en juegos de se˜nalizaci´on son analizados sobre la base de tres modelos distintos: Roth-Erev learning, Q-learning y Learning Au- tomata. Los dos primeros son m´etodos del tipo valor-acci´on (ver ap´endiceB) y para cada pareja estado-acci´on “(e,a)” tienen un valor “qe,a” que indica lo apropiado
que resulta realizar la acci´on “a” en el estado “e”. Estos m´etodos tienen una regla de actualizaci´on y una regla de selecci´on de acciones. La primera determina como se actualizan los valores de acci´on en funci´on de la experiencia y la segunda determina qu´e acci´on seleccionar a partir del estado actual mediante el c´alculo de la proba- bilidad “pe,a” de realizar la acci´on “a” en el estado “e” para todo el conjunto de
acciones “a”. La idea es que las acciones satisfactorias incrementen su probabilidad de elecci´on y se seleccionen m´as habitualmente. La diferencia entre los dos primeros m´etodos de aprendizaje se encuentra b´asicamente en la forma en que actualizan el valor “qe,a” cada vez que toman una decisi´on. Por su parte el tercer algoritmo,
Learning Automata, actualiza directamente una distribuci´on de probabilidades sobre las acciones, de manera que elige las acciones en funci´on de esta distribuci´on. Este m´etodo de aprendizaje fue propuesto por Narendra y Thathachar (1974) y tiene como esquema m´as conocido el denominado algoritmo de Recompensa-Inacci´on LRI
(ver ap´endiceB para detalles y ecuaciones concretas). Como se ver´a posteriormente este algoritmo es el utilizado en los modelos de lenguaje basados en aprendizaje por refuerzo. Lo que interesa resaltar aqu´ı del trabajo deCatteeuw y Manderick (2013) es que sus resultados experimentales confirman que los tres modelos de aprendizaje por refuerzo alcanzan la convenci´on se˜nalizadora en tiempos razonablemente r´api-
dos, al tiempo que evitan muchos equilibrios sub-´optimos incluso para juegos de se˜nalizaci´on con m´as de dos tipos de informaci´on y distribuci´on de tipos no uni- forme. Estudios similarmente detallados del aprendizaje por refuerzo en juegos de se˜nalizaci´on pueden encontrarse en Argiento et al. (2009), quienes prueban que un juego de se˜nalizaci´on con 2 estados, 2 t´erminos y 2 actos converge a un sistema de se˜nalizaci´on, es decir, un equilibrio ´optimo. Por su parte, Barret y Zollman (2009) presentan un modelo de lenguaje en el que el olvido de algunas experiencias pasadas puede resultar beneficioso.
El an´alisis de la convergencia de un algoritmo de refuerzo es importante porque permite afrontar el proceso de aprendizaje con ciertas garant´ıas de ´exito, es decir, ofrece fundamentos para pensar que los robots lograr´an alcanzar un consenso o convenci´on sobre el lenguaje. De ah´ı que los estudios anteriores faciliten la elecci´on de estrategias para el aprendizaje del lenguaje. En el ´ambito de los juegos de lenguaje no hay estudios tan exhaustivos sobre las condiciones de convergencia como los resaltados para los juegos de se˜nalizaci´on pero tanto Steels (2001) como Maravall
et al.(2012) proporcionan mecanismos de aprendizaje que ofrecen buenos resultados
experimentales en cuanto al consenso de vocabularios. En el caso de Steels (2001), cuando el oyente est´a de acuerdo con el hablante se produce un incremento en el peso de la asociaci´on significado-s´ımbolo que se ha utilizado, tanto en el oyente como en el hablante. Al mismo tiempo, ambos decrementan el peso de las otras asociaciones significado-s´ımbolo que compet´ıan con la utilizada. Si oyente y hablante no est´an de acuerdo ambos decrementan el peso de las asociaciones elegidas. En el caso de
Maravall et al. (2012) las asociaciones se representan mediante matrices y en caso
de ´exito los coeficientes correspondientes de las matrices de asociaci´on de hablante y oyente se incrementan al tiempo que los coeficientes competidores se decrementan en la misma magnitud. De forma similar, los coeficientes implicados en un fracaso se decrementan en los dos interlocutores. Esta actualizaci´on adicional que se hace en ambas propuestas se denomina inhibici´on lateral y ha resultado ser un elemento clave para el proceso convergencia.
En resumen, el proceso de aprendizaje por refuerzo que se considera en esta tesis se aplicar´a sobre el concepto de juegos de lenguaje con la novedad de que aqu´ı se busca un consenso sint´actico y que el aprendizaje se aplicar´a por tanto a las reglas de producci´on de una gram´atica, que ser´a el mecanismo de representaci´on para la generaci´on del lenguaje. La elecci´on del algoritmo de Recompensa-Inacci´on que incluye un mecanismo de inhibici´on lateral permitir´a afrontar el proceso de emergencia del lenguaje sint´actico con garant´ıas de convergencia.