Sistemas conversacionales orientados a una funci´ on

2. Estado del arte:

2.4. Sistemas conversacionales

2.4.2. Sistemas conversacionales orientados a una funci´ on

Este tipo de chatbots no tratan de seguir un número indefinido de turnos en una conversación, sino que tienen un objetivo concreto en un contexto determinado y quieren obtener algún tipo de información de las frases que introducen los usuarios. Según su objetivo, se pueden distinguir [19]:

Los que buscan realizar una funci´on concreta, como reservar una entrada para ver una pel´ıcula en el cine.

Los que se centran en contestar preguntas, como “¿Qué restaurantes cercanos hay?” y en base a la respuesta tratar algún tipo de continuación como “¿Cuáles de ellos son de comida china?”

Los que sirven como un asistente personal, que son una mezcla de las funciones de los dos anteriores, con ejemplos representativos en los asistentes para smartphones como Siri.

En la literatura se hace también una distinción entre los chatbots que reciben del usuario lenguaje natural hablado en vez de escrito, requiriendo los primeros modelos de tratamiento diferentes para extraer información del formato de audio. En este estado del arte no nos vamos a centrar en esos modelos de reconocimiento de voz, pero podemos encontrar una review actual de ellos en [64].

Representaci´on en marcos

Uno de los puntos importantes que tienen este tipo de chatbots y que difiere de los anteriores es la representación de la información. Dado que en este caso se va a tratar con una base de datos o una fuente de información de la que poder sacar las respuestas a las preguntas del usuario, es necesario estructurar el tipo de datos que trata el sistema.

Para representar esta información, se utilizan modelos basados en marcos. De- pendiendo del sistema que sea, un marco modelará el objetivo concreto que trata de buscar el sistema. Por ejemplo, en la figura 9 se muestra un posible marco para representar direcciones de puntos de interés en una ciudad. Cada punto tiene asociado slots con la calle, la distancia a la que están, el tipo de punto, el nombre y el estado del tráfico en su dirección. La conversación posterior muestra cómo la información acerca de estos slots es extra´ıda de las frases que introduce el usuario para su posterior uso y cómo se debe orientar la conversación para obtener estos datos y proporcionar una respuesta.

Fig. 9: Ejemplo mostrado en [60] de una base de conocimiento y un sistema de marcos para representar puntos de inter´es.

Una estructura de marcos adecuada al problema facilita centrarse en qué in- formación ha de extraerse de cada frase. Por eso, la estructura de control de la conversación estará centrada alrededor de los marcos que hayamos creado. Esta estructura ha sido, tradicionalmente, parecida a una máquina de estados finita. Si tomamos como referencia el anterior ejemplo de un posible marco para un chatbot de direcciones, podr´ıamos sacar una estructura de control parecida a la de la figura

10 para guiar las conversaciones. En ella, cada estado tiene una forma diferente de tratar las frases entrantes de cara a tratar un elemento concreto del sistema de marcos, y tiene una forma de responder orientada al siguiente estado al que vayamos a llegar. No es necesario que cada estado trate un único slot, o que haya un mayor o menor número de estados, cada caso se adecuará a sus necesidades. También es posible tratar con varios tipos de marcos, pero en este caso el sistema requerirá extraer más información para poder completarlos, lo que hará la conversación más larga o el tipo de frases que se pueden procesar más complejas.

Fig. 10: Posible estructura de control en base al ejemplo de marco en la figura 9 El cambio entre estados puede hacerse en base a la frase que introduzca el usuario, si tenemos que diferenciar entre una función u otra, o en base a los resultados que obtengamos de lo pedido por el usuario, si podemos completar la función que tengamos que hacer o si nos faltan datos. Una ventaja de dividir la conversación en estados diferenciables es que el modelo de procesado de lenguaje se puede dividir en sistemas más pequeños orientados a su función de comprensión y generación concreta. Estos sistemas son más fáciles de desarrollar y de mantener que un sólo sistema que cubra todos los casos de procesamiento de lenguaje. Para completar los marcos que nos permitan realizar la función del chatbot, se utiliza comprensión del lenguaje natural para extraer información de las frases y movernos entre estados.

T´ecnicas de NLU

Los modelos de comprensión var´ıan en función de si estamos tratando lenguaje escrito o hablado, pero el objetivo subyacente es el mismo. Lo la comprensión busca es poder rellenar los slots de los marcos del sistema que nos permitan poder realizar nuestra función. Por ejemplo, en el caso de un chatbot que permite reservar un vuelo de avión, se querrá rellenar un marco con el origen y destino del usuario, el d´ıa de ida, el d´ıa de vuelta y el precio que está dispuesto a pagar. Para esto, hace falta analizar las frases que ha introducido el usuario, obtener datos de ellas y preguntar si es necesario por los datos que falten. Si el dominio del chatbot es más amplio, tal vez haga falta identificar también la función que quiere realizar el usuario y cuáles son los marcos que debemos rellenar según su intención.

Uno de los métodos clásicos de localización y extracción de información de una frase es mediante reglas semánticas [28]. Estas reglas semánticas son creadas a mano con, normalmente, gramáticas libres de contexto (CFG) capaces de reconocer ele- mentos dentro de una frase. Las CFG consisten en una serie de producciones con una parte izquierda donde sólo aparece un s´ımbolo no terminal y una parte derecha con las posibles derivaciones de ese s´ımbolo. Cada regla de la gramática consiste en una estructura que puede ser reconocida por estas derivaciones y representada como etiquetas en un árbol de derivación. Las gramáticas pueden ir desde tener unas po- cas producciones hasta tener bases de varios miles de ellas, pero cuanto más escalan más complicadas son de mantener y puede afectar a su rendimiento.

Una vez se tiene la gramática capaz de reconocer un tipo de frases en concreto, es necesario un algoritmo de parsing para recorrer las palabras de la frase que in- troduzcamos dentro de las posibles producciones de la gramática. Lo que diferencia un parser de otro es el orden en el que evalúan las producciones: si es desde arriba a abajo, es decir, desde los s´ımbolos iniciales de la gramática hasta los s´ımbolos terminales, o de abajo arriba, si evalúa las palabras iniciales primero o si empieza por las últimas o la regla que utiliza para elegir la próxima derivación a probar. No hay un parser que sea más efectivo que cualquier otro, en cada ámbito concreto y con cada tipo de frases puede variar el rendimiento. De cara a un nuevo problema, hay que probar cuál de los parsers posibles es el más eficaz.

Cuando ha terminado el parsing se obtiene un árbol de derivación con la frase original con cada palabra etiquetada como la derivación a la que corresponde. Este árbol puede recorrerse para encontrar las etiquetas correspondientes a datos que pueden rellenar los slots dentro de nuestros marcos. La principal ventaja de este tipo de sistemas es su alta precisión, ya que si una frase es reconocida por la gramática, vamos a poder extraer sin ningún problema toda la información necesaria. Sin embargo, conforme el dominio de la aplicación se hace más amplio, crece en gran medida el esfuerzo necesario para crear reglas que reconozcan todas las frases posibles a las que se puede enfrentar el sistema, y mantenerlo se vuelve mas costoso. Otra posibilidad de diseño extendida es el uso de aprendizaje automático para identificar el tipo de pregunta que le han hecho al sistema y la posición de los datos relevantes en la frase.

Para identificar el tipo de frase que nos presentan, lo más común es tener un sistema de clasificación del tema de la pregunta basado en n-gramas. Este sistema puede tener cualquier tipo de clasificador subyacente, desde un modelo de espacio de vectores que clasifique por distancia relativa entre frases hasta modelos de regresión log´ıstica o redes neuronales. Este módulo de identificación se har´ıa en el caso de tener un dominio amplio en el que es posible realizar más de un tipo de preguntas diferentes. Para llevar esto a cabo, primero necesitamos una base de preguntas de cada tipo de manera que podamos crear los modelos de clasificación de las nuevas preguntas entrantes. Por tanto, es necesario algún método de obtener estas preguntas, ya sea realizándolas a mano con ayuda de personas con conocimientos lingü´ısticos o recogiéndolas a partir de la clasificación manual de las preguntas introducidas por los usuarios con el tiempo.

Después de reconocer el tipo de frase, si es necesario, hay que poder extraer los datos relevantes de cada tipo de frase. Aparte de los métodos clásicos de gramáticas, se pueden emplear técnicas conjuntas de aprendizaje automático y algún tipo de reglas o únicamente basadas machine learning.

Un ejemplo de método h´ıbrido [28] consiste en comenzar entrenando un clasificador que reconozca cuándo hay un tipo concreto de dato en una frase y posteriormente aplicar únicamente las reglas adecuadas a ese tipo de dato en la frase. Por ejemplo, si tenemos un sistema que trabaja de algún modo con direcciones, podemos entrenar un clasificador que nos diga si en una frase en concreto aparece este dato o no. Para esto necesitaremos un dataset de frases etiquetadas binariamente si aparece direcciones en ellas o no, un tipo de etiquetado sencillo. Una vez el sistema reconozca la existencia de este dato en una frase pueden entrar en funcionamiento reglas espec´ıficas para este caso, como la búsqueda del dato espec´ıfico en base a los mar- cadores que lo preceden o buscándolo en un diccionario de posibles direcciones, por ejemplo. Esto permite ser selectivo con el tipo de reglas de extracción que se aplican a una frase, por lo que tendremos la precisión del uso de reglas con un poco de más flexibilidad al no tener que amoldar todas las reglas a funcionar con cualquier tipo de frase.

La otra opción es utilizar también aprendizaje automático también para obtener los datos relevantes de las frases [10]. El caso h´ıbrido de antes es posible convertirlo en uno que sólo emplea clasificadores si entrenamos también uno por cada dato que queremos extraer. En este caso, el dataset deberá tener etiquetado en cada ejemplo el dato espec´ıfico que se obtendr´ıa para cada clasificador y aplicarle los que correspondan según el resultado de los datos que aparecen en una frase.

Aparte del uso de múltiples clasificadores, también se pueden usar otras técnicas que no separen la identificación de la existencia de un dato con la extracción del mismo. Aqu´ı la clave está en proporcionar datasets de ejemplos etiquetados espec´ıfi- camente para poder realizar estas dos funciones al mismo tiempo. La aproximación más popular en estos casos con los modelos Seq2Seq, que tratan de encontrar una equivalencia entre la secuencia de palabras de la frase inicial con la secuencia de palabras de los datos buscados.

Una posible forma de conseguir esto es utilizando redes neuronales profundas o recurrentes capaces de encontrar estas equivalencias entre una frase y los datos que contiene [60]. Para poder entrenar las redes hace falta etiquetar los ejemplos del dataset de modo que tras tokenizar la cadena, cada token tenga asociado un tag si corresponde o no a un slot que se quiera llenar. De este modo, tendremos cadenas en las que tengamos marcados los datos útiles de cara a entrenar la red para que esta sea capaz de identificarlos y extraerlos, uniendo en un sólo paso la identificación del objetivo del usuario, la localización de información y su extracción para rellenar slots de un marco. Un ejemplo de esta arquitectura usando una red recurrente se puede encontrar en [25]. Un posible etiquetado para el corpus es el llamado “IOB” (Inside Outside Beginning). Este consiste en marcar todos los tokens que no sean parte de un dato como “O”, los tokens con los que comienza un dato como “B” y los que son parte de un dato como “I”. Este tagging se puede refinar añadiendo

información de qué tipo de dato es en los tags de “B” y “I”, como en el ejemplo 11. Aqu´ı aparecen los datos que llenar´ıan un slot definidos, como la fecha con B-Fe y I-Fe o el destino con B-Des. El resto de palabras que no aportan nada a la hora de rellenar el marco quedan etiquetadas como O.

Fig. 11: Ejemplo de un etiquetado IOB en una frase.

Para que este tipo de técnica sea posible, hace falta un proceso de obtención de una base de preguntas amplia y un tiempo dedicado al etiquetado de cada pregunta. Una posible opción es la implementación de un sistema clásico de reglas primero e ir recopilando todas las preguntas que le vayan haciendo al sistema, de modo que al etiquetarlas se pueda ir generando el dataset necesario para poder aplicar este modelo. Además, este proceso es costoso de cara a la red neuronal necesaria, que tendrá una estructura compleja y requerirá de bastante tiempo para entrenarse.

T´ecnicas de NLG

Como ocurr´ıa en los sistemas exclusivamente de generación de lenguaje, es necesario pasar por dos fases: la de determinación del contenido (sentence planner) y la de realización de la frase (surface realizer). La diferencia en este caso, es que la planificación del contenido que debe tener la frase de respuesta viene determinada por el control de estados del sistema, por lo que sólo habrá que centrarse en la forma de realizar estas respuestas.

Una de las aproximaciones clásicas para la resolución de este problema es mediante el uso de frases deslexicalizadas [43]. Este es un modelo basado en un corpus de respuestas generadas en conversaciones humano-humano en el que las caracter´ısti- cas relacionadas con slots del marco correspondiente se sustituyen por tokens en las frases. Un ejemplo de una frase de un posible corpus ser´ıa: “¿A qué [tipo de lugar] le gustar´ıa ir el [d´ıa del evento]?”, el cuál podr´ıa ser rellenado con información del marco actual como “¿A quécine le gustar´ıa ir el viernes?”. Para obtener este cor- pus, se parte de frases de conversaciones humano-humano en las cuales se sustituyen los datos referentes a slots por su token correspondiente, lo que llamamos el proceso de deslexicalización.

Una vez visto este sistema de corpus de frases deslexicalizadas, la diferencia entre unas aproximaciones u otras es la forma de generar nuevas frases a partir del corpus. La aproximación más básica es la de simplemente rellenar los huecos de los tokens con la información de los slots del marco, lo que ser´ıa equivalente a un sistema de plantillas aplicado a esta arquitectura. Este sistema es lo más simple que se puede aplicar, y se basa exclusivamente en lo extenso que sea el corpus para el número de frases que es capaz de generar.

Para conseguir m´as variabilidad en las frases generadas, se trata de emplear las frases del corpus para generar otras nuevas que sigan siendo v´alidas, as´ı como el uso

en ocasiones de frases iguales a las encontradas en él. De nuevo, se tienen dos posibles aproximaciones según la tecnolog´ıa que se use: los métodos basados en reglas y los métodos estocásticos.

La generación basada en reglas vuelve a basarse en el uso de gramáticas libres de contexto para generar frases adecuadas en un contexto espec´ıfico. Dependiendo de la determinación de contenido hecha por el sistema, habrá que crear una gramática para cada situación de generación posible. La gramática final deberá se capaz de generar las frases del corpus, as´ı como mezclas entre las que sea posible, produciendo finalmente frases similares con o sin tokens, según corresponda. El proceso de ge- neración a partir de una gramática es similar al del parsing top-down, pero en este caso se crea un sólo árbol de derivación, el cual genera la frase deslexicalizada de respuesta. También se puede hacer de manera recursiva y generar tantas frases como sea capaz la gramática. A partir de un corpus, la creación de una gramática para un ´

ambito espec´ıfico no es un proceso muy costoso, pero mantenerla en el tiempo puede volverse complicado si esta crece desproporcionadamente. Este método también asegura la generación de frases válidas siempre que la gramática no sea errónea.

La otra aproximación se basa en el uso de métodos estad´ısticos o de modelos de redes neuronales para la generación de nuevas frases en base al corpus. Los métodos estad´ısticos generan los n-gramas más probables en cada situación según el corpus [43]. Un ejemplo de este tipo de modelos ser´ıa la aplicación con redes de Markov o un k-NN, que construyen modelos de la probabilidad de aparición de determinadas palabras tras un n-grama, con lo que van generando frases similares, o en ocasiones iguales, a las proporcionadas en el corpus. La mayor pega de estos sistemas es que si no están adecuadamente entrenados, las frases que generan pueden ser erróneas o carecer de sentido. Esta es la razón de que hagan falta corpus extensos y una evaluación minuciosa del sistema para comprobar que la generación de lenguaje es aceptable y no proporciona respuestas incoherentes.

Las estrategias de generación más recientes en este ámbito se basan en emplear redes neuronales profundas o recurrentes para la generación de respuestas en base a la frase de entrada [59]. La idea es conseguir que la red aprenda la relación entre los marcos de una frase con un número dado de slots llenos con las frases que se pueden

In document Generación de lenguas basada en conocimiento lingüístico (página 30-38)