El valor de la experiencia - Sistema Hifi-AV1: Evaluaci´ on Objetiva

7.3 Primera evaluaci´ on on-line: sistema Hifi-AV1

7.3.2 Sistema Hifi-AV1: Evaluaci´ on Objetiva

7.3.2.3 El valor de la experiencia

La experiencia acumulada por un usuario al superar un determinado escenario resulta de gran ayuda para afrontar el resto. Tal y como hemos podido observar, dicha experiencia tiene un fuerte impacto sobre el diálogo. A partir de la distribución de escenarios consi- derada, es posible llevar a cabo una estimación del porcentaje de entrenamiento superado en el momento de comenzar la evaluación correspondiente a cada tipo de escenario. El resultado de dicha estimación se presenta en la Tabla 7.9. En ella podemos comprobar cómo, justo antes de comenzar la evaluación de los escenarios “libres”, el usuario ha acu- mulado alrededor del 80 % del total de la experiencia que supone superar el proceso de evaluación.

Una vez alcanzado semejante nivel de entrenamiento, cabe esperar que el usuario haya mejorado significativamente sus habilidades de diálogo. De esta manera, dichas habilidades deber´ıan traducirse en mejores resultados para las métricas consignadas. Tal y como pudimos comprobar en el apartado anterior, tanto el número de rechazos y repeticiones de reconocimiento como el número de peticiones de sistema constituyen buenos ejemplos de ello.

Es un hecho que la interacción usuario-sistema mejora a medida que el usuario “apren- de” cómo debe dirigirse al sistema. Por el mismo motivo, es de esperar que aquellos usuarios que se declararon “expertos” con anterioridad a la evaluación estén más familiarizados con los turnos y tiempos de diálogo que los “novatos”, de modo que obtengan mejores resultados que estos últimos. En la misma l´ınea podr´ıamos referirnos al número de “peticiones de ayuda” cuya tendencia copia a la de las citadas métricas y para la que también resultan ganadores los mencionados “expertos” (i.e. necesitan menos asistencia que los “novatos”). Al mismo tiempo, los usuarios “expertos” son más eficientes que los “novatos” ya que consiguen mejores periodos de ejecución (i.e. más bajos, necesitan menos turnos para

7.3 Primera evaluaci´on on-line: sistema Hifi-AV1 169

conseguir lo mismo). A este resultado debemos añadir la capacidad para producir diálo- gos más ágiles gracias a una mayor precisión a la hora de proporcionar la información necesaria para completar las diferentes tareas, disminuyendo de ese modo el número de peticiones necesarias por parte del sistema. El hándicap que sufren los usuarios “novatos” en ese sentido les hace ser un poco más “contextuales”, concediendo as´ı mayor protago- nismo al propio sistema (i.e. necesitan apoyarse en mayor medida en las estrategias de aprovechamiento de la información contextual).

En resumidas cuentas, podemos concluir (con la debida cautela, ya que las diferencias observadas no son estad´ısticamente significativas) que los usuarios “expertos” consiguen una conversación más eficaz y fluida que los “novatos”. Por el contrario, los “novatos” ob- tienen mejores resultados en términos de rechazos de comprensión e intervenciones fuera de dominio. Este resultado está justificado por el hecho de que los usuarios menos experi- mentados demuestran cierta tendencia a utilizar frases más cortas y menos complejas que los más expertos.

De cualquier forma, e independientemente del nivel de destreza acreditado por el usuario, tal y como podemos observar en la Figura7.16de la página167, la eficiencia del diálogo (i.e. “rendimiento turno”, es decir, el número de acciones ejecutadas por turno) mejora gradualmente a medida que progresa el proceso de evaluación. Esto significa que, gracias a la experiencia adquirida a través del propio proceso de evaluación, los usuarios necesitan cada vez menos tiempo o turnos para llevar a cabo una cierta acción. Dicha tendencia es evidente en el caso de los “novatos”, sin embargo, llama la atención el hecho de que los “expertos” consigan para los escenarios “básicos” un mejor resultado que para los “avanzados”. De hecho, dicho resultado es tan bueno como el obtenido para los escenarios “libres”. Razonablemente, este comportamiento es debido a la menor complejidad de los “básicos” en comparación al resto. Esa menor complejidad sumada a la mayor experiencia con la que cuentan de inicio los “expertos”, son razones suficientes para que estos últimos consigan tan buen resultado.

En este punto resulta especialmente interesante comparar la capacidad de aprendizaje de ambos tipos de usuarios. Si prestamos atención en la misma figura a los resultados obtenidos para los escenarios de tipo “básico” y “libre” respectivamente, podemos comprobar que los usuarios “novatos” consiguen mejorar sus habilidades de diálogo de un tipo de escenario al otro en un 10 % aproximadamente. En el caso de los “expertos” rápida- mente podemos observar que no se produce mejora alguna (i.e. mismo resultado para los escenarios “básicos” y “libres”). No obstante, si obviamos los “básicos” por su menor complejidad, y llevamos a cabo una comparación entre los escenarios de tipo “avanzado” y “libre” (complejidad superior para estos últimos), obtenemos una mejora para los “expertos” de aproximadamente un 6,5 %. Para esa misma comparación entre “avanzados” y “libres”, la mejora obtenida es aproximadamente de un 3,5 % para los “novatos”, resultado

que, una vez m´as, pone de manifiesto las mejores aptitudes de los “expertos”.

No obstante, y como resultado interesante que también puede deducirse a la vista de dicha Figura es que, una vez concluida la evaluación, los usuarios “novatos” se han aproxi- mado bastante a los “expertos” en cuanto a aptitudes de diálogo. El resultado todav´ıa es favorable a los “expertos” pero en términos relativos sitúa a los “novatos” a una distancia de tan sólo un 10 % considerando exclusivamente los “libres” frente al 20 % que hab´ıa inicialmente para los escenarios “básicos”.

170 Cap´ıtulo 7. Evaluaci´on del Sistema de Di´alogo

7.3.2.4 Sobre la utilidad del contexto de di´alogo

La idoneidad o conveniencia en relación a la aplicación de estrategias de recuperación de información a partir del contexto de diálogo está fuera de toda duda. No obstante, resultar´ıa igualmente valioso poder ponderar o medir su verdadera relevancia. A modo de estimación de la importancia de dichas estrategias, definimos la métrica “porcentaje de turnos contextuales” como la relación de turnos de diálogo en los que alguna de las estrategias resulta aplicada con éxito.

En conexión con dicha métrica debemos analizar también el “porcentaje de peticiones del sistema”. Lógicamente, todo elemento de información indispensable para la resolución del diálogo y que no pueda ser recuperado a partir del contexto de diálogo será objeto de consulta al usuario por parte del sistema. En consecuencia, la cantidad de peticiones del sistema debe estar en cierto modo limitada por las capacidades contextuales del mismo.

Los resultados obtenidos para ambas métricas refrendan la indispensable inclusión de la información contexual a la gestión de diálogo. Concretamente, podemos concluir que más de la mitad de los turnos descansan sobre este tipo de información. Dicho de otro modo, gracias a las capacidades contextuales proporcionadas es posible evitar un número considerable de peticiones del sistema, resultado especialmente importante en términos de agilidad y fluidez del diálogo. En general, sólo el 27,3 % de los turnos conllevan una petición por parte del sistema. Sin los mencionados recursos contextuales, dicha cifra ascender´ıa, al menos, hasta el 54,8 % de los turnos (i.e. cifra correspondiente al porcentaje de turnos contextuales global, es decir, para todos los escenarios y tipos de usuario) con la consiguiente merma de la agilidad y naturalidad del diálogo. Por otra parte, asumiendo que en un turno contextual pueden ser objeto de recuperación no uno, sino varios elementos de información, el porcentaje de peticiones del sistema podr´ıa ser aún mayor si cabe. Este resultado pone de relieve la necesidad de incorporar como nuevas métricas el número de elementos recuperados mediante alguna estrategia de aprovechamiento de la información contextual por turno, y el número de elementos solicitados por el sistema por turno. El oportuno estudio de dichas métricas se contempla como posible l´ınea futura.

Finalmente, el impacto conjunto de la experiencia del usuario y del tipo o estilo de iniciativa de diálogo se hace evidente en el resultado obtenido para los escenarios “libres”. Concretamente, en este último caso el porcentaje de peticiones del sistema es aproximadamente un 50 % menor que en los otros dos. Este resultado es especialmente interesante, sobre todo teniendo en cuenta que los “libres” carecen de un contexto inicial de diálogo oportunamente preparado de forma coherente con las tareas a realizar para el escenario en cuestión.

7.3.3 Sistema Hifi-AV1: Evaluaci´on subjetiva

In document Análisis, diseño y aplicación de modelos de diálogo flexibles, contextuales y dinámicos basados en redes bayesianas (página 186-188)