• No se han encontrado resultados

7.3 Primera evaluaci´ on on-line: sistema Hifi-AV1

7.3.2 Sistema Hifi-AV1: Evaluaci´ on Objetiva

7.3.2.3 El valor de la experiencia

La experiencia acumulada por un usuario al superar un determinado escenario resulta de gran ayuda para afrontar el resto. Tal y como hemos podido observar, dicha experiencia tiene un fuerte impacto sobre el di´alogo. A partir de la distribuci´on de escenarios consi- derada, es posible llevar a cabo una estimaci´on del porcentaje de entrenamiento superado en el momento de comenzar la evaluaci´on correspondiente a cada tipo de escenario. El resultado de dicha estimaci´on se presenta en la Tabla 7.9. En ella podemos comprobar c´omo, justo antes de comenzar la evaluaci´on de los escenarios “libres”, el usuario ha acu- mulado alrededor del 80 % del total de la experiencia que supone superar el proceso de evaluaci´on.

Una vez alcanzado semejante nivel de entrenamiento, cabe esperar que el usuario haya mejorado significativamente sus habilidades de di´alogo. De esta manera, dichas habilida- des deber´ıan traducirse en mejores resultados para las m´etricas consignadas. Tal y como pudimos comprobar en el apartado anterior, tanto el n´umero de rechazos y repeticiones de reconocimiento como el n´umero de peticiones de sistema constituyen buenos ejemplos de ello.

Es un hecho que la interacci´on usuario-sistema mejora a medida que el usuario “apren- de” c´omo debe dirigirse al sistema. Por el mismo motivo, es de esperar que aquellos usuarios que se declararon “expertos” con anterioridad a la evaluaci´on est´en m´as familiarizados con los turnos y tiempos de di´alogo que los “novatos”, de modo que obtengan mejores resulta- dos que estos ´ultimos. En la misma l´ınea podr´ıamos referirnos al n´umero de “peticiones de ayuda” cuya tendencia copia a la de las citadas m´etricas y para la que tambi´en resultan ganadores los mencionados “expertos” (i.e. necesitan menos asistencia que los “novatos”). Al mismo tiempo, los usuarios “expertos” son m´as eficientes que los “novatos” ya que consiguen mejores periodos de ejecuci´on (i.e. m´as bajos, necesitan menos turnos para

7.3 Primera evaluaci´on on-line: sistema Hifi-AV1 169

conseguir lo mismo). A este resultado debemos a˜nadir la capacidad para producir di´alo- gos m´as ´agiles gracias a una mayor precisi´on a la hora de proporcionar la informaci´on necesaria para completar las diferentes tareas, disminuyendo de ese modo el n´umero de peticiones necesarias por parte del sistema. El h´andicap que sufren los usuarios “novatos” en ese sentido les hace ser un poco m´as “contextuales”, concediendo as´ı mayor protago- nismo al propio sistema (i.e. necesitan apoyarse en mayor medida en las estrategias de aprovechamiento de la informaci´on contextual).

En resumidas cuentas, podemos concluir (con la debida cautela, ya que las diferencias observadas no son estad´ısticamente significativas) que los usuarios “expertos” consiguen una conversaci´on m´as eficaz y fluida que los “novatos”. Por el contrario, los “novatos” ob- tienen mejores resultados en t´erminos de rechazos de comprensi´on e intervenciones fuera de dominio. Este resultado est´a justificado por el hecho de que los usuarios menos experi- mentados demuestran cierta tendencia a utilizar frases m´as cortas y menos complejas que los m´as expertos.

De cualquier forma, e independientemente del nivel de destreza acreditado por el usua- rio, tal y como podemos observar en la Figura7.16de la p´agina167, la eficiencia del di´alogo (i.e. “rendimiento turno”, es decir, el n´umero de acciones ejecutadas por turno) mejora gradualmente a medida que progresa el proceso de evaluaci´on. Esto significa que, gracias a la experiencia adquirida a trav´es del propio proceso de evaluaci´on, los usuarios necesitan cada vez menos tiempo o turnos para llevar a cabo una cierta acci´on. Dicha tendencia es evidente en el caso de los “novatos”, sin embargo, llama la atenci´on el hecho de que los “expertos” consigan para los escenarios “b´asicos” un mejor resultado que para los “avanza- dos”. De hecho, dicho resultado es tan bueno como el obtenido para los escenarios “libres”. Razonablemente, este comportamiento es debido a la menor complejidad de los “b´asicos” en comparaci´on al resto. Esa menor complejidad sumada a la mayor experiencia con la que cuentan de inicio los “expertos”, son razones suficientes para que estos ´ultimos consigan tan buen resultado.

En este punto resulta especialmente interesante comparar la capacidad de aprendizaje de ambos tipos de usuarios. Si prestamos atenci´on en la misma figura a los resultados obtenidos para los escenarios de tipo “b´asico” y “libre” respectivamente, podemos compro- bar que los usuarios “novatos” consiguen mejorar sus habilidades de di´alogo de un tipo de escenario al otro en un 10 % aproximadamente. En el caso de los “expertos” r´apida- mente podemos observar que no se produce mejora alguna (i.e. mismo resultado para los escenarios “b´asicos” y “libres”). No obstante, si obviamos los “b´asicos” por su menor complejidad, y llevamos a cabo una comparaci´on entre los escenarios de tipo “avanzado” y “libre” (complejidad superior para estos ´ultimos), obtenemos una mejora para los “ex- pertos” de aproximadamente un 6,5 %. Para esa misma comparaci´on entre “avanzados” y “libres”, la mejora obtenida es aproximadamente de un 3,5 % para los “novatos”, resultado

que, una vez m´as, pone de manifiesto las mejores aptitudes de los “expertos”.

No obstante, y como resultado interesante que tambi´en puede deducirse a la vista de dicha Figura es que, una vez concluida la evaluaci´on, los usuarios “novatos” se han aproxi- mado bastante a los “expertos” en cuanto a aptitudes de di´alogo. El resultado todav´ıa es favorable a los “expertos” pero en t´erminos relativos sit´ua a los “novatos” a una distancia de tan s´olo un 10 % considerando exclusivamente los “libres” frente al 20 % que hab´ıa inicialmente para los escenarios “b´asicos”.

170 Cap´ıtulo 7. Evaluaci´on del Sistema de Di´alogo

7.3.2.4 Sobre la utilidad del contexto de di´alogo

La idoneidad o conveniencia en relaci´on a la aplicaci´on de estrategias de recuperaci´on de informaci´on a partir del contexto de di´alogo est´a fuera de toda duda. No obstante, resultar´ıa igualmente valioso poder ponderar o medir su verdadera relevancia. A modo de estimaci´on de la importancia de dichas estrategias, definimos la m´etrica “porcentaje de turnos contextuales” como la relaci´on de turnos de di´alogo en los que alguna de las estrategias resulta aplicada con ´exito.

En conexi´on con dicha m´etrica debemos analizar tambi´en el “porcentaje de peticiones del sistema”. L´ogicamente, todo elemento de informaci´on indispensable para la resoluci´on del di´alogo y que no pueda ser recuperado a partir del contexto de di´alogo ser´a objeto de consulta al usuario por parte del sistema. En consecuencia, la cantidad de peticiones del sistema debe estar en cierto modo limitada por las capacidades contextuales del mismo.

Los resultados obtenidos para ambas m´etricas refrendan la indispensable inclusi´on de la informaci´on contexual a la gesti´on de di´alogo. Concretamente, podemos concluir que m´as de la mitad de los turnos descansan sobre este tipo de informaci´on. Dicho de otro modo, gracias a las capacidades contextuales proporcionadas es posible evitar un n´umero considerable de peticiones del sistema, resultado especialmente importante en t´erminos de agilidad y fluidez del di´alogo. En general, s´olo el 27,3 % de los turnos conllevan una petici´on por parte del sistema. Sin los mencionados recursos contextuales, dicha cifra ascender´ıa, al menos, hasta el 54,8 % de los turnos (i.e. cifra correspondiente al porcentaje de turnos contextuales global, es decir, para todos los escenarios y tipos de usuario) con la consiguiente merma de la agilidad y naturalidad del di´alogo. Por otra parte, asumiendo que en un turno contextual pueden ser objeto de recuperaci´on no uno, sino varios elementos de informaci´on, el porcentaje de peticiones del sistema podr´ıa ser a´un mayor si cabe. Este resultado pone de relieve la necesidad de incorporar como nuevas m´etricas el n´umero de elementos recuperados mediante alguna estrategia de aprovechamiento de la informaci´on contextual por turno, y el n´umero de elementos solicitados por el sistema por turno. El oportuno estudio de dichas m´etricas se contempla como posible l´ınea futura.

Finalmente, el impacto conjunto de la experiencia del usuario y del tipo o estilo de iniciativa de di´alogo se hace evidente en el resultado obtenido para los escenarios “libres”. Concretamente, en este ´ultimo caso el porcentaje de peticiones del sistema es aproxima- damente un 50 % menor que en los otros dos. Este resultado es especialmente interesante, sobre todo teniendo en cuenta que los “libres” carecen de un contexto inicial de di´alogo oportunamente preparado de forma coherente con las tareas a realizar para el escenario en cuesti´on.

7.3.3

Sistema Hifi-AV1: Evaluaci´on subjetiva