En el año 1995, se completó un informe sobre el estado del arte en tecnología del lenguaje humano [Cole95], y en ella se identificaba la evaluación como un aspecto crucial en procesamiento de habla y lenguaje natural. De hecho, el programa DARPA ha invertido una gran cantidad de recursos en las evaluaciones periódicas de los sistemas generados por laboratorios en todo el mundo. Recientemente el grupo de trabajo EAGLES ha editado una serie de informes centrados en la definición de estándares y recursos para sistemas de lenguaje hablado [Gibbon98]. El tema está aún poco asentado y la definición de estándares y evaluaciones en este área es visto con cierto excepticismo por parte de la comunidad investigadora. Sin embargo, hay multitud de pautas y recomendaciones para guiarnos en nuestro caso, con lo que nuestra intención será dar unas ligeras pinceladas que den más fundamento a las medidas y las conclusiones sobre la bondad de tal o cual alternativa.
1. En este caso estamos pensando en que las entradas del diccionario utilizado estarán sujetas a una determinada distribución de su frecuencia de uso en la tarea sobre la que se aplique, lo que modificará significativamente los resultados reales obtenibles si las bases de datos de evaluación no reflejan adecuadamente dicha distribución.
Apartado 2.7. Validación estadística y medidas de rendimiento 2-51
En el desarrollo y validación de algoritmos y sistemas de reconocimiento en general, es de fundamental importancia analizar hasta qué punto las diferencias de rendimiento observadas, medidas de acuerdo con ciertos criterios, son significativas estadísticamente.
En todos los casos, la medida de rendimiento de un sistema vendrá relacionada directamente con el tamaño de la base de datos con que nos enfrentemos. Así, a mayor tamaño, mayor seguridad tendremos acerca de la fiabilidad de los resultados y de las diferencias que hayamos obtenido entre sistemas de distintas características.
En la literatura pueden encontrarse numerosas referencias a este tema, y, por citar algunas, nos centraremos en las que dan soporte a la estrategia que aplicaremos en nuestro caso.
En primer lugar mencionaremos los trabajos de Gillick y Cox [Gillick89], que no sólo solucionan la evaluación de la validez estadística de mejoras en cada algoritmo o técnica, sino que permiten evaluar el rendimiento comparativo de sistemas diferentes, junto con los de Cavanesio [Canavesio92] y Wu [Wu94]. En principio nos limitaremos a tratar el caso de sistemas de reconocimiento de palabras aisladas (para el caso de habla conectada, podemos referenciar también a [Gillick89], y para habla continua a [Pallet89]).
No entraremos en detalle en la formulación estadística de los algoritmos implicados, limitándonos a decir que las aproximaciones al problema suelen pasar por la estimación del número de errores que comete cada sistema, y las tasas de error obtenidas. Hay que tener en cuenta, además, que el hecho de usar o no la misma base de datos para hacer las comparaciones, impone restricciones en los métodos, que serán distintos para el caso de bases de datos dependientes e independientes. En el primer caso, es de destacar el test de McNemar (usado extensamente, por ejemplo, en los tests de evaluación de DARPA RM).
Un método adicional de validación es el expuesto en [Weiss93], en el que se calculan las bandas de fiabilidad resultantes de imponer una tasa determinada de confianza a dichas medidas. Así, por ejemplo, podremos fijar una tasa de confianza del 95%, y el método estimará los márgenes entre los que se podría mover la tasa de reconocimiento/error obtenida.
La aplicación de estas medidas objetivas es de vital importancia para poner en su justo sitio y con su justa medida la eficacia real de modificaciones y mejoras que, en ocasiones, se diseñan para solucionar problemas puntuales, pero no acaban de aportar soluciones globales y efectivas en media, o estadísticamente significativas.
En contraposición a lo indicado en el párrafo anterior, queremos señalar que, en ciertos casos, la consecución de mejoras marginales1 puede ser importante. Estamos pensando en casos de locutores especialmente difíciles (por su características acústicas o de pronunciación) o producciones de voz con ruidos específicos observados raramente, para los que se pueden plantear soluciones que no ofrezcan diferencias con validez estadística para la población global pero sí solucionen el problema concreto planteado. Las mejoras marginales (o incluso ligeros empeoramientos globales) de dichas soluciones nunca se podrán apoyar sobre un conjunto elevado de datos que garanticen su fiabilidad, pero son imprescindibles en sistemas de acceso universal, por ejemplo servicios de suministro de información telefónica.
En cualquier caso, no debemos perder de vista una reflexión importante sobre este tema [Ferreiros96]: puede suceder que dicha validación estadística no se cumpla significativamente, pero se verifiquen mejoras apreciables en todos los casos de aplicación de una técnica determinada. Así, dichas técnicas “son ideas que se proponen con la cautela de no haber podido demostrar significativamente su validez, pero que no queremos abandonar a la espera de que sean útiles en los sistemas de reconocimiento y que queden validadas en futuras experimentaciones en otras aplicaciones o con más datos”.
1. Entendiendo por ellas aquellas que no son estadísticamente significativas o bien que afectan a un conjunto muy reducido de elementos de las bases de datos de evaluación.