4.5 Estimación de fiabilidad
4.5.2 Experimentos de discriminación para la tarea POLYGLOT con el sistema no
Los buenos resultados obtenidos con las redes neuronales y los estimadores seleccionados como mejores en la tarea de cálculo de longitudes variables de listas de preselección nos llevaron a evaluar su comportamiento en la otra tarea planteada en esta tesis.
La tarea sobre POLYGLOT con el diccionario de 2000 palabras presenta mejores tasas de reconocimiento (valores próximos al 85%) que la vista hasta ahora sobre VESTEL (valores próximos al 30% para PERFDV y al 42% para PEIV1000), todo ello para las listas de evaluación. El caso para las de entrenamiento es aún más dispar: casi un 95% de acierto en POLYGLOT para el primer candidato y un 56% para PRNOK5TR.
Los resultados de discriminación para la base de datos de evaluación en POLYGLOT se muestran en la Figura 4-35, donde puede verse cómo la mayor descompensación de la base de datos de entrenamiento produce un desplazamiento del punto de EER, aunque mantenemos un valor del mismo del orden del 18%.
Tabla 4-15: Valores de Rechazo correcto para valores de falso rechazo (FR) dados LISTA PARA FR=5% PARA FR=2’5%
PRNOK 31’86% 21’00%
PERFDV 29’79% 17’04%
PEIV1000 34’70% 22’25%
Figura 4-35: Tasas de falta aceptación y falso rechazo para la tarea POLYGLOT (base de datos de evaluación), usando el discriminador basado en redes neuronales con los 8 parámetros de entrada
seleccionados. 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Valor del umbral utilizado
Falso Rechazo Falsa aceptación
Capítulo 4. Reducción del espacio de búsqueda 4-132 En la Tabla 4-16 se muestran los valores de rechazo correcto para valores de falso rechazo admitidos de un 2’5% y 5%, y puede verse cómo los resultados son mejores incluso que los obtenidos para la tarea sobre VESTEL.
4.5.3 Uso directo de la activación de salida como estimador de longitud de lista
El último estudio en este apartado se centró en la viabilidad del uso de la activación de salida de la red como un estimador directo de la longitud de la lista de preselección a usar.
Es discutible la inclusión de un estudio como este en un apartado titulado Apartado 4.5 "Estimación de fiabilidad", pero lo hemos dejado así al entender que usa un estimador de fiabilidad para lograr sus resultados.
Tal y como está concebido el uso de la red como discriminador, un valor alto de activación implicaría un valor alto de longitud de lista y viceversa.
Así, desarrollamos una serie de experimentos en los que se usaba un cálculo de longitud de lista proporcional a la activación de la red en cada palabra:
donde K es el factor de proporcionalidad a aplicar y sobre el que, de nuevo, hay que tomar una decisión.
La opción más evidente sería usar un valor de K proporcional a su vez al tamaño del diccionario. Por ejemplo, para un diccionario de 10000 palabras, un valor K=10000, con lo que una activación de 0’9 implicaría una longitud de lista de 9000 palabras, y un valor de 0’1 un valor de 10001. Evidentemente esto podría dar lugar a una sobreestimación excesiva de longitudes, lo que produciría un esfuerzo medio elevado. Como nuestro objetivo secundario es bajar también de la cifra del 10% del tamaño del diccionario, hemos modificado el requisito para K, de modo que sea:
donde tiene un valor entre 1 y 9.
En estas condiciones, se midió la tasa de inclusión obtenida y el esfuerzo medio y se hizo una comparación con el caso de usar listas de longitud fija. En la Figura 4-36 se muestran las tasas de inclusión obtenidas para las tres listas procesadas, en la Figura 4-37 la reducción relativa de error (comparando con el sistema de listas fijas para un esfuerzo medio igual al fijo que consigue la misma tasa) y en la Figura 4-38 la reducción relativa en esfuerzo (para una tasa igual a la conseguida en el sistema de listas fijas con el mismo esfuerzo), todo ello en función de (eje de abscisas).
Lo más destacable es la consistencia de los resultados obtenidos para las tres listas procesadas. En todas ellas y para todos los valores de usados, se consiguen mejoras tanto en tasa como en esfuerzo medio. A la vista de la lista de entrenamiento, sería razonable usar un valor de =5, que produce un máximo local en reducción de error (Figura 4-37) alejado del extremo poco razonable
Tabla 4-16: Valores de Rechazo correcto para valores de falso rechazo (FR) dados sobre la tarea POLYGLOT
LISTA PARA FR=5% PARA FR=2’5%
set-c 49’7% 30’67%
1. Es conveniente recordar aquí que la red se entrena usando valores de 0’1 y 0’9 para identificar cada caso (palabra reconocida en primera posición y resto, respectivamente).
longLista i( )
=
actNN K⋅
K
TAMAÑO_DICCIONARIO
φ
---
=
φ φ φ φApartado 4.5. Estimación de fiabilidad 4-133
Figura 4-36: Tasas de inclusión para las tres listas en los experimentos de estimación de longitud de lista dependiente de la activación de la red (en función de φ)
95% 96% 97% 98% 99% 100% 1 2 3 4 5 6 7 8 9
Valor del parámetro usado
Tasa de inclusión
PRNOK5TR PERFDV PEIV1000
Figura 4-37: Reducción relativa de error de inclusión para las tres listas en los experimentos de estimación de longitud de lista dependiente de la activación de la red (en función de φ)
0% 10% 20% 30% 40% 50% 60% 70% 80% 1 2 3 4 5 6 7 8 9
Valor del parámetro usado
Reducción de error relativo
PRNOK5TR PERFDV PEIV1000
Figura 4-38: Reducción relativa de esfuerzo para las tres listas en los experimentos de estimación de longitud de lista dependiente de la activación de la red (en función de φ)
0% 5% 10% 15% 20% 25% 30% 35% 40% 1 2 3 4 5 6 7 8 9
Valor del parámetro usado
Reducción de esfuerzo relativo
PRNOK5TR PERFDV PEIV1000
Capítulo 4. Reducción del espacio de búsqueda 4-134 de =1 (ya que sabemos positivamente que alcanzaremos la tasa del 100% mucho antes de 10000 candidatos). En este punto conseguimos tasas muy superiores al 98% para PEIV1000 (98’74% exactamente) y del 97’40% para PERFDV, manteniendo el esfuerzo muy ajustado al 10% del tamaño del diccionario que tenemos como objetivo (1043 candidatos para PEIV1000 y 972 para PERFDV).
Es relevante hacer notar cómo los resultados obtenidos son asimilables a los presentados en el Apartado 4.4.9.8, al hablar de la estimación de longitudes de listas usando una red neuronal de 10 salidas. Los comentarios que allí hacíamos respecto a la fiabilidad estadística de la diferencia entre los resultados son los mismos en estos experimentos, por lo que no volveremos a insistir en ellos.
La conclusión fundamental de este apartado vuelve a ser la consecución de mejores resultados que los experimentos con listas fijas al usar una red neuronal como estimador.
En el Apartado 4.4.9.8 discutíamos las conclusiones al usar un estimador completo con 10 salidas. En este apartado hemos diseñado y analizado el funcionamiento de una red mucho más cómoda de manejar y entrenar con prestaciones similares. Lo único que faltaría por abordar sería un estudio de sensibilidad tan completo como el visto allí, pero que entendemos no es necesario si pensamos en que las figuras mostradas responden precisamente a esta idea: hemos modificado el punto de trabajo afectando a un parámetro del sistema y las mejoras son constantes en todo el rango y consistentes entre todas las bases de datos analizadas.
Una ventaja adicional de este sistema es que tiene menos valores a estimar que la red más complicada, en cuanto a que no hay que calcular umbrales adicionales ni decidir acerca de la longitud a asignar a la última neurona de salida (tal y como se detallaba en el Apartado 4.4.9.8.3, al hablar de los parámetros de control de los experimentos).
4.5.4 Consideraciones sobre el uso o no de redes neuronales en estimación de confianza
En la literatura se pueden encontrar ejemplos del uso de redes neuronales para tareas de estimación de fiabilidad, además de otros tradicionales en los que se usa simplemente un parámetro (o combinación de ellos) para decidir.
En nuestro caso se hicieron experimentos utilizando redes neuronales o el valor directo del parámetro de entrada para discriminar. Los resultados obtenidos no son concluyentes en cuanto a que uno sea mejor que otro, porque las tasas obtenidas por ambas estrategias se solapan al aplicar el estudio de fiabilidad estadística, con lo que no está claro que la red neuronal sea mejor que el uso directo del parámetro.
Sin embargo, nuestra propuesta es sin duda el uso de la red neuronal, por su facilidad de cara a la integración de distintos parámetros y la facilidad de su aplicación a la tarea, sobre todo teniendo en cuenta que su funcionamiento será como mínimo igual al del enfoque tradicional.