Selección de topologías, parámetros y codificaciones

4.4 Longitud de las listas de preselección

4.4.9 Métodos basados en redes neuronales

4.4.9.7 Experimentos de discriminación primera posición vs resto

4.4.9.7.2 Selección de topologías, parámetros y codificaciones

Nuestro objetivo es barrer todos los parámetros y el mayor número de combinaciones de codificación posibles, para estimar fiablemente la potencia discriminativa de cada alternativa.

La topología sólo se modificó con cambios menores, al haberse establecido una arquitectura básica con pocas variaciones (que se decidieron a partir de la realización de unos experimentos preliminares):

• Una capa de entrada con tantas neuronas de como fueran necesarias, 1 por parámetro

para codificación monoentrada y 5, 10 o 20 si se usaba multientrada.

• Una única capa oculta con un número variable de neuronas: 5, 10 o 20 en todos los casos.

• Una capa de salida compuesta por una única neurona, en la que una baja activación

indicaría palabra reconocida en primera posición y una activación alta, palabra reconocida en segunda o superior posición. En el entrenamiento dichos valores se fijaron a 0.1 y 0.9, respectivamente. En los experimentos iniciales usamos un umbral de discriminación situado en la mitad de esta banda, es decir, de 0,5; aunque también se evaluaron métodos estadísticos de estimación de un umbral óptimo, como se describe en el Apartado 4.4.9.8 a partir de la página 115.

Inicialmente lanzamos experimentos para cada uno de los 33 parámetros disponibles descritos en la Tabla A-1 a partir de la página 185, modificando la configuración de acuerdo a las alternativas de normalización y codificación descritas anteriormente en el Apartado 4.4.9.2, lo que hace un total de casi 3000 experimentos.

1. Es importante hacer notar aquí que estamos hablando de condiciones determinadas por el carácter de preselección de los módulos analizados.

2. No entraremos aquí en la discusión acerca del porcentaje de aciertos de clasificación de cada clase, aunque evidentemente habrá que atender a ellos en su momento. Ya adelantamos que los resultados obtenidos muestran valores muy equilibrados para ambas tasas.

3. Que recordamos utiliza 25 unidades alofónicas seleccionadas manualmente (23 alófonos+2 unidades de ruido), tal y como se describe en el Anexo D.2.3 a partir de la página 208.

4. 10000DV para las listas PRNOK5TR y PERFDV y 10000IV para PEIV1000, como se describe en el Anexo B.2.3 a partir de la página 190.

Capítulo 4. Reducción del espacio de búsqueda 4-108 La decisión de hacer este barrido con tal número de alternativas surge del desconocimiento a priori de un método establecido de diseño de las redes a usar. Así, optamos por plantearlas todas, dando valores razonables a las topologías, asegurando un entrenamiento adecuado de los pesos de la red. A partir de los informes generados por un entorno automático de evaluación desarrollado en esta tesis, nuestra labor se centró en la selección de los parámetros más adecuados para la tarea de discriminación, del que ofrecemos detalles en los siguientes apartados.

4.4.9.7.3 Procedimiento de evaluación de potencia discriminativa: parámetros, topologías y codificaciones

A la hora de evaluar el impacto de cada alternativa en el rendimiento del sistema y llegar a un repertorio de parámetros adecuado, se optó por sistematizar el proceso usando la siguiente metodología:

• Se hicieron experimentos con una única entrada, para decidir acerca de la potencia

discriminadora de cada parámetro y de las normalizaciones aplicables, descritas en el Apartado 4.4.9.2, a partir de la página página 102 (recordamos que nos referiremos a esta opción como monoentrada, en general)

• Se hicieron experimentos con varias neuronas de entrada, con el mismo objetivo que el punto anterior, tanto para distribuciones lineales como para no lineales en la codificación aplicada, como se describe en el Apartado 4.4.9.2, a partir de la página página 102 (recordamos que nos referiremos a esta opción como multientrada con codificación o distribución lineal o no lineal, según el caso)

• Se establecieron comparaciones primero entre experimentos monoentrada entre sí,

multientrada entre sí (tanto para lineal como no lineal), y finalmente entre todos ellos, buscando obtener una estimación objetiva de la adecuación de cada parámetro a la tarea Para efectuar la comparación, se optó por una metodología simplista, como se verá a continuación, pero que ha demostrado dar resultados más que notables. Dentro de cada comparación, la evaluación se hizo como sigue:

• Primero se calcula el número de veces que cada una de las alternativas superaba al resto en tasa de discriminación, tomando como muestra el conjunto de todos los experimentos realizados, parámetro a parámetro, de cara a decidir el orden de bondad de cada alternativa, cuantitativamente.

• Una vez decidido dicho orden se evalúa la mejora relativa que implica en cuanto a tasa de discriminación, para evaluar hasta qué punto merece la pena una u otra alternativa • Finalmente se integra toda esta información para decidir, en cada caso, la lista definitiva

de parámetros más adecuados, junto con la parametrización más ventajosa de cada uno de ellos y una medida de la relación mejora de tasa-demanda computacional

Antes de entrar en los resultados experimentales en sí, queremos destacar que los resultados de discriminación obtenidos han superado las expectativas iniciales que teníamos. Como puede verse en el ejemplo de la Figura 4-17, en la que se muestra la tasa de discriminación obtenida, para el caso monoentrada, de los 33 parámetros y las múltiples variantes de topología y codificación, prácticamente el 40% de ellas obtienen tasas de discriminación superiores al 50%, valor que hemos considerado como el umbral que diferencia unos resultados de discriminación fruto del azar de los que realmente se deben a que el parámetro considerado contiene información relevante para la tarea.

Igualmente las tasas máximas alcanzables superan el 70%, en todas las tareas en algún caso. Resultados similares han sido obtenidos para las otras dos estrategias fundamentales: codificación multientrada con distribución lineal y no lineal.

Apartado 4.4. Longitud de las listas de preselección 4-109

4.4.9.7.4 Resultados de discriminación usando un único parámetro con codificación monoentrada

En la Tabla 4-7, y siguiendo el método de decisión descrito anteriormente, se muestra el número de veces que cada combinación de topología-codificación superaba al resto (para cada conjunto de 33 parámetros posibles). Se incluyen los resultados para las tres bases de datos, a modo de referencia, aunque en nuestras decisiones sólo atenderemos a los resultados sobre la de entrenamiento, lógicamente.

Lo importante para nuestros objetivos es que, como puede observarse, tenemos una alternativa claramente ganadora: la normalización NORM-STD que es la que mejor comportamiento obtiene (tiene un resultado superior al resto en 49 de los 99 experimentos, casi la mitad del total).

Sin embargo el análisis comparativo de las variaciones relativas de tasa de discriminación entre los distintos casos evaluados para cada parámetro han mostrado diferencias muy poco significativas (inferiores al 1% la mayor parte de las veces). A modo de ejemplo, en la Tabla 4-8 se muestran las diferencias relativas porcentuales en tasa de error, observadas para el parámetro que mejor comportamiento obtuvo, indicando las distintas alternativas usadas (neuronas en la capa oculta y tipo de normalización). Dicho parámetro resultó ser el número 171: la desviación de costes de acceso léxico para un tamaño de lista del 0.1% de la longitud del diccionario utilizado (100, en este caso, ya que el diccionario consta de 10000 palabras).

Tabla 4-7: Número de veces que cada combinación topología-tipo_de_normalización superaba al resto, para el caso de topología con una única neurona de entrada. Datos para las tres listas

Normalización PRNOK5TR PERFDV PEIV1000 TOTAL

NO-NORM 8 24 14 46

NORM-MAXMIN 14 22 21 57

NORM-STD 49 30 38 117

NORM-STD-CLIP 28 23 26 77

99 99 99 297

1. Remitimos al lector al Anexo A, a partir de la página página 185 donde encontrará la lista completa de parámetros usados y su significado

Figura 4-17: Resultados de discriminación de todos los experimentos monoentrada ordenados de mayor a menor tasa de discriminación

2 0 % 2 5 % 3 0 % 3 5 % 4 0 % 4 5 % 5 0 % 5 5 % 6 0 % 6 5 % 7 0 % 7 5 % 8 0 % N ú m e r o d e e x p e r im e n t o Tasa de discriminación P R N O K 5 TR P E R F D V P E IV 1 00 0

Capítulo 4. Reducción del espacio de búsqueda 4-110 La visible insensibilidad del sistema a variaciones en la codificación se entiende argumentando que el factor fundamental en el funcionamiento de la red lo constituye la calidad discriminativa de los parámetros en sí, que, si son razonablemente codificados, van a presentar comportamientos similares. En este caso, podemos considerar que todas las codificaciones son razonablemente similares, con lo que nos quedaremos con la más simple de entre las que usan algún tipo de codificación: NORM-STD con 5 neuronas en la capa intermedia.

La tabla específica de resultados de tasa de discriminación para los mejores parámetros en todos los experimentos realizados sobre la lista PRNOK5TR (cuyas primeras posiciones las ocupa el parámetro número 17, con las tasas indicadas en la Tabla 4-8) se incluye en la Tabla 4-9, en la que se indica el parámetro dado, la tasa de discriminacion obtenida, la topología (INTER seguido del número de neuronas de la capa oculta usadas) y codificación usada y la diferencia relativa en error de discriminación entre cada resultado y el mejor de todos. Los parámetros incluidos son, insistimos, los mejor clasificados, pero algunos aparecen duplicados (hay dos entradas para los parámetros 19, 21, 11 y 12). El motivo es nuestra intención de mostrar la mejor tasa obtenida con cada parámetro, sea cual sea la topología, y, si la topología ganadora no es la que hemos decidido utilizar (NORM-STD y 5 neuronas en la capa oculta), la tasa para ésta, de modo que se pueda ver efectivamente que las diferencias entre tasas obtenidas variando la codificación y la topología no son significativas.

Tabla 4-8: Comparación de tasas de discriminación en la lista de entrenamiento para el parámetro mejor clasificado en codificación monoentrada (parámetro número 17)

Neuronas capa oculta Tipo de normalización Tasa

Diferencia relativa con el menor error

5 NORM-STD 73,56% 0,00% 10 NORM-STD 73,53% 0,13% 5 NORM-STD-CLIP 73,46% 0,39% 20 NORM-STD 73,39% 0,65% 10 NORM-STD-CLIP 73,37% 0,72% 20 NORM-STD-CLIP 73,32% 0,91% 20 NO-NORM 73,18% 1,43% 5 NO-NORM 73,13% 1,63% 10 NO-NORM 73,13% 1,63% 20 NORM-MAXMIN 72,10% 5,53% 10 NORM-MAXMIN 71,98% 5,99% 5 NORM-MAXMIN 71,77% 6,77%

Tabla 4-9: Resultados obtenidos en la tarea de discriminación con los mejores parámetros en la lista de entrenamiento en codificación monoentrada de entrada.

Parámetro Topología y codificación Tasa

Diferencia relativa con el menor error

Diferencia con el mejor resultado para

ese parámetro 17 INTER5-NORM-STD 73,56% 0,00% 19 INTER10-NORM-STD-CLIP 69,85% 14,06% 19 INTER5-NORM-STD 69,00% 17,25% 2,80% 21 INTER10-NORM-STD-CLIP 66,40% 27,08% 21 INTER5-NORM-STD 66,39% 27,15% 0,05% 11 INTER5-NORM-MAXMIN 64,44% 34,51% 11 INTER5-NORM-STD 64,34% 34,90% 0,29%

Apartado 4.4. Longitud de las listas de preselección 4-111

Volviendo a la lista de los mejores parámetros mostrada en la Tabla 4-9 (primeras posiciones

sólo, claro), estos resultaron ser1: 17 (desv01CosteAL), 19 (Desv01CosteALNormLL), 21

(desv1CosteAL), 11 (CosteAL1erCandNormLL), 12 (CosteAL1erCandNormNS1), 25 (Desv10CosteAL), etc., lo que fue una constante a lo largo de toda la experimentación realizada: los parámetros relacionados con la desviación estándar de la distribución de costes de acceso léxico de las palabras colocadas en las primeras posiciones de la lista de preselección son los más relevantes en la tarea discriminativa. Este último dato es sumamente interesante, ya que confirma la experiencia previa de algunos autores que utilizan precisamente medidas relacionadas con la dispersión de costes o probabilidades en sistemas de estimación de fiabilidad de reconocimiento. En estos parámetros se verificó igualmente que su poder discriminativo disminuye según aumentamos el número de elementos sobre los que se calcula (el número de candidatos de la lista de preselección usados para estimar su valor).

4.4.9.7.5 Resultados de discriminación usando un único parámetro con codificación

In document Arquitecturas y métodos en sistemas de reconocimiento automático de habla de gran vocabulario (página 107-111)