Mecanismos de generación de variaciones de pronunciación dirigidas por

5.3 Múltiples pronunciaciones

5.3.8 Mecanismos de generación de variaciones de pronunciación dirigidas por

5.3.8.1 Estrategias de generación

La generación de variaciones de pronunciación se hace en nuestra propuesta a partir de la información proporcionada por un módulo de análisis fonético basado en el algoritmo de un paso que calcula la secuencia óptima de unidades acústicas para cada palabra de entrada. Obviamente dicha secuencia corresponderá en muy pocos casos con la pronunciación canónica de la palabra a reconocer y es precisamente de los errores cometidos por ese decodificador acústico de donde buscamos extraer las múltiples pronunciaciones.

Para nuestros propósitos, veremos el proceso como uno de corrección1 del diccionario

canónico, y estudiaremos distintas estrategias para limitar esa corrección a unos niveles razonables: • Corrección sin limitación: todas las palabras (cadenas fonéticas) contribuyen a generar

variantes

• Corrección limitada a aquellas palabras para las que hay más de un determinado número de ejemplos. Como parámetro de control se incluye el número de repeticiones mínimas necesarias para considerar su inclusión en la lista de nuevas pronunciaciones. La idea es no atender a variantes que no van a poder ser validadas con un mínimo de fiabilidad

• Corrección limitada a aquellas producciones que introducen un número determinado

máximo de errores de alineamiento. Como parámetro de control se incluye el número máximo de errores de alineamiento permitidos, en valor absoluto o como porcentaje del número de símbolos de la cadena. La idea es no atender a variantes que introducen una variación excesiva con respecto a la pronunciación canónica.

Tabla 5-12: Evaluación cuantitativa del efecto marginal de la introducción de la selección de reglas para la tarea LOO completa con el diccionario de 1952 palabras y el sistema integrado con modelos

semicontinuos dependientes del contexto

Medida Número % del total Valor medio

Palabras mejores con canónico 548 5’62%

Palabras mejores con variante 109 1’12%

Palabras iguales 9099 93’27%

Ganancia Absoluta canónico 1856 3’4

Ganancia Absoluta variante 1387 12’7

Ganancia Relativa canónico 41’06%

Ganancia Relativa variante 78’56%

1. Entendiendo por corrección la modificación/incorporación/eliminación de transcripciones del diccionario canónico.

Apartado 5.3. Múltiples pronunciaciones 5-161

• Corrección limitada a aquellas producciones que producen errores de reconocimiento

(refuerzo negativo). Como parámetro de control se incluye el tamaño de la lista de preselección que se considerará como acierto (medido como porcentaje del tamaño del diccionario). La idea es reflejar las variaciones de aquellas palabras que no han sido correctamente reconocidas, con la intención de recuperarlas. La crítica fundamental a este enfoque es que permite el aprendizaje de cadenas (variaciones de pronunciación) especialmente malas, lo que puede incidir negativamente en el sistema.

• Corrección limitada a aquellas producciones que producen aciertos de reconocimiento

(refuerzo positivo). Como parámetro de control se introduce el mismo que en el caso anterior. La idea aquí es reflejar las variaciones de aquellas palabras que han sido correctamente reconocidas, con la intención de potenciar dicho acierto asumiendo que dichas variaciones ofrecen alternativas reales de pronunciación. La crítica fundamental a este enfoque es que su capacidad de aprendizaje es limitada, al no considerar cadenas problemáticas, lo que puede producir un impacto poco apreciable en el sistema. Comparando el refuerzo negativo y el positivo, podríamos decir que el primero responde a potenciar el aprendizaje de un modelo de error, mientras que el segundo se centra en aprender variaciones de pronunciación.

5.3.8.2 Estrategias de filtrado (reducción)

La idea detrás de las estrategias de filtrado es, en todos los casos, limitar la complejidad introducida en el espacio de búsqueda acústico por el aumento en el número de entradas, dejando aquellas que son realmente relevantes para nuestra tarea, por los beneficios (de nuevo: globales y/o particulares) que reporta en el rendimiento.

Todas las estrategias de filtrado parten de la validación de las propuestas generadas por los mecanismos descritos en el apartado anterior, enfrentando a la base de datos de entrenamiento con los nuevos diccionarios. Nuestra propuesta consiste en estudiar el grado de uso de la estructura de árbol usada, entendiendo por grado de uso el número de veces en las que cada nodo particular formaba parte del camino óptimo recorrido. Así, nuestro método permite tener una idea muy precisa de hasta qué punto hay alternativas que se utilizan de forma efectiva y cuáles no. El procedimiento práctico consiste en, para toda la base de datos de entrenamiento, alinear cada cadena con el diccionario y anotar el número de veces que se recorre cada nodo.

El tratamiento de las pronunciaciones canónicas presenta varias alternativas. En nuestro caso optamos por analizar el efecto de no favorecerlas de ningún modo o hacerlo (básicamente obligando a realizar un alineamiento con la pronunciación canónica para cada alineamiento de la base de datos de entrenamiento, de cara a mantener un uso elevado de las mismas). Los mejores resultados en experimentos previos se obtuvieron con este último enfoque, lo que es comprensible ya que, de otro modo, estaríamos permitiendo que las pronunciaciones canónicas desaparecieran, con el consiguiente perjuicio para las producciones de habla estándar.

Una vez disponibles las ocurrencias de cada nodo, analizamos un amplio abanico de métodos de medida de importancia relativa de los mismos, de cara a su eliminación. En este punto introducimos el concepto de grupo de nodos finales, entendiéndolo como aquel conjunto de nodos finales que están asociados a una misma palabra (en la estructura de árbol, cada palabra puede tener varias pronunciaciones, lo que se traduce en distintos nodos finales, cada uno asociado a una de ellas). El número de ocurrencias permite estimar valores de probabilidad, que se calculan para cada nodo final. Así, las medidas realizadas fueron las siguientes:

• Impacto en la probabilidad global de cada nodo final (calculado sobre el total de nodos finales): Se eliminan los menos probables.

• Impacto en la probabilidad parcial (calculado sobre el total de nodos del grupo de nodos finales al que pertenece el considerado): Se eliminan los menos probables.

Capítulo 5. Selección de unidades y diccionarios 5-162

• Impacto en la entropía global (calculado como el aumento de entropía que supondría

eliminar ese nodo en el conjunto de todos los nodos finales). Se eliminan los que menor aumento de entropía produzcan.

• Impacto en la entropía parcial (calculado como el aumento de entropía que supondría

eliminar ese nodo en el conjunto de los nodos de su grupo). Se eliminan los que menor aumento de entropía produzcan.

Insistimos en que en el proceso de cálculo y eliminación, sólo se consideraban los nodos finales, obviamente, dado que usamos una estructura en forma de árbol. En un caso general en el que planteáramos el uso de grafos, habría que considerar también la posibilidad de eliminar nodos en cualquier punto de la estructura, lo que complica notablemente el mecanismo de decisión.

Así, una vez etiquetados convenientemente los nodos, se ordenan de acuerdo con el criterio a seguir en cada caso (de los cuatro vistos) y se elimina un porcentaje determinado de los mismos, con el objetivo de reducir el tamaño del espacio de búsqueda que tenemos tras la corrección y antes del filtrado, lo que especificamos como un porcentaje de incremento con respecto al del diccionario canónico.

La consideración más importante en cuanto a la realización práctica de las medidas es el efecto del tamaño del grupo de nodos finales en las mismas. Para grupos muy pequeños nos encontramos con problemas de estimación y, en general, con posibles valores nulos. Tras una experimentación previa, se llegó a la conclusión de que la mejor forma de evitar dichos problemas era aplicar un suavizado umbral, de la misma forma que describimos para el caso de modelos acústicos.

Por último, mencionar que el cálculo de aumento de entropía presenta problemas prácticos. Si pensamos en la implicación de una eliminación de un nodo, está claro que su pérdida debería implicar el reparto de la probabilidad asociada al mismo entre el resto de posibilidades. La aproximación inmediata al problema es repartir de forma proporcional al resto de probabilidades, pero en ningún momento tendremos la certeza de que dicho reparto se haría de esa forma si volviéramos a realizar el proceso de alineamiento. El cálculo exacto implica un coste computacional sumamente elevado y experimentos previos con listas reducidas mostraron que las diferencias en la calidad de la ordenación no son significativas, si comparamos el método exhaustivo con el aproximado que hemos descrito y que es el finalmente utilizado.

In document Arquitecturas y métodos en sistemas de reconocimiento automático de habla de gran vocabulario (página 160-162)