5.2 Resultados de Robustez en Condiciones de Laboratorio
5.2.2 Resultados con las Técnicas de Independencia de Locutor
En este apartado se exponen los resultados obtenidos al aplicar técnicas que permiten aumentar la independencia del locutor según el apartado 4.2.
5.2.2.1 Resultados con Saltos Dobles y Entrenamiento Automático.
Los aspectos que se analizan sobre la independencia de locutor son: • Estructura de red de saltos simples (SS) vs. saltos dobles (SD). • Entrenamiento manual (EM) vs. entrenamiento automático (EA).
Realmente, no todas las posibilidades son factibles. Por ejemplo, como se menciona en el apartado 4.2.4.2, el entrenamiento automático con saltos simples no es posible porque los modelos entrenados divergen en cada iteración debido a que la segmentación no es capaz de acomodarse a velocidades de pronunciación elevadas.
Tabla 5-I. Tasas de error del reconocedor fonético de voz utilizando técnicas de robustez para conseguir la independencia de locutor.
Entrenamiento manual Entrenamiento automático Saltos simples Saltos dobles
BD_ALB_1 BD_ALB_1 BD_ALB_2 BD_ALB_2 + NOM
NOM_100_TEL 6,27 % 6,14 % 7,19 % 5,31 % DIG_15_TEL 19,50 % 22,48 % 19,35 % 19,42 % DIG_13_MIC 8,59 % 10,60 % 11,03 % 10,01 %
En la Tabla 5-I se muestran los resultados correspondientes a la introducción de las diferentes técnicas de robustez frente a la variabilidad del locutor. BD_ALB_1 se corresponde con la parte de la base de datos del proyecto Albayzín que está segmentada, BD_ALB_2 es la base de datos Albayzín completa y BD_ALB_2 + NOM es el entrenamiento con la base de datos Albayzín completa al que se ha incorporado una pequeña base de datos de nombres a través de canal telefónico (formada por un conjunto de nombres grabados en llamadas reales con un total de 200 grabaciones).
0% 5% 10% 15% 20% 25%
SS_EM_ALB1 SD_EM_ALB1 SD_EA_ALB2 SD_EA_ALB2+N
Tipo de entrenamiento
Tasa de error
NOM_100_TEL DIG_15_TEL DIG_13_MIC
Figura 5-1. Gráfico con los resultados de tasa de error en función del tipo de entrenamiento para las tres bases de datos de reconocimiento.
En la Figura 5-1 se observan gráficamente los resultados de tasa de error de la Tabla 5-I para las tres bases de datos de reconocimiento, utilizando cuatro maneras diferentes de entrenar los modelos para mejorar la independencia de locutor.
Para la base de datos de reconocimiento NOM_100_TEL, el efecto de los saltos dobles sobre la tasa de error es una ligera reducción frente al obtenido usando saltos simples. Esto es así porque la velocidad de pronunciación en ciertas palabras es muy elevada, consiguiendo los saltos dobles una mejora.
Sin embargo, cuando el entrenamiento se realiza mediante la segmentación automática de Albayzín, se obtiene una tasa de error mayor que con la segmentada manualmente (que consta únicamente de un 25 % de las frases del corpus de aprendizaje). Esto se debe a que existen tres fenómenos:
- Se aumenta el número de locutores, por lo que los modelos presentan mayor variabilidad.
- Se producen confusiones debido a los errores de transcripción y de segmentación que aparecen. Esta descompensación es mayor que la mejora por introducir más modelos.
- Sigue existiendo desadaptación entre las bases de datos en entrenamiento y en reconocimiento.
Al añadir una pequeña base de datos de nombres pronunciados a una velocidad normal a través de canal telefónico se obtiene una disminución en la confusión de los modelos, lo que produce una mejora en la tasa de error por encima de la que se obtenía con los modelos entrenados a partir de la base de datos segmentada manualmente. Esta pequeña base de datos sirve para ajustar en cierto grado las diferencias ocasionadas por la desadaptación del canal de comunicaciones.
Los resultados para la base de datos DIG_15_TEL son algo diferentes. En primer lugar, la tasa de error con saltos simples es menor que con saltos dobles. Realmente, la mayor parte de las palabras obtienen tasas de error menor, pero existen tres palabras que la empeoran de forma sustancial, que son ayuda, ocho y no. En el caso de ayuda se pasa de un 52 %de error de reconocimiento con saltos simples a un 83 % con saltos dobles. Esto puede ser debido a que los fonemas que contienen (como el caso del fonema Z en ayuda o del tS en ocho) no están bien entrenados con la base de datos utilizada por no tener suficiente número de repeticiones, por lo que la introducción de saltos dobles aumenta el grado de confusión entre palabras similares. Sin embargo, al pasar al entrenamiento automático se obtienen mejores resultados, ya que se aumenta el número de apariciones de dichos fonemas en el entrenamiento.
Con la base de datos DIG_13_MIC se produce el mismo fenómeno al pasar de saltos simples a saltos dobles, al no estar ciertos modelos fonéticos bien entrenados la introducción de más posibilidades en el algoritmo de Viterbi redunda en un aumento de la tasa de error. Con el entrenamiento automático los resultados son algo diferentes, pues las tasas de error mejoran respecto al de saltos dobles, pero son ligeramente peores que las de saltos simples.
5.2.2.2 Resultados de Usar Saltos Dobles en Entrenamiento y Simples en
Reconocimiento de Dígitos.
Como se puede constatar en la Tabla 5-I para el caso del reconocimiento de dígitos, el funcionamiento con saltos simples es mejor que con saltos dobles utilizando la segmentación manual de las frases. A continuación, se muestran los resultados comparativos cuando se utilizan saltos simples en reconocimiento, aún cuando el entrenamiento se haya realizado con saltos dobles.
Tabla 5-II. Tasas de error del reconocedor fonético de voz utilizando técnicas de robustez para conseguir la independencia de locutor.
BD_ALB_2 BD_ALB_2 + NOM Saltos simples Saltos dobles Saltos simples Saltos dobles
DIG_15_TEL 15,80 % 19,35 % 16,23 % 19,42 % DIG_13_MIC 7,83 % 11,03 % 7,67 % 10,01 %
Como se puede apreciar en la Tabla 5-II, la utilización de los saltos dobles en el reconocimiento de dígitos, no sólo no produce mejora, sino que incluso resulta perjudicial al producirse un incremento notable en la tasa de error.
La razón de este incremento en la tasa de error puede ser debida a que al tratarse de palabras tan breves, la introducción de un mayor número de posibilidades en el algoritmo de Viterbi provoca una disminución del grado de discriminación superior a la adaptación que se consigue al permitir una mejor adaptación a diferentes velocidades de elocución.
Por este motivo, el resto de medidas realizadas en este capítulo con las bases de datos de dígitos utilizan red de reconocimiento con saltos simples, mientras que con la base de datos de nombres se sigue utilizando la red con saltos dobles por obtenerse una mejora clara en este caso.