Uso de alfabetos manuales (modelos independientes del contexto)

5.2 Experimentos selección de unidades y modelado

5.2.3 Uso de alfabetos manuales (modelos independientes del contexto)

El estudio de la potencia de modelado de cada uno de los alfabetos considerados se hizo de forma intensiva en la arquitectura no integrada, aunque las conclusiones obtenidas del mismo se han verificado en los sistemas integrados. La dependencia fundamental se encuentra en las características de la base de datos en estudio.

La experiencia previa en nuestro grupo muestra que si la base de datos de entrenamiento es lo suficientemente grande, el incremento del número de unidades a modelar proporciona siempre mejores resultados cuando se aplica a la misma base de datos de entrenamiento [Macías96i], y que los resultados son dispares en la de evaluación.

En POLYGLOT, el alfabeto más simple (alf23) ha sido el que ha proporcionado los mejores

resultados en las bases de datos de evaluación como se muestra en la gráfica de la izquierda de la Figura 5-5. Sin embargo, al analizar los mismos para la base de datos de entrenamiento observamos que la tendencia comentada en el párrafo anterior no se conserva, produciéndose el mejor comportamiento para el alfabeto alf33 (como puede verse en la gráfica de la derecha de Figura 5-5). La explicación a

este hecho radica en la limitada base de datos de entrenamiento de la que disponíamos.

En la Tabla 5-3 se muestra la comparación entre el uso del alfabeto alf23 y el alf45, para

la base de datos de evaluación, donde puede apreciarse el considerable deterioro de las tasas obtenidas.

En VESTEL-L, sin embargo, se observa un mejor comportamiento en todos los casos a medida que incrementamos el número de unidades (tanto en las bases de datos de entrenamiento como en las de evaluación), salvo cuando llegamos al compuesto por 51 unidades (alf51), en las que la tasa

de error aumenta ligeramente (aunque las diferencias, si bien consistentes, no son estadísticamente significativas al compararlas con alf45). La explicación es el entrenamiento más deficiente de

Tabla 5-3: Cuadro comparativo de mejora media al usar el alfabeto alf45 frente a alf23 para

modelos semicontinuos para la base de datos POLYGLOT y diccionario de 2000 palabras

Posición de la curva de error de inclusión

Mejora relativa media para el rango considerado Sistema no integrado

(rango de tasa de error base)

Sistema integrado (rango de tasa de error base)

1er candidato -26’63% (22’59%) -14’94% (15’21%)

0-1% lista -29’35% (22’59%-2’99%) -14’88% (15’21%-2’14%)

0-5% lista -32’09% (22’59%-0’71%) -1’46%% (15’21%-0,48%)

0-10% lista -27’93% (22’59%-0’29%) 0’04% (15’21%-0’18%)

Figura 5-5: Detalle de la curva de tasa de error de inclusión para la tarea POLYGLOT con las bases de datos de evaluación (izquierda) y entrenamiento (derecha), en función del alfabeto manual utilizado

0% 2% 4% 6% 8% 10% 12% 14% 16% 0,01% 0,10% 1,00%

% (Long. lista preselección / Tamaño diccionario)

Tasa de error de inclusión (evaluación)

alf23 sc no integrado alf33 sc no integrado alf45 sc no integrado alf51 sc no integrado 0,0% 0,5% 1,0% 1,5% 2,0% 2,5% 3,0% 3,5% 4,0% 4,5% 5,0% 0,01% 0,10% 1,00%

% (Long. lista preselección / Tamaño diccionario)

Tasa de error de inclusión

(entrenamiento)

alf23 sc no integrado alf33 sc no integrado alf45 sc no integrado alf51 sc no integrado

Apartado 5.2. Experimentos de selección de unidades y modelado 5-145

algunas unidades en alf51, como se puede ver en el Anexo D "Alfabetos utilizados", a partir de la

página 201, que fue el motivo de la creación de alf45 a partir de alf51. Las mejoras obtenidas entre

el alfabeto más simple (alf23) y el más complejo de los seleccionados (alf45) son consistentes en

todo el rango de longitudes de lista y sí son estadísticamente significativas, para un rango razonablemente amplio de valores de la longitud de la lista de preselección (alrededor del 4%). En la Tabla 5-4 se muestran dichos porcentajes de longitud de lista de preselección para los que las diferencias son significativas (entre paréntesis se muestra igualmente la tasa de error correspondiente a esa longitud de lista). La mejora es, en cualquier caso, si no significativa, consistente, por lo que

alf45 será el alfabeto a elegir como óptimo en esta tarea.

En la Tabla 5-5 se muestran a modo de ejemplo los datos cuantitativos de la comparación para el diccionario 10000-85-15 y modelos semicontinuos, siendo estos similares para los otros diccionarios.

En la Figura 5-6 se muestran las curvas de reducción relativa de tasa de error entre el uso de los alfabetos alf23 y alf45, para las arquitecturas integradas y no integradas y la tarea VESTEL-L

con el diccionario 10000-85-15. La zona más ruidosa para posiciones entre el 1% y el 10% de longitud de lista, especialmente en el caso de la arquitectura integrada (gráfica de la derecha), se debe al hecho de tener tasas de error muy pequeñas en esos puntos, que hacen que la medida de variación relativa pueda variar de forma más brusca.

Dichas curvas muestran, de nuevo, la mayor capacidad del modelado semicontinuo para aprovechar la información acústica disponible en el entrenamiento, esta vez aplicándola a un alfabeto más completo, aunque en el caso del sistema integrado, las diferencias son menos acusadas en la parte inicial de la curva.

Si nos referimos a la comparación arquitectural, de nuevo los comportamientos son

heterogéneos. La introducción del modelado alf45 fue mejor aprovechada por la arquitectura no

integrada para las mejoras promedio hasta el 1%, 5% y 10%. Sin embargo, la mejora para el primer candidato fue consistentemente mejor para la integrada. Si nos fijamos en los comportamientos

Tabla 5-4: Porcentaje de la curva de tasa de error de inclusión para el que las diferencias al usar los alfabetos alf23 y alf45 son estadísticamente significativas para la tarea VESTEL-L, con distintos

diccionarios y modelado semicontinuo

Diccionario Tarea VESTEL-L

Longitud de lista1 para la que las diferencias son estadísticamente significativas (tasa de error en ese punto)

1. Medida como porcentaje del tamaño del vocabulario

1952 4’41% (3’96%)

5000-85-15 3’84% (3’98%)

10000-85-15 3’85% (3’92%)

Tabla 5-5: Cuadro comparativo de mejora media al usar el alfabeto alf45 frente al alf23, con

modelado semicontinuo para la base de datos VESTEL-L y diccionario 10000-85-15.

Posición de la curva de error de inclusión

Mejora relativa media para el rango considerado Sistema no integrado

(rango de tasa de error base)

Sistema integrado (rango de tasa de error base)

1er candidato 7’55% (51’36%) 10’74% (31’99)

0-1% lista 20’13% (51’36%-15’25%) 15’34% (31’99%-5’07%)

0-5% lista 20’17% (51’36%-5’66%) 16’72% (31’99%-1’23%)

Capítulo 5. Selección de unidades y diccionarios 5-146

completos, mostrados en la Figura 5-6, la arquitectura integrada proporciona mayores mejoras hasta una longitud de lista del orden del 0’2% (círculos marcados) y a partir de ese punto, es la no integrada la que se beneficia más del incremento de complejidad del alfabeto. La conclusión es que no es posible establecer pautas de aplicación general en cuanto a la relación entre arquitecturas y la eficacia del uso de distintos alfabetos.

In document Arquitecturas y métodos en sistemas de reconocimiento automático de habla de gran vocabulario (página 144-146)