Resultados con Unidades Fonéticas Dependientes de Contexto

5.2 Resultados de Robustez en Condiciones de Laboratorio

5.2.6 Resultados con Unidades Fonéticas Dependientes de Contexto

Hasta ahora todas las pruebas realizadas se han llevado a cabo utilizando modelos de unidades fonéticas independentes de contexto (monofonemas), puesto que el tamaño de la base de datos de entrenamiento está bastante limitado aún cuando se utilice el entrenamiento con segmentación automática. Sin embargo, estas unidades así entrenadas no presentan mucha resolución, al utilizar vectores de características procedentes de fonemas en multitud de contextos diferentes. A continuación se analiza qué ocurre cuando se introducen algunas unidades dependientes de contexto.

Como se menciona en el apartado 2.3.4.4 sobre modelado de unidades fonéticas, es posible entrenar uno o los dos contextos del fonema a la vez. En este caso, se ha optado por considerar un conjunto limitado de bifonemas izquierdos correspondientes a los fonemas vocálicos. La razón reside en el hecho de que las vocales son las que presentan una mayor duración y, por tanto, en la base de datos están mejor representadas. Entre todos los bifonemas izquierdos de vocales se ha optado por considerar aquellos que por lo menos aparecen 100 veces en la base de datos. Las unidades consideradas son las siguientes:

• a[<,*] a[B,*] a[D,*] a[J,*] a[i,*] a[k,*] a[l,*] a[m,*] a[n,*] a[p,*] a[r,*] a[s,*] a[t,*] a[*,*]

• e[&,*] e[<,*] e[B,*] e[D,*] e[L,*] e[T,*] e[j,*] e[l,*] e[m,*] e[n,*] e[p,*] e[r,*] e[s,*] e[t,*] e[w,*] e[x,*]

• i[B,*] i[l,*] i[m,*] i[n,*] i[r,*] i[t,*]

• o[D,*] o[J,*] o[L,*] o[j,*] o[k,*] o[l,*] o[m,*] o[n,*] o[p,*] o[r,*] o[s,*] o[t,*]

• u[<,*] u[G,*] u[m,*] u[t,*]

Se utiliza el contexto izquierdo porque en castellano el número de sílabas CV es mayor al de otras configuraciones y, como en los grupos silábicos es donde se produce el mayor grado de coarticulación, su entrenamiento puede ayudar a aumentar el grado de reconocimiento.

Estas unidades son entrenadas usando el segmentador automático de saltos dobles. Durante el entrenamiento, aquellas unidades que no se corresponden con ninguno de estos modelos se sustituyen por monofonemas (como en el caso de todas las consonantes y un subconjunto de las vocales), que no son reentrenados.

Estas nuevas unidades suponen 153 nuevos modelos de estado frente a los 82 de los monofonemas, por lo que no supone un valor excesivo que disminuya de forma importante las prestaciones en eficiencia.

5.2.6.1 Unidades Dependientes de Contexto y las Técnicas de

Independencia del Canal de Comunicaciones.

En primer lugar, se analiza el funcionamiento del reconocedor cuando se utilizan las unidades dependientes de contexto con diferentes técnicas de robustez frente al canal de comunicaciones.

Tabla 5-IX. Tasas de error dependiendo del tipo de unidades fonéticas utilizadas. Por un lado, sólo monofonemas (M), por el otro M con bifonemas izquierdos de vocales (BIV)

34 M (82 E) 34 M + 51 BIV (235 E) RASTA 0,92 CMN RASTA 0,92 CMN

NOM_100_TEL 4,71 % 4,48 % 3,21 % 2,85 % DIG_15_TEL 14,52 % 12,57 % 14,14 % 12,31 %

En la Tabla 5-IX se muestra la tasa de error de la base de datos de reconocimiento de nombres y apellidos con unidades independientes de contexto, y cuando se incluyen ciertas unidades dependientes de contexto como son las vocales en

contexto izquierdo (M + BIV) para el caso de utilizar filtrado RASTA con K igual a 0,92 y CMN. Para ambas bases de datos, NOM_100_TEL y DIG_15_TEL, se obtiene una mejora gracias a la utilización de modelos dependientes de contexto, aunque en el caso de la segunda la mejora es algo inferior debida a que el número de unidades nuevas utilizadas es más reducido en el caso de los dígitos que en el de los nombres.

La reducción sobre la base de datos NOM_100_TEL y la técnica CMN usando bifonemas permite disponer de una tasa de error similar a la que se obtiene con monofonemas y rechazo de palabras con score de 30, pero con un 7,21 % más de acierto al no haber eliminación de palabras con calidad mala.

Para la base de datos DIG_15_TEL la mejora es mucho más ligera porque el número de bifonemas utilizados por el vocabulario de dígitos es más reducido.

5.2.6.2 Unidades Dependientes de Contexto y Rechazo de Palabras.

Una vez constatado que la utilización de unidades dependientes de contexto permite una disminución en la tasa de error similar a la que se obtiene con rechazo de palabras y monofonemas, pero sin tener un factor adicional de palabras rechazadas, es interesante analizar lo que ocurre cuando se utiliza rechazo y unidades dependientes de contexto a la vez.

Tabla 5-X. Tasas de error y de rechazo del reconocedor cuando se imponen diferentes niveles de calidad de la palabra reconocida en función de la técnica de robustez frente al canal de

comunicaciones para la base de datos NOM_100_TEL y M + BIV.

Nada Score 0 Score 10 Score 20 Score 30 Score 40

T.E. 3,20 % 2,93 % 2,78 % 2,32 % 1,68 % 1,20 % RASTA K=0,92 T.R. 0,00 % 0,74 % 1,20 % 3,21 % 7,11 % 12,20 % T.E. 2,85 % 2,62 % 2,47 % 2,22 % 1,76 % 1,35 % CMN T.R. 0,00 % 0,64 % 1,12 % 2,57 % 5,17 % 9,96 %

En la Tabla 5-X se observan los resultados cuando se impone un nivel de calidad mínimo a partir de un modelo de basura obtenido de las distancias a los modelos de estado de los monofonemas para RASTA con K igual a 0,92 y para CMN. En ambos casos se constata una sensible reducción en la tasa de error al incrementarse el nivel de calidad mínimo exigido. Estos resultados son mucho mejores que los obtenidos con monofonemas, porque se puede llegar a tener un error del 1,20 %

con sólo un rechazo del 12,23 % para aplicaciones que requieran un nivel de fiabilidad muy elevado con RASTA, en el caso CMN una tasa de error de 1,35 % con un rechazo del 9,96 %.

0% 2% 4% 6% 8% 10% 12% 14% 16% Nada_R092

Score 0 - R092_{Score 10 - R092}_{Score 20 - R092}_{Score 30 - R092}_{Score 40 - R092} Nada_CMN

Score 0 - CMNScore 10- CMNScore 20- CMNScore 30- CMN_{Score 40 - CMN} Umbral de calidad mínima exigida

Tasa de error

T.R. T.E.

Figura 5-4. Gráfico con los resultados de tasa de error y de rechazo en función del valor de corte de la puntuación de la palabra reconocida para RASTA con K igual a 0,92 y para CMN y con M + BIV.

En la Figura 5-4 se muestran los mismos resultados de la Tabla 5-X pero de forma gráfica. Se observa más claramente la influencia que la variación del score provoca sobre la tasa de error y de rechazo. Un valor demasiado exigente de la calidad permite una reducción del error, pero a costa de un incremento cada vez mayor de la tasa de rechazo.

In document Robustez en reconocimiento fonético de voz para aplicaciones telefónicas (página 168-171)