Entrenamiento con la Segmentación Manual de las Frases

4.2 Robustez Frente a Diferentes Locutores

4.2.4 Incorporación de Variabilidad de Locutor en la Estructura de Red de

4.2.4.1 Entrenamiento con la Segmentación Manual de las Frases

La cuarta parte de la base de datos Albayzín está segmentada, tal como se mencionó a la hora de hablar del entrenamiento de los modelos fonéticos en el apartado 3.3.4.2, pudiéndose utilizar esta segmentación para el entrenamiento de las unidades fonéticas.

Esta segmentación está dada en número de muestras que hay que convertir en número de tramas, teniendo en cuenta si es inicio o final de fonema para realizar la asignación de las tramas generadas a cada una de las unidades fonéticas.

La utilización de la segmentación manual de las frases de entrenamiento en unidades fonéticas proporciona las siguientes ventajas:

§ La secuencia de unidades fonéticas se corresponde exactamente con la que aparece en la frase pronunciada, por lo que no se producen errores de transcripción por asignación de tramas a modelos fonéticos que no hayan sido pronunciados.

§ Se impide que, por una velocidad elevada de pronunciación, tramas vecinas sean asignadas forzosamente a modelos fonéticos erróneos, puesto que si algún fonema tuviera una duración muy pequeña (inferior a una trama) o simplemente no hubiera sido pronunciado, no existiría a todos los efectos.

Figura 4-2. Segmentación manual de la palabra “Francia” de la frase “Francia, Suiza y Hungría ya

hicieron causa común.” y la correspondiente asignación a tramas de cada unidad fonética en función

de las fórmulas de conversión de tiempo a tramas.

En la Figura 4-2 se muestra la relación entre la segmentación manual hecha por un experto fonetista sobre la señal de voz y su reasignación en tramas según las fórmulas del apartado 3.3.4.2. Puesto que los vectores de características se calculan cada 16 ms, se puede comprobar que el error máximo con respecto a la segmentación sobre la señal de voz es de 8 ms. En este caso, las duraciones son bastante grandes, por lo que todas las unidades fonéticas tienen un número suficiente de estados para poder realizar la segmentación utilizando el algoritmo de Viterbi.

Un dato importante es que cada vector de características obtiene información procedente de un trozo de señal de 96 ms (32 + 32 + 32 ms), que se corresponde con el cálculo de los cepstrum de la señal de voz (ventana de 32 ms) y una regresión de segundo orden que utiliza los vectores calculados dos tramas antes (los 32 ms previos) y dos tramas después (los 32 ms posteriores), con lo que el grado de integración de señal es muy elevado (es como tener tramas con una ventana de 96 ms).

Figura 4-3. Segmentación de “...segundo en Vallad...” de la frase “El primero en Guipúzcoa y el

segundo en Valladolid.” y la asignación de tramas a cada unidad fonética en función de las fórmulas

de conversión de tiempo a tramas. El fonema “d” entre el “n” y el “o” no tiene ninguna trama.

Por otro lado, en la Figura 4-3 se muestra la segmentación de “...segundo en Vallad...” dentro de la frase “El primero en Guipúzcoa y el segundo en Valladolid”. En este caso, se muestra el fenómeno de la no aparición de trama alguna del fonema d entre los fonemas n y o, debido a que su duración es muy pequeña. De hecho, a todas las unidades fonéticas cuya duración sea inferior a 16 ms nunca se les asigna trama, y en las que tienen entre 16 y 32 ms depende de donde se localicen las segmentaciones (respecto del principio de la pronunciación, pueden tener una o ninguna trama, como el caso del fonema b).

También destaca en la Figura 4-3 la no existencia de silencios entre las palabras segundo, en y Valladolid. Para la segmentación automática es importante porque puede que otros locutores sí lo pronuncien y, por tanto, es necesario considerarlo. Además, se observa que el fonema e ha sido omitido y únicamente el fonema m se pronuncia en la palabra “en”. Al no existir silencio ni dicho fonema e, hay dos unidades fonéticas seguidas omitidas, pero que hay que considerarlas porque en otros casos puede que sí aparezcan.

Cada una de estas tramas correspondiente a una unidad fonética hay que asignarla a cada uno de sus estados, cuyo número se diseñó en función de la duración media que aparece en la base de datos.

Utilizando una red fonética de saltos simples para realizar la asignación de tramas a estados del modelo fonético, el algoritmo de Viterbi no es capaz de decodificar la secuencia de tramas de salida si el número de tramas es inferior al número de estados, debido a que no se avanza lo suficiente como para alcanzar el último estado del modelo fonético. Aunque la duraciones medias han tenido en cuenta este fenómeno asignando menos estados a los que tienen menor duración, muchas veces ocurre que el número de tramas es inferior al de estados. Para aprovechar estos vectores en el entrenamiento e incorporar el conocimiento sobre este tipo de fonemas de duración muy breve, se utiliza un método para asignar estos vectores a los modelos de unidades fonéticas en función del número de estados y de tramas:

§ Número de Estados = 3. El criterio utilizado es:

- Si el número de tramas es mayor que tres se utiliza el algoritmo de Viterbi para realizar la segmentación en estados, ya sea la red de saltos dobles o de saltos simples.

- Si el número de tramas es igual a tres, en el caso de la utilización de saltos dobles se aplica Viterbi, si se utilizan saltos simples se asigna una trama a cada estado.

- Si el número de tramas es igual a dos se asigna la primera trama al primer estado y la segunda trama al tercer estado. De esta manera, estas tramas que se encuentran en la frontera con los fonemas anteriores y posteriores se utilizan para caracterizar el inicio y fin del modelo.

- Si el número de tramas es igual a uno se asigna al estado central. Este estado también caracterizará a las unidades fonéticas de menor duración.

§ Número de Estados = 2. El criterio utilizado es:

- Si el número de tramas es mayor que dos se utiliza el algoritmo de Viterbi para realizar la segmentación en estados, sea la red de saltos dobles o simples.

- Si el número de tramas es igual a dos se asigna una trama para cada estado.

- Si el número de tramas es igual a uno se mira cuál de los dos estados modela mejor esa trama.

§ Número de Estados = 1. El criterio utilizado es:

- Sea cual sea el número de tramas, todas ellas son asignadas al único estado que existe, por lo que no es necesario aplicar Viterbi ni ningún criterio como en los casos anteriores.

En los casos donde no exista ninguna trama, porque su duración sea inferior a los 16 ms (nunca le corresponde ninguna trama) o entre 16 y 32 ms (tal como se ha mencionado, a veces puede no corresponder trama alguna), no hay ningún problema, simplemente se pasa a segmentar la siguiente unidad fonética.

4.2.4.2 Segmentación Automática de las Frases con Saltos Simples para el

In document Robustez en reconocimiento fonético de voz para aplicaciones telefónicas (página 117-120)