III. LA BASE DE DATOS.

(1)

III. LA BASE DE DATOS.

III.1. Introducción.

Para la extracción de los parámetros que caracterizan a cada emoción partimos de una base de datos que se compone de frases y párrafos recitados por un actor con voz normal y expresando alegría, enfado, sorpresa y tristeza.

La base de datos se compone para cada una de las emociones de 15 frases distintas grabadas en tres sesiones diferentes, es decir, disponemos en total de 45 frases para cada emoción, excepto para la voz normal que solo contamos con dos sesiones de 15 frases cada una. En cuanto a los párrafos disponemos también de tres sesiones por cada emoción, cada una de ellas conteniendo 4 párrafos, excepto para la voz normal donde contamos con 2 párrafos.

En total, la base de datos marcada se compone de más de 2000 fonemas para cada emoción.

(2)

En la elección de las frases y párrafos para evaluar los parámetros característicos en la expresión de emociones, se debe tener en cuenta que el contenido semántico y sintáctico de las frases sea neutro, es decir, que la semántica y la sintaxis no aporten ninguna información en cuanto a la expresión de emociones, pues lo que se pretende obtener son los parámetros concernientes exclusivamente a la voz que caracterizan las emociones.

En el anexo I se recogen los textos de las frases y los párrafos de la base de datos.

III.2. Marcado de la base de datos.

El primer paso para la obtención de los parámetros será el del marcado de dicha base de datos. Para ello utilizamos la herramienta PcVox para Windows desarrollada por el GTH, que permite la visualización y análisis de señal vocal.

Mediante esta herramienta se hará un marcado de la duración y el tono de los archivos de voz, grabados bajo un formato *.pcm, y dicho programa genera un archivo con extensión *.par donde se guarda la información relativa a la duración de los fonemas y el tono.

Para la duración, se pondrán manualmente etiquetas para marcar cada uno de los fonemas contenidos en el archivo y una o dos letras para caracterizar cada fonema.

Para la extracción del tono o frecuencia fundamental se empleará un método semiautomático. El PcVox dispone de una utilidad para la extracción del tono o marcado de la excitación global automática, pero posteriormente hay que realizar una revisión manual editando las

(3)

señal de voz, o lo que es lo mismo, el punto de cierre de la glotis, para colocar una marca por cada periodo. Para ello combina dos estimadores de dicho punto: el máximo de la envolvente de Hilbert y el punto de excitación causal del filtro de síntesis LPC que produce un mínimo error cuadrático medio en el periodo a tratar.

En cada punto con marca, el tono se calcula como el inverso de la distancia a la siguiente marca.

Una vez extraído el tono, hay que realizar una revisión manual en la que se eliminan marcas espúreas, sobre todo aquellas que aparecen en los sonidos sordos y remarcar las zonas en la que el algoritmo pierde la sincronización.

Algunos de los problemas que hay que solucionar con la revisión manual de las marcas son:

El programa pone un gran número de marcas y además próximas entre sí en los fonemas fricativos: f, x, j z, que en realidad son sordos. Estas marcas deben de ser eliminadas y dejar sólo algunas bastantes espaciadas que sirvan de referencia.

Si el tono es bajo lo que sucede es que el algoritmo tiende a poner una marca espúrea entre dos reales, con lo que hace es duplicar el tono, como sucede en la tristeza.

Cuando existen zonas sonoras de larga duración, es decir, hay algún fonema sonoro largo o existen varios fonemas sonoros seguidos, el programa suele perder la sincronización y no pone marcas en estas zonas. Este fenómeno es más frecuente cuando el tono es elevado, como en la sorpresa.

Otro fallo que se debe corregir manualmente es cuando el programa cambia el criterio de elección del punto donde coloca la marca dentro

(4)

de un periodo. En ese punto no habrá una pérdida de la curva de tono como en el caso anterior, sino que habrá un salto o discontinuidad de la curva de tono.

En las transiciones de un sonido oclusivo a una vocal, suele aparecer un pico espúreo en la curva de tono debido a que la primera marca del sonoro suele estar muy cerca de la segunda.

Hay que notar también la dificultad en la marcación de los sonidos vibrantes debidos a su poca regularidad.

La revisión manual tiene mayor importancia en las emociones en las que la forma de onda presenta más irregularidades, como en el enfado.

En la figuras 3.1 y 3.2 vemos un ejemplo del marcado de la duración y del tono.

(5)

Fig.3.2: Ejemplo de marcado de la duración mediante etiquetas.

III.3.3. Conclusiones del marcado de la base

de datos.

III.3.1. Alegría.

Durante el marcado de las frases y párrafos alegres se observó que la curva de tono no se ajustaba a un único patrón sino que variaba según donde el actor decidiera poner el foco del grupo fónico o de la frase, lo cual se traduce en que una misma frase era recitada con distintos patrones entonativos para expresar la alegría.

Esta variabilidad del modelo entonativo para la alegría, hace que no todas las frases se ajusten al modelo de entonación utilizado en el sintetizador BORIS, por lo cual hicimos una selección de aquellas frases que se ajustan al modelo existente, es decir, aquellas frases cuya curva

(6)

de tono se pueden aproximar por una línea de tono descendente (con pendiente negativa)desde la primera tónica .

Se descartaron aquellas frases en las que el actor colocaba el foco en el centro de la frase, pues en estas frases la curva de tono subía hasta el foco y desciende desde el foco hasta el final de la frase.

En los siguientes ejemplos (figuras 3.3 y 3.4) podemos ver como el actor utiliza diferentes patrones entonativos para una misma frase: “ Dejaron la deuda al cero”.

(7)

Fig. 3.4: f_a_1103, “dejaron la deuda al cero”

En el primero de los casos, la curva de tono se puede aproximar por una recta descendente que interpola las 3 tónicas: ‘e, ‘e, ‘e, mientras que en el segundo caso la curva de tono no es aproximable por una sola recta, sino que es una recta ascendente de la primera a la tónica central y una recta descendente de la tónica central a la final. En este segundo caso, el actor ha decidido colocar el foco de la frase en la 2ª tónica.

Otro ejemplo de esta variabilidad se da en la frase “Le gusta mucho el gregoriano” (figuras 3.5 y 3.6).

(8)

Fig. 3.5: f_a_1204, “Le gusta mucho el gregoriano”.

(9)

En este ejemplo vemos también que en el primero de los casos el tono de las tónicas puede aproximarse por una recta descendente, mientras que en el segundo ejemplo el tono máximo se asigna a la tónica central.

III.3.2. Enfado.

En el marcado de las frases y párrafos enfadados se observó que la fuente de voz no presenta tanta regularidad y claridad como la correspondiente a las otras emociones, sino que lleva superpuesto una especie de ruido generado por el actor. Esto, como veremos más adelante, nos llevará a la conclusión de que uno de los principales rasgos que diferenciarán a la emoción del enfado será la fuente glotal y no tanto las diferencias prosódicas. Este ruido dificulta el marcado del tono.

(10)

En la figura 3.7 se compara la ‘a’ acentuada de Arrizabalaga de una frase enfadada (arriba) con la de una frase neutra. Se puede observar como en el caso de la frase enfadada la forma de onda es más irregular por la superposición de una especie de ruido.

Fig. 3.8: f_n_1001, f_e_1009.

En esta figura se comparan dos ‘i’. La superior corresponde a una i de una frase normal, mientras que la inferior corresponde a una frase enfadada. Puede observarse como se complica el marcado para el caso del enfado.

III.3.3. Sorpresa.

(11)

contrario a las demás emociones: para la sorpresa la curva entonativa se puede aproximar por una recta ascendente a diferencia del resto de las emociones, en que la curva de tono es descendente.

Fig. 3.9: f_s_0913. “Gozan de perfecta salud”.

En la figura se puede apreciar el elevado tono de las frases sorprendidas, que exceden el rango visual del Pcv.

III.3.4. Tristeza.

En el marcado de las frases y párrafos de tristeza se observó un tono y una intensidad menor que el del resto de las emociones.

(12)

Fig. 3.10: f_n_1201, f_t_1207, “Le gusta mucho el gregoriano”.

En esta figura podemos comparar la mayor intensidad y tono de una frase triste (abajo) frente a una frase normal (arriba).

Otra característica, que es común para varias emociones, es una disminución significativa de la intensidad en el final de las frases o grupos fónicos, en las que la voz se convierte en muchos casos en una especie de susurro perdiendo su regularidad y dificultando enormemente su marcado.

(13)

Fig. 3.11: f_n_1002.

(14)

Fig. 3.13: f_t_1207.

En las figuras 3.11, 3.12 y 3.13 vemos el final de una frase normal, un alegre y una triste.