Frecuencia - Rasgos cl´asicos m´as usados

3. EXTRACCI ´ ON DE CARACTER´ISTICAS

3.2. Rasgos cl´asicos m´as usados

3.2.1. Frecuencia

Frecuencia fundamental

La frecuencia fundamental, a veces conocida comopitch, se representa comoF0 y

se define como el m´ınimo divisor común de la serie armónica de una señal compuesta. Dicha frecuencia se produce como resultado de la acción de aducción y abducción de los pliegues vocales [55]. Por consiguiente, la frecuencia fundamental está ´ıntima- mente relacionada con la vibración de los pliegues vocales.

Los hombres, normalmente, fonan en su variante modal entre 80 y 150 Hercios, mientras que las mujeres poseen un rango que va desde los 140 a los 250 Hercios. A la vista de estos datos se puede decir que las mujeres suelen tener voces m´as agudas

que la de los varones, eso implica que su frecuencia fundamental es más elevada. ¿Por qué es importante este parámetro? Porque elpitch siempre es unavariable dependienteen la detección de las emociones o el estrés y no un rasgo caracter´ısti- co. Dicho de otra forma, el tono fundamental no será una caracter´ıstica necesaria y suficiente para poder llevar a cabo la misión de detección; siempre será necesario el apoyo o la utilización de otro/s rasgo/s.

Formantes

Los formantes son frecuencias reforzadas por la reverberación o resonancia en el tracto vocal. El progreso de la onda sonora por las cavidades supraglóticas amplifica unos armónicos espec´ıficos. Un menor tamaño en las cavidades supraglóticas y en el tracto vocal, amplifica una mayor frecuencia [101] y [102]. Una analog´ıa con este comportamiento la presentan los instrumentos de cuerda [91]. Por tanto, los formantes están ´ıntimamente relacionados con la fisiolog´ıa del individuo.

La resonancia se define en [55] como sigue. “La resonancia es el fenómeno por el cual un cuerpo, denominado resonador que posee una tendencia natural a vibrar a determinada frecuencia, experimentará vibraciones de mayor amplitud cuando es puesto en movimiento por otro cuerpo vibrante a una frecuencia similar. Por otro lado, un formante es la zona de la escala de frecuencias en la que un sonido presenta una mayor concentración de energ´ıa. También puede definirse como cada una de las resonancias del tracto oro-naso-far´ıngeo”.

El triángulo vocálico es una representación bidimensional de las posiciones del primer y segundo formante, respectivamente. En la Fig. 3.1 se muestra la colocación de las vocales más frecuentes sobre un triángulo vocálico. En la Fig. 3.2 podemos ver la representación de los diferentes armónicos de una vocal gracias a un espectro- grama, una representación en el dominio del tiempo obtenida con [19]. En la figura 3.3 y en la 3.4 se pueden observar dos representaciones del triángulo vocálico y las posiciones de los dos primeros formantes obtenidas con [19] para una secuencia que comprende cinco vocales cardinales del español. La primera figura pertenece a un varón, mientras que la segunda pertenece a una mujer.

Normalmente, el triángulo vocálico de las mujeres es más alto que el de los hombres, debido a la producción de frecuencias más altas. Algunas diferencias signi- ficativas en los formantes entre hombres y mujeres son por ejemplo que la amplitud de los formantes en los hombres es más alta que en las mujeres, mientras que sucede lo contrario cuando hablamos del ancho de banda [30].

3.2. RASGOS CL ´ASICOS M ´AS USADOS

Figura 3.1: Triángulo vocálico según el Alfabeto Fonético Internacional (IPA). Ob- tenida de c _{IPA 2015.}

Figura 3.3: Vocales en Español (parte superior), primer y segundo formante (parte intermedia) y triángulo vocálico (parte inferior) de una voz masculina.

Figura 3.4: Vocales en Español (parte superior), primer y segundo formante (parte intermedia) y triángulo vocálico (parte inferior) de una voz femenina.

3.2. RASGOS CL ´ASICOS M ´AS USADOS

Ancho de banda

El ancho de banda es la diferencia entre las frecuencias m´ınimas y máximas pre- sentes en una señal. Este rasgo se mide en Hercios (Hz). En un caso ideal, si la frecuencia m´ınima es igual a cero, el ancho de banda será equivalente a la frecuencia máxima de la señal. Petrushin en su trabajo [140] utiliza caracter´ısticas acústicas básicas tales como la frecuencia fundamental f0, los tres primeros formantes y sus

anchos de banda correspondientes, la energ´ıa y la tasa de habla. A partir de estos parámetros y haciendo uso de estad´ıstica descriptiva calcula la media, la desviación estándar, los m´ınimos y máximos y el rango. Su objetivo es la detección emocional orientada principalmente para su uso en loscall centers.

Caracter´ısticas espectrales

Seg´un Ververidis y Kotropoulos en [190] las caracter´ısticas espectrales son el contenido energ´etico de ciertas bandas de frecuencia divididas por la longitud de la muestra.

Mel Frequency Cepstrum Coefficients (MFCC)

La escala de Mel es una de las escalas más conocidas para dividir el espectro en bandas [135]. El análisis por bancos de filtros [141] lo que pretende es dividir el espectro de una señal dadas dos frecuencias “l´ımite”, una máxima y una m´ınima. El objetivo fundamental de esta técnica es fraccionar la señal inicial en un conjunto discreto de bandas espectrales que contienen una información análoga a la que presenta el sistema auditivo humano [126].

Operador Teager

Tal y como recoge Ververidis en [189] existe un operador que se basa en el número de armónicos ocasionados por el flujo de aire no lineal en el tracto vocal que produce la señal de voz. Algunos ejemplos de la utilización de este rasgo los encontramos cuando se quiere detectar enfado o estrés, puesto que el flujo de aire rápido causa turbulencias localizadas cerca de los estrechamientos del tracto, provocando señales de excitación adicionales diferentes al tono fundamental y de espectro no armónico [176] y [205].

In document Contribución al estudio de selección de parámetros para identificación de estrés en la voz (página 81-85)