3. EXTRACCI ´ ON DE CARACTER´ISTICAS
3.2. Rasgos cl´asicos m´as usados
3.2.1. Frecuencia
Frecuencia fundamental
La frecuencia fundamental, a veces conocida comopitch, se representa comoF0 y
se define como el m´ınimo divisor com´un de la serie arm´onica de una se˜nal compuesta. Dicha frecuencia se produce como resultado de la acci´on de aducci´on y abducci´on de los pliegues vocales [55]. Por consiguiente, la frecuencia fundamental est´a ´ıntima- mente relacionada con la vibraci´on de los pliegues vocales.
Los hombres, normalmente, fonan en su variante modal entre 80 y 150 Hercios, mientras que las mujeres poseen un rango que va desde los 140 a los 250 Hercios. A la vista de estos datos se puede decir que las mujeres suelen tener voces m´as agudas
que la de los varones, eso implica que su frecuencia fundamental es m´as elevada. ¿Por qu´e es importante este par´ametro? Porque elpitch siempre es unavariable dependienteen la detecci´on de las emociones o el estr´es y no un rasgo caracter´ısti- co. Dicho de otra forma, el tono fundamental no ser´a una caracter´ıstica necesaria y suficiente para poder llevar a cabo la misi´on de detecci´on; siempre ser´a necesario el apoyo o la utilizaci´on de otro/s rasgo/s.
Formantes
Los formantes son frecuencias reforzadas por la reverberaci´on o resonancia en el tracto vocal. El progreso de la onda sonora por las cavidades supragl´oticas ampli- fica unos arm´onicos espec´ıficos. Un menor tama˜no en las cavidades supragl´oticas y en el tracto vocal, amplifica una mayor frecuencia [101] y [102]. Una analog´ıa con este comportamiento la presentan los instrumentos de cuerda [91]. Por tanto, los formantes est´an ´ıntimamente relacionados con la fisiolog´ıa del individuo.
La resonancia se define en [55] como sigue. “La resonancia es el fen´omeno por el cual un cuerpo, denominado resonador que posee una tendencia natural a vibrar a determinada frecuencia, experimentar´a vibraciones de mayor amplitud cuando es puesto en movimiento por otro cuerpo vibrante a una frecuencia similar. Por otro lado, un formante es la zona de la escala de frecuencias en la que un sonido presenta una mayor concentraci´on de energ´ıa. Tambi´en puede definirse como cada una de las resonancias del tracto oro-naso-far´ıngeo”.
El tri´angulo voc´alico es una representaci´on bidimensional de las posiciones del primer y segundo formante, respectivamente. En la Fig. 3.1 se muestra la colocaci´on de las vocales m´as frecuentes sobre un tri´angulo voc´alico. En la Fig. 3.2 podemos ver la representaci´on de los diferentes arm´onicos de una vocal gracias a un espectro- grama, una representaci´on en el dominio del tiempo obtenida con [19]. En la figura 3.3 y en la 3.4 se pueden observar dos representaciones del tri´angulo voc´alico y las posiciones de los dos primeros formantes obtenidas con [19] para una secuencia que comprende cinco vocales cardinales del espa˜nol. La primera figura pertenece a un var´on, mientras que la segunda pertenece a una mujer.
Normalmente, el tri´angulo voc´alico de las mujeres es m´as alto que el de los hombres, debido a la producci´on de frecuencias m´as altas. Algunas diferencias signi- ficativas en los formantes entre hombres y mujeres son por ejemplo que la amplitud de los formantes en los hombres es m´as alta que en las mujeres, mientras que sucede lo contrario cuando hablamos del ancho de banda [30].
3.2. RASGOS CL ´ASICOS M ´AS USADOS
Figura 3.1: Tri´angulo voc´alico seg´un el Alfabeto Fon´etico Internacional (IPA). Ob- tenida de c IPA 2015.
Figura 3.3: Vocales en Espa˜nol (parte superior), primer y segundo formante (parte intermedia) y tri´angulo voc´alico (parte inferior) de una voz masculina.
Figura 3.4: Vocales en Espa˜nol (parte superior), primer y segundo formante (parte intermedia) y tri´angulo voc´alico (parte inferior) de una voz femenina.
3.2. RASGOS CL ´ASICOS M ´AS USADOS
Ancho de banda
El ancho de banda es la diferencia entre las frecuencias m´ınimas y m´aximas pre- sentes en una se˜nal. Este rasgo se mide en Hercios (Hz). En un caso ideal, si la frecuencia m´ınima es igual a cero, el ancho de banda ser´a equivalente a la frecuencia m´axima de la se˜nal. Petrushin en su trabajo [140] utiliza caracter´ısticas ac´usticas b´asicas tales como la frecuencia fundamental f0, los tres primeros formantes y sus
anchos de banda correspondientes, la energ´ıa y la tasa de habla. A partir de estos par´ametros y haciendo uso de estad´ıstica descriptiva calcula la media, la desviaci´on est´andar, los m´ınimos y m´aximos y el rango. Su objetivo es la detecci´on emocional orientada principalmente para su uso en loscall centers.
Caracter´ısticas espectrales
Seg´un Ververidis y Kotropoulos en [190] las caracter´ısticas espectrales son el contenido energ´etico de ciertas bandas de frecuencia divididas por la longitud de la muestra.
Mel Frequency Cepstrum Coefficients (MFCC)
La escala de Mel es una de las escalas m´as conocidas para dividir el espectro en bandas [135]. El an´alisis por bancos de filtros [141] lo que pretende es dividir el espectro de una se˜nal dadas dos frecuencias “l´ımite”, una m´axima y una m´ınima. El objetivo fundamental de esta t´ecnica es fraccionar la se˜nal inicial en un conjunto discreto de bandas espectrales que contienen una informaci´on an´aloga a la que pre- senta el sistema auditivo humano [126].
Operador Teager
Tal y como recoge Ververidis en [189] existe un operador que se basa en el n´umero de arm´onicos ocasionados por el flujo de aire no lineal en el tracto vocal que produce la se˜nal de voz. Algunos ejemplos de la utilizaci´on de este rasgo los encontramos cuando se quiere detectar enfado o estr´es, puesto que el flujo de aire r´apido causa turbulencias localizadas cerca de los estrechamientos del tracto, provocando se˜nales de excitaci´on adicionales diferentes al tono fundamental y de espectro no arm´onico [176] y [205].