• No se han encontrado resultados

Características de la señal de voz y herramientas de análisis

N/A
N/A
Protected

Academic year: 2021

Share "Características de la señal de voz y herramientas de análisis"

Copied!
33
0
0

Texto completo

(1)

Capítulo 2

Características de la señal de voz y

herramientas de análisis

2.1 Introducción

El lenguaje hablado o la voz es la forma más común y natural de comunicación del ser humano y, su procesamiento, ha representado una de los campos más interesantes en el análisis de señales. La investigación acerca del procesamiento de voz ha llevado a la creación de importantes aportaciones técnicas a la sociedad.

El soporte fundamental de la voz es el sonido. El sonido se caracteriza por fluctuaciones de presión en un medio compresible. Dos cosas deben existir a fin de que se produzca una onda sonora: una fuente mecánica de vibración y un medio elástico a través del cual pueda propagar la perturbación.

La voz se produce por la vibración de las cuerdas vocales. El aire exhalado de los pulmones es modulado y dado forma por la vibración en las cuerdas vocales y el tracto vocal. Ese sonido producido por la vibración de las cuerdas vocales es llevado al exterior por el propio aire espirado que causó la vibración.

En la figura 2.1 se muestra el camino que debe seguir el aire exhalado desde los pulmones hasta el exterior a través de los diferentes conductos.

(2)

2.2 Magnitudes y términos relacionados

La voz como cualquier sonido puede representarse como una curva ondulante y por tanto puede aplicarse las mismas magnitudes y unidades de medida que a cualquier onda:

• Longitud de onda: indica el tamaño de una onda. Este va comprendido por el tamaño de la onda, que es la distancia entre el principio y el final de una onda completa (ciclo).

• Periodo: es el tiempo que tarda cada ciclo en repetirse. • Fase: expresa su posición relativa con respecto a otra onda.

• Potencia: la potencia acústica es la cantidad de energía radiada en forma de ondas por unidad de tiempo por una fuente determinada.

Area I

T E

P = = * (2.1)

Entre las cualidades básicas del sonido podemos nombrar:

• Tono: viene determinado por la frecuencia fundamental de las ondas sonoras (“pitch”), es lo que permite distinguir entre sonidos graves, agudos o medios, medida en ciclos por segundo o Hercios (Hz). Para que los humanos podamos percibir un sonido, éste debe estar comprendido entre el rango de audición de 20 y 20000 Hz. Por debajo de este rango tenemos los infrasonidos y por encima los ultrasonidos. A esto se le denomina rango de frecuencia audible. Cuanta más edad se tiene, este rango va reduciéndose tanto en graves como en agudos. El “pitch” ó frecuencia fundamental es diferente para la voz de hombre y mujeres, en los hombres es menor y oscila entre los 110-130 Hz y en las mujeres entre los 200 y los 230 Hz. Está determinado por la configuración geométrica y la tensión sobre las cuerdas vocales.

• Intensidad sonora: es la cantidad de energía acústica que contiene un sonido. La intensidad viene determinada por la potencia, que a su vez está determinada por la amplitud y nos permite distinguir si el sonido es fuerte o débil. Los sonidos que percibimos deben superar el umbral auditivo (0 dB) y no llegar al umbral de dolor (140 dB).

Área T E I * =

• El Timbre: es la cualidad que confiere al sonido los armónicos que acompañan a la frecuencia fundamental. Su forma espectral varía con la densidad del aire y por tanto también cambia su velocidad de propagacion.

(3)

• Entonación: pausas, énfasis, etc.

Estas cualidades de la voz las podemos encuadrar dentro de los rasgos prosódicos, que son las características de la voz de cada persona y permiten al oyente distinguir, quien es el hablante, de que tipo de persona se trata, su estado emocional. Pero no son aspectos 100% fiables para el reconocimiento del hablante: influye mucho el estado emocional, son muy variables y se pueden imitar.

2.3 Propiedades de las señales de voz

Las señales de voz se caracterizan por ser no estacionarias y con variaciones lentas en el dominio del tiempo, se procesan normalmente en segmentos de tiempo cortos, entre 5 y 30 ms. En estos segmentos la señal puede aproximarse a una señal cuasiperiódica. Cada segmento o trama puede ser clasificado como sonoro, sordo o silencio.

• Los sonidos sonoros tienen una naturaleza cuasiperiódica en el dominio del tiempo y una estructura armónica fina en el dominio de la frecuencia, provocada por la vibración de las cuerdas vocales. Además, su espectro decae hacia altas frecuencias. Su energía es alta debido a que el aire encuentra poca obstrucción al pasar por el tracto vocal. Estas características pueden observarse en la siguiente figura.

Figura 2.2: Tramo de señal de voz sonoro en el tiempo y en la frecuencia

• Los sonidos sordos tienen una estructura típica aleatoria, sin periodicidades marcadas en el dominio del tiempo y un espectro mucho más compensado en frecuencia (tiene un espectro de banda ancha). Su energía es mucho menor debido a la presencia de obstrucciones en el tracto vocal. Estas características se observan en la siguiente figura.

(4)

Figura 2.3: Tramo de señal de voz sordo en el tiempo y en la frecuencia

• Silencio es el segmento que no es consecuencia de la actividad vocal

2.4 Modelo de la generación de la voz y formantes

De una forma sencilla, un sistema de producción de voz se puede modelar con un modelo de sistema-fuente, que es un sistema lineal alimentado por una fuente de excitación. En una aproximación de segundo orden, la excitación es un tren de pulsos para los segmentos sonoros y ruido blanco para los no sonoros.

Figura 2.4: Modelo de Generación de la voz

v/uv excitation T 1 1 ( ) (1 ) p i i G H z a z− = = −

Synthetic Speech s(n)] e(n)

e(t) T0(pitch) hT(t) e(t)

Sonoro Sordo E(f) HT(f) S(f) e(t) 2 σ hT(t) s(t)

(5)

Como dijimos anteriormente, los sonidos consisten en una frecuencia fundamental (frecuencia de pitch) y una serie de componentes armónicos de la misma, producidos por las cuerdas vocales. El tracto vocal modifica la señal de excitación provocando frecuencias formantes. Los formantes son las frecuencias de resonancia del espectro, es decir, los picos de la envolvente del espectro de la señal de voz que representan las frecuencias de resonancia del tracto vocal. Cada formante tiene una amplitud y un ancho de banda. La frecuencia fundamental y las frecuencias de los formantes son probablemente los conceptos más importantes para la síntesis y procesamiento de la voz.

Las frecuencias a las que se producen los primeros formantes son muy importantes para reconocer o sintetizar la voz. En la siguiente figura pueden verse representados los 3 primeros formantes de una señal de voz.

Figura 2.5: Envolvente de una señal con sus tres primeros formantes

2.5 Análisis en el tiempo

2.5.1 Introducción

Como punto de partida hay que nombrar la clasificación de las señales en función del tiempo, podemos diferenciar señales en tiempo continuo y señales en tiempo discreto. Una señal continua en el tiempo tendrá un valor para todos los números reales que existen en el eje del tiempo. En contraste a esto, una señal discreta en el tiempo es comúnmente creada utilizando el Teorema de Muestreo para discretizar una señal continua, de esta manera la señal nada mas tendrá valores en los espacios que tienen una separación igual y son creados en el eje del tiempo. La relación entre ambas señales se muestra en la ecuación (2.2), siendo Tm el periodo de muestreo.

(6)

TF

También tenemos que nombrar otra diferencia entre los dos tipos de señales mencionados anteriormente, mientras que en la señal en tiempo continuo se utiliza la transformada de Fourier (TF) para representarla en frecuencia en la señal en tiempo discreto utilizamos la transformada discreta de Fourier (DTFT). Se muestran a continuación las distintas formulas y representaciones en frecuencia de cada transformada.

Para una señal en tiempo continuo:

s(t)

S f

( )

s t e

( )

jft

dt

− −∞

=

Figura 2.6: Representación de una señal continua en el tiempo y en frecuencia Para una señal en tiempo discreto:

s(n)= s(kTm)

2 2

(

)

( )

∞ − =−∞

=

j f j fnT n

S e

π

s ne

π s(n)

Figura 2.7: Representación de una señal discreta en el tiempo y en frecuencia

2.5.2 Enventanado

Como la voz no es estacionaria, no podemos aplicarle la transformada de Fourier directamente porque obtendríamos una superposición de comportamientos, la solución que aplicamos es el enventanado, así si podemos realizar la transformada de Fourier sin que se produzcan superposiciones ya que la voz es cuasi-estacionaria en intervalos cortos de tiempo a esta solución se la denomina Análisis localizado por tramas.

Una de las principales características de las ventanas que tenemos que tener en cuenta es su longitud, tiene que ser lo suficientemente corta como para promediar parámetros que no varíen (situación estacionaria) y lo

(7)

suficientemente larga como para minimizar la varianza en la estima de los parámetros y minimizar la tasa de información a enviar.

El proceso de enventanado sería el siguiente: sea s(n) la señal que queremos enventanar y w(n) la ventana que vamos a utilizar. La señal enventanada será:

v(n)=s(n)w(n) (2.3)

La señal v(n) será entonces un “trozo” de s(n) multiplicado por w(n). El caso más sencillo en principio sería aquel en que:

1

0≤

n

≤Ν−1 (2.4) w(n)=

0 e.o.c

Entonces v(n) sería equivalente simplemente a tomar N muestras de la señal x(n). Si fuéramos trasladando la ventana en tiempo podríamos obtenertodos los puntos de x(n) como v(n)= x(n)w(n-m) y tendríamos la posibilidad de ir procesándolospor separado.

La importancia de las ventanas radica en que las características de inicio y finalización de las mismas permiten disminuir los efectos de las discontinuidades que se producen al enventanar las señales. Por este motivo habría que plantearse cuál es la ventana más adecuada que habrá que usar en cada caso concreto. Vamos a presentar ahora las ventanas más conocidas.

Rectangular 1

0≤n ≤Ν−1 (2.5) w(n)= 0 e.o.c Hamming

0.54 0.46 cos( 2 ) 1 − − n N π 0≤n ≤Ν−1 (2.6) w(n)= 0 e.o.c

(8)

Hanning 2 0.5 1 cos 1          n N π

0≤n ≤Ν−1 (2.7) w(n)= 0 e.o.c Blackman 2 4 0.42 0.5cos 0.080.5cos 1 1     − + − −     n n N N π π 0≤n ≤Ν−1 w(n)= 0 e.o.c (2.8) Barlett (triangular

)

2n/N 0≤n ≤Ν/2

(2.9)

w(n)= a(n-M) N/

2

≤n ≤Ν−1

En la siguiente figura podemos ver la representación temporal de todas las ventanas que acabamos de presentar:

(9)

Pero no sólo es importante la forma de las ventanas en el dominio del tiempo, sino que aún tiene más importancia su espectro, es decir, sus características frecuenciales, ya que si no son adecuadas en este dominio, deformarán las señales que se enventanen, haciendo difícil o imposible su correcta reconstrucción. Podemos observar el espectro de estas ventanas (en escala logarítmica) en las figuras (2.9) a (2.13).

Podemos fijarnos en dos características del espectro de las ventanas que serán fundamentales para decantarnos por una u otra en nuestra elección en cada caso particular: estas son la anchura del lóbulo principal, que determinará la resolución en frecuencia, y la buena atenuación de los lóbulos laterales frente al principal, que evitará la distorsión en la forma y envolvente del espectro de la señal enventanada. F i g u r a 4 . 2 E s p e F i g

Figura 2.9: Espectro de la ventana rectangular

(10)

Figura 2.11: Espectro de la ventana hanning

Figura 2.12: Espectro de la ventana blackman

(11)

Los valores de estos dos parámetros de interés (que pueden verse en la figura 2.14) se muestran en el la tabla (2.1) para las diferentes ventanas que hemos visto(N es la longitud de la ventana y fm la frecuencia de muestreo).

Ventana ∆f ∆L

(

dB

)

Rectangular Hamming Hanning Blackman Triangular 2 f m / N 4f m /

(

N − 1

)

4f m /

(

N − 1

)

6f m /

(

N − 1

)

4f m /

(

N − 1

)

-13 -41 -31 -57 -25 Tabla 2.1: Anchura del lóbulo principal y atenuación del lóbulo

secundario para las principales ventanas

Figura 2.14: Anchura del lóbulo principal y atenuación del lóbulo secundario

Si disminuimos N tenemos una buena resolución en el tiempo, en cambio tendríamos poca resolución en frecuencia, Si aumentamos N pasaría todo lo contrario mala resolución en el tiempo y buena en frecuencia.

2.5.3 Tasa de cruces por cero (ZCR)

EL ZCR o tasa de cruces por cero es una característica en el dominio del tiempo e indica con que frecuencia la señal cruza el eje cero, suele estar asociada al formante de más energía que normalmente es el primer formante, la formula de la ZCR es la siguiente: 1 cruces ( ) ( ( )) ( ( 1)) ( ) 2 ventana   = − − −  

i k ZCR n sign s k sign s k w n k (2.10)

(12)

Si utilizamos la ventana rectangular: 1 ventanas ( ) ventana  =              m 

cruces cruces muestras

ZCR n f

segundo N muestras segundo (2.11)

Entre sus aplicaciones principales se utiliza junto a la energía como medidas complementarias para la detección de actividad vocal y también se utiliza para diferenciar entre tramos sordos y sonoros. Un ejemplo de estas aplicaciones las mostramos en la siguiente figura:

Figura 2.15: Representación de la energía y ZCR de una señal con un tramo sordo y otro sonoro

En la figura 2.15 se puede observar que para el tramos sordo (primer tramo) la energía es baja pero distinta de cero y la tasa de cruces por cero es mayor que la tasa del tramo sonoro (segundo tramo) al tener el tramo sordo componentes en más altas frecuencias, en cambio en el tramos sonoro la tasa de cruces por ceros es menor que en el tramo sordo pero su energía es mayor.

2.6 Análisis en frecuencia

2.6.1 Introducción

Como comentamos en el apartado anterior tenemos que distinguir entre análisis en frecuencia de señales continuas en el tiempo y el análisis en frecuencia de señales discretas en el tiempo, para el caso de señales discretas comentábamos que utilizábamos la DTFT (transformada discreta de Fourier en tiempo discreto) para su representación en frecuencia. Sin embargo para realizar algunas operaciones, nos surgen algunos problemas porque estamos trabajando con

(13)

series de datos de longitud infinita, éste es el caso de la electrónica que nos obliga a trabajar con un número finito de datos discretos que además tienen una precisión finita.

De lo que se trata es discretizar las variables continuas y de limitar el número de muestras en los dos dominios (temporal y frecuencial), el segundo objetivo lo conseguimos con el enventanado de las señales explicado en el apartado anterior. Esto nos lleva a definir la transformada discreta de Fourier (DFT). En este apartado hablaré primero de la Transformada de Fourier de corta duración o STFT (Short Time Fourier Transform), que nos sirve como herramienta fundamental para la representación del espectrograma, del que hablaré en la última parte del apartado.

2.6.2 Transformada de Fourier de corta duración (STFT)

La STFT es una nueva transformada de Fourier basada en la DFT. En la práctica, hay muchas aplicaciones en las que las propiedades de la señal que se trata, cambian muy rápidamente con el tiempo. Por ejemplo, esto sucede con señales no estacionarias tales como las de radar, sonar, voz y señales de comunicaciones. Pues bien, en estos casos calcular una única DFT para toda la señal no es suficiente, además de la dificultad añadida de que ésta podría ser larguísima siendo imposible de tratar en la práctica, ya que suelen usarse computadores digitales con una capacidad de cálculo y almacenamiento limitados. Todo ello nos guía hacia el concepto de transformada de Fourier de corta duración o STFT (Short-Time Fourier Transform).

La STFT de una señal s(n) se define como:

(

,

)

( ) ( ) ∞ − =−∞ =

jwm m S n w s m w n m e (2.12)

Donde w(n) es la ventana. En la STFT, la secuencia unidimensional s(n), función de una variable discreta, es transformada en una función bidimensional de la variable n, que es discreta, y de la frecuencia w, que es continua. Hay que darse cuenta de que la STFT es periódica en w con periodo 2π, y por lo tanto sólo tendremos que considerar los valores incluidos en 0 ≤ w ≤ 2π , o cualquier otro intervalo de longitud 2π.

Teniendo en cuenta la simetría de las ventanas, la ecuación (2.12) puede rescribirse como:

(

,

)

( ) ( ) ∞ − =−∞ =

+ jwm m S n w s m n w m e (2.13)

De esta forma, (2.13) puede interpretarse como la transformada de Fourier de la señal desplazada s(m+n), y vista a través de la ventana w(n). La ventana tendría un origen fijo, y según n va cambiando, la señal se desliza pasando a través de la ventana de forma que para cada valor de n vemos una porción diferente de la señal.

(14)

Mostramos en la siguiente gráfica un ejemplo de lo explicado anteriormente para una señal modulada en frecuencia. Esta señal recibe el nombre de chirp y suele tener la siguiente forma:

1

( )=cos(2 ( ) )

s n π f n n

Figura 2.16: Dos segmentos de la señal chirp con la ventana (en rojo) superpuesta Podemos observar claramente el crecimiento lineal de la frecuencia según transcurre el tiempo en la figura (2.17), que se corresponde a la magnitud de la transformada STFT de la señal que estamos tratando. El eje vertical es proporcional a la frecuencia y el horizontal al tiempo. La magnitud de la transformada STFT se representa por la oscuridad del color.

Figura 2.17: Magnitud de la transformada STFT de 1

( )=cos(2 ( ) )

(15)

Para la mejor comprensión de dicha transformada expongo a continuación las distintas interpretaciones para su mejor comprensión.

Primera Interpretación: n fijo, w varía:

En este primer caso podemos ver la STFT como la transformada de Fourier de la señal s ( )n n =s n w m n . De forma que tendríamos: ( )⋅ ( − )

(

,

)

( ) ∞ − =−∞ =

jwm n m S n w s m e (2.14)

Observamos que esta es la fórmula de la DFT de una señal y entonces podríamos intentar hacer la transformada inversa de esa expresión y estaríamos hallando la señal sn(m).

Tenemos que tener en cuenta que la frecuencia, que hasta ahora hemos considerado continua, en la práctica no lo es, ya que si queremos calcular esta transformada en computadores digitales es imposible que lo sea. Si muestreamos S(n,w) en L frecuencias igualmente espaciadas wk=k·2π/L, siendo L mayor que la longitud de la ventana, entonces podemos recuperar la señal original partiendo de la transformada STFT muestreada.

(

)

1

(

)

0 1 , ( ) ( ) , − − = =

k ↔ =

k N jw m jw n k n m k m k S n w s m e s m S n w e L (2.15) en n=m 1 0 1 ( ) (0) ( ) ( ) ( , ) (0) − = = ⇒ =

k N jw n m k k s n w s n s n S n w e w L (2.16)

En este caso S(n, wk) es la DFT de la señal enventanada sm(n).Usando la transformada inversa obtenemos la expresión (2.16). Lo más importante de este punto de vista es que la longitud de la ventana es finita y por eso hay que tomar al menos tantas muestras en frecuencia como muestras no nulas tenga la ventana.

(16)

Figura 2.18: Primera interpretación de la STFT

Si representamos la magnitud de esta observación de la STFT (figura 2.19) podemos comprender a que es debido el crecimiento lineal de la magnitud de la STFT conforme avanza el tiempo, se observa en rojo las líneas verticales en cada N (tenemos en cuenta el solapamiento entre ventanas) y según aumenta N, la frecuencia de la señal correspondiente a ese tramo de ventana aumenta, esto hace que la magnitud que representa la STFT vaya aumentando conforme aumenta N.

Figura 2.19: Primera interpretación de la STFT ( ) ( ) ( ) m m s n =w n s n 1 ( ) cos(2 ( ) ) s n = π f n n

(17)

Segunda interpretación: n varía, w fijo:

La segunda forma de interpretar la STFT equivale a ver la transformada para cada frecuencia como el paso de la señal (multiplicada por una exponencial compleja) por un filtro que tendría como respuesta impulsiva la expresión de la ventana elegida. Implementando entonces un banco de L filtros como el mostrado en la siguiente figura obtendríamos S(n, wk) y podemos ver como para cada wk tenemos una línea horizontal con los puntos en los que se toman las muestras de la señal.

(

)

(

)

( , ) ( ) ( ) ( ) ( ) ∞ − =−∞ − = − = ∗

k k jw m k m jw n S n w s m e w n m s n e w n

Figura 2.20: Segunda interpretación de la STFT

Para entender mejor esta segunda interpretación mostramos el comportamiento en frecuencia en la figura 2.21 en la que se observa en primer lugar el espectro de la señal, en segundo como la señal se desplaza w0 a la izquierda y en tercer lugar como es multiplicada por el espectro de la ventana. Muestro a continuación las propiedades de la DTFT adoptadas y la gráfica mencionada.

{

( )

}

=

( ) −jwn =

( )

jw n DTFT s n s n e S e (2.17)

{

( )jw n0

}

=

( )j w( 0+w n) =

(

j w w( + 0)

)

n DTFT s n e s n e S e (2.18)

{

}

( 0) 0 ( , ) ( jw) ( j w w ) DTFT S n w =W e S e + (2.19)

(18)

Figura 2.21: Segunda Interpretación vista en frecuencia

Si representamos gráficamente la magnitud de la STFT de una señal y añadimos lo explicado anteriormente, en la segunda interpretación podemos observar como a una frecuencia determinada esta segunda interpretación nos indica el inicio y el final en el eje horizontal de la magnitud de la STFT (representada con un color más oscuro) a dicha frecuencia.

Figura 2.22: Segunda interpretación de la STFT

2.6.3 Transformada STFT inversa mediante la técnica overlap-add Ya hemos visto la expresión de la transformada STFT. En la práctica, es decir, cuando trabajamos en computadores digitales, se suele calcular usando la FFT (Fast Fourier Transform), que es una forma más rápida de operar, ya que las convoluciones en tiempo se pueden implementar como multiplicaciones en frecuencia. Para más información sobre la FFT ver el libro [Brigham74].

Pues bien, lo que se hace es coger cada tramo enventanado de la señal que queremos transformar y aplicarle la FFT de NFFT puntos. Para hacer esto requerimos que el número de puntos NFFT sea mayor o igual que la longitud de la ventana, es decir, si llamamos N a la longitud de dicha ventana: NFFT >N. De esta forma si el número de puntos de la FFT no es igual al número de puntos de la ventana tendremos que aplicar zero-padding al tramo de señal enventanado, que consiste en añadir (NFFT-N) ceros al final del mismo y luego aplicar la FFT.

2 1

( ) cos(2 )

(19)

Cabe destacar que la ventana puede seleccionar tramos de señal que solapen, es decir, puede haber varios puntos de la señal que sean seleccionados más de una vez al realizar la transformada. Esto se muestre en la figura (2.23).

Entonces para calcular la STFT obtendríamos una columna de la misma por cada STFT, teniendo la matriz resultante NFFT filas para el caso general, aunque si la señal es real suelen tomarse sólo la mitad más una, porque las demás podrían obtenerse a partir de éstas mediante su compleja conjugada debido a que la señal cumpliría la siguiente propiedad:

( ) ( ) S f =S∗ −f ( )→ ( ) ⇔ DTFT s n S f real Hermítica (2.20) Hermítica si ( )S f =S∗(−f)

Una vez dicho todo esto, vamos a ver una serie de condiciones que nos facilitarán la reconstrucción perfecta de la señal original a partir de su transformada STFT. Sabemos, como ya hemos dicho, que la convolución en el dominio del tiempo equivale a una multiplicación en el dominio de la frecuencia. Sin embargo, el único problema es que la multiplicación en el dominio de la frecuencia se corresponde a una convolución cíclica en el dominio del tiempo cuando lo que nos gustaría es que fuera simplemente una convolución lineal. En la convolución cíclica, los puntos del final del bloque de muestras se suman a las del principio. Esto es conocido como aliasing temporal. El método “solapa y suma” (overlap-add) soluciona este problema usando una longitud de transformada que asegura que no habrá problemas de aliasing temporal, y la convolución cíclica se comportará como una convolución lineal. La condición clave para que sea posible la reconstrucción de la señal partiendo de la STFT es que la suma de las ventanas desplazadas según se han usado para realizar la STFT sea exactamente igual a 1 en todos los puntos, es decir, que la

señal

( − )

k

w n km tenga valor 1 en todos sus puntos, siendo m el número de

puntos que se desplaza la ventana para tomar el siguiente segmento de la señal al calcular la STFT. Esto equivale a decir que las ventanas (de longitud N) tienen que solapar en (N-m) puntos.

Vemos en la siguiente tabla cuál es la el número de puntos en que deben solapar cada tipo de ventanas para que cumplan la condición de overlap-add. Damos este dato como un porcentaje de la longitud de la ventana:

(20)

Figura 2.23: Descomposición de una señal (1ª fila) en secciones de longitud 10 que solapan en 3 muestras y a las que se le ha aplicado zero-padding para calcular una FFT de 16 puntos.

De esta forma sólo tendremos que aplicar la transformada FFT inversa a las columnas de la matriz del espectrograma y sumar los tramos de señal obtenidos con el debido desplazamiento. Así obtendremos la señal original reconstruida en el dominio del tiempo.

2.6.4 Espectrograma

El espectrograma es una herramienta muy útil para analizar los fonemas y sus transiciones. Un espectrograma de una señal en el tiempo es una representación especial en dos dimensiones, en el eje horizontal representa el tiempo y en el vertical representa la frecuencia. Normalmente se utiliza la escala de grises para indicar la energía en cada punto (t, f) representando con blanco las bajas energías y con negro las altas [Huang01]. El espectrograma se obtiene a partir de la STFT explicada en el apartado anterior.

Primeramente tenemos que decir que el espectrograma solamente representa la energía y no lo fase de de la STFT. La energía la calculamos de la siguiente manera:

(

)

2 2 2

log X k( ) =log Xr ( )k +Xi ( )k (2.21)

El valor de la ecuación anterior lo convertimos a escala de grises según la figura 2.24. Aquellos píxeles, cuyo valor no es calculado, se obtienen interpolando. La pendiente controla el contraste del espectrograma mientras los puntos de saturación para el blanco y el negro controlan el rango dinámico. En la figura 2.24 también podemos observar que a partir de una energía se llega a la saturación de la escala de grises y todas las energía mayores a este tendrán el mismo color (negro), ocurre la misma situación para energías bajas, que tendrán como color de saturación el blanco. Normalmente hay de 40 a 60 dB entre el blanco puro y el negro puro.

(21)

Figura 2.24: Conversión entre logaritmo de energías bajas (en el eje x) y escala de grises ( en el eje y)

Hay dos tipos de espectrogramas: de banda estrecha y de banda ancha. Los de banda ancha utilizan ventanas relativamente cortas (<10ms) al realizar la SFTF, de manera que estos tienen buena resolución en el tiempo a costa de tener baja resolución en frecuencia, esto los lleva a filtrar con un gran ancho de banda que no nos permite ver los armónicos de la señal. Los espectrogramas de banda estrecha utilizan ventanas relativamente largas (> 20 ms), que nos lleva a filtrar con un ancho de banda estrecho (< 100Hz) y esto nos permite ver claramente los armónicos. Por otra parte la resolución en tiempo es más baja que en los espectrogramas de banda ancha.

Además de representarlo en escala de grises también podemos realizar una representación utilizando una escala de colores o incluso representación 3-D. Para poder leer mejor el espectrograma podemos preenfatizar para aumentar las altas frecuencias y así contrarrestrar el roll-off del habla.

Estudiando ambos espectrogramas, tanto el de banda ancha como el de estrecha, podemos averiguar la respuesta en magnitud del filtro (canal por el que circula el sonido) e incluso si la fuente es voz o no. Sin embargo es muy difícil separar fuente y filtro debido a la naturaleza no estacionaria de la señal de voz, pérdidas espectrales y el hecho de que sólo la respuesta en magnitud del filtro pueda ser conocida a través de los armónicos de la señal.

En la figura 2.25 se puede ver el espectrograma de banda ancha y estrecha para una misma señal, separados en regiones que nos muestran como funciona un espectrograma, podemos observar que la señal es aproximadamente periódica dentro de la región (X,Y), en las regiones (Z,W) y (H,G) la señal no es periódica y parece ruido aleatorio, aunque las características de este ruido para el segmento (Z,W) son distintas de las del segmento (H,G).También podemos explicar las diferencias nombradas anteriormente entre espectrograma de banda ancha y estrecha.

(22)

Figura 2.25: (a) Señal con su espectrograma en banda ancha (b) y en banda estrecha (c)

2.7 Análisis LPC

2.7.1 Introducción

Es uno de los métodos para el análisis de la voz, también es conocido con el nombre de modelado autoregresivo. Este método es muy utilizado porque es rápido y simple y muy eficiente a la hora de estimar los parámetros de la señales de voz.

Se basa en el modelado del tracto vocal como un filtro todo polo, que si tiene el suficiente número de polos es una buena aproximación para señales de voz. En la siguiente figura se puede ver el modelado del tracto vocal.

Figura 2.26: Parámetros que modelan el tracto vocal

1 1 ( ) − = =

p i i H z a z

(23)

Podemos modelar HT(z) de la siguiente manera donde p es el orden del análisis LPC. 1 1 ( ) ( ) ( ) 1 − = = = −

T p i i G S z H z A z a z (2.22)

Operando con la ecuación y realizando la inversa de la transformada z llegamos al siguiente resultado. 1 1 ( ) ( ) − ( ) = −

p i = i S z a S z z GA z (2.23) 1 ( ) ( ) ( ) ( ) ( ) = = − = −

p ii e n s n s n s n a s n i (2.24)

El análisis LPC recibe este nombre debido a que predice la muestra actual como una combinación lineal de las p muestras anteriores.

1 ( ) ( ) = =

−  p i i s n a s n i (2.25)

El error de predicción cuando utilizamos esta aproximación es:

1 ( ) ( ) ( ) ( ) ( ) = = − = −

p ii e n s n s n s n a s n i (2.26) 2.7.2 Principio de ortogonalidad

Para estimar los coeficientes de predicción de un conjunto de muestras de una señal utilizamos la técnica del análisis limitado. Definimos sm(n) como un

segmento de señal seleccionado en las inmediaciones de la muestra m.

( )= ( + )

m

s n s n m (2.27)

Definimos el error limitado de predicción para este segmento como:

(

)

2 2 2 1 ( ) ( ) ( ) ( ) ( ) =   = = − = − −  

m

p m m m m j n n n n j E e n s n s n s n a s n j (2.28)

(24)

Figura 2.27: Principio de ortogonalidad. El error de predicción es ortogonal a las muestras precedentes

Ante la ausencia de conocimiento sobre la distribución de probabilidad de ai, un

criterio de estimación razonable es el error cuadrático medio. Así dada una señal sm(n), nosotros estimamos sus correspondientes coeficientes LPC como

aquellos que minimizan el error de predicción total Em. Tomando la derivada de

la ecuación (2.28) con respecto a ai e igualando a cero obtenemos la siguiente

ecuación:

, i =

( ) ( − =) 0

m m m m n

e s e n s n i 1 i≤ ≤ p (2.29)

Donde definimos em y s como vectores de muestras, y su producto interno im

tiene que ser 0. Esta condición, conocida como principio de ortogonalidad, dice que el coeficiente de predicción que minimiza el error de predicción es aquel que hace que el error sea ortogonal a las muestras precedentes como vemos en la figura 2.27.

La ecuación anterior la podemos expresar como un conjunto de p ecuaciones lineales: 1 ( ) ( ) ( ) ( ) = − = − −

m m

∑ ∑

p j m m n j n s n i s n a s n i s n j i=1, 2,....,p (2.30)

Por conveniencia podemos definir el coeficiente de correlación como:

( , )=

( − ) ( − )

m m m

n

i j s n i s n j

φ (2.31)

Las ecuaciones (2.30) y (2.31) pueden ser combinadas para obtener las llamadas ecuaciones de Yule-Walker: 1 ( , ) ( ,0) = =

p j m m j aφ i j φ i i=1, 2,....,p (2.32)

La solución del conjunto de las p ecuaciones lineales da como resultado los p coeficientes LPC los cuales minimizan el error de predicción. Con ai

satisfaciendo la ecuación 2.32, el error de predicción total en la ecuación 2.28 toma el siguiente valor:

n s 2 n s 1 n s n s

(25)

2 1 1 ( ) ( ) ( ) (0,0) (0, ) = = =

∑ ∑

p − = −

p m m j m m j n j n j E s n a s n s n j φ aφ j (2.33)

Es conveniente definir una predicción del error normalizada u(m) con la energía igual a uno: ( )= ( ) m m e n Gu n

m2( )=1 n u n (2.34)

Y una ganancia tal que:

( )= ( )

m m

e n Gu n (2.35)

Esta ganancia G puede ser obtenida a partir del error de predicción limitado:

2 2 2 2 ( ) ( ) =

=

= m m m n n E e n G u n G (2.36)

2.7.3 Solución de las ecuaciones LPC

La solución de las ecuaciones de Yule-Walker en la ecuación (2.32) puede ser conseguida con un paquete de matrices invertibles. Debido a la especial forma de la matriz, varias soluciones eficientes son posibles. También cada solución ofrece distintos entendimientos, debido a esto ofrecemos dichas soluciones como dos algoritmos diferentes: el método de la covarianza, el método de la autocorrelación.

2.7.3.1 Método de la covarianza

Este método proviene de la definición directa del intervalo sobre el cual se realiza el sumatorio en la ecuación (2.31):

1 2 0 ( ) − = =

N m m n E e n (2.37)

Debido a esto φm( , )i j en la ecuación (2.34) se convierte:

1 1 0 ( , ) ( ) ( ) ( ) ( ) ( , ) − − − = =− =

N − − =N

i + − = m m m m m m n n i i j s n i s n j s n s n i j j i φ φ (2.38)

Y la ecuación (2.32) se convierte en:

1 2 3 (1,1) (1, 2) (1, 3) (1, ) (1, 0) (2,1) (2, 2) (2,3) (2, ) (2, 0) (3,1) (3, 2) (3, 3) (3, ) (3, 0) ( ,1) ( , 2) ( ,3) ( , ) ( , 0)                    =                              m m m m m m m m m m m m m m m p m m m m m a p a p a p a p p p p p p φ φ φ φ φ φ φ φ φ φ φ φ φ φ φ φ φ φ φ φ         (2.39)

(26)

La ecuación (2.39) puede ser expresada por la siguiente ecuación de matrices: a

Φ = Ψ (2.40)

La matriz Ф en la ecuación (2.40) es simétrica y definida positivamente, por lo que podemos utilizar métodos eficaces para descomponerla, como la descomposición Cholesky. Para este método también llamado método de la raíz cuadrada. La matriz Ф es expresada como:

t

VDV

Φ = (2.41)

Donde V es una matriz triangular inferior (cuya diagonal principal es igual a la unidad) y D es una matriz diagonal. Cada elemento de Ф puede ser expresado como: ik 1 ( , ) = =

j k jk k i j V d V φ 1≤ <j i (2.42) O alternativamente: 1 ik 1 ( , ) V − = = −

j ij j k jk k V d φ i j d V 1≤ <j i (2.43)

Y para los elementos diagonales:

ik 1 ( , ) V = =

i k ik k i i d V φ (2.44) O alternativamente 1 2 1 ( , ) − = = −

i i tk k k d φ i i V d i ≥ 2 (2.45) con 1= (1,1) d φ (2.46)

La descomposición de Cholesky comienza con la Ecuación (2.46) y alterna entre las ecuaciones (2.43) y (2.45). Una vez las matrices V y D han sido determinadas los coeficientes LPC son resueltos en un proceso de dos pasos. La combinación de las ecuaciones (2.40) y (2.41) puede ser expresada como:

VY = Ψ (2.47) Con t Y =DV a (2.48) O alternativamente 1 t V a=D Y− (2.49)

(27)

Por tanto, dada la matriz V y la ecuación (2.47). Y puede ser resuelta recursivamente como: 1 1 i i i ij j j Y V Y − = = Ψ −

2≤ ≤i p (2.50)

Con la condición inicial

1 1

Y =ψ (2.51)

Teniendo una determinada Y la Ecuación (2.49) puede ser resuelta recursivamente de manera similar.

1 p i i i ij j j i a Y d V a = + = −

, 1 i≤ ≤ p (2.52)

Con la condición inicial

p p p

a =Y d (2.53)

Donde el índice i en la Ecuación (2.52) procede de atrás. El término análisis de covarianza es un nombre equivocado, conocemos que la covarianza de una señal es la correlación de esa señal con la media restada. Fue llamado así porque la matriz en la ecuación (2.39) tiene las propiedades de la matriz de covarianza, pensando esto, este algoritmo se parece más a una correlación cruzada.

2.7.3.2 Método de la autocorrelación

El sumatorio en la Ecuación 2.31 no tiene rango específico. En el método de la autocorrelación asumimos que sm(n) es 0 fuera del intervalo 0 n≤ <N:

( )= ( + ) ( )

m

s n s m n w n (2.54)

Con w(n) siendo una ventana la cual es 0 fuera del intervalo 0 n≤ <N.Con esta suposición, el correspondiente error de predicción no es cero en el intervalo

0≤ <n N+ p, y por tanto, el error de predicción total adopta el valor:

1 2 0 ( ) + − = =

N p m m n E e n (2.55)

Con este rango, la ecuación (2.31) puede ser expresada como:

1 1 ( ) 0 0 ( , ) ( ) ( ) ( ) ( ) + − − − − = = =

− − =

+ − N p N i j m m m m m n n i j s n i s n j s n s n i j φ (2.56) O alternativamente ( , )= ( − ) m i j R im j φ (2.57)

(28)

Con R k siendo la secuencia de autocorrelación de m( ) s n m( ) 1 0 ( ) ( ) ( ) − − = =N

k + m m m m R k s n s n k (2.58)

Combinando la Ecuaciones (2.57) y (2.32), obtenemos:

1 ( ) ( ) = − =

p j m m j a R i j R i (2.59)

A la cual corresponde el siguiente sistema de ecuaciones matricial:

1 2 3 (0) (1) (2) ( 1) (1) (1) (0) (1) ( 2) (2) (2) (1) (0) ( 3) (3) ( 1) ( 2) ( 3) (0) ( ) −                      −  =                                   m m m m m m m m m m m m m m m p m m m m m a R R R R p R a R R R R p R a R R R R p R a R p R p R p R R p (2.60)

La matriz en la Ecuación (2.60) es simétrica y todos los elementos en su diagonal son idénticos. A estas matrices se les llama Toeplitz. La recursividad de Durbin aprovecha esta propiedad resultando un algoritmo muy eficiente.

1. Inicialización (0) = o m E R (2.61)

2. Iteración. Para i=1,…, p realizamos la siguiente recursividad:

1 1 1 1 1 ( ) ( ) / − − − = =   = − −

i i i i m j m j k R i a R i j E (2.62) i i i a = k (2.63) 1 1 i i i j j i i j a =a− −k a− 1≤ <j i (2.64) 2 1 (1 ) i i i E = −k E− (2.65) 3. Solución final: p j j a =a 1≤ ≤j p (2.66)

(29)

Donde los coeficientes k , llamados coeficientes de reflexión, están limitados i entre –1 y 1. En el proceso de cálculo de los coeficientes de predicción de orden p, la recursividad encuentra la solución de los coeficientes de predicción de todos los órdenes menos para p.

Reemplazando Rm( )j por el coeficiente de autocorrelación normalizado rm( )j , definido como:

( )= ( ) (0)

m m m

r j R j R (2.67)

Resultan unos coeficientes LPC idénticos, y la recursividad es más robusta ante problemas como la precisión aritmética. También, el error de predicción normalizado en la iteración i es definido por la división de la ecuación (2.33) por Rm(0), la cual utilizando la Ecuación (2.57), da como resultado:

1 1 ( ) (0) = = = −

i i i j m j E V a r j R (2.68)

El error de predicción normalizado, utilizando la Ecuación (2.65) y la (2.68), es:

2 1 (1 ) p p i i V k = =

− (2.69)

2.7.3.3 Análisis espectral a través de LPC

Ahora vamos a analizar el comportamiento del análisis LPC en el dominio de la frecuencia evaluando la función:

1 1 ( ) ( ) 1 jw p jw i i G G H e A e a z− = = = −

(2.70)

Esta función es todo polo o un filtro IIR. Si representamos H e( jw), esperamos ver picos y valles del denominador. La figura(2.27) nos muestra el espectro del análisis LPC del fonema /ah/ en la palabra lifes usando una ventana Hamming de 30 ms y el método de la autocorrelación con p=14.

(30)

Para el método de la autocorrelación, el error cuadrático de la ecuación (2.55) puede ser expresado, usando la ecuación (2.70) y el teorema de Parseval, como:

2 2 2 ( ) 2 ( ) jw m m jw X e G E d H e π π ω π =

(2.71)

Así el integrando en la ecuación (2.71) es positivo, minimizar E es equivalente m a minimizar la porción de energía del espectro de la señal de voz Xm(ejw)2

respecto a la respuesta en frecuencia del sistema lineal H e( jw)2. El espectro LPC representa mejor los picos que los valles (ver figura 2.27), porque las regiones donde Xm(ejw) > H e( jw) contribuye más al error que las regiones en las que Xm(ejw) < H e( jw) .

Incluso los fonemas nasales, que tienes ceros además de los polos, pueden ser representados con un número infinito de polos. En la práctica, si p es lo suficiente grande, podemos aproximar el espectro de la señal con un pequeño error arbitrario. En la figura 2.28 nos enseña los diferentes ajustes para los valores de p. Mientras más grande p el espectro conserva más detalles.

Figura 2.28: Espectro LPC de la figura 2.27 para distintos valores de p

El orden de predicción no es conocido para voz arbitraria, entonces necesitamos seleccionarlo para equilibrar los detalles espectrales con los errores de estimación.

2.7.4 Error de predicción

Hasta el momento sólo nos habíamos concentrado en los elementos de filtrado del modelo fuente-filtro. Usando la ecuación (2.24), podemos calcular el error de predicción, también llamado excitación o señal residual. Para sonidos sordos sintéticamente generados por ruido blanco seguido de un filtro LPC, suponemos que los residuos son aproximados por ruido blanco. En la práctica esta aproximación es bastante buena y reemplazando los residuos por ruido blanco seguido por el filtro LPC da como resultado que en la estimación no se observen diferencias audibles. Para sonidos sonoros sintetizados a partir de un tren de

(31)

deltas y seguidos de un filtro LPC, suponemos los residuos aproximados por un tren de deltas. En la práctica, este no es el caso, porque la suposición todo polo no es del todo válida; de este modo, los residuos, aunque contengan picos, están lejos de parecer un tren de impulsos. Reemplazando los residuos por un tren de impulsos, seguidos por un filtro LPC, resulta una voz que suena un poco robótica, particularmente porque la voz real no es perfectamente periódica (tiene un componente aleatorio), y porque los ceros no son modelados con el filtro LPC. Señales residuales obtenidas con filtros LPC inversos para diferentes vocales se enseñan en la siguiente figura.

Figura 2.29: Error de predicción LPC para diferentes vocales

Una importante pregunta que nos hacemos es qué valor de p tenemos que elegir, los mayores valores de p nos llevan a bajos errores de predicción (se muestra en la figura 2.30).Los sonidos sordos tienes más altos valores de error que los sonoros, porque el modelo LPC es más exacto para los sonidos sonoros. En general, el error normalizado rápidamente decrementa, y entonces converge a una valor en torno a los 12-14 para una voz a 8khz. Si usamos un valor grande de p, estamos ajustando los armónicos individuales; de este modo el filtro LPC esta modelando la fuente, y la separación entre fuente y filtro no va a ser muy buena.

Para los sonidos sordos, tanto el método de autocorrelación como el de la covarianza nos proporcionan idénticos resultados. Para sonidos sonoros, de vez en cuando, el método de la covarianza nos proporciona mejores resultados si la ventana utilizada en el análisis es mas corta que el periodo de “pitch” y la ventana sólo incluye ejemplos de fase cerrada (cuando el tracto vocal está cerrado por la glotis y la señal de voz es debida principalmente a las resonancias libres). Esto es llamado “análisis síncrono del pitch” y tiene como resultado un bajo error de predicción, porque la verdadera excitación está cerca de cero durante todo el análisis de la ventana. Durante la fase abierta la traquea, los pliegues vocales y el tracto vocal están acústicamente acoplados, y este acoplamiento cambiará las resonancias libres. Adicionalmente, el error de predicción es más alto, tanto para el método de correlación como el de

(32)

covarianza, si las muestras de la fase abierta están incluidas en el análisis de la ventana, porque la predicción durante esos instantes es pobre.

Figura 2.30: Variación del error de predicción normalizado en función del número de coeficientes de predicción p, para segmentos de sonidos sonoros y sordos, usando el método de autocorrelación con una ventana Hamming de duración 30 ms y una frecuencia de muestreo de

8 Khz

2.8 Conclusiones

En este apartado empiezo definiendo la voz y cómo se genera, también explico sus principales características y sus diferentes propiedades.

A continuación distingo entre análisis de la voz en tiempo y en frecuencia, y muestro la necesidad de enventanar las señales para poder realizar su transformada de Fourier, a partir de esto muestro los diferentes tipos de ventanas existentes y las características de cada una de ellas.

Al explicar el análisis en frecuencia, nombro la transformada STFT debido a que trabajamos con señales finitas que tienen muchas variaciones en el tiempo y como consecuencia de esto, la utilización de la DFT sería una tarea tediosa debido a la gran longitud de la señal. La STFT divide la señal en muestras a partir de ventanas y a partir de estas expresa la señal en frecuencia. La STFT me sirve como base para la realización del espectrograma, que es una forma de representar gráficamente la energía de una señal, en este capítulo explico como funciona y los distintos tipos de espectrogramas que existen.

Para analizar la voz utilizo el analisis LPC, el cual explico a continuación de lo mostrado en el párrafo anterior, indicando el uso del principio de ortogonalidad, a partir del cual se llega a las ecuaciones de Yule-Walker, y muestro tanto el método de autocorrelación como el de la covarianza para la solución de dichas ecuaciones. Después muestro los inconvenientes y ventajas del análisis LPC a través del error de predicción.

(33)

Referencias

Documento similar

que hasta que llegue el tiempo en que su regia planta ; | pise el hispano suelo... que hasta que el

E Clamades andaua sienpre sobre el caua- 11o de madera, y en poco tienpo fue tan lexos, que el no sabia en donde estaña; pero el tomo muy gran esfuergo en si, y pensó yendo assi

6 Para la pervivencia de la tradición clásica y la mitología en la poesía machadiana, véase: Lasso de la Vega, José, “El mito clásico en la literatura española

 Para recibir todos los números de referencia en un solo correo electrónico, es necesario que las solicitudes estén cumplimentadas y sean todos los datos válidos, incluido el

1) La Dedicatoria a la dama culta, doña Escolástica Polyanthea de Calepino, señora de Trilingüe y Babilonia. 2) El Prólogo al lector de lenguaje culto: apenado por el avan- ce de

d) que haya «identidad de órgano» (con identidad de Sala y Sección); e) que haya alteridad, es decir, que las sentencias aportadas sean de persona distinta a la recurrente, e) que

Ciaurriz quien, durante su primer arlo de estancia en Loyola 40 , catalogó sus fondos siguiendo la división previa a la que nos hemos referido; y si esta labor fue de

Las manifestaciones musicales y su organización institucional a lo largo de los siglos XVI al XVIII son aspectos poco conocidos de la cultura alicantina. Analizar el alcance y