ECUALIZACIÓN DE CAMPO DIFUSO

(1)

17

S O N A C 2 0 1 2

ECUALIZACIÓN

DE CAMPO

DIFUSO

PARA FUNCIONES DE TRANSFERENCIA

RELATIVAS A LA CABEZA (HRTF’S)

M. Mora [email protected] A. Escamilla [email protected] Universidad de San Buenaventura Medellín - Colombia

Resumen

En el presente trabajo, se describe e implementa un método para la ecualización en campo difuso de una base de datos de respuestas al impulso relativas a la cabeza (HRIR). Luego de realizar una revisión bibliográfica exhaustiva de los métodos de ecualización en campo libre y difuso, se opta por este último, en donde la referencia para la ecua-lización, producto de un promedio energético de las magnitudes de las funciones de transferencia relativas a la cabeza (HRTF´s), contiene características independientes de la dirección de propagación como lo son la respuesta del sistema electroacústico usado en la medición de las respuestas al impulso y la resonancia del canal auditivo; características que son luego eliminadas de las HRIR`s de la base de datos, aplicando un método de ecualización inversa en el dominio de la frecuencia. El método contempla la descomposición de las HRTF´s en una conexión en serie de dos sistemas: una función de transferencia de fase mínima y una de all-pass, las cuales sirven como elementos para la implementa-ción de un cancelador de crosstalk y algunos métodos de interpolaimplementa-ción de HRTF´s que se desarrollan en la Universidad San Buenaventura - Medellin, dentro de un proyecto de investigación en audio 3D.

Palabras Clave: Audio 3D, Ecualización en campo difuso, Respuesta al

impulso relativa a la cabeza (HRIR), Función de transferencia relativa a la cabeza (HRTF), Síntesis binaural, Sistema de fase mínima, Sistema de fase all-pass.

(2)

responses (HRIR). After conducting an exhaustive review of the equa-lization methods in free and diffuse field, the latter was chosen, where the reference for the equalization, product of the average energy of the magnitude of the head related transfer functions (HRTF’s), contains characteristics that are independent of the direction of propagation such as the response of the electroacoustical system used in the mea-surement of the impulse responses and the ear canal resonance. These characteristics are then removed from the HRIR’s database applying an inverse equalization method in the frequency domain. The method decomposes the HRTF’s into a connection in series of two systems: a transfer function of minimum phase, and an all-pass. These serve as elements for the implementation of a crosstalk canceller and some in-terpolation methods of HRTF’s taking place in the San Buenaventura University of Medellin, in a 3D audio research project.

Key Words: Audio 3D diffuse field EQ, Head related impulse response

(HRIR), Head related transfer function (HRTF), Binaural synthesis, Mi-nimum phase system, All-pass phase system.

1. INTRODUCCIÓN

A partir de la audición, el ser humano tiene la capacidad de identificar y localizar una fuente sonora, independientemente de la dirección de la que provenga. El objetivo de una fuente de sonido 3D es otorgarle la facilidad a un individuo de ubicar fuentes sonoras virtuales, dando la sensación de que el sonido proviene desde una posición en la cual no existe fuente sonora alguna.

Para obtener la sensación de espacialidad trabajando con 2 altopar-lantes, es indispensable combinar un proceso llamado ‘Síntesis Binau-ral’ con un circuito que invierta el camino de transmisión acústica del parlante a los oídos de la persona, el cual es llamado ‘Cancelador de Crosstalk’.

La finalidad de este proyecto de investigación es poder implementar en un principio la síntesis binaural, la cual se logra realizando una ecualización en campo difuso de una base de datos de respuestas al impulso relativas a la cabeza (HRIR). Esta ecualización se aplica a las funciones de transferencia de la cabeza (HRTF’s) y permite eliminar características independientes de la dirección de propagación como lo son la respuesta del sistema electroacústico usado en la medición de las respuestas al impulso y la resonancia del canal auditivo. Una vez se alcanza esta instancia es posible recrear una sensación de espacialidad al convolucionar una HRIR con una señal monofónica y reproducir este resultado en auriculares.

(3)

19

S O N A C 2 0 1 2

2. ECUALIZACIÓN DE LAS HRTF´S

Para la implementación de la ecualización de las funciones de transfe-rencia procedentes de una cabeza binaural, es necesario definir el tipo de ecualización que se aplicará a cada una de ellas. Principalmente, existen 2 tipos de ecualización: Ecualización en campo libre y en cam-po difuso. La ecualización en camcam-po libre consiste en ecualizar todas las mediciones realizadas con respecto a una HRTF medida en una di-rección en particular. En [Gardner (1997)], por ejemplo, las HRTF’s son ecualizadas en campo libre con respecto a la respuesta a 30 grados de incidencia horizontal, posición en la cual normalmente se ubicaría un arreglo típico de altavoces en un sistema de audio 3D que use parlantes y no audífonos para reproducir señales binaurales.

Por otro lado, es de vital importancia eliminar los efectos de los trans-ductores que intervienen en la grabación de las respuestas al impulso. Un sonido en campo difuso se define como aquel que proviene aleato-riamente de todas las direcciones. Por lo tanto, la HRTF de referencia se constituye por un promedio energético de la transmisión del sonido proveniente de todos los ángulos [Møller (1992)]. Este promedio ener-gético [Gardner (1997)], establece la magnitud de la respuesta en campo difuso, que reúne distintas componentes, incluyendo el sistema com-pleto de medición y la resonancia del canal del oído. Según [Gardner (1997)], cada uno de estos métodos de ecualización da como resultado una respuesta de referencia, la cual es invertida y utilizada para filtrar todas las mediciones. Esta operación se realiza en el dominio de la fre-cuencia y normalmente consiste en dividir el espectro complejo de cada HRTF por el espectro complejo de la HRTF de referencia.

Es de vital importancia decidir con qué tipo de ecualización se trabaja durante la síntesis binaural. Según experimentos realizados por [Theile (1986)], los cuales serían reafirmados por [Blauert (1997)], se indica que si las respuestas al impulso obtenidas provienen de diferentes di-recciones, asegurando una cantidad notable de sonidos difusos o no frontales, los oyentes prefieren trabajar con un sistema ecualizado bajo la modalidad de campo difuso. De igual manera, de acuerdo con resul-tados presenresul-tados en [Larcher et al. (1998)], es posible verificar que la ecualización en campo difuso es considerada una técnica robusta para trabajar HRTF’s medidas desde diferentes direcciones. Como una con-secuencia de lo anterior, las mediciones de respuestas al impulso de la cabeza que se realizan con distintos individuos no varían significante-mente utilizando este tipo de ecualización.

Según resultados publicados por [Theile (1986)], se afirma que se rea-lizaron investigaciones para definir el tipo de ecualización más óptima cuando se trabaja con la reproducción de grabaciones convencionales realizadas con técnicas estéreo, aplicando síntesis binaural en auricula-res. Aunque se afirma que la ecualización en campo libre es ideal cuan-do se trabaja con sonicuan-dos procedentes del eje de referencia, es decir, sonidos frontales utilizados en una grabación convencional; el estudio confirma que es preferible, para lograr una máxima fidelidad, adoptar

…de acuerdo

con resultados

presentados

en [Larcher

et al. (1998)],

es posible

verificar que la

ecualización en

campo difuso es

considerada una

técnica robusta

para trabajar

HRTF’s medidas

desde diferentes

direcciones.

(4)

para asegurar la compatibilidad de grabaciones hechas con una cabeza binaural, cuando se usan altavoces [Theile (1986)]. Por lo mencionado anteriormente, y teniendo en cuenta que en la base de datos del IRCAM las HRTF’s provienen en su mayoría de direcciones no frontales, se de-cide en el proyecto de investigación ecualizar las mediciones mediante campo difuso.

3. RESULTADOS Y PROCESAMIENTO DE LAS HRTF`S

En el desarrollo del proyecto, se trabajó con una base de datos de HRIR’s del IRCAM(Institut de Recherche et Coordination Acoustique/ Musique). La base de datos del IRCAM [Warusfel(2003)][Listen Project], son respuestas al impulso relativas a la cabeza de un grupo de indi-viduos (HRIR), medidas en una cámara anecóica de dimensiones 8.1m × 6.2m × 6.45m y con un volumen de 324 m3. Se utilizó un sistema mecánico para variar la elevación de un parlante Tannoy Series 600 y un par de micrófonos miniatura Knowles FG3329 que fueron colocados dentro del canal auditivo de la población de personas. Para la varia-ción azimutal se usó un sistema de rotavaria-ción B&K 9640, que permite controlar la rotación de la silla sobre la cual se ubica el sujeto; todo controlado desde un computador Apple Macintosh G4 500 MHz con 256 Mb RAM, Mac OS 9.2, y una tarjeta de sonido RME Multiface. El software de medición es una aplicación en tiempo real en Max/MSP que permite calcular la respuesta al impulso usando una secuencia MLS de 8192 muestras para excitar la sala y de-convolucionar sincrónica-mente la señal proveniente de los micrófonos. Se realizaron mediciones en posiciones sobre una superficie esférica con elevaciones entre -45 y +90 grados usando incrementos de 15 grados, y en el plano azimutal, incrementos de 15 grados abarcando completamente los 360 grados de una circunferencia. En total son utilizadas 187 respuestas al impulso en formato estéreo, cada una con la cantidad de muestras mencionadas anteriormente.

En la siguiente gráfica se observa la respuesta al impulso original obte-nida de la base de datos del IRCAM, medida en el plano horizontal (0º elevación) y a 0º azimut. Se relaciona Amplitud vs Muestras, con una longitud de 8192 muestras como fue mencionado anteriormente. Para realizar el procesamiento de las respuestas al impulso, se utiliza una ventana rectangular de 512 muestras para recortar las 8192 mues-tras iniciales. Lo anterior, considerando que para la caracterización del sistema cabeza-torso-pabellón auditivo la información temporal rele-vante de la respuesta al impulso, (a una frecuencia de muestreo de 44100 Hz), se encuentra en aproximadamente 512 muestras alrededor del pico máximo de la respuesta al impulso. En trabajos previos, [Pös-selt et al.(1986)] se utilizó una ventana Hamming centrada en el valor máximo de la señal para recortar la cantidad de muestras a un valor

En total son

utilizadas 187

respuestas al

impulso en

formato estéreo,

cada una con

la cantidad

de muestras

mencionadas

anteriormente.

(5)

21

S O N A C 2 0 1 2

mucho más manejable, sin embargo en trabajos posteriores, a partir de experimentos en laboratorios, no se justifica el uso de ventanas que no sean rectangulares [Møller et al(1995)], [Sandvad & Hammershøi (1994)]. La justificación es que en la representación como filtro de una HRIR no hay discontinuidades en el dominio de la frecuencia, pero sí transiciones bruscas. Estas transiciones no causan oscilaciones al utilizar una ventana rectangular, mientras que el uso de ventanas con un lóbulo principal ancho, como la Hamming, producen un suavizado excesivo en el dominio de la frecuencia.

El la figura 3.2 se muestran las respuestas al impulso contralateral e ipsilateral luego de aplicar la ventana rectangular para seleccionar 512 muestras. En ésta se observa que la ventana no está centrada en el pico máximo de la HRIR ya que es más relevante la evolución temporal después de alcanzar el pico máximo que antes de éste. Así mismo, en la figura 3.3 se observa la magnitud de la respuesta en frecuencia para las mismas HRIR’s relacionadas en la figura inmediatamente anterior. Para realizar la ecualización de las HRTF’s, se optó por utilizar un mé-todo en campo difuso sobre la opción de ecualización en campo libre. Según experimentos realizados por [Theile (1986)], los cuales serían reafirmados por [Blauert (1997)], se indica que si las respuestas al im-pulso obtenidas provienen de diferentes direcciones, asegurando una cantidad notable de sonidos difusos o no frontales, los oyentes pre-fieren trabajar con un sistema ecualizado bajo la modalidad de campo difuso. Es por esto que finalmente se decide trabajar con este último método de ecualización; teniendo en cuenta que en la base de datos del IRCAM las HRTF’s provienen en su mayoría de direcciones no frontales, por lo que el método de ecualización no privilegia una dirección en particular.

Figura 3.1: Respuesta al impulso de la base de datos del IRCAM. Medida a 0 grados azimut en el plano

(6)

Las ecualización de las HRTF’s se obtiene a partir de las funciones de transferencias de potencia obtenidas para cada oído y medidas en campo difuso. Esta se obtiene para cada oído como la raíz cuadrada del promedio energético de las magnitudes de las respuestas en frecuencia de las HRTF’s (ecuación 3.1). En el caso en que las direcciones de me-dición no muestreen completamente una superficie esférica, se puede usar una función de pesos que compense dicho muestreo no uniforme, tal y como se sugieren en [Larcher et al. (1995)]. El promedio energético en campo difuso es calculado usando la ecuación 3.1 y se muestra para cada oído en la figura 3.4. Allí se observan las características que son independientes de la dirección de medición, donde claramente hay un pico alrededor de 3 kHz asociado a la resonancia del canal auditivo. Figura 3.3: Magnitud de las HRTF medidas a 0º azimuth en el plano horizontal: respuesta ipsilateral (Color

azul) y respuesta contralateral (Color rojo).

(7)

23

S O N A C 2 0 1 2

La respuesta de campo difuso debe ser luego invertida para crear un fil-tro de ecualización que pueda aplicarse a todo el conjunto de HRTF’s en la base de datos. Para la fase de este filtro inverso es necesario aplicar la transformada de Hilbert para garantizar que el filtro sea de fase mínima [Oppenheim & Schaffer (1989)]. En la figura 3.5 se observa el resultado de aplicar este filtro inverso, para las mismas HRTF’s de la figura 3.3.

Para el diseño del filtro inverso, se aplica una importante propiedad común en sistemas lineales con función de transferencia racional con polos y ceros. Así, todo filtro estable puede ser representado como una conexión en cascada de un filtro de fase mínima y un filtro de fase all-pass. Este filtro all-pass implementa el exceso de la fase, obtenida como la resta entre la fase del filtro original y la del filtro de fase mínima. Figura 3.4: Promedio energético de campo difuso de las HRTF’s. Oído izquierdo (azul) y derecho (rojo).

Figura 3.5: Magnitud de las HRTF’s ecualizadas mediante campo difuso, medidas a 0º azimut en el plano

(8)

donde h(ejw) es una función de transferencia de un sistema lineal y estable, o(w) la fase del filtro de fase mínima y o(w) la fase del filtro all-pass.

De lo anterior, se puede suponer que una función de transferencia

queda queda completamente representada por la magnitud de su res-puesta en frecuencia y el exceso de fase que está representado en el filtro all-pass. Esto debido a que la magnitud del filtro de fase mínima es la misma magnitud de H(ejw) y se relaciona unívocamente con su fase por medio de la transformada de Hilbert.

Apoyados en hallazgos experimentales [Møller et al. (1995)] [Gard-ner (1997)], se puede supo[Gard-ner que el exceso de fase para funciones de transferencia relativas a la cabeza (HRTF’s), por debajo de 5KHz puede aproximarse a un comportamiento de fase lineal que pueda ser mo-delado como un delay puro y que la ecualización en campo difuso no afecta el exceso de fase de las HRTF’s [Larcher et al. (1995)], entonces la aplicación del filtro inverso para la ecualización de campo difuso solo afectará la parte de fase mínima, que está representada únicamente por la magnitud de la respuesta en frecuencia de cada HRTF.

Así entonces, la ecualización en campo difuso de una función de trans-ferencia relativa a la cabeza H, se obtiene dividiendo la magnitud de su espectro |H| entre el promedio energético para campo difuso |H_df|, manteniendo el exceso de fase 0(w) sin alteraciones (ecuación 3.3). A continuación, en la figura 3.6, se muestran las fases de una HRTF medida a cero grados azimut en el plano horizontal y de su función de transferencia de fase mínima. Lo anterior, para obtener la fase exceso que luego se modela como un delay puro.

Para la reconstrucción de la respuesta al impulso, a partir de la función de transferencia relativa a la cabeza ecualizada en campo difuso heq, se debe primero obtener la fase mínima correspondiente a la magnitud del espectro ecualizado (qeq(w)).Para ello, nuevamente, se calcula el loga-ritmo de la magnitud de la respuesta en frecuencia ecualizada usando la transformada inversa de Hilbert. De esta fase mínima se calcula la fase de heq(ejw), sumando la fase exceso que se mantuvo sin modifica-ciones (ecuación 3.4). 3.3: 3.2:

…la aplicación

del filtro

inverso para la

ecualización de

campo difuso

solo afectará la

parte de fase

mínima, que está

representada

únicamente por

la magnitud de

la respuesta en

frecuencia de

cada HRTF

(9)

25

S O N A C 2 0 1 2

Finalmente, ya con la magnitud y fase de cada HRTF ecualizada, se realiza entonces la reconstrucción del espectro complejo, obteniendo así la respuesta al impulso de cada una de las HRTF’s ecualizadas, por medio de la transformada inversa de Fourier. La figura 3.7 muestra la respuesta al impulso ecualizada para campo difuso obtenida a partir de una HRIR medida para cero grados azimut y sobre el plano horizontal y

su comparación con el mismo resultado publicado por el IRCAM como la versión ecualizada de su base de datos.

Figura 3.6: Fase de una HRTF medida a 0º azimut en el plano horizontal (Color azul). Fase mínima de la

HRTF (Color rojo). La fase all-pass es el resultado de la resta entre ambas

3.4:

Figura 3.7: Respuesta al impulso ecualizada obtenida (figura roja), desplazada una muestra con respecto

(10)

de características independientes de la dirección de propagación, que finalmente se utilizarán para procesos de síntesis binaural y filtros can-celadores de crosstalk.

Al hacer pruebas subjetivas simples espacializando algunas muestras de audio por medio de convoluciones con las respuestas al impulso publicadas por el IRCAM y las obtenidas en el presente proyecto, fue difícil percibir diferencias o incluso distinguir entre el resultado pro-ducto de convoluciones con HRIR’s provenientes de la misma dirección. De todas maneras se ve necesaria la realización de pruebas perceptuales formales y rigurosas para discutir a fondo sobre el tema.

La manipulación de las HRTF’s como una conexión en serie de un sis-tema de fase mínima y un sissis-tema de fase all-pass (que se modela como un sistema de fase lineal), permite la simplificación de los procesos de ecualización, normalización y modelamiento, permitiendo además im-plementaciones eficientes en sistemas de tiempo real.

5. REFERENCIAS

1. Gardner W. G (1997). 3-D Audio Using Loudspeakers, Ph.D. thesis, Dept. of Media Arts and Sciences, MIT.

2. Larcher V,Vandernoot G, JotJ.M (1998). Equalization Methods in Binaural Technology. 105th AES Convention, San Francisco California, September 26-29.

3. Larcher V,Vandernoot G, JotJ.M (1995). Digital Signal Processing Issues in the Context of

Binaural and Transaural Technology. 98th AES convention, Paris, February 25-28.

4. Minnaar P, Olesen S, Christensen F, Møller. H. (2001).The Importance of Head Movements

for Binaural Room Synthesis. Proc ICAD, Espoo, Finland, July 29-August 1.

5. Blauert J. (1997).Spatial Hearing: The psychophysics of human sound localization. Rev. Edition. MIT press. Cambridge.

6. Sandvad J, Hammershøi D. (1994). Binaural Auralization. Comparison of FIR and IIR

filter representa-tion of HIRs. 96th AES Convention, Preprint#3862.

7. Møller H, Sørensen M.F, Hammershøi D, Jensen C.B. (1995). Head-Related Transfer

Functions of Hu-man Subjects. J. Audio Eng. Soc, Volume 43 Issue 5 pp. 300-321.

8. Møller H. (1992).Fundamentals of Binaural Technology. Applied Acoustics, Vol. 36, pp. 171-217, 1992.

9. Oppenheim A.V, Schafer R.W (1989). Discrete-time Signal Processing. Prentice Hall. 10. Pösselt C, Schröter J, Opitz M, Divenyi P.L, Blauert J. (1996.)Generation of Binaural

Sig-nals for Re-search and Home Entertainment. 12th ICA Conf, B1-6.

11. Theile G. (1986). On the standardization of the frequency response of high quality studio

headphones. J. Audio Eng. Soc., Vol 34, pp. 121.

12. Listen Project – Information Society Technologies Program - IST-1999-20646: http:// listen.gmd.de/ LISTENHRTF Database: http://www.ircam.fr/equipes/salles/listen/. 13. Warusfel O. (2003). Listen HRTF Database. Room Acoustics Team, IRCAM Institute, Paris.