Fisiolog´ıa del o´ıdo y su simulaci´on con un modelo o´ıdo computacional

El o´ıdo humano puede percibir una extensa serie de frecuencias comprendidas entre 16 Hz y 20,000 Hz. Por regla general, la percepci´on de las altas frecuencias es mejor en la infancia y disminuye gradualmente con el tiempo, de manera que a un adulto normal le es dif´ıcil o´ır frecuencias que pasan de 12,000 Hz.

La intensidad sonora se expresa en decibeles (dB SPL). Una intensidad sonora de 0 dB es apenas perceptible, 20 dB es equivale a un susurro a 1m de distancia y es 100 veces más intenso, 60 dB es equivale a una conversación normal y es un millón de veces más intenso, y 100 dB es equivalente a un martillo neumático a 10m de distancia, siendo 10.000 millones de veces más intenso.

3.1. O´ıdo externo

El o´ıdo externo adem´as de protegernos de que no se nos introduzcan cuerpos extraos en el sistema auditivo, tiene la misi´on de concentrar las ondas sonoras, especialmente las de alta frecuencia y llevarlas al canal auditivo (Figura 2).

Sistema Bioinspirado de Reconocimiento Fon´etico en Entornos Ruidosos 49

Figura 2. Representaci´on secciones del O´ıdo

Del mismo modo que los ojos nos proporcionan visión esteroscópica permi- tiéndonos calcular distancias, los o´ıdos nos proporcionan audición esterofónica para determinar la dirección del sonido. Resulta destacable que el o´ıdo externo nos permite determinar la posición en altura de la fuente del sonido, para ello el cerebro es capaz de determinar las transformaciones que se producen en la seal acústica según el ángulo con que nos llega la seal al o´ıdo externo.

El pabellón auricular se comunica con el conducto auditivo que se extiende hasta el t´ımpano. En el t´ımpano los cambios de presión de las ondas sonoras se transforman en vibraciones mecánicas de longitud de onda sumamente pequea. En una conversación normal el desplazamiento de la membrana es del orden del diámetro de una molécula de hidrógeno. El o´ıdo externo en su conjunto actúa como un elemento resonante que resalta las frecuencias entre 2 Khz y 5.5 Khz. 3.2. O´ıdo Medio

El o´ıdo medio est´a compuesto por la cadena de huesecillos: martillo, yunque y estribo (Figura 2), que toman las vibraciones proyectadas sobre el t´ımpano y las conducen a la ventana oval (o´ıdo interno). Valga como curiosidad indicar que el estribo es el hueso m´as pequeo del cuerpo humano.

La principal función del o´ıdo medio es la adaptación de impedancias entre aire y el fluido que existe en la cóclea, ya que de no existir se provocar´ıa un rebote de la energ´ıa que se pretende transmitir al o´ıdo interno.

Otra importante función de la cadena de huesecillos es tener controlada por músculos y ligamentos la movilidad máxima necesaria para la transmisión sonora. Los músculos timpánicos se combinan de tal manera que se contraen al mismo

50 Javier Mart´ınez Elicegui

tiempo formando una unidad de defensa ante los ruidos intensos, amortiguando el sonido a altas intensidades. Su eficiencia en esta tarea depende de la frecuencia de las vibraciones, transmitiendo ´optimamente frecuencias medias (1 a 4 Khz), pero ofreciendo resistencia a las oscilaciones de otras frecuencias. Este fen´omeno determina en buena medida la forma baera invertida de los audiogramas [6].

3.3. O´ıdo Interno: la c´oclea

En la cóclea es donde ocurre la transformación de energ´ıa mecánica en eléctri- ca mediante un fenómeno mecánico-qu´ımico-eléctrico. Esta energ´ıa bioeléctrica es conducida por los centros nerviosos hasta la corteza cerebral que es donde se integran las seales y tomamos conciencia de la imagen acústica.

La cóclea es un órgano en forma de caracol que descompone la seal acústica en las diferentes frecuencias, ya que el cerebro funciona en base a un mapa tonotópico, es decir que diferentes áreas del cerebro tratan en primera instancia la interpretación de distintos rangos de frecuencias, para posteriormente otras ´

areas del cerebro ir integrando información y abstrayendo sensaciones conjuntas. La cóclea está formada por un sistema de tres rampas paralelas enrolladas: rampa vestibular, rampa media y rampa timpánica. La rampa vestibular y media se hallan separadas por la membrana de Reissner y la rampa timpánica y la rampa media se hallan separadas por la membrana basilar. Sin entrar en mayores detalles, la presión generada por el estribo en la rampa vestibular se traslada a movimientos en la membrana basilar.

3.4. Membrana basilar

Tal como demostró George von Békésy, Nobel Medicina 1961, cada zona de la membrana basilar es más sensible a un estrecho rango de frecuencias. Este fenómeno nos permite discriminar entre sonidos compuestos por frecuencias muy parecidas pero con diferente contenido armónico.

En el modelo utilizado se simula este comportamiento mediante un banco de filtros denominados DRNL: Dual-Resonance NonLinear, que representa cada regi´on de la membrana basilar [4]. Los filtros DRNL reproducen toda una serie de efectos no lineales que se han comprobado v´ıa experimental como son el hecho de que la frecuencia central, la anchura y la forma de la funci´on del filtro var´ıan con la intensidad del sonido.

Este comportamiento no lineal es el responsable del efecto de supresi´on por el cual la percepci´on de un sonido puede disminuir en presencia de seal en bandas adyacentes.

La Figura 3 muestra de forma simplificada los efectos de supresi´on ante un est´ımulo de seal una vez aplicado el banco de filtros que representan las sucesivas zonas de la membrana basilar. El resultado de este efecto de supresi´on es que se resaltan la amplitud entre picos y valles de frecuencias formantes, lo cual deber´ıa contribuir a aumentar la SNR en ambientes ruidosos [10].

Sistema Bioinspirado de Reconocimiento Fon´etico en Entornos Ruidosos 51

Figura 3. Efecto del fen´omeno de supresi´on ante un est´ımulo de seal de entrada

Figura 4. Organo de Corti

3.5. Organo de Corti´

A todo lo largo de la superficie de la membrana basilar se halla una estruc- tura denominada órgano de Corti (Figura 4), que contiene en los humanos unas 16.000 células ciliadas, y que son las encargadas de transformar los movimientos mecánicos en seales eléctricas que facilitan la descargas de neurotransmisores sobre el nervio acústico. En el modelo desarrollado se ha generado un algoritmo que simula la amplitud de oscilación de los cilios, genera el valor del potencial intra- celular, y a partir de ah´ı se simulan el resto de fenómenos hasta la excitación del nervio auditivo. Para mayor detalle de todos estos mecanismos recomendamos la lectura (López-Poveda 2006 [3]).

Estos comportamientos de las células ciliadas son los responsables del efecto de adaptación, por el cual la actividad de las fibras del nervio auditivo es mayor al producirse un cambio brusco en un est´ımulo sonoro que una vez transcurrido un cierto tiempo [11]. Este fenómeno de adaptación se produce por los mecanismos de intercambio entre las células ciliadas y el nervio auditivo, en los que

52 Javier Mart´ınez Elicegui

disminuye la respuesta ante un mismo est´ımulo pasados unos milisegundos. Esta caracter´ıstica facilita la percepción de algunos sonidos consonánticos como la [t] o la [k] a pesar de su brevedad. Asimismo, tras el cese de un est´ımulo sonoro se reduce la actividad del nervio auditivo lo cual dificulta la percepción de sonidos breves que siguen a un sonido prolongado.

3.6. Modelo O´ıdo Artificial

Figura 5. Modelo de O´ıdo Artificial [6]

Simular todos estos comportamientos es una tarea compleja que ha llevado muchos aos de investigación y cuyos resultados se conocen principalmente a través de sucesivas publicaciones de Enrique López Poveda y Ray Meddis.

Aislar y obtener las curvas y parámetros que caracterizan cada una de las fases del o´ıdo humano nos permiten tener una extraordinaria base de experimen- tación para simular diferentes patolog´ıas, o como en el objeto de este trabajo de investigación, para analizar los reconocedores automáticos del habla y compren- der en profundidad que caracter´ısticas influyen de forma más significativa.

Para finalizar en este apartado, la Figura 5 muestra un esquema de bloques de las diferentes fases que simulan el comportamiento del o´ıdo humano. Este modelo está implementado en rutinas Matlab y en librer´ıas de código C, disponibles bien a través del laboratorio de investigación liderado por Enrique López Poveda, o bien desde el proyecto DSAM: Development System for auditory Modelling, accesible en (http://www.pdn.cam.ac.uk/groups/dsam/).

In document Avances en informática y automática: segundo workshop (página 60-64)