• No se han encontrado resultados

Fisiolog´ıa del o´ıdo y su simulaci´on con un modelo o´ıdo computacional

El o´ıdo humano puede percibir una extensa serie de frecuencias comprendidas entre 16 Hz y 20,000 Hz. Por regla general, la percepci´on de las altas frecuencias es mejor en la infancia y disminuye gradualmente con el tiempo, de manera que a un adulto normal le es dif´ıcil o´ır frecuencias que pasan de 12,000 Hz.

La intensidad sonora se expresa en decibeles (dB SPL). Una intensidad sonora de 0 dB es apenas perceptible, 20 dB es equivale a un susurro a 1m de distancia y es 100 veces m´as intenso, 60 dB es equivale a una conversaci´on normal y es un mill´on de veces m´as intenso, y 100 dB es equivalente a un martillo neum´atico a 10m de distancia, siendo 10.000 millones de veces m´as intenso.

3.1. O´ıdo externo

El o´ıdo externo adem´as de protegernos de que no se nos introduzcan cuerpos extraos en el sistema auditivo, tiene la misi´on de concentrar las ondas sonoras, especialmente las de alta frecuencia y llevarlas al canal auditivo (Figura 2).

Sistema Bioinspirado de Reconocimiento Fon´etico en Entornos Ruidosos 49

Figura 2. Representaci´on secciones del O´ıdo

Del mismo modo que los ojos nos proporcionan visi´on esterosc´opica permi- ti´endonos calcular distancias, los o´ıdos nos proporcionan audici´on esterof´onica para determinar la direcci´on del sonido. Resulta destacable que el o´ıdo externo nos permite determinar la posici´on en altura de la fuente del sonido, para ello el cerebro es capaz de determinar las transformaciones que se producen en la seal ac´ustica seg´un el ´angulo con que nos llega la seal al o´ıdo externo.

El pabell´on auricular se comunica con el conducto auditivo que se extiende hasta el t´ımpano. En el t´ımpano los cambios de presi´on de las ondas sonoras se transforman en vibraciones mec´anicas de longitud de onda sumamente pequea. En una conversaci´on normal el desplazamiento de la membrana es del orden del di´ametro de una mol´ecula de hidr´ogeno. El o´ıdo externo en su conjunto act´ua como un elemento resonante que resalta las frecuencias entre 2 Khz y 5.5 Khz. 3.2. O´ıdo Medio

El o´ıdo medio est´a compuesto por la cadena de huesecillos: martillo, yunque y estribo (Figura 2), que toman las vibraciones proyectadas sobre el t´ımpano y las conducen a la ventana oval (o´ıdo interno). Valga como curiosidad indicar que el estribo es el hueso m´as pequeo del cuerpo humano.

La principal funci´on del o´ıdo medio es la adaptaci´on de impedancias entre aire y el fluido que existe en la c´oclea, ya que de no existir se provocar´ıa un rebote de la energ´ıa que se pretende transmitir al o´ıdo interno.

Otra importante funci´on de la cadena de huesecillos es tener controlada por m´usculos y ligamentos la movilidad m´axima necesaria para la transmisi´on sono- ra. Los m´usculos timp´anicos se combinan de tal manera que se contraen al mismo

50 Javier Mart´ınez Elicegui

tiempo formando una unidad de defensa ante los ruidos intensos, amortiguando el sonido a altas intensidades. Su eficiencia en esta tarea depende de la frecuencia de las vibraciones, transmitiendo ´optimamente frecuencias medias (1 a 4 Khz), pero ofreciendo resistencia a las oscilaciones de otras frecuencias. Este fen´omeno determina en buena medida la forma baera invertida de los audiogramas [6].

3.3. O´ıdo Interno: la c´oclea

En la c´oclea es donde ocurre la transformaci´on de energ´ıa mec´anica en el´ectri- ca mediante un fen´omeno mec´anico-qu´ımico-el´ectrico. Esta energ´ıa bioel´ectrica es conducida por los centros nerviosos hasta la corteza cerebral que es donde se integran las seales y tomamos conciencia de la imagen ac´ustica.

La c´oclea es un ´organo en forma de caracol que descompone la seal ac´ustica en las diferentes frecuencias, ya que el cerebro funciona en base a un mapa tonot´opico, es decir que diferentes ´areas del cerebro tratan en primera instancia la interpretaci´on de distintos rangos de frecuencias, para posteriormente otras ´

areas del cerebro ir integrando informaci´on y abstrayendo sensaciones conjuntas. La c´oclea est´a formada por un sistema de tres rampas paralelas enrolladas: rampa vestibular, rampa media y rampa timp´anica. La rampa vestibular y media se hallan separadas por la membrana de Reissner y la rampa timp´anica y la rampa media se hallan separadas por la membrana basilar. Sin entrar en mayores detalles, la presi´on generada por el estribo en la rampa vestibular se traslada a movimientos en la membrana basilar.

3.4. Membrana basilar

Tal como demostr´o George von B´ek´esy, Nobel Medicina 1961, cada zona de la membrana basilar es m´as sensible a un estrecho rango de frecuencias. Este fen´omeno nos permite discriminar entre sonidos compuestos por frecuencias muy parecidas pero con diferente contenido arm´onico.

En el modelo utilizado se simula este comportamiento mediante un banco de filtros denominados DRNL: Dual-Resonance NonLinear, que representa cada regi´on de la membrana basilar [4]. Los filtros DRNL reproducen toda una serie de efectos no lineales que se han comprobado v´ıa experimental como son el hecho de que la frecuencia central, la anchura y la forma de la funci´on del filtro var´ıan con la intensidad del sonido.

Este comportamiento no lineal es el responsable del efecto de supresi´on por el cual la percepci´on de un sonido puede disminuir en presencia de seal en bandas adyacentes.

La Figura 3 muestra de forma simplificada los efectos de supresi´on ante un est´ımulo de seal una vez aplicado el banco de filtros que representan las sucesivas zonas de la membrana basilar. El resultado de este efecto de supresi´on es que se resaltan la amplitud entre picos y valles de frecuencias formantes, lo cual deber´ıa contribuir a aumentar la SNR en ambientes ruidosos [10].

Sistema Bioinspirado de Reconocimiento Fon´etico en Entornos Ruidosos 51

Figura 3. Efecto del fen´omeno de supresi´on ante un est´ımulo de seal de entrada

Figura 4. Organo de Corti

3.5. Organo de Corti´

A todo lo largo de la superficie de la membrana basilar se halla una estruc- tura denominada ´organo de Corti (Figura 4), que contiene en los humanos unas 16.000 c´elulas ciliadas, y que son las encargadas de transformar los movimientos mec´anicos en seales el´ectricas que facilitan la descargas de neurotransmisores so- bre el nervio ac´ustico. En el modelo desarrollado se ha generado un algoritmo que simula la amplitud de oscilaci´on de los cilios, genera el valor del potencial intra- celular, y a partir de ah´ı se simulan el resto de fen´omenos hasta la excitaci´on del nervio auditivo. Para mayor detalle de todos estos mecanismos recomendamos la lectura (L´opez-Poveda 2006 [3]).

Estos comportamientos de las c´elulas ciliadas son los responsables del efecto de adaptaci´on, por el cual la actividad de las fibras del nervio auditivo es mayor al producirse un cambio brusco en un est´ımulo sonoro que una vez transcurrido un cierto tiempo [11]. Este fen´omeno de adaptaci´on se produce por los meca- nismos de intercambio entre las c´elulas ciliadas y el nervio auditivo, en los que

52 Javier Mart´ınez Elicegui

disminuye la respuesta ante un mismo est´ımulo pasados unos milisegundos. Esta caracter´ıstica facilita la percepci´on de algunos sonidos conson´anticos como la [t] o la [k] a pesar de su brevedad. Asimismo, tras el cese de un est´ımulo sonoro se reduce la actividad del nervio auditivo lo cual dificulta la percepci´on de sonidos breves que siguen a un sonido prolongado.

3.6. Modelo O´ıdo Artificial

Figura 5. Modelo de O´ıdo Artificial [6]

Simular todos estos comportamientos es una tarea compleja que ha llevado muchos aos de investigaci´on y cuyos resultados se conocen principalmente a trav´es de sucesivas publicaciones de Enrique L´opez Poveda y Ray Meddis.

Aislar y obtener las curvas y par´ametros que caracterizan cada una de las fases del o´ıdo humano nos permiten tener una extraordinaria base de experimen- taci´on para simular diferentes patolog´ıas, o como en el objeto de este trabajo de investigaci´on, para analizar los reconocedores autom´aticos del habla y compren- der en profundidad que caracter´ısticas influyen de forma m´as significativa.

Para finalizar en este apartado, la Figura 5 muestra un esquema de bloques de las diferentes fases que simulan el comportamiento del o´ıdo humano. Este modelo est´a implementado en rutinas Matlab y en librer´ıas de c´odigo C, disponibles bien a trav´es del laboratorio de investigaci´on liderado por Enrique L´opez Poveda, o bien desde el proyecto DSAM: Development System for auditory Modelling, accesible en (http://www.pdn.cam.ac.uk/groups/dsam/).