Centro de Investigaci´on y Desarrollo de Tecnolog´ıa Digital
Maestr´ıa en Ciencias en Sistemas Digitales
“M´etodos Localmente Adaptativos para la Mejora de Se ˜nales de Voz en Sistemas Inmersos”
Tesis
Que para Obtener el Grado de
Maestro en Ciencias en Sistemas Digitales
Presenta:
Ing. Yuma Sandoval Ibarra
Bajo la Direcci´on de:
Dr. V´ıctor H. D´ıaz Ram´ırez Dr. Juan J. Tap´ıa Armenta
Enero de 2011 Tijuana, B.C., M´exico
A mis Padres: Lorenza de Jes´us y Manuel de Jes´us y mis Hermanos: Tania Libertad y Manuel de Jes´us Por su amor y apoyo incondicional.
A mi Abuelos: Nicolasa, Lorenzo, Yuma y Jos´e Por sus consejos y gran ejemplo.
Al Dr.Victor H. D´ıaz Ram´ırez, por compartir conmigo su conocimiento y su aprecia- ble tiempo durante el desarrollo de esta tesis. Y por su infinita paciencia.
Al Dr. Juan J. Tap´ıa Armenta, le agradezco sinceramente su orientaci´on y apoyo para realizar este trabajo.
Al Comit´e de Revisi´on: Dr. Mois´es S´anchez Adame, Dra. Mireya S. Garc´ıa V´azquez y M.C. Ernesto E. Quiroz Morones, por su disposici´on en la revisi´on de este trabajo, por sus comentarios y sus sugerencias que contribuyeron a mejorar este trabajo.
Al Consejo Nacional de Ciencia y Tecnolog´ıa CONACYT, por brindarme su apoyo econ´omico como becario, para el desarrollo de mis estudios.
Al CITEDI, por las facilidades otorgadas para realizar la maestr´ıa.
A todas aquellas personas que hicieron posible la realizaci´on de este trabajo de tesis.
Por todo su apoyo a la familia Quevedo Pillado.
A mis compa ˜neros: Abril, Araceli, Diana, Ernesto, Francisco, Gustavo, Hugo, Jorge, Jose Luis, Luis Miguel, Mar´ıa, Mildred, Olivier, Virgilio, V´ıctor, por la amistad brinda y su apoyo.
A mis amigos, por ser tan incondicionales en su amistad y apoyo.
Finalmente de forma muy especial a mi novio: Jos´e Cruz, por todo su apoyo y cari˜no.
Resumen
La mejora o restauraci´on de se˜nales de voz, se ha convertido en las ultimas d´ecadas en una de las ´areas mas investigadas dentro del procesamiento digital de informaci´on. Esto se debe al creciente avance de los equipos de comunicaci´on personal, como tel´efonos celulares, sistemas de manos-libres, transmisi´on de voz sobre IP, teleconferencia, aud´ıfonos, entre otros. La mejora de voz, consiste en incrementar la calidad de las se˜nales en t´erminos de su inteligibilidad y de la reducci´on del ruido mediante el uso de diferentes m´etricas de desempe˜no. En este contexto, las degradaciones de voz pueden describirse como cualquier modificaci´on indeseable que sufre la se˜nal, y que puede disminuir su inteligibilidad. El ruido del sensor, ruido de fondo, y el ruido impulsivo introducido por el canal de comunicaci´on son algunas distorsiones t´ıpicas. La mejora de voz es un problema dif´ıcil debido a la naturaleza no estacionaria de las se˜nales y las carac- ter´ısticas de las funciones de ruido. Adem´as, los requerimientos de calidad en las se˜nales proce- sadas pueden variar dr´asticamente de aplicaci´on en aplicaci´on. Por otra parte, adem´as de una buena calidad en el procesamiento de las se˜nales es deseable contar con algoritmos eficientes que permitan una implementaci´on con una buena velocidad de respuesta en sistemas digitales compactos, de bajo costo, y eficientes en el consumo de energ´ıa. Es decir, debemos tener t´ecni- cas de procesamiento que restauren correctamente a las se˜nales capturadas y tambi´en, que sean eficientes en su implementaci´on. En este trabajo de tesis, proponemos un algoritmo de orden localmente adaptativo para la eliminaci´on robusta de ruido en se˜nales de voz. El algoritmo prop- uesto se basa en el uso de vecindades adaptativas locales, obtenidas a partir de las estad´ısticas de orden prioritario de la se˜nal dentro en una ventana deslizante. El algoritmo propuesto es capaz de estimar una se˜nal no estacionaria libre de ruido, a partir de una version distorsionada por diferentes fuentes de ruido como ruido blanco y ruido tipo impulsivo. Diferentes resultados obtenidos con el m´etodo propuesto son presentados, discutidos, y comparados, con diferentes m´etodos existentes para la mejora de se˜nales de voz.
Palabras clave: estad´ıstica de orden prioritario; estimaci´on robusta; inteligibilidad; mejora de voz; procesamiento local adaptativo; sistema inmersos.
Abstract
Speech enhancement techniques, have become one of the most investigated topics in digital in- formation processing in the last decades. This is due to the increasing developments in personal communication equipments such as cellular telephones, hands-free systems, voice over IP, tele- conference, headphones, among others. Speech enhancement, consists in improving the quality of the voice signals in terms of its intelligibility and noise reduction by optimizing different performance criteria. In this context, voice degradations can be described as any undesirable modification the suffers the signal and affects its intelligibility. The sensor’s noise, background noise, and impulsive noise introduced by the communication channel are typical distortions.
Speech enhancement is a difficult problem due to the nonstationary nature of the speech signals as well to the different distorting characteristics introduced by the noise functions. Furthermore, the quality requirements in the processed signals can vary drastically from one application to another. On the other hand, besides a good quality in signal processing it is desirable to have an efficient algorithm which allows a fast-response implementation in a low cost digital system with limited resources and efficient in its energy consumption. In other words, it is desirable to design a signal processing algorithm which correctly restore the captured signals and yields an efficient implementation. In this Thesis, we propose a new locally-adaptive rank order algo- rithm for a robust noise suppression in speech signals. The proposed algorithm is based in the use of local adaptive neighborhoods obtained from the order statistics of the signal inside a slid- ing window. The proposed algorithm is able to estimate a noise free nonstationary signal from a noisy version corrupted by several noise functions of different type, such as additive white noise and impulsive noise. Several results obtained with the proposed method are presented, discussed and compared with different existing methods for speech enhancement.
Keywords: embedded systems; intelligibility; locally adaptive processing; rank order statistics;
robust statistics; speech enhancement.
Resumen . . . VI
Abstract . . . VII
Contenido . . . VIII
Lista de Figuras . . . X
Lista de Tablas . . . XIII
1. Introducci´on 1
1.1. Introducci´on . . . 1
1.2. Objetivos de la Tesis . . . 6
1.2.1. Objetivo General . . . 6
1.2.2. Objetivos Particulares . . . 6
1.3. Aportaciones . . . 6
1.4. Organizaci´on de la tesis . . . 7
2. Marco te´orico 10 2.1. Se˜nales de Voz . . . 10
2.2. Modelos de Ruido . . . 15
2.2.1. Ruido del Sensor . . . 18
2.2.2. Ruido tipo Impulsivo . . . 20
2.2.3. Ruido Mixto . . . 25
2.3. Se˜nales y Sistemas . . . 26
2.4. Estimaci´on estad´ıstica aplicada al procesamiento de se˜nales . . . 33
3. M´etodos convencionales para el procesamiento de voz 36 3.1. M´etricas de Calidad . . . 36
3.1.1. Error Cuadr´atico Promedio . . . 37
3.1.2. Error Absoluto Promedio . . . 37
3.1.3. Relaci´on Se˜nal a Ruido . . . 38
3.1.4. Coeficiente de Correlaci´on, CC . . . 38
3.2. M´etodos basados en un solo sensor . . . 39
3.2.1. M´etodo de sustracci´on espectral . . . 40
VIII
3.2.2. Filtro Wiener . . . 41
3.2.3. Filtrado de Wiener Adaptativo . . . 43
3.2.4. M´etodos basados en Modelos de Predicci´on lineal . . . 45
3.3. M´etodos basados en arreglos de sensores . . . 49
3.3.1. Banco de Filtros . . . 49
3.3.2. Cancelaci´on activa de ruido . . . 52
4. Filtrado no lineal para el procesamiento de la informaci´on 54 4.1. T´ecnicas de estimaci´on robusta . . . 55
4.1.1. Estimador-M . . . 55
4.1.2. Estimador-L . . . 56
4.1.3. Estimador-R . . . 57
4.2. Filtros No Lineales . . . 58
4.2.1. Filtros recortados . . . 58
4.2.2. Filtros de orden prioritario . . . 59
4.2.3. Filtros L . . . 60
4.3. Filtros de orden localmente adaptativos . . . 61
5. Algoritmo localmente adaptativo para la mejora de se˜nales de voz 65 5.1. Algoritmo Propuesto . . . 66
6. Resultados 73 6.1. Resultados en MATLAB . . . 75
6.2. Implementaci´on en LabVIEW . . . 94
6.3. Implementaci´on en el dsPIC33F . . . 97
6.3.1. Introducci´on al controlador digital dsPIC . . . 97
6.3.2. Resultados . . . 102
7. Conclusiones y Trabajo Futuro 105 7.1. Conclusiones . . . 105
7.2. Trabajo Futuro . . . 106
REFERENCIAS 108
A. C´odigo de Simulaciones 112
B. C´odigo de Implementaci´on en Sistema Inmerso (LabVIEW) 114
C. C´odigo de Implementaci´on en Sistema Inmerso (DSPic) 117
1.1. Clasificaci´on general de las aplicaciones de mejora de voz. . . 4
2.1. Sistema tracto vocal humano. . . 11
2.2. Forma de ondas para cada vocal de idioma ingl´es estadounidense. . . 12
2.3. Forma de onda de ac´ustica para —UH-M-A—. . . 13
2.4. Esquema general del funcionamiento de o´ıdo. . . 14
2.5. Clasificaci´on de los diferentes tipos de ruido que afectan a la se˜nal de voz. . . . 16
2.6. Se˜nales de voz distorsionada por: (a) ruido aditivo Gaussiano, (b) ruido tipo impulsivo, (c)ruido mixto (combinaci´on de ruido Gaussiano y ruido impulsivo). 17 2.7. Ruido blanco, (a) realizaci´on en el tiempo, (b) funci´on de auto correlaci´on, (c) densidad espectral de potencia. . . 18
2.8. Funci´on de densidad de probabilidad Gaussiana. . . 19
2.9. (a) area unitaria de un pulso, (b) conversion de pulso a impulso con una duraci´on △→ 0 (c) espectro de la funci´on impulso. . . 20
2.10. Representaci´on en el dominio del tiempo y la frecuencia, (a) impulso ideal, (b) y (c) ejemplos de pulsos de corta duraci´on. . . 21
2.11. Distribuci´on de Densidad de Probabilidad Gamma. . . 24
2.12. Distribuci´on de Densidad de Probabilidad Beta. . . 24
2.13. Distribuci´on de densidad Laplace. . . 25
2.14. Esquema general de procesamiento digital de se˜nales. . . 27
2.15. Estructura de los filtros FIR. . . 29
2.16. Estructura de los filtros IIR. . . 30
2.17. a) Se˜nal cuadrada libre de ruido, b) se˜nal cuadrada contaminada con ruido adi- tivo Gaussiano y c) se˜nal cuadrada procesada con el filtro de promedio. . . 31
2.18. a) Se˜nal cuadrada libre de ruido, b) se˜nal cuadrada contaminada con ruido adi- tivo Gaussiano y c) se˜nal cuadrada procesada con el filtro de mediana. . . 32
3.1. Clasificaci´on de m´etodos de dise˜no de filtros digitales para la mejora de voz. . . 39
3.2. Diagrama a bloques del m´etodo substracci´on espectral. . . 41
3.3. Diagrama a bloques del Filtro Wiener. . . 41
3.4. Diagrama a bloques del filtro Wiener Adaptativo para la mejora de se˜nales de voz. 44 3.5. Diagrama a flujo de la t´ecnica de Interpolaci´on . . . 46
X
3.6. Interpolaci´on Spline de tercer grado. . . 47
3.7. Estructura b´asica de un banco de filtros de dos canales . . . 50
3.8. La funci´on Scaling y Wavelets son iteraciones del filtro pasa-bajas. . . 52
3.9. Ejemplo de un sistema de cancelaci´on activa de ruido. . . 53
3.10. ANC en configuraci´on de identificaci´on de sistemas. . . 53
4.1. Ejemplo de un Rengl´on Variacional. . . 62
4.2. Ejemplo del Vecindario-EV. . . 63
4.3. Ejemplo del Vecindario-KNV . . . 63
4.4. Ejemplo del Vecindario-ER . . . 64
5.1. Procedimiento para la construcci´on de un vecindario adaptativo a partir de las muestras de la ventana deslizante. a) Ventana Deslizante; b) Rengl´on Varia- cional; c) Vecindario Adaptativo. locales. . . 67
5.2. Diagrama de flujo del algoritmo propuesto orden localmente adaptativo. . . 71
6.1. (a) Se˜nal de voz libre de ruido, (b) su espectrograma. . . 75
6.2. (a) Se˜nal de voz distorsionada con ruido blanco Gaussiano con media cero y desviaci´on est´andarσ= 0.01, (b) su espectrograma. . . 76
6.3. (a) Se˜nal de voz distorsionada con ruido impulsivo, (b) su espectrograma. . . . 76
6.4. (a) Se˜nal de voz distorsionada con ruido mixto, (b) su espectrograma. . . 77
6.5. (a) Se˜nal de voz libre de ruido procesada con el filtrado de promedio deslizante, (b) su espectrograma. . . 78
6.6. (a) Se˜nal de voz libre de ruido procesada con el m´etodo de mediana deslizante, (b) su espectrograma. . . 78
6.7. (a) Se˜nal de voz libre de ruido procesada con el m´etodo de substracci´on de magnitud espectral, (b) su espectrograma. . . 79
6.8. (a) Se˜nal de voz libre de ruido procesada con el m´etodo de Wiener Adaptativo, (b) su espectrograma. . . 79
6.9. (a) Se˜nal de voz libre de ruido procesada con el algoritmo localmente adaptativo propuesto, (b) su espectrograma. . . 80
6.10. (a) Se˜nal de voz afectada por ruido blanco Gaussiano procesada con la esti- maci´on de promedio, (b) su espectrograma. . . 82
6.11. (a) Se˜nal de voz afectada por ruido blanco Gaussiano procesada con la esti- maci´on de mediana, (b) su espectrograma. . . 82
6.12. (a) Se˜nal de voz afectada con ruido blanco Gaussiano procesada con el m´etodo de substracci´on de magnitud espectral, (b) su espectrograma. . . 83
6.13. (a) Se˜nal de voz afectada con ruido blanco Gaussiano procesada con el m´etodo de Wiener Adaptativo, (b) su espectrograma. . . 83
6.14. (a) Se˜nal de voz afectada con ruido blanco Gaussiano procesada con el algorit- mo propuesto localmente adaptativo, (b) su espectrograma. . . 84
6.15. (a) Se˜nal de voz afectada por ruido impulsivo procesada con la estimaci´on de promedio, (b) su espectrograma. . . 85
6.16. (a) Se˜nal de voz afectada por ruido impulsivo procesada con la estimaci´on de
mediana, (b) su espectrograma. . . 86
6.17. (a) Se˜nal de voz afectada por ruido impulsivo procesada con el filtro sustracci´on de magnitud espectral, (b) su espectrograma. . . 86
6.18. (a) Se˜nal de voz afectada por ruido impulsivo procesada con el filtro wiener adaptativo, (b) su espectrograma. . . 87
6.19. (a) Se˜nal de voz afectada por ruido impulsivo procesada con el m´etodo interpo- laci´on , (b) y su espectrograma. . . 87
6.20. (a) Se˜nal de voz afectada por ruido impulsivo procesada con el algoritmo prop- uesto localmente adaptativo, (b) su espectrograma. . . 88
6.21. (a) Se˜nal de voz afectada por ruido mixto procesada con la estimaci´on de prome- dio, (b) su espectrograma. . . 90
6.22. (a) Se˜nal de voz afectada por ruido mixto procesada con la estimaci´on de me- diana, (b) su espectrograma. . . 90
6.23. (a) Se˜nal de voz afectada por ruido mixto procesada con el filtro sustracci´on de magnitud espectral , (b) su espectrograma. . . 91
6.24. (a) Se˜nal de voz afectada por ruido mixto procesada con el filtro Wiener adap- tativo , (b) su espectrograma. . . 91
6.25. (a) Se˜nal de voz afectada por ruido mixto procesada con el m´etodo interpolaci´on , (b) su espectrograma. . . 92
6.26. (a) Se˜nal de voz afectada por ruido mixto procesada con el filtro Wiener adap- tativo e interpolaci´on , (b) su espectrograma. . . 92
6.27. (a) Se˜nal de voz afectada por ruido mixto procesada con el algoritmo localmente adaptativo propuesto, (b) su espectrograma. . . 93
6.28. Interfaz gr´afica de la implementaci´on del algoritmo propuesto en LabView. . . 94
6.29. Gr´afica de la se˜nal capturada y se˜nal de voz afectada por ruido. . . 96
6.30. Gr´afica de la se˜nal de voz capturada y se˜nal procesada con m´etodos adaptativos. 96 6.31. Fotograf´ıa del controlador digital de se˜nales dsPIC33F . . . 100
6.32. Arquitectura de dsPIC33F. . . 101
6.33. Muestras adquiridas por el codec. . . 102
6.35. Rengl´on Variacional. . . 103
6.34. Ventana Deslizante. . . 103
6.37. Muestras de Salida. . . 104
6.36. Vecindario Adaptativo. . . 104
B.1. Jerarqu´ıa de la estructura de la implementaci´on en LABVIEW. . . 114
B.2. Ventana Deslizante. . . 115
B.3. Vecindario EV. . . 116
B.4. Promedio. . . 116
6.1. Comparaci´on de resultados de las diferentes m´etricas en el procesamiento de la se˜nal de voz libre de ruido con los diferentes m´etodos. . . 80 6.2. Comparaci´on de resultados en t´erminos de las m´etricas de calidad cuando la
se˜nal de voz esta corrompida por ruido blanco Gaussiano. . . 84 6.3. Comparaci´on de resultados de las diferentes m´etricas de calidad en el proce-
samiento de la se˜nal de voz afectada por ruido impulsivo. . . 89 6.4. Comparaci´on de los resultados de las m´etricas de calidad cuando la se˜nal cor-
rompida por ruido mixto. . . 93 6.5. Caracter´ısticas mas importantes de la familia dsPIC33F. . . 97
XIII
Introducci´on
1.1. Introducci´on
La mejora de se˜nales de voz, consiste en incrementar la calidad de las se˜nales cap- turadas por un sistema digital en t´erminos de su inteligibilidad y de la reducci´on del ruido mediante el uso de diferentes m´etricas de desempe˜no [1]. En este contexto la inteligibilidad se puede definir como la presici´on con la que una persona puede comprender una frase o pal- abra [2]. Las degradaciones de voz, pueden describirse como cualquier modificaci´on indeseable que sufre la se˜nal durante el proceso de grabaci´on, almacenamiento, y/o transmisi´on [3], y que puede disminuir la inteligibilidad de las se˜nales. Desde el punto de vista de la teor´ıa de se˜nales y sistemas, el problema de la mejora de se˜nales de voz es un problema dif´ıcil de resolver debido a dos razones principales:
Las se˜nales de voz son altamente variantes en el tiempo, por lo tanto, se requieren de algoritmos de procesamiento capaces de variar su acci´on de transformaci´on de acuerdo a las caracter´ısticas locales de la se˜nal en cada posici´on.
Las funciones de ruido que afectan a las se˜nales son muy diferentes para cada aplicaci´on, es decir, las funciones de ruido pueden estar distribuidas estad´ısticamente de diferentes maneras, por lo que para estimar la se˜nal libre de ruido es necesario contar con esti-
1
madores robustos [4].
En los ´ultimos a˜nos, los avances de las tecnolog´ıas de la informaci´on han permitido el desarrol- lo de aplicaciones muy especializadas y complejas, donde se requiere de estrategias robustas de procesamiento que aseguren la calidad en la se˜nales en todo momento. Adem´as, la gran capaci- dad de integraci´on electr´onica que existe hoy en d´ıa, permite el desarrollo de sistemas digitales de procesamiento compactos, de bajo costo, y de bajo consumo de energ´ıa. Como resultado, las aplicaciones actuales en donde se involucran se˜nales de voz requieren de sistemas de proce- samiento robustos, eficientes en su implementaci´on, y compactos [5].
Las aplicaciones donde se requiere mejora de voz pueden clasificarse en dos categor´ıas princi- pales: aplicaciones de comunicaci´on y/o almacenamiento, y aplicaciones de manejo y adminis- traci´on de informaci´on [6]. La Fig. 1.1 presenta un diagrama que muestra algunos ejemplos de aplicaciones particulares en cada una de las categor´ıas mencionadas. Las aplicaciones dentro de la categor´ıa de comunicaci´on y/o almacenamiento, comparten el objetivo principal de la trans- misi´on de mensajes (codificaci´on de voz) entre las personas. Algunas de las aplicaciones t´ıpicas dentro de esta categor´ıa son: amplificaci´on y reproducci´on, transmisi´on a distancia por radiofre- cuencia, transmisi´on de voz sobre IP (voIP), as´ı como las tareas b´asicas de grabaci´on y alma- cenamiento digital. Notemos que en estos casos, las se˜nales de voz pueden resultar degradadas por diferentes fuentes de ruido con diferentes caracter´ısticas. Por lo tanto, es deseable contar con algoritmos de procesamiento que sean capaces de mantener intacta la inteligibilidad de los mensajes, sin importar el origen de las fuentes de ruido que corrompen las se˜nales. Por otro lado, las aplicaciones pertenecientes a la categor´ıa de manejo, extracci´on y administraci´on de la informaci´on, tienen como objetivo principal mantener intactos los patrones descriptores de las mismas se˜nales, independientemente del mensaje que las se˜nales de voz contengan [6]. Algunos ejemplos de estas aplicaciones son: reconocimiento de voz, reconocimiento de locutor, an´ali- sis y diagnostico medico, entre otras. Observemos como en estos casos, es importaten resaltar aquellas caracter´ısticas de las se˜nales de voz que permiten asignarlas a una categor´ıa predefini- da cuando son procesadas. Existen un gran numero de estrategias para mejorar la calidad de las
se˜nales de voz, que pueden aplicarse de forma muy particular en relaci´on al tipo de problema.
La diferencia principal entre las estrategias de procesamiento existentes, radica en la gran diver- sidad de tipos de perturbaciones que afectan a se˜nales involucradas. Algunos ejemplos t´ıpicos de estas perturbaciones son: ruido aditivo del sensor, ruido ac´ustico del ambiente, ruido elec- tr´onico, ruido tipo impulsivo, entre otros [7].
El ruido del sensor, es ocasionado por la est´atica presente en el medio ambiente donde se en- cuentra inmerso el sensor [6]. Este ruido, se caracteriza principalmente por que pude modelarse como un proceso estoc´astico estacionario [8] que afecta de manera homog´enea toda la exten- si´on de la se˜nal de voz. El ruido blanco y el ruido rosado, son ejemplos cl´asicos de este tipo de ruido [6]. Por otro lado, el ruido ac´ustico del medio ambiente es originado por cualquier manifestaci´on ac´ustica activa dentro del ambiente donde se encuentra inmerso el sensor. Co- mo ejemplos podemos mencionar, conversaciones de terceras personas (TV o radio), sonido de motores el´ectricos o de gasolina, o en general, cualquier sonido de fondo del medio ambiente.
Este tipo de perturbaciones son dif´ıciles de suprimir ya que la mayor´ıa de ellas son de car´acter no estacionario, lo que significa que su efecto sobre las se˜nales de voz es de naturaleza no ho- mog´enea. As´ı mismo, el ruido impulsivo se caracteriza por la p´erdida completa de los valores de los elementos de la se˜nal que han sido afectados por el ruido [9]. En este caso, los valores de los elementos afectados son reemplazados por valores con magnitud extrema. El ruido tipo impulsivo puede originarse por diferentes razones, algunas de ellas son, defectos en el canal de trasmisi´on, errores de bits en la trasmisi´on digital, problemas de sincronizaci´on en el hardware de captura y/o reproducci´on, entre otras [6].
MEJORA DE VOZ
Comunicaci´on/
Almacenamiento
Manejo, Extracci´on y Administraci´on
de Informaci´on
Transmisi´on, IP, Radiofrecuencia Almacenamiento/
Grabaci´on
Amplificaci´on/
Reproducci´on
Reconocimiento de Voz
Reconocimiento de Locutor
An´alisis, Diagnostico Figura 1.1: Clasificaci´on general de las aplicaciones de mejora de voz.
En la actualidad, existen un gran numero de trabajos exitosos que tratan de suprimir el ruido aditivo en la se˜nal de voz mediante el uso de filtros globales,algunos ejemplos son, Sus- tracci´on de Magnitud Espectral [10] - [11], Filtro Wiener [1] y Filtro Kalman [3]. Otra estrategia importante para la reducci´on de ruido en se˜nales de voz es el m´etodo de cancelaci´on activa de ruido (noise cancelling) [12]. En esta t´ecnica, se requiere un arreglo de multiples sensores para procesar las se˜nales. La cancelaci´on activa de ruido es un m´etodo robusto que generalmente pro- duce buenos resultados sin embargo, puede presentar un alto costo computacional en sistemas digitales. Otro enfoque importante consiste en la construcci´on de filtros lineales localmente adaptativos [13], donde se trata de dotar con la capacidad de adaptaci´on a los filtros lineales convencionales como por ejemplo el filtro de Wiener [13]. No obstante cuando las se˜nales de voz est´an contaminadas por diferentes tipos de perturbaciones, por ejemplo una mezcla de dis- torsiones de tipo Gaussiano y tipo impulsivo, ninguna de las estrategias anteriormente citadas puede obtener buenos resultados.
En contraste, existen filtros digitales no lineales los cuales se caracterizan por procesar las se˜nales sin destruir sus detalles finos [12]. Esta caracter´ıstica, puede evitar que la intelegibili- dad de las se˜nales de voz se vea afectada durante el proceso de filtrado. As´ı mismo, estos filtros son eficientes en la eliminaci´on del ruido, lo cual nos motiva a considerarlos para la propuesta de tesis. El filtro de mediana estad´ıstica es uno de los filtros no lineales m´as populares [14].
Otra estrategia importante para la eliminaci´on del ruido tipo impulsivo es el filtrado basado en t´ecnicas de predicci´on lineal [7]. En esta estrategia, la mejora de la se˜nal se lleva a cabo en dos etapas; primero se localizan los valores de la se˜nal corruptos con ruido tipo impulsivo, y despu´es los elementos localizados son removidos y reemplazados por valores nuevos obtenidos mediante diferentes t´ecnicas de interpolaci´on [6]. Sin embargo, notemos que las t´ecnicas no lin- eales anteriormente mencionadas tienen un enfoque poco robusto ya que solo puede utilizarse para perturbaciones cuya distribuci´on estad´ıstica es conocida. Una evoluci´on importante que han tenido los filtros no lineales son los filtros de orden localmente adaptativo [7]. Estos fil- tros explotan las caracter´ısticas estad´ısticas locales de la se˜nal y estiman en cada paso el valor correspondiente de la se˜nal libre de ruido empleando t´ecnicas de estad´ıstica robusta. Notemos que este enfoque tiene la capacidad de adaptarse localmente conforme la se˜nal es recorrida temporalmente. Los filtros localmente adaptativos han presentado excelentes resultados en el procesamiento de im´agenes pero han sido poco explorados en aplicaciones de se˜nales de voz.
En esta tesis, estamos interesados en la construcci´on de nuevos algoritmos de procesamiento digital aplicados a la mejora de se˜nales de voz en tiempo real. B´asicamente, nos interesa la con- strucci´on de filtros robustos localmente adaptativos que sean capaces de suprimir una mezcla de diferentes fuentes de ruido en se˜nales estad´ısticamente no estacionarias, como lo son las se˜nales de voz. As´ı mismo, para cumplir los requerimientos de procesamiento en tiempo real, es nece- sario que los algoritmos propuestos tengan una complejidad computacional lo suficientemente baja para que puedan ser implementados de manera eficientes en sistemas de procesamiento digital con bajos recursos, los cuales son conocidos com´unmente como sistemas inmersos.
1.2. Objetivos de la Tesis
1.2.1. Objetivo General
Dise˜nar un nuevo algoritmo robusto para la eliminaci´on de ruido en se˜nales de voz contaminadas por ruido del sensor y ruido tipo impulsivo e implementarlas en sistemas inmersos de tiempo real.
1.2.2. Objetivos Particulares
Dise˜nar un nuevo algoritmo adaptativo para la supresi´on de ruido en se˜nales de voz.
Evaluar el desempe˜no del algoritmo propuesto mediante simulaciones por computadora usando se˜nales sint´eticas.
Implementar el algoritmo propuesto en una sistema de procesamiento en tiempo-real a base de computadora, y evaluar resultados.
Implementar el algoritmo propuesto en un sistema inmerso de tiempo real y evaluar re- sultados.
1.3. Aportaciones
Las aportaciones de este trabajo de tesis son:
Se propuso un nuevo algoritmo adaptativo para mejorar la calidad de la se˜nales de voz en termino de la inteligibilidad y de la reducci´on de ruido mejorando las m´etricas de desempe˜no.
Se dise˜no un algoritmo robusto para el procesamiento adaptativo de se˜nales de voz ante la presencia de diferentes fuentes de ruido aditivo, multiplicativo y mixto.
1.4. Organizaci´on de la tesis
El presente trabajo de tesis esta organizado de la siguiente manera: El Cap´ıtulo 1, describe el contexto general que ocupan los algoritmos de mejora de se˜nales de voz en la vida cotidiana y se explica la problem´atica particular que deseamos resolver en este trabajo de Tesis.
Se presenta una revisi´on hist´orica de los diferentes enfoques cient´ıficos que se han utilizado de forma exitosa para atacar el problema de la mejora de voz. Se describen de manera general los trabajos existentes mas importantes relacionados con la problem´atica que nos interesa. Se pre- senta el objetivo general de la Tesis y los objetivos particulares de la misma. Al final del cap´ıtulo presentan lo que nosotros consideramos fueron las aportaciones mas importantes realizadas con el presente trabajo.
El Cap´ıtulo 2 es una revisi´on del marco te´orico que utilizamos para realizar el presente trabajo de tesis. Al inicio, se explica el funcionamiento b´asico del aparato tracto vocal humano con el objeto de comprender la forma en la que las se˜nales de voz son producidas. A continuaci´on, se muestra un an´alisis de las caracter´ısticas mas importantes de las se˜nales de voz, y se muestra una clasificaci´on de estas caracter´ısticas en diferentes categor´ıas de se˜nales b´asicas y fonemas.
Se presento tambi´en el estudio realizado sobre el funcionamiento del o´ıdo humano para poder comprender las diferentes m´etricas de calidad existentes y as´ı evaluar la intelegibilidad de los mensajes de voz. Adicionalmente, se explican los diferentes modelos de se˜nales de voz y se presenta una breve revisi´on de la teor´ıa de procesos estoc´asticos para modelar las funciones de ruido que com´unmente afectan a estas se˜nales. Se presenta un resumen de la teor´ıa de se˜nales y sistemas y se explican las diferentes t´ecnicas existentes para el dise˜no de filtros digitales. Final- mente, se presenta una breve revisi´on de la teor´ıa de estimaci´on estad´ıstica aplicada al dise˜no de filtros digitales robustos.
En el Cap´ıtulo 3, se presenta una revisi´on de las diferentes m´etricas de calidad existentes para evaluar el desempe˜no de los algoritmos de procesamiento de voz. Adem´as, se introdujeron
los m´etodos existentes mas importantes para el procesamiento de se˜nales de voz. Se explica la teor´ıa b´asica que sustenta los algoritmos de procesamiento de sustracci´on de magnitud espec- tral, Filtrado de Wiener, Filtrado local adaptativo a base de filtros globales, Filtrado no lineal basado en modelos de interpolaci´on, Filtrado mediante la implementaci´on de bancos de filtros y, procesamiento basado en m´etodos de cancelaci´on activa de ruido.
El Cap´ıtulo 4, contiene un resumen de los fundamentos matem´aticos que sustentan la teor´ıa de estimaci´on robusta. Se explica la base te´orica de los estimadores robustos de M´axima Verosimil- itud Generalizado (Estimador M), de los estimadores robustos basados en combinaci´on lineal de estad´ısticas de orden (Estimador L), y de los estimadores robustos basados en estad´ısticas de orden prioritario (Estimador R). Posteriormente, se presenta el procedimiento de dise˜no de algunos filtros no lineales populares para el procesamiento de se˜nales; se analizaron los filtros de promedio recortado, los filtros de orden prioritario, los filtros M, y los filtros L. Ensegui- da, se describe la teor´ıa necesaria para la construcci´on de vecindarios adaptativos locales, parte fundamental del presente trabajo de Tesis.
En el cap´ıtulo 5, se describe a detalle el algoritmo localmente adaptativo propuesto para la mejora de se˜nales de voz. Se presenta el diagrama de flujo del algoritmo, y se realiza una de- scripci´on detallada de cada uno de los pasos que sigue nuestro algoritmo. Aqu´ı, se explican las propuestas que realizamos para construir un m´etodo robusto que pueda adaptar su acci´on de transformaci´on de forma din´amica para superar las adversidades cambiantes con el tiempo como las funciones de ruido o variaciones bruscas en las se˜nales de voz.
El Cap´ıtulo 6, presenta los resultados obtenidos con el algoritmo propuesto en diferentes im- plementaciones digitales realizadas. Los resultados obtenidos, fueron discutidos y comparados respecto a las siguientes t´ecnicas existentes para la mejora de voz: filtrado global de prome- dio deslizante, filtrado global de mediana deslizante, filtrado de Wiener adaptativo, y filtrado basado en m´etodos de interpolaci´on. La calidad de los resultados obtenidos fue presentada en
t´erminos de las m´etricas error cuadr´atico promedio (MSE), error absoluto promedio (MAE), relaci´on se˜nal a ruido (SNR), y coeficiente de correlaci´on (CC). Finalmente en el Cap´ıtulo 7 se presentan las conclusiones y se plantean tambi´en los trabajos futuros.
Marco te´orico
2.1. Se ˜nales de Voz
Los humanos somos capaces de generar una gran cantidad de sonidos para expresarnos, por ejemplo, el hablar, llorar, re´ır, etc. Entre estos sonidos, el habla es quiz´as el mas importante de todos ya que representa nuestro principal medio de comunicaci´on. El conjunto de ´organos que componen el sistema de producci´on de voz es conocido como sistema tracto vocal [15]. El sistema tracto vocal puede verse en la Fig. 2.1. En base a la Fig. 2.1 los pulmones se llenan con aire durante el proceso de inhalacion y se vac´ıan durante la etapa de exhalaci´on. Ambos procesos son controlados por la presi´on que ejerce el diafragma sobre los pulmones. Observe- mos que durante el proceso de exhalaci´on, el aire expulsado pasa a trav´es de la faringe, que es un conducto que lleva el aire hacia la boca y donde tambi´en est´an alojadas las cuerdas vo- cales. El aire que viaja por la faringe, golpea las cuerdas vocales produciendo en ellas vibraci´on arm´onica. De esta manera, el aire modulado por las cuerdas vocales sale por la boca producien- do se˜nales de sonido que viajan a trav´es del aire. Dependiendo de la tensi´on ejercida sobre las cuerdas vocales, as´ı como de la gesticulaci´on adecuada, el ser humano puede producir sonidos particulares, con los cuales se forman las palabras que utiliza para comunicarse.
10
Figura 2.1: Sistema tracto vocal humano.
Las palabras emitidas por una persona est´an formadas por fonemas [16]. Los fone- mas, son estructuras de sonidos de corta duraci´on compuestos por una combinaci´on de sonidos b´asicos conocido como sonidos sonoros y sonidos sordos [16]. Los sonidos sonoros represen- tan b´asicamente sonidos que consisten en un simple tono particular. Los sonidos sordos son aquellos que se componen de ning´un tono, es decir, cuando las cuerdas vocales no vibran de manera sostenida. La mayor´ıa de los al´ofonos (realizaci´on de los fonemas) de la voz, contienen una combinaci´on de sonidos sonoros y sordos. Un tono varia de acuerdo al estado de tensi´on de las cuerdas vocales, y esta muy relacionado con los par´ametros de una persona en particular, por ejemplo, su edad o sexo. En caso de los hombres el tono medio esta ubicado dentro del rango de 50-250 Hz. Para mujeres y ni˜nos, el rango de frecuencia del tono medio es de 200-400 Hz, aproximadamente [16]. Las vocales son al´ofonos en los que el aire no encuentra obst´aculos importantes para salir al exterior por la boca. Estos sonidos pueden considerarse como se˜nales peri´odicas y de alta frecuencia. En las Fig. 2.2 se muestra las formas de onda de algunas vocales en el idioma ingl´es estadounidense. Observemos en las diferentes gr´aficas que las vocales son sonidos estacionarios, es decir, que presentan un comportamiento muy regular u homog´eneo durante su emisi´on. As´ı mismo, es f´acil observar en las gr´aficas de la Fig. 2.2 que existe una variaci´on muy importante entre las formas de onda de las vocales presentadas.
Figura 2.2: Forma de ondas para cada vocal de idioma ingl´es estadounidense.
Las consonantes son un grupo de al´ofonos mas complejos para reporducir por el sis- tema tracto vocal. Las consonantes en general contienen tramos transitorios producidos medi- ante movimientos complicados, tienen el aspecto de una se˜nal de ruido y est´an alojados en las bajas frecuencias. En las Fig. 2.3 se muestra la forma de onda acustica de algunas consonantes.
Figura 2.3: Forma de onda de ac´ustica para —UH-M-A—.
Desde el punto de vista del procesamiento de informaci´on las se˜nales de voz son con- sideradas funciones estad´ısticamente no estacionarias [6]. Esto ´ultimo puede deducirse f´acil- mente, ya que la se˜nales de voz est´an formadas por una combinaci´on de fonemas, es decir, por una combinaci´on de se˜nales con caracter´ısticas estacionarios y no estacionarias. Por lo tanto, podemos decir que las se˜nales de voz son se˜nales estad´ısticamente no estacionarias y altamente variantes con el tiempo. Aun m´as, observemos que las vocales y algunos otros fonemas sonoros son casi peri´odicas en un cierto intervalo de tiempo (20-40 ms.). En consecuencia, es posible
realizar un an´alisis basado en transformadas de tiempo corto [6]. El inter´es de utilizar an´alisis de tiempo corto reside en que el o´ıdo realiza un an´alisis espectral similar. El o´ıdo humano es un organo muy complejo capaz de percibir se˜nales ac´usticas provenientes del medio ambiente, las cuales son transmitidos a la red neuronal del cerebro humano para su procesamiento. En la Fig.
2.4 se muestra el esquema del funcionamiento del o´ıdo humano.
La parte externa del o´ıdo recoge las ondas sonoras del medio ambiente y los canales de la membrana timp´anica vibran en sincronizaci´on con el aire que los golpea. De esta forma, los huesos del o´ıdo medio (martillo, yunque, estribo) transmiten vibraciones a la ventana oval que es una membrana flexible llena de l´ıquido. Posteriormente dentro de la coclea, se encuentra la membrana basilar que contiene alrededor de 12,000 c´elulas nerviosas que forman el nervio coclear. Debido a la rigidez variable de la arteria basilar, la membrana de cada c´elula nerviosa capta solo las respuestas de un estrecho rango de frecuencias de audio, haciendo que el o´ıdo sea exactamente un analizador espectral de frecuencia. Tomando como base estos conocimien- tos sobre el o´ıdo humano, se han propuesto diversas metricas para evaluar la inteligibilidad de los mensajes recibidos por las personas [17]. La mayoria de estas m´etricas se basan en un an´alisis espectral en diferentes bandas de frecuencia. Una de las metricas de inteligibilidad mas importante es conocida como el Indice de Inteligibilidad de Voz (Speech Intelligibility Index), [17].
Figura 2.4: Esquema general del funcionamiento de o´ıdo.
La mayoria de los sonidos del medio ambiente que corrompen a las se˜nales de voz presentan una distribuci´on de frecuencias que abarca un amplio rango espectral. Como resulta-
do, es claro que estas perturbaciones pueden ser captadas n´ıtidamente por el o´ıdo, lo que puede resultar en una importante disminuci´on de la inteligibilidad. En la siguiente secci´on se presenta una breve revisi´on de diferentes modelos de ruido que comunmente se utilizan para modelar perturbaciones ac´usticas.
2.2. Modelos de Ruido
En el filtrado de se˜nales el objetivo principal es estimar una se˜nal libre de ruido x(t) a partir de una se˜nal observada g(t), corrompida por una superposici´on de diferentes fuentes de ruido z(t) = q(t) + n(t), como a continuaci´on [6]:
g(t) = x(t) + z(t)
= x(t) + q(t) + n(t). (2.1)
En este caso, las funciones de ruido q(t) y n(t) son funciones estoc´asticas no deseadas. Dependi- endo de las caracter´ısticas estad´ısticas de las funciones estoc´asticas, el ruido puede clasificarse como [3]-[6]:
1. Ruido electr´onico o ruido t´ermico (ruido del sensor).
2. Ruido ac´ustico que emana del movimiento, vibraci´on o choque de fuentes como m´aquinas, veh´ıculos en movimiento, golpes abruptos, el viento y la lluvia, entre otros.
3. Ruido electromagn´etico, que pueden interferir con la transmisi´on y recepci´on de voz de datos a trav´es del espectro de frecuencias.
4. Ruido electrost´atico generado por la presencia de una diferencia de potencial.
5. Ruido de cuantizaci´on y p´erdida de paquetes de datos, debido a la congesti´on de la red.
Cualquiera de las funciones de ruido mencionadas anteriormente afectan a la inteligibilidad de la se˜nales de voz, por lo tanto, se requieren de m´etodos efectivos que permitan recuperar
las se˜nales libres de ruido a partir de sus versiones distorsionadas. En este trabajo de Tesis utilizamos un enfoque estad´ıstico ya que las funciones de ruido son de naturaleza aleatoria, y pueden modelarse correctamente como procesos estoc´asticos. Los procesos estoc´asticos se rep- resentan como una sucesi´on de variables aleatorias (estoc´asticas) que evolucionana en funci´on del tiempo. Cada una de las variables del proceso tienen su propia funci´on de probabilidad y pueden estar corrrelacionadas entre ellas [6]. En la Fig. 2.5 podemos observar una clasificaci´on general de las diferentes fuentes de ruido dada en t´erminos de procesos estoc´asticos. En la Fig.
PROCESOS ESTOC ´ASTICOS
ESTACIONARIO NO ESTACIONARIO
Ruido del Sensor, Electr´onico, T´ermico.
Ruido Ac´ustico:
lluvia, aire acondi- cionado, viento.
Ruido Ac´ustico:
clicks de teclado, voces externas, etc.
Distorsiones de canal: errores de bits, perdida
de muestra, ruido impulsivo
Figura 2.5: Clasificaci´on de los diferentes tipos de ruido que afectan a la se˜nal de voz.
2.6 se muestra una se˜nal de voz distorsionada por diferentes fuentes de ruido. La Fig. 2.6 (a), muestra la se˜nal de voz distorsionada por ruido aditivo Gaussiano con promedio cero. Se obser- va que los efectos de este tipo de ruido es homog´eneo, es decir, presenta par´ametros estad´ısticos constantes durante todo el intervalo de tiempo. En la Figura 2.6 (b) se observa que la se˜nal de voz es distorsionada por la acci´on de ruido tipo impulsivo; se puede apreciar que el efecto que tiene este tipo de ruido es distorsionar solo algunas muestras de la se˜nal dejando intactas al resto de ellas. Sin embargo, se puede apreciar como las muestras corruptas presentan valores de amplitud extremos. En este caso, es f´acil darse cuenta que una distorsi´on producida por ruido impulsivo no puede ser considerada un proceso estoc´astico estacionario.
0.5 1 1.5 2 2.5 3 3.5 x 104
−0.5 0 0.5
a) Señal distorsionada por ruido gaussiano
0.5 1 1.5 2 2.5 3 3.5
x 104
−0.5 0 0.5
b) Señal distorsionada por ruido tipo impulsivo
0.5 1 1.5 2 2.5 3 3.5
x 104
−0.5 0 0.5
c) Señal distorsionada por ruido mixto
Figura 2.6: Se˜nales de voz distorsionada por: (a) ruido aditivo Gaussiano, (b) ruido tipo impul- sivo, (c)ruido mixto (combinaci´on de ruido Gaussiano y ruido impulsivo).
Finalmente en la Fig. 2.6 (c) podemos observar a la se˜nal de voz afectada por una mezcla de ruido aditivo Gaussiano y ruido tipo impulsivo. En este trabajo de tesis, se considera el ruido del sensor, ruido impulsivo y ruido mixto (suma de ruido del sensor y ruido impulsivo), los cuales se describen enseguida
2.2.1. Ruido del Sensor
El ruido del sensor n(t) com´unmente se modela como ruido aditivo blanco con distribu- ci´on Gaussiana. La principal caracter´ıstica de este tipo de ruido es que la funci´on de densidad de probabilidad de n(t) es del tipo Gaussiano o Normal [6]. Adem´as, los valores del ruido de n(t) no est´an correlacionadas entre si en diferentes instantes de tiempo, en consecuencia, tiene una densidad espectral de potencia cuya energ´ıa es constante dentro de todo el espectro de fre- cuencias (ver Fig. 2.7).
Figura 2.7: Ruido blanco, (a) realizaci´on en el tiempo, (b) funci´on de auto correlaci´on, (c) densidad espectral de potencia.
La funci´on de auto-correlaci´on del ruido n(t), con media cero y con una varianzaσ2esta dada por
rnn(t) = E[n(t)n(t +τ)] =σ2nδ(τ). (2.2) El espectro de energ´ıa del ruido blanco, se obtiene con la transformada de Fourier de la funci´on de auto correlaci´on, como a continuaci´on:
PNN( f ) = Z ∞
−∞e− j2πf tdt=σ2n. (2.3)
La funci´on de densidad de probabilidad Gaussiana, esta dada por
f(x) = 1
√2πσ2e−(x−µ)22σ2 , (2.4)
donde µ es el valor esperado yσes la desviaci´on est´andar. En la Fig. 2.8 podemos observar su gr´afica.
−50 −4 −3 −2 −1 0 1 2 3 4 5
0.05 0.1 0.15 0.2 0.25 0.3 0.35
x
f(x)
Funcion de Densidad de Probabilidad Guassiana
σ µ=0
Figura 2.8: Funci´on de densidad de probabilidad Gaussiana.
En base a la Fig. 2.8 notemos que la probabilidad de ocurrencia de ruido con valores de magnitud muy grande es pr´acticamente a cero. Esto significa que elementos de ruido con valores de ruido impulsivos son poco muy probables
Figura 2.9: (a) area unitaria de un pulso, (b) conversion de pulso a impulso con una duraci´on
△→ 0 (c) espectro de la funci´on impulso.
2.2.2. Ruido tipo Impulsivo
El ruido tipo impulsivo consiste en una serie de impulsos aleatoriamente distribuidos, los cuales poseen una gran cantidad de energ´ıa en un periodo muy corto de tiempo. La presen- cia del ruido tipo impulsivo se debe a factores tales como, ruido de conmutaci´on, interferencia electromagn´etica, fallas en el canal de comunicaci´on, sonidos ambientales, entre otros [6].El m´etodo cl´asico para la eliminaci´on del ruido tipo impulsivo se utiliza el filtrado de mediana [12]. A pesar de que el filtro de mediana es efectivo en la eliminaci´on del ruido tipo impulsivo,
´este com´unmente produce una distorsi´on importante a la se˜nal, la que puede afectar consid- erablemente la inteligibilidad [12]. Para obtener un funcionamiento ´optimo en la eliminaci´on del ruido tipo impulsivo se puede utilizar: (a) las diferentes caracter´ısticas del ruido y de los procesos de la se˜nal en los dominios de tiempo y/o frecuencia, (b) conocer las caracter´ısticas estad´ısticas del ruido y de la se˜nal, y (c) modelo de la fisiolog´ıa de la se˜nal y de la generaci´on de ruido. A continuaci´on se presentan los conceptos matem´aticos de una funci´on impulso en los dominios de tiempo continuo y tiempo discreto. Adem´as, se presenta el modelo de formaci´on del ruido tipo impulsivo dentro de un sistema de comunicaci´on. En la Fig. 2.9 (a) podemos observar una funci´on rect´angulo p(t) con area unitaria. Observemos como cuando “△” tiende a cero, la amplitud de la funci´on rect´angulo tiende a infinito, formando la funci´on impulso uni- tario que se muestra en la Fig. 2.9 (b). La funci´on impulso se puede ver en la Fig. 2.9 (b), y se define como
δ(t) = l´ım
△→0p(t) =
1
△, si |t| ≤△2 0, si s|t| >△2.
(2.5)
La integral de la funci´on impulso cumple con la propiedad Z ∞
−∞δ(t)dt = 1. (2.6)
Aplicando la transformada de Fourier a la funci´on impulso se obtiene
D( f ) = Z ∞
−∞δ(t)e− j2πf tdt= 1, (2.7)
donde f es la variable de frecuencia.
Figura 2.10: Representaci´on en el dominio del tiempo y la frecuencia, (a) impulso ideal, (b) y (c) ejemplos de pulsos de corta duraci´on.
En los sistemas de comunicaci´on, el ruido tipo impulsivo no puede considerarse sim- plemente como una funci´on aleatoria de impulsos ideales. En lugar de esto, el ruido tipo im- pulsivo puede verse como una secuencia de pulsos de corta duraci´on tal como se muestra en la Fig. 2.10. La se˜nal observada como ruido tipo impulsivo, puede ser la respuesta de un sistema de comunicaci´on y/o de grabaci´on. A la respuesta de este sistema se le conoce como respuesta al impulso. En un sistema de comunicaci´on, el ruido tipo impulsivo se origina en alg´un punto en el tiempo y el espacio, y se propaga a trav´es del canal de comunicaci´on hacia el receptor.
En general, la respuesta al impulso de un canal de comunicaci´on puede ser lineal, o no lineal, estacionaria o no estacionaria [18].
El ruido tipo impulsivo tiene la caracter´ıstica particular de que solo corrompe algunas mues- tras de la se˜nal original, dejando intactas el resto de ellas. Sin embargo, las muestras afectadas presentan valores con una desviaci´on est´andar muy grande respecto al valor promedio de la se˜nal. Existen diversas maneras para modelar el ruido tipo impulsivo. En este trabajo de tesis, hemos considerado funciones de ruido tipo impulsivo con distribuci´on Gamma y distribuci´on Beta, las cuales se describen enseguida.
La funci´on de densidad de probabilidad Gamma esta dada por [14]
f(x) =λe−λx(−λx)k−1
Γ(k) , (2.8)
dondeΓes conocida como funci´on Gamma para los valores k= 1, 2, . . ., n. La funci´on Gamma se define comoΓ(x) = (k − 1)! [14] y su gr´afica de densidad de probabilidad se muestra en la Fig. 2.11.
La funci´on de densidad de probabilidad Beta, esta dada por [14]
f(x) = xα−1(1 − x)β−1
B(α,β) , (2.9)
dondeα> 0 yβ> 0; B(α,β) es la funci´on Beta, la cual se define como [14]
B(α,β) =Z 1
0
xα−1(1 − x)β−1dt= Γ(α)Γ(β)
Γ(α+β). (2.10)
En la distribuci´on Beta la variable aleatoria es continua y toma valores en el intervalo [0, 1], lo que la hace muy apropiada para modelar el ruido tipo impulsivo. Un ejemplo de la funci´on de densidad de probabilidad de la distribuci´on Beta, se muestra en la Fig. 2.12. Uno de los principales recursos de la distribuci´on Beta es el ajuste a una gran variedad de distribuciones emp´ıricas, pues adopta formas muy diversas dependiendo de cuales sean los valores de los par´ametros de forma α y β. Es importante darnos cuenta que a diferencia de la distribuci´on Gaussiana la probabilidad de ocurrencia de eventos con magnitud muy grande es mucho mas probable en la distribuciones Gamma y Beta. Por lo tanto las distribuciones Gamma y Beta son com´unmente utilizadas para modelar el ruido tipo impulsivo.
5 10 15 20 25 30 35 40 45 50 0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
x
f(x)
Distribución de Densidad de Probabilidad Gamma
Figura 2.11: Distribuci´on de Densidad de Probabilidad Gamma.
1 2 3 4 5 6 7 8 9 10
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
x
f(x)
Distribución de Densidad de Probabilidad Beta
Figura 2.12: Distribuci´on de Densidad de Probabilidad Beta.
2.2.3. Ruido Mixto
El ruido mixto se modela como la superposici´on de dos se˜nales de ruido, tales como, ruido del sensor y ruido tipo impulsivo. En la Fig. 2.6 (c) podemos observar una se˜nal de voz contaminada con ruido mixto. Otra opci´on para modelar el ruido mixto es mediante el uso de la distribuci´on de densidad de Laplace [14], la cual sirve para simular los efectos de ruido tipo impulsivo de baja probabilidad y ruido del sensor. La funci´on de densidad de probabilidad de Laplace, esta dada por [14]
f(x|µ,b) = 1
2bexp|x−µ|b =
exp(−µ−xb ), si .x < µ exp(−x−µb ), si .x ≥ µ
donde µ es un par´ametro de localizaci´on y b> 0 es un par´ametro de escala. En la Fig. 2.13 podemos observar un ejemplo particular de la distribuci´on de Laplace.
−250 −20 −15 −10 −5 0 5 10 15 20 25
0.02 0.04 0.06 0.08 0.1 0.12 0.14
x
f(x)
Distribución de Densidad de Probabilidad Laplace
Figura 2.13: Distribuci´on de densidad Laplace.
Notemos que en la distribuci´on de la Laplace la probabilidad de ocurrencia de eventos con valores de magnitud peque˜na es muy probable al igual de la distribuci´on Gaussiana. Sin embargo, notemos como en la distribuci´on de Laplace la probabilidad de ocurrencia de eventos con magnitud muy grande es mayor que en la distribuci´on Gaussiana.
2.3. Se ˜nales y Sistemas
Una se˜nal puede ser definida como una funci´on que representa las manifestaciones de energ´ıa que provienen de alg´un fen´omeno f´ısico, y que contienen informaci´on. Una se˜nal puede provenir de multiples fuentes, adem´as la se˜nal puede representar cantidades f´ısicas de una o multiples dimensiones. Una se˜nal unidimensional (1-D) se representa mediante una funci´on de una sola variable independiente. En general, una se˜nal multidimensional (M-D) constituye una funci´on de mas de una variable. La se˜nal de voz es ejemplo de una se˜nal de 1-D. Una se˜nal continua en tiempo y amplitud se denomina se˜nal anal´ogica. Una se˜nal continua en el tiem- po y cuantizada en amplitud es conocida como se˜nal cuantizada. As´ı mismo, una se˜nal que es discreta en el tiempo y continua en amplitud es llamada se˜nal de tiempo discreto. Finalmente, observemos que una se˜nal que discreta en el tiempo y cuantizada en amplitud se llama se˜nal digital. Una se˜nal digital puede representarse como una secuencia infinita de d´ıgitos, por lo tanto, este tipo de se˜nales solo tienen cabida en circuitos electr´onicos digitales. Dependiendo del tipo de se˜nal que una aplicaci´on en particular tenga, pueden emplearse diversos tipos de operaciones de procesamiento de se˜nales. En el caso de las se˜nales anal´ogicas, la mayor´ıa de las operaciones de procesamiento de se˜nales suelen efectuarse en el dominio del tiempo, en tanto que, en el caso de se˜nales en tiempo discreto, se recurre a las operaciones tanto en el do- minio del tiempo como en el de la frecuencia. En cualquier caso, las operaciones elementales de procesamiento (multiplicaci´on, suma, memoria) pueden realizarse en tiempo real o casi real en ambos dominios.
El procesamiento digital de una se˜nal anal´ogica consta de tres pasos: conversi´on de la se˜nal
anal´ogica en su forma digital, procesamiento de la se˜nal digital, y conversi´on de la se˜nal dig- ital procesada a su forma anal´ogica. En la Fig. 2.14 se muestra el esquema general de este proceso. En la Fig. 2.14 la se˜nal anal´ogica es discretizada mediante un sistema de muestreo y retenci´on (M/R) que tiene como prop´osito muestrear la entrada anal´ogica en intervalos de tiempos igualmente espaciados, y donde el valor de cada muestra es cuantizada dentro de un rango predefinido. Este proceso es conocido como conversion anal´ogico digital. La entrada al convertidor anal´ogico a digital (ADC) es una se˜nal anal´ogica contaminada con ruido del sensor n(t) y ruido ambiental q(t). En este caso f [n] = x[n] + q[n] + n[n] es la se˜nal que se obtiene a la salida del convertidor (ADC) y representa una secuencia de datos binarios que es proce- sada posteriormente mediante un procesador digital a trav´es de la ejecuci´on de un algoritmo de procesamiento de se˜nales. La salida del procesador digital es otra secuencia de datos que es convertida posteriormente a su forma anal´ogica empleando un convertidor digital-anal´ogico (DAC). El bloque de post-procesamiento a la salida del DAC remueve todos los componentes de alta frecuencia indeseables y entrega a su salida la se˜nal anal´ogica procesada.
Muestreo y Retenci´on
ADC
Procesamiento
digital DAC
Post- procesamiento
◮
+x(t)
n(t)
Salida anal´ogica Entrada
anal´ogica
f[n] = x[n] + q[n] + n[n]
Figura 2.14: Esquema general de procesamiento digital de se˜nales.
Los filtros digitales pueden clasificarse en dos categor´ıas principales, filtros lineales y no lineales. Los filtros lineales satisfacen la propiedad de superposici´on e invariancia en el tiempo [19]. Sean y1[n] y y2[n] las se˜nales de salida de un sistema lineal cuyas entradas son x1[n] y x2[n] respectivamente. El sistema es lineal si la respuesta a la entrada x(n) = a1x1[n] + a2x2[n] donde a1, a2son constantes, es igual a y[n] = a1y1[n] + a2y2[n]. Si adem´as el sistema es invariante en el tiempo, entonces la salida del sistema a una entrada desplazada en el tiempo x[n − n0] sera de la forma y[n − n0]. La salida de un sistema lineal e invariante en el tiempo
puede caracterizarse completamente por la operaci´on de convoluci´on entra la se˜nal de entrada x[n] y la respuesta impulso h[n], como a continuaci´on:
y[n] =
N−1 k=0
∑
x[k]h[n − k]. (2.11)
De manera alternativa, el an´alisis y dise˜no de filtros lineales es com´unmente realizado en el do- minio de la frecuencia. Por tal motivo introduciremos el an´alisis de la transformada de Fourier y transformada Z.
La representaci´on de la transformada Z de una secuencia se define por las Ecs. (2.12)-(2.13)
X(z) =
∑
∞n=−∞x(n)z−n, (2.12)
y
x(n) = 1 2πj
I
X(z)zn−1dz. (2.13)
La transformada Z de x(n) se define por la Ec. (2.12). Se puede apreciar que en general la transformada X(z) es una serie de energ´ıa infinita de x(n) respecto a la variable z−1. La representaci´on de la transformada discreta de Fourier a partir de la transformada Z, se expresa enseguida
X(ejω) =
∑
∞−∞x(n)e− jωn, (2.14)
y tambi´en,
x(n) = 1 2π
Z π
π X(ejω)ejωndω. (2.15)
En las Ecs. (2.12) y (2.13) podemos observar que la representaci´on de Fourier se obtiene ha- ciendo la consideraci´on z= eiω.
Los filtros digitales lineales e invariantes en el tiempo cuyas entradas y salidas est´an rela-
Z−1
x(n) Z−1 Z−1 Z−1
+ + + +
b0
x(n − 1)
b1
x(n − 2)
b2
x(n − 3)
b3
x(n − M)
bM
y(n)
Figura 2.15: Estructura de los filtros FIR.
cionadas por la operaci´on de convoluci´on, pueden expresarse en t´erminos de la transformada Z, como a continuaci´on:
Y(z) = H(z)X (z). (2.16)
La funci´on H(z) es conocida como funci´on del sistema o funci´on de transferencia. La respuesta de la trasformada de Fourier H(ejω) es llamada respuesta en frecuencia. H(ejω) es en general una funci´on compleja de jωUn sistema lineal e invariante en el tiempo es causal cuando h(n) = 0 para n< 0. Adem´as, un sistema es estable si para una entrada acotada en en tiempo se produce una salida tambi´en acotada. En otras palabras, un sistema es estable si su respuesta al impulso cumple con∑∞n=−∞|h(n)| <∞.. En t´erminos generales, la relaci´on entrada-salida de un sistema lineal e invariante en el tiempo, satisface la siguiente ecuaci´on de diferencias [20]:
y(n) −
∑
N k=1aky(n − k) =
∑
M r=0bry(n − r). (2.17)
La respuesta de los filtros lineales se puede clasificar en dos categor´ıas: filtros de respuesta al impulso de duration finita (FIR), y filtros de respuesta al impulso de duraci´on infinita (IIR).
A partir de la Ec.(2.17), observemos que si a0= 1 y {ak = 0; k = 1, . . . , N}, la ecuaci´on de diferencias se convierte en
y(n) =
∑
M r=0brx(n − r). (2.18)
En contraste, un sistema IIR puede escribirse mediante la Ec. 2.17. Observemos como el sis- tema descrito en la Ec. 2.17 es un sistema recursivo que depende de valores pasados (ver Fig.
2.16).
Z−1
x(n)
Z−1
Z−1
Z−1 +
+
+
+
+
+
+
+
Z−1
Z−1
Z−1
Z−1
b1
b2
b3
a1
a2
a3
y(n)
b4 a4
Figura 2.16: Estructura de los filtros IIR.
En contraste, un sistema IIR puede escribirse mediante la Ec. 2.17. Observemos como el sistema descrito en la Ec. 2.17 es un sistema recursivo que depende de valores pasados (ver Fig. 2.16). La salida de los sistemas lineales es una combinaci´on de los elementos de la se˜nal de entrada. Una de las principales desventajas de estos sistemas en el procesamiento de se˜nales es que tienden a destruir los detalles finos de la se˜nal original, y aun mas, no tienen la capacidad de adaptarse a los cambios estad´ıstico-temporales de la perturbaciones. En la Fig. 2.17, se muestra a) una se˜nal cuadrada libre de ruido, b) la se˜nal cuadrada libre de ruido con una frecuencia lineal ascendente, c) la se˜nal procesada con un filtro FIR pasabajas convencional. Se puede observar en la Fig. 2.17 (c) que el ruido aditivo ha sido exitosamente suprimido, sin embargo, podemos darnos cuenta que los detalles finos de la se˜nal han sido destruidos.
2000 4000 6000 8000 10000 12000 14000 16000 18000
−0.5 0 0.5
a) Señal Cuadrada libre de Ruido
2000 4000 6000 8000 10000 12000 14000 16000 18000
−0.5 0 0.5
b) Señal Cuadrada distorsionada con Ruido Blanco
2000 4000 6000 8000 10000 12000 14000 16000 18000
−0.5 0 0.5
c) Señal Cuadrada procesada con el filtro promedio
Figura 2.17: a) Se˜nal cuadrada libre de ruido, b) se˜nal cuadrada contaminada con ruido aditivo Gaussiano y c) se˜nal cuadrada procesada con el filtro de promedio.
Desde punto de vista estad´ıstico, el estimador ´optimo respecto al criterio de error cuadr´atico promedio (MSE) para recuperar una se˜nal contaminada con ruido aditivo con dis- tribuci´on Gaussiana esta dado por el promedio deslizante [14], como a continuaci´on:
y[k] = 1 M
M−1 k=0
∑
x[k − m]. (2.19)
Por otro lado, el estimador ´optimo respecto al criterio de error absoluto promedio (MAE) para recuperar una se˜nal distorsionada con ruido con ruido aditivo con distribuci´on de Laplace esta dado por la mediana estad´ıstica deslizante [14],
y[k] = MEDIAN{NBHM{x[k]}}, (2.20)
donde MEDIAN{•} es la mediana estad´ıstica y NBHM{x[k]} es la region de soporte del filtro