RESUMEN de la tesis de Ricardo Enrique Guerrero Moreno, presentada como requisito parcial para la obtención del grado de MAESTRO EN CIENCIAS en ÓPTICA. Ensenada, Baja California. Noviembre 2008.
Correlación invariante de objetos utilizando filtros compuestos no lineales
Resumen aprobado por:
________________________________ Dr. Josué Alvarez Borrego
Director de Tesis
Ante la creciente demanda de la automatización de los procesos, la importancia del reconocimiento de objetos en las imágenes aumenta. En este trabajo se trabajará en la fabricación de filtros compuestos no lineales para utilizarlos en el reconocimiento de objetos aun cuando estos presenten distorsiones de rotación, escala, ruido e iluminación. Primero se buscó el máximo número de imágenes que pueden contener estos filtros. Se generaron 936 imágenes de las letras E, F, H, P y B respectivamente. Las imágenes generadas consisten de cada letra escalada del 70 al 130 % (en incrementos de 5%) y rotada 360˚ (en incrementos de 5˚).
Para determinar el máximo número de imágenes que puede soportar el filtro, se generaron filtros con cantidades distintas de imágenes. Debido que las imágenes están a 13 escalas y 72 ángulos distintos, se hicieron pruebas para dos tipos de filtro, uno donde se contienen todas las escalas y se va aumentando ángulos de giro y otro donde se tienen todos los ángulos de giro y se va aumentando escalas. Considerando una confiabilidad de un 80% o mayor, se determinó que el máximo número de imágenes es de aproximadamente 200. Al incluir en el filtro compuesto las imágenes rotadas en sus 360˚, se genera una “problemática de rotación”, ya que se introducen funciones Bessel de primer orden en su espectro de frecuencia, presentamos una posible solución para este problema segmentando el filtro y así romper con esa simetría circular. También se han hecho pruebas del desempeño de los filtros con distintos niveles y tipos de ruido presentes en las imágenes problema.
ABSTRACT of the thesis presented by Ricardo Enrique Guerrero Moreno as a partial
requirement to obtain the MASTER OF SCIENCE degree in OPTOELECTRONICS. Ensenada, Baja California, México November of 2008.
Invariant object correlation using non-linear composite filters
At the increasing demand of process automation, the importance of object recognition in images it is greater than ever. In this work we use non linear composite filters in object recognition, even when they have rotation, scale, noise and/or illumination distortions. We generated 936 images of the letters E, F, H, P and B. The images consisted of these letters scaled from 70% to 130% and rotated 360˚. The maximum number of images supported by these filters was determined by a numerical experiment. This was done by generating filters with different amount of images each. We have images at 13 scales and each scale with 72 different angles, tests were done to two different kinds of filters, one where all the scales were present and we add more angles to increase the number of images, and another where all of the angles were present and more scales were added to increase the number of images. Considering a system trustability of at least 80%, the maximum number of images allowed by the filter is around 200. In one type of filter we have the letter rotated 360˚. We found a “rotation problem”, since we introduce “circles” in the image, we also introduce first order Bessel functions in the spectrum, which creates complications when working with images that also have circles in them. Due to these we propose a segmented filter which breaks that circular symmetry. We also made tests of the performance of these filters in presence of noise and the amount of targets to recognize. We can see that these filters can recognize the target in presence of distortions.
Agradecimientos
Agradezco sinceramente:
• Al Dr. Josué Álvarez Borrego, por su tutoría y enseñanza a través de este trabajo de tesis.
• A los Doctores Santiago Camacho López, Héctor A. Echevarría Heras y Héctor Escamilla Taylor, por sus valiosas observaciones en la revisión de esta tesis.
• A mis padres Roberto Javier Guerrero Peñalva y María Guadalupe Moreno Armenta, por el apoyo que me han dado durante toda la vida.
• A mis hermanos Roberto Javier Guerrero Moreno y Lorena Guerrero Moreno, por su comprensión.
• A mi novia Ileana Gracida Maldonado, por su apoyo y amor incondicional.
• A mis compañeros y amigos de generación, Alejandra Urbina, Alex Guillen Bonilla, Arnoldo Salazar Soto, Jacob Licea Rodríguez y Juan Jesús Sánchez Sánchez.
• Al Consejo Nacional de Ciencia y Tecnología (CONACYT), por el apoyo económico brindado.
Ensenada, México
CONTENIDO
Página
Resumen español……….. i
Resumen ingles………. ii
Dedicatorias……….. iii
Agradecimientos………... iv
Contenido……….. v
Lista de Figuras……… vii
Capítulo I. Introducción y objetivos……….……….…….. 1
I.1 Definición del problema y objetivos……….………. 4
I.1.1 Objetivo general……….………. 4
I.1.2 Objetivos particulares……….……….… 5
I.2 Antecedentes……….……….………. 5
I.3 Organización de la tesis……….………. 8
Capítulo II. Teoría básica………. 10
II.1 Sistemas lineales……… 10
II.2 Transformada de Fourier………... 13
II.2.1 Transformada de Fourier unidimensional y su inversa….. 14
II.2.2 Transformada de Fourier bidimensional y su inversa…… 16
II.2.3 Propiedades de la transformada de Fourier……… 17
II.3 Correlación……… 22
II.4 Correlación de Spearman……….. 24
II.5 Convolución………. 26
Capítulo III. Teoría de filtraje………. 28
III.1 Métricas de desempeño……… 28
III.1.1 Relación señal a ruido………... 29
III.1.2 Coeficiente de discriminación o Capacidad de discriminación………... 30
III.1.3 Relación pico a energía de correlación………. 30
III.1.4 Eficiencia de luz……… 31
III.2 Filtros de correlación clásicos……….. 32
III.2.1 Filtro de acoplamiento clásico……….. 33
III.2.2 Filtro solo de fase……….. 34
III.2.3 Filtro inverso………. 35
III.3 Filtros de correlación no lineal………. 37
III.4 Filtros no lineales compuestos………...……….. 38
III.5 Modelos de imagen………...………... 40
CONTENIDO (continuación)
Página
III.5.2 Modelo multiplicativo………...……… 41
III.5.3 Modelo disjunto………...………. 42
Capítulo IV. Simulaciones y resultados………...……… 44
IV.1 Máximo número de imágenes soportado………...…….. 44
IV.1.1 Identificación y localización de objetos con filtro tipo B. 47 IV.2 Problemática de rotación de 360º………...………. 50
IV.2.1 Identificación y localización de objetos con filtro segmentado………...………. 52
IV.3 Desempeño de los filtros en presencia de ruido……….. 54
IV.3.1 Desempeño de los filtros en presencia de ruido utilizando la SRC………...………... 58
IV.4 Invariancia a escala recortando el espectro……….. 62
IV.5 Desempeño de los filtros ante variaciones de iluminación 68 IV.6 Aplicaciones a imágenes reales………...……… 70
IV.6.1 Identificación entre distintas especies de copépodos…… 71
IV.6.2 Inspección automática de tarjeta de sonido para PC……. 75
Capítulo V. Conclusiones………...………... 80
Referencias……… 83
LISTA DE FIGURAS
Figura
Página
1 Correlador óptico. 2
2 Correlador óptico-digital. 3
3 Diagrama a bloques de un sistema lineal SISO. 11 4 Representación esquemática de la función delta de Dirac, en t1=0. 12 5 Diagrama de las operaciones necesarias para llevar a cabo una correlación por medio del teorema de correlación. 23
6 Diagrama de las operaciones necesarias para llevar a cabo una correlación de Spearman con filtraje no lineal. 25
7 Diagrama de las operaciones necesarias para llevar a cabo una correlación no lineal. 37
8 Diagrama de la síntesis de un filtro no lineal compuesto y su correlación con una imagen problema. 39 9 Ejemplo de imagen bajo modelo de ruido aditivo. 41 10 Ejemplo de imagen bajo modelo multiplicativo. 42 11 Ejemplo de imagen bajo modelo de ruido multiplicativo no traslapado de escena. 42
12 Correlaciones de algunos filtros tipo A. 45
13 Correlaciones de algunos filtros tipo B. 45
14
Set de imágenes para formar un filtro tipo A (a.x). 13 escalas a 0º (a.1), 13 escalas a 10º (a.2), 13 escalas a 20º (a.3) y 13 escalas a 350º (a.n). Set de imágenes para formar un filtro tipo B (b.x). 72 ángulos a 70% escala (b.1), 72 ángulos a 80% escala (b.2), 72 ángulos a 90% escala (b.3) y 72 ángulos a 130% escala (b.n).
46
LISTA DE FIGURAS (continuación)
Figura
Página
16 Confiabilidad de filtros tipo B. 47
17 Imagen problema (a), correlación de 17a (b) con filtro tipo B de 216 imágenes. 48
18 Imagen problema (a), correlación de 18a (b) con filtro tipo B de 216 imágenes. 48
19 Imagen problema (a), correlación de 19a (b) con filtro tipo B de 216 imágenes. 49
20 Imagen problema (a), correlación de 20a (b) con filtro tipo B de 216 imágenes. 49
21 Imagen problema (a), correlación de 21a (b) con filtro tipo B de 216 imágenes. 49
22 Espectro de la letra E (a), del filtro compuesto (b), de la letra O
(c) y de la letra P (d). 50
23 Correlación de filtro tipo B de 216 con la letra E a 70%, mínimos
cada 45º marcados con círculos. 51
24 Esquema de la composición del filtro segmentado. 51 25 Correlación de 19a con FSB1 (a), con FSB2 (b) y, 25a y 25b, binarizadas y sumadas (c). 52
26 Correlación de 20a con FSB1 (a), con FSB2 (b) y, 26a y 26b, binarizadas y sumadas (c). 53
LISTA DE FIGURAS (continuación)
Figura
Página
30 Desempeño de filtros tipo B en presencia de ruido Gaussiano. 56 31 Desempeño de filtros tipo B en presencia de ruido SyP. 57
32 Imagen problema libre de ruido (a), con ruido Gaussiano aditivo de media cero y varianza de 0.1 (b), 0.2 (c) y 0.3 (d), y con ruido SyP aditivo con densidad de ruido de 0.1 (e), 0.2 (f) y 0.3 (g).
57
33
Comparación entre el desempeño de un filtro A tipo de 13 imágenes, para imágenes degradadas por ruido Gaussiano aditivo, usando la correlación no lineal con k=0.1 y la correlación no lineal mas SRC.
58
34
Comparación entre el desempeño de un filtro tipo A de 26 imágenes, para imágenes degradadas por ruido Gaussiano aditivo, usando la correlación no lineal con k=0.1 y la correlación no lineal mas SRC.
59
35
Comparación entre el desempeño de un filtro A tipo de 39 imágenes, para imágenes degradadas por ruido Gaussiano aditivo, usando la correlación no lineal con k=0.1 y la correlación no lineal mas SRC.
59
36
Comparación entre el desempeño de un filtro tipo A de 13 imágenes, para imágenes degradadas por ruido SyP aditivo,
usando la correlación simple y SRC. 59
37
Comparación entre el desempeño de un filtro tipo A de 26 imágenes, para imágenes degradadas por ruido SyP aditivo, usando la correlación no lineal con k=0.1 y la correlación no lineal mas SRC.
60
38
Comparación entre el desempeño de un filtro tipo A de 39 imágenes, para imágenes degradadas por ruido SyP aditivo, usando la correlación no lineal con k=0.1 y la correlación no lineal mas SRC.
LISTA DE FIGURAS (continuación)
Figura
Página
39
Comparación entre el desempeño de un filtro tipo A de 52 imágenes, para imágenes degradadas por ruido SyP aditivo, usando la correlación no lineal con k=0.1 y la correlación no lineal mas SRC.
60
40
Comparación entre el desempeño de un filtro tipo B de 72 imágenes, para imágenes degradadas por ruido Gaussiano aditivo, usando la correlación no lineal con k=0.1 y la correlación no lineal mas SRC.
61
41
Comparación entre el desempeño de un filtro tipo B de 72 imágenes, para imágenes degradadas por ruido SyP aditivo, usando la correlación no lineal con k=0.1 y la correlación no lineal mas SRC.
61
42
Imagen de la letra E a 130 % (a) y a 70 % (b) y sus planos de Fourier (c) y (d), respectivamente. El recuadro de 42c indica el área en la cual se encuentra contenido 42d en 42c.
63
43
Letra E a 70 % (a), letra E a 130 % (b), gráfica de máximos de correlación recortando distintas cantidades de pixeles del plano de Fourier de 43a (c) y correlación de 43a con 43b, recortando el número de pixeles indicado por el máximo de la gráfica 43c.
64
44
Letra E a 100 % (a), letra E a 130 % (b), gráfica de máximos de correlación recortando distintas cantidades de pixeles del plano de Fourier de 44a (c) y correlación de 44a con 44b, recortando el número de pixeles indicado por el máximo de la gráfica 44c.
65
45
Correlación de filtro de E (con invariancia a escala recortando el plano de Fourier) con todas las escalas de todas las letras. Confiabilidad de 46%.
66
46
Correlación de filtro de F (con invariancia a escala recortando el plano de Fourier) con todas las escalas de todas las letras. Confiabilidad de 23%.
LISTA DE FIGURAS (continuación)
Figura
Página
47 Correlación de filtro de H (con invariancia a escala recortando el plano de Fourier) con todas las escalas de todas las letras. Confiabilidad de 100%.
66
48 Correlación de filtro de P (con invariancia a escala recortando el plano de Fourier) con todas las escalas de todas las letras. Confiabilidad de 100%.
67
49 Correlación de filtro de B (con invariancia a escala recortando el plano de Fourier) con todas las escalas de todas las letras. Confiabilidad de 100%.
67
50
Correlación de filtro de F (con invariancia a escala recortando el plano de Fourier y k = 0.4) con todas las escalas de todas las letras. Confiabilidad de 100%.
67
51 Correlación de filtro de 13 imágenes de letra E con letra E a 70% a diferentes contrastes. 68
52 Correlación de filtro de 26 imágenes de letra E con letra E a 70% a diferentes contrastes. 69
53 Correlación de filtro de 39 imágenes de letra E con letra E a 70% a diferentes contrastes. 69 54 Letra E a 70% con contraste de 100% (a), 50% (b) y 10% (c). 70
55
Imágenes de copépodos. Hembra (a) y macho (b) de una especie, (c) y (d) otra especie, (e) y (f) otra especie, (g) y (h) otra especie, (i) y (j) otra especie, (k) y (l) otra especie, (m) y (m) otra especie.
71
56
Imágenes de copépodos, limpias. Hembra (a) y macho (b) de una especie, (c) y (d) otra especie, (e) y (f) otra especie, (g) y (h) otra especie, (i) y (j) otra especie, (k) y (l) otra especie, (m) y (m) otra especie.
72
LISTA DE FIGURAS (continuación)
Figura
Página
58 Continuación de resultados obtenidos utilizando un filtro compuesto no lineal para la identificación de distintas especies de copépodos.
74
59 Tarjeta de sonido para PC. 75
60 Objeto que se desea reconocer a distintos ángulos,
específicamente a ± 5º. 76
61 Filtro no lineal compuesto (visto en el dominio espacial),
conformado por las imágenes de la figura 59. 76 62 Imagen de la tarjeta de sonido original (a) y correlación de 62a y 61 (b). 77
63 Imagen de la tarjeta de sonido subexpuesta (a) y correlación de 63a y 61 (b). 77
64 Imagen de la tarjeta de sonido sobreexpuesta (a) y correlación de 64a y 61 (b). 78
Capítulo I
Introducción y objetivos
El reconocimiento de patrones es algo inherente a la vida humana, ya que desde que el ser humano nace, empieza su entrenamiento en la identificación de patrones. Este comienza a detectar formas y colores, primero un tanto simples como figuras geométricas o colores, después con el paso del tiempo formas más y más complejas. Los procesos de la vida diaria dependen de la identificación continua de distintos objetos, que hasta hace poco tiempo, esta tarea recaía enteramente en la percepción humana.
Actualmente la automatización de los procesos es cada vez más importante, ya que los requerimientos de calidad de los consumidores son cada vez mayores, de hecho, no se habla de encontrar defectos en un producto dentro de miles, sino un producto defectuoso dentro de millones, lo cual ha empujado más y más a los fabricantes a buscar alternativas, pues como sabemos, no hay ser humano que pueda repetir la misma actividad millones de veces sin cometer un error. Aquí es donde entra la automatización de los procesos; primeramente de actividades que no requieren la toma de decisiones “inteligentes”, como sería decidir si un producto es defectuoso o no, si en un campo de batalla lo que se tiene en un monitor es un tanque enemigo o amigo, decidir si alguna muestra biológica se encuentra contaminada o no, etc. Hoy en día se busca el también automatizar este tipo de decisiones.
• Procesamiento óptico.
El procesamiento óptico de imágenes consiste en utilizar los fundamentos teóricos de la óptica de Fourier, donde se utiliza la luz y sus propiedades para describir su propagación. La idea básica es la posibilidad de obtener la transformada de Fourier de imágenes, para después trabajar con ellas multiplicando, convolucionando, y filtrándolas para lograr el reconocimiento o extracción de algún elemento de la imagen. La principal ventaja de este método de reconocimiento, es la velocidad a la que se realizan las operaciones (velocidad luz), sin importar la cantidad de datos de entrada, lo cual es una grandísima ventaja si se requiere que el proceso entero funcione en tiempo real. Sus principales desventajas son la complejidad del arreglo, costo elevado y su inestabilidad, es decir, es muy sensible a ruido ambiental. En la figura 1 se muestra un esquema de un correlador básico.
• Procesamiento digital.
La visión por computadora es algo análogo al procesado óptico, ya que las operaciones realizadas sobre las imágenes, simplemente son “simulaciones digitales” de su equivalente óptico. El funcionamiento básico consiste en adquirir una imagen en una
Láser
Lente colimadora
Imagen de entrada
Lente transformadora
Plano de frecuencia
Lente transformadora
Plano de salida
computadora, por medio de una cámara digital (aunque la imagen también puede provenir de algún otro tipo de dispositivo), procesamiento (filtrado), clasificación y reconocimiento de patrones. Este último paso no es algo tan trivial como podría parecer. Existen algunos algoritmos básicos y algunos muy poderosos y bastante complejos capaces de asistir en esta tarea, sin embargo, es un área de investigación activa con una gran cantidad de artículos publicados al año sobre este tema. Sus ventajas y desventajas son inversas a las del procesado óptico, ya que el implementar un sistema digital resulta más barato y más simple, sin embargo, a pesar de los grandes avances en cuanto a velocidad de cómputo, el costo computacional siempre es algo que se debe tener en mente, especialmente si se manejara una gran cantidad de datos, ya que el tiempo de procesado aumenta significativamente cuando aumenta la cantidad de datos de entrada, es decir, el método digital siempre será más lento que el óptico.
• Procesamiento óptico-digital
Como su nombre lo indica, éste método es un híbrido entre el procesamiento óptico y el procesamiento digital, en el cual básicamente alguna de la etapas en el procesamiento óptico es realizada de manera digital. Aprovechando las ventajas del procesamiento óptico (velocidad) y la versatilidad (manejo de datos) del procesamiento digital. Este método tiene una viabilidad intermedia, debido que aún tiene muchas de las desventajas del procesamiento puramente óptico, así como también se ve limitado en velocidad por los componentes digitales (electrónicos) que contenga. En la figura 2 mostramos el esquema básico de un sistema correlacionador óptico-digital.
I.1. Definición del problema y objetivos
En el ámbito de procesado de imágenes, el reconocimiento de objetos o patrones se define como la tarea de encontrar y etiquetar las partes de una imagen bidimensional, por ejemplo, los objetos que conforman una escena (Gonzalez y Woods, 2002). Una dificultad inherente a lo anterior mencionado es que, puesto a que en un sistema de reconocimiento de objetos resulta imposible garantizar que cada imagen del objeto que se desea identificar sea igual, el sistema debe tener una cierta robustez a distorsiones (rotación, escala, iluminación o ruido) de la imagen problema. Los filtros de correlación resultan bastante sensibles a distorsiones de la imagen problema, disminuyendo rápidamente su capacidad de discriminación a medida que dichas distorsiones aumentan.
Existen distintos métodos para lograr cierto nivel de tolerancia ante distorsiones de este tipo, tal como seria el método propuesto por Pech-Pacheco et al. (2003) o el utilizado por Javidi, B. (2002). En este trabajo de investigación se hará un análisis a profundidad de las limitaciones del uso de filtros no lineales compuestos, como un medio para lograr invariancia a distorsiones de escala, rotación, iluminación y/o ruido.
Figura 2.- Correlacionador óptico-digital. Láser
Lente colimadora
Imagen de entrada
Lente transformadora
Plano de frecuencia
Lente transformadora
I.1.1. Objetivo general
Utilización de filtros compuestos no lineales para el reconocimiento y localización de objetos con diferente escala, rotación, iluminación y/o ruido.
Para lograr el objetivo general se han propuesto los siguientes objetivos específicos que forman parte de la metodología empleada en el desarrollo de la investigación:
I.1.2. Objetivos particulares
a) Obtención del filtro compuesto no lineal con imágenes entrenadas para identificación con diferente escala, rotación, iluminación y ruido.
b) Determinación del máximo número de imágenes de entrenamiento para la creación del filtro no lineal compuesto para llevar a cabo la invariancia en la correlación de imágenes de diferente escala, rotación, iluminación y ruido.
c) Identificación y localización de objetos en el plano de salida de correlación.
d) Identificación y localización de objetos que tengan al mismo tiempo diferentes mezclas de escala, rotación, iluminación y ruido.
e) Identificación y localización de objetos no entrenados.
f) Analizar los resultados de la correlación para imágenes entrenadas y no entrenadas. g) Aplicaciones a objetos reales.
I.2 Antecedentes
Detección y análisis de letreros de límite de velocidad automatizado
En este trabajo Javidi, B. (2002), realizó un reporte sobre la factibilidad de implementar un sistema automatizado de reconocimiento de letreros de límite de velocidad en Estados Unidos de Norte America, como asistencia para los conductores. Para dicho reporte utilizó imágenes de letreros de límite de velocidad capturadas por el departamento de transporte del estado de Connecticut, EUA. Debido a que las imágenes fueron capturadas por vehículos en movimiento de imágenes de letreros reales, la propuesta en dicho reporte fue el utilizar filtros no lineales compuestos, para así lograr una invariancia a escala, rotación, iluminación y ruido presentes en cada imagen.
El autor en este caso sólo se concentró en verificar la factibilidad de su implementación. Sin embargo no hace mención de las limitaciones del método en cuanto a cantidad de imágenes, porcentajes de escalamiento, ángulos de rotación, diferencias de iluminación o niveles de ruido. Nuestro trabajo puede ser considerado una profundización el método utilizado en este reporte por el autor.
Identificación automática de objetos independiente de cambios geométricos
Pech-Pacheco et al. (2003), presenta un método de identificación de objetos basado en el uso de la correlación de fase en el dominio de la transformada de escala para la identificación automatizada de caracteres. Los resultados son extensibles a otros campos. El método que proponen los autores probó ser invariante a translación, rotación y escala. Dicho método es una extensión del usado por Casasent y Psaltis, ya que considera una transformada de escala digital más eficiente como alternativa a las técnicas de Fourier-Mellin. El método es capaz de identificar el grado de rotación y de escalamiento en las imágenes para así facilitar su registro.
Reconocimiento de patrones invariante a rotaciones mediante el uso de filtros lineales y no lineales en cascada
referencia a un problema de reconocimiento de patrones (de dos clases) invariante a rotación. El filtro del mínimo promedio de la energía de correlación (MACE1) es un filtro lineal y generalmente es aceptado que éste es el óptimo para detectar señales libres de ruido. En este trabajo los autores encuentran que un filtro del mínimo promedio de la energía de correlación optimizado no es capaz de diferenciar entre los caracteres E y F de manera invariante a rotación. Sin embargo, encontraron que utilizando un solo filtro lineal optimizado, para lograr la respuesta requerida cuando se incluye una función de umbral no lineal después del filtro, esta tarea es posible de realizar. También muestran que esta acción puede realizarse en cascada, para formar un filtro multi-capa en cascada, y que las capacidades de dicho filtro aumentan. Finalmente muestran el desempeño de un filtro en cascada de dos capas, ante un problema de la vida real, al intentar diferenciar entre distintas especies de bacterias en imágenes obtenidas de un microscopio de contraste de fase.
Sistemas basados en la transformada de escala para reconocer de manera invariante objetos biológicos
Villalobos-Flores et al. (2001) emplearon un método de correlación invariante para la identificación de 12 especie de diatomeas fósiles. El método hace uso de la transformada de escala y de un filtro solo de fase (POF2). Con este método los autores fueron capaces de identificar las especies de diatomeas con tan sólo un fragmento de los organismos.
Castro-Longoria et al. (2001) propusieron un algoritmo para identificar especies de copépodos (crustáceos maxilópodos de tamaño muy pequeño). Utilizando el módulo cuadrado de la transformada rápida de Fourier. Los patrones de difracción, de estas especies de copépodos, fueron correlacionados mediante el uso del filtro sólo de fase de manera invariante para discriminar entre cada especie y sexo. Se destaca el uso del filtro sóo de fase y la transformada de escala para añadir invariancias al algoritmo propuesto.
Cabe señalar que en estos trabajos se utilizaron imágenes no limpias y la invariancia a desplazamiento del objeto es perdida debido a la implementación de la transformada de escala.
Filtro invariante a distorsiones compuesto no lineal de plano de Fourier para reconocimiento de patrones
Javidi et al. (1997) utilizaron, como su nombre lo indica, filtros compuestos no lineales de plano de Fourier para lograr el reconocimiento de patrones invariante a distorsiones. Agregaron distintos tipos de ruido, tales como ruido de color de fondo no traslapado, objetos falsos, ruido de escena real, y ruido blanco aditivo, para investigar el desempeño de este tipo de filtros. Las imágenes de entrenamiento (consideradas en la síntesis del filtro) y de prueba (imagen problema) consistieron de imágenes de distintos aviones con rotación dentro y fuera de plano como distorsiones.
I.3. Organización de la tesis
Esta tesis esta organizada, a partir de este capítulo introductorio, de la siguiente manera: en el capítulo II, se establece una base teórica en la cual se sustenta el trabajo desarrollado en esta tesis. Primero se define lo que es un sistema lineal invariante a desplazamientos, tema fundamental para el procesamiento de señales. Después, se mencionan las principales características de la transformada de Fourier para señales continuas y discretas en una y dos dimensiones (caso al cual corresponden las imágenes digitales). Además, también se establecen sus transformadas inversas. También se repasan las principales propiedades de la transformada de Fourier. Después, se define lo que es una correlación, correlación de Pearson y la correlación de Spearman, esta última es un tipo de correlación no lineal. Por último, se repasa el concepto de convolución y se define la relación que existe entre la correlación y la convolución.
estos filtros en este trabajo. Por último, se mencionan algunos modelos de imagen, ya que es de suma importancia poder caracterizar adecuadamente nuestras imágenes de entrada.
El capítulo IV trata sobre el trabajo de investigación realizado en esta tesis. Lo primero que se realizó, fue generar las imágenes necesarias para nuestras pruebas. Después, utilizando estas imágenes, se determinó el máximo número de imágenes que puede soportar un filtro no lineal compuesto, generando filtros de cada vez mayor número de imágenes. Al considerar imágenes del mismo objeto con el rango completo de los 360º de rotación, se observó una problemática, que llamamos problemática de rotación, y se propone una solución, utilizar un filtro segmentado. Después se observó el desempeño de los filtros cuando la imagen de entrada se encontraba degradada por ruido Gaussiano y Sal y Pimienta. Se propuso un método más robusto (en algunos casos) ante la presencia de ruido utilizando la correlación no lineal de Spearman. También se observó el desempeño de estos filtros cuando la imagen de entrada presentaba distintos contrastes (no considerados en la fabricación del filtro), y se propone la utilización de la correlación no lineal de Spearman aunado al sistema no lineal para hacer el sistema más robusto ante este tipo de distorsión. Por último, se aplicaron los filtros no lineales compuestos en la solución de dos problemas que involucran imágenes reales, la clasificación de distintas especies y sexo de copépodos y la inspección automática de una tarjeta de sonido para PC.
Capítulo II
Teoría básica
En este capítulo se repasan algunos conceptos básicos, como la definición de un sistema lineal, la función impulso o delta de Dirac, así como la respuesta de un sistema lineal al impulso, la transformada de Fourier (FT3) y sus propiedades. La FT es una herramienta de gran utilidad en el procesamiento de imágenes en general. Sus aplicaciones son muy amplias dentro del campo del procesamiento de imágenes, por ejemplo, su versión rápida, la transformada rápida de Fourier (FFT4), es ampliamente utilizada para obtener la correlación de dos imágenes de manera rápida, utilizando el teorema de correlación. Por otra parte, también tiene aplicaciones en el filtrado de imágenes, caracterización de bordes, compresión de imágenes y en muchas otras aplicaciones. Otros temas que se tocan en este capítulo son la convolución y la correlación, de manera continua y discreta, sus casos en una y dos dimensiones, así como también sus propiedades.
II.1 Sistemas lineales
Un sistema se caracteriza por la manera en como responde a señales de entrada. En general, un sistema puede tener una o más entradas y una o más salidas. Debido a esto, una forma natural de caracterizar a los sistemas es mediante el número de entradas y salidas que tengan:
• Una entrada, una salida o SISO (Single Input, Single Output)
• Una entrada, varias salidas o SIMO (Single Input, Multiple Outputs)
• Varias entradas, una salida o MISO (Multiple Inputs, Single Output)
• Varias entradas, varias salidas o MIMO (Multiple Inputs, Multiple Outputs)
La teoría de los sistemas lineales tiene gran importancia en el procesamiento digital de imágenes (Bovik, 2000). Un gran número de sistemas de procesamiento digital de imágenes pueden ser modelados bajo la teoría de sistemas lineales (Lathi, 2005). Tal es el caso en un sistema correlacionador de dos imágenes, donde una imagen de referencia (objetivo) es correlacionada con una imagen de prueba (escena) para detectar la presencia y localización del objetivo dentro de la escena. Un sistema lineal, en su forma mas simple y de manera informal, se puede caracterizar por una señal de salida producida en respuesta a una señal de entrada, es decir, un sistema SISO (figura 3).
Consideremos el diagrama de la figura 3, donde f
( )
x,y y s( )
x,y son las imágenes de entrada y salida, respectivamente, del sistema. La relación que existe entre la entrada y la salida está descrita por( )
x y T{
f( )
x y}
s , = , , (1)
donde T
{}
⋅ indica una operación de transformación lineal y( )
x,y son variables espaciales. Un sistema es considerado lineal, si y sólo si, satisface las propiedades de escalamiento y superposición (Oppenheim, 1997). La propiedad de escalamiento simplemente establece que cambios pequeños en la entrada producen cambios pequeños en la salida, y que cambios grandes en la entrada producen cambios grandes a la salida. La propiedad de superposición, establece que para cualquier combinación lineal de dos o más entradas, se obtiene la misma combinación de sus respectivas salidas. Es decir{ }
T s
( )
x,y( )
x y f ,( )
( )
( )
{
a f x y a f x y a f x y}
aT{
f( )
x y}
a T{
f( )
x y}
a T{
f( )
x y}
T 1 1 , + 2 2 , +... n n , = 1 1 , + 2 2 , +... n n ,
( )
x y a s( )
x y a s( )
x y sa1 1 , + 2 2 , +... n n ,
= , (2)
donde f1, f2,… fn representan las señales de entrada, s1, s2,… sn representan las señales de salida y a1, a2,… an son constantes arbitrarias.
En términos simples, la respuesta al impulso de un sistema es la que se presenta en la salida frente a una señal muy breve, o impulso, en la entrada. Un impulso es un concepto difícil de imaginar, sin embargo, este representa el caso límite de un pulso infinitamente corto en el tiempo pero que mantiene su área unitaria, por lo cual tiene una amplitud infinitamente alta. La representación matemática de un impulso está dada por la función Delta de Dirac (figura 4).
La respuesta al impulso de un sistema lineal está definida como la respuesta de dicho sistema en una posición espacial
(
x ,'y')
a un impulso aplicado en la posición( )
x,y . Es decir, si a la entrada del sistema lineal tenemos( ) (
x,y x x,'y y')
f =δ − − , (3)
donde δ representa la función delta de Dirac, y la respuesta correspondiente del sistema, en la posición
(
x,'y')
, está dada por-4 -3 -2 -1 0 1 2 3 4 1.25
1 0.75 0.5 0.25 0
x(t)
t
(
,' ')
|(
, ; ,' ')
2 h x y x yy x
s t=t = , (4)
entonces la función h
(
x,y;x,'y')
es la respuesta al impulso variante en la posición del sistema.Un sistema lineal es invariante a desplazamientos, si y solo si, al desplazar la señal de entrada, se produce un desplazamiento igual en la señal de salida, es decir debe cumplir con la propiedad de convolución.
s
( )
x,y =T{
f( )
x,y}
,
( )
(
) (
)
( )
,(
', ') (
{
', ')
}
' ', , ' ' ' , ' ' , ' ,∫ ∫
∫ ∫
∞ ∞ − ∞ ∞ − ∞ ∞ − ∞ ∞ − − − = ⎭ ⎬ ⎫ ⎩ ⎨ ⎧ − − = dy dx y y x x T y x f y x s dy dx y y x x y x f T y x s δ δ( )
∫ ∫
∞(
) (
)
∞ − ∞ ∞ − − − = ,' ' ,' ' ' ',y f x y h x x y y dx dy x
s . (5)
La ecuación (5), es la representación matemática de la propiedad de convolución, la cual es una de las más importantes propiedades para sistemas invariantes a desplazamientos, ya que el sistema lineal queda caracterizado en su totalidad por su respuesta al impulso h
( )
x,y .II.2 Transformada de Fourier
de frecuencias, representa una frecuencia en particular contenida en la imagen en el dominio espacial. La FT tiene muchas aplicaciones en el procesamiento de imágenes, tales como filtrado, reconstrucción y compresión, entre otras. Podemos comparar la FT con un prisma de vidrio. El prisma es un dispositivo que físicamente separa la luz en los componentes de colores que la forman, cada color corresponde a una cierta longitud de onda, o frecuencia. De manera similar la transformada de Fourier nos dice el contenido de frecuencias de la señal de entrada, por lo cual se puede ver como una representación matemática de un prisma.
II.2.1 Transformada de Fourier unidimensional y su inversa
La FT, F
( )
u , de una función continua, f( )
x , de una sola variable, está definida como( )
∞∫
( )
∞ −
−
= f x i uxdx
u
F
e
2π , (6)donde i= −1. Consecuentemente, la transformada de Fourier inversa (IFT5) de F
( )
u , resulta en la función original f( )
x :( )
∫
∞( )
∞ −
= F u uxdu
x
f
e
i2π . (7)Las ecuaciones (6) y (7) son conocidas como par transformado de Fourier. Indican el importante hecho que una función puede ser recuperada a partir de su transformada.
La transformada de Fourier de una función discreta (DFT6) f
( )
x , x = 0, 1, 2, 3,…M – 1, está dada por
( )
∑
−( )
=
−
= 1
0
2 1 M
x
e
M ux i x f M u
F π , para u = 0, 1, 2, 3,… M – 1. (8)
De manera similar al caso de funciones continuas, dada F
( )
u , podemos recuperar la función original f( )
x , haciendo uso de la transformada de Fourier discreta inversa (IDFT7):( )
∑
−( )
=
= 1
0
2
M
u
e
M ux i u F x
f π , para x = 0, 1, 2, 3,… M – 1. (9)
Las ecuaciones (8) y (9) son el par transformado de Fourier discreto. Como se puede ver, son muy similares a las ecuaciones (6) y (7), con la diferencia que las integrales han sido remplazadas por sumatorias y la aparición del múltiplo 1 M ; este múltiplo en algunas ocasiones es colocado frente a la ecuación (9) en vez de frente a la ecuación (8). En algunas otras ocasiones (no tan usual), multiplica ambas ecuaciones de la manera 1 M .
En general, en la ecuación (6) podemos ver que los componentes de la transformada de Fourier son cantidades complejas. De la misma manera que en el análisis de números complejos, a veces resulta práctico expresar F
( )
u en coordenadas polares:( )
( )
( )e
i uu F u
F = −φ , (10) donde
( )
u R( )
u I( )
uF = 2 + 2 (11)
es la magnitud de la trasformada de Fourier, y
( )
( )
( )
u R
u I
u =tan−1
φ (12)
es la fase del ángulo de la trasformada. En las ecuaciones (11) y (12), R
( )
u y I( )
u son las partes real e imaginaria de F( )
u , respectivamente (Gonzalez y Woods, 2002).II.2.2 Transformada de Fourier bidimensional y su inversa
Las ecuaciones (6) y (7) pueden ser fácilmente extendidas a considerar dos variables (dos dimensiones):
( )
( )
( ) dy dx y x f v uF
∫ ∫
e
i ux vy∞ ∞ − ∞ ∞ − + −
= 2π
,
, , (13)
y, similarmente la transformada inversa,
( )
( )
( ) dv du v u F y xf
∫ ∫
e
i ux vy∞ ∞ − ∞ ∞ − +
= 2π
,
, . (14)
Estamos más interesados en la forma discreta de la transformada de Fourier. La extensión a dos dimensiones, de la transformada discreta Fourier (DFT8) unidimensional, se hace de manera similar que en caso de señales continuas. Sea f
( )
x,y una función bidimensional (imagen) de tamaño M x N, su transformada de Fourier está dada por( )
( )
( )∑∑
− = − = + − = 1 0 1 0 2 , 1 , M x N y N vy M ux ie
y x f MN v uF π . (15)
para valores de u = 1, 2, 3,… M - 1 y v = 1, 2, 3,… N - 1.
De manera similar, si tenemos F
( )
u,v , podemos obtener f( )
x,y por medio de la transformada de Fourier inversa, dada por
( )
∑∑
−( )
( )= −
=
+
= 1 0
1
0
2 ,
, M
x N
y
N vy M ux i
e
v u F y
x
f π , (16)
para valores de x = 1, 2, 3,… M - 1 y y = 1, 2, 3,… N - 1.
De la misma manera que en el caso unidimensional, la ubicación del factor 1 MN
no es importante, y en ocasiones también se encuentra dividido entre la transformada y su inversa como 1 MN. El espectro de Fourier en coordenadas polares, magnitud y fase son como se muestra a continuación:
( )
( )
( )e
i uvv u F v u
F , = , −φ , , (17)
( )
u v R( )
u v I( )
u vF , = 2 , + 2 , , (18)
( )
( )
( )
v u R
v u I v
u
, , tan , = −1
φ , (19)
donde R
( )
u,v y I( )
u,v son las partes real e imaginaria de F( )
u,v , respectivamente.II.2.3 Propiedades de la transformada de Fourier
En esta sección discutiremos algunas de las propiedades básicas, de la transformada de Fourier, para aplicaciones a procesamiento de imágenes.
Linealidad
Si las transformadas de Fourier de af
( )
x,y y bg( )
x,y están dadas por aF( )
u,v y( )
u vbG , , respectivamente, entonces la transformada de Fourier de af
( )
x,y +bg( )
x,y es( )
u v bG( )
u vDerivación:
∫ ∫
[
( )
( )
]
( ) ∞ ∞ − ∞ ∞ − + −+bg x y dxdy
y x
af , ,
e
i2π xu yv
∫
∫
( )
( )∫ ∫
( )
( ) ∞ ∞ − ∞ ∞ − ∞ ∞ − + − ∞ ∞ − + − +=a f x,y
e
i2π xu yvdxdy b g x,ye
i2π xu yvdxdy,( )
u v bG( )
u vaF , + ,
= . (20)
Traslación
El teorema de traslación establece que, si f
( )
x,y tiene la transformada de Fourier( )
u vF , , entonces f
(
x−x0,y− y0)
tiene la transformada F( )
u ve
2 (x0u y0v), −π + (Bracewell, 2000). Derivación:
∫ ∫
(
)
( ) ∞ ∞ − ∞ ∞ − + − −−x y y dxdy
x
f 0, 0
e
i2π xu yv
∫ ∫
(
)
(( ) ( ) ) ( )(
) (
)
∞ ∞ − ∞ ∞ − + − − + − − − − − −= 2 2 0 0
0 0 0 0 0 0
,y y d x x d y y
x x
f
e
i π x x u y y ve
i π xu yv ,=F
( )
u,ve
−i2π(x0u+y0v). (21)Si una función es trasladada en una dirección
(
x0,y0)
, la amplitud de la transformada de Fourier no cambia; por lo tanto es de esperarse que el cambio esté confinado a la fase de la transformada de Fourier, es decir, una traslación en el espacio produce cambios en la fase de su transformada de Fourier.Teorema de Parseval
( )
∫ ∫
( )
∫ ∫
( )
∫ ∫
∞ ∞ − ∞ ∞ − ∞ ∞ − ∞ ∞ − ∞ ∞ − ∞ ∞ − == F u v dudv S u v dudv
dxdy y
x
f , 2 , 2 F , = Energía total en f
( )
x,y , (22)donde SF
( )
u,v ≡ F( )
u,v 2 es la función de densidad de energía, que representa cómo está distribuida la energía de la señal en el dominio de frecuencias.Teorema de convolución
La convolución de dos funciones f
( )
x,y y g( )
x,y es otra función h( )
x,y definidapor la doble integral
( )
( ) ( )
∞∫ ∫
(
) (
)
∞ − ∞ ∞ − − − = ∗ = , , ', ' ', ' ' ',y f x y g x y f x y g x x y y dx dy
x
h , (23)
donde * denota una convolución.
Si f
( )
x,y tiene una transformada de Fourier F( )
u,v y g( )
x,y tiene una transformada de Fourier G( )
u,v , entonces f( ) ( )
x,y ∗g x,y tiene la transformada de Fourier( ) ( )
u vG u vF , , (Bracewell, 2000); es decir, la convolución de dos funciones en el dominio espacial, significa la multiplicación de la transformada de esas dos funciones.
Derivación:
f
(
x y) (
g x x y y)
dxdye
−i (xu+yv)dxdy∞ ∞ − ∞ ∞ − ∞ ∞ − ∞ ∞ −
∫ ∫ ∫ ∫
⎥ ⎦ ⎤ ⎢ ⎣ ⎡ −− 2π
' ' ' ,' ' ,'
f
(
x,'y')
g(
x x,'y y')
e
i2 (xu yv)dxdy⎥dx'dy'⎦ ⎤ ⎢ ⎣ ⎡ − − =
∫ ∫
∫ ∫
∞ ∞ − ∞ ∞ − + − ∞ ∞ − ∞ ∞ − π ,
∫ ∫
f(
x,'y')
e
i2 (x'u y'v)G( )
u,v dx'dy' ∞ ∞ − ∞ ∞ − + − = π ,Usando ℑ
{}
⋅ para denotar una transformada de Fourier, podemos resumir lo establecido por el teorema de convolución a las siguientes ecuaciones:( ) ( )
{
f x,y ∗g x,y}
=F( ) ( )
u,vG u,vℑ , (25)
( ) ( )
{
f x,y g x,y}
= F( ) ( )
u,v ∗G u,vℑ . (26)
Por lo tanto es posible calcular la convolución de dos señales haciendo uso de la transformada de Fourier:
( ) ( )
x y g x y{
F( ) ( )
u v Gu v}
f , ∗ , =ℑ−1 , , . (27)
Teorema de correlación
La correlación de dos funciones reales f
( )
x,y y g( )
x,y es otra función h( )
x,y y está definida por la integral( )
( )
( )
∞∫ ∫
(
) (
)
∞ −
∞
∞ −
+ +
= ⊗
= , , ', ' ', ' ' '
,y f x y g x y f x y g x x y y dx dy
x
h , (28)
donde el símbolo ⊗denota una correlación.
En el caso de que las funciones sean complejas, se debe utilizar el complejo conjugado de una de las dos funciones:
( )
( )
( )
∫ ∫
∞(
) (
)
∞ −
∞
∞ −
∗ + +
= ⊗
= , , ', ' ', ' ' '
,y f x y g x y f x y g x x y y dx dy
x
h , (29)
donde el signo * indica que es el complejo conjugado.
( )
( )
{
f x,y ⊗g x,y}
=F( ) ( )
u,v G∗ u,vℑ , (30)
( ) ( )
{
f x,y g x,y}
=F( )
u,v ⊗G( )
u,vℑ ∗ . (31)
Por lo tanto es posible calcular la correlación de dos señales haciendo uso de la transformada de Fourier de la siguiente manera:
( )
x y g( )
x y{
F( ) ( )
u vG u v}
f , ⊗ , =ℑ−1 , ∗ , . (32)
Desigualdad de Cauchy-Schwartz
La desigualdad de Cauchy-Schwartz establece que
∫ ∫
∫ ∫
∫ ∫
∞ ∞ − ∞ ∞ − ∞ ∞ − ∞ ∞ − ∞ ∞ − ∞ ∞ −≤ f x y dxdy g x y dxdy
dxdy y x g y x
f 2 2
2 ) , ( ) , ( ) , ( ) ,
( . (33)
Si se representa f
( )
x,y = f1( ) ( )
x,y p x,y y g( )
x,y =g1( ) ( )
x,y p x,y , con una función peso real positiva, es decir p( )
x,y ≥0, se consigue una forma más general de la desigualdad:
2
1
1( , ) ( , ) ( , )
∫ ∫
∞ ∞ − ∞ ∞ − dxdy y x p y x g y x f∫ ∫
∫ ∫
∞ ∞ − ∞ ∞ − ∞ ∞ − ∞ ∞ −≤ f1(x,y)2p(x,y)dxdy g1(x,y)2p(x,y)dxdy, (34)
II.3 Correlación
En probabilidad y estadística, la correlación (en ocasiones llamada coeficiente de correlación) es un método ampliamente utilizado para calcular la relación existente entre dos variables aleatorias. Dos variables tienen un alto valor de correlación cuando los valores de una de ellas varían sistemáticamente con respecto a los valores de la otra, es decir, si tenemos dos variables (A y B), existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad. Dentro de esta amplia definición existen varios coeficientes que miden el grado de correlación, adaptándose a la naturaleza de los datos que conforman a las variables. Distintos coeficientes son utilizados en distintas situaciones. El mejor conocido es el coeficiente de correlación de Pearson, el cual se obtiene dividiendo la covarianza de las dos variables entre el producto de sus desviaciones estándar. El coeficiente de correlación de Pearson supone una normalidad de las variables en cuestión, sin embargo, en algunas situaciones la normalidad de las variables no puede ser garantizada y, en general, puede ser menos eficiente que métodos de correlación no lineal, tales como la correlación de Spearman o de Kendall, entre otras.
De acuerdo con el teorema de correlación, descrito por la ecuación (30), la correlación entre dos variables se puede calcular tanto en el dominio espacial (haciendo operaciones directamente sobre los valores de las funciones), como en el dominio de frecuencias (obteniendo sus FT, multiplicándolas y después obteniendo la transformada inversa del resultado) como indica la ecuación (32).
Sea { f
( )
x,y , x=1,2,…N, y=1,2,…M} una imagen a ser reconocida (objetivo) y{g
( )
x,y , x=1,2,…M, y=1,2,…N, } una escena de prueba.( )
x,y son las coordenadas decada píxel y W = M x N es el tamaño de cada imagen. La correlación lineal C
( )
x,y entre el objetivo y la escena de prueba puede calcularse espacialmente por( )
∑∑
−( ) (
)
= −
=
+ + ⋅ = 1
0 1
0
' ,' ,
, M
m N
n
y y x x g y x f y
x
La correlación lineal normalizada Cˆ
( )
x,y , también conocida como correlación dePearson, puede expresarse como
( )
( ) (
)
( )
∑∑
(
)
∑∑
∑∑
− = − = − = − = = = − = + + ⋅ + + ⋅ = 1 0 1 0 2 1 0 1 0 2 1 0 1 0 ' ,' , ' ,' , , ˆ M x N y o M x N y o M x N y o o y y x x g y x f y y x x g y x f y xC , (36)
donde
( )
x y f( )
x y ffo , = , −
(
x x ,'y y') (
g x x,'y y') (
g x,'y')
go + + = + + − ,
f y gson los promedios del objetivo y la imagen de prueba respectivamente.
En nuestro trabajo utilizaremos la ecuación (32) para calcular la correlación entre dos imágenes. En la figura 5 se muestra un esquema visual de este proceso.
{}
⋅ ℑ*{}
⋅
ℑ
X Escena de entrada
Imagen de referencia
Figura 5.- Diagrama de las operaciones necesarias para llevar a cabo una correlación por medio del teorema de correlación.
Plano de correlación
II.4 Correlación de Spearman
Una manera alternativa de calcular la correlación entre dos imágenes con métodos no lineales, es utilizando las estadísticas de orden. En principio, la correlación de Spearman (SRC9) es simplemente un caso especial de la correlación de Pearson, donde los datos son convertidos a rangos antes de calcular su correlación (Myers et. al, 2003).
Para este cálculo es necesario obtener el renglón variacional de la imagen problema y la imagen de referencia, es decir, organizar en rangos las imágenes. El renglón variacional se puede expresar como (Kober, et. al, 2001)
{V(r): V(r) ≤ V(r+1), r=1, 2,…,d}, (37)
donde d es el número de píxeles de la imagen, el valor V(r)es llamado la r-ésima estadística de orden y r(V) el rango del valor V. Es decir, si tenemos dos variables xi={0.1, 2, 1, 1.5, 0} y yi={5, 10, 8, 9, 4}, sus valores convertidos a rangos serían de{2, 5, 3, 4, 1} para ambos casos, ya que tanto xi
( )
5 como yi( )
5 son los valores mas pequeños de ambas variables, xi( )
1 y yi( )
1 son los segundos valores mas pequeños, xi( )
3 y yi( )
3 son los terceros valores mas pequeños y así sucesivamente.Sustituyendo el valor de cada píxel por su rango (posición dentro del renglón variacional) en la expresión de correlación normalizada (36), se obtiene una expresión de correlación no lineal (Spearman) R(k,l):
( )
(
( )
) (
(
) ( )
)
( )
(
)
(
(
) ( )
)
2, 2 , , , , , , , , ,
∑
∑
∑
∈ ∈ ∈ − + + ⋅ − − + + ⋅ − = W nm s s
W n
m t t
s s
W n
m t t
l k r l n k m r r n m r l k r l n k m r r n m r l k
R , (38)
donde {rt(n, m), m=1,2,…N, n=1,2,…M }, {rs(k, l), k=1,2,…N, l=1,2,…M } y W, son los rangos del objetivo, de la escena de prueba y el número total de píxeles en la imagen problema, respectivamente.
r
t(m, n)yr
s(k, l) son los promedios de dichos rangos.Este cálculo después de algunas manipulaciones puede expresarse de la siguiente forma (apéndice A.1):
( )
(
(
) (
(
)
)
)
1 , ,
6 1
, , 2
2
− ⋅
+ + − ⋅
−
=
∑
∈W W
l n k m r n m r l
k
R mn W
s t
, (39)
donde W es el número total de píxeles en la imagen problema.
En nuestro trabajo utilizaremos la ecuación (39) para calcular la SRC entre dos imágenes. Sin embargo, nuestro objetivo final es su implementación con filtraje no lineal. En la figura 6 se muestra un esquema visual de este proceso.
Figura 6.- Diagrama de las operaciones necesarias para llevar a cabo una correlación de Spearman con filtraje no lineal.
{}
⋅ ℑ*SCR
Escena de entrada Imagen de referencia
Plano de correlación
{}
⋅
ℑ
−1 Operaciónno lineal
{}
⋅
II.5 Convolución
La convolución es una manera matemática de combinar dos señales, f y g, que produce una tercer señal h, la cual es típicamente vista como una versión modificada de una de las señales originales. La convolución es una operación similar a la correlación cruzada. Es la operación de mayor importancia en el procesamiento digital de señales, sin embargo, tiene aplicaciones en estadística, visión por computadora y procesamiento de imágenes, entre otras. Usando una estrategia de descomposición de impulsos, los sistemas son descritos mediante su respuesta al impulso. La convolución es importante porque relaciona las tres señales de interés: la señal de entrada, la señal de salida y la respuesta al impulso (Smith, 1999).
La convolución para señales continuas está descrita por la ecuación (23), sin embargo puede ser fácilmente expresada en términos de funciones discretas (tales como imágenes) de la siguiente manera:
( )
( ) ( )
∑ ∑
−(
) (
)
= − = − − = ∗ = 1 0 1 0 M x N y y y x x g y x f y x g y x f y x h ' ' ' , ' ' , ' , ,, , (40)
donde M es el número total de valores en el eje x, N es número total de valores en el eje y y
∗ denota una operación de convolución.
Como se mostró en las ecuaciones (23), (28) y (29), la diferencia entre la correlación y la convolución radica en el conjugado de la segunda función de la ecuación (29). Por lo tanto, podemos decir, que para funciones reales, la convolución está relacionada a la correlación de la siguiente manera:
( ) ( )
x,y g x,y f(
x',y') (
g x x',y y')
dx'dy'f
∫ ∫
∞ ∞ − ∞ ∞ − − − = ∗ ,
sustituyendo x, →−x1 y
1
y
=−∞
∫ ∫
f(
−x1 −y1)
g(
x−( )
−x1 y−( )
y1) ( ) ( )
d −x1 d −y1∞ −∞
∞
,
, ,
∫ ∫
f(
x1 y1) (
g x x1 y y1)
dx1dy1∞
∞ −
∞
∞ −
+ + −
−
= , , ,
y si además f
(
x1,y1)
es una función simétrica, f(
−x1,−y1)
= f(
x1,y1)
, entonces
∫ ∫
f(
x1 y1) (
g x x1 y y1)
dx1dy1∞
∞ −
∞
∞ −
+ +
= , , ,
( ) ( )
x y h x y f , ⊗ ,= . (41)
Capítulo III
Teoría de filtraje
La teoría de filtraje, y específicamente de imágenes, es un campo sumamente amplio, con aplicaciones en localización e identificación de patrones, localización de bordes, compresión, restauración, identificación, y mejoramiento de imágenes, entre otras. En este capítulo nos concentraremos en lo relacionado con las ideas básicas detrás de los principales filtros de correlación, para su uso en el reconocimiento y localización de patrones dentro de una imagen o escena de prueba, desarrollados a lo largo de las últimas cuatro décadas. Estos filtros se derivan todos del filtro clásico de acoplamiento, introducido por VanderLugt (1964), y cada uno optimiza algún criterio de calidad, como eficiencia de luz, relación señal a ruido, la relación pico a energía de correlación, etc. Además, se analizarán algunas de las principales métricas para la evaluación del desempeño de los filtros de correlación. Por otro lado, todos los filtros discutidos en este capitulo mantienen la característica de invariancia a desplazamientos gracias a las propiedades de la transformada de Fourier.
III.1 Métricas de desempeño
de discriminación, la relación pico a energía de correlación y la eficiencia de luz, entre otras.
III.1.1 Relación señal a ruido (SNR
10)
La SNR es una medida que nos indica la relación entre los niveles de ruido y el pico en el plano de correlación. Formalmente podemos definir la SNR, de la siguiente manera:
(
)
{
}
(
)
{
0 0}
2 0 0 , var , y x c y x c E
SNR= , (42)
donde c
(
x0,y0)
es el valor del pico de correlación en las coordenadas(
x0,y0)
(posición del objeto a reconocer), E{}
⋅ el valor esperado del pico de correlación del objeto (promedio de varias realizaciones) y var{}
⋅ la varianza del pico correlación ocasionada por el ruido.Debido a lo anterior, la SNR no puede ser calculada con tan sólo un experimento. Se deben realizar varios, utilizando funciones de ruido independientes, para así calcular los correspondientes promedios. Puesto que en la ecuación (42) se están considerando sólo valores promedio, no es un método efectivo para determinar la angostura del pico. Se puede demostrar que la SNR se puede escribir de la siguiente manera (Kumar y Hassebbrook, 1990): ( )
( ) ( )
( ) ( )
∫ ∫
∫ ∫
∞ ∞ − ∞ ∞ − ∞ ∞ − ∞ ∞ − = dudv v u H v u P dudv v u H v u S SNR n v u H 2 2 , , , , ,β , (43)