SUPERIOR DE ENSENADA, BAJA CALIFORNIA
MR
PROGRAMA DE POSGRADO EN CIENCIAS
EN CIENCIAS DE LA COMPUTACI ´
ON
Reconocimiento de objetos en una escena bajo el paradigma
del c ´
omputo evolutivo y la corteza visual
Tesis
para cubrir parcialmente los requisitos necesarios para obtener el grado de Doctor en Ciencias
Presenta:
Eddie Helbert Clemente Torres
Eddie Helbert Clemente Torres
y aprobada por el siguiente comit ´e
Dr. Gustavo Olague Caballero Director del Comit ´e
Dr. Jes ´us Favela Vara Miembro del Comit ´e
Dr. Hugo Hidalgo Silva Miembro del Comit ´e
Dr. Benjam´ın Hern ´andez Valencia Miembro del Comit ´e
Dr. Eugenio Rafael M ´endez M ´endez
Miembro del Comit ´e
Dra. Ana Isabel Mart´ınez Garc´ıa Coordinador del Programa de
Posgrado en Ciencias de la Computaci ´on
Dr. Jes ´us Favela Vara Director de Estudios de Posgrado
Resumen de la tesis que presenta Eddie Helbert Clemente Torres como requisito parcial para la obtenci ´on del grado de Doctor en Ciencias en Ciencias de la Computaci ´on.
Reconocimiento de objetos en una escena bajo el paradigma del c ´omputo evolutivo y la corteza visual
Resumen elaborado por:
Eddie Helbert Clemente Torres
Uno de los retos de la visi ´on por computadora es el reconocimiento de objetos que se encuentran presentes en una escena, mediante el uso de im ´agenes digitales. Sin em-bargo el ser humano resuelve esta tarea con aparente sencillez, ya que no importando la escala, rotaci ´on, traslaci ´on, iluminaci ´on y oclusi ´on del objeto en la escena, el sistema visual es capaz de identificarlo. Bajo esta motivaci ´on, en las ´ultimas d ´ecadas varias l´ıneas de investigaci ´on se han centrado en estudiar el sistema visual natural como un modelo que puede ofrecer los pasos clave para proponer una soluci ´on a la problem ´atica del reco-nocimiento de objetos. As´ı en el presente trabajo de tesis se propone un nuevo sistema de reconocimiento de objetos inspirado en la corteza visual humana. Este sistema trata de imitar las distintas funcionalidades y propiedades de las ´areas corticales, siguiendo su estructura jer ´arquica. Donde cada funcionalidad es representada por un proceso compu-tacional que implica el uso de expresiones matem ´aticas bien definidas; las cuales son propuestas y especializadas por un proceso evolutivo artificial. El desempe ˜no del sistema es medido a partir de la clasificaci ´on de bases de datos como CalTech101, GRAZ y VOC; propuestas por la comunidad de visi ´on por computadora. De esta forma, se obtienen re-sultados que igualan y superan a los reportados en el estado del arte.
Abstract of the thesis presented by Eddie Helbert Clemente Torres as a partial requirement to obtain the Doctor of Science degree in Computer Science.
Object recognition under the paradigm of evolutionary computation and visual cortex
Abstract by:
Eddie Helbert Clemente Torres
Today object recognition is considered a challenging task for the development of com-puter vision systems. Natural systems like that of humans are able to recognize an object even when it is inmersed in a clutter environment, at unusual orientations, under different illumination conditions, or partially occluded by other objects. Historically, many works ha-ve used the natural visual system as an inspiration to approach the object recognition task. Thus, in this thesis a novel object recognition system is proposed, inspired also in the hu-man visual cortex. This system tries to emulate the functionalities and properties of the cortical areas following its hierarchical structure. Each functionality is represented by mat-hematical and computational methods, which are discovered by an artificial evolutionary process. The system performance is measured through its classification efficiency of ima-ge databases as CalTech-101, GRAZ and VOC. As a result, the experimentation shows that the system performs better or comparable to those proposed in the state-of-the-art.
Dedicatoria
A la memoria de mi padre.
A Irma.
Agradecimientos
Agradezco sinceramente:
A mi esposa Irma por su apoyo incondicional, por darme los ´animos para desarrollar
y culminar este proyecto y sobre todo por su cari ˜no y amor que se expresa en forma de
comprensi ´on y paciencia, lo cual ha sido un tesoro invaluable y un motor en mi vida.
A mi madre y mi hermano por estar siempre a mi lado, respald ´andome en los sue ˜nos
que he emprendido, ya que sin su ayuda no habr´ıa podido estar aqu´ı.
A mi asesor, por brindarme su amistad y cari ˜no, por los valiosos consejos y
discusio-nes que han permitido no solo el desarrollo cient´ıfico, sino tambi ´en una formaci ´on humana
necesaria para un pensamiento cr´ıtico y reflexivo.
A mis sinodales por sus invaluables observaciones y consejos que han enriquecido
este trabajo.
A mis compa ˜neros y amigos de CICESE y EvoVisi ´on, en especial a Daniel Hern ´andez
y Le ´on Dozal, que con su apoyo y amistad hemos formado un grupo cient´ıfico y fraterno.
Al Centro de Investigaci ´on Cient´ıfica y de Educaci ´on Superior de Ensenada.
Al pueblo de M ´exico que con sus aportaciones han permitido mis estudios doctorales
Tabla de contenido
P ´agina
Resumen en espa ˜nol ii
Resumen en ingl ´es iii
Dedicatoria iv
Agradecimientos v
Lista de figuras ix
Lista de tablas xiii
1. Introducci ´on 1
1.1. Planteamiento del problema . . . 2
1.2. Objetivo general . . . 6
1.3. Objetivos espec´ıficos . . . 6
1.4. Alcances de la tesis . . . 6
1.5. Organizaci ´on de la tesis . . . 7
2. Fundamentos 9 2.1. Estructura del sistema visual humano . . . 9
2.1.1. Modelos biol ´ogicos de la corteza visual humana . . . 11
2.1.1.1. El modelo de Hubel y Wiesel . . . 11
2.1.1.2. Dos rutas de informaci ´on . . . 13
2.1.1.3. Ruta ventral . . . 14
2.1.1.4. Ruta dorsal . . . 14
2.2. Modelos neuropsicol ´ogicos . . . 15
2.2.1. Integraci ´on de caracter´ısticas . . . 15
2.2.2. Reconocimiento por componentes . . . 17
2.3. Modelos computacionales . . . 20
3. Modelo de la ruta ventral artificial 25 3.1. Modelo HMAX . . . 25
3.2. Modelo dirigido por funciones vs modelo dirigido por datos . . . 27
3.3. Ruta ventral artificial . . . 29
3.3.1. Detecci ´on de regiones de inter ´es . . . 30
3.3.2. Descripci ´on de caracter´ısticas y clasificaci ´on . . . 32
3.3.3. Experimentos y resultados . . . 33
4. Corteza visual artificial 36 4.1. Integraci ´on de la ruta dorsal y la ruta ventral . . . 36
4.2. Modelo computacional . . . 38
4.2.1. Adquisici ´on y transformaci ´on de caracter´ısticas relevantes de una imagen . . . 38
4.2.1.1. Caracter´ısticas de la im ´agen como flujos de informaci ´on independientes . . . 39
4.2.1.2. Mapas visuales . . . 40
Tabla de contenido (continuaci ´
on)
4.2.2. Descripci ´on y clasificaci ´on de una imagen . . . 43
4.2.2.1. Descripci ´on . . . 44
4.2.2.2. Clasificaci ´on . . . 45
4.2.2.3. Conclusi ´on . . . 46
5. Programaci ´on de cerebros artificiales 47 5.1. La corteza visual artificial como un sistema teleol ´ogico . . . 47
5.2. Evoluci ´on de cerebros artificiales . . . 48
5.2.1. Representaci ´on multi- ´arbol . . . 49
5.2.1.1. Funciones y terminales . . . 52
5.2.2. Funci ´on objetivo . . . 62
5.2.3. Operadores gen ´eticos . . . 65
5.2.3.1. Operadores de cruzamiento . . . 67
5.2.3.2. Operadores de mutaci ´on . . . 68
5.2.4. Implementaci ´on . . . 70
5.3. B ´usqueda aleatoria . . . 72
6. Resultados 75 6.1. Base de datos . . . 75
6.1.1. CalTech-5 . . . 75
6.1.2. CalTech-101 . . . 77
6.1.3. GRAZ-01 y GRAZ-02 . . . 77
6.1.4. Reto VOC2007 . . . 78
6.2. Tama ˜no del espacio de b ´usqueda de la CVA . . . 80
6.3. Evoluci ´on de cerebros artificiales . . . 82
6.3.1. Prueba de validaci ´on cruzada . . . 84
6.3.2. An ´alisis de las soluciones . . . 87
6.4. B ´usqueda aleatoria . . . 119
6.4.1. Desempe ˜no de la b ´usqueda aleatoria variando el n ´umero de im ´agenes de entrenamiento . . . 120
6.4.1.1. El mejor tama ˜no para un conjunto de entrenamiento . . . . 122
6.4.1.2. An ´alisis de las soluciones desde un punto estructural . . . 125
6.4.1.3. Algunos ejemplos de soluciones de la CVA . . . 129
6.4.2. Comparasi ´on entre los modelos de la CVA y el HMAX . . . 136
6.4.3. Resultados sobre las bases de datos Graz 01 y Graz 02 . . . . 136
6.4.4. Reto VOC . . . 138
7. Aplicaci ´on 142 7.1. Auto-ajuste de la atenci ´on visual para la mejora de un sistema de de-tecci ´on de un punto l ´aser . . . 142
7.2. Trabajos previos . . . 144
7.3. T ´ecnicas cl ´asicas . . . 147
7.3.1. Umbralizaci ´on din ´amica . . . 147
Tabla de contenido (continuaci ´
on)
7.4. Descripci ´on del sistema . . . 148
7.4.1. M ´odulo de puesta a punto . . . 150
7.4.2. M ´odulo de an ´alisis de im ´agenes . . . 150
7.4.3. M ´odulo de interacci ´on dom ´otica . . . 152
7.5. La atenci ´on focalizada y su aplicaci ´on en un sistema de detecci ´on l ´aser 152 7.5.1. Extracci ´on de caracter´ısticas . . . 153
7.5.2. Integraci ´on de caracter´ısticas . . . 153
7.5.3. Proceso de auto-ajuste del FOA . . . 155
7.5.4. FOA + Correlaci ´on de Patrones + Umbralizaci ´on din ´amica . . . 158
7.5.5. FOA + Correlaci ´on de patrones +F RBSexpert . . . 159
7.5.6. FOA + Correlaci ´on de patrones +F RBStuned−GA . . . 160
7.5.7. Codificaci ´on e inicializaci ´on del GA . . . 162
7.5.8. Cruza aritm ´etica max-min . . . 163
7.5.9. Mutaci ´on uniforme . . . 164
7.5.10. FOA + Correlaci ´on de patrones +F RBSlearning−GA . . . 164
7.6. Dise ˜no de experimentos . . . 165
7.7. FOA + TM + DT . . . 168
7.8. FOA + TM +F RBStuned−GA . . . 171
7.9. FOA + TM +F RBSlearning−GA . . . 174
7.10. Resumen de resultados . . . 175
8. Conclusiones y trabajo futuro 180 8.1. Limitaciones . . . 181
8.2. Trabajo futuro . . . 182
Lista de figuras
Figura P ´agina
1. Reconocimiento de objetos . . . 4
2. Retina . . . 10
3. C ´eluas simples y complejas . . . 12
4. Sistema visual humano . . . 13
5. Teor´ıa de esquemas . . . 19
6. Modelo 3-D . . . 19
7. Modelo de la atenci ´on visual . . . 22
8. Modelo funcional . . . 28
9. La imagen como el gr ´afico de una funci ´on . . . 30
10. Ruta ventral artificial . . . 31
11. Detecci ´on de regiones de inter ´es . . . 32
12. Descripci ´on de caracter´ısticas . . . 33
13. Corteza visual artificial . . . 37
14. Adquisici ´on y transformaci ´on de caracter´ısticas . . . 41
15. Descripci ´on de la imagen . . . 44
16. Ciclo evolutivo . . . 49
17. Programaci ´on de cerebros artificiales, analog´ıa . . . 50
18. Representaci ´on de una posible soluci ´on . . . 51
19. Elementos estructurales . . . 57
20. Curva ROC . . . 66
21. Cruce cromos ´omico . . . 68
22. Cruce gen ´etico . . . 69
23. Mutaci ´on cromos ´omica . . . 69
24. Mutaci ´on gen ´etica . . . 70
25. Diagrama a bloques de la programaci ´on de cerebros artificiales . . . 73
26. Diagrama de flujo de la programaci ´on de cerebros artificiales . . . 74
27. Base de datos CalTech-5 . . . 76
28. Base de datos CalTech-101 . . . 77
29. Base de datos GRAZ-01 . . . 79
Lista de figuras (continuaci ´
on)
Figura P ´agina
31. Base de datos VOC2007. . . 81
32. Validaci ´on cruzada . . . 84
33. Soluci ´onA1−3 . . . 90
34. Soluci ´onA2−3 . . . 91
35. Soluci ´onA3−2 . . . 92
36. Soluci ´onA4−2 . . . 93
37. Soluci ´onA5−1 . . . 94
38. Soluci ´onC1−2 . . . 96
39. Soluci ´onC2−1 . . . 97
40. Soluci ´onC3−6 . . . 98
41. Soluci ´onC4−1 . . . 99
42. Soluci ´onC5−6 . . . 100
43. Soluci ´onR1−2 . . . 103
44. Soluci ´onR2−5 . . . 104
45. Soluci ´onA2−6 . . . 105
46. Soluci ´onR3−2 . . . 106
47. Soluci ´onR3−4 . . . 107
48. Soluci ´onH1−1 . . . 108
49. Soluci ´onH1−4 . . . 109
50. Soluci ´onH3−1 . . . 110
51. Soluci ´onH3−3 . . . 111
52. Soluci ´onH4−3 . . . 112
53. Soluci ´onM1−4 . . . 114
54. Soluci ´onM2−5 . . . 115
55. Soluci ´onM3−1 . . . 116
56. Soluci ´onM3−5 . . . 117
Lista de figuras (continuaci ´
on)
Figura P ´agina
58. Desempe ˜no de la CVA en una b ´usqueda aleatoria . . . 123
59. Intentos aleatorios necesarios para descubrir una soluci ´on . . . 126
60. Frecuencia de uso de las funciones de los OV . . . 128
61. Complejidad y diversidad . . . 130
62. Soluci ´onCV AF1 . . . 133
63. Soluci ´onCV AM1 . . . 134
64. Soluci ´onCV AF2 . . . 135
65. Desempe ˜no en la base de im ´agenes de GRAZ-02 . . . 140
66. Desempe ˜no en la base de im ´agenes de VOC2007 . . . 141
67. Im ´agenes con un punto l ´aser . . . 147
68. Patrones l ´aser . . . 148
69. Sistema de control del entorno . . . 149
70. Esquema de la atenci ´on focalizada . . . 155
71. Genotipo del FOA . . . 156
72. Esquema de la evoluci ´on de la programaci ´on de cerebros artificiales . . . . 157
73. Funci ´on objetivo . . . 158
74. Algoritmo FOA + TM + DT . . . 159
75. Algoritmo FOA + TM + FRBS . . . 160
76. Ajuste del FRBS . . . 161
77. Evoluci ´on de un FRBS . . . 161
78. Rango de los intervalos de la funci ´on de membres´ıa. . . 163
79. Desplazamiento lateral de las etiquetas ling ¨u´ısticas M . . . 165
80. Proceso de aprendizaje de la base de conocimiento, KB . . . 165
81. Desempe ˜no del FOA a lo largo de la evoluci ´on . . . 167
82. Diversidad . . . 168
83. Complejidad . . . 169
Lista de figuras (continuaci ´
on)
Figura P ´agina
85. Imagen con un punto l ´aser . . . 170
86. Im ´agenes sin un punto l ´aser . . . 170
87. TM+DT vs. FOA+TM+DT . . . 178
88. TM+F RBStuned−GA vs. FOA+TM+F RBStuned−GA . . . 178
Lista de tablas
Tabla P ´agina
1. Matriz de confusi ´on HMAX . . . 34
2. Matriz de confusi ´on RVA . . . 35
3. Comparaci ´on entre tiempos de c ´omputo . . . 35
4. N ´umero de convoluciones . . . 35
5. Funciones y terminales,V OO . . . 53
6. Funciones y terminales,OVC . . . 55
7. Funciones y terminales,OVF . . . 61
8. Funciones y terminales,OVM M . . . 62
9. Matriz de confusi ´on . . . 63
10. Ejemplo de la respuesta entregada por un clasificador . . . 64
11. Base de datos CalTech-05 . . . 76
12. Subconjuntos de GRAZ-01 . . . 78
13. Par ´ametros utilizados para la evoluci ´on de cerebros artificiales . . . . 83
14. Tama ˜no del conjunto de im ´agenes de entrenamiento y prueba . . . . 85
15. Validaci ´on cruzada, aeroplanos vs fondo . . . 85
16. Validaci ´on cruzada, carros vs fondo . . . 86
17. Validaci ´on cruzada, rostros vs fondo . . . 86
18. Validaci ´on cruzada, hojas vs fondo . . . 86
19. Validaci ´on cruzada, motocicletas vs fondo . . . 86
20. Resumen de la validaci ´on cruzada . . . 87
21. Mejores soluciones, aeroplanos vs fondo . . . 89
22. Mejores soluciones, carros vs fondo . . . 95
23. Mejores soluciones, rostros vs fondo . . . 101
24. Mejores soluciones, hojas vs fondo . . . 102
25. Mejores soluciones, motocicletas vs fondo . . . 113
26. Intentos aleatorios para obtener 100 soluciones . . . 121
27. Resultados en la clasificaci ´on con soluciones al azar . . . 124
28. Promedio del n ´umero de MM sobre las 100 soluciones de cada clase 129 29. Mejores soluciones descubiertas por un proceso aleatorio . . . 131
Lista de tablas (continuaci ´
on)
Tabla P ´agina
31. Exactitud de clasificaci ´on . . . 137
32. Comparaci ´on de desempe ˜no la CVA y el modelo HMAX . . . 138
33. Desempe ˜no promedio de la CVA en la base de datos de GRAZ-01 . 139 34. Desempe ˜no promedio de la CVA en la base de datos de GRAZ-02 . 139 35. Desempe ˜no de las mejores soluciones en GRAZ-02 . . . 139
36. Estado del arte . . . 146
37. Funciones y terminales . . . 154
38. Validaci ´on cruzada de la atenci ´on focalizada . . . 166
39. ResultadosT M+DT vsF OA+T M +DT . . . 171
40. Resultados TM+DT, FOA+TM+DT y TM+F RBStuned−GA . . . 171
41. ResultadosF OA+T M+DT vsF OA+T M+F RBStuned−GA, 50000 evaluaciones . . . 173
42. ResultadosF OA+T M+DT vsF OA+T M+F RBStuned−GA, 100000 evaluaciones . . . 173
43. ResultadosF OA+T M+DT vsF OA+T M+F RBStuned−GA, 300000 evaluaciones . . . 174
44. ResultadosF OA+T M +F RBSlearning−GA . . . 175
45. Resumen de resultados . . . 176
Cap´ıtulo 1.
Introducci ´
on
La visi ´on por computadora es un ´area de investigaci ´on que tiene por objetivo trans-formar la informaci ´on contenida en im ´agenes digitales, a datos simb ´olicos o num ´ericos, de forma tal que el mundo real pueda ser analizado e interpretado por una computadora, (Klette, 2014; Shapiro y Stockman, 2001). Lo anterior implica, realizar una descripci ´on del mundo que se percibe en una o m ´as im ´agenes y reconstruir sus propiedades como: formas, iluminaci ´on, colores, texturas, y distribuci ´on de los elementos que la componen, en informaci ´on que la computadora pueda interpretar, (Szeliski, 2010). Llevar a cabo esta tarea representa todo un reto y en este sentido muchos esfuerzos toman como inspiraci ´on la misma visi ´on humana, a fin de alcanzar la meta de poder duplicar la habilidad de perci-bir el mundo que lo rodea. En particular, uno de los problemas m ´as importantes a resolver de la visi ´on por computadora es el reconocimiento de objetos, el cual sigue siendo uno de los menos entendidos dentro de la percepci ´on visual, (Ullman, 1996). En este sentido la presente tesis propone un nuevo modelo de reconocimiento de objetos inspirado en el proceso de la visi ´on humana y la evoluci ´on artificial.
prin-cipales: la primera se refiere a la identificaci ´on de un objeto como una entidad singular; mientras que la segunda se refiere a la pertenencia del objeto dentro de un conjunto de objetos con caracter´ısticas similares, sin importar su tama ˜no, ubicaci ´on, rotaci ´on, punto de vista, condici ´on de iluminaci ´on y oclusiones. Computacionalmente, ambos procesos son similares debido a que la entrada del modelo de aprendizaje es una imagen y su salida es una etiqueta, donde esta puede implicar la identificaci ´on del objeto, o bien la membres´ıa del objeto a una categor´ıa. Sin embargo, la categorizaci ´on implica un rango mayor de posibles variaciones que la identificaci ´on, debido a que el sistema de reco-nocimiento debe generalizar a trav ´es de las diferentes condiciones del objeto y de una variedad de ejemplos de la clase. As´ı, el problema de la clasificaci ´on de un objeto es un reto computacional, debido a que un sistema de visi ´on artificial debe ser capaz de cons-truir un descriptor a partir de un conjunto de propiedades invariantes del objeto (Pinto
et al., 2008).
De esta manera, la capacidad del cerebro de analizar la informaci ´on visual, sin una aparente necesidad de reglas expl´ıcitas y laboriosas instrucciones, ha motivado en el pre-sente trabajo proponer un modelo computacional, dedicado al reconocimiento de objetos inspirado en el flujo de informaci ´on de la corteza visual.
1.1. Planteamiento del problema
En la actualidad no existe una definici ´on simple, precisa o completa de la problem ´atica de reconocimiento de objetos. Sin embargo, existen algunas definiciones generales como las expresadas en Russell y Norvig (2009) donde el reconocimiento de objetos se define como sigue:
Dado un conjunto de im ´agenes que contienen uno m ´as objetos seleccionados de una colecci ´onO1, O2, ..., Oj, ..., Ok de objetos, la cual se conocea priori, y
Responder las siguientes preguntas:
¿Cu ´ales objetosO1, O2, ..., Oj, ..., Ok est ´an presentes en la escena?
En base a lo anterior, ¿Es posible determinar la posici ´on y orientaci ´on del observa-dor?
El contestar este cuestionamiento no es trivial. Por ejemplo, sup ´ongase que se quiere determinar la presencia o ausencia de los k posibles objetos contenidos en una ima-gen de 8 bits y tama ˜noN ×N. Una forma de solucionar esta problem ´atica es proponer un vector binario, cuyo j- ´esimo bit codifique la presencia/ausencia de un objeto; con lo cual existir´ıa una correspondencia entre la imagen de entrada y este vector. En teor´ıa se tendr´ıa que considerar como entrada al sistema cada combinaci ´on de pixeles que forman a la imagen, esto es 8N2
posibles configuraciones; as´ı como cada combinaci ´on de los posibles objetos, es decir,2kcombinaciones; con lo cual existir´ıa un total de8N2
·2k
posi-bles correspondencias para resolver este problema. En este caso, si se toma una imagen de 128 ×128 pixeles y se definen 10 objetos, existir´ıan alrededor de ≈ 1014800 posibles relaciones que se deber´ıan de considerar para resolver esta instancia. De esta manera, dependiendo del tama ˜no de la imagen y el n ´umero de objetos en esta, el problema crece exponencialmente.
Una reducci ´on a la complejidad del problema anterior es plantear una transformaci ´on sobre la informaci ´on contenida en la imagen, hacia una representaci ´on generalizada del o los objetos en la misma. Es decir, dada una imagenI buscar una funci ´on que relacione la representaci ´on Rj del j- ´esimo objeto, donde esta funci ´on sea capaz de sintetizar los
1 0 1 1 0 0 0 1 1 0 Imagen (I)
Objeto j
Rj
Representaci´on
f(I)
Figura 1: El reconocimiento puede plantearse como un problema de b ´usqueda de la funci ´on f(I),
que relacione el objetojcon alguna representaci ´onRj, sin importar la traslaci ´on, rotaci ´on, oclusi ´on
o escala del objeto.
Dada una imagen I que pertenece a una base de im ´agenes de un conjunto Ω de objetos, y una representaci ´onRj para cada objetoj ∈ Ω. La tarea de reconocimiento de
objetos se define como la b ´usqueda del m´ınimo argumento en la expresi ´on siguiente:
Q=arg min c(f(I)) ;
dondef(I), es una funci ´on que devuelve una representaci ´on consistente,Rj, delj- ´esimo
objeto en la imagenI; es decir,f(I) :I 7→Rj; mientrasc(·)provee una m ´etrica del
rendi-miento de este mapeo. N ´otese que esto implica una b ´usqueda de la funci ´onf que mejor caracterize a ´o las im ´agenes de los objetos contenidos en la base de datos.
bio-inspirado. De igual forma, al realizar esta analog´ıa, se brinda informaci ´on sobre el tipo de caracter´ısticas que son relevantes en el reconocimiento de objetos.
En la pr ´actica, este tipo de modelos bioinspirados est ´an limitados debido a la falta de una descripci ´on detallada del sistema visual humano, adem ´as de estar restringidos por la capacidad de c ´omputo. Un ser humano puede reconocer hasta 100,000 objetos en un rango de 100-200ms, haciendo uso de alrededor de1011neuronas altamente conectadas y distribuidas en ´areas del cerebro que son especializadas en el an ´alisis de diferentes aspectos de la imagen. De esta forma, la comparaci ´on en desempe ˜no entre un siste-ma artificial y un sistesiste-ma natural, dedicado al reconocimiento y clasificaci ´on de objetos a ´un no es justa. No obstante, se puede delimitar y enmarcar dicha problem ´atica bajo al-gunas restricciones, haciendo posible utilizar modelos bioinspirados como una soluci ´on al problema de reconocimiento de objetos. Por ejemplo, en visi ´on por computadora, se han propuesto bases de datos e ´ındices de desempe ˜no en la identificaci ´on o clasifica-ci ´on de las im ´agenes, donde ambos se han tomado como est ´andares en la evaluaclasifica-ci ´on y comparaci ´on entre diferentes sistemas artificiales, Pintoet al.(2008); Ponceet al.(2006), algunas de estas bases de datos son Caltech, GRAZ y VOC, propuestas por autores co-mo: Fei-Feiet al.(2007); Griffinet al.(2007); Opeltet al.(2006); Everinghamet al.(2010) y sus m ´etricas: raz ´on de error equivalente, ´area bajo la curva ROC y precisi ´on promedio respectivamente. En general estas bases de datos son construidas por un largo n ´umero de imagenes divididas en categorias, que dependen del o los objetos que contienen cada imagen;i. e., im ´agenes que contienen aeroplanos, carros, rostros, barcos, por mencionar algunos, como tambi ´en se suele incluir alguna clase adicional que no tiene alg ´un objeto en espec´ıfico y es llamada fondo. De esta forma, en esta tesis la propuesta de un mo-delo bioinspirado para la clasificaci ´on de objetos, se ha planteado como un problema de optimizaci ´on dentro del marco de reconocimiento de objetos, y se limita a las bases de datos antes mencionadas para una comparaci ´on con trabajos en el estado del arte como Serreet al.(2005); Mutch y Lowe (2008); Wang y Feng (2013); Jiet al.(2013); Chenet al.
1.2. Objetivo general
El objetivo del presente trabajo de investigaci ´on es proponer un sistema de reconoci-mieto de objetos en im ´agenes digitales; donde dicho sistema sea un modelo bioinspirado del sistema visual humano y del mecanismo de evoluci ´on de las estructuras dentro de este.
1.3. Objetivos espec´ıficos
Proponer una estructura para el sistema de reconocimiento de objetos, basado en los modelos psicol ´ogicos, fisiol ´ogicos y computacionales.
Proponer un proceso de descripci ´on de la imagen inspirado de los procesos que se llevan a cabo en el sistema de visi ´on natural.
Dise ˜nar e implementar una metodolog´ıa basada en la programaci ´on gen ´etica para entrenar el modelo de clasificaci ´on de im ´agenes.
Establecer criterios de evaluaci ´on bien establecidos y utilizados por la comunidad de visi ´on artificial.
Este nuevo modelo debe ser aplicable a la clasificaci ´on de bases de im ´agenes en el estado del arte.
Realizar una comparaci ´on en el rendimiento de clasificaci ´on del modelo propuesto con modelos en estado del arte.
1.4. Alcances de la tesis
Se propone e implementa el paradigma de un modelo funcional para el tratamien-to y an ´alisis de im ´agenes, lo que permite considerar las propiedades de la imagen como una funci ´on de la escena, a diferencia de un modelo tradicional donde las pro-piedades son dependientes de los datos de la propia imagen. En consecuencia, se sustituye la utilizaci ´on de peque ˜nas secciones de la imagen para describir a la ima-gen (Serreet al., 2007); por un modelo funcional, donde un conjunto de operadores sobre la imagen permitan obtener caracter´ısticas espec´ıficas de cada objeto.
Para el modelo propuesto se sigue una estructura jer ´arquica inspirada en el sistema visual humano, como los sugeridos por Riesenhuber y Poggio (1999); Serre et al.
(2007); Mutch y Lowe (2008); Itti y Koch (2001), por mencionar algunos.
El modelo es entrenado para el problema de clasificaci ´on binaria, donde se detecta la presencia/ausencia del objeto en una imagen.
Se realiza la evaluaci ´on de este trabajo sobre cada una de las clases que componen a 3 bases de datos, CalTech, Fei-Feiet al.(2007); GRAZ, Opeltet al.(2006) y VOC, Everingham et al.(2010). Para esto, se utilizan m ´etricas de clasificaci ´on empleadas por trabajos en el estado del arte.
Se propone y utiliza un nuevo m ´etodo basado en la programaci ´on gen ´etica, acorde a la estructura jer ´arquica del modelo propuesto, el cual es capaz de generar un grupo de operadores sobre la imagen. Donde cada operador es construido a partir de su particular conjunto de funciones y terminales. Para lograr lo anterior, se implementa una nueva codificaci ´on junto con operadores de cruza y mutaci ´on para realizar el ciclo evolutivo.
1.5. Organizaci ´on de la tesis
Cap´ıtulo 2.
Fundamentos
El sistema visual humano es capaz de reconocer e identificar una gran variedad de objetos en una escena. Sin embargo, la forma exacta en la cual nuestro cerebro organiza y controla estas acciones es a ´un un campo desconocido. De este modo, existen pregun-tas abierpregun-tas tales como: ¿Qu ´e tipo de informaci ´on se procesa desde que la imagen es generada en la retina, hasta la construcci ´on de una representaci ´on del objeto? ¿Cu ´ales son las caracter´ısticas que nuestro cerebro toma en cuenta para reconocer un objeto? ¿C ´omo son almacenadas las representaciones del objeto, y c ´omo son activadas cuando es visto el objeto? ¿Las representaciones del objeto en nuestro cerebro son generales, o son espec´ıficas a una acci ´on o a un proceso cognitivo, como el aprendizaje, planeamien-to, o razonamiento?
Las preguntas anteriores han sido hist ´oricamente estudiadas por una variedad de cient´ıficos en diversas disciplinas, incluyendo psicolog´ıa cognitiva, neurobiolog´ıa, neuro-psicolog´ıa y ciencias de la computaci ´on. En este cap´ıtulo se realizar ´a una breve revisi ´on de trabajos en las diferentes disciplinas antes mencionadas con el objetivo de poner en contexto la propuesta del presente trabajo de tesis.
La primera secci ´on describe brevemente la estructura del sistema visual humano y algunos modelos bi ´ologicos propuestos por la comunidad neurocient´ıfica. De igual forma, la siguiente secci ´on describe algunas de las teor´ıas neuropsicol ´ogicas de como el ser humano es capaz de reconocer objetos y finalmente la ´ultima secci ´on explica algunos de los modelos computacionales que son bioinspirados en el sistema visual humano para resolver la tarea del reconocimiento y clasificaci ´on de objetos en una imagen.
2.1. Estructura del sistema visual humano
fototransducci ´on. Estas c ´elulas son conocidas como conos, bastones y c ´elulas ganglio-nares, ver figura 2. Los conos se excitan con longitudes de onda corta (colores en tonos azules), mediana (colores en tonos verdes) y larga (colores en tonos rojos); mientras los bastones son sensibles a los cambios de intensidad luminosa, lo que permite percibir propiedades del color como el tono y el brillo (MacLeod y Boynton, 1979). Finalmente esta informaci ´on se transfiere a las c ´elulas ganglionares de la retina, en donde se llevan a cabo dos procesos en v´ıas paralelas, llamados respectivamente v´ıa centro-activo y v´ıa centro-inactivo, este proceso tambi ´en se conoce como centro-entorno ´o centro periferia. El primer proceso se refiere a las c ´elulas que se activan cuando la luz estimula el centro de sus campos receptivos y se inhiben cuando se estimula la periferia; mientras que el proceso v´ıa centro-inactivo, se refiere al comportamiento contrario. Esto permite perci-bir peque ˜nas diferencias y r ´apidas variaciones de luminosidad. Adem ´as, existen c ´elulas ganglionares especializadas en transmitir informaci ´on relativa al movimiento, resaltar los detalles y el color de los objetos presentes en la escena visual.
LUZ
LUZ
Iris
Retina
Pupila Cornea
Bastones Conos Cristalino
Ganglionares Nervio
Escler´otica
C´elulas ´
Optico
Figura 2: Esquema de la retina.
proveniente del campo visual contralateral de cada una de las dos retinas, el cual llega al n ´ucleo geniculado lateral (NGL), en el cual se llevan a cabo procesos relacionados con la atenci ´on selectiva, creaci ´on de im ´agenes mentales, respuesta a colores, movimiento y distinguir objetos en un primer plano (Chen et al., 1998; O’Connor et al., 2002). Casi la totalidad de las fibras provenientes de las neuronas del cuerpo geniculado lateral, por medio del tracto ´optico, terminan en la corteza estriada o V1, ver figura 4. Esta regi ´on del cerebro, y las ´areas que componen la corteza visual han sido estudiadas ampliamen-te por las neurociencias, y han surgido varias hip ´oampliamen-tesis y ampliamen-teor´ıas tratando de explicar el c ´omo la informaci ´on visual es interpretada en cada regi ´on; que para prop ´ositos de esta tesis se explicar ´an solo dos de ellas.
2.1.1. Modelos biol ´ogicos de la corteza visual humana
Si bien Francesco Gennari (1782) hace la primera descripci ´on f´ısica de la corteza vi-sual primariara (V1) del cerebro, ´area que tambi ´en es llamada corteza estriada gracias a sus estudios. Es a finales del siglo XIX cuando Hermann Munk relaciona esta ´area del cerebro con el sentido de la vista; y es a principios del siglo XX cuando Ramon y Cajal hacen la primera descripci ´on a nivel celular de esta ´area (Glickstein y Rizzolatti, 1984; Gross, 1999).
2.1.1.1. El modelo de Hubel y Wiesel
Hubel, 1982). Actualmente se tiene la hip ´otesis que existen c ´elulas neuronales llamadas c ´elulas abuelas que pueden ser excitadas por el est´ımulo visual de objetos espec´ıficos como por ejemplo los rostros (Gross, 2002).
Inhibido Excitado Inhibido Inhibido Inhibido Excitado Inhibido Excitado Inhibido Inhibido Excitado Inhibido t
0 1 2 3
t
0 1 2 3
t
0 1 2 3
t
0 1 2 3
C´elulas Simples 2 3 1 t t t
1 2 3
0
0
1 2 3
0 1 2 3
3 2 1 0 Est´ımulo 3 Est´ımulo 2 Est´ımulo 1 Est´ımulo visual
1- sin cambio
2 - excitaci´on
3 - inhibido
0 1 2 3
1 2 3 4 1 2 3 4 1 2 3 4 luz luz luz Est´ımulo 1 Est´ımulo 2 luz luz luz luz Est´ımulo 4 Est´ımulo 3 C´elulas simples C´elulas Complejas Respuesta 1- excitaci´on
4 - inhibido 3 - excitaci´on 2 - excitaci´on
Est´ımulo visual C´elula simple
Respuesta
C´elula compleja
Tiempo (t) Tiempo (t)
Figura 3: En el lado izquierdo de la figura se muestra el comportamiento de una c ´elula simple frente
a una serie de est´ımulos visuales, la cu ´al reacciona solo a una posici ´on y orientaci ´on espec´ıfica;
mientras el lado derecho muestra como reacciona una c ´elula compleja ante est´ımulos similares.
(2001); Farivar (2009) descubren que existe un gran intercambio de informaci ´on entre di-chas rutas. De esta forma, el reconocimiento de objetos involucra procesos que son ´utiles para la ubicaci ´on de los objetos y viceversa.
Capa Magnocelular y Retinocortical
V3
Inferior Temporal TEO TE Ruta Ventral
Ruta Dorsal Capa Parvocelular
V4
V1 V2
MST MT Retina LGN
Estructura Pulvinar (Pul)
Corteza Parietal Posterior
CS
Pul
V3
V2
V1
V2
V4 V5 (MT)
V3a
¿Qu´e?
Col´ıculo Superior (CS)
¿D´onde? / ¿C´omo?
Retina LGN
Infero Temporal
Ruta Dorsal
Ruta Ventral
¿Qu´e? ¿D´onde? /
¿C´omo? Corteza Parietal
Figura 4: Esquema del sistema visual humano.
2.1.1.2. Dos rutas de informaci ´on
experiencia visual inmediata sino tambi ´en para almacenarlas y utilizarlas como futuras referencias. Es decir, la ruta ventral habilita al cerebro a crear conceptos mentales que nos permiten pensar, reconocer e interpretar subsecuentes est´ımulos visuales y planear nuestras acciones en el mundo. En contraste plantean a la ruta dorsal como el actuador en tiempo real, guiando la programaci ´on y respuesta de nuestras acciones visuales en el instante en que se llevan a cabo. Esto es, habilitan las reacciones y movimientos que son activados por est´ımulos visuales, guiando la mirada hacia dicho objeto o induciendo alg ´un movimiento para alcanzarlo; permitiendo a nuestros ancestros sobrevivir en un ambiente hostil e impredecible. En resumen, existe una distinci ´on entre la visi ´on para la percepci ´on y la visi ´on para la acci ´on (Goodale y Milner, 2006).
2.1.1.3. Ruta ventral
La funci ´on de la ruta ventral o del “¿Qu ´e?” es asociada con la identificaci ´on de objetos y reconocimiento de formas (Oram y Perrett, 1994). La informaci ´on visual es obtenida en la retina pasando por el nucleo lateral geniculado hasta llegar al ´area V1 del cerebro, la cual se conecta con el ´area V2 que tiene la funcionalidad de reconstruir bordes ocul-tos, procesar informaci ´on relativa al color y a la forma. Una vez que se ha procesado la informaci ´on esta sigue al ´area V4 en donde las c ´elulas que la componen se activan a est´ımulos crom ´aticos, formas complejas, profundidad y movimiento. Finalmente V4 se in-terconecta con ´areas temporales inferiores del cerebro (IT) llamadas TEO (parte posterior de la corteza inferotemporal) y TE (parte anterior de la corteza inferotemporal), donde se cree que el objeto se identifica y se encuentra la memoria visual. De esta forma, a medida que la informaci ´on avanza de V1 a TE, se verifica un cambio progresivo en la extracci ´on de caracter´ısticas estables e invariables de los objetos y las conexiones se vuelven siem-pre menos topogr ´aficas, hasta perder por completo cada organizaci ´on retinot ´opica entre V4 y TE o TEO.
2.1.1.4. Ruta dorsal
tambi ´en V5 y temporal medial superior o MST, ver figura 4, las cuales se activan al recibir est´ımulos visuales de movimiento. Esta ruta finaliza en el ´area parietal de la corteza en donde se interconecta con ´areas que controlan el movimiento de los ojos. En general, la ruta dorsal est ´a asociada en la localizaci ´on de los objetos en una escena, as´ı como en guiar las acciones de movimiento en el espacio, por ejemplo, el alcanzar un objeto o el de dirigir la mirada a un objeto espec´ıfico. De igual forma, se tiene la hip ´otesis que es en esta ruta donde mayormente se lleva a cabo la tarea de la atenci ´on visual (McMains y Kastner, 2009).
2.2. Modelos neuropsicol ´ogicos
Los modelos neuropsicol ´ogicos de la visi ´on tienen el objetivo de explicar el modo en que determinadas estructuras, funciones cerebrales y modelos anat ´omicos se relacionan con procesos psicol ´ogicos concretos de la visi ´on como el reconocimiento de objetos o la atenci ´on visual. En este sentido, se explican dos teor´ıas que fundamentan la analog´ıa del modelo computacional propuesta en esta tesis.
2.2.1. Integraci ´on de caracter´ısticas
Treisman y Gelade (1980) proponen una nueva hip ´otesis de la atenci ´on visual, lla-mada teor´ıa de integraci ´on de caracter´ısticas. En esta se sugiere que la atenci ´on debe ser dirigida serialmente a cada est´ımulo de la escena, siempre y cuando se presente al menos la conjunci ´on de dos o m ´as caracter´ısticas separables, las cuales son necesarias para caracterizar o distinguir a un posible objeto presente en la escena.
psicolog´ıa de Gestalt afirma que el todo precede a sus partes, esto es, que inicialmente solo se perciben los objetos y sus relaciones, y s ´olo despu ´es, si es necesario, se realiza un an ´alisis de sus componentes o propiedades.
No obstante, una impresi ´on inmediata y directa del medio que nos rodea, no garantiza que esta impresi ´on se lleve a cabo en una de las primeras etapas del procesamiento de informaci ´on en el sistema nervioso. Es l ´ogicamente posible, que s ´olo se tome conciencia del resultado final, sin tomar en cuenta que es el producto de una complicada secuencia de operaciones anteriores. As´ı, el procesamiento dearriba-abajo(“top-down”) puede des-cribir lo que experimentamos concientemente; como una teor´ıa de codificaci ´on perceptual que necesita de un objetivo espec´ıfico.
En la teor´ıa de integraci ´on de caracter´ısticas de la atenci ´on, se propone la hip ´otesis que los rasgos que caracterizan a un objeto, son registrados en forma temprana, aut ´oma-tica y en paralelo a trav ´es del campo visual, con lo cual los objetos son identificados por separado; mientras en una etapa posterior se realiza la atenci ´on focalizada a cada obje-to. En este sentido, se asume que la escena es inicialmente codificada a lo largo de un n ´umero de dimensiones separables, tales como color, orientaci ´on, frecuencia espacial, brillo y direcci ´on de movimiento. A fin de recombinar estas representaciones separadas y lograr una s´ıntesis de las caracter´ısticas para cada objeto en la escena, la ubicaci ´on de los est´ımulos son procesados serialmente a trav ´es de una atenci ´on focalizada. De esta manera, las caracter´ısticas que est ´an presentes en la ubicaci ´on del centro de aten-ci ´on son combinadas para conformar un ´unico objeto. Esta atenaten-ci ´on focalizada provee la
adhesi ´on, la cual integra las caracter´ısticas inicialmente separables en objetos unitarios. Una vez que se han registrado correctamente, se percibe la composici ´on de objetos y se almacenan como tal.
esto se lleve a cabo por distintos canales f´ısicos. En este caso se usa el t ´ermino “dimen-si ´on” para referirse al rango completo de variaci ´on el cual es analizado separadamente por la funcionalidad de alg ´un subsistema perceptual independiente, y “caracter´ıstica” pa-ra referirse a un valor particular sobre una dimensi ´on. Esto es, color y orientaci ´on son dimensiones; mientras rojo y vertical son caracter´ısticas sobre estas dimensiones. Las dimensiones perceptuales no necesariamente corresponden ´unicamente a las dimensio-nes f´ısicas de los objetos. As´ı, algunos aspectos en relaci ´on a los atributos f´ısicos pueden ser registrados como caracter´ısticas b ´asicas; por ejemplo la percepci ´on del contraste de la intensidad en lugar de una intensidad absoluta, o percibir propiedades de orden su-perior tales como la simetr´ıa o la homogeneidad. La idea de que estas dimensiones son autom ´aticamente percibidas por separado, parece ser contraintuitivo; sin embargo, este proceso ocurre en una etapa temprana de la percepci ´on y no es hasta cuando ocurre la atenci ´on visual, donde estas caracter´ısticas se unen y se construye una imagen del objeto.
2.2.2. Reconocimiento por componentes
estos modelos para reconocer objetos en tres dimensiones (Biederman y Gerhardstein, 1993). De esta forma, la teor´ıa gira alrededor de identificar los geones de un objeto visual y sus relaciones, esta informaci ´on es entonces correlacionada con alguna representaci ´on del objeto ya almacenada o bien con un modelo estructural, el cual contenga informa-ci ´on sobre los atributos de los objetos como: textura, color, tama ˜no u orientainforma-ci ´on. As´ı, un objeto es identificado por el mejor ajuste entre alguna representaci ´on en memoria y la informaci ´on dada por la composici ´on de los geones.
N ´otese que este planteamiento sigue la l´ınea de investigaci ´on propuesta por Marr (1982), en la teor´ıa de esquemas; donde se explica la visi ´on como un proceso de infor-maci ´on. En este sentido se definen tres diferentes tipos de an ´alisis:
Computacional. Desde este punto de vista se analiza la tarea de un sistema cogni-tivo, con el objetivo de identificar el proceso de informaci ´on espec´ıfico que resuelve dicha tarea junto con sus restricciones. Es decir, se trata de contestar las preguntas ¿Cu ´al es el objetivo de este procesamiento?, ¿Porqu ´e ´este es adecuado? y ¿Cu ´al es l ´ogica de la estrategia por el cual este puede ser resuelto?
Algor´ıtmico. Este tipo de an ´alisis trata de explicar el como el sistema cognitivo puede desarrollar el proceso de informaci ´on para resolver una tarea. Para lo cual se identifica la informaci ´on de entrada y salida, se identifica el algoritmo para transfor-mar la entrada en la salida deseada y finalmente se especifica el como la informa-ci ´on es codificada.
Implementaci ´on. En este enfoque un an ´alisis de implementaci ´on responde la pre-gunta del ¿C ´omo puede realizarse f´ısicamente tanto la representaci ´on como el al-goritmo que resuelva dicha tarea?
Imagen de Entrada
Percepción de intensidades
Cruce por ceros, manchas, puntos, bordes, barras, terminaciones, líneas virtuales, curvas y contornos.
Esquema Primario
Orientación de superficies locales y discontinuidades en profundidad.
Esquema 2 1/2−D
Modelo 3−D
Modelos 3−D organizados jerárquicamente en términos de primitivas volumétricas y de superficie. Centrado en el objeto Referencia centrado en el observador
Figura 5: Marr propone la visi ´on como un flujo de informaci ´on, que consta de tres etapas principales,
donde las primeras dos son enmarcadas desde un punto de referencia centrada en el observador y
la ´ultima centrada en el objeto.
es decir, caracter´ısticas producto de cambios de intensidad, estructuras geom ´etricas loca-les y efectos en cambios de iluminaci ´on. En una segunda representaci ´on, el esquema 2 12, intenta caracterizar la orientaci ´on de las regiones en la imagen como superficies locales, as´ı como su profundidad y sus discontinuidades. La ´ultima representaci ´on es un modelo 3-D, en el cual se intenta describir un objeto a partir de sus formas y su organizaci ´on, utilizando un sistema modular y jer ´arquico de primitivas volum ´etricas y de superficie. De esta forma, el proceso de reconocimiento usa un cat ´alogo de descripciones de modelos 3-D y sus asociaciones para describir un nuevo objeto.
Humano
Brazo
Antebrazo
Mano
2.3. Modelos computacionales
En el siglo XX, con el arrivo de las computadoras digitales varios trabajos han inten-tado emular la funcionalidad de la corteza visual humana, con el prop ´osito de desarrollar tareas como el reconocimiento de objetos, atenci ´on visual y la detecci ´on de objetos. En esta secci ´on se da una lista de los trabajos m ´as relevantes en el estado del arte los cuales son biol ´ogicamente inspirados en estas ideas.
Desde un punto de vista computacional, el primer trabajo que desarrolla un algorit-mo bioinspirado en la corteza visual con el objetivo del reconocimiento de objetos fue Fukushima (1980), quien propuso un modelo por medio de redes neuronales llamado Neocognitron. Su trabajo est ´a inspirado en el modelo jer ´arquico descrito por Hubel y Wie-sel (1959, 1962). Esta estructura est ´a representada por una red neuronal que consiste de una capa de entrada, seguida de una serie de estructuras modulares llamdas c ´elulas S y c ´elulas C, haciendo referencia a las c ´elulas simples y complejas. Esta idea imita las caracter´ısticas de las c ´elulas hipercomplejas de orden inferior y superior. En la pr ´actica este modelo es capaz de reconocer letras y n ´umeros considerando cambios de posici ´on.
sujetapapeles, obteniendo buenos resultados a ´un bajo la variaci ´on de posici ´on. En tra-bajos como los propuestos por Serreet al.(2005); Mutch y Lowe (2008), este modelo es mejorado para clasificar im ´agenes complejas, alcanzando un alto desempe ˜no sobre las mismas; en estos trabajos se propone la creaci ´on de un diccionario universal de carac-ter´ısticas, el cual es una colecci ´on de parches utilizados para construir la descripci ´on de la imagen. As´ı, varios trabajos como Kimet al.(2013); Wersing y K ¨orner (2003); Ghodrati
et al.(2012), han sugerido el como optimizar el n ´umero de parches en el diccionario uni-versal y el como proponer metodolog´ıas para mejorar la descripci ´on del objeto siguiendo este modelo jer ´arquico.
Durante el mismo periodo de tiempo, surgen varios sistemas computacionales imitan-do la atenci ´on visual, los cuales est ´an basaimitan-dos en la estructura jer ´arquica de la teor´ıa de la integraci ´on de caracter´ısticas propuesta por Treisman y Gelade (1980). El primer modelo es sugerido por Koch y Ullman (1985), donde dadas las localidades en el espacio visual que difieren de su entorno con respecto a alguna caracter´ıstica elemental como la orientaci ´on, color o movimiento son dirigidos a su correspondiente “mapa de caracter´ısti-cas”. Estos mapas son combinados en un “mapa de sobresaliencia”, el cual codifica a las regiones conspicuas de la escena visual. Despu ´es una red neuronal llamada “el ganador lo toma todo” (Winner-Take-All), selecciona la regi ´on mas conspicua a una representa-ci ´on central, ver figura 7.
WTA
Mapas de sobresaliencia
Mapa de
características central
Representación
Figura 7: Modelo computacional de la atenci ´on visual propuesto por Koch y Ullman (1985).
conspicuos son integrados en un mapa de sobresaliencia por medio de un proceso de re-lajaci ´on que identifica un peque ˜no n ´umero de regiones convexas. A lo largo de esta l´ınea de investigaci ´on, Tsotsoset al. (1995), modela la atenci ´on visual a trav ´es de un proceso jer ´arquico de el ganador toma todo.
Ittiet al. (1998), proponen un modelo de atenci ´on visual, que en la actualidad es am-pliamente utilizado, dado que este modelo recopila las ideas de propuestas por Koch y Ullman (1985) y Milanese (1993). La principal contribuci ´on es la implementaci ´on de con-ceptos te ´oricos para aplicaciones en escenas del mundo real, Itti y Koch (2001). En este sentido, ellos implementan el c ´alculo de una pir ´amide de im ´agenes por cada dimensi ´on y de esta forma obtener mapas de caracter´ısticas de intensidad, orientaci ´on y color. Esta t ´ecnica permite la detecci ´on de caracter´ısticas en diferentes escalas y entonces aplican el mecanismo de centro periferia, donde se realiza una substracci ´on entre los diferen-tes niveles de la pir ´amide. Esta metodolog´ıa ha sido empleada y mejorada por varios autores como Cutsuridis (2009), quien propuso un modelo cognitivo para explicar como varias ´areas del cerebro trabajan en conjunto en el an ´alisis de una escena. Kootstraet al.
espa-cial y amplitud de movimiento) y caracter´ısticas de alto nivel con el objetivo de reconocer rostros y medir el movimiento de los ojos en un video.
N ´otese que los trabajos anteriormente expuestos se han dividido en dos rubros, los primeros dedicados al reconocimiento de objetos en inspirados en el proceso de informa-ci ´on llevado en la ruta ventral y los segundos imitando la ateninforma-ci ´on visual inspirada en los procesos de la ruta dorsal. Sin embargo, existen algunos trabajos que tratan de integrar ambos enfoques. Por ejemplo, Fukushima (1987) implementa una red neuronal jer ´arqui-ca que desarolla una atenci ´on selectiva para el reconocimiento de objetos. En este ´arqui-caso, cuando varios patrones se presentan simult ´aneamente, el modelo realiza una atenci ´on selectiva en cada uno de ellos, segmentando a cada uno del resto y realizando el reco-nocimiento de objetos de manera separada. Olshausen et al. (1993) define un modelo computacional biol ´ogicamente plausible que combina el mecanismo de la atenci ´on y el proceso del reconocimiento para objetos en escalas y posiciones diversas. Waltheret al.
Cap´ıtulo 3.
Modelo de la ruta ventral artificial
Como se ha expuesto en el cap´ıtulo anterior la ruta ventral o del “¿Qu ´e?”, es un mo-delo del procesamiento visual del sistema humano, el cual describe la tarea del recono-cimiento de objetos. En este cap´ıtulo se propone un primer modelo bioinspirado en este flujo de informaci ´on. De esta manera en un primera secci ´on se expone a detalle el mode-lo computacional HMAX, a partir del cual se realiza un cambio de paradigma. A partir de este nuevo enfoque; en la ´ultima secci ´on se formula el modelo propuesto y se discuten algunos resultados obtenidos.
3.1. Modelo HMAX
El modelo HMAX (Riesenhuber y Poggio, 1999; Serreet al., 2005, 2007; Mutch y Lo-we, 2008); est ´a inspirado en el flujo de informaci ´on de la ruta ventral bajo las siguientes caracter´ısticas:
El proceso visual es jer ´arquico, y est ´a enfocado en construir una representaci ´on del objeto que es invariante a la posici ´on y escala en una primera etapa y despu ´es a el punto de vista y otras transformaciones.
A lo largo de esta jerarqu´ıa los campos receptivos de las neuronas, as´ı como su complejidad y est´ımulos son incrementales.
El procesamiento de la informaci ´on se realiza sin retroalimentaci ´on.
El aprendizaje ocurre en las ´ultimas etapas de la jerarqu´ıa.
Unidades S1. La entrada del sistema es una imagen en tonos de grises, la cual es procesada a trav ´es de la funci ´on de Gabor:
F(x, y) = e
−x20+γ2y02 2σ2
cos
2π λ x0
donde x0 =xcos(θ) +ysin(θ)yy0 =ycos(θ)−xsin(θ); la raz ´on de aspectoλ= 0.3 y se consideran cuatro direcciones θ, (0◦, 45◦, 90◦ y 135◦). Finalmente para cada
orientaci ´on se construye una pir ´amide de 16 escalas; las cuales varian en un rango de7×7a37×37pixeles, en pasos de 2 pixeles.
Unidades C1. La etapa C1 representa a las c ´elulas complejas, en este caso, se realiza la selecci ´on del m ´aximo valor dentro de un vecindario de 8 pixeles entre escalas adyacentes de cada pir ´amide:
r= m´axxj,
lo cual reduce la pir ´amide a 8 escalas, esto implica incrementar la tolerancia a trans-formaciones 2D.
UnidadesS2. En esta capa, se calcula la respuesta de la funci ´on de base radial:
r=e(−β||X−Pi||),
entre las diferentes unidades de C1 y segmentos de la imagen, lo que implica que las unidades de S2 son una medida entre la entradaX y un patr ´on almacenadoPi, en este caso el autor propone alrededor de 1000 patrones, donde β es un valor de ajuste.
Si bien, el modelo est ´andar HMAX permite alcanzar una precisi ´on de alrededor del 95 % al clasificar objetos entre dos clases en bases de datos como CalTech, el procesa-miento de las im ´agenes se limita a una escala de grises, adem ´as que la construcci ´on del descriptor de una imagen es computacionalmente cosotoso, ya que al menos se realizan alrededor de 32000 convoluciones por imagen (tomando en cuenta un conjunto de 1000 patrones) para su reconocimiento. En este sentido, se plantean los siguientes cuestiona-mientos:
¿Es posible simplificar esta estructura para tener un mejor rendimiento computacio-nal, sin perder la justificaci ´on biol ´ogica?
¿C ´omo se puede reemplazar el uso de los patrones o parches que constituyen el diccionario universal?
¿C ´omo extender este modelo a im ´agenes a color?
El poder contestar estas preguntas nos lleva a considerar un cambio de paradigma en el tratamiento de la imagen; lo cual se explica a detalle en la secci ´on siguiente.
3.2. Modelo dirigido por funciones vs modelo dirigido por datos
En trabajos previos como los planteados por Fukushima (1980); Mel (1997); Ullman
...
... ...
... ...
...
... ... ...
fI(fp1, fp2, ..., fpn)
Color
fpn
fp1 fp2
EvoVis i´on
Profundidad Continuidad EvoVis
i´on
Figura 8: Se consideran las propiedades de la imagen como una funci ´on de la escena, a diferencia
de un modelo tradicional donde las propiedades son dependientes de los datos de la propia imagen.
informaci ´on visual sigue una serie de transformaciones, producto del est´ımulo ´optico en la retina, el cual culmina con la obtenci ´on de las caracter´ısticas necesarias para describir un objeto. Es en este sentido, que en el presente trabajo se plantea la hip ´otesis que la informaci ´on visual puede expresarse como una funcional de la escena y que todas las ca-racter´ısticas que la describen son intr´ınsicas a esta funcional, ver figura 8. Y por lo tanto, el descriptor de una imagen puede realizarse a partir de la respuesta de estas funciones y no por la correlaci ´on con patrones preestablecidos.
Dentro de esta conjetura, una imagen entonces puede definirse como una represen-taci ´on de esta funcional, es decir como el gr ´afico de una funci ´on. Formalmente:
Definici ´on: Imagen como la gr ´afica de una funci ´on. Sea f una funci ´on f : U ⊂
R2 → R. La gr ´afica o imagen I def es el subconjunto de R3 que consiste de los puntos
De esta manera, el flujo de informaci ´on puede definirse utilizando el concepto de com-posici ´on de funciones, como una serie de transformaciones u operadores sobre la super-fice que genera la imagen. Con lo cual, se define lo siguiente:
Definici ´on: Operador Visual. Un operador visual (OV) es una funci ´on sobre una ima-gen Iq, con el objetivo de extraer caracter´ısticas espec´ıficas de la misma, como lo son:
contornos, bordes, formas, intensidad, entre otras. Donde su salida es otra imagen que se denominar ´a mapa visual (MV).
OV(Iq) :Iq 7→M V
Dadas las definiciones anteriores, el proceso jer ´arquico del modelo est ´andar HMAX, puede reformularse algor´ıtmicamente como una composici ´on de operadores visuales so-bre la imagen y m ´as a ´un, el conjunto de patrones utilizados para construir el descriptor de la imagen puede sustituirse por uno o m ´as operadores visuales. Con lo cual, este nuevo modelo tiene una analog´ıa no con las c ´elulas simples y complejas como lo plantea Serre
et al. (2007), sino con las funcionalidades que existen a lo largo de la ruta ventral de la corteza visual. De esta manera se construye el modelo que llamaremos la ruta ventral artificial.
3.3. Ruta ventral artificial
159
227 207 207 135 131 131 159
227 207 207 135 131
131 183
183
211
215 215
223 227 231 231 219 219
227 231 231 219 219 207 207
219 219 155
223 227 227 159 135 135
171 167
127
227 215 215 135 127
Figura 9: La imagen vista como una superficie, la cual es definida como el gr ´afico de una funci ´on.
Este modelo se divide en dos etapas, la detecci ´on de regiones de inter ´es y la des-cripci ´on y clasificaci ´on de la imagen a partir de las regiones de inter ´es. Este proceso se describe a continuaci ´on.
3.3.1. Detecci ´on de regiones de inter ´es
La detecci ´on de las regiones de inter ´es es descrita gr ´aficamente en la la figura 11. La entrada del sistema es una imagen a color, I(R, G, B, x, y), que se descompone en una pir ´amide de 12 escalas (Iσ1, ..., Iσ12), cada una m ´as peque ˜na que la anterior por un
fac-tor de214; manteniendo su relaci ´on de aspecto y la informaci ´on en las diferentes bandas
S1i=Fs(x, y)
S2i=fi(C1i)
SVM C1i(x, y) =maxs(S1s) V1
V2
V4
IT Orientaci´on
Direcci´on de Forma
Color S1
C1
S2
C2
IT
C2 =max(PS2i) movimiento
binocular Disparidad
inferotemporal Corteza
Figura 10: Analog´ıa entre la ruta ventral y el modelo computacional propuesto.
En este sentido, este operador visual est ´a dedicado a la detecci ´on de regiones de inter ´es (IRO), el cual es especializado para extraer bordes, l´ıneas en diferentes orienta-ciones y esquinas. En este caso el operador IRO mapea a cada escala de la pir ´amide a una nueva pir ´amide,Iσ1, ..., Iσ12 7→ If1,1, ..., If1,12, en cuyas escalas se han ponderado las
regiones de inter ´es antes mencionadas.
Una vez que se ha aplicado el operador IRO, la informaci ´on resultante se sintetiza mediante un operadorm´axde forma local entre dos escalas subsecuentes de la pir ´amide de escalas,max(I(f1,2n−1), I(f1,2n))conn = 1, ..,6. Entonces un segundo operadorm´axes
aplicado con el objetivo de substituir cada muestra de las 6 bandas (Imax1,1, ..., Imax1,6) con
el valor m ´aximo de una regi ´on de tama ˜no i×j alrededor de la posici ´on de la posici ´on
(k, l):
Imax2,n = m´ax[Imax1,n(k+i, l+j)] (1)
ban-12 escalas Imagen de
entrada
12 escalas
Evolucionado IRO
If1,12
If1,11
If1,1
If1,2
If1,3
max(If1,2, If1,3)
Imax2,6
Imax2,2
Imax2,1
Iσ12
Iσ1
Iσ2
Iσ3
Iσ11
max(Imax1,n(k+i, l+j))
6 bandas 6 bandas
Imax1,6
Imax1,2
Imax1,1
max(If1,1, If1,2)
max(If1,11, If1,12)
Detecci´on de caracter´ısticas invariantes a posici´on (C1)
I(R, G, B, x, y) If1,n=f1(Iσn)
n= 1, ...,12
M´aximo local
n= 1, ...,6 Detecci´on de caracter´ısticas invariantes a escala (S1)
Figura 11: Diagrama a bloques de la etapa de detecci ´on de regiones de inter ´es
da. El prop ´osito de aplicar estas operaciones es lograr invariancia en diferentes esca-las y posiciones, adem ´as de sintetizar la informaci ´on en un n ´umero menor de bandas, (I(max2,1), ..., I(max2,6)).
3.3.2. Descripci ´on de caracter´ısticas y clasificaci ´on
Una vez que se han detectado las regiones con mayor informaci ´on, se procede a ca-racterizar dichas regiones. T´ıpicamente esta etapa de descripci ´on se realiza a partir de la correlaci ´on de patrones. Es en esta parte donde se propone la utilizaci ´on de una serie de funciones (las cuales sustituyen el uso de estos patrones predeterminados), donde se busca que su salida sea caracter´ıstica a la informaci ´on contenida en la imagen y por ende propia al objeto que se busca describir. Esto implica, que el costo computacional se vea reducido, ya que s ´olo es necesario aplicar un reducido conjunto de funciones para obtener un vector caracter´ıstico, en lugar de correlacionar cientos o miles de patrones preestablecidos. De acuerdo a la figura 12, la informaci ´on dada por la etapa C1 es la entrada ak−1operadores, los cuales emulan el conjunto de c ´elulas hipercomplejas de bajo orden. En otras palabras, para cada imagen de entradaImax2,n con n = 1, ...,6, un
conjunto de funciones fi(Imax2,n) con i = 2, ..., k, es aplicado con el objetivo de obtener
Pk
i=2fi(Imax2,1)
Pk
i=2fi(Imax2,2)
Pk
i=2fi(Imax2,6) IΣ,6 Imax2,6
IΣ,2 IΣ,1
max(IΣ,1, ..., IΣ,6)
200 m´aximos globales
6 bandas
Descriptor de la imagen (C2)
Imax2,2 Imax2,1
6×(k−1) f3(Imax2,2)
fk(Imax2,2)
f3(Imax2,6)
fk(Imax2,6) f2(Imax2,6)
k−1 funciones f3(Imax2,1)
fk(Imax2,1) f2(Imax2,1)
f2(Imax2,2)
Descripci´on de caracter´ısticas(S2)
Entrada 6 bandas
bandas
Figura 12: Diagrama a bloques de la etapa de descripci ´on de caracter´ısticas
Como siguiente paso, la metodolog´ıa contempla una etapa llamada C2, para la cual las salidas de los k − 1, operadores visuales son combinados aplicando una adici ´on,
IΣ,n = Pki=2fi(Imax2,n) con n = 1, ...,6, resultando en una nueva pir ´amide de 6 bandas.
Entonces, el vector descriptor es construido a partir de los 200 valores m ´as altos de la pir ´amide obtenida anteriormente, ver figura 12. Finalmente, este vector es la entrada de una m ´aquina de soporte vectorial, la cual es utilizada como un sistema clasificador.
3.3.3. Experimentos y resultados
Tabla 1: Esta tabla muestra la matriz de confusi ´on, obtenida por el m ´etodo HMAX sobre el conjunto
de im ´agenes de prueba para las 10 diferentes clases. En este caso, la precisi ´on de clasificaci ´on fue
del= 71.33 %(107/150 images).
Aeroplanos Bonsai Cerebros Carros Sillas Rostros Hojas Motocicletas Veleros Se ˜nales de Alto
Aeroplanos 11 1 0 1 0 0 0 2 0 0
Bonsai 0 10 3 1 0 1 0 0 0 0
Cerebros 0 1 10 0 1 0 1 1 0 1
Carro 1 1 0 11 0 1 0 0 1 0
Sillas 0 0 1 1 11 0 0 1 1 0
Rostros 0 2 1 0 0 10 1 0 0 1
Hojas 0 0 1 0 0 1 12 0 0 0
Motocicletas 2 0 0 2 0 0 0 11 1 0
Veleros 0 0 1 0 0 2 0 2 10 0
Se ˜nales de Alto 0 0 1 0 0 2 1 0 0 11
Los resultados de evolucionar la RVA se obtuvieron mediante un equipo Dell Precision T7500 Workstation, Intel Xeon 8 Core, NVIDIA Quadro FX 3800 sobre un sistema ope-rativo Linux OpenSUSE 11.1. La implementaci ´on del algoritmo de la m ´aquina de soporte vectorial fue tomada de la libreria libSVM, Chang y Lin (2011). En este caso, el experi-mento fue una clasificaci ´on multiclase de 10 categor´ıas, provistas por la base de datos de CalTech-101 (Fei-Feiet al., 2007). El mejor resultado obtenido fue con una precisi ´on del
Tabla 2: Esta tabla muestra la matriz de confusi ´on obtenida por la RVA. La precis ´on sobre la
clasifi-caci ´on es del= 80 %(120/150 images) en el conjunto de im ´agenes de prueba.
Aeroplanos Bonsai Cerebros Carros Sillas Rostros Hojas Motocicletas Veleros Se ˜nales de Alto
Aeroplanos 3 1 0 6 0 1 0 3 1 0
Bonsai 0 13 0 0 0 0 0 0 2 0
Cerebros 1 0 13 0 0 0 0 1 0 0
Carros 0 0 0 14 0 0 0 1 0 0
Sillas 0 2 0 0 10 3 0 0 0 0
Rostros 0 0 0 0 0 15 0 0 0 0
Hojas 0 0 0 0 0 0 15 0 0 0
Motocicletas 0 0 0 3 0 0 0 12 0 0
Veleros 0 1 0 0 0 1 0 1 12 0
Se ˜nales de Alto 0 0 0 0 0 1 0 0 1 13
Tabla 3: Comparaci ´on entre los tiempos de c ´omputo en los diferentes sistemas
Tama ˜no de HMAX HMAX RVA la imagen MATLAB CUDA MATLAB
896×592 34s 3.5s 2.6s
601×401 24s 2.7s 1.25s
180×113 9s 1s 0.23s
Uno de las principales ventajas de este modelo ha sido la sustituci ´on de patrones predeterminados por el uso de funciones, lo cual ha resultado en un mejor rendimiento tanto de clasificaci ´on como en tiempo de c ´omputo, esto sin perder la inspiraci ´on biol ´ogica en la corteza visual humana. Sin embargo, la mejora en la precisi ´on de clasificaci ´on ha sido marginal; lo cual ha motivado el an ´alisis de este modelo, detectando una gran p ´erdida de informaci ´on en la etapa de detecci ´on de regiones de inter ´es. Esto ha resultado en un replanteamiento de la RVA en nuevo modelo llamado la corteza visual artificial; donde este nuevo modelo se discute a detalle en el cap´ıtulo IV.
Tabla 4: N ´umero de convoluciones (NC) para cada funci ´on de la mejor soluci ´on obtenida despu ´es
de la evoluci ´on de la RVA.
f1= 0.05Dx( f2= log(Dxlog((DxxDx(C(C1)1))−C1)) f3= (|Dxx(C1)−Dx( f4=log(Dxx(C1)) f5=Dyy(C1)
Dy(I)) Dyy(C1))|)(|Dy(C1)|) +Dx(Dy(C1))
N C= 24 N C= 24 N C= 36 N C= 12 N C= 24
f6=Dyyy(C1) f7= (log(Dx(Dy(C1)))) f8=|Dy(C1) f9=Dy(Dx(Dy( f10= 0.05(Dyy(C1)
(C1·Gaussσ=2(C1)) −Dy(C1)| C1)))−log(Dy(C1)) −Dx(Dy(C1)))
Cap´ıtulo 4.
Corteza visual artificial
Si bien el sistema de la ruta ventral artificial permiti ´o implementar un modelo jer ´arquico y dirigido por funciones, sus resultados en t ´erminos de clasificaci ´on no fueron los espe-rados. Es en este sentido que se ha planteado una nueva forma de adquirir y sintetizar la informaci ´on visual, donde se ha tomado como motivaci ´on la teor´ıa de la atenci ´on visual y la relaci ´on existente entre las ´areas del cerebro que constituyen al sistema visual humano. Con lo cual, en este cap´ıtulo se propone un sistema computacional llamado la corteza vi-sual artificial (CVA), Clementeet al.(2013b); Olagueet al.(2014a), que toma todos estos elementos y los sintetiza en un modelo dedicado a la categorizaci ´on de im ´agenes dentro de una base de datos. As´ı el cap´ıtulo se divide en dos secciones principales, la primera describe brevemente esta motivaci ´on biol ´ogica y en una segunda secci ´on se describe a detalle el algoritmo computacional.
4.1. Integraci ´on de la ruta dorsal y la ruta ventral
SVM
Mapa Conspicuo Mapa Conspicuo Centro
Entorno
Imagen a Color
Mapa Conspicuo Mapa Conspicuo de
de Color de Forma de Intensidad
V1
V2 Color
V4
de Forma (CMS)
n m´aximos globales max(MMC, MMO, MMS, MMInt)
V MC=V OC(Icolor)V MO=V OO(Icolor) V MS=V OS(Icolor) V MInt= (Ir+Ig+Ib
3 )
¿Qu´e?
Ruta Ventral IT
MMC=
P
(V OM M k(CMC)) P(V OM M kMMO(=CMO) P(V OM M kMMS=(CMS)) P(V OM M kMMInt=(CMInt))
Vector Descriptor −
→ν= (α1, ..., αn) Orientaci´on
Direcci´on de Movimiento
Forma Binocular Disparidad
¿D´onde? / ¿C´omo?
Ruta Dorsal
Inferotemporal Corteza
Mapa Visual Mapa Visual Mapa Visual Mapa Visual
de Color (CMC) Orientaci´on (CMO)
Relaci´on
de Intensidad (CMInt) de Orientaci´on
V OM M2(CMO) V OM M3(CMS) V OM M k(CMInt) V OM M1(CMC)
Figura 13: La figura de la izquierda muestra las ´areas del cerebro involucradas en el proceso visual
humano; a ´un cuando se determinan dos rutas de informaci ´on, llamadas del “¿Qu ´e?” y “¿D ´onde?”,
existe una alta interconexi ´on entre ellas; como un ejemplo, la ruta ventral identifica el objeto y la ruta
dorsal nos indica su ubicaci ´on en la escena. Dado este proceso natural y la funcionalidad de cada
´area se propone una analog´ıa computacional en forma de etapas dentro de un modelo jer ´arquico,
figura derecha, estas procesan diferentes dimensiones de la imagen (color, orientaci ´on, forma e
intensidad); donde al final se selecciona la respuesta m ´axima sobre el mapa de prominencia, la cual ubica la localidad del objeto, y partir de esta se construye un descriptor.